CN1290879A - 中文信息处理汉字数字化规范编码输入技术 - Google Patents
中文信息处理汉字数字化规范编码输入技术 Download PDFInfo
- Publication number
- CN1290879A CN1290879A CN 00126536 CN00126536A CN1290879A CN 1290879 A CN1290879 A CN 1290879A CN 00126536 CN00126536 CN 00126536 CN 00126536 A CN00126536 A CN 00126536A CN 1290879 A CN1290879 A CN 1290879A
- Authority
- CN
- China
- Prior art keywords
- coding
- chinese
- sign indicating
- indicating number
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明是一种可用于移动通讯领域的中文信息处理汉字数字化编码技术。该方法提供了一种新颖的汉字数字化规范编码输入技术。它基于人们已有的知识储备,将国标GB2312-80的一、二级汉字及数万条词汇按声、形两部分进行数字编码,通过科学地选取基本码元和有规律的组合,使所需的记忆量降到最低限度。在进一步扩充字词库容量的基础上,降低重码率、减少击键次数,有效地解决移动通讯设备汉字、词汇以及整句输入困难的问题,给人们提供一种可用于数字键盘的既规范、又简易便捷、能即学即用的汉字数字化编码快速输入技术。
Description
本发明涉及一种用于中文信息处理的汉字数字编码技术,特别是使用数字键盘将汉字输入到某种电子设备以进行中文信息处理和通讯的汉字数字化规范编码输入方法。
计算机技术的迅速发展,具有汉字信息处理功能的数字键盘产品以及可用数字键盘操作控制的电子设备不断涌现,无论是移动通信领域或军事指挥、侦察、控制等军用设备,还是电视、因特网、机顶盒等遥控器乃至使用数字键盘的学习设备、信息点播设备、信息家电、数据存储设备等都亟待开发既方便、又容易掌握的汉字数字化输入技术。目前现行的汉字数字编码有笔划输入和拼音输入等方法,如爱立信公司的手机采用“字能输入”,飞利浦、摩托罗拉公司的手机安装了“T9智能汉字输入”以及拼音输入,此外也有获得国家专利采用计算机数字小键盘输入汉字的“笔顺码”和“王码五笔划”输入法。其不足之处就是使用起来比较繁琐、规则太多、难于记忆,输入一个汉字的击键次数较多,掌握它们仍有一定的难度,难以适应移动通信领域中文信息交换的要求。
由于数字键盘仅有十个键位,现行数字编码方案多以汉字的笔划和笔顺进行编码,因而对使用者的文化程度提出了较高的层次要求,不利于数字编码技术的应用和普及,虽然有的数字输入法改进后增加了联想和智能处理功能,对提高汉字的整体录入速度是有利的,但单个汉字仍需一笔一键地输入,因而这种数字编码方案难以胜任中文词汇和整句的输入。
本发明的目的是要提供一种声形结合的汉字数字化编码输入技术,它基于一般人已有的知识储备,在减少重码率,达到或超过现行汉字数字编码技术指标的同时,实现汉字数字编码的规范化,从而使所需的记忆量降到最低限度,有效地解决移动通信设备中汉字、词汇以及整句输入困难的问题,给人们提供一种可用于数字键盘的既规范、又简易便捷,能即学即用的汉字快速数字输入技术。
本发明的汉字数字化规范编码输入技术是这样实现的:以数字键盘0-9的十个数字键进行汉字编码,其编码思想是:汉字的编码由声码和形码两部分组成,声码部分取汉字的声母或汉字拼音的首字母编码;形码部分取汉字字形的首、尾、补编码。汉字形码对首、尾、补编码的约定意义是:以汉字左上角的起笔为首形码,右下角末笔为尾形码,补形码则取汉字右上角最高的笔形。根据上述编码原则,一个汉字的完整编码可分四次取码,最多五键输入一个汉字。
一、汉字声母的编码
汉字声母的编码是指选取汉字汉语拼音的首字母进行数字编码。一般情况下首字母即是该汉字的声母,若遇卷舌音如:ZH、CH、SH或无声母的汉字则取其拼音的第一个首字母编码。为便于记忆,声母的数字编码按汉语拼音的送气音与不送气音分类成对编码。
1、声母编码(共十对)
数字代码 1 2 3 4 5 6 7 8 9 0
声母 B M D L G J S Z H Y
︱ ︱ ︱ ︱ ︱ ︱ ︱ ︱ ︱ ︱
声母 P F T N K Q X C W R
数字代码 10 20 30 40 50 60 70 80 90 00
2、韵母编码(共三个)
韵母 A O E
数字代码 01 02 03
这种将声母有规律的分类进行组合式编码的方法,不仅一目了然、便于记忆,且能以所见知所不见,如:数字键盘的1、2、3键位分别表示声母B、M、D,若要输入其对应的声母P、F、T,则其编码分别为10、20、30,只需补零即可。如果需要输入英文字符,也可以从英语的角度来理解,不难看出这是按清辅音和浊辅音成对的关系进行编码的,从而达到使人过目不忘的效果。
二、汉字字形的编码
形码部分的字形编码元素分为十种,分别用十个数字键表示:
1-横 (含横上钩和斜右钩)
2-竖、撇(含竖左钩)
3-点、捺
4-叉 (两笔交叉)
5-插 (一笔纵穿两笔或两笔以上)
6-口 (四角整齐的方形)
7-角 (一笔向下转折或两笔笔头相接所形成的角形)
8-八 (八字形和八字形的异形)
9-小 (小字和小字的异形)
0-点下有一横 (点和横相结合)
以上编码元素按国家现行出版的《新华字典》、《辞海》对汉字笔形的分类进行了取舍,但基本码元相同。
由于同声母的一些汉字可能具有相似的首尾结构,会出现多个汉字编码相同的重码问题,为了在仅有十个基本码元的情况下降低重码率,分散较为集中的重码字,达到易学好用的目的,数字编码采用了一种“路径”的编码方法,将全码相同的多个不同汉字,按其使用的频度分散到全码所路经的上级简码,即任何一个全码汉字,均可根据编码需要占用其路经上的一级、二级、三级简码资源。例如有四个汉字的编码均为01879,则按使用频度以018为一个高频字简码,0187为一个常用字简码,01879为两个非常用字的编码。因此只要知道一个字的全码,就可以在键入全码的路径上找到该汉字,从而使重码率大为降低,实现了同一编码最多不超过三个汉字,为计算机的汉字快速输入创造了条件。
三、词汇的编码
词汇编码按“声母优先、形码后补”的原则编码,即按顺序键入词汇中每个汉字的声母,最多只取四个声母,不足四个声母的可继续取形码补足。根据词汇的字数不同有以下三种编码方法。
(一)双字词编码:
首字声码+末字声码+首字首形码+末字尾形码
(二)三字词编码:
依序输入每个字的声码和末字的尾形码。
即:声码1+声码2+声码3+末字尾形码
(三)多字词编码:
依序输入前三个字的声码和末字的声码。
即:声码1+声码2+声码3+末字声码
基于快速输入的思想,词汇的编码与汉字的编码一样,采用了“路径”的编码方法,全码词可以占用“路径”上的二级简码、三级简码资源。如“北京”的简码为16;“计算机”的简码为676;“满园春色”的全码为20807,“中华人民共和国”的全码为89005,均无需输入形码。汉字数字规范编码收集了国标GB2312-80的一、二级汉字和三万余条常用词汇。此外,囊括了商务印书馆1996年版《汉语成语小词典》中的全部成语,只需敲入声母的编码就可进行成语的录入而不会与汉字发生重码。
汉字数字规范编码与现行汉字数字编码方法相比,其特点是编码的规范性和确定性。本发明是基于国家确定了的汉语拼音和对汉字笔形分类的确定性条件下构建的规范编码,其中任何一个汉字也都具有规范确定的编码,因而最大限度地减少了汉字编码的模糊性和二义性。
编码规则特别简单,充分利用了人们已有的知识储备,没有特殊要求记忆的附加内容。由于用声母作首码,形码的基本码元只占十个键位,扩展的异形码元25个,在输入过程中,使用者取码的视线总是固定在汉字的首、尾及右上角位置的笔划,操作规范,不存在对汉字进行部件拆分的问题,因此学习掌握特别容易,一个具有小学文化程度的人,已经学习了汉语拼音和查字典的基础知识,只要了解一下编码的基本规则就可以使用数字键盘进行汉字输入,容易做到即学即用。
词汇和整句录入是提高输入速度的关键,词汇的编码以声母编码为主,形码为辅,先“声”后“形”,形码则先首码而后尾码,符合人们书写的思维过程,词的简码只需连续键入两个或两个以上的声母,省去形码后,进一步提高了词汇的输入速度,如三字以上的词组只需根据声母就可以快速录入,无须考虑该词组具体怎么写,因而给人一种亲切自然的感受。
声母的ZH、CH、SH和Z、C、S不分,适应南方方言不分卷舌音的特点。
本发明可以软件的形式制作成中文信息处理汉字数字化输入系统,为计算机提供一种汉字数字式声形输入方式;也可固化于只读存储器中作为中文信息处理的汉字数字化编码输入技术,供手持式移动通信设备输入汉字进行中文信息的传输和交换。
Claims (3)
- 一、中文信息处理的汉字数字编码输入技术,一种使用数字键盘将汉字输入到某种电子设备特别是移动通讯设备以进行中文信息处理和通信的汉字数字化规范编码输入方法。该方法的汉字编码由声码和形码两部分组成,其特征在于:(1)声码部分为汉语拼音的声母或韵母的首字母,形码部分的基本编码元素取自《新华字典》以及《辞海》对汉字四角笔形的十种分类。(2)根据权利要求(1)所述的声码部分的声母或韵母是经数字编码后以数字形式键入的,其编码规则是按汉语拼音的送气音与不送音及其它相关特征进行分类,然后成对组合编码的。编码表如下:1.声母编码(共十对)数字代码 1 2 3 4 5 6 7 8 9 0声母 B M D L G J S Z H Y︱ ︱ ︱ ︱ ︱ ︱ ︱ ︱ ︱ ︱声母 P F T N K Q X C W R数字代码 10 20 30 40 50 60 70 80 90 002.韵母编码(共三个)韵母 A O E数字代码 01 02 03(3)根据权利要求书(1)所述的形码部分由汉字四角笔形的十种分类为编码元素,汉字编码元素同样是经数字编码后以数字形式键入的,其数字编码与《新华字典》对汉字四角笔形的编码相同。
- 二、汉字数字化规范编码输入技术以“路径”的编码方法分散较为集中的重码字到沿路径的二级、三级简码上,输入汉字和词汇时,可在输入全码的过程中录入路径中的相应汉字。
- 三、词汇的编码采用“声码优先,形码后补”的编码方案,即按顺序键入词汇中每个汉字的声母,不足四个声母的可继续取形码补足。其编码规则根据词汇的字数不同有以下三种编码方法:(1)双字词编码:首字声码+末字声码+首字首形码+末字尾形码(2)三字词编码:依序输入每个字的声码和末字的尾形码。即:声码1+声码2+声码3+末字尾形码(3)多字词编码:依序输入前三个字的声码和末字的声码。即:声码1+声码2+声码3+末字声码
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00126536 CN1244855C (zh) | 2000-09-13 | 2000-09-13 | 中文信息处理汉字数字化规范编码输入技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00126536 CN1244855C (zh) | 2000-09-13 | 2000-09-13 | 中文信息处理汉字数字化规范编码输入技术 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1290879A true CN1290879A (zh) | 2001-04-11 |
CN1244855C CN1244855C (zh) | 2006-03-08 |
Family
ID=4591857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 00126536 Expired - Fee Related CN1244855C (zh) | 2000-09-13 | 2000-09-13 | 中文信息处理汉字数字化规范编码输入技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1244855C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1317906B (zh) * | 2001-05-19 | 2010-05-26 | 刘君度 | 移动通信与计算机信息处理中英文数字化输入集成系统 |
-
2000
- 2000-09-13 CN CN 00126536 patent/CN1244855C/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1317906B (zh) * | 2001-05-19 | 2010-05-26 | 刘君度 | 移动通信与计算机信息处理中英文数字化输入集成系统 |
Also Published As
Publication number | Publication date |
---|---|
CN1244855C (zh) | 2006-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5360343A (en) | Chinese character coding method using five stroke codes and double phonetic alphabets | |
CN101231558A (zh) | 甲骨文拼音与部件拆分输入法 | |
CN101169697A (zh) | 一种音形结合的向电子设备中手写汉字的输入法 | |
CN1290879A (zh) | 中文信息处理汉字数字化规范编码输入技术 | |
CN1255670A (zh) | 汉字五键输入法 | |
CN101046707A (zh) | 首音汉字输入法 | |
CN1053049C (zh) | 音数码计算机汉字输入方法 | |
CN1106146A (zh) | 电脑汉字声韵调编码输入法及其键盘 | |
CN1122913C (zh) | 计算机汉字信息处理的规范编码输入方法 | |
CN1300976A (zh) | 多输入方式的计算机汉字编码输入技术 | |
CN1096112A (zh) | 一种汉字声母编码输入法及其所用键盘 | |
CN1050206C (zh) | 正规拼音汉字输入法 | |
CN1022350C (zh) | 汉字字母编码输入法 | |
CN1272693C (zh) | 仿真拼音数字输入法 | |
CN105589574B (zh) | 一种基于五个元音码编码的中英数混合文字输入方法 | |
CN1041465C (zh) | 一种联想式简拼汉字输入方法 | |
CN1312564C (zh) | 韵母声母码手机汉字输入法 | |
CN102073384A (zh) | 形音一体码 | |
CN1116336A (zh) | 替调式汉语拼音汉字、词输入编码法及键盘 | |
CN1031228C (zh) | 场景交际专用袖珍计算器 | |
CN100365550C (zh) | 汉语常用字三码输入法 | |
CN1885241A (zh) | 一种可减少候选字的汉字输入方法:拼音编码+笔画编码 | |
CN1327313C (zh) | 计算机汉字十大结构符型输入法 | |
CN86107214A (zh) | 一种汉语词输入方法及其键盘 | |
CN1078814A (zh) | 汉字混合输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060308 Termination date: 20091013 |