CN1244855C - 中文信息处理汉字数字化规范编码输入技术 - Google Patents
中文信息处理汉字数字化规范编码输入技术 Download PDFInfo
- Publication number
- CN1244855C CN1244855C CN 00126536 CN00126536A CN1244855C CN 1244855 C CN1244855 C CN 1244855C CN 00126536 CN00126536 CN 00126536 CN 00126536 A CN00126536 A CN 00126536A CN 1244855 C CN1244855 C CN 1244855C
- Authority
- CN
- China
- Prior art keywords
- digital
- chinese character
- coding
- code
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Abstract
本发明是一种可用于移动通讯领域的中文信息处理汉字数字化编码技术。该方法提供了一种新颖的汉字数字化规范编码输入技术。它基于人们已有的知识储备,将国标GB2312-80的一、二级汉字及数万条词汇按声、形两部分进行数字编码,通过科学地选取基本码元和有规律的组合,使所需的记忆量降到最低限度。在进一步扩充字词库容量的基础上,降低重码率、减少击键次数,有效地解决移动通讯设备汉字、词汇以及整句输入困难的问题,给人们提供一种可用于数字键盘的既规范、又简易便捷、能即学即用的汉字数字化编码快速输入技术。
Description
技术领域
本发明涉及一种用于中文信息处理的汉字数字编码技术,特别是使用数字键盘将汉字输入到某种电子设备以进行中文信息处理和通讯的汉字数字化规范编码输入方法。
背景技术
汉字数字编码现状
计算机技术的迅速发展,具有汉字信息处理功能的数字键盘产品以及可用数字键盘操作控制的电子设备不断涌现,无论是移动通信领域或军事指挥、侦察、控制等军用设备,还是电视、因特网、机顶盒等遥控器乃至使用数字键盘的学习设备、信息点播设备、信息家电、数据存储设备等都亟待开发既方便、又容易掌握的汉字数字化输入技术。目前现行的汉字数字编码有笔划输入和拼音输入等方法,如爱立信公司的手机采用“字能输入”,飞利浦、摩托罗拉公司的手机安装了“T9智能汉字输入”以及拼音输入,此外也有获得国家专利采用计算机数字小键盘输入汉字的“笔顺码”和“王码五笔划”输入法。其不足之处就是使用起来比较繁琐、规则太多、难于记忆,输入一个汉字的击键次数较多,掌握它们仍有一定的难度,难以适应移动通信领域中文信息交换的要求。
由于数字键盘仅有十个键位,现行数字编码方案多以汉字的笔划和笔顺进行编码,因而对使用者的文化程度提出了较高的层次要求,不利于数字编码技术的应用和普及,虽然有的数字输入法改进后增加了联想和智能处理功能,对提高汉字的整体录入速度是有利的,但单个汉字仍需一笔一键地输入,因而这种数字编码方案难以胜任中文词汇和整句的输入。
发明内容
1、发明的目的和任务
本发明的目的是要提供一种声形结合的汉字数字化编码输入技术,它基于一般人已有的知识储备,以汉字的读音及汉字三个角的笔形特征进行数字编码,通过标有数字符号和拉丁字母的键盘输入汉字。在减少重码率,达到或超过现行汉字数字编码技术指标的同时,实现汉字数字编码的规范化,从而使所需的记忆量降到最低限度,有效地解决移动通信设备中汉字、词汇以及整句输入困难的问题,给人们提
2、编码原理
本发明的汉字数字化规范编码输入技术是这样实现的:以数字键盘0-9的十个数字键进行汉字编码,其编码思想是:汉字的编码由声数码和形数码两部分组成,声数码部分取汉字的声母或汉字拼音的首字母的数字代码;形数码部分取汉字字形的首、尾、补编码。汉字形码对首、尾、补编码的约定意义是:以汉字左上角起笔的数字代码为首形数码,右下角末笔的数字代码为尾形数码,补形数码则取汉字右上角最高的笔形的数字代码。根据上述编码原则,一个汉字的完整编码可分四次取码,其数字编码的最大码长为5,即最多五键输入一个汉字。
3、汉字声母的编码
汉字声母的编码是指选取汉字汉语拼音的首字母进行数字编码。一般情况下首字母即是该汉字的声母,若遇卷舌音如:ZH、CH、SH或无声母的汉字则取其拼音的第一个首字母编码。为便于记忆,声母的数字编码按汉语拼音的送气音与不送气音分类成对编码。
(1)声母编码(共十对)
数字代码 1 2 3 4 5 6 7 8 9 0
B M D L G J S Z H Y
| | | | | | | | | |
声母 P F T N K Q X C W R
数字代码 10 20 30 40 50 60 70 80 90 00
(2)韵母编码(共三个)
韵母 A O E
数字代码 01 02 03
这种将声母、韵母依照汉语拼音字母表的顺序和清、浊对应的关系有规律的分类再进行组合,并以是否补识别码“0”作为区分对应字母的编码方法,不仅一目了然、便于记忆,且能以所见知所不见,如:数字键盘的1、2、3键位分别表示浊辅音声母B、M、D,若要输入其对应的清辅音声母P、F、T,则其编码分别为10、20、30,只需补零即可。由于英文字符与汉语拼音所使用的是同一种字符形式,如果需要输入英文字符,在非输入法状态下,键入相应的编码即为英文字符,也可以从英语的角度来理解,不难看出这是按清辅音和浊辅音成对的关系进行编码的,从而达到使人过目不忘的效果。
4、汉字字形的编码
形数码部分的字形编码元素分为十种,它们分别代表具有相同形态特征的一类汉字笔画或部件,分别用十个数字键表示:
2—丨丿亅竖、撇(含竖左钩)
3—丶 点、捺
4—十ナ乂 叉(两笔交叉的部件)
5—扌 插(一笔纵穿两笔或两笔以上的部件)
6—口口 口(四角整齐的方框形部件)
7—乛 角(一笔向下转折或两笔笔头相接所形成的角形)
8—八丷 八(八字和八字形的变形)
9—小忄 小(小字和小字形的变形)
0—亠 点下有一横(点和横相结合);
以上编码元素按国家现行出版的《新华字典》、《辞海》对汉字笔形的分类进行了取舍,但基本码元相同。
5、汉字的编码方法
汉字编码是根据编码规则对汉字的读音及其字形特征确定数字代码的过程。
(1)汉字数字编码的取码过程和码元顺序
对汉字进行数字编码输入,首先取汉字的声数码,即取其汉语拼音的首字母,并将汉语拼音的首字母转换为对应的数字代码,然后取该汉字左上角首形码的数字代码,其次取该汉字右下角尾形码的数字代码,最后再取该汉字右上角补形码的数字代码,最多五键,所需要的汉字就会出现在屏幕上,这时按空格键或者选字键便可输入该汉字。
汉字数字编码的码元顺序也可作如下表示:
声数码+首形数码+尾形数码+补形数码
其中,声数码是汉字读音首字母的数字代码,形数码是汉字字形的数字代码。字形码的取码方法和位置与《新华字典》和《辞海》对汉字左上角、右下角、右上角所取的笔形一致。例如对“示”字进行编码,其汉语拼音的首字母是S,所对应的数字代码是7,首形码为“示”字左上角的横,所对应的数字代码是1,右下角的点与相邻的竖钩和另一个点组成码元部件“小”,故尾形码所对应的数字代码为9,右上角的补形码仍是横,所对应的数字代码是1,依照编码规则“示”字的编码为7191。再如“福”字的编码,其读音的声母是F,所对应的数字代码是20,首形码为左上角的点,数字代码是3,右下角的尾形码是方框,数字代码是6,右上角的补形码是横,数字代码是1,“福”字的编码为20361。
(2)解决汉字重码的技术措施
本发明对汉字编码采用定音定位的取码方式,任何一个汉字均可定音定位取出四个编码元素,由于编码元素中的声母是由一位或二位数字作为代码,故一个汉字的编码最多可由五位数字组成。由于同声母的一些汉字在笔画形态上可能具有相似的首尾结构,会出现多个汉字编码相同的重码问题,为了在仅有十个基本码元的情况下降低重码率,分散较为集中的重码字,达到易学好用的目的,数字编码采用了一种“路径”的编码方法,汉字“路径”的编码方法是这样实现的:将全码相同的多个不同汉字,按其使用的频度分散到全码所路经的上级简码,即任何一个全码汉字,均可根据编码需要占用其路经上的一级、二级、三级简码资源。例如有四个汉字的编码均为01879,则按使用频度以018为一个高频字简码,0187为一个常用字简码,01879为两个非常用字的编码。因此只要知道一个字的全码,就可以在键入全码的路径上找到该汉字,从而使重码率大为降低,实现了同一编码最多不超过三个汉字,为计算机的汉字快速输入创造了条件。
6、词组的编码
词组编码按“声母优先、形码后补”的原则编码,即按顺序键入词组中每个汉字的声母,最多只取四个声母,不足四个声母的可继续取形码补足。依照汉字声母的编码规则,一个汉字声母的数字代码可以是2位数字,由两个声母与两个字形代码所组成的二字词编码最大可为6位数字,因而词组的最大码长为6。根据词组的字数不同有以下三种编码方法。
(1)双字词编码
依序输入每个字的声数码和首字首形数码、末字尾形数码。
即:首字声数码+末字声数码+首字首形数码+末字尾形数码
(2)三字词编码
依序输入每个字的声数码和末字的尾形数码。
即:声数码1+声码2+声数码3+末字尾形数码
(3)多字词编码
依序输入前三个字的声数码和末字的声数码。
即:声数码1+声数码2+声数码3+末字声数码
基于快速输入的思想,词组的编码与汉字的编码一样,采用了“路径”的编码方法,全码词可以占用“路径”上的二级简码、三级简码资源。如“北京”的简码就是其声母JB,与之对应的数字编码则为16;“计算机”的简码是JSJ,与之对应的数字编码则为676;“满园春色”的简码是MYCS,与之对应的数字编码则为20807,“中华人民共和国”的简码是ZHRG,与之对应的数字编码则为89005,均无需输入形码,只输入其声母的数字代码就行了。汉字数字规范编码收集了国标GB2312-80的一、二级汉字和三万余条常用词汇。此外,囊括了商务印书馆1996年版《汉语成语小词典》中的全部成语,只需敲入声母的编码就可进行成语的录入而不会与汉字发生重码。
7、有益效果
(1)规范性
汉字数字规范编码与现行汉字数字编码方法相比,其特点是编码的规范性和确定性。本发明是基于国家确定了的汉语拼音和对汉字笔形分类的确定性条件下构建的规范编码,其中任何一个汉字也都具有规范确定的编码,因而最大限度地减少了汉字编码的模糊性和二义性。
(2)易学性
汉字的数字编码规则特别简单,充分利用了人们已有的知识储备,没有特殊要求记忆的附加内容。由于用声母作首码,形码的基本码元只占十个键位,扩展的异形码元25个,在输入过程中,使用者取码的视线总是固定在汉字的首、尾及右上角位置的笔划,操作规范,不存在对汉字进行部件拆分的问题,因此学习掌握特别容易,一个具有小学文化程度的人,已经学习了汉语拼音和查字典的基础知识,只要了解一下编码的基本规则就可以使用数字键盘进行汉字输入,容易做到即学即用。
(3)易用性
词汇和整句录入是提高输入速度的关键,词汇的编码以声母编码为主,形码为辅,先“声”后“形”,形码则先首码而后尾码,符合人们书写的思维过程,词的简码只需连续键入两个或两个以上的声母,省去形码后,进一步提高了词汇的输入速度,如三字以上的词组只需根据声母就可以快速录入,无须考虑该词组具体怎么写,因而给人一种亲切自然的感受。
声母的ZH、CH、SH和Z、C、S不分,适应南方方言不分卷舌音的特点
具体实施方案
以下举例说明对汉字和词组进行数字编码的过程和步骤,首先需要按编码规则确定汉字和词组的声母及应取的形码笔画,然后转换成对应的数字代码并组合成为汉字或者词组的数字全编码,最后根据汉字和词组的重码情况及其使用频度确定它们的简码,这些简码就是实际应用的数字编码。
以下是部分汉字与词组的数字规范编码示例:
字词 声母 形码笔画 数字全编码 数字编码
上 S 丨一一 7211 7
人 R 八八八 00888 00
重 Z 丿一丿 8212 82
行 H 丿丨一 9221 92
活 H 丶口丿 9362 93
行 X 丿丨一 70221 702
入 R 八八八 00888 008
看 K 丿口丿 50262 502
倍 B 丿口亠 1260 1260
瑞 R 一丨丨 00122 00122
程 C 丿一口 80216 80216
科学 KX 丿十 507024 5070
科技 KJ 丿乂 506244 5062
汉语 HY 丶 90361 9036
奥运会 AYH 丶 01093 0109
互联网 HLW 丨亅 94902 94902
中央电视台 ZYDT 80330 80330
万紫千红 WZQH 908609 908609
本发明可以软件的形式制作成中文信息处理汉字数字化输入系统,为计算机提供一种汉字数字化声形输入方式;也可固化于只读存储器中作为中文信息处理的汉字数字化编码输入技术,供手持式移动通信设备输入汉字进行中文信息的传输和交换。
Claims (3)
1、一种用于中文信息处理的汉字编码输入方法,该方法的汉字编码由数字形式的声数码和数字形式的形数码两部分组成,其特征在于:
(1)汉字的声数码部分为汉字汉语拼音首字母的数字代码,汉字的形数码部分由首形数码、尾形数码、补形数码组成,它们分别为汉字三个角的笔形特征的数字代码,对汉字形数码的约定意义是:先以汉字左上角起笔笔形特征的数字代码为首形数码,然后以汉字右下角末笔笔形特征的数字代码为尾形数码,最后以汉字右上角最高处笔形特征的数字代码为补形数码,汉字的声数码与汉字的形数码共同构成汉字数字化规范编码输入法及其编码体系,并用以输入汉字和词组;
(2)汉字的声数码是汉字汉语拼音的首字母的数字代码,其代码的排列规律依照汉语拼音字母表的排列顺序和清、浊对应的关系进行分类再成对组合,以补识别码“0”作为区分同组对应字母的数字代码:
声母编码 (共十对)
数字代码 1 2 3 4 5 6 7 8 9 0
B M D L G J S Z H Y
| | | | | | | | | |
声母 P F T N K Q X C W R
数字代码 10 20 30 40 50 60 70 80 90 00
韵母编码 (共三个)
韵母 A 0 E
数字代码 01 02 03;
(3)汉字字形的编码元素分为十种,它们分别代表具有相同形态特征的一类汉字笔画或部件,并分别与数字键盘上的十个阿拉伯数字相对应,其对应的映射关系为:
1—一乚
横,含横上钩和斜右钩
2—丨丿亅 竖,含撇和竖左钩
3—丶 点和捺
4—十ナ乂 叉,两笔交叉的部件
5—扌 插,一笔纵穿两笔或两笔以上的部件
6—囗口 口,四角整齐的方框形部件
7—乛 角,一笔向下转折或两笔笔头相接所形成的角形
8—八丷 八,八字和八字形的变形
9—小忄 小,小字和小字形的变形
0—亠 点下有一横,点和横相结合;
(4)汉字的数字编码是不等长码,最大码长为五键,其编码可以用五键或小于五键的简码方式编码,汉字数字编码的码元顺序为:
声数码+首形数码+尾形数码+补形数码。
2、如权利要求1所述的汉字编码输入方法,其词组的数字编码的最大码长为六位数字,其特征在于词组的数字编码先取各汉字声母的数字代码,然后再取汉字字形的数字代码,根据词组的字数不同,其编码方法有如下三种:
双字词编码
依序输入每个字的声数码和首字首形数码、末字尾形数码,
首字声数码+末字声数码+首字首形数码+末字尾形数码;
三字词编码
依序输入每个字的声数码和末字的尾形数码,
声数码1+声数码2+声数码3+末字尾形数码;
多字词编码
依序输入前三个字的声数码和末字的声数码,
声数码1+声数码2+声数码3+末字声数码。
3、如权利要求1、2所述的汉字编码输入方法,其特征还在于:减少汉字和词组重码的技术措施是对多个数字全编码相同的重码汉字或词组按“路径”的编码方法以六键或小于六键的简码方式编码,将其设置为沿路径的各级简码,此简码即为该汉字或词组固定的数字编码,录入汉字或词组就是根据汉字或词组的全编码查看沿路径的各级简码直至全编码的过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00126536 CN1244855C (zh) | 2000-09-13 | 2000-09-13 | 中文信息处理汉字数字化规范编码输入技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00126536 CN1244855C (zh) | 2000-09-13 | 2000-09-13 | 中文信息处理汉字数字化规范编码输入技术 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1290879A CN1290879A (zh) | 2001-04-11 |
CN1244855C true CN1244855C (zh) | 2006-03-08 |
Family
ID=4591857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 00126536 Expired - Fee Related CN1244855C (zh) | 2000-09-13 | 2000-09-13 | 中文信息处理汉字数字化规范编码输入技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1244855C (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1317906B (zh) * | 2001-05-19 | 2010-05-26 | 刘君度 | 移动通信与计算机信息处理中英文数字化输入集成系统 |
-
2000
- 2000-09-13 CN CN 00126536 patent/CN1244855C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1290879A (zh) | 2001-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1156741C (zh) | 手写汉字识别方法及装置 | |
CN1244855C (zh) | 中文信息处理汉字数字化规范编码输入技术 | |
CN1194285C (zh) | 多输入方式的计算机汉字编码输入技术 | |
CN1834870A (zh) | 日本语文字输入方法及系统 | |
CN1072785A (zh) | 无理序号数字综合编码法及其键盘 | |
CN1196057C (zh) | 一码二形数字编码汉字输入方法 | |
CN1054219C (zh) | 一种汉语拼音输入法及其键盘 | |
CN1317906B (zh) | 移动通信与计算机信息处理中英文数字化输入集成系统 | |
CN102073384A (zh) | 形音一体码 | |
CN1303506C (zh) | 汉字拼音标调定型输入法 | |
CN1050206C (zh) | 正规拼音汉字输入法 | |
CN1272693C (zh) | 仿真拼音数字输入法 | |
CN1122913C (zh) | 计算机汉字信息处理的规范编码输入方法 | |
CN1207648C (zh) | 五三码及其键盘 | |
CN1032559C (zh) | 文字输入加速方法 | |
CN1347023A (zh) | 二笔手写智能输入系统 | |
CN1140867C (zh) | 中文汉字三码输入法 | |
CN1598743A (zh) | 按规范笔顺输入汉字的输入法及其键盘 | |
CN1101439A (zh) | 面向词的中文文字处理输入装置 | |
CN1419179A (zh) | 按笔顺输入的汉字输入法及其键盘 | |
CN1158593C (zh) | 汉字及多国文字的计算机双笔六笔画输入方法 | |
CN1081523A (zh) | 双拼汉语编码法及其键盘 | |
CN1273381A (zh) | 笔画直接输入的汉字输入法及其键盘 | |
CN1722066A (zh) | 四角笔画输入法 | |
CN1086327A (zh) | 汉字四笔画数码查字法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060308 Termination date: 20091013 |