CN1129833C - 数字统一码汉字输入法及其键盘 - Google Patents
数字统一码汉字输入法及其键盘 Download PDFInfo
- Publication number
- CN1129833C CN1129833C CN 00110317 CN00110317A CN1129833C CN 1129833 C CN1129833 C CN 1129833C CN 00110317 CN00110317 CN 00110317 CN 00110317 A CN00110317 A CN 00110317A CN 1129833 C CN1129833 C CN 1129833C
- Authority
- CN
- China
- Prior art keywords
- stroke
- code
- chinese character
- input
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
一种汉字数字编码输入法及其键盘。其特征是深入解析汉字、部件与笔画之间的关系,将汉字的基本笔画赋予顺序值和位置关系值。以笔画的顺序值和关系值之和“1”~“9”,作为汉字编码键盘映像的码元。本项发明与现有数字码相比,较好地解决了数字编码的易学性、规范性、高效率之间的矛盾。适用范围广,不仅适合于通常的计算机,更适合于移动电话、视频点播等数字设备输入中、日、韩汉字。
Description
本发明涉及计算机汉字输入法及其键盘,特别是汉字数字编码输入法及其键盘,属于计算机信息处理技术领域。
当今随着信息技术迅速发展,中文平台的汉字字符集完成了由GB 2312-80标准到GBK规范转换,开始向GB 18030(ISO/IEC 10646-1:2000)标准过渡,到目前为止,尚没有针对GB 18030字符集解决多文种汉字信息处理技术的理想的汉字数字编码输入方法。现有技术中,计算机汉字编码输入法普遍存在的缺点是:拆字不完全符合国家语委制定的汉字部件规范,取码顺序不完全符合国家语委制定的汉字笔顺规范。一般汉字数字编码法或者仅取笔画的笔形值,而对笔画的位置信息没有进行系统的研究和运用;或者沿用形码取字根的方式,难以解决键位少、汉字部件多的矛盾,对字根的采用没有形成一定的规律的方法,字根运用的规范性较差。一般汉字数字编码法的易学性与输入效率矛盾比较突出,易学的编码方法往往码长较长、重码率高,同组重码字数多。
本发明的研究目标是:解析汉字部件与笔画之间的关系,以笔画的笔形信息顺序值、笔画与其他笔画之间的位置关系偏移值,作为汉字数字编码的取码依据,建立符合规范的易学易用的多文种汉字编码方法。实现识字与识码规律统一,编码规则简单,能见字识码,使用者短时间内可学会;字、词编码方法统一,既可以输入单字,又可以输入词语;简、繁汉字编码方法统一,中、日、韩汉字编码方法统一,既可输入中文简繁体汉字、也可输入日文汉字、韩文汉字;编码的易学性与高效率汉字输入的统一。汉字编码的拆字方法符合国家语委制定的汉字部件规范,取码顺序符合国家语委制定的汉字笔顺规范。
本发明是这样实现的,包括如下步骤:
(1)编码的码元
本发明将构成汉字的五种基本笔画:“横、竖、撇、点、折”赋予顺序值:“1、2、3、4、5”。
将笔画与笔画的位置关系划为两类:独立与相交。并且将这两类位置关系赋予位置关系偏移值:“0”和“5”。将与其它笔画相交的“横、竖、撇、捺、折”,称为“横交、竖交、撇交、捺交、折交”。
除“折”以外的基本笔画的代码由其顺序值与偏移值相加得到。因此,独立的笔画“横、竖、撇、点”的代码为“1、2、3、4”,而“横交、竖交、撇交、捺交”的代码为“6、7、8、9”。规定“折”无论是独立,或者与其它笔画相交,它的代码均为“5”。
使用九个部首作为“超越笔画部件”,这九个“超越笔画部件”是:“王、虫、竹、氵、纟、十、艹、八、口”,分别赋予代码“1、2、3、4、5、6、7、8、9”。
(2)汉字的结构类型与首尾切分
本发明将汉字结构类型归纳为四种基本结构:上下结构,左右结构,包围结构,嵌套结构。对于上下结构、左右结构、包围结构字,采取二分法,把字分成“字首”和“字尾”两部分。把上下结构汉字的上部构字部件,左右结构汉字的左部构字部件,作为字首,其余作为字尾。包围结构汉字的首尾,按书写顺序划分,先写的构字部件作为字首,其余作为字尾。对于嵌套结构字不切分。
(3)取码方法
本发明规定一个汉字可以取一至六码。对于上下结构、左右结构、包围结构字,字首按笔顺取前一至三码,字尾按笔顺取前一至二码和末笔代码,整字最多取六码。对于嵌套结构字,按笔顺,取前一至五码和末笔代码。
(4)词汇编码
词码由组成该词的字编码提取:二字词的编码由每个字编码的前三码组成,三字词、四字词以及多字词的编码取第一、二、三字每个字的前二码。
(5)编码码元与键位的对应关系
本发明采取计算机等数字设备的数字键输入汉字,汉字编码码元与键位的对应关系是:笔画的输入代码分别对应于键盘上的数字键“1~9”;九个部首“王、虫、竹、氵、纟、十、艹、八、口”的输入代码分别对应于键盘上的数字键“1、2、3、4、5、6、7、8、9”。
本发明的特点是:使用计算机等数字设备的数字键1~9输入汉字,每个数字键仅对应一个部首和一种笔画。编码规则简明,能见字识码,一般人十分钟以内可学会。既可以输入单字,又可以输入词语,码长仅为1~6码,重码率较低,同组重码汉字数少,同组重码汉字一般不超过10个,实现了一页提示行显示所有同组重码字。拆字符合国家语委制定的汉字部件规范,取码顺序符合国家语委制定的汉字笔顺规范。较好地解决了汉字数字编码的易学性、规范性、高效率之间的矛盾。
下面详细说明如何实现本发明:
本发明的键位安排有两种方式,一种是计算机、移动电话等数字设备的数字小键盘,另一种是计算机等数字设备标准键盘的数字行,将它称之为数字大键盘。附图1是数字统一码大键盘键位图,附图2是数字统一码小键盘键位图。两种键位安排方式的码元与键位的对应关系相同,键帽上标出了笔画与数字对应关系。
根据数字编码的特点,本发明将汉字的笔画合并为五种基本笔画:“横(一)”(含“提”)、“竖(丨)”、“撇(丿)”、“点(丶)”(含“捺”)、“折(乙)”(包括左折和右折),并且将这五种笔画赋予顺序值:“1”、“2”、“3”、“4”、“5”。
汉字通常由若干个部件组成,而部件又由笔画组成。汉字的字形由笔画及其位置来决定。既使笔画完全相同,而笔画之间的位置不同,也可构成不同的汉字,例如,“于”和“亍”。笔画之间的位置关系属性是一个重要属性,可以作为汉字编码的依据。汉字中笔画之间的位置关系有:“相离”,如“八”;“相接”,如“丁”、“口”;“相交”,如“十”、“丰”等。实验表明,“相交”关系与前两者容易区分,并且较前两者带有更多的编码信息。因此,我们将“相离”和“相接”关系归并为“独立”关系。这样,笔画与笔画的位置关系就简化为两类:独立与相交。并且将这两类位置关系赋予位置关系偏移值:“0”和“5”。
独立的笔画“一”,如“二”、“王”中的起笔和末笔;“丨”,如“旧”、“四”中的起笔;“丿”,如“采”、“风”中的起笔;“丶”,如“广”中的起笔、“虫”中的末笔;“折(乙)”,如“几”、“礼”中的末笔。
与其它笔画相交的“横”称为“横交”,如“右”、“木”中的起笔;将与其它笔画相交的“竖”称为“竖交”,如“丰”、“串”中的末笔;将与其它笔画相交的“撇”称为“撇交”,如“独”中的起笔、“舟”中的第二笔;将与其它笔画相交的“捺”称为“捺交”,如“又”、“文”中的末笔;将与其它笔画相交的“折”称为“折交”,如“又”、“力”中的起笔。
笔画的代码由其顺序值与位置关系偏移值相加得到。因此,独立的“横(一)”、“竖(丨)”、“撇(丿)”、“点(丶)”、“折(乙)”的代码为:“1”(1+0=1)、“2”(2+0=2)、“3”(3+0=3)、“4”(4+0=4)、“5”(5+0=5),而“横交”、“竖交”、“撇交”、“捺交”的代码为:“6”(1+5=6)、“7”(2+5=7)、“8”(3+5=8)、“9”(4+5=9)。照此类推,“折交”的代码应为“0”(5+5=10,取末位“0”)。
考虑到数字编码的码元资源十分珍贵,少用一个码元“0”,对本发明在移动电话等数字设备上使用更方便。所以,不区分“折”是否与其它笔画相交,规定“折”无论是独立,或者与其它笔画相交,它的代码均为“5”。
本发明将笔画赋予顺序值“1”、“2”、“3”、“4”、“5”,可以充分利用人们已有汉字知识,与惯例相符,便于使用者接受,从而使编码方法易学。本发明独创了将笔画的位置关系赋予位置关系偏移值,并将笔画的顺序值与偏移值通过简单运算得出笔画代码。因此使本发明既具备创造性和新颖性,又具备实用易学的特点。
针对笔画代码“7”、“8”、“9”出现在首码的概率较低,多数出现在第二码以后的情况。为了降低重码率和提高编码效率,选取部首“艹”、“八”、“口”等作为“超越笔画部件”,赋予代码“7”、“8”、“9”。同时,选取其它6个部首作为“超越笔画部件”,将部首“十”、“王”、“虫”、“竹”、“氵”、“纟”等赋予代码“1”、“2”、“3”、“4”、“5”、“6”。使用部首作为“超越笔画部件”,可提高编码效率,降低重码率。但是,过多使用“超越笔画部件”,会影响编码的易学性。因此,本发明选取“超越笔画部件”的原则是:一个码元对应一个“超越笔画部件”。
汉字的结构类型决定了汉字的取码方法。全国信息技术标准化委员会将汉字的结构类型为十二种:左右结构,左中右结构,上下结构,上中下结构,全包围结构,向下包围结构,向上包围结构,向右包围结构,向右下包围结构,向左下包围结构,向右上包围结构,嵌套结构。本发明将十二种汉字结构类型合并归纳为四种基本结构,它们是:上下结构,左右结构,包围结构,嵌套结构。举例如下:
上下结构,如:字,花,冀。
左右结构,如:们,种,做。
包围结构,如:因,闻,函,区,庙,甸,起,进。
嵌套结构,如:申,央。
汉字分独体字与合体字两种,合体字占汉字的绝大多数。上下结构、左右结构、包围结构的字一般是合体字,这样的字,很容易拆分为首尾两部分。嵌套结构字多数是独体字,它们是浑然一体的,不容易切分成部件,或者已经是基本构字部件,不能再切分。
本发明对于上下结构、左右结构、包围结构字,采取二分法,将其一分为二,拆分成“字首”和“字尾”两部分。把上下结构汉字的上部构字部件,左右结构汉字的左部构字部件,作为字首,其余作为字尾。包围结构汉字的首尾,按书写顺序划分,先写的构字部件作为字首,其余作为字尾。对于嵌套结构字不切分。
本发明规定一个汉字可以取一至六码。对于上下结构、左右结构、包围结构字,字首按笔顺取前一至三码,字尾按笔顺取前一至二码和末笔代码,整字最多取六码。对于嵌套结构字,按笔顺,取前一至五码和末笔代码。取码方法举例如下:
字445556 各3599 们32425 种367257 闻425126 出52752
庙413251 起612515 进668454 申25667 右689 丰6667
汉字的使用频度是不同的,仅“的”、“一”、“是”、“在”、“了”、“不”、“和”、“有”前八个高频字,就占汉字总出现次数的10%。因此,我们对一些常用字,不仅给出全部代码,而且给出“简码”,简码的长度分别为1、2、3码。并且,简码一定是全码的前1、2、3码,使用者不必记简码。下面例子给出了“是”、“在”、“有”等字的简码与全码:
是2 251124 在6 68261 不1 1324 和3 3679
顶121 121134 我3 365654 正12 12121 中2 2567
在输入汉字时,采取逐键提示的方式,每次键入,都有可选汉字提示,使用者即可选字,而不必等到输入全部代码。在前3码逐键提示的过程中,高频字出现在可选汉字的前部,从而提高了编码的效率。由于高频字和逐键提示相配合,仅输入前3码就可以有效地找需要输入的汉字。
词码由组成该词的字编码提取,二字词的编码由每个字编码的前三码组成,三字词、四字词以及多字词的编码取第一、二、三字每个字的前二码。输入时,字词混合输入,不必区分字码和词码。例如,若输入“中华人民共和国万岁”,可以按字编码输入:
中2567华3286人34民51565共6778和367251国914万153岁252354
也可以按词编码输入:
中华256328人民34515共和国673691万岁153252
本发明对国际标准ISO/IEC 10646-1 2000字符集中的所有中文、日文、韩文汉字进行编码,适用于多语种汉字处理,既适用于我国国家标准字符集汉字输入,适用于我国台湾省字符集汉字输入,也适用于日文字符集、韩文字符集汉字输入。本发明可以用于通常的计算机汉字输入,也可以用于移动电话、视频点播、DVD、电子记事本、掌上电脑等输入汉字。
Claims (3)
1.一种汉字数字编码计算机键盘输入法,包括如下步骤:
(1)将构成汉字的五种基本笔画横、竖、撇、点和折分别赋予1、2、3、4和5的顺序值;
(2)将构成汉字的笔画位置关系划分为独立和相交两种,并分别赋予上述两种位置关系为0和5的位置关系偏移值;
(3)构成汉字的笔画编码输入代码为:所述笔画的顺序值+位置关系偏移值;所述独立的基本笔画输入代码别赋予1、2、3、4和5;除折笔画以外的与其它笔画相交的所述基本笔画输入代码分别赋予6、7、8和9,与其它笔画相交的折笔画输入代码赋予5;
(4)从构成汉字的部首中选择王、虫、竹、氵、纟、十、艹、八、口9个部首作为作为超越笔画部件,并分别赋予代码1、2、3、4、5、6、7、8、9;
(5)将欲输入的汉字结构归纳为上下结构、左右结构、包围结构和嵌套结构;
当输入上下结构、左右结构和包围结构汉字时:将汉字划分为字首和字尾两部分,字首按笔顺取前一至三码,字尾按笔顺取前一至二码和末位代码,整字码长一至六码;
当输入嵌套结构汉字时:按笔顺取前一至五码和末位代码。
2.一种利用权利要求1计算机汉字输入法输入词组的方法,其特征在于词码由组词的字编码提取:二字词的编码由每个字编码的前三码组成,三字词、四字词以及多字词的编码取第一、二、三字每个字的前二码。
3.一种利用权利要求1计算机汉字输入法输入汉字的计算机键盘,其特征在于所述汉字编码码元与键盘上的键位的对应关系是:所述笔画的输入代码分别对应于键盘上的数字键1~9;所述9个部首王、虫、竹、氵、纟、十、艹、八、口的输入代码分别对应于键盘上的数字键1、2、3、4、5、6、7、8、9。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00110317 CN1129833C (zh) | 2000-04-13 | 2000-04-13 | 数字统一码汉字输入法及其键盘 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00110317 CN1129833C (zh) | 2000-04-13 | 2000-04-13 | 数字统一码汉字输入法及其键盘 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1265482A CN1265482A (zh) | 2000-09-06 |
CN1129833C true CN1129833C (zh) | 2003-12-03 |
Family
ID=4580318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 00110317 Expired - Fee Related CN1129833C (zh) | 2000-04-13 | 2000-04-13 | 数字统一码汉字输入法及其键盘 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1129833C (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102830809B (zh) * | 2011-06-15 | 2016-05-11 | 高静敏 | 汉字编码输入法 |
-
2000
- 2000-04-13 CN CN 00110317 patent/CN1129833C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1265482A (zh) | 2000-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100432903C (zh) | 半方盲文数字编码汉字输入法 | |
CN1129833C (zh) | 数字统一码汉字输入法及其键盘 | |
CN1181425C (zh) | 一种基于数字键盘的汉字输入法 | |
CN1858678A (zh) | 一种自由笔形编码的汉字输入方法 | |
CN100520685C (zh) | 一种汉字拼音识别码输入法 | |
CN1349157A (zh) | 数字笔形码汉字输入法 | |
CN101046707A (zh) | 首音汉字输入法 | |
CN1032986C (zh) | 笔顺码计算机汉字输入方法 | |
CN1177271C (zh) | 四笔号码字词不重输入法及其键盘 | |
CN1348127A (zh) | 一种通用数字键盘拼音文字的精确输入方法 | |
CN1885242A (zh) | 可减少候选字的汉字输入方法:笔画编码+拼音首字母 | |
CN101078953A (zh) | 一种汉字升级数码输入法 | |
CN100353300C (zh) | 一种数字码汉字输入法 | |
CN1425975A (zh) | 笔形数码汉字输入法 | |
CN1243300C (zh) | 计算机汉字三笔数码输入法 | |
CN1141632C (zh) | 一种汉字二位数码输入法 | |
CN1114853C (zh) | 一种使用计算机数字键盘的数字编码双笔划汉字输入法 | |
CN2476059Y (zh) | 姜码输入法的键盘 | |
CN1677321A (zh) | 多键并击式简音拼音输入汉字的方法及键盘 | |
CN1299190C (zh) | 一种内外五笔画数字键盘汉字输入方法 | |
CN86103506A (zh) | “一键双值”键盘及中外文字高速输入方法 | |
CN1251438A (zh) | 以汉字基本元素和规范部件为基础的汉字数字编码输入法 | |
CN1107256C (zh) | 一种汉字右码计算机输入方法 | |
CN1241100C (zh) | 同一声形数码汉字输入法 | |
CN1889019A (zh) | 一种汉字编码法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C57 | Notification of unclear or unknown address | ||
DD01 | Delivery of document by public notice |
Addressee: Xu Wanxu Document name: Notification of Termination of Patent Right |
|
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20031203 |