CN1134561A - 九笔特征汉字编码 - Google Patents
九笔特征汉字编码 Download PDFInfo
- Publication number
- CN1134561A CN1134561A CN 95104165 CN95104165A CN1134561A CN 1134561 A CN1134561 A CN 1134561A CN 95104165 CN95104165 CN 95104165 CN 95104165 A CN95104165 A CN 95104165A CN 1134561 A CN1134561 A CN 1134561A
- Authority
- CN
- China
- Prior art keywords
- word
- chinese character
- code
- sign indicating
- indicating number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明属于汉字编码,它将汉字拆分成若干个“块”(即“字梁”),并用分类码与识别码分别表示每一个字梁,这样,分类码(为主)和识别码(为辅)就构成了汉字的编码。
由于分类码是根据字梁的方向、形状、笔顺以及字梁的互补组合综合考虑确定的易于记忆的相关字母,识别码即为字梁的读音的首字母(或相关字母),使得本发明有效地解决了汉字编码“减少记忆与缩短码长”之间的矛盾,提示该编码可用于:(1)编制字典、词曲或其他书刊目录,用于查字。(2)制成汉字输入软件,用于汉字输入。
Description
本发明属于汉字编码(下简称九笔特征码),以下第一、二两点较系统地评述了目前汉字编码的技术状况和本发明的目的,第三、四、五、六点是本发明的要点和实现方法,第七点列举了本发明的优越性。
一、目前汉字编码所存在的问题及发明九笔特征码的目的汉字编码指的是对每个汉字按一定的规则用若干个数字、字母等进行表示。例如电报码就是利用四位十进制数表示的,新华字典是按拼音字符编排的,属于拼音编码。
随着“中文电脑化”的日益普及,社会对汉字编码提出了更高更新的要求,汉字编码不只是用于查字,更主要的是用于在计算机键盘上对汉字进行输入,这就要求汉字编码必须是一种记忆量少、规律性强、操作简便、好学易记的汉字的另一种表示型式。
近十多年来,人们孜孜以求,然而提出的五百余种编码方案,虽经多次优选,仍然和人们理想中的编码方案相差一段较大的距离。例如:
拼音码:重码多,输入速度慢,不适于全汉字。
自然双拼码:记忆量大,思维不顺畅(用f、h、u等字母分别代替en、ang、sh等字母串,是一种思维扭曲,记忆十分别扭,有害正常思维,容易产生疲劳、烦燥),不适于全汉字。
五笔字型:汉字拆分不规范,记忆量太大,末笔字型识别码造成的不定记忆(例如同样是末笔的一点,要视左右、上下、混和三种字型而分别安排在Y、U、I三个键上)延长了思维时间,造成了思维不顺畅,极难形成快速的反射记忆。
表型码:损害了数字键利益,增大了手动距离,象形特征利用得不生动,很多并不合乎人们的口味与习惯,基本构字单位大小相差悬殊,无规律。
表音码:利用汉字和汉字部件的读音的首字母作为编码要素,较好地克服了部分记忆难的问题,但对一些无音部件勉强定音,感觉不太自然,对汉字的拆分尺度把握得不好(例如鼠、鼻、鹿等字,使用频率较低,作为基本单位不拆分,显然是不合适的),不适于全汉字。
以上所列的几种编码,目前具有一定的代表性,他们的缺点都是显而易见的。那么人们理想中的编码,应该是怎样的呢?以下列出七点,供参考。
(1)编码符号最好用标准英文键盘上的26个英文字母。
(2)能对全汉字(含繁、简体)进行编码。
(3)不依赖汉字的读音,适合任何人群。
(4)汉字拆分规范、直观、简明。
(5)记忆量小、学习难度低、操作方便。
(6)感觉自然,无别扭记忆。
(7)编码长度短,分布均匀,重码少。
以上七点,正是本发明一九笔特征码全部能解决的问题,也是本发明的目的。
九笔特征码称得上是一种真正易学好用、便于推广的汉字编码:无论是专职打字员还是作家、记者、编辑、教师和学生,学习九笔特征码,都会感到轻松愉快、毫不费力。可以预见,九笔特征码将会加快计算机在我国的应用普及。
二、九笔特征码的研究过程
众所周知,汉字形体构造甚为复杂,有单部件的,有多部件的,有拼合而成的,有嵌插而成的,有的字只有1笔,有的字多达30多笔,要把这么复杂的文字用3-4个字母表示,并要达到人们企盼已久的要求,其难度之大,是可想而知的。因此,本人在研究汉字编码时,首先并不急于实施某一具体构思,而是着眼于从总体上进行研究,把握正确的研究方向。毋庸置疑,汉字的发展,是随着社会的发展而一步一步发展的,那些与人们生存斗争密不可分最初形成的“第一批”文字一像形文字,随着岁月的流逝,不断地构成新的文字,形成复杂的像形。这个发展过程,连同像形文字本身,就说明了早期的人们在观察和记载事物时,得益于像形化表示的简单、明了。虽说这是最初的思维形式,然而却是最受欢迎、最直观、最易于记忆的表达方式。今天高度发达的电脑时代,能否再利用这种像形表达方式对汉字进行编码呢?
利用像形表达方式对汉字进行编码已有过偿试,如表形码(中国专利,专利号:8510556.7)、全仿形键盘形符汉字编码方法(中国专利,专利号:88108632.0)、电脑汉字象形编码法及其键盘(中国专利,申请号:92100557,公告号:1067753)、英文/东方文字根象形输入法(中国专利,申请号:93103790,公告号:1077548)、一种简易汉字编码方案及其键盘(中国专利,申请号:94102450,公告号:1092536)。但它们并不十分受欢迎,为什么?
回顾一下汉字的演变过程,可以说汉字是经历了真正的像形到大致像形到规范的书写之形,人们观察文字时也已从原来的视物像形对比观察逐渐转移到文字本身的构形(方向、笔顺、形状)观察,汉字再也不是“画”出来的“像形文字”,而是“写”出来的“规范文字”,这些规范文字,是由许多规范的固定结构组合而成的,这些固定结构一般都比较简单、紧凑,许多结构的方向性和顺序性对视觉产生较大的影响。这说明单纯利用视物像形对比方式对汉字进行编码是不够的,必须综合考虑构成汉字的固定结构的方向、笔顺、和形状即综合特征对汉字进行编码才合符人们的习惯
再看一看编码符号,26个英文字母,任意取3个,有17576种组合型式,任意取4个,有456976种组合型式。汉字虽然不是26种基本结构组成的,但近似地把特征相似的结构归为一类,共分为26种类型,则是可以做到的。而26个英文字母本身,都有其各自的特征,这些特征,又是由简单的1-3笔构成的,这就为其特征覆盖面提供了保证,也就是说,汉字基本结构的26种类型,与26个英文字母形成相关的对应关系是可能的。
因此,关键的问题是,汉字的基本结构,能否按特征相似关系归类呢?分析汉字基本结构的构字规律,发现相似的结构出现在汉字的不同位置,反过来,正因为出现在不同位置,受构型的影响,才不会完全相同,正因为特征相似不相同,才会有不同的搭配,这样,特征相似的结构,用一个字母表示,这个字母就被充分利用了(称为字梁搭配的互补利用原则)。也就是说,汉字的基本结构,按特征相似关系归类,是理想的归类方法。实际研究过程中,九笔特征码在这方面做得相当成功。这是九笔特征码好于其他各种编码的第一个关键。
以上从理论上探讨了汉字特征化编码的可能性,那么,前面提到,有的汉字由1笔组成,有的汉字多达30多笔,按基本结构来分,有由1-2个基本结构组成的,有由多达7-8个基本结构组成的。由1-2个基本结构组成的汉字,用1-2个英文字母表示,因字多,位置少,必然出现重码。对此,许多编码方案因此而废弃了一些基本结构,或采用了其他一些不直观的处理方法,结果造成了整个汉字拆分的不直观。
九笔特征码遵重人们的直观习惯,进一步利用组成这些汉字的特征相似结构的细微差异,引入分类码与识别码两个概念,有效地解决了这个问题,避免了拆分的不直观,保证了基本结构的完美、规范。这是九笔特征码好于其他各种汉字编码的第二个关键。
以上探讨了汉字编码的研究方向,但在实际研究过程中发现,各种特征相似的结构的分布是很不均匀的,且“特征”本身,也存在着一定的过度性,因此,本人在研究过程中,并不拘泥于局部特征,不先定框框,而是着眼于全局,对各类结构的分布情况进行统计和分析,依据协调互补的原理进行组合,然后再统计、再分析、再拆分、再组合,反反复复,最后根据全局的需要,确定对应的特征相关字母。这是九笔特征码取得成功的第三个关键。
总之,九笔特征码取得成功的关键在于正确的研究方向和循序渐进的研究过程。
三、九笔特征码基本概念
九笔特征码编码方案(下简称九笔特征码)把汉字比作房子,正如房子是由砖、梁、瓦构成的一样,汉字也是由一些固定结构的“砖、梁、瓦”构造而成的,九笔特征码将构成汉字的“砖、梁、瓦”统称为汉字的“字梁”。(注意“字梁”是九笔特征码的概念,与汉字部件、偏旁部首不能完全类同)
由于字梁数目较多,形状各异,为了用26个英文字母表示特征不同的字梁,九笔特征码将字梁按一定的构形特征和直观效果即方向、形状、笔顺以及字梁搭配的互补利用原则,将其分为26类,分别与相关的26个英文字母相对应,这些相对应的字母,就称为该字梁的分类码,可见,分类码相同的字梁具有相同或相似的直观特征。为了表示分类码相同的不同字梁,九笔特征码将每个字梁的读音(指拼音)或特征读音的首字母(无特征读音的用1或其他相关字母表示)称为该字梁的识别码,这样,每个字梁都可以用26个英文字母表示了。例如字梁“人、大、天”的分类码都是“A”,而识别码分别是“R、D、T”,即它们可分别表示为“AR、AD、AT”。
引入分类码和识别码是九笔特征码编码方案取得成功的重要因素,也是九笔特征码研究者开拓性思维的一个标志,此为其他编码方案所不及。继续阅读下文,您会感到研究者用心之良苦,考虑问题之周密、细致、全面,实属罕见。而作为研究者本人,早已把研究质量与规范汉字的拆分、减轻广大用户的学习负担联系起来了。(来完,见下页)
四、(一)九笔特征汉字编码字梁表(续)
(二)帮您阅读字梁表
1. 26类特征及其对应的分类码的简要说明
“A”类:以“人”字对称为引导特征。对称之形在人们的审美观念中处于重要地位,将对称之形收集到一起,顺其自然,合乎人们的习惯。26个英文字母,不乏对称之形,但“A”与“人”最相像,记忆十分自然。
“C”类:以“月”和“耳”为引导特征,因月亮和耳朵在人们的记忆中常常是个半圆,这样就与“C”联系起来了。
“D”类:以“点横”开头为其特征,而“点”读音(ding)以“D”开头,另外还可以把“D”看成一个大点,这样,“D”与“点”就联系起来了。
“E”类:以“山”和“十”为引导特征。“山”特征性强,与“E”相似,且不受方向影响;“十”是医院的标志,与英文字母“E”同音,有助于记忆。
“F”类:以“横下一撇”为引导特征,与“F”有一定的相似之处。
“G”类:以“横下口”和“口中竖”为特征,英文字母“G”“中”有“横“有“竖”,可以起一定的暗示记忆作用。
“H”类:以各种型式的“竖型”结构为其特征,与“H”有直观联系
“I”类:以“两横一竖”为特征,与“I”有直观联系。
“J”类:以“竖钩”为其特征,与“J”有同向协调的直观联系。
“M”类:以“宀”和“皿”为引导特征,该类字梁都给人扁平的感觉,在日常生活中,扁平的东西常用以盖物遮灰,正好“M”具有这种意味。
“N”类:以“艹”和“几”为引导特征,将“艹”中的一横顺时针倾斜,则变成“N”,“几”与“n”相似。
“O”类:以“口”为引导特征,与“O”相似。
“P”类:该类字梁的“横折”与“P”上的“半圆”同向相似,两类结构彼此较为协调。
“Q”类:以“撇上横”和“口中十”为其特征,“甲”与“Q”有相似之处,其它的可通过“钾、钿、铀、每”与“Q”联系。
“R”类:以“木”和“戈”为引导特征,该类字梁的方向性容易让人想到“R”中的最后一捺。
“S”类:该类字梁以“撇”起笔为特征,可将“S”看成“撇”的变型。
“T”类:以“亻”和“七”为引导特征,“亻”可看成“T”上的一横向左倾斜,“七”与“t”相似。
“U”类:以“匚”、“门”、“王”为引导特征,“匚”、“门”与“U”相似不受方向影响,“王”可通过“闰、匡”与“U”联系。
“V”类:“两点”的延伸即可形成“V”字母,“疒、豕、水”上都有“V”的标志。
“W”类:三点水旁的水的英文Water以“W”开头,“也、心、凶、”都有类似于“W”的向上合抱之形。
“X”类:以“女”和“又”为引导特征,它们的交叉或延伸线交叉特征最容易让人想起“X”的交叉之型。
“Y”类:以“禾、米、小”为引导特征,可以把“Y”中的一竖向上延伸,然后与该类字梁进行比较。
“Z”类:以“纟、厶、之”为引导特征,它们与“Z”有协调的同向相似。
以上不可能面面俱到,望读者在阅读时仔细比较和分析,充分发挥自已的想像能力。
2.识别码确定的简要说明
(1)有音字梁,利用该字梁拼音的首字母作为识别码。例如:
人 ren (R) 大da(D) 弋yi(Y) 于yu(U)
豕 shi (S) 厶si(S) 豸zhi(Z) 雨yu(U)
注意“yu”的“y”不发音
(2)个别有音字梁,利用其特征作为识别码,避免重码。例如:
工gong(I) 几ji(N)
干gan(G) 九jiu(J)
(3)部首字梁,以部首特征音作为识别码。例如:
刂立刀旁(D) 冖平宝盖(P)
虎字头(H) 攵反文旁(F)
(4)变型字梁,利用演化原字音作为识别码。例如:
爿pan(P) 巳si(S) 己ji(J)
(5)特征字梁,利用特征字音作为识别码。例如:
北(B)
亥(H) 皮(P)
(6)利用特征形状作为识别码。例如:
(L)(L)(E)匚(C)
(7)无音无专一特征字的字梁,用“I”作为识别码。例如:
(I) 春 chun 泰 tai 奉 fan 秦 qin
(I) 先 xian 告 gao
不用相关字音作为识别码,是为了避免不自然的感觉,并可减少记忆。四码字“I”类字梁较少重叠出现在字首和字尾,“I”以右手中指击键,结束时感觉自然、平稳,易于过度,这是选择“I”的理由。
刁(PGTT)
总之,识别码的确定,最大限度地考虑到了避免混淆、减少记忆、减少重码等多方面。
3.字梁取舍的简要说明
九笔特征码字梁的取舍是十分讲究的,因限于篇幅,以下只举几个例子,加以说明。
(1)规律性强、结构紧凑的部件,一般具有较好的直观性,并有助于记忆,宜全部收为字梁。例如:
“戋、戈、弋、
这九个字梁都属于“R”类,它们的构型,容易让人想起“R”的捺笔。虽然它们中有些构字频率较低,但如不收入,记忆量反而会增加,有时记多比记少更容易。同样的情况还有“U”类的“凵、、冂、匚、
”、“E”类的“山、巾、
、彐、
”、“Q”类的“甲、田、由、申、
母、毋”等等。26类字梁,几乎都有这种类似的情况。这正是九笔特征码记忆量小的关键之一。
(3)具有两种特征,不便于归类,但常因出现在字首,构字频率较高,只好收为字梁。例如:
“A”类的“贝”、“L”类的“”、“M”类的“穴”等。
(4)构字频率不高,但可缩短码长,减少重码,且便于分类的,亦收为字梁。例如:
总之,字梁表中的每一个字梁,都是经过反复考究后确定下来的。决不多收一个字梁,也决不漏收一个字梁是字梁取舍的总原则。
4.九笔特征码字梁搭配的简要说明
前面提过,从26个字母中任意取3个字母,有17576种组合型式,如何高效地利用这些位置,是需要费一番脑筋的。九笔特征码字梁的搭配,采用了协调、互补的原则,较好地解决了这个问题。
例如“、
爫”与“曰、日、
”的搭配,前者几乎全部出现在字首,后者即多半出现在字中、字尾,前者构成的字,高频字较少,后者构成的字,高频字较多,前者构成的字,笔画较多,即四码字多,后者构成的字,笔画较少即相对来说三码字较多,一前一后,一多一少,一高频一低频,数量上合起来恰到好处,无重码形成之忧,这样,将“K”这个字母充分地用活了(这就是字梁搭配的互补利用原则)。
再例如“M”类字梁的上中下搭配,扁平形状的协调;“P”类字梁的上中下搭配,方向的协调;“N”类字梁的上下搭配,竖形结构的协调;“U”类字梁数量上的搭配,“无方向”的协调等等。
又如“扌、氵、艹”是出现在字首频率较高的三个偏旁,与它们搭配的,几乎是不出现在字首的字梁;“一”与“虫”的搭配,由于两者形状不同,出现的位置就不一样,搭配起来,正好互相弥补不足,使字母得到充分利用。
五、九笔特征码的汉字拆分
九笔特征码的汉字拆分,是在遵重人们的直观习惯的基础上,进行研究整理出来的,它把拆汉字比作拆房子,从上至下、从左至右、从外至内按书写顺序拆分。现将拆分规律总结如下:
总原则:书写原则、直观原则、最小原则。
“书写原则”就是总体上必须按书写顺序拆分。
“直观原则”就是在拆分时要注意直观、自然。
“最小原则”就是每个汉字拆出的字梁的个数必须最小。
1.拆分规则
为了保证总原则的实施,以下列出拆分规则:
(1)“相似相随”原理
相似相随原理指的是同一方向彼此协调的结构(笔画)不宜拆散;边缘连接的结构(如“彐、ユ、曰”等)不宜拆散;双双相似的结构不宜拆散;重心平衡结构不宜拆散。例如:
丑:ユ十 (对,符合边缘连接)土 (错)
耕:三
井 (对,符合双双相似)丰八井 (错)
州:
川 (对,符合双双相似)
(错)
(2)“交不攀连、连不攀散”原理
交不攀连指的是相交结构的笔画不得拆散参与相连或离散笔画组成字梁,连不攀散指的是相连结构的笔画不得拆散参与离散笔画组成字梁。例如:
矢:大 (对,符合交不攀连)
人 (错)
失:丿夫 (对,符合交不攀连)大 (错)
及:丿廴 (对,符合交不攀连)乃 (错)
“注”这里的相交,指的是顺序性笔画,不包括隔笔相交,除非合乎最小原则。例如:
(3)“顺序优先”原理
顺序优先指的是依据书写顺序,先出现的笔画优先组合成字梁。例如:
说明:以上三条原理,都是在总原则的指导下总结出来的,在实际拆分过程中发生冲突时,应该是(3)服从(2),(2)服从(1),各项均不得捏造失去平衡、美观的字梁。例如:
2.拆分举例:
(1)常规拆分(按书写顺序拆分)
数:米女攵良、彐
拆:扌斤丶
(2)非常规拆分(按书写顺序拆分不能满足最小原则时,可按非常规拆分)
③插入拆分:妻:十彐女
说明:按常规拆分能满足最小原则时,则不按非常规拆分。例如:
六、九笔特征码输入方法
1.单字梁字
先输入分类码,再重叠输入识别码,然后补加空格键。例如:
“人”的输入码为:ARR “心”的输入码为:WXX
2.双字梁字
“这”的输入码为DZWW “仆”的输入码为THBB
“香”的输入码为YKOO “圭”的输入码为IIOO
3.多字梁字
依次输入第一、二、三和末位字梁的分类码即可。
“嗅”拆分:口丿目丶 输入码:OSCD
4.词组输入
双字词组,每字取前二码;三字词组,前二字各取一码,后一字取二码;多字词组,取前三位和末位字各一码。例如:“人民”ARLR“形势”GNJN“解放军”PIME“脍炙人口”CPAO “中华人民共和国”GTAO
5.标点符号及特殊字符的输入
“前(Q)双(S)引号 输入码为:QS
另外,日语的平假名、片假名也可采用此输入法。
6.学习键的设置
九笔特征码把?键作为学习用键。例如:
“健”的编码是TEIX,个别地方不清楚时,可以输入T?IX或??IX或T??X进行检索。
7.特殊汉字的编码
九笔特征码把无论用什么方式拆分都不直观的字进行了特殊处理。例如:
“凸”可看成:
拆分成:丨一 编码为:HGTT
8.繁体字与简体字编码方法一样,但应注意偏旁对应与字梁对应。
9.重码字的处理
九笔特征码码长短是其优点之一,正因为码长短,出现少量重码(占3.5%)是难免的,我们不能因为这3.5%的重码而为其他每个字再加上一识别码,因此只对重码字再设置补充码。
嘉:士口力口 IOVOIOVP(补)(方法:用相区别的分类码
喜:士口口 IOVO 替换末位码)
另外,对二级汉字的重码不设置补充码。
10.简码的设置
九笔特征码简码的设置,遵循如下原则:
(1)一级简码(一码加空格键)主要由“的、和”等高频连接字组成
(2)二级简码优先考虑1000个高频字,但同样的情况双字梁字优于四字梁字,四字梁字优于三字梁字,重码字优于非重码字,单用字优于词组字。
另外,对二级汉字不设置简码。
七、九笔特征码的优越性
前面提过,九笔特征码能满足人们企盼已久的对汉字编码的七点要求,这是其他汉字编码方案所望尘莫及的。在这里,我再重复地提出来,并适当加以说明。
(1)九笔特征码编码符号用的是标准英文键盘上的26个英文字母。
(2)九笔特征码能对全汉字(含繁、简体)进行编码。
(3)九笔特征码没有依赖汉字的读音,适合任何人群。
(4)与各种拆分型汉字编码相比,九笔特征码的拆分是最规范、最直观、最简明的。
九笔特征码的拆分规则,是在总结人们的直观习惯的基础上建立的具体细则,它使任何汉字的拆分都“有法可依、有法必依”,不像有的编码,用“兼顾直观”这种模糊不定的“规则”指导拆分,得不出唯一答案,只好设置容错码。
九笔特征码对汉字拆分直观、简明、规范的另一个原因是字梁本身规范、紧凑、平衡、美观,并与字梁分类代码保持协调一致,不像有的编码,一个字母所代表的结构,忽左忽右、忽上忽下、忽大忽小,横七竖八,乱七八糟。
请比较:
平:一丨 G UHK(五笔)面:
冂
三 DMJD(五笔)
(5)在各种汉字编码中,除了汉语拼音编码外,九笔特征码的记忆量是最小的,也是最易于学习、操作最方便的。
九笔特征码字梁数目虽然不少,但每一类字梁最多是由两类特征组成,且这两类也有一定的协调性,都与分类码有或多或少的联系。或者说,九笔特征码把非常复杂的大范围选择记忆变成了生动的提示记忆。请比较如下记忆量:
五笔:由(M)田(L)甲(L)申(JH)母(XYYI)毋(XFE)
九笔:由(Q)田(Q)甲(Q)申(Q)母(Q)毋(Q)
表形:由(Y)田(Q)甲(T)申(F)母(Q)毋(Q)
表形码虽然是利用汉字部件的像形原理,但因没有遵重人们的直观习惯,生拼硬凑的成分太多,所以没有起到应有的减少记忆的效果。
九笔特征码只有字梁、分类码、识别码三个概念,一张有规律的字梁表,几句非常生动的拆分规则和最直观的输入方法,没有附加规则,不需进行字型判断,比较一下,学习是不是最容易,操作是不是最方便。
(6)九笔特征码能促使思维有序化
九笔特征码的字母与字梁,总是顺其方向,顺其自然,如同汉字是由字母组成的一样。用九笔特征码输入汉字时,感觉、记忆均十分自然,九笔特征码越熟练,思维就越有条理,反应就越敏捷,不像有的编码,给人的思维是“乱”的,特别是别扭记忆和不定记忆,有损害思维的作用。
(7)与各种编码相比,九笔特征码的分布是最均匀的,因此其码长最短,重码最少,词组容量最大。
除汉语拼音编码外,各种编码的全码长都是4码,九笔特征码也不例外。因此,这里要比较的,实际上是思维长度,即空格键的一码,不属于思维范畴。九笔特征码的单字梁字、双字梁字的识别码是重叠输入的,因而只能算一个思维长度(码)。
为了比较各种编码的码符分布均匀情况,这里再引入一个区间的概念。
表:三种汉字编码码符分布均匀情况的比较
五笔字型 | 表音码 | 九笔特征码 | |
总区间 | 676 | 676 | 676 |
落入2-10个字的区间数 | 417 | 340 | 532 |
至少落11个字的区间数 | 93 | 121 | 67 |
至少落20个字的区间数 | 16 | 24 | 2 |
不足4码的字(个) | 602(占16%) | 0 | 2522(占68%) |
重码字(对) | 68(占2%) | 145(占4%) | 129(占3.5%) |
简码字(个) | 2750(占74%) | 2850(占77%) | 3300(占89%) |
一般编码方案都用的是26个英文字母,按四码计算,它可提供676(26×26)个“区间”,每个区间又有676(26×26)个位置,一级汉字共3755个,如果每个区间容纳5.5个汉字,那就比较理想。因此,比较区间落入的字的个数,即可判断该编码的码符分布均匀情况。分布得越均匀,那么重码就会越少,简码就可以设置得越多,词组容量就越大。以下以一级汉字3755(除去多音字剩3705)个为研究对象列表比较如上表:
上表可以看出,九笔特征码在将近缩短一个码长的情况下,仍能保持与其他汉字编码相近数目的重码,可见九笔特征码的码符分布均匀情况远远超过其他汉字编码。
Claims (5)
1、九笔特征汉字编码(下简称九笔特征码)与现有的五笔字型等多种汉字编码一样,都是将汉字拆分成若干个“块”(五笔字型称为“字根”,九笔特征码称为“字梁”),然后按一定的方法将这些“块”进行分类,一般分为26类,并分别用26个英文字母表示(一般编码方案没有将其定名,九笔特征码将其定为分类码)。对于“块”数较多的汉字,这些英文字母(分类码)就足够组成编码,对于“块”数较少的汉字,不同的编码方案采用了不同的处理方法。九笔特征码的特点在于另将每一个“块”的读音(指拼音)的首字母(无读音的用其他相关字母)定为识别码(具体内容见下页字梁表),对于单、双字梁字,识别码是组成编码的后半部分。
2、权利要求1所述的编码方法中,汉字拆分成“块”的方法(规则),不同的编码方案具有不同的构思,它们一般仅限于常规拆分,九笔特征码的特点在于在拆分的三原则(书写原则、直观原则、最小原则)的指导下总结出的三原理(相似相随原理、交不攀连、连不攀散原理、顺序优先原理)和常规拆分以外的非常规拆分(对称拆分、嵌入拆分、插入拆分)使汉字(含繁、简体)的拆分趋于规范、直观、简明、具有唯一性。
4、权利要求1所述的编码方法中,识别码还可改为用整个汉字的读音的首字母。
5、根据权利要求1所述的编码方法,权利要求2所述的拆分方法,权利要求3所述的分类码,权利要求1所述的识别码,可以:①编制字典、词典或其它书刊目录,用于查字(含繁、简体)。②利用现有的电脑技术制成汉字(含繁、简体)输入软件,用于在计算机键盘上对汉字进行输入和文字处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN95104165A CN1068684C (zh) | 1995-04-28 | 1995-04-28 | 一种计算机键盘形象码汉字输入法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN95104165A CN1068684C (zh) | 1995-04-28 | 1995-04-28 | 一种计算机键盘形象码汉字输入法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1134561A true CN1134561A (zh) | 1996-10-30 |
CN1068684C CN1068684C (zh) | 2001-07-18 |
Family
ID=5075023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN95104165A Expired - Fee Related CN1068684C (zh) | 1995-04-28 | 1995-04-28 | 一种计算机键盘形象码汉字输入法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1068684C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009062426A1 (fr) * | 2007-11-14 | 2009-05-22 | Yiming Qin | Méthode d'entrée de bloc orthographique de caractères chinois |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1010990B (zh) * | 1988-04-08 | 1990-12-26 | 郭飞凤 | 普及型无重码汉字部首编码输入方法 |
CN1030156C (zh) * | 1993-04-22 | 1995-10-25 | 金日光 | 英文/东方文字根象形输入法 |
-
1995
- 1995-04-28 CN CN95104165A patent/CN1068684C/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009062426A1 (fr) * | 2007-11-14 | 2009-05-22 | Yiming Qin | Méthode d'entrée de bloc orthographique de caractères chinois |
Also Published As
Publication number | Publication date |
---|---|
CN1068684C (zh) | 2001-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1023916C (zh) | 简繁五笔字根汉字输入系统 | |
CN85101817A (zh) | 安子介式汉字笔形电脑编码法及其键盘 | |
CN1515988A (zh) | 一类音形义汉字编码输入法 | |
CN1134561A (zh) | 九笔特征汉字编码 | |
CN1026924C (zh) | 汉字析音编码计算机汉字输入方法 | |
CN1259615C (zh) | 字母键盘和数字键盘通用汉字输入法及其左半字形识别法 | |
CN1045021C (zh) | 中文数码电脑汉字输入法及其键盘 | |
CN1166997C (zh) | 汉字免拆分快速输入法 | |
CN1129058C (zh) | 仿真拼音汉字输入法 | |
CN1604017A (zh) | 基于一健一字的汉字特征定位编码复合输入方法 | |
CN1271492C (zh) | 26104电脑汉字自动转换输入法 | |
CN1019527B (zh) | 字符的图元输入方法及其键盘 | |
CN1092815C (zh) | 一种汉字辞书检索和微机输入法及键盘 | |
CN1275732A (zh) | 汉语键盘输入系统及其应用技术 | |
CN1492305A (zh) | 平行拆分式汉字编码小键盘输入及其显示方法 | |
CN1374577A (zh) | 英文字母键盘和数字键盘通用汉字电脑输入法及其键盘 | |
CN1050913C (zh) | 中文部首代码编码输入的文书处理装置 | |
CN1246759C (zh) | 一种采用根素码的计算机汉字输入方法 | |
CN100342311C (zh) | 根拆式汉字输入及其显示方法 | |
CN1220127C (zh) | 双分汉字与双分输入法及合成字模 | |
CN1492303A (zh) | 二分汉字编码小键盘输入及其显示方法 | |
CN1144930A (zh) | 部首编码汉字键盘输入系统 | |
CN1186976A (zh) | 计算机汉字八四码输入法及键盘 | |
CN1725156A (zh) | 汉字输入方法及使用该方法进行输入的键盘 | |
CN1026197C (zh) | 一种英文字母编码的计算机汉字输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |