CN1155874C - 一种简繁汉字统一键盘编码的输入方法 - Google Patents
一种简繁汉字统一键盘编码的输入方法 Download PDFInfo
- Publication number
- CN1155874C CN1155874C CNB021136661A CN02113666A CN1155874C CN 1155874 C CN1155874 C CN 1155874C CN B021136661 A CNB021136661 A CN B021136661A CN 02113666 A CN02113666 A CN 02113666A CN 1155874 C CN1155874 C CN 1155874C
- Authority
- CN
- China
- Prior art keywords
- root
- roots
- basic
- sign indicating
- indicating number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种简繁汉字统一键盘编码的输入方法,其主要技术特征是将汉字拆解成的字根经优化筛选出具有典型意义的、构字能力强的元根,其中部分元根是含多个元素的、具有集合概念的双等根、三等根、四等根、端连根、门簇对称根、顺折根、逆折根、复折根、風簇繁体根等簇根,元根通过添加笔画或变形形成一些元根的扩展根,扩展根与元根一起构成基本根,将基本根分为26组,每组按一定规律定义于键盘A-Z26个字母键上。其基本输入方法是:第1码取左上角的基本根码,第2码取紧挨着第1码右边的基本根码,再从右下角取第3码,第4码取紧挨着第3码左边的基本根码。
Description
1所属技术领域
本发明属于汉字编码技术
2背景技术
计算机汉字输入离不开编码,虽现已有手写输入等技术,但速度较慢。至今汉字编码已出现成百上千种方案,有万“码”奔腾之说。其中最常见的有全拼、双拼、狂拼码,自然码、五笔字形、郑码、太极(二笔)码、五十字元、大易码等。汉字编码输入总的规律是记忆量小、简单易学的编码输入速度慢;记忆量大的全形码输入速度快。
五笔字形、郑码、大易码是应用最广泛的全形码。前者主要用于简体汉字输入,后者主要用于繁体汉字输入,中者兼而顾之。
汉字编码有几个最重要的技术指标:最大码长、重码率、字根数及在键盘上排列的规律性。
现较流行的快速输入编码的最大码长都为4。若为5(如专门输繁体字的仓颉码)会严重减慢输入速度。若为3,则编码空间太小,重码率急剧升高,也会严重减慢输入速度。
五笔字形采用4位最大码长,25码元(即使用的编码键数),简称为4-25制。编码空间为406900(即无重码可安排的汉字、字符数)。
郑码采用4-26制,编码空间为475254。
大易码采用4-40制,它把其它一些非字母键也纳入编码,编码空间高达2625640。大的编码空间有利于减少重码,但给其它键字符的输入带来不便,由于手的控制范围较大,输入速度也会减慢。
据笔者统计,对大陆国标6763个简化汉字的编码,86五笔字形的静态全码重码率为3.7%,郑码的静态重码率为3.9%。据资料,大易码的重码率也为三点几。
五笔字形与郑码需记忆的字根都为200个左右,还有一些变形根。大易码的基本字根数为242个。
五笔字形与郑码比较,前者在键盘上布置的规律性较强,相对容易记忆。郑码是按字母顺序依次安排起笔为一、丨、丿、丶、乙,等字根。这样,在键盘上的排列规律性不强。此外,郑码的字根一般带副码,更加大了学习记忆量。然而,郑码包含的编码汉字较多,兼顾繁简汉字,故为当今编码界所推崇,预装于WIN95、WIN98等操作系统中。然而,郑码对一些有偏旁简繁区别的汉字仍共用同一编码,如:针針(ped)、级级(zyms)、说説(sujr)、饭飯(oxpx)等。若将这些也计入,会使重码率很高。
徐跃进发明的“计算机汉字输入规则码”采用4-26制,简繁兼顾,对GB13000.1大字符集的编码重码率约为15%。
五笔字形发明人王永民最近推出的繁体字根及编码方案,其主要是大写字母输入繁体字,小写字母输入简体汉字,如:紹(XKVG)、绍(xkvg)。这实际是将原编码空间扩大了一倍,可大幅度降低简繁汉字混合编码产生的大量重码。但这需要记忆简繁两套字根及其分布。在应用中需进行简繁的选择与切换。此外,从心理学上分析,一个人不可能做到对两套码都达到快速的条件反射地步。
虽然有进行简繁汉字转换的软件,但只会输入简化汉字的人遇到需输繁体字时,就会感到一筹莫展,反之亦然。
针对上述种种分析,笔者经过十多年的潜心研究,经过成千上万次的方案比较,发明了这一套简繁全汉字统一键盘输入编码。它具有技术指标优良,记忆较容易、输入心理感受顺畅等优点,以下简称为幻码。它采用4-26制编码空间。在初步用其对现代汉语词典及简化汉字总表的所有约13000个简、繁、异体汉字及一些偏旁部首进行统一编码的静态全码重码率仅约为3.9%。若只考虑其中的6763个国标简化汉字的编码,则重码率仅约为2.3%。
3发明内容
3.1发明目的
对约14000多简繁汉字、异体字、偏旁部首的大字符集以及一些常用外文字母、假名、符号进行4-26制低重码编码。解决现所常见编码包含字数少、简繁分编和/或重码率高等问题。实现大中华文化圈汉字大字符集的统一编码和计算机上对它们的高速盲打。在各个汉字输入领域特别是出版界有着广泛的应用前景。
3.2本发明的基本思路是:一种简繁汉字统一键盘编码方法,包括:
(1)将汉字拆解成的字根经优化筛选出具有典型意义的、构字能力强的元根;
(2)其中,部分元根是含多个元素的、具有集合概念的簇根;
(3)其中,部分元根含该元根的归类同根;
(4)将元根至少分为26组,每组元根定义于计算机键盘的一个键位上;
在本发明中,所述元根的确定还考虑了以下因素:有利于大量减少重码率;使总的字根数尽量少;使其能在键盘上的布置规律性较强;
3.3所述元根是:
仅对简体汉字编码时,至少包括下列52个字根:
囗、口、
、虫、
;
对简繁汉字统一编码时,还应增加下列5个元根:
風、門、金、言;
3.4本发明中:
(1)所述元根的归类同根共10个:
(2)所述簇根包括:双等根、三等根、四等根、端连根、門簇对称根、顺折根、逆折根、复折根、風簇繁体根等,其中:
a.双等根:由完全相同的两部分笔画或字根组成的且未归入其它键的根,以元素‘双’代表;
b.三等根:由完全相同的三部分笔画或字根组成的且未归入其它键的根,以元素‘众’代表;
e.門簇对称根:左右两部分对称或近似对称且不属于其它定义的根,以元素‘門’代表;
g.逆折根:书写总体行笔方向为逆时针方向旋转的折,以元素
代表;
h.复折根:书写行笔方向既包含顺时针旋转,也包含逆时针旋转的折,以元素‘乙’代表;
3.5下列元根通过添加笔画或变形形成一些元根的扩展根,扩展根与元根一起构成基本根:
十:土、士、由、吉;
女、车、戊、戋、
小:忄、、
氺、水、
尚;
ク:勹、、夊、
鱼、詹;
三:王;
二:平;
西、
丶:门、之、辶、
亠、童;
丷:、火、并、半;
囗:甲;
:冂、卩、
3.6所述键盘为国际上通行的标准计算机键盘,基本根与键盘的对应关系是:
D:十,土、士、由、吉;
X:扌,、丈、丰、
、末;
Z:ク、
勹、、夊、
鱼、詹,鸟;
N:二、丁、
耳、言,平、西、
J:丶,门、之、辶、
亠、童;
I:囗,甲;
3.7在本发明中,汉字拆解方法应按以下编号顺序优先考虑:
(1)一个汉字尽量以最少的基本根拆解;
(2)尽量不拆框口根和包根;
(3)尽量考虑夹根、嵌套根,夹根的笔画是不能与夹外笔画构成根的单笔画;
(4)上笔画尽量拆为上位根;
(5)尽量不拆交,但下(6)、(7)都满足时则优先后者;
(6)尽量按书写笔画顺序拆解;
(7)尽量保留最大的标准常用成字根;
(8)上位码的笔画尽量多,下位码的笔画尽量少;
3.8一种简繁汉字统一键盘编码的输入方法,其特征是该方法的基本编码原则是:
第1码取左上角的基本根码,第2码取紧挨着第1码右边的基本根码,再从右下角取第3码,第4码取紧挨着第3码左边的基本根码;
若一个汉字可拆解成三个基本根,则只需输入这三个根的码作为该字的编码;
若一个汉字可拆解成四个基本根,则输入这四个根的码作为该字的编码;
若一个汉字可拆解成五个及五个以上的基本根,则只需按该基本原则取四个根的码作为该字的编码;
若一个汉字只能拆出两个基本根,则还需取两个基本根的二次拆解码作为第3、4码,较优方法如下:
1、2码根若为左右型关系,3、4码分别取2、1码根的右下角二次拆解根码;
1、2码根若为上下型关系,3、4码分别取1、2码根的右下角二次拆解根码;
1、2码根若为杂合型,3、4码则取1码根的二次拆解上位根码和2码根的右下角根码;
若1、2码根任何一个为单笔根,由于单笔不能进行二次拆解,则第4码取另一根二次拆解根的其它根码;
若输入的字符为基本根本身,则第1码取基本根本身的码,第2、3、4码取基本根的二次拆解码,若还不足四码,需用一特定键位补足四码。
所述输入方法还可以按书写笔顺或四角等其它顺序或方式取码,只不过具体的输入规则有所不同而已。
3.9所述特定键是R键。
3.10对于含包根的汉字的输入方法是:
(1)取码时遇着包根先只取包根码,不管被包的包内根,待整个字无其它根可取时,才依次返回取包内根的码;包内根取码是从右下角开始,若第1、2码都是包根,第3、4码分别取第2、1包内根码;
(2)若一个汉字的一次拆解只能拆出三个基本根,并且第三根为包内根,则需对另一个非包根进行二次拆解补充第4码;
(3)若一个汉字是由包根包住两个基本根组成,则第四码取第二根的右下角二次拆解码;若第二根为单笔根,则不再取码。
3.1 1对于含双等根、多等根、对称根的汉字的输入方法是:
(1)取码时遇着双等根、三等根、四等根时,分别取Y、T、R,待整个汉字无其它根可取时,再将双等根、多等根的任何一个等根部分看作一个独立的字从左上角开始进行补充取码,若一个字既包含双、多等根,也包含包根,则先取一个等根码后再取包内根码;
若一个汉字只由一个任意基本根和一个双等根或多等根组成,并且等根也是由一个基本根构成,则第4码取前者的二次拆解码;
含双、多等根的字的全码一定取足四码,否则先对等根进行二次拆解取码,若仍不足四码,则补R;
(2)含对称根的字与含双、多等根的字作相同的处理,但只考虑对称根的左半部分,右半部分不予考虑。
3.12对于含夹根、嵌套根、虚拟嵌套根的汉字的输入方法是:
含夹根、嵌套根、虚拟嵌套根时,取完它们的一个根码后,若是上位取码,右边还有根则取右根的码;若是下位取码,左边还有根则取左根的码,即每次取码都要尽可能向左或右移动位置;但向上取根前,需将夹根、嵌套根、虚拟嵌套根的所有根取完后才进行;左右型汉字若右边为一嵌套根,第三码是否取嵌套根的另一个根要看该根是否占右下角。
3.13幻码的变形方案
前面论及的幻码方案为建议推广的基本方案,幻码还存在许多变形方案,它们各有其优缺点。对于不同的用户和地区,某个方案可能比基本方案更适合,部分变形方案简介如下。
(1)4-n(n>26)制编码方案
该方案是通过增加码元数(即编码空间)来降低重码率。将一些非字母键纳入编码后,把一些易出现重码的基本根移到这些键,重码字就会进一步降低,这些非字母键的键符可以通过编码来输入。该方案的优点是降低了重码率,缺点是根的分布范围以及手指的频繁操作范围扩大,对记忆和输入速度都有一定影响。
(2)纯简体与纯繁体方案
若用基本方案只对6763个简化汉字进行编码,则重码率低至2.3%,在此基础上进一步采用4-n(n>26)制编码空间方案并对基本根进行调整,可使重码率降到2%以下。
同样,若只用基本方案只对繁体字、异体字进行编码,则可消去简体字与繁体字的重码,使纯繁体方案的重码率降低。
(3)增减基本根方案
a.增加基本根:在现基本方案中再增加基本根还有降低重码字的余地,每增加一个基本根,减少的重码字一般不超过3个。
b.增加虚拟嵌套根:将个别基本根定义为虚拟嵌套根后,减少重码字的余地更大一些,但一般不超过6~7个。
上述增加基本根的各种方案的优点不言而喻,那就是降低了重码率,缺点是由于基本根的增加而带来记忆量也增加。幻码基本方案设计的一个考虑原则是虚拟嵌套根、風簇繁体根的元素都不超过5个。
c.减少基本根方案:减少基本根可以减少记忆量,但又会增加重码字。虽然个别基本根的减去,增加的重码字很少,但由于该基本根的记忆负担小,故在幻码基本方案中得以保留,例如,减去含于‘瓦’字的基本根
只增加约2个重码字,但
是元根
的自然扩展,且与另一扩展根
相似,故在基本根中保留下。试想,若每一键都减去一个基本根,假设每减去一个基本根增加3个重码字,26个键就增加78个重码字,总的重码率就会由现在的3.9%增加到4.5%。
(4)移动基本根位置方案
基本方案中个别基本根移动位置也可减少重码字,但这会削弱幻码根位安排的规律性。
(5)超字符集方案
现基本方案只对近14000个字、字符、外文字母等进行了编码,完全可以进一步对更多的汉字及字符进行编码,无疑,重码率也会随之有所增加。这里又会演化出其它一些亚类方案,如采用4-n(n>26)制方案等来降低重码率。
4.附图及说明
图1是幻码元根布置图。
图2是幻码基本根总布置图。
图3是编码的一般顺序。
图4取码的总思维顺序。
5.本发明的实现方式
5.1幻码基本根及一些特定根说明
5.1.1元根
幻码选定57个字根为元根,布置见图1,元根分布极有规律,参见5.1.5。记住这些元根后就完成大约一半的基本根记忆工作量。
图中括号内的根为归类同根,归类同根与所归类的根一般等同看待,取相同的码。特别申明,幻码将撇与竖在大多数情况下等同看待。归类同根与所归类的元根的二次拆解码可能不同,参见后面的有关内容。
幻码使用簇根、双等根、多等根、端连根、門簇对称根、顺折根、逆折根及复折根等概念。
5.1.2簇根
簇根是幻码提出的独特概念根之一,指满足同一定义的所有根的集合。这些集合元素都取相同的码,这些元素也可称为同定义根。在图1或图2中的许多基本根就是簇根,它们可以被清楚地定义,所以在图表中的簇根不必列出所有的元素。
5.1.3双等根、多等根、端连根、門簇对称根和風簇繁体根
这几个根为幻码所特定的根,也是其精要地方之一。
(1)双等根:由完全相同的两部分笔画或字根组成且未归入其它键位的根,为簇根,位于Y键,以元素‘双’代表。元素例:--、巜、双、朋、林、圭、爻、棗等。注意其中两个等根的书写是连续的,即在书写顺序上无其它笔画介入,但可以以相同的方式和其它笔画相交。例‘串’中的两口为双等根,而‘婁’中的两口不是双等根。此外,注意两个等根重心在同一水平或垂线上。
(2)多等根:由完全相同的三部分笔画或字根组成且未归入其它键位的根为三等根,为簇根,位于T键,以元素‘众’代表。元素例:众、巛,品、焱、州、
等。三个等根成‘品’字形或水平或垂直排列。由完全相同的四部分笔画或字根组成且未归入其它键的根为四等根,位于R键,以四竖表示(附注:
还代表由三或以上撇(竖)笔画构成的根)。元素例:叕、燚等。同样,多等根各部分的书写应紧挨着。
(3)端连根:任意两笔画端头相连接且不属其它定义所构成的根,为簇根,位于L键。以元素
代表,常见元素有:几、冖、
等。但冂、匚、
厂、阝等虽也是两笔画端头相连接,但已分别被O、P、V、G、Q等键所安排或定义。
(4)門簇对称根:左右两部分对称(或近似对称)且不属于其它定义的根,为簇根,位于V键,以元素‘門’代表。元素例:門、鬥、非、
等。此外,舆、兜等字中的
也视为对称根。注意:双、林等根虽也左右对称,但已归属Y键的双等根。而
丷分别归属F、M。
5.1.4顺折根、逆折根及复折根
表1 基本根详解说明
5.1.5基本根及其键盘布置规律
部分元根通过添加笔画或变形形成一些元根的扩展根,它们与元根一起构成幻码基本根。图2为幻码的基本根总表。
幻码基本根主要键盘布置规律是,以元根为骨架,左:折G、撇F、叉D-S、小A,右:横H、点J、口K、连L;下二上三,下顺上逆。
左是指左手操作的键即GBT以左的键,右是指右手指操作的键即HNY以右的键。
下指下排键Z-M,上指上排键Q-P。
叉包括D键的正十字叉和S键的非正十字叉簇根;连指端连簇根。下二是指中排键单笔根双写而成的根一般位于下排键的对应键;上三是中排键单笔根三写而成的根位于上排键的对应键。
下顺是指含顺折的基本根一般安排在下排键;上逆是指含逆折的基本根一般安排在上排键。其它有关说明详见表1。
5.1.6其它一些根的说明
(1)待补根
幻码的一些基本根为标准偏傍部首或字去掉部分笔画后所成的根,主要有
等,显然它们需分别补上丶(
)、十()、二、丶(
)、二、二、亠、丿+二、一、
一等笔画根后形成礻(衤)、革(堇)、俞、
(食)、龍、酉、舟、身、马、臼、白等标准字根或字。
(2)包根
若一个根从三面以上包住另一根,则该根称为包根。常用作包根的基本根有:口冂门匚勹等。其它一些根或字也可能作包根,例如:‘玉’字中的‘王’包‘丶’,‘巴’字中的
包‘丨’等。为了便于判断,幻码规定‘寸’的两个构成根
和丶为包根和被包根(包内根),但
一般不作包根。注意‘包’字中的‘巳’已‘红杏出墙’,故不是包与被包的关系。此外,若一个根分开被另一个根包,则归为嵌套关系,如:‘金’字中的‘王’与‘丷’。
(3)框口根
框根‘囗’指其中含至少一个完整的笔画,口根‘口’中不含任何完整的笔画,但其它笔画可以与它相交。例如,‘电’中包含的是框根‘囗’而‘束’中包含的是口根。
(4)夹根
(5)嵌套根
若一个根四周圈定的范围与另一个根四周圈定的范围大部分重合,则这两个根就构成嵌套根。例如,电:七囗;束:木口;注意:‘啬’字中的‘土’和‘丷’归为嵌套关系而不是包与被包的关系。
(6)虚拟嵌套根
这也是幻码提出的独特概念之一。共有五个虚拟嵌套根:阝(乃)、车、彳、耳、冫。幻码假定:出现在所有汉字或字符中的这五个根都为虚拟嵌套根,而在幻码键盘或表上的这五个根为非虚拟嵌套根。所谓虚拟嵌套根是指将该根视为它自己和它自己的一部分迭合嵌套而成。阝(乃)嵌套
(阝(乃)所含复折笔画中间的一段逆折);车嵌套(车下面的一部分);彳嵌套亻(彳的下面部分);耳嵌套三(耳的中下部分);冫嵌套
(两点水作偏旁时,其宋体上提横有一下顿再上提的逆折形状)。注:在‘习将弱’等字中的两点水形不视为虚拟嵌套根,因为此时它不是作独立的偏旁,没有下顿的笔形。此外,三点水‘氵’不视为虚拟嵌套根。
5.1.7幻码基本根数
幻码有57个元根,但基本根数却不确定,因为有些基本根是集合概念,如双等簇根可以包含几十个元素(在13000多汉字中就出现约五十多个)。但这几十个元素并不需要记忆,因为一看见就知道,例如最简单的元素--巜和较复杂的元素
一看就知道它们首先要取的码都是Y,因此总基本根数不确定,但这并不引起学习记忆发生困难。元根排列很有规律,而扩展根含同键的元根(并且绝大多情况是该元根开头),使人看见基本根后很容易判断其码位,因此幻码的基本根是较容易记忆的,这正是幻码变幻而奇妙的地方之一。
一些在其它编码中常用的基本根并不是幻码的基本根,幻码对它们要进行编码拆解。常见的有:日、月、白、田、目、早、用、罒、四、攵、饣、禾、米、工、彐、豕、贝、寸、皿、且、立、文、方、穴、辛、弋、戈、礻、衤、犬、古、马、巴、酉、干、斤、夕、犭、手、、臼、习、羽、己、已、長、
也、古、犬、
……,这里列出仅供参阅,不必记忆,因为遇上它们后自然会用幻码的编码方法去拆解。
5.2编码规则
5.2.1编码的基本顺序
幻码取码不是以书写笔顺为思维顺序,而是更直观地以根位取码。
如图3为一假想汉字,第一码取左上角的基本根码,第二码取紧挨着第一码右边的基本根码。再从右下角取第三码,第四码取紧挨着第三码左边的基本根码。例,微:彳山乂几(RFSL)
若无2位根(即左上角根已占满整个上部),第二码即取右下角根码。若无4位根(即右下角根已占满整个下部),则往上取。例,亭:亠丁冖口(JNLK)
在图3中,1,2码称为上位码,3,4码称为下位码。幻码的取码大方向为顺时针旋转。5.2.2字的拆分原则
按以下编号顺序优先考虑(这些初看似乎难记,但初步学后,可通过以后的实践来掌握,在拆字过程中遇上难点,一般可从这里找到解答。这些也是幻码的精髓所在。)
(3)尽量考虑夹根、嵌套根,但夹根的笔画是不能与夹外笔画构成根的单笔画。例,工拆为二丨,而不是:
一;五拆为二
而不是:
但‘严’拆为一厂
不是二丿
因为二夹根的下笔横可与丿构成‘厂’根,应遵循下述第(7)原则。
(5)尽量不拆交,但下(6)、(7)都满足时则优先后者。例,牛:
,不是:十,或
丨,友:ナ又,不是:夊一。但,本:拆为:木一,不是:八。
(7)尽量保留最大的标准成字根。例,‘主’拆为:丶王,而不是:亠土;‘佰’拆为:亻一
一,不是亻丆囗一,因为白比日笔画多。頁:丆
冂二,不是:一
二。因为貝比自的笔画多。
5.2.3字的位型
汉字一般分为左右型、上下型和杂合型,绝大多数字都为前两种,很容易区分。其它编码一般都将独体字归为杂合型,然而幻码将一些独体字也归为上下型,其上下型独体字定义为满足下面任意条件者:(1)上根所有笔画部位都高于下根所有笔画部位,例如:‘己了’等字或字根为上下型,但‘已’则为杂合型。(2)上下两根的重心在一垂线上且无交点。例如:‘千禾个贝’等字也归为上下型,但
的‘丷’和‘夫’是一般高,故为嵌套杂合型。
5.2.4汉字的一次拆解与基本根的二次拆解。
将非基本根汉字拆解为基本根称为一次拆解,对基本根本身的拆解称为二次拆解。(1)一个汉字若能拆出三个以上的基本根作编码(不包括包内根),则该码即为该汉字的编码,不再进次基本根的二次拆解。一个汉字若拆解出四个以上基本根,只取前四个基本根码。
例:绍:纟刀口(TBK);剖:亠刂口(JVKM);豌:一宀
ク(HCLZ)。
(2)有些情况下需对基本根进行拆解,即二次拆解。二次拆解也遵循5.2.1及5.2.2的原则。一些基本根的拆解如下(斜杠左右分别为上位取码和下位取码的先后顺序):
扌:
一/
一,女:七丿/七丿,口:冂一/一冂,冂:丨
/
丨,几:丿
/
丿,木:十八/八十,西:
屮:凵丨/丨凵,王:二十/二十,十:丨一/丨一,忄:
丨/
丨,
丷丨/丷丨,小:
亅/
亅,丈:ナ/ナ,夫:
/
廿:卄一/一卄,巾:丨冂/冂丨,不:丆卜/卜丆,鸟:
一丶/
一丶,鳥:
灬一/
灬一,水:
亅/
亅,雨:一巾
/巾一
子:
/ 平:二忄/忄二,钅:
/
釒:人王丷/王丷人。
(3)一个汉字若只能拆出两个基本根,则需分别取两个基本根的二次拆解码作为三、四码,方法如下。
1、2码根若为杂合型,3、4码则取1码根的二次拆解上位根码和2码根的右下角根码。例,疔:疒丁广亅(TNBB)。
若1、2码根任何一个为单笔根,由于单笔不能进行二次拆解,则第四码取另一根二次拆解根的其它根码。例,正:一止一(HWHW),久:ク丿
(ZJFB)。
5.2.5基本根的取码规则
基本根第一码即本身。二、三、四码按5.2.2原则对该基本根进行二次拆解取码。若不足四码则补以R(注意无三次拆解)。总之基本根的全码为四码。
5.2.6含包根的取码原则
(1)取码时遇着包根先只取包根码,不管被包的包内根。待整个字无其它根可取时,才依次返回取包内根的码。包内根取码是从右下角开始。若1,2码都是包根,3,4码分别取2,1包内根码。例,晴:囗冂二(IXON);明:囗冂二一(IONH);
扌囗
口。
(2)若一个汉字的一次拆解只能拆出三个基本根,并且第三根为包内根,则需对另一个非包根进行二次拆解补充四码。取码方法根据1,2根的位型关系,按5.2.4(3)所述进行。例,相:木囗二八(FINF);奋:大囗十丶(AIDJ);肤:冂夫二丶(OANJ)。痈:疒冂广(TOXB)。
(3)若一个汉字是由包根包住两个基本根组成,则第四码取第二根的右下角二次拆解码。若第二根为单笔根,则不再取码。例,闬:门十一丨(JDHF);闱:门
(JBX)。若两个基本根也是包与被包的关系,则第四根取第一根(即大包根)左上角的上位根。例,甸:勹囗十
(ZIDF);国:囗王丶冂(IYSO)。
5.2.7含双等根、多等根、对称根的取码原则
(1)取码时遇着双等根、三等根、四等根时,分别取Y、T、R,待整个汉字无其它根可取时,再将双等根、多等根的任何一个等根部分看作一个独立的字进行补充取码(从左上角开始),这可形象地称为‘解剖麻雀或亮身份’。若一个字既包含双、多等根,也包含包根,则先取一个等根码后再取包内根码。例,楚:林
木(YWBE);習:羽
一(YKBH)。塽:土大
乂(DARS)。
若一个汉字只由一个基本根和一个双等根(或多等根)组成,并且等根也是一个基本根,则第四码按5.2.4(3)取前者的二次折解码。例,侣:亻吕口丨(VYKF)。錣:釒叕又王(B RCY)。巡:辶巛
丶(JTTJ)。
5.2.8含夹根、嵌套根、虚拟嵌套根的取码原则
含夹根、嵌套根、虚拟嵌套根时,取完它们的一个根码后,若是上位取码,右边还有根则取右根的码;若是下位取码,左边还有根则取左根的码,即每次取码都要尽可能向左或右移动位置。但向上取根前,需将夹根、嵌套根、虚拟嵌套根的所有根取完后才进行。左右型汉字若右边为一嵌套根,第三码是否取嵌套根的另一个根要看该根是否占右下角。例,项:二丆人丨(NHGF);晕:囗车冖(IWXL);骵:冂木冂冖(OEOL),鮅:
七灬(AUEU)。
5.2.9取码的其它补充说明
(1)嵌套根等杂合根分解成两个根后的取根顺序:若有横线段横贯左右,上位码优先取有笔画或其一部分高于该横线的根。下位取码优先取有笔画的一部分低于该横线的根。例,浓:氵
冖(UWL),而不是:氵冖
確:石隹冖(HVL)。舜:爫丨匚(QFZY)。专:
丶二(GJN)。
(2)厂类根的拆解:厂类根包括‘厂阝尸卩冂’等。它们的两笔一个占左位,一个占上位,又在左上角碰头,幻码规定它们的二次拆解取根顺序如下:上位取码一律先取左边者,分别是:丿、丨、丿、丨、丨。下位取码一律先取右边者分别为:一、乙、
但‘巳’不属厂类根,因为其‘’笔画的一部分已在‘コ’之下,故‘巳’的上码应先取‘コ’。
(3)上开口框‘凵’:为了便于判断,幻码规定上开口框‘凵’和其内部的根为嵌套关系,而不是包与被包的关系。上位取码先取上开口框中的根。例,兇:乂儿凵(SRO)。凾:了凵又口(LOCK)。似类地,‘义’的拆解为:丶乂丶丿(JSJF)。
(4)撇根下位码取码顺序:下位取码时,若当前已取根的左侧有其它根的撇延下,若该撇是从当前根上方的中部延下则将含该撇的根视为上根,应跳过而取进一步左侧的其它根。若是从当前根上方的左侧延下则将含该撇的根视为左侧根,应马上取。例,艖:
二
(KMNM);艙:
人口尸(KGKP)。
此外,日中横还可与其直接上、下方的单独横组成‘二’或‘三’根。例:但:亻囗二(VIN),不是:亻囗一一。
注意,这种取码方式是将中横归附于外根,但不要拆散外根。例,果:囗木一八(IEHF),不是:囗八(IFX)。
上述各种情况的横已不再视为被包根了,而是将含该横的根与框根视为嵌套关系。
(6)偏旁部首的取码原则:偏旁部首的取码与基本根一样(实际上,许多偏旁部首就是基本根),只是要求其为四码和不出现重码。若拆解后不够四码,则补R。若出现重码则将第四码改为R(英语单词Repeat表示重复),若仍为重码则依次改为V、X、W,这可简称为RVX法(实际上,这在键盘上也是顺时针旋转,其中W几乎用不上)。幻码出现重码的机会是很少的,输入偏旁部首的机会也是很少的,即使要输偏旁部首也会引起特别注意,一般不会出错。例,刂:刂丨亅R(VFBR),钅:钅 (RRER),釒:BGYR(金:BGYM)。
(7)‘刁乜’字的取码:唯一两个由两个单笔基本根组成的汉字。取完两单笔码后,补两个R。例,乜:TBRR。
(8)外文字母、拼音等的取码规则:幻码对外文字母、假名及符号的编码也按一定规律作了编码,这里略。
(9)查寻帮助码:幻码的676个二级简码汉字中有几个汉字不常用,可减去一个,留出的码位作为查寻码,键入该二级码后,进入查寻帮助状态,可选择拼音、四角号码、笔画、部分已知根等方式查找汉字及对应的幻码,找到并键入要查找的汉字后,自动返回到幻码输入状态。
5.2.10取码的总思维顺序
图3是基本的思维流程,用它可对绝大部分汉字进行编码。有些汉字比较复杂,需用图4的思维流程,它基本概括了各种情况的编码思维流程(按编号顺序优先取码)。图中3与8,5与6表示嵌套根,其中5在上面封盖6。进一步解释如下:
(1)当已取完左下角根码5后,若左下角直接上方范围有根7时,则取该上方根,在此之前应取6(参见5.2.8规定)。
(2)当某根上部范围有多根时,仍从左向右取,即图中先取9,后取10。
5.3简码及平均码长
由于幻码是对简繁汉字进行共容编码,故对26个一级简码汉字的选取既考虑字的使用频率也考虑字无简繁区别(至少字的主要用法无简繁区别)。令人欣喜的是,所选的一级简码字使用频率都很高,且汉字中使用频率最高的字‘的一了是和在人’等也在其中。根据统计,幻码一级简码字的综合出现频率约为16%。
二级简码空间为676,幻码可为所有的二级码位安排汉字。在幻码输入法设置上选择以繁体输入为主时,则少量二级简码字将被替换成频率更高的繁体字。
三级简码也可作类似的安排。实际上所有常用汉字都可按简码输入。
平均码长并不是衡量一种编码的主要指标。平均码长取决于一、二、三级简码字数以及总计入的字数。对于4-26制,一级简码空间为26,二级简码空间为676,三级简码空间为17576。幻码一、二级简码空间都全部安排了汉字,其中绝大多数为常用字。五笔字形和郑码的许多二级码位无汉字安排(郑码是采用词组充填)。幻码三级简码汉字中,约有四千多为较常用汉字。
实际上,对于8000多常用汉字,幻码可全采用简码输入。
5.4重码及其处理
在对现代汉语词典及简化汉字总表所列的所有近13000个简、繁、异体汉字及一些偏旁部首进行的统一编码中,出现了480多个重码字,静态全码重码率约为3.9%。在此基础上,又增加了8000多个汉字,由于这些汉字使用的机会很少,故如果出现重码,就将其第四码按RVX法处理,或/和直接在重码后加‘,’将重码字变为五码选择。幻码绝大多数重码是两字共用一个码,最多三字共用一个码,未出现四字重码的情况(当然指13000多字符范围),且三分之二以上为简-繁、简-异、繁-繁、繁-异重码,如果只对6763个国标简化汉字编码,则仅出现约150多个重码字,即重码率约为2.3%。对重码字的处理一是通过一、二级简码区分;二是最常用的字排在前面,输其它任何字的码字母该字自动入屏。次常用字排第二;三是RVX法及五码无重码化处理。
5.5词组及其它符号的输入
幻码可以加入大量词组。词组的取码规则是,二字词:取第1、2字的前二码;三字词:取第1字的前二码,第2、3各字的前一码。四字以上词:前四字各取开头的一码。
现已收录词组约8万多条,重码率很低。常用字可用简码输入,与词组不会出现重码,而偏僻字若与词组重码,因排在其后,也不会影响词组的快速输入。可以实现真正的快速的盲打输入。
幻码还按一定编码规则对英语大小写字母、日文的平假名片假名、常用符号、俄文大小写字母、希腊大小字母等约400个外文符号进行了编码,使幻码的应用更加方便。
5.6其它说明
(1)幻码基本根的安排还考虑了心理因素。如:撇(丿)、捺(点)()在键盘处于对称位置的F与J键,分别为左右食指键入,使人输入的心理感顺畅。
(2)码中各字母的出现次数均匀而合理。在近14000个汉字及各种字符的全码中,出现最多的是F,最少的是P。若以P的出现次数为1,其它出现的相对次数见表2。
表2 各字母在编码中出现次数比
A | B | C | D | E | F | G | H | I | J | K | L | M |
1.14 | 1.08 | 1.28 | 1.34 | 1.22 | 1.91 | 1.24 | 1.71 | 1.55 | 1.71 | 1.71 | 1.11 | 1.15 |
N | O | P | Q | R | S | T | U | V | W | X | Y | Z |
1.28 | 1.16 | 1 | 1.12 | 1.19 | 1.36 | 1.12 | 1.14 | 1.31 | 1.10 | 1.14 | 1.20 | 1.03 |
从表中可以看出,相对出现率最高的FKJHSDV等字母,它们的击键速度也最快,而击键速度较慢的PZBWL等出现率也最低。最高比为:F/P=1.91。(86五笔字形该指标为:G/O=4.37)。
5.7具体编码列举
在前面各处的说明已有不少例子,这里主要对一些典型字、难字、怪字和易出错的字进行拆解说明。实际上,对幻码来说,绝大部分汉字都是很容易拆解取码的,不要受一些难拆字的影响。
举:UXFH,
不是基本根,需拆解。
例:VHVZ,拆为:亻一刂。已取满四码,‘夕’中被包的点不再取。
鮮:AMXU,繁体‘魚’不是基本根。需拆分。
世:TSHS,拆为:廿一卄。因为为单笔根。无二次拆解根,故三、四码取廿的两个二次拆解码。
征:RHWV,彳为虚拟嵌套根,应加取其虚拟嵌套的‘亻’根。
阵:QWTX,阝、车都为虚拟嵌套根,其中嵌套于车中的‘’根不被认为是占右下角。
鱼:ZAHR,基本根,二次拆分后仍不足四码补R。
贯:LGOD,该字上部并非是封口框,而是端部相连的两折。
口。尽量保留包根。最少拆解根原则只是指汉字的
一次拆解。
辣:JESM,第二根已占去右下角,第三根取右侧的ナ。
玄:JQHQ,不拆为JQHJ,因厶是一个字。
哉:DWKJ,拆为:十
口丶,不是:吉七丶,因为‘吉’不太标准。
朱:REFF,根据5.2.2(1)和(7)拆为:木丿八。
页:HGO,拆分为:丆人冂。
样多。
肺:ODON,右边部分不是‘市’,而是
。
惠:XUHI,拆为:心
囗,不拆为心丶囗,因为青字头不太标准。
鸟:ZZHJ,基本根,拆分为:鸟
一丶。
钗:RCCE,拆分为:钅叉又
兆:URMT,不是QTM。
延:GFTW,不是GFW。
末:XXFR,基本根,需加R凑够四码。
已:PTBH,杂合根,另一根为单笔,故取二次拆解的另一根‘一’。
疆:PYDI,其中土不是被包根。
题:IHWN,不是IHWH或IHWG.。
尔:ZAFF,杂合字,拆为:小丿八,不是ZABF。
善:MKXM,拆为:口丷。
察:CANL,
近似看为端连根。
塞:CBFY,拆为:宀土八三。
厦:GZKH,不是GZIH。
本:EHDF,拆为:木一十八,不是:八十丶。因为前者同时满足5.2.2(6)、(7)。
下:HWJF,不拆为:
一丨,因为卜是一常见成字根。
言:NJKY,不是NJKN。
丐:HGH。
矛:BLB,不是BWB或BVB。
兰:MYFH,不是:MNHH。
匀:ZMFH 敝:URSC 严:HGR 普:MINR
弱:YPMP 引:PFGP 专:GJN 掣:RVXF
载:DWWX 千:FDFH 康:BUCP 弗:VPFG
至:YBQH 哥:HNKK 飛:GMGV 鳥:KUKJ
Claims (2)
1.一种简繁汉字统一键盘编码的输入方法,其特征是:
1.1元根
(1)将一些经优化筛选出来的、具有典型意义的、构字能力强的笔画部件或字根称为元根;
其中,部分元根含该元根的归类同根;
其中,部分元根是含多个元素的、具有集合概念的簇根;
将元根至少分为26组,每组元根定义于计算机键盘的一个键位上;
(2)所述元根是:
仅对简体汉字编码时,至少包括下列52个元根:
对简繁汉字统一编码时,还应增加下列5个元根:
風、門、金、言;
(3)元根的归类同根,共10个:
阝——乃、木——朩、冂——凵、匚——
丿——丨、人——入、一——
丶——、金——釒、
——
1.2簇根
包括:双等根、三等根、四等根、端连根、門簇对称根、顺折根、逆折根、复折根、風簇繁体根等,其中:
a.双等根:由完全相同的两部分笔画或字根组成的且未归入其它键的根,以元素‘双’代表;
b.三等根:由完全相同的三部分笔画或字根组成的且未归入其它键的根,以元素‘众’代表;
e.門簇对称根:左右两部分对称或近似对称且不属于其它定义的根,以元素‘門’代表;
f.顺折根:书写总体行笔方向为顺时针旋转的折,以元素
代表;
h.复折根:书写行笔方向既包含顺时针旋转,也包含逆时针旋转的折,以元素‘乙’代表;
1.3元根的扩展根
下列元根通过添加笔画或变形形成一些扩展根,扩展根与元根一起构成基本根:
:
钅、
气;;
十:土、士、由、吉;
艹:廿、
廾、卅、
带;
扌:、丈、丰、
、末;
小:忄、、氺、水、
尚;
大:夫、
鸟;
三:王;
一:
丆、石、不、雨;
二:平;
丶:门、之、辶、
亠、童;
丷:、火、并、半;
囗:甲;
1.4元根及其他基本根与键盘键位的优化对应关系是:
D:十,土、士、由、吉;
X:扌,、丈、丰、
、末;
N:二、丁、
耳、言,平、西、
I:囗,甲;
1.5汉字拆解方式应按以下编号顺序优先考虑:
(1)一个汉字尽量以最少的基本根拆解;
(2)尽量不拆框口根和包根;
(3)尽量考虑夹根、嵌套根,夹根的笔画是不能与夹外笔画构成根的单笔画;
(4)上笔画尽量拆为上位根;
(5)尽量不拆交,但下(6)、(7)都满足时则优先后者;
(6)尽量按书写笔画顺序拆解;
(7)尽量保留最大的标准常用成字根;
(8)上位码的笔画尽量多,下位码的笔画尽量少;
1.6汉字取码方法的基本原则是:
第1码取左上角的基本根码,第2码取紧挨着第1码右边的基本根码,再从右下角取第3码,第4码取紧挨着第3码左边的基本根码;
若一个汉字可拆解成三个基本根,则只需输入这三个根的码作为该字的编码;
若一个汉字可拆解成四个基本根,则输入这四个根的码作为该字的编码;
若一个汉字可拆解成五个及五个以上的基本根,则只需按该基本原则取四个根的码作为该字的编码;
若一个汉字只能拆出两个基本根,则还需取两个基本根的二次拆解码作为第3、4码,较优方法之一如下:
1、2码根若为左右型关系,3、4码分别取2、1码根的右下角二次拆解根码;
1、2码根若为上下型关系,3、4码分别取1、2码根的右下角二次拆解根码;
1、2码根若为杂合型,3、4码则取1码根的二次拆解上位根码和2码根的右下角根码;
若1、2码根任何一个为单笔根,由于单笔不能进行二次拆解,则第4码取另一根二次拆解根的其它根码;
若输入的字符为基本根本身,则第1码取基本根本身的码,第2、3、4码取基本根的二次拆解码,若还不足四码,需用一特定键位补足四码。
2.根据权利要求1所述的一种简繁汉字统一键盘编码的输入方法,其特征是:
2.1含包根的汉字输入的较优取码方式是:
(1)取码时遇着包根先只取包根码,不管被包的包内根,待整个字无其它根可取时,才依次返回取包内根的码;包内根取码是从右下角开始,若第1、2码都是包根,第3、4码分别取第2、1包内根码;
(2)若一个汉字的一次拆解只能拆出三个基本根,并且第三根为包内根,则需对另一个非包根进行二次拆解补充第4码;
(3)若一个汉字是由包根包住两个基本根组成,则第四码取第二根的右下角二次拆解码;若第二根为单笔根,则不再取码;
2.2含双等根、多等根、对称根的汉字输入的较优方式是:
(1)取码时遇着双等根、多等根时,分别取Y、T、R,待整个汉字无其它根可取时,再将双等根、多等根的任何一个等根部分看作一个独立的字从左上角开始进行补充取码,若一个字既包含双、多等根,也包含包根,则先取一个等根码后再取包内根码;
若一个汉字只由一个任意基本根和一个双等根或多等根组成,并且等根也是由一个基本根构成,则第4码取前者的二次拆解码;
含双、多等根的字的全码一定取足四码,否则先对等根进行二次拆解取码,若仍不足四码,则补R;
(2)含对称根的字与含双、多等根的字作相同的处理,但只考虑对称根的左半部分,右半部分不予考虑;
2.3含夹根、嵌套根、虚拟嵌套根的汉字输入的较优方式是:
含夹根、嵌套根、虚拟嵌套根时,取完它们的一个根码后,若是上位取码,右边还有根则取右根的码;若是下位取码,左边还有根则取左根的码,即每次取码都要尽可能向左或右移动位置;但向上取根前,需将夹根、嵌套根、虚拟嵌套根的所有根取完后才进行;左右型汉字若右边为一嵌套根,第三码是否取嵌套根的另一个根要看该根是否占右下角。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB021136661A CN1155874C (zh) | 2002-04-28 | 2002-04-28 | 一种简繁汉字统一键盘编码的输入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB021136661A CN1155874C (zh) | 2002-04-28 | 2002-04-28 | 一种简繁汉字统一键盘编码的输入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1376970A CN1376970A (zh) | 2002-10-30 |
CN1155874C true CN1155874C (zh) | 2004-06-30 |
Family
ID=4742743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB021136661A Expired - Fee Related CN1155874C (zh) | 2002-04-28 | 2002-04-28 | 一种简繁汉字统一键盘编码的输入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1155874C (zh) |
-
2002
- 2002-04-28 CN CNB021136661A patent/CN1155874C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1376970A (zh) | 2002-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN85101817A (zh) | 安子介式汉字笔形电脑编码法及其键盘 | |
CN1577229A (zh) | 输入音符串进入计算机及文句生产方法及其计算机与媒体 | |
CN1101139A (zh) | 图符编码计算机输入法 | |
CN1155874C (zh) | 一种简繁汉字统一键盘编码的输入方法 | |
CN1154502A (zh) | 教育规范五笔字型汉字输入法及其装置 | |
CN1348559A (zh) | 携带式文字输入装置 | |
CN1048343C (zh) | 自由组合码汉字输入方法及键盘 | |
CN1163815C (zh) | 汉语形声字输入方法 | |
CN1129836C (zh) | 形意类字母汉字多功能输入法 | |
CN1529219A (zh) | 语言码输入法 | |
CN1140865C (zh) | 超级数字码 | |
CN1043209A (zh) | 计算机汉字处理方法 | |
CN1259615C (zh) | 字母键盘和数字键盘通用汉字输入法及其左半字形识别法 | |
CN1026924C (zh) | 汉字析音编码计算机汉字输入方法 | |
CN1417674A (zh) | 汉语音节双读方案和汉语键盘及其信息输入处理方法 | |
CN1025896C (zh) | 新概念编码计算机汉字输入键盘 | |
CN85102777A (zh) | 汉字字形输入法 | |
CN1068127C (zh) | 文字信息处理方法和装置 | |
CN1038366C (zh) | 计算机汉字输入方法 | |
CN1208710C (zh) | 汉字双笔码输入法 | |
CN1399185A (zh) | 整体汉字输入法及其键盘 | |
CN1752899A (zh) | 汉语编码及其汉字输入法和汉字检索法 | |
CN1725156A (zh) | 汉字输入方法及使用该方法进行输入的键盘 | |
CN1128371A (zh) | 文字拆分编码的计算机输入方法及键盘 | |
CN1110806A (zh) | 智能五笔双拼码字—词链环式定位联想输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |