CN1020052C - 形元汉字信息处理方法及其键盘 - Google Patents
形元汉字信息处理方法及其键盘 Download PDFInfo
- Publication number
- CN1020052C CN1020052C CN 87104866 CN87104866A CN1020052C CN 1020052 C CN1020052 C CN 1020052C CN 87104866 CN87104866 CN 87104866 CN 87104866 A CN87104866 A CN 87104866A CN 1020052 C CN1020052 C CN 1020052C
- Authority
- CN
- China
- Prior art keywords
- chinese
- code
- word
- chinese character
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
形元汉字信息处理方法是一项以图论原理为基础,进行计算机汉字编码输入的发明。发明将汉字看做图形的组合,将汉字字形中的连通线图(即形元)依照图论原理进行分类和编码,科学直观,记忆量少,简明易学,简码为提示型,数千简码不用记忆,以字母键取代空格键兼做分隔键,减少码长,输入迅速。
Description
本发明属于汉字信息处理技术。
现国内已有数百种汉字编码方案,大致分为三种类型:一,容易学习但输入较慢,如拼音码;二,输入较快但难学难记,如字根(部件)码;三,难度与速度介于二者之间。目前还没有一种既容易学习,又可快速输入的方法。
字根编码法重码少,码长短,只要背熟字根,拼字迅速,输入快,优点多,但数以百计的人工字根难学,难记,难分类是其致命弱点。某天然字根是否属于某码人工字根范围,属何类,与何字母对应,本质上全要靠强制记忆,只适于专业操作人员。
美国王安公司的三角编码三百多字根主要依靠强制记忆,非专职人员难以掌握。
钱码输入速度快,但全部字根基本依靠强制记忆。
王永民码在分类和普及上有独到之处,但五笔字型的字根分类仍难记忆。只知某字根属某区,但字根第二笔多不符合键位规律,故属何字根仍要强制记忆,而且任一天然字根是否属于该码字根仍须逐一记忆,对于少于四个字根的汉字,须补一个“末笔和字根交叉识别符”,汉字字型归类有时很困难,该码虽有简单易学的五笔划法,但向真正实用的五笔字型码过渡跳跃学太大。该码输入速度高,主要靠简码和词语码,其它编码法亦能做到。
表形码将四百多个字根分为2系5型13式49类,可以
说是目前对汉字字根比较详尽的分类系统,但该系统只是对字根的一种直观的,经验式的归纳,缺乏内在的科学规律,没有统一的分类原则,每级类目的分类标准都不同,该系统庞大,复杂,记忆量很大,类目与键名(字母)之间的对应是根据字根与字母的形似来联想的,而这种形似是很模糊,很偶然的,所以不易记忆。
总之,所有字根(部件)编码法缺陷产生的原因正如郭平欣,张淞芝著《汉字信息处理技术》一书中所指出的:“部件本身太多;有些部件可分可合,造成岐意;部件使用频度相差很大,但频度再低的部件也无法舍去;占汉字25%的多拼字更增加了拼字的困难,所以用组字部件拼汉字是相当复杂的,至今还不能找到一条非常理想的组字规则。”“文字和语言一样是逐步形成的,它具有社会性和历史性,我们很难用形式上的几条法则和规律强行统一,只能承认它的复杂性。”
由此可见,只要采用字根(部件)做为汉字“拼形字母”进行编码,其缺陷是无法克服的,这个事实已为数百编码法所证实,只有跳出字根系统,才能找到理想的组字规则和汉字字形的简明规律,本发明的目的就是要通过解决汉字字形的简明规律,来寻找一种既不需要记忆人工字根系统,又能以形拼字的方法。
为此,本发明对汉字字形进行了研究,在字根和笔划这两级之间发现了“连通图”这一级结构,
人们一般认为汉字中的字根就是汉字中的“拼形字母”,恰好和西文字母相对应,其实并非如此。我们以“炉”字和对应的英文单词“FIREPLACE”为例将西文和汉文做一简单对比:
级别 汉文 西文
1 单字 炉 单字FIREPLACE
形,音节,义的基本单位 义的基本单位
2 字根 字根
火+户 FIRE+PLACE
(火)(地方)
形,音,义的基本部件 义的基本部件
3 字母 F,I,...E
形,音素的元件
4 笔画 丶 丿 丿 ... 笔画 - 丨 ...
形的最基本元件 形的最基本元件
从上述对比立刻可以发现,汉文恰恰少了和西文字母对应的这一级。在汉字中同样能找到恰好和西文字母对应的,简单而整齐的纯形元件。如果我们从图形的角度分析西文字母的本质,就会发现每个字母都是由一条或几条笔画连接在一起的图形,这在数学上就叫“连通线图”或“连通图”。
汉字中也有笔划相连通形成的线条图形,如:“一乙人口手开”等,同样是连通图,它也可以看做连通电路。每个字根和汉字都是由一个或及个连通线图组成的。如:
木=木 耳=耳
由此可见,连通图正是汉字的纯形元件,本发明谓之“形元”,它与西文字母都是连通图,都是字根与单字的拼形字母,所以真正与西文字母对应的同级结构应该是形元。
而汉字的字根是历史上形成的兼有形,音,义属性的元件,并非纯形元件,所以形状复杂,数量巨大,界限模糊,它应该对应于西文字根,不宜做为“拼形字母”。
连通图在数学处理上比连散错杂的字根要容易得多,分析连通图最有力的数学工具是现代数学分枝-图论。
用图论来为连通图分类,我们所依据的主要原则就是“顶点度”原则。通俗地说,所谓“顶点”就是连通图中所有的点,包括端点,拐点,交叉点等,“边”就是各个顶点之间的连线,“度”就是每个顶点所连接的边的多少。
在图论中连通图的定义是,在一个图中如果从任一顶点出发沿着边可以到达任一顶点,则该图叫作连通图。
由于汉字笔画之间的连通与否有时是比较模糊的,所以我们在分析之前有必要对笔画之间的连通做出明确规定。本发明规定,笔画之间连通与否以字典的宋体字头的字体为规范,其它手写体或楷体,黑体等均不做为规范,在规范字体中如果两笔之间明显断开,或在两笔靠近处有起笔笔锋或落笔笔锋者则做为不连通,如果明显连接,并没有起笔或落笔笔锋者则做连通。如“见”字的最后两笔之间有起笔笔锋,所以做为不连通;又如“西”字的第四,五两笔(即撇,折)的末端在一般的手写体中往往与第二,三两笔(即竖,竖折)不连接,但在规
范字体中是明显连接的,所以做为连通。
汉字中的连通图虽然形形色色,但依据顶点度的原则,它们基本上可以分为两大类——回路和树。
所谓“回路”(或叫做“圈”,“环”)在汉字中一就是象“口,凸,凹”之类的封闭框形,“回路”在图论中的定义是“所有顶点度为2的连通图”,比如在图形“口凸”中每个顶点都是连接两条边,所以这类图形就叫做回路。
在一个连通图中可能包含回路,如“口,古,日,中,井,女,早”等,也可能不包含回路,如“丨,人,十,土”等。按照图论原理,如果一个连通图不包含回路,则叫做“树”,也就是说,回路和树是相互排斥的概念,如果一个连通图是“树”,则肯定不会含有回路;如果一个连通图是纯回路,如“口,凸”之类,当然也决不会是树。下面我们就开始对连通图进行逐次分类。以下分类请参见图一。
第一次划分:所有连通图可以分为“树”,“纯回路”和既非“树”又非“纯回路”的连通图这样三类。
第三类连通图中既含有回路,但又不是所有顶点度都为2的纯回路,如“古,占,支,尸,巳,井,女,日,巴,中,田,甲,申,早,里”等,这里面又可以分为两种情况(第二次划分):
第一种情况。象“尸,井,开”这类图形,其中每一笔都参与了组成回路,拆去任何一笔都使其不成为回路,而文字学又要求我们不应将完整的笔画拆断,比如不应将“尸”拆为“口,丿”,所以对这类图形本发明也归入“回路”的范畴,只是与“纯回路”有所区别,我们把纯回路叫做“方框”,把这种笔画在拐点处“出岔”的框形叫做“岔框”,这两种总称为“框形”。
对于那些以“方框”或“岔框”为外围的图形,如“日,巴,中,田,甲,申”等,在外围大回路中又被笔画分割为若干小回路,而且每一笔都参与构成回路,我们也都分别归入框形中的方框和岔框。因为根据电磁学中的基尔霍夫第二定律(该定律正是图论在电磁学中的应用),在如同上述图形的电路中,对于外围大回路和内部的小回路都分别建立回路方程,所以内外大小回路都属于回路。
第二种情况。象“古,占,支”这类图形,其中有一些笔画未参与组成回路,拆去它们不影响回路的存在,为使分类系统简明严密,本发明将这类连通图中不构成框形的笔画一律拆出。上面三个图形则分别拆为“十口”,“
口”,“十又”,根据图论的定义,在连通图中取出回路,剩下的部分就是“树”,这样就将此类图形拆为“回路”和“树”了(第三次划分)。
象“里”这类的图形,既包含有“甲”这样的框形,也有未参与构成回路的笔画“二”,我们也同样拆开,形成三个连通图“甲,一,一”,分别归入回路和树。同理,“早”也要拆为“日,十”。
这样,这类含有回路,但又不是纯回路的图形就被我们分成两部分。一部分,每笔都参与构成回路的图形被归入回路类;另一部分,含有未参与构成回路的笔画的图形,我们将其拆开,其中回路部分归入回路类,剩下的部分归入“树”类。于是,所有的连通图被分为两大类”——回路和树(第四次划分)。
回路类已分为“方框”和“岔框”,对于“树”我们再进行分类,分类原则仍然是“顶点度原则”。
在一颗“树”中,各个顶点的“度”往往是不一样高的,
显然,最高顶点度从1到6的各种树中分别以“一,厂,人,十,大,木”六个形元最为简单,除“一”之外,它们分别只含有一个最高度的顶点,其余顶点的度都是1,我们就以这几个图形做为各类树的代表。把它们与电路中的节点电路以及汉字中的相应形元做一对比,就可以看出它们的共性。
图论概念 电路概念 汉字笔形
两个端点的边(一) 直电路 直笔(一丨丿丶)
二叉树(厂) 弯折电路 折拐(乙
厂弓)
三叉树(人) 三支路的节点电路 丁字形连接笔形(亻)
四叉树(十) 四支路的节点电路 四叉笔形(十力九七)
五叉树(大) 五支路的节点电路 五叉笔形(大才)
六叉树(木) 六支路的节点电路 六叉笔形(木)
由于每一个树的最高顶点度只有一个定值,而汉字中顶点度最高的就是六度(“木,禾”等),所以将“树”分为这样六类是完全可以包容汉字中所有的“树”的(第五次划分)。
在实际编码中我们对以上分类还要再进行一些调整,将最高顶点度为4,5,6的树合并为一类,叫做“叉”,对4度
,5度,6度顶点统一叫做“交叉点”,而将最高顶点度为1,2,3的树分别叫做“直,曲,丁”,三度顶点叫做“丁接点”。这样,所有树就形成了“直,曲,丁,叉”四类,而所有连通图则形成了“直,曲,丁,叉,框”五类,这五类就能包容所有连通图。(第六次划分)。
对“丁”和“叉”我们再一次运用“顶点度原则”进行细分。
虽然每颗树的最高顶点度是一个定值,但具有最高度的顶点却不止一个。如“人,工,正”的最高顶点度都为3,即都是“丁”,但“人”只有一个“丁接点”,“工”有两个,“正”有四个;又比如“十,未,丰”的最高顶点度都为4,即都是“叉”,但“十”只有一个“交叉点”,“未”有两个,“丰”有三个。
所以我们可以把“丁”分为“单丁”(只有一个丁接点)和“多丁”(有多个丁接点);把“叉”也同样分为“单叉”(只有一个交叉点)和“多叉”(有多个交叉点)。对于“框”我们在前面已经根据拐点的顶点度分成了“方框”和“岔框”两类(第七次划分)。
“直”实际上就是除了折笔之外的所有单笔画,我们按照书写方向再分为“横提,竖撇,点捺”三类,至此,我们的全部分类系统就已经完成,将所有连通图分为了十类(第八次划分)。(参见图1)
如果我们想分为二,三十类也是完全可以做得到的,比如将最高顶点度5的树(大,才,天)和最高顶点都度为6的树(木,禾)从“叉”类中分出来分别另立类目,将“多叉”再分为“双叉,多叉”两类,等等,不一一列举,参见图5。
从以上分类系统我们可以清楚地看出,每一次类目的细分
,都是将一个全集分为几个互为补集的子集,也就是说,这个全集的所有元素都可以包含在这几个子集中。比如,在第一次划分时,将所有连通图划分为三类,其中“树”和“纯回路”是相互排斥的概念,也就是说,这两个集合是没有交集的,而第三类则是这两个集合之外的所有连通图,即这两个集合的补集,因此,将连通图划分为这三类就可以将所有连通图包含无遗。其它各次类目划分都是如此。
综上所述,形元码分类系统是建立在图论的“顶点度”原则和集合论的逻辑法则的基础上的,因此具有高度的科学性和严密性,汉字中的任何连通图都已包含在这个分类系统中了。
需要说明的是,在实际编码方案中,为了输入的方便,我们将个别一些常用的离散图形如“氵,灬,冫”等做为整个形元处理,这只是例外,从本质上说,这些离散图形不属于形元码的连通图分类系统。
通过对汉字字形的分析和对连通图的分类,也就解决了汉字字形的简明规律问题。如果从纯形概念出发,把汉字完全看做图形,则一个汉字可分为单字,连通图和笔画三个基本层次,由笔画组成连通图,连通图服从图论规律,由连通图再组成单字。连通图之间的离散结构可以按照笔顺进行拆分,这就是汉字字形(不搀杂任何字义,字音属性)的简明规律。
以上只是对该系统科学性和严密性的论证,并不是对实际编码方法的论述,在实际操作和培训中,为便于一般人掌握,我们并不采用图论和集合论中的专业术语,而是用街道图形进行形象的比喻,也不进行严密的逐级划分,只是针对各类具体图形进行讲解,以达到通俗易懂的目的。教学实践证明,具有初中文化程度的人只要一个多小时就能基本学会。以下是根据上述原理而形成的形元码编码方法和键盘输入方法。
本发明的形元编码法共有两个实施方案,以第一方案为最佳方案。下面对该方案进行具体说明:
每个汉字都是由一个或几个不相连的图形组成的。如
华-亻匕十 若-艹口
每一个笔画相连的图形就叫做一个连通图,这些图形很有规律,可以分为直.曲.丁.叉.框五大类,用“一,乙,丁,十,口”五个字即可代表这五类。
“一”(直)可代表各个方向的直线。如“丨,丿,丶”等,类似于直马路。
“乙”(曲)可代表各种曲线。如“弓,厂,几,己”等。类似于拐弯马路。
“丁”(丁)可代表各种“丁字街”式的图形。如“人,卜,匕,刀”等。也可以看做三岔路口。
“十”(叉)可代表各种“十字交叉路口”或“星形辐射路口”,如“七,九,力,大,才”等。
“口”(框)可代表各种封闭环形,如“凸,女,开,井,巳”等。类似于环形马路。
为了和十个数字对应,这五类又可再分为十类。这些连通图就是构成汉字字形的基本元件,我们简称“形元”。具体定义和形元分类详见图2。
形元数码很容易记忆,前三个数码和四角号码字典一样“横一竖二三点捺”;单丁和单叉对应“单数”5和7,多丁和多叉对应“双数”6和8。而9恰象岔框“尸”,0恰象方框“口”。
形元输入码是声形码,第一码为汉字的声母,实际上就是每个字汉语拼音的第一个字母(我们规定:ZH,CH,SH三个声母用A,I,U代替),声母码之后再输入该字的形元
数码。
将汉字中的每个形元按书写顺序排列成相应的数码,即构成形元数码。(我们规定,点的尾端永远不与它笔相连)如
设-U3449 做-Z5709
一个汉字的形元数码(不包括字母码)最多编四码,超过四码者取前三未一,如
高-G3100 符-F6653
如果不够四码,则补一个首笔数码,如
计-J3473 女-N94
注意,对任何一个图形(形元)都不要拆成单笔,而要做为一个整体分析,一个形元一般只给一个数码。
有些汉字中一个形元(即一个连通图)就包括几种图形,如“干”字,第一横和竖笔组成单丁,第二横和竖笔又组成单叉,但一个形元只能取一个数码,取码原则为“形元尽量取大号”。因单叉7比单丁5的数码大,所以“干”这个形元只取7,不取5。
同理 山-5 斤-6
不管遇到多复杂的相连接笔形,我们都记住,只要先找出大号图形,就可以知道这个形元的数码了,即“有叉不管丁,有丁不管拐”。如
班-B7327 牧-M892
归-G2252 铜-T5740
纯-I5148 虞-Y6707
为减少重码,我们规定在计算机输入码中,“木,扌,土(士)”三个形元的数码由“7,8,7”改为“1,2,6”,如:
找-A2821 桂-G1661
塔-T6850 架-J7014
框形除了基本形式之外,有些框形内部还有笔画或与其它笔画相交错,形成若干个小框形,如“日,电,民,串”等,对这些框形,我们在0或9后面加一个附号,附号数等于小框个数,即
日-02 电-04 民-92 串-04
详见图3。编码举例
画-H1044 醋-C9592
当遇到框形和其它笔连接交错在一起时,要把组成框形的所有笔画和其它笔拆开分别编码。如
里-甲一一-L0411
形元排列的顺序取决于每个形元的首笔,首笔在先者数码也在先。如
园-囗一兀-Y0162
羊-Y383 火-H353
党-D2504 河-H3503
米-Y313 分-F252
为了减少重码,我们规定“虫,疒”两个部首取首尾两码做为简码。即
原码 简码
虫 025 05
疒 343 33
举例如下
疗-L334 蚂-M0551
变形的笔形一般以原形为准。如
对-D9734 犀-X9648
笔画之间连接与否,一般以字典字头的字体为准。如
云-Y161 允-Y64
见-J4242 贝-B452
形元的全部定义和形元码的全部编码规则各自只用六句口诀就可以概括:
形元口诀 编码口诀
横一竖二三点捺 形元尽量取大号
拐四丁五多丁六 散笔框形整体拆
单叉是七多叉八 首笔在先先编码
岔框为九方框○ 前三末一补首笔
框中有框加附号 木扌土取一二六
附号等于小框数 虫疒简码取首尾
以上是汉字编码方法,下面是计算机汉字输入方法。
第一方案的码元与键位对应的排列图见图4。数字键中的汉字或笔形是该数字所对应的形元的例型,其中“1,2,6”三个键上的“扌,木,土”是这三个数字所对应的特例形元。字母键上的汉字是该字母所对应的一级简码字。
声形码有四级简码,全都不必由人工死记硬背,采用自动显示方式,为此在程序设计上与一般方式有所不同。
当按下字母键时,揭示行换字位置上显示该字母所对应的汉字(即一级简码)。以下三个数码每键入一个时,都在原换字位置上依次换成以已键入的字符串开头的所有输入码中的高频汉字。这三次换上的高频汉字即二,三,四级简码。
当键入第四个数字码时,原位换成与已键入的字符串相应
的汉字,直到键入下一个字母时,换字位上的原汉字进入编辑位置,同时换字位上显示该字母键上的汉字,即字母键同时起分隔键作用,什么时候按字母键,什么时候结束上一字的输入,同时开始下一个汉字的输入。
上述过程举例如下:
输入字符 换字位显示 显示字全码 键入字符说明
B 不 B631 一级简码
B3 部 B3134 二级简码
B35 宝 B3573 三级简码
B352 宾 B3522 四级简码
B3524 窆 B3524 全码
D 的 D2023 一级简码
采用上述程序,在全码尚未完全键入时,简码字已自动显示,比如本来想以B3134输入“部”字,但只键入B3时,“部”字已显示出来,就可以接着输入下文了,只要一按下一个字的字母码,“部”字立刻进入编辑位置,下一个字的字母码所对应的一级汉字同时显示在提示行换字位上。所以连初学者也可不背简码表,直接使用简码,待熟练之后,即可不看屏幕盲打。由于数以千计的简码字只用一,二,三键即可输入,所以动态平均码长极短,单字输入极快。
当使用者熟悉常用字的简码之后,我们可以在软件中用命令取消全码字和简码字的对应关系,凡有简码的字全都不再与全码对应(即进入简码与全码的不兼容方式),每个汉字只对应一码,从而使大量重码高频字唯一对应简码,如“宝”和“炳”的全码都是B3573,其中高频字“宝”的简码为B35,我们令“宝”唯一对应B35,从而使“宝”和“炳”消除重码关系,这样就可以大大降低重码率。据计算可以消除六
分之五的重码率。
对于完全不熟悉音码或不愿意用音码的人,可以用纯形码输入,只用十个数字亦能得到很好的输入效率,比声形码更简单。
纯形码每字五码,取汉字形元的第一,二,三,四,末五码。如“编=51393,骥=51652”。
如果该字形元只有四码,则补取首笔数码。如“码=50511;设=34493”。
如果该字形元只有三码,则补取首,末笔数码。如“那=92442;若=87011”。
如果该字形元只有二码,则补取首,末笔数码并补空格。如“节=8512;杰=1313”。
如果该字形元只有一码,则补取首,末笔数码并补空格。如“斤=622;牛=822;刀=542;乙=444”。
在声形码状态下通过换挡进入纯形码状态。纯形码满五键后或按空格后,在屏幕的编辑位置上显示汉字,重码字全部显示在提示行中供选用,码元输入用小键盘数字键,重码选择用大键盘数字键。
形元码(包括声形码和纯形码)中空隔键可起分隔键作用,按空格键表示一个字结束。
在声形码中词语输入先按词语标识键V,然后输入词语码。
两字词语用该词语的两个音码表示,如“学习=XX;同志=TA”。三字词语用该词语的三个音码表示,如“无线电=WXD;共产党=GID”。如有重码按字键选重。
四字及四字以上词语用该词语第一,二,三,末字的音码表示,如“社会科学=UHKX;中华人民共和国=AHRG”。
在声形码中问号键是模糊键,可代替任意码元输入。凡有模糊键的输入码一律以Alt+数字键选重。
如果遇到不会读或发音没把握的字,可以用?(模糊键)代替音码输入,如“萏=?8561”,如果形元数码为8561的字只有一个,则显示在提示行换字位置上,如超过一个则按区位码顺序显示在提示行中以供选择。
如果字形分析不清,亦可用?代替任意形元输入。如对于“蜿”字的最后一个形元分析不清,可键入W053?,则提示行中显示所有符合W053?的汉字,其中必有“蜿”字。选中后提示行中显示该字的形元码以供学习。
输入时,可出现两种报警信号,输入空码后,响笛声一下,等待纠正。
出现重码,响笛声一下。如果使用的是声形码,则重码字组中的高频字出现在换字位置上,若用此字,可继续键入下文。若不用则按斜杠键“/”一下,原位即换上低频字,如果重码为一码三字(该情况极少),若需要其中最低频字,则按斜杠键两下。
第二实施方案以字母和数字共同做为形元代码,其形元定义见图五,其键盘见图六。
键位以形元系统分区排列,井然有序,易学易记,输入方便。分区示意图见图七。示意图中黑粗线为代表性形元(代表一类的形元)与非代表性形元(固定的偏旁部首)分区线,即左为代表性形元,右为非代表性形元。
输入码一律为四码一字,是纯形码。
纯形码取该字一,二,三,末四个形元,只有三个形元加补末笔数码,两个形元加补首末笔数码,一个形元加补首,次,末笔数码及空格键。
词汇语句一律为四码,两字词汇取每字输入码的前两码,如“北京=RE6Z”;三字词汇取前两字首码和第三字前两码,如“溶解热=8EKG”;四字以上,一百二十八字以下的词语取一,二,三,末字的首码,如“资产阶级自由化=86QE”。
第二实施方案中的词语码与单字码兼容混用。
该方案适于键盘输入,击键次数少,重码少,输入效率高。本发明向一般用户提供上述方案中全部单字全码及简码。
以下简要分析形元码与现有技术的本质区别和显著进步。
现有汉字编码的形码方案中多采用字根做编码元件,字根是文字学概念,是由社会和历史形成的,故其范围界限相当模糊,因此各方案的人工字根表都必须由操作者强制记忆下来,而形元码则采用连通图做为编码元件,连通图是数学概念,有严格的数学定义,故其范围界限很清楚,操作者无须死背,大大减轻了记忆负担。
在字根系统中很难找到简明的分类规律,所以各字根方案的分类系统都没有什么科学统一的分类原则,也没有什么序列性,很多方案的分类系统都要借助于口诀来记忆,记忆负担很重。而形元码则以顶点度做为分类原则,分类严密,科学性强,直,曲,丁,叉,框组成一个从简单到复杂的有序递进系统,
每类定义简单明确,某形元属何类,一眼可知,决无歧义,彻底解决了字根编码的分类困难。
用形元分析汉字最为直观,凡连接在一起的笔画就组成一个连通图,人们一眼就能看出汉字中的连通图及直,曲,丁,叉,框等结构特征。
形元分类灵活,类别可多可少,可分可合,可用字母做代码,也可用数字做代码。而字根系统则很难分到二三十类以下(见《计算机研究与发展》1987年1期33页)
字根系统只适用于汉字,而形元码则揭示了所有线条图形文字的共同规律,所以从原则上说适用于各国文字。
线条图形举世相通,所以图形化的形元码有利于将汉字编码推向世界。
传统的输入法都是以空格键做为不等长码的分隔符,也就是说每字在编码之外还要多敲一键,所以平均码长比较长;而形元码则以下一字的第一码做为上一字的确认符,即以字母键兼做分隔符,除编码之外没有多余的击键,从而显著缩短了码长。
传统的输入法在输入简码时都是在输完简码之后再加一键空格符,才能出现相应的简码字,因此对于简码必须死记硬背,而形元码则在输入全码的过程中,随着按键在提示行逐级显示相应的简码字,当出现所需汉字时,继续输入下文则该字即跳上编辑位置,操作员无须死背简码,大大减轻了记忆强度。
传统的输入法全码与简码都是兼容的,这样不利于降低重码率,而形元码则可以在操作员掌握简码之后,取消全码与简码之间的兼容,从而大大降低了重码率。
形元码科学直观,简明易学,记忆量很少,适合于非专业人员使用;同时形元码码长短,并兼有简码,词语码,能高速
输入,也适合各种专业人员使用。
所以形元码是一种既容易学习,又能高速输入,适于各种用户的编码方法。
附图说明
图一 形元分类系统图
图二 第一实施方案形元表
图三 第一实施方案框形类形元表
图四 第一实施方案键盘表
图五 第二实施方案形元表
图六 第二实施方案键盘表
图七 第二实施方案键盘分区示意图
Claims (6)
1、一种形元汉字信息处理装置,利用36个键的键盘,其特征是运用图论原理将汉字字形中的连通线图进行分类,形成如下键位排列的形元:
第一种
其中数字键定义
键位符号 对应的形元名称 形元例型 特例
1 横提 一/ 木
2 竖撇 丨丿 扌
4 折拐 乙匚阝了厂几弓
5 单丁 亻勹冖厶彐匕卜
6 多丁 正止而工瓜韭久 土土
7 单叉 十廴犭孑缶巾力
8 多叉 艹本丰夫车击
9 岔框 及井开廿女巳尸
0 方框 口囗凹凸
其中字母键定义(每个字母对应一个高频汉字)
Q W E R T Y U I O P
去 我 而 人 他 一 是 出 哦 平
A S D F G H J K L
这 三 的 发 个 和 就 看 了
Z X C V B N M
在 下 从 不 能 们
第二种
键位符号 形元名称 形元例型 偏旁 高频字
2 竖 丨 日 是
3 撇 丿 钅 的
4 点捺 丶
氵 深
5 折 乙 纟 经
6 点横 亠 就
7 点竖 忄 快
9 点折 之 讠辶 说
0 点拐 广 度
Q 拐 阝卩厂冂匚弓了 了
W 正丁 已丁山彐 山
E 斜丁 人卜匕乃厶 人
R 双丁 上幺虍工乡久 上
T 多丁 而片疋豕丐爿 而
Y 立人 亻 们
O 竹鸟 鸟竹 鸟
P 鱼旁 鱼 鱼
A 正叉 子王干缶币十壬 子
S 斜叉 力犭九七无 力
D 大叉 大天夭矢才牙 大
F 木叉 木禾 木
G 双叉 也生未失本 也
J 士土 士土 土
K 提手 扌 把
L 草头 艹 花
Z 方框 口囗凸凹 口
X 岔框 又女氏尸夂 又
C 双框 中月甘肀 中
V 三框 目四皿耳臣 四
B 四方框 电田申由甲 由
N 四岔框 用毋冉西弗串 用
M 多框 酉曲 酉
P 虫旁 虫 虫
U 模糊代码
2、一种形元汉字信息处理方法,其特征在于:
第一种输入方法:音形输入,对每个汉字先输入汉语拼音的第一个字母,然后按书写顺序依次输入该字的第一、二、三、末个形元所对应的代码,每个汉字的第一码(即字母码)可同时做为上一字结束的确认键,即以字母键兼代空格键做为字间分隔符;
第二种输入方法:纯形输入,对每个汉字按书写顺序依次输入该字的第一、二、三、末个形元所对应的代码,不足四码者以空格键结束。
3、如同权利要求1和2,对GB-2312(80)中全部6763个汉字进行编码,形成了两套计算机汉字输入用的汉字编码本,其中含有汉字全码及一,二,三,四级简码。
4、按照权利要求1和2,在输入全码的过程中,使简码在提示行自动显示,可帮助使用者记忆一,二,三,四级简码。
5、按照权利要求1和2,操作者可以选择简码与全码不兼容方式,使重码字组中有简码的高频字唯一对应简码,从而使高频字与低频字消除重码关系,大大降低重码率。
6、按照前述权利要求1-6中的任何一条,对汉字和中文词组进行编码的方法,可以用在一切大,中,小,微型中文信息处理电脑系统,汉字电传机,汉字电脑打字机,汉字终端机,电报,通讯系统中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 87104866 CN1020052C (zh) | 1987-07-12 | 1987-07-12 | 形元汉字信息处理方法及其键盘 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 87104866 CN1020052C (zh) | 1987-07-12 | 1987-07-12 | 形元汉字信息处理方法及其键盘 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1030652A CN1030652A (zh) | 1989-01-25 |
CN1020052C true CN1020052C (zh) | 1993-03-10 |
Family
ID=4815041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 87104866 Expired - Fee Related CN1020052C (zh) | 1987-07-12 | 1987-07-12 | 形元汉字信息处理方法及其键盘 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1020052C (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1036161C (zh) * | 1992-09-17 | 1997-10-15 | 戴顺天 | 两笔字型汉字输入法 |
CN102156548B (zh) * | 2011-03-01 | 2013-06-26 | 华兴初 | 汉字表征码、编码方法与键盘 |
CN104731365A (zh) * | 2015-03-31 | 2015-06-24 | 苏州乐聚一堂电子科技有限公司 | 快速拆分输入法 |
-
1987
- 1987-07-12 CN CN 87104866 patent/CN1020052C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1030652A (zh) | 1989-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1023916C (zh) | 简繁五笔字根汉字输入系统 | |
CN1015218B (zh) | 字根编码输入法及其设备 | |
CN1020052C (zh) | 形元汉字信息处理方法及其键盘 | |
CN101055499A (zh) | 音形汉字输入法 | |
CN1166997C (zh) | 汉字免拆分快速输入法 | |
CN1121645C (zh) | 音形字理码汉字输入方法 | |
CN1033540C (zh) | 简易音形码汉字输入法 | |
CN1123819C (zh) | 计算机汉字键位码输入方法 | |
CN1317631C (zh) | 整体拼形汉字输入法 | |
CN1256644C (zh) | 一种偏旁部首汉字输入方法 | |
CN1815418A (zh) | 基于中文字母方式描述汉字轮廓特征的多元编码方法 | |
CN1073248C (zh) | 几何母根编码的计算机汉字输入方法 | |
CN1066333A (zh) | 计算机中文数字化输入方法及简便灵巧键盘 | |
CN1374577A (zh) | 英文字母键盘和数字键盘通用汉字电脑输入法及其键盘 | |
CN1093182A (zh) | 声韵笔对码汉字输入方法及键盘 | |
CN100342312C (zh) | 平行拆分式汉字编码小键盘输入及其显示方法 | |
CN1120408C (zh) | 一种计算机结构声读汉字输入方法 | |
CN1092815C (zh) | 一种汉字辞书检索和微机输入法及键盘 | |
CN1081810C (zh) | 计算机音形汉字输入法 | |
CN1108551C (zh) | 优化赋音形码计算机汉字输入方法 | |
CN1055434A (zh) | 字符的图元输入方法及其键盘 | |
CN1023669C (zh) | 一种字元拼形计算机中文输入法 | |
CN1059508C (zh) | 中文电脑笔结编码输入法 | |
CN1246759C (zh) | 一种采用根素码的计算机汉字输入方法 | |
CN1092186A (zh) | 汉字数控方位码及输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |