CN1285542A - 鼎立世界码及其改进兼容键盘 - Google Patents

鼎立世界码及其改进兼容键盘 Download PDF

Info

Publication number
CN1285542A
CN1285542A CN 00125930 CN00125930A CN1285542A CN 1285542 A CN1285542 A CN 1285542A CN 00125930 CN00125930 CN 00125930 CN 00125930 A CN00125930 A CN 00125930A CN 1285542 A CN1285542 A CN 1285542A
Authority
CN
China
Prior art keywords
sign indicating
indicating number
code
chinese
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 00125930
Other languages
English (en)
Inventor
陈远云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN 99120179 external-priority patent/CN1264861A/zh
Application filed by Individual filed Critical Individual
Priority to CN 00125930 priority Critical patent/CN1285542A/zh
Publication of CN1285542A publication Critical patent/CN1285542A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

鼎立世界码,内含字词的音码科学简拼、形码配件双笔和全角字符码。三种码共用英美键盘的35个下档字母字符码元,互不产生重码,随意输入而不用切换,实现了音码形码相互取长补短,实现了中文书面语的键盘全功能输入,各码键的功能可参看附图。音码音节1—3码,单字的平均输入码长约1.84,码短输入速度快学习记忆量也很小,方言适应能力很强,特别适合于西南和长江流域的北方方言者使用,但又不影响标准普通话者输入。形码,不记构件(字根),只记五个笔型数字码和十个字型码,输入时打入一个字型码和按规则选打零到四个双笔码,规则简单易学好记,它的重码率低输入速度很快,特别适合于输入不常见和冷僻字词。

Description

鼎立世界码及其改进兼容键盘
一种中文的编码,由汉字及词语的音码与形码和全角码有机地组合而成。用普通英美键盘,当然更好是用其改进兼容键盘,对电子计算机等进行中文输入;也可用于字典词典等,对汉字及其词语进行排序和检索;也可用于用汉字及其词语命名的事物进行排序和检索。
汉字及其词语的输入法已不下千种,而键盘编码输入仍是主流。键盘输入法有三种类型,音码、形码及音形混合码。音码有易学、创意输入和听读输入时不打断思维、会读不会写的字和词语也可输入、好的音码输入码短输入速度也快等优点,但也有受方言限制和不会读的字词不能输入的缺点。形码一般重码率低,录入时很少使用数字选择键,因此录入速度快。另外,形码虽然有不受方言限制的优点,但不能输入会读而不会写的字和词语。而音形混合码,不但不能收到取长补短的效果,反而常常两者之短相兼,而两者之长又不能充分发挥。传统的键盘输入法,音码、形码或音形混合码,各自自成体系相互需要切换进入,不能互相取长补短。现在的键盘输入法也有几百上千种,然而就装入计算机以供使用的而论,不过十多种,而大家津津称道的不过五六种,其中包括全拼、简拼、双拼、自然码等普通话拼音输入法。用汉语拼音方案输入,如全拼输入法,对于标准普通话者而且又有一定的拼音基础的,可以说是一种不用学习的输入法,但其输入码长,输入速度慢。传统的简化拼音输入法,如简拼、双拼、自然码等,单纯进行复韵母和双码声母的单键化,即用一个码键代替双字母的声母或复韵母,虽然达到了缩短输入码提高输入速度的目的,但新定义的码键多,有十几个或三十多个,而且一个键常常具有两三重意义,因此学习使用者的记忆量大而且又是机械记忆。这些简化拼音输入法,仍然没有解决受方言限制问题,即对于方言者和普通话不标准者,为了分清一些声母和韵母常感非常困惑,造成很大的输入障碍。音码还由于重码多输入时常需在十几个或几十个同音字词中确定选择键,很影响输入速度,这是那些专业录入人员很不喜欢的。这些便是音码不太受欢迎的三大原因。有鉴于这些原因,对于绝大多数的键盘输入法的使用者,拼音输入法都只在用形码无法输入时才使用一下。传统形码,多为构件拼合码,常有上百个构件(也有的叫字根、部件等等),多者可达两三百,如五笔字型、表形码等,而且不少构件很不符合传统的识字教学规范。这么多的构件记住了还不行,还得理解掌握若干条界定不清的规则,因此学习困难使用时又难以把握,只好靠艰苦的强化训练来解决,这便是如今“电脑培训班”多如牛毛的原因。由此键盘输入法的学习使用者,常感叹道:“速度快好用的实在难学,而易学的又实在难用。”
在电脑已经成为“家用电器”进入寻常人家的今天,汉字及其词语的输入已经不是少数专业计算机或录入人员的事,因此对输入法不只是要求输入速度快,更重要的是易学好用,当然速度快也得兼顾。本编码中的音码是普通话的简化拼音码,与传统简化拼音码单纯使用单键化不同,它主要根据汉语语音的内在规律对拼音方案进行改造和简化,并配合适量的复韵母单键化。既达到了使记忆量更小和音节码更短,同时还提高了对方言的适应能力。因此,比传统的简化拼音码更易学好用也更快。本编码中的形码不是一般的构件拼合码,而是一种具有汉字结构形态特征的双笔形码。它用二分法分得配件回避了对汉字构件的记忆,用双笔数字码区位定位法回避了复杂的码和键的对应关系,二分法规则简单界定确切容易把握,记忆量小容易学习使用,重码率也很低,输入时基本上不使用数字选择键,因而输入速度也很快。本编码以音码为核心,配以全角标点符号码,然后引接入形码和全角码,三部分编码分流而共存于一体(各占部分编码空间互不产生重码),使用时随意输入而不用切换,因此本编码不仅达到了使音码形码相互取长补短的目的,而且实现了中文书面语音码、形码、全角码全功能的键盘输入。故这个《鼎立世界》中的三种码的有机组合能使输入码更好用和更有利于提高输入速度。
下面分别说明三部分码的编码方法,再说明《鼎立世界》的组织。
汉语拼音方案(可简称为国标拼音,参考《新华字典》附录),产生于五十年代前期,当时的电子技术及信息处理技术水平很低,不存在汉字及其词语输入问题,或输入只是少数计算机专家的事。该方案只考虑了为汉字标准注音并过度到用“拼音文字”替代汉字,没有照顾到汉字及词语的编码输入问题。按二十六个字母,最长音节六码计算,可以产生约三百一十兆不同的编码。这么大的编码空间,只为了四百多个音节编码,可见此方案必有大量的冗余成分可以缩减简化,或有大量的空码可以利用。另外北方方言的长江流域地区,即西南官话分区和下江官话分区,是南北焦汇之地,人口密度最大,经济最发达。根据汉语学家们的研究,这些地方的北方方言共同有的语音现象,是一些听觉相近的声母韵母不加区分。其他的南方方言,甚至北方方言区的其他一些地方,在不同的程度上也有类似的现象,参看〔翟时雨《汉语方言与方言调查》西南师范大学出版社1988年5月;张志公《现代汉语》上册人民教育出版社1983年7月〕。由此看来该方案把北京的方音定成普通话的标准音,本身就没有照顾到汉语各方言的这一语音现实,也更没有照顾到汉语各方言语音的共司发展的趋势。根据汉语学家们的研究,汉语语音的发展,不管从声母、韵母或声调看,时至今日都有了很大的简化。既然如此从现在起,以后有更进一步的简化也不是不可能的。因为随着科技和经济的高度发展,特别是在现代传媒的条件之下,人们之间用语言交流会更加频繁,范围也会更加广阔,由此可知方言的近音性合并简化恐怕也是一种客观的趋势。有鉴于这些原因,本拼音码,着眼于改造汉语拼音方案,提出了近音合并、近音缩减及合理缩减三项技术,下面逐一进行解释:
(一)近音合并是在听觉上读音相近而在不少的方言区又不加区分的一些声母和韵母的合并。这虽然会造成有关音节重码即同音字成倍地增加,但音码重码本来就很多,输入时在几十个与一百来个中进行选择其难度实际上是差不多的,而方言者输入时的语音障碍才是影响输入的真正的主要矛盾。这样做,在保证标准普通话者顺利输入的条件下,在无须使用方言容错码的条件下,缩短简化音码的同时又扩大了方言适应能力,这实在是一举两得的事。
(二)近音缩减是从复韵母或音节中缩减一些字母而又能在听觉上维持相近的读音或能产生与英文字母或国际音标相似的读音,同时还要求不增加或极少增加重码。
(三)合理缩减是在复韵母或音节中缩减一些字母而又不增加或极少增加重码。
本发明把以汉语拼音方案为基础,使用近音合并、近音缩减和合理缩减并配合适量的复韵母单键化所得到的汉字及其词语的普通话拼音编码,叫做普通话汉字及其词语的科学简化拼音编码,简称科学简拼码。下面首先说明科学简拼初级码的I型码,简称初级I型码(CJI)的编码,只说明相对于国标变化了的声母和韵母,因为汉字的编码即为其读音的音节码,也就是声母和韵母的拼音。
(1)近音合并翘舌声母到平舌声母:即ch合并到c、sh合并到s和zh合并到z;鼻音声母n合并到边音声母l;定义字符/为韵母ü。为了简单,分别用表达式表示之:
    C(c,ch) S(s,sh) Z(z,zh) L(l,n)/(ü)
表达式中,()外为码键或码键串,()中为其可以输入的国标声母、韵母或音节,每一项用西文逗号隔开。后面出现类似的表达式不再作说明。
(2)汉语拼音方案中字母y只用于拼外来语、少数民族语和方言,字母w是u的零声母,y是i及ü的零声母。实际上是三个不表示普通话语音的空闲字母,在此改用于分别单键化结合力最强的三个a行复韵母ai、an和ao。分别用表达式表示之:
    V(ai)  W(an)  Y(ao)
(3)缩减辅音韵尾ng的字母g。这样韵母ang和ong实现了合理缩减,韵母en与eng和韵母in与ing实现了近音合并。分别用表达式表示之:
    AN(ang) ON(ong) IN(in,ing) EN(en,eng)
(4)其实韵母(eng),极少数情况下所拼得的音节或复韵母与韵母(en)所拼得的在听觉上也明显不同,即:
    beng(崩)peng(碰)meng(盟)feng(风)ueng(翁)
    与ben(本)pen(喷)men(们)fen(分)uen(问)因此必须将它们分离开来。为此,除这极少数例外中的韵母(eng)单键化为/(eng)而外,其他情况下的韵母en(en,eng),都进一步近音缩减成n,即都进一步近音缩减成N(en,eng)。
(5)韵母uo、iou和ei及er分别近音缩减成o、iu、e和r,即可分别表示成:
    O(uo) IU(iou) E(ei) R(er)。
(6)单韵母音节gu、ku、fu、hu合理缩减其单韵母u;其它声母的单i韵母音节合理缩减其单韵母i,其中声母j、q、x扩展到合理缩减它们的任意音节中的i。
声母不能自成音节,因此为了便于呼叫和学习记忆,把规则(6)确定的单韵母音节取名叫做声母音节,其对应的汉字(不考虑声调)取名叫做声母字。韵母除少数而外都能自成音节,不再引入相应的概念,自然也各有其对应的韵母字。现把科学简拼的声母及其对应的声母字的代表字罗列于下:
g   k    f   h ,b    p   m ,d    t   l ,j    q   x ,z    c   s    r。
固  苦  复   护  比   批  米  地   体  力  级   起  系  子  此   是   日共计17个,既可以用这些字母键输入科学简拼音节的声母,据规则(6)也可以用它们输入所对应的声母字。这17个科学简拼声母与国标声母是完全相通的,所不同的是少了一个声母码n,和c、s、z及l四个声母实际上具有双重国标声母功能。
初级I型码的韵母如下,其后跟的汉字,是各自的韵母字的代表字。
单码韵母:a阿e俄i-n恩o喔我u无/于?w安v爱y奥,共十个;
双码韵母:ia压ie也in应英io哟iu有iw验iy要ua挖ue为un问u/翁uw完uv外/e月/n运/w员an昂on?ou欧,共十九个;
三码韵母:ian样uan往ion用,共三个。
以上所列韵母,不能自成音节无韵母字的有两个(用?标注),即轰的韵母on(ong)和哼的韵母/(eng),后者只用于拼音节“崩碰盟风翁”。
初级I型码的音节码长1-4码,其中只有ian uan两韵母与声母组成四码音节。
初级I型码有如下的优点和特点:1.记忆量少。新定义的码只有v、w、y和/四个(简拼的单键化码键为十二个,双拼为三十来个),虽然合并缩减声母韵母有十个以上,但有近音规律可循或是规则化的。2.码短。音节码长1-4码,按使用频度排序前千个汉字,积累频度在90%以上,计算其单字平均输入码长小于1.98,低于简拼2.22码和双拼。3.由于近音合并近音缩减,能在不影响标准普通话者顺利输入的前提下,和能在不加方言容错码的前提下,大大减轻方言者和普通话不纯者的语音障碍,特别适合西南及长江中下游地区的北方方言者使用。4.不加容错码,不仅仅是可以减少重码选择的干扰。若坚持使用,还可以纠正那些听觉上明显不同的汉字的方音和错误读音,令其逐渐皈依一种“准普通话”,这对推广标准普通话是有利的。5.只有一码为非字母键,容易实现DOS系统的命令及文件名的汉语拼音化。6.韵母码和声母码完全分离(字母n的声母功能已经合并,只有韵母功能,韵母中的字母g,已被缩减。),音节码大多能自然分断。7.从近音意义上看,除码/(ü,eng)有两个意义而外,一个码表示一个意义。
要进一步使音码好用和提高它的输入速度,还可强化词语输入、对软件优化和智能化。虽然这些属于软件的构思和编程问题,但编码的特征也应当有利于此。第6.7.两点,对于优化和智能化是非常有利的。由以上的特点可以说明,初级I型码,由于记忆量更少码更短又有强的方言适应能力,故更加易学好用和输入速度也更快。事实上,就是对于没有拼音基础的初学者,只要读准了十七声母字和十来个韵母字,并借助它们记住相应的声母韵母,就等于学会了本拼音输入法。所谓的声母字和韵母字,借鉴于古反切注音的“标目字”,但经过了改造和简化一般说来是很容易掌握的。
如果对韵母an(ang)单键化,便能将它组成的少数几个四码音节转变成三码音节。当然,如果适当扩充更多的单键化韵母,不仅可以大大降低音节的平均输入码长,也可以使编码的性能得到改善。在CJI码的基础上,扩充如下的复韵母的单键化:
](ang)[(in,ing)\(ong)(ou)其他保持与CJI码上述(1)至(6)大体相同,则得到另一种改进了的科学简拼码,将其简称为科简I型码(KJI)。KJI码只有单码韵母和双码韵母,没有三码韵母。因此其音节码长1-3码与简拼相同,按使用频度排序前千个单字的平均输入码长为1.84码,比CJI码有了较大的降低,比简拼和双拼都短得多。单码韵母十四个,除I、U和/(ü)外,都是音节的自然结束码,即大大的提高了音节码的自然分断能力,这对于输入软件的优化和智能化是很有利的。KJI码的声母及声母字与CJI码完全相同,现只将其韵母及其代表韵母字罗列于下。
单码韵母:a阿 e俄 i-o喔我 n恩 u无/于? w安 v爱 y奥[应英]昂\?欧,共十四个;
双码韵母:ia压 ie也 io哟 iw验 iy要 i]样 i\用 i有 ua挖 ue为 un问 uw完uv外 u]往 u/翁/e月/n运/w员,共十八个。
最后明说科学简拼O型码的编码。虽然科简I型码有较高的音节自然分断能力,但仍不能完全分断。为此对于前述两种科学简拼码,定义字符码’、;和,分别为韵母i、u和/(ü)的“零声母”,和用字符做“隔音符”,便可得到两种音节能完全自然分断的O型码,即初级O型码(CJO)和科简O型码(KJO)。
零声母的使用法:输入双码韵母字、三码韵母字或词语中的韵母字时(包括单码韵母字),首码如果为i、u和/(ü),分别用字符码’、;和,替换之。如汉字验、挖和月,它们的的KJI码分别为iw、ua和/e,使用零声母变成KJO码则分别为’w、;a和,e。汉字一、无和于,输入它们的单字时,KJI和KJO的码都分别为i、u和/,但在词语中KJO的码得分别改用其零声母。如词语一个、无限和于是KJI码分别为ige、uxw和/s,KJO码分别为’ge、;xw和,s。又如词语第一、事务和给予KJI码分别为di、su和ge/,KJO码分别为d’、s;和ge。
隔音符的使用法:输入词语中的韵母字时(包括单码韵母字),如果首码非i、u、/(ü),其码前加隔音符。如汉字额、安和蔼,它们的KJI或KIO音节码都为e、w、和v,但词语额外、安全和和蔼,它们的KJI分别为euv、wq/w和hev,KJO码则分别为e;v、wq/w和he,v。要注意,为了减少输入键数,输入单码韵母字单字时不使用隔音符,也不使用零声母。
O型码比起I型码有如下的两大优点和特点:其一是韵母码和声母码完全分离,音节码完全能自然分断;其二是凡以单码韵母开头的两码以上的码,必然是非科学简拼码,即它的空码。前者对输入软件的优化和智能化很有利,而后者是使用单码韵母,引接入全角码和其他种类的汉字及其词语的编码,使其只占据科学简拼码的空码空间而不会与它产生重码的原因。简单地说,这便是科学简拼O型码能与其他编码组成《鼎立世界》的根据。
科学简拼单字码及词语码:汉字的科学简拼码便是它们的音节码,双字词便是两个汉字的音节码。音节码的绝大多数是由声母和韵母两部分组成,但声母字和单码韵母字只用其对应的单码,双码韵母字或三码韵母字虽然也有两码或三码,但也没有声母。三字词语由前两字的音节首码和末字的音节码组成;四字与四字以上的词语由前三字音节的首码和末字的音节码组成。自然这些首码对于O型码都应该使用零声母或隔音符,特别值得注意的是那些只取首码的韵母字的码实际上变成了零声母’、;、,或隔音符.。例如词语安全第一其码为.qd’,又如词语营业员其码为.’,w。
本发明中的形码叫做配件双笔码,下面说明它的编码法。
汉字的基本单元是笔画,笔划在汉字中又常常组成一些中间层次的结构——构件。汉字的笔画繁多、结构及形态复杂,所合有的信息非常丰富,其编码不必也不可能包含它的所有信息。但提取哪些信息才最有效,使规则最简单,使记忆量最少又更符合传统,使编码短而重码率又低,以达到最容易学、最好使用输入速度又最快,这却是个很大的难题。最简单易学的形码莫过于“笔画码”,特别是依笔顺的笔画码,但难于克服的毛病是码长重码率高。其次是构件拼合码,虽然能做到码短重码率低,但构件(字根)太多,其中不少与传统的又很不相符,很难记忆,汉字的拆分规则及码与键的对应关系复杂,不易学习和把握。本形码的实质无非是汉字的选打双笔码法,所谓汉字的结构形态解析方法等,不过是为了建立一种科学的汉字双笔码的选择规则。(1)汉字的构件:一般的说,汉字是一种构件和笔画的组合。根据传统,构件分成部件和字件两种,分别解释于下:
部件——两笔画或两笔画以上的非汉字偏旁部首,因此简称部件,以《新华字典》的部首表为标准。
字件——两笔画或两笔画以上的字中字,因此简称字件,包括《新华字典》的部首表中罗列的汉字部首及汉字中某些笔画略有变化的近似汉字。(2)结构形态解析法及汉字的结构形态序列:1.解析手段及禁戒。汉字的结构复杂,形态万千,一般都认为复杂得不得了,如果不用某种规则限定,必然造成解析过细而不切实用的毛病。本形码只用两种手段在一定的规则下对汉字的结构形态进行解析,即用“剖”法和“挖剥”法。分别解释于下:
剖——对构件横排列或纵排列的结构分别施行纵剖或横剖法。注意每次剖出的两部分中必须起码有一部分是构件,而且任一部分不能是单笔画。例如“轧”,如果对它施行纵剖,两部分中虽然有一部分是部件车旁,但另一部分是单笔画,因此被认为是“不可分的”。再如“奉”,按照一般的理解是一种上下结构字,可以施行横剖法。但是,上部分虽然有人把它叫做“春字头”,可是《新华字典》的部首表中并没有把它列成部首,因此不认为它是部件,即不是构件。而下面部分,也既不是部件更不是字件,即不是构件,所以也被认为是“不可分的”。对于“插”,第一次纵剖出左面的部件扌后,还可第二次横剖出上面的字件 和剩下下面的字件臼。
挖剥——对包夹型结构施行挖剥法。挖剥法的禁戒较剖法为宽,即分出的两部分中尽可能有一部分是构件,但任一部分仍然不能是单笔画。如上所举的“插”字还可进行第三分,在字件臼中“挖”出一个非构件--余下一个非构件
Figure 0012593000103
虽然两部分都不是构件,但因为是包围结构所以这种分法也是许可的。所谓包夹,是汉字的一种结构形态,包括如下的一些情况:包某一角的两方者,如远、届、戒、头等等。包三方者,如匡、 向、而等等。包四方者,如国等。夹分成两种情况,一是某一可独立使用的汉字被分成两部分其间夹入一物,如哀、衡、胤等;其二是横或纵三排列汉字,其左右或上下两边形态相近,如辩、胤等。另外对于少量樱花形结构汉字,如器等也把它归入包夹型汉字。
构件或笔画组合间,有相交或共同的笔画是绝对不可分的。例如“东”,其中的小五笔字型码把它看成是一个字根,在此也可认为它是一个字件。可是,如果对它施行横剖必伤及它的竖钩,因此被认为是“不可分的”。又如“重”,可以看成是字件“千、里”或“千、甲、土”或“千、申、土”或“千、由、土”等组成,可是不管怎么剖都必伤及字件间的共同坚划,所以也被认为是“不可分的”。
 2.解析规则。有了1.中的解析禁戒,对汉字实施解析实际上是不够的,因为常常出现多种不同的分解可能性,这样编码中必然出现大量的冗余码。为此每次的解析的着落处的确定必须遵从如下的优先规则:从字件处分、从部件处分、从大件处分、从前件处分。例如“塞”,第一分就有两种可能的横剖法,按从字件处分的规则应该分出字件土而不是部件宀。第二分也有两种可能的横剖法,但应分出的是字件
Figure 0012593000108
而不是虽然大但是部件的宀。第三分按从部件处分的规则才横剖出部件宀,最后剩下一个不可分的笔画组合
Figure 0012593000109
又如“寨”,只能按从部件处分的规则横剖出部件宀,余下的部分汬虽然很复杂而且其中还有字件 但为不可分的。因为其下部的
Figure 00125930001011
非木非水,《新华字典》的部首表中也没有,因此木水既不是部件更不是字件,看似三部分纵排列,但也不属于包夹结构,以至于剖挖都无法施行。再如“产”,有三种可能的横剖法,从部件亠处分、从字件厂处分或从字件立处分,但按从字件处分和从大件处分的规则,应该在立字处分,可是这样分出现了单笔画丿,因而产字是不可分的。再看“贵”,其中有两个相等的字件,按从前件处分的规则应横剖出字件
Figure 00125930001012
剩下的笔画构件组合页不能再分了,因为按从字件处分或从大件处分的规则分出字件贝会出现单笔画。
3.配件及主体以及汉字的结构形态序列。用两种解析手段将汉字一分为二,把笔划较少的部分叫“配件”,另一部分称之为“主体”。按此可分出如下六种结构形态的汉字:左配件型、右配件型、下配件型、上配件型、核配件型和壳配件型,加上不可分的独体型共计七种结构形态。如果汉字所分成的两部分的笔划数相等,将其分别归入右配件型、下配件型或核配件型。当然,如果符合条件,对于“主体”仍可继续分解之,而且仍然可能产生出如上的七种结构形态的主体来。因此,两种解析手段不仅使用于汉字,也推广使用于解析汉字的过程中产生的“主体”。“不可分的”独体型也是汉字的一种结构形态,可以把它看成是无配件型,它有两种情况。其一是纯笔画组合,如事、东、重等。其二是杂散构件,如释、能、疑等,注意它们虽然都有两个以上的离散构件但都是不可分的。
由以上的叙述可以看出,对一个汉字重复一分为二地解析之,总能将它分解成以不可分的主体结束的配件序列,对于这些配件和最后主体的有序总体,不妨把它叫做该汉字的结构形态序列。如“插”第一分得左配件扌、第二分得上配件千、第三分得核配件非构件
Figure 0012593000111
第四分得右配件非构件
Figure 0012593000112
最后剩下一个虽是部首但不可分的主体即“插”的结构形态序列为:扌
Figure 0012593000114
汉字的结构形态序列,是汉字的一种特征信息,可以用它作为汉字的编码信息,配件双笔码实际上就是建立在这个的基础之上的。(3)双笔码:1.笔型码及双笔码。汉字的笔画可以分成很多种类型,而且分法各有不同,可以用数字1-9做它们的编码。但从双笔的两个数字码在键盘上的区位定位转变成字母或字符码(简称双笔码)的需要,一般以分成三到十种为宜。这样在键盘上按区位定位可产生九到一百种双笔码,太少实用价值不大,太多会使键盘太大也不符合实际使用。在此推荐分成如下五种笔型,可产生二十五种双笔码适合于普通计算机键盘,()中为其各自的笔型数字码:
横(1);竖(2);撇挑(3);点捺(4);弯折钩(5)。
2.双笔数字码。汉字的结构形态序列中的配件或最后主体,按笔顺首末、第二第三、第四第五和第六第七等,直到无笔画或剩余一个单笔画为止,取一对或多对双笔数字码。但对于只有三划者,却不按首末而按第一第二取一对双笔数字码。
3.双笔码在键盘上的实现。在普通英美键盘上,把二十五个字母键分成五个区每区分成五个位,按2.中得到的两个笔型数字码,其前笔画的数字码对应于区号,后笔画的数字码对应于该区的位号,则按下此键就相当于打入此双笔画。字母码键与区位的对应关系可规定如说明书附图(一)。与此类似,在鼎立世界码改进的兼容键盘上,字母字符码键与区位的对应关系可规定如说明书附图(二)。(4)字型码:汉字可以分成很多种类型,而且分法各有不同,可以按汉字的读音、形体、某部位的笔形或构件、结构形态等等进行分类。但类型总数以少于科学简拼码的单码韵母数的总和为宜,以便用其做引接码。在此为配合O型码的需要用汉字的结构形态信息把字型分成如下的十种,()中即为科学简拼的十个单码韵母定义的“字型码”:左下(v),左上(e),左包夹(w),左其它(a);右上下(o),右其它(/);包夹(y);下(n);上(u);独体(i)。下面分别于以解释之:1.左配件型汉字特别多,其次是右配件型,因此按第一分左配件型或右配件型和第二分的配件型,将左配件型分裂成四种字型,将右配件型分裂成两种字型。例如“插”,第一分为左配件扌,第二分为上配件
Figure 0012593000121
因此插字属左上型,其字型码为e。2.核配件型和壳配件型汉字比较少,因此将两者合成一种字型——包夹。3.其他三种配件型汉字,各自独立成为一种字型。(5)汉字码:汉字的编码,一般说来由一个字型码和零到多个双笔码组成。在此以最多取四个双笔码为限,即加上字型码汉字的总码数小于等于五。第一码为引接码字型码,接着按汉字的结构形态序列,每一个配件取一个双笔码,第一分如果为右、下或核配件四划以上取两个双笔码。不足四个双笔码者,用最后主体的双笔码添补到最多四个双笔码。多于四个双笔码者,用最后一个配件的双笔码做第四双笔码。对于独体字型中的纯笔画组合汉字,按无配件型对待在字型码i后取0-4个双笔码添补。对于独体字型中的杂散构件型汉字,在字型码i后,按书写次序每构件取一双笔码,不足四码者把剩余的笔画组合起来取双笔码添补之,多于四码者以最后构件的双笔码作第四双笔码,对可分汉字的最后主体是杂散构件型的也如法炮制。
下面例子的双笔码的区位参看附图(一)。例如“插”,恰好四个配件一个最后主体,字型码左上型码为e,其后依次为第一分左配件扌码为a,第二分上配件 码为t,第三分核配件非构件
Figure 0012593000123
码为g,第四分右配件非构件
Figure 0012593000124
码为n,得汉字码eatgn。可以看出,对于最后主体
Figure 0012593000125
不管不问。再如“谵”,共有六个配件一个最后主体,字型码也是左上型码为e,其后依次第一分左配件讠码为p,第二分上配件 码为q,第三分壳配件厂码为d,最后取第六分下配件 码为g,得汉字码epqdg。可以看出,中间第四配件 和第五配件 不取双笔码,对于最后主体一仍然不管不问。又如“贵”,只有一个配件一个主体,字型码上型码为u,其后是上配件
Figure 00125930001210
码为j,然后取主体页的双笔
Figure 00125930001211
码为s和双笔
Figure 00125930001212
码为
Figure 00125930001213
添补之,得汉字码ujsm。可以看出,主体只有五划只能添补两个双笔码,共有三个双笔码,如果主体的笔划数在六划以上便能够补足到四个双笔码。如“寨”的编码应该为uosfh。由这个例子可知“是”字的编码应该是nldhn,其中下配件非构件
Figure 00125930001214
取两个双笔码,主体字件
Figure 00125930001215
添补两个双笔码。如果配件双笔码与科学简拼O型码分离使用,因为无须引接码,也可以把字型码放在最后作为重码区分码。(6)词语码:双字词的编码由第一字的字型码和前两个双笔码加第二字的前两个双笔码组成;三字和四字词语的编码由第一字的字型码和各字的首双笔码组成;五字及五字以上的词语的编码由第一字的字型码和前三字及最后一字的首双笔码组成。如果配件双笔码与科学简拼O型码分离使用,因为无须字型码做引接码,则可以使用词语的最后一字的字型码并放在词语码的最后作重码区分码。
用鼎立世界码改进兼容键盘的十个数字码与十个字型码的键位关系建立对应关系,独立使用的配件双笔码,在字或词编码之后的字型码还可改作数字码,即字型码a、w、e、v、n、y、u、i、o及/分别改作数字码1、2、3、4、5、6、7、8、9及0。如此,重码区分码又兼作输入码的结束码,输入时可以大量减少空格键的击打以提高输入速度。(7)为了第一双笔码的均衡和减少重码,安排了如下的调配码:第一分下配件心字底只取一个双笔码;第一分左配件主体是部首“隹”或字件“页”时,左配件四划以上取两个双笔码。汉字第一分氵旁左配件取非区位字母字符作码,即用z代替其码o;第一分犭和马旁左配件分别取区位码为41和51,即分别取码为y和n,或对于鼎立世界码改进兼容键盘即取码t和y;作为配件的口或日曰,以首划以外的笔划数做位码,即分别取j或k;第一分为钅旁和火旁左配件的汉字,用字母i做字型码。
配件双笔码对国标GB2312-80汉字的编码的重码率为5.86%(被合并的重码数与字词总数之比)。加上词语后,总编码数达21574,计算所得重码率为4.46%。其中单字的重码较高的原因是只有一个或两个双笔码的简单单字的重码所造成的,因此有字词集越大重码率越低的现象。由于其重码率低,如果对重码汉字按使用频度进行排序,输入时基本上可以不使用数字选择键。把UCDOS中的WB.IND文件(五笔字型编码文件)反编译,其总编码数为24167,计算重码率为6.98%。除去容错码、简码和同码同字者,得总编码数为19572重码率实为6.56%。对其进行配件双笔编码,然后计算所得的重码率为4.51%。从上面的数据比较可知,配件双笔最长码比五笔字型多一码但重码率更低。由于规定汉字的部件以《新华字典》的部首表为标准,本编码不仅适合于简体汉字,也能含盖繁体汉字的编码。如果在更大的汉字集(如中日韩汉字统一编码集)和更大的汉字词语集的情况下,那些最长码四码的25码元的形码,其重码率可能增大到使使用者无法忍受的程度。可是配件双笔码,一因为其编码空间要大十倍以上,二因为五划以下的简单汉字的重码率会更小,因此可以期望重码率比4.46%更低的结果。配件双笔码除了以上所说的重码率低而外,还可看出,它的基本概念自然而简单,界定确切,符合六书造字规律,符合传统识字教学规范。分取配件的规则及双笔码区位定位规则简单而界定确切,容易理解把握。构件之中,除去字件无需记忆而外,部件不过五六十个。都是大家所熟知的并不需要查看《新华字典》的部首表,而且在分取配件时,只在一些情况下作是否有构件的判断,并不象其他形码那样处处都要进行构件识别取码,因此对这些部件实际上也根本不需要加以记忆。利用本编码输入汉字时,实际上相当于先看字的大体形态打入字型码,然后再深入字的细微结构笔画选打一些双笔画,符合一般的阅读识字的心理习惯。通过这些可以说明配件双笔码,记忆量少、码不太长、规则简单、重码率低、符合对汉字的传统理解和使用习惯,是一种易学好用速度快的汉字及其词语的编码。
全角标点符号码:全角标点符号直接使用相对应的西文字符做编码,从键帽上的符号就可得到其编码或有关的联想信息,无须特别如以记忆,配合数字键选择可输入全部的全角标点符号,现将其全部编码罗列子下,{}外为码键,{}中为可输入的全角标点符号,每一个用空格隔开。
]]{『 』【】}``{、~‘’}’{′″“”}
,{,<>}   .{。《》……} //{?!/}
;{;:§}   [[{()〔〕「 」〖〗}
全角字符码:中文非汉字部首可以用引接码]及日本假名可以用引接码\加上其各自的配件双笔码作编码;其他全角字符可以用引接码\加上它们的助记名称的简化KJI码进行编码。如下所示,{}外的助记名称之后为其码串,非汉字部首及日本假名无助记名,{}中为其可输入的全角字符,每个字符间由空格隔开,同名的字符用数字键选择确定,下面为编码举例。
非汉字部首码:
Figure 0012593000141
日本假名的举例从略。
数\s{1 2 3 4 5 6 7 8 9 0}
序\x{1.2.3.4.5.6.7.8.9.10.⑴⑵⑶⑷⑸⑹⑺⑻⑼⑽①②③④⑤⑥⑦⑧⑨⑩㈠㈡㈢㈣㈤㈥㈦㈧㈨㈩}
制表符有:横\hn,横上\hs,横竖\hsu,横下\hx,角右上\jis,角右下\jix,角左上\jzs,角左下\jzx,竖右\si竖\su;竖左\sz,虚横\xh,其具体内容从略。
数理符号:数理\sl其具体内容从略。
西文字母:字母\zm??表示某字母对应的键盘字母,其具体内容从略。
鼎立世界码的组织。科学简拼有十个或十四个单码韵母,如果需要和可能还可扩充更多的单键化韵母。以单码韵母做首码两码以上的都是科学简拼O型码的空码。配件双笔码用O型码的十个单码韵母定义了汉字的字型码,如果用它与KJO型码组成《鼎立世界》,还余下、[、]和\四个韵母键所辖的空码空间,可保留作其他特殊码的编码空间。上面所述及的部首码、日本假名码和全角字符码就是利用的单码韵母]和\所辖的空码空间。再加上全角标点符号码,组成了能实现中文书面语全功能输入的鼎立世界码。只要用O型码的这十个字型码做引接码,也可以用其他的汉字及其词语的形码替换配件双笔码组成另一种《鼎立世界》。例如,将五笔字型的编码前加入汉字及其词语的首字的字型码,就可组织成适合会五笔字型的人输入的《鼎立世界》。
科简O型码共有324个音节,其中单码音节(声母字和单码韵母字)30个,双码音节215个,三码音节79个不足总音节数的四分之一。在已经熟练或经过训练的情况下,许多常用的字词的选择键或能记得或有印象,把它当做形码的简码使用,其功能远比一般形码的简码强得多,因为数量很多又无须记忆。例如按频度排序前一百个汉字中,科简码的单码字有二十个,三码字有九个,其余都是双码字,而且它们的绝大多数都是可以用空格代替选择键的。五笔字型对应的情况分别是:二十五个单码字,八个三码或四码字,其余也是双码字,情况基本上相当。但是事实上,把按频度排序的前千个汉字当做简码看待,也是绝对不会增加新记忆的,而且能自然地扩展到它们的词语的输入。使用科学简拼还可以输入不会写的字和避免出现错别字。反之,许多不常用字、冷僻字和不能认读的,用配件双笔码或其他形码又可避免用科学简拼需要查字典和进行重码选择。由以上分析可以看出,两种码结合在一起确实能相互取长补短,再加上全角标点符号、字符、非汉字部首、日本假等等,随意输入而不用切换,自然是一种非常良好的使用状态,能使输入码更好用和更有利于提高输入速度。
鼎立世界码的普通英美键盘功能定位,如说明书附图(一),鼎立世界码的改进兼容键盘的功能定位,如说明书附图(二),其中只列出了有关的字母及字符键,每一个矩形方格表示一个字母或字符键,在方格最上部之左标出了该键的本然键符,即西文字母字符功能即汉语拼音方案的字母功能,除键N、V、W和Y科学简拼已移作他用而外与科学简拼是相通的。字母字符之右的汉字是其声母字,其下是韵母字或是用国标拼音标注的科学简拼附加功能,表格中带*的是i、u或ü的零声母或隔音符,其他是配件双笔码的附加的功能。可以看出,鼎立世界码的改进兼容键盘只是把普通英美键盘的一些字母字符键的位置作了调整,即主要把KJO码的单码韵母键调整到靠近数字键的第一行上。这种键盘既可有利于帮助功能记忆也有利于输入时两手的规律移动(音码输入时:声母→韵母→数字;形码输入时:引接码即韵母→普通字母字符→空格)。两图中附加标注的功能,在实际键帽上并不需要标注,因为其数量很少而且很有规律,很容易记忆。
本发明在UCDOS 5.0V进行了实施,对GB2312-80的6763个汉字和约一万五千汉字词语进行编码并附加了全角标点符号和常见字符的编码,编译成了CJI.IMD、KJI.IMD、PJ.IMD、DL.IMD和KJWB.IMD五个码表文件。其中CJI是初级I型码,KJI是科简I型码,都是一种独立使用的科学简拼码,后者比前者增加了四个单键化复韵母,前者记忆量最少后者平均输入码最短,都能自定义词语,两者的方言适应能力都很强特别适合于长江流域的北方方言者,前者还可用于为DOS文件名及命令进行汉语拼音化。PJ是独立使用的配件双笔码,采用模糊搜索模式,字型码做区分码放在输入码的最后,输入时可不予以输入,初学时可以不学习记忆字型码,学习使用起来更容易一些,有的人对拼音特别困难只学形码的可学习使用PJ码。CJI、KJI、PJ都各自都配备了全角码,以方便输入。DL是鼎立世界码,是本发明最健全的输入编码方案,学习时由CJI到KJI和PJ,再到DL并不会是走弯路,不过循序渐进而已,但直接学习DL也并不难。KJWB是KJO、五笔字型及全角码组成的《鼎立世界》,会五笔字型的人想使用科学简拼码可以使用它。

Claims (10)

1.一种中文编码,最长码6码,用英美键盘的35个下档字母字符作码元,余下的两个下档字母字符及十个数字键供作重码选择之用,其特征:音码、形码及全角码共存于一体而各占部分编码空间,使用时不用切换,而相互间不产生重码;其中音码主要根据语音内在规律对汉语拼音方案进行改造简化并配合适量的复韵母单键化,声母和韵母码是完全分离的,并使各声母韵母码在近音意义上只有一个意义,首码为i、u、ü的韵母各有一个零声母,其他韵母有一个共同的隔音符;用音码的单码韵母做引接码,引接入全角码(其中全角标点符号直接用相应的西文字符做编码)和某种形码。
2.根据1.的叙述其特征:声母c和ch、s和sh、z和zh以及l和n分别近音合并成c、s、z以及l;用字符/定义韵母ü,国标音节beng,peng,meng,feng,ueng中的韵母eng单键化成字符/,其他情况下的韵母en和eng都近音合并后再近音缩减成n,韵母in和ing近音合并后再单键化成字符[;韵母ai、an、ao、ang、ong和ou分别单键化成字母字符v、w、y、]、\和;韵母uo、ei和er分别近音缩减成o、e和r;音节gu、ku、fu和hu合理缩减其单韵母u,其他声母与单韵母i拼得的音节合理缩减其单韵母i(其中声母j、q和x缩减i扩展到任意音节);以i、u、ü为首码的韵母分别定义字符’、;和,为零声母,其他韵母定义字符.为隔音符;用汉字的第一分、或第一与第二分的结构形态信息,将下列十个单码韵母定义成字型码以做汉字字词形码的引接码,左下型编码为v、左上型编码为e、左包夹型编码为w、左其他型编码为a,右上下型编码为o、右其他型编码为/,包夹型编码为y、独体型编码为i、下型编码为n、上型编码为u。
3.根据2.的叙述其特征:解除复韵母[(in,ing)、](ang)、\(ong)和(ou)的单键化并缩减韵尾ng的字母g,复韵母iou近音缩减成iu。
4.根据2.或3.的叙述其特征:引接码后的形码编码是解析汉字得到的结构形态序列中的配件与最后主体的双笔码,而且这些双笔码是该双笔的笔型数字码在键盘上按区位定位得到的。
5.根据4.的叙述,其特征是一分为二解析汉字时受下列解析规则制约:
5.1分解出的两部分不能有某一部是分单笔画,构件间、笔画组合间或构件笔画
组合间有相交或公用笔画不能分解。
5.2剖出的两部分,起码有一部分是构件;挖剥时要尽量使某一部分是构件。
5.3解析汉字时注意遵从在字件处分、在部件处分、在大件处分、在前件处分,
这四个规则有所列的优先次序。
6.根据5.的叙述其特征:定义下列五种笔型数字码,横编码为1、竖编码为2、撇挑编码为3、点捺编码为4、弯折钩编码为5;汉字的结构形态序列的配件或最后主体按笔顺首末、第二第三、第四第五、……顺序取双笔数字码,但只有三划者按笔顺第一第二取双笔数字码;汉字每一配件取一个双笔码,但第一分右配件、下配件和核配件四划以上取两个双笔码,最后主体的双笔码数只受自身的笔画数限制。
7.根据6.的叙述,其特征是:每一汉字最多取四个双笔码,配件双笔码多于四个者取最后配件双笔码做第四双笔码,配件双笔码不足四个者用最后主体的双笔码添补到最多四个双笔码;作为配件的口或日曰,用首划笔型数字码做区码剩余笔划数做位码即各取j或k作码;汉字第一分下配件心字底只取一个双笔码,汉字第一分左配件的主体是部首“隹”或“页”时,其左配件四划以上取两个双笔码;第一分左配件氵旁用非区位字母字符作码即用字母z替换o;第一分左配件犭或马旁各取41和51作区位数字码,即各取码y和n或对于改进兼容键盘各取码y和t;第一分左配件钅或火旁汉字用i做字型码。
8.根据7.的叙述,其特征是音码独立使用,或不使用零声母’、;、,和隔音符。的情况下独立使用音码。
9.根据7.的叙述,其特征是独立使用形码,或改字型码为字词的最后汉字的字型码(或再将字型码a、w、e、v、n、y、u、i、o及/分别改成数字码1、2、3、4、5、6、7、8、9及0)并放在编码的最后独立使用。
10.一种电子计算机输入键盘,其特征是将普通英美键盘的单码韵母键A、V、N和/掉换到最靠近数值键的一行上,使十个单码韵母键的顺序如下:AWEVNYUIO/。
CN 00125930 1999-09-16 2000-08-30 鼎立世界码及其改进兼容键盘 Pending CN1285542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 00125930 CN1285542A (zh) 1999-09-16 2000-08-30 鼎立世界码及其改进兼容键盘

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN99120179.5 1999-09-16
CN 99120179 CN1264861A (zh) 1999-09-16 1999-09-16 鼎立世界码及其改进兼容键盘
CN 00125930 CN1285542A (zh) 1999-09-16 2000-08-30 鼎立世界码及其改进兼容键盘

Publications (1)

Publication Number Publication Date
CN1285542A true CN1285542A (zh) 2001-02-28

Family

ID=25739565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 00125930 Pending CN1285542A (zh) 1999-09-16 2000-08-30 鼎立世界码及其改进兼容键盘

Country Status (1)

Country Link
CN (1) CN1285542A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750009A (zh) * 2012-08-02 2012-10-24 支前明 一种无切换汉字输入法及键盘

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750009A (zh) * 2012-08-02 2012-10-24 支前明 一种无切换汉字输入法及键盘
CN102750009B (zh) * 2012-08-02 2015-09-02 支前明 一种无切换汉字输入法及键盘

Similar Documents

Publication Publication Date Title
CN105045410A (zh) 一种形式化拼音和汉字对应识别的方法
CN102750000A (zh) 双拼王输入法
CN1645356A (zh) 多维汉语学习系统
CN1285542A (zh) 鼎立世界码及其改进兼容键盘
CN101751134A (zh) 正左上方汉字输入法
CN1045878A (zh) 计算机中文声数编码输入技术
CN103777771B (zh) 易捷速录系列输入方法
CN1264861A (zh) 鼎立世界码及其改进兼容键盘
CN1022350C (zh) 汉字字母编码输入法
CN1196057C (zh) 一码二形数字编码汉字输入方法
CN1234062C (zh) 计算机汉字输入方法
CN101470535A (zh) 优化汉字码输入法
CN101706685A (zh) 一种汉字输入法
CN102073383A (zh) 字首部件拼音输入法
CN1106146A (zh) 电脑汉字声韵调编码输入法及其键盘
CN1207648C (zh) 五三码及其键盘
CN1125393C (zh) 利用计算机键盘汉字编码输入方法
TWI237188B (en) Language gene database
CN101504572A (zh) 完善汉字码输入法
CN1202647A (zh) 拼音汉字
CN101561713A (zh) 标准汉字码输入法
CN1099882A (zh) 汉字速成输入键盘
CN101571750A (zh) 标准汉字码输入法
CN1160243A (zh) 字形笔顺码汉字输入系统及其键盘
CN103019399A (zh) 汉语双拼哑文输入法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication