CN1135056A

CN1135056A - 高频无理汉字字形编码及其键盘

Info

Publication number: CN1135056A
Application number: CN 94118734
Authority: CN
Inventors: 裴鸣
Original assignee: Individual
Current assignee: Individual
Priority date: 1994-11-30
Filing date: 1994-11-30
Publication date: 1996-11-06

Abstract

本发明涉及计算机软硬件，更具体地说是一种计算机汉字编码方案及其键盘。本发明是依据汉字字根的组字频率及有关汉字的使用频率，对字根和字型进行优选及键盘位置优化；同时，第一次提出并使用了高频无理的汉字编码方案。该方案综合文字学、心理学、最优化理论及计算机科学发明出来的。该发明提出在高频无理的基础上将键盘分成六个区，使用五种笔画、两种字型，通过优化笔画和字根和键盘上的位置，使单字的重码率达到最小。动态频度达53％的字有一级简码，动态频度达22％的字有二级简码，所有汉字最多只有三个码。所有各字根的位置达到了最佳组合，每分钟可输入汉字260字以上。

Description

高频无理汉字字形编码及其键盘

本发明涉及计算机软件及硬件，更具体地说是涉及一种计算机汉字编码方案及其键盘。现有的汉字编码方案很多，主要可归纳为以下几类：

1.拼音码(包括纯拼和双拼)拼音码的优点是容易学，且比较适用于听打和想打。但由于汉字读音分布的极不均匀性，这种方法重码较多，同时由于对很多人来说有很多汉字不知其读音或发音不准，使这种方法的适用范围受到很大的限制。最早期的编码大都属于这一类，比如拼音联想，声韵声声等等。这类只用拼音编码的方法一般不适合于专业输入人员使用。

2.字形码字形码的优点是易学好用，不受学习者的文化水平及生活地域的限制。字形码由于是按字的偏旁编码输入，比较容易形成条件发射，有利于打字速度的提高，且一般不会有打不出来的字，这几点对专业输入人员尤其重要。字形码的缺点是学习时需要记忆的内容较多，且不太适合于听打和想打。字形码以王永民先生的五笔字型为代表(专利申请号：85100837)，另外还有钱伟长先生的字形编码方案(专利申请号：85102777)等等；本发明也可归于这一类。

3.拼音加字形这种编码方案的优点是同时利用了拼音和字形的特点，有利于离散重码。这种方案既然利用了拼音，就必然会有拼音码必有的有的字不会发音或发音不准的问题。同时，因为又用了字形参与编码，就必然要增加学习的记忆量。这其中的平衡如果把握得好，则不失为一种易学易用的方案。这一类主要有扶良文先生的智能码等等。

4.用十个数字编码用十个数字编码，由于参与编码的元素很少(只有十个)，必然要导致码长的增加。如果不增加码长，必然会有很多字重码，导致击键次数的增加及输入速度的减慢。用10个数字编码，最好是用字形编码，这样好学易用；如果用十个数字对汉字按拼音编码，则不合适；因为我们之所以用拼音编码，就是利用了拼音与英文字母之间的直观对应关系；况且按拼音编码本身就有其不可避免的问题。总的来说，用十个数字对汉字编码，由于码长的问题，其速度绝对无法与用英文字母编码的方案相比。这一类主要有肖水清先生的肖码(专利公告号：1079562)，彭克难先生的二部数码输入法(专利公告号：1073023)等等。

汉字的读音分布极不均匀，汉字的字形分布也极不均匀。本申请人对汉字的特点经过大量的分析后认为，从总体上讲，按字形输入比按拼音输入快；其中原因之一是因为按字形输入直观，容易形成条件反射。由于有的汉字不知其发音或发音不准，所以，对专业输入人员来说，选择字形码是必然的。当然，拼音码和字形码各有其适用范围，不存在谁完全取代谁的问题。

汉字除了读音和偏旁分布极不均匀外，每个汉字的使用频率分布也极不均匀。比如汉字“的”，其使用频率接近4％，是平均使用频率的250倍左右；而有许多汉字的使用频率只有几千万分之一。因此，要从根本上提高汉字的输入速度，对一部分高频字应该无条件地优惠对待，就是说，尽量使其击键次数最少(取作一级简码)。这个所谓的“无条件优惠”，就是这里提出并采用的高频无理的概念。只有利用字形编码，同时利用本发明提出的高频无理的概念，才能使汉字输入的速度上一个新的台阶。

本发明的目的就是要最大限度地提高汉字输入的整体速度。本发明与以往各方案相比，就是首次提出并采用了高频无理的概念，同时对字根的键盘位置以单字重码最少作为目标函数，对各字根在键盘上的位置进行了整体优化。同时，以一级简码字组成的词组重码最少作为目标函数，对一级简码字的位置进行了整体优化。两重优化的结果，使汉字输入的整体速度得到了最大限度的提高。所谓高频无理，就是高频字的编码原则可以有别于其它字的编码原则而表现出一种无理性。既然高频字的编码原则与其它字不一样，那么高频字的编码是如何确定的呢？本发明中是由使它们之间组成的词组之间重码最少的优化目标确定的。实际上，无理是相对于大多数汉字的编码原则而言的，而从提高汉字整体输入速度的角度来看，则是最有道理的。

本发明除了单字的输入速度快以外，另一个特点就是字与词分开，它们之间绝对不重码。而四个码的414720(243×30)个位置，全部给词组用，这样就可以随时造入更多新的词组，而不会影响单字的重码分布，且因为词组的位置很多，词组重码也很少。

一、单字编码的原则

我们这里选出216个常用汉字作为一级简码字，其使用频率达到53％以上。这216个一级简码字中，绝大部分是依据其使用频率最高的原则选出来的，有一少部分常用字是为离散与别的常用字重码而选入的。这216个汉字是按高频无理的原则编码的(以他们之间组成的词组重码最少作为优化目标函数)，见图1。输入这部分汉字时，只需击其编码键(只有一个码)及其断码键(分别为空格键、N键、M键、逗号[，]键、句号[.]键、/号键及分号[；]键)即可。其中有一部分字是靠M键(共24个)或N键(共24个)前断，比如说靠M键前断，就是先击一下M键，然后击与该字对应的编码键(只有一个码)即可。这216个字除了用空格断的24个最常用字及二～十共9个汉字数字是按使用频率或记忆方便的原则编码外，其它字的键盘位置都是通过使所有一级简码之间组成的词组重码最少的原则确定的(这部分字组成的词组其编码原则见后述)。这216个字的编码虽然表现出一定的“无理”性，但由于是常用字，且每个字只有一个码，只要多练习几遍，熟悉和记忆是不难的。因为是常用字，对专业输人员来说，这部分字在很大程度上是依靠条件反射输入的，这样就极有利于输入速度的提高。

对其它字，都是按字形拆分的原则编码的。每个字最多取三个字根，依次取其第一、第二及最末一个字根参与编码，用空格键断码。如果该汉字有二级简码，则只取其前二个字根参与编码，用空格键断码。将整个基本键位的30个键分成六个区，用其中的24个字母键对汉字进行编码，其它6个键用于对一级简码字及有关词组断码；空格键主要用来给单字断码。

字根的选取是通过分析所有汉字的形状及其使用频率在大量实践的基础上确定的。将汉字的单笔画按横、折、撇、捺、竖的顺序依次放在五个区的第一位内，见图2。我们通过对所有汉字的结构进行统计的结果表明，单笔字根横、折在单字中出现的次数比其它字根多，而单笔字根又主要出现在常用字中，所以将横、折放于击键方便的本位键区(一、二区)，其它三种笔画依次放于其它三个区。其它字根放在什么位置，是计算机通过大量优化计算决定出来的；优化的目标是使GB-2312(80)中全部6763个单字之间出现重码的次数最少，尤其是保证常用字之间重码最少。这样，所有字根的位置就由此确定下来了(见图2)。在辨别字根时，凡是与别的笔画有交叉的“口”字根，都作“□”字根。因为“口”字根太多，尽量离散一些。

一般来说，一个汉字只需取其三个(第一、第二及最末一个)字根并击空格键确定即可，但有以下特殊情况：

1.对于不足三个字根的字，第三个码取其最末一笔加上该字的字型来确定。末笔决定该码在哪个区，字型决定该码在该区的哪个位。字型分左右型和混合型两类，是左右型则击该区第二位的键，是混合型则击该区第三位的键。比如：“闪”字，先取“门”和“人”两个字根，因最后一笔为捺，字型为混合型，所以击I键作为补码键。又如“吧”字，先击“口”和“巴”两键，因为最后一笔为折，字型为左右型，所以击J键作为补码键(请参照图2)。对有二级简码的字，则不必加末笔识别码，加空格键断码即可。比如“回”(FS)，“字”(DG)(见图3)。

2.有一部分字有二级简码(同时还有三级码)，比如“因(FX)、相(LO)、代(JU)”等字；有一部分字只有二级简码(无三级码)，比如“标(LW)、村(LI)、付(JI)”等字(见图3，上角带星号的为只有二级简码)。对于有二级简码的字，只须依次取其前二个字根，然后加空格键断码。对于有二级简码而无三级简码的字(共248个)，只能按二级简码输入。这576个二级简码字的使用频率达22％以上。

3.对选作字根的字，其输入方法是先击其字根所在的键，然后依次输入该字的前两个单笔画，再加空格(对五个单笔画字根横、折、撇、捺、竖，连击三次所在键，然后加空格)。对有二级简码的字，则输入前两码，加空格键断码即可。

有一条例外，就是如果末笔是右上角的点，则不取其作为末笔字根或用作末笔识别码，而取其前一笔作为末笔。因为右上角的点所含的信息量太少(就是说右上角带点的字较多)，作为末笔容易导致很多字重码。

到此为止，从原则上讲，所有的汉字我们都能输入了。具体到每个汉字，字根拆分时应把握以下原则：依次取码，取大优先，照顾直观。实际上，只要掌握了一部分特殊偏旁(不是字根)的拆分方法，很多字的拆分问题就解决了。对不知道如何输入的字根，本发明提供了一个万能学习键，为[键。如果哪个字不知如何输入，则用[键代替。这样就极便于随时学习。

二、词组编码的原则

词组编码有一条大的原则，就是对每个参加编码的单字最多取其两个码。

1.二字词组

(1)对一级简码字之间组成的二字词组(比如工人、农民、我们等等)，只须依次输入每个字的编码(每个字只有一个码)，然后，用后一个字的断码键断码。如果后一个字的断码键为空格，则用分号(；)键断码。如“工人”(ZP；)，“农民”(RWN)，“我们”(YR；)等等(参见图1)。

(2)对一级简码字与非一级简码字组成的二字词组，如果第一个字不是一级简码，则输入该字的前两个码，然后输入后一字的码(只有一个码)，再用后一字的断码键断码，比如“回国”(FSO；)“留学”(DAON)等等。如果第一个字是一级简码，则先输入该字的码(只有一个码)，然后输入后一字的前两个码，再用第一个字的断码键断码，比如“种菜”(PAKN)、“学士“(VWGN)等等。如果其中一级简码字的断码键为空格，则用分号(；)键断码，比如：“聘用”(AAW；)(参见图1及图2)。

(3)对两个字都不是一级简码字的二字词组，比如“平安“、“节俭”等等，分别取每个字的前两个码(共4个码)，平安(GCDT)、节俭(AAJO)。

2.三字词组

对三字词组，先依次取每个字的第一码，最后一码分为以下两种情况：

(1)如果第三字为一级简码，则最后一码为第三个字的断码键。若最后一字的断码键为空格，则用分号(；)键断码。比如：“中国人”(IOP；)。

(2)如果第三个字不为简码，则最后一码为第三个字的第二个码(共4个码)。比如：立交桥(IULT)。

3.四字或多于四字的词组

四字或多于四字的词组，分别取前三个字的第一个码及最后一个字的第一个码(共4个码)。比如：“蒸蒸日上”(AASC)、“华人民共和国”(LJPO)、“中国科学院”(IOYV)。

本发明收入二字通用词组一万八千多条，三字通用词组三千多条，并收入成语五千多条及部分常用短语，共有词组近三万条。

三、行政名称的处理

为了增大词汇量，进一步从整体上提高汉字输入速度，本编码系统收入了中国境内的所有县级行政区域的名称(台湾省的暂没有收入)，共二千伍百多条，并给予特殊的词组编码方案，目的是为了离散重码。

不管地名多长，只要地名后带“市”、“县”、“州”、“旗”、“盟”字样，都是依次取最前面的四个码(每个字最多取两个码)，比如：乌鲁木齐市(HHDQ)、齐齐哈尔市(BCBC)、等等。只要地名后带“区”或“地区”字样，都是依次取其最前面的三个码，然后加A键断码。比如“张家口地区”(ETKA)

四、重码的处理

对单字或词组出现重码的情况，按顺序取相应的阿拉伯数字对其进行编号，选入时击相应的阿拉伯数字键。也可以下列方法选入：空格键代表1，分号[；]键代表2，逗号[，]键代表3，句号[.]键代表4，/号键代表5。这样就不必离开基本键位就可以实现对重码字词的选入。

对自造词组，本发明提供了一个新的断码键′键。对自造的词组依据其使用频度可以选用一个码、二个码或三个码，用′键断码。比如，可以定义“工程热物理”为Z，定义“计算机辅助设计”为E等等，随操作员者的专业情况而定。当然，自造字也可以按前面所述的词组编码原则编码。

由以上所述，本发明提供了优良的单字编码基础，提供了极为丰富的词组功能；再加上独立的自造词的大量码位可以随心所欲地造词组，从而大大提高了输入速度。

Claims

1.一种汉字字型编码方案，其特征是依据汉字字根的组字频率及与其有关汉字的使用频率，对字根和字型进行优选及键盘位置优化；同时，提出并使用了高频无理的概念。

2.一种为减少高频字及其词组击键次数及为离散重码的高频字而选取一级简码字的方法。

3.根据权力要求1，一种通过优化得到的所有字根在键盘上的位置图(字根表)，优化的目标是使GB-2312(80)中全部6763个汉字之间重码最少，尤其是保证常用字之间重码最少。

4.根据权力要求1或2，一种通过优化确定一级简码字(高频字)编码的高频无理编码方案，优化的目标是使所有一级简码字相互之间组成的词组重码最少。

5.根据权力要求1和2，一种除了用空格作为断码键外，还用多个其它字符作为断码键的方法，而且这多个断码键都在基本键位上，如(，)、(.)、(/)、(；)键等等。

6.根据权力要求1和2，一种一级简码汉字编码方案及其键盘位置图，说明各一级简码字的键入方法。

7.根据权力要求1和3，一种通过优化将汉字的单笔按横、折、撇、捺、竖的顺序依次安排在一定的键位上，并将汉字分成左右型和混合型两种类型并辅以最末笔画来添补不够三码汉字的最末码的方法。

8.根据权力要求1和2，一种为尽量离散高频字之间的重码而选取二级简码字的方法。

9.根据权力要求1和2，一种保证单字最多为三个码，词组最多为4个码，并保证单字与词组之间绝对不会重码的断码方案。

10.根据权力要求1、2、3和4，对GB-2312(80)中全部6763个汉字进行编码，形成了一套高频无理汉字字型编码码本或键盘位置图，其中含有一级简码、二级简码、全码(三级码)及通用词汇的编码。

11.根据权力要求1、2、3和4，对216个一级简码汉字相互之间及其与其它汉字之间组成的词组的编码方法，并保证216个一级简码字相互之间组成的词组与其它汉字之间组成的词组绝对不重码的方法。

12.根据权力要求3和6，将字根表及一级简码键盘位置图编制成软件放入计算机内存或硬盘，汉字键入过程中可随时直接从内存或从硬盘调入监视器显示出来的方法。

13.根据权力要求1、2、3和4，对有二级简码的汉字取其第一、第二个字根参加编码，对三级码的汉字取其第一、第二及最末一个字根参加编码的方法。

14.根据权力要求1和2，一种新的选入重码字词的方法，当单字之间或词组之间出现重码时，可以分别用空格键、分号[；]键、逗号[，]键、句号[.]键或/键依次选入第1、第2、第3、第4或第5个重码字或词的方法。

15.根据权力要求1和2，一种与一般通用词组不同的特殊的行政地名编码方案。

16.根据前面权力要求1～15中的任何一条，对汉字单字及词组进行编码的方法，可以作成相关的软硬件产品，可以用于一切大、中、小及微型汉字信息处理电脑系统、汉字终端、汉字打字机、通讯系统及一切汉字排序及检索领域中。