CN1122913C

CN1122913C - 计算机汉字信息处理的规范编码输入方法

Info

Publication number: CN1122913C
Application number: CN 98126811
Authority: CN
Inventors: 刘君度; 陈昌英
Original assignee: Individual
Current assignee: Individual
Priority date: 1998-12-30
Filing date: 1998-12-30
Publication date: 2003-10-01
Anticipated expiration: 2018-12-30
Also published as: CN1258881A

Abstract

本发明是一种用于计算机汉字信息处理的汉字规范编码输入技术。该方法提供了一种改进的汉字编码技术，它基于人们已有的知识储备，在降低重码率，达到汉字编码技术指标的同时，实现计算机汉字编码的规范化，从而使所需的记忆量降到最低限度。通过科学选取基本码元的数量和键位，有效地解决计算机汉字输入难学易忘的问题，给人们提供一种既规范、又简易便捷、能即学即用的计算机汉字快速输入方法。

Description

计算机汉字信息处理的规范编码输入方法

本发明涉及一种用于汉字信息处理的汉字编码技术，特别是使用键盘往微型计算机输入汉字的规范编码方法。

计算机信息处理的汉字输入方式，一般有光电扫描、手写输入、语音录入以及键盘编码输入等几种。前三种方式由于对计算机硬件配置的要求较高以及适应性问题而不易推广普及，目前成本低，应用广泛的仍是键盘编码输入方式，其中具有代表性且使用较多的有拼音、自然码、钱码、五笔字型等多种汉字输入方法。这些输入方法尚存在着这样的问题，即易学易用与重码率高的矛盾，重码率的高低又直接关系到汉字录入的速度。如拼音易学，但重码字多，须翻页寻找再选字输入，录入很慢。为了减少重码以达到快速往计算机输入汉字的目的，就必须把汉字按一定的规则拆分为多个部首和字根，由于汉字数量多，且结构复杂，拆分出的部首和字根多达数百个才能满足汉字编码的要求，而且这种拆分为了适合编码的需要，往往因字而异，规则繁琐，给汉字输入人员增加了很大的记忆负担。这种字根多、又不规范的拆分方法破坏了汉字内在结构的整体性，成为计算机汉字输入难以掌握的主要原因。

为了解决这个问题，通常的办法是将拆分后的部首和字根按形、音、义分类整理，然后按一定的规则有序地进行组合排列，使人们便于记忆。如申请中国专利的钱码以及王林快码，即采用了按形、音、义分类安排键位，高频字预示等便于记忆的方法，但其拆分的编码字根高达200-300个，所需的记忆量并未减少，仍是人们学习汉字输入技术的沉重负担和障碍，难以为一般人在短时间内掌握。

本发明的目的是要提供一种改进的声形结合的汉字编码技术。它基于一般人均已具有的知识储备，以汉字的读音及汉字三个角的笔形特征进行编码，通过普通的英文字母键盘输入汉字，在减少重码，达到汉字编码技术指标的同时，实现计算机汉字编码的规范化，从而使所需的记忆量降到最低限度，进而有效地解决计算机信息处理过程中汉字录入难学易忘的问题，给人们提供一种既规范、又简易便捷、能即学即用的计算机汉字快速输入方法。

本发明的汉字规范编码方法是这样实现的：借助计算机的26个字母键，一个汉字取四键作为编码。其编码思想是：汉字的编码由声码和形码两部分组成，声码部分取汉字的声母编码，形码部分取汉字的首、尾、补编码。汉字的声母编码与键盘的英文字母相对应(无声母的汉字取韵母的首字母为编码)。汉字规范编码对首、尾、补编码的约定意义是：以汉字的左上角的起笔为首形码，右下角末笔为尾形码，最后以汉字右上角最高的笔形为补形码，因而一个汉字的全码为四码，即最多四键可输入一个汉字。

形码部分的字形编码元素分为十种，分别用十个英文字母键表示：E— 一

横、横上钩、斜右钩I— 丨

丿亅竖、撇、竖左钩U— 丶

点、捺X— 十ナ乂叉 (两笔交叉)W—

扌插 (一笔纵穿两笔或两笔以上的笔画)O— 囗

方框 (四角整齐的方形)L— 乛

角 (一笔向下转折或两笔笔头相接所形成的角形)B—

丷 八 (八字形和八字形的变形)V—

忄

小 (小字形和小字形的变形)A— 亠点下有一横 (点和横相结合)

以上编码元素按国家现行出版的《新华字典》、《辞海》对汉字四角笔形的分类进行了取舍，但基本码元相同。

汉字的编码方法：

本发明的汉字规范编码规则十分简单，首先取该汉字汉语拼音的首字母为声码，然后取该汉字的字形编码。汉字的字形编码由首形码、尾形码和补形码组成。一个汉字最多可以定音定位取四码，其码元组成和顺序如下：

即：声码+首形码+尾形码+补形码。

其中形码的取码方法和位置与《新华字典》、《辞海》对汉字左上角、右下角、右上角所取的笔形完全一致。例如对“衡”字进行编码，其汉语拼音的首字母是H，首形码为左上角的撇，其对应码元为I；右下角的尾形码是竖钩I，右上角的补形码是横E，根据编码规则HIIE即为“衡”字的编码；又如对“活”字进行编码，先取其汉语拼音的首字母H，首形码为左上角的首笔画点，其对应码元为U；右下角的尾形码是口，对应的码元为O，右上角的补形码是撇I，“活”字的编码即为HUOI。

汉语拼音和形码的四角号码查字方法是人们在中、小学语文教育中已掌握了的基础知识。因此，本发明的汉字规范编码输入方法与拼音输入法一样，利用了人们已有的知识储备，是一种规范、免学习的汉字键盘输入技术。

解决汉字重码的技术措施：

由于同声母的一些汉字具有相似的首尾结构，出现多个汉字编码相同的重码问题，为了在仅有十个基本码元的情况下降低重码率，分散较为集中的重码字，达到易学好用的目的，规范编码采用了一种“路径”的编码方法。本发明所谓“路径”的编码方法，是指以减少汉字重码，提高汉字输入效率为原则，尽可能将汉字原来四键的全编码缩短修改为简码，汉字的简码经确定之后，其原有的全编码则被取消。采用“路径”编码后的效果是：在键入汉字编码的第一键、第二键、第三键和第四键的过程中，所需要输入的汉字必然在键入这四个字母串的过程中出现。汉字“路径”的编码方法是这样实现的：将全码相同的多个不同汉字，按其使用的频度分散到全码所路经的上级简码，即任何一个全码汉字，均可根据编码需要占用其路经上的一级、二级、三级简码资源。例如有五个汉字的编码均为ABLV，则按使用频度以AB为一个高频字简码，ABL为两个常用字简码，ABLV为两个非常用字的编码。因此只要知道一个字的全码，就可以在打入全码的路径上找到该汉字，从而使重码率大为降低，实现了同一编码最多不超过三个汉字，为汉字的快速输入创造了条件。

词组的编码方法：

词组编码采用四键编码，根据词组的字数不同有以下三种编码方法。(一)双字词编码：

依序输入每个字的声码和首字的首形码、末字的尾形码。

即：首字声码+末字声码+首字首形码+末字尾形码(二)三字词编码：

依序输入每个字的声码和末字的尾形码。

即：声码1+声码2+声码3+末字尾形码(三)多字词编码：

多字词是指三个以上汉字所组成的词组。其编码依序输入前三个字的声码和末字的声码。

即：声码1+声码2+声码3+末字声码

基于快速输入的思想，词组的编码与汉字的编码一样，采用了“路径”的编码方法，全码词可以占用“路径”上的二级简码、三级简码资源。如“北京”的简码为BJ； “计算机”的简码为JSJ；“满园春色”的全码为MYCS，均无需输入形码。

汉字规范编码与现有计算机汉字编码方法相比，其特点是编码的规范性和确定性。本发明是基于国家颁布的汉语拼音和《新华字典》、《辞海》对汉字四角笔形分类的确定性条件下构建的规范编码，其中任何一个汉字也都具有规范确定的编码，因而最大限度地减少了汉字编码的模糊性和二义性。

编码规则特别简单，充分利用了人们已有的知识储备，没有特殊要求记忆的附加内容。由于用声母作首码，形码的基本码元只占十个键位，扩展的异形码元25个。同时，规范编码采用了对汉字左上角、右下角、右上角定位取码的方式，学习掌握特别容易，一个具有小学文化程度的人，已经学习了拼音和查字典的基础知识，只要了解一下编码的基本规则就可以进行计算机的汉字输入，容易做到即学即用。

简易便捷容易掌握。即使不会查字典的人，学习形码的编码方法也是容易的。规范编码运用了古代汉字象形、会意、形声的造字方法选取十个键位，以I表示竖笔；E表示横笔；O表示方框；L表示折角；B表示八字形；X表示两笔交叉；V表示小字形，是上大下小的利刃；W很容易联想到交错穿插。点下有横的顶盖，用英文的首字母A表示，这都是极为形象易记的，无需解释就能明白其代表的含意，从而使所需的记忆量降到最低的限度。

词汇的编码以声母编码为主，先声后形，形码则先首码后尾码，符合人们书写的思维过程。声码与形码分别使用不同的英文字母键，词的简码只需连续输入两个或两个以上的声码，简码省去形码后，提高了词的输入速度，如三字以上的词组，根据声码就可迅速输入，无需考虑词组是怎么写的。本规范编码收集了国标GB2312-80的一、二级汉字库和近两万条常用词组，囊括了商务印书馆1996年版《汉语成语小词典》中的全部成语，仅凭声码就可进行成语输入而不会与汉字发生重码。

声母的zh、ch、sh和Z、C、S不分，适应南方方言不分卷舌音的特点。

下面分步详细说明依据本发明提出的汉字规范编码方法的实施过程。

(1)首先依据《新华字典》对汉字四角笔形的分类选取适合的基本码元和扩展异形码元，根据基本码元和编码规则对国标GB2312-80的6763个汉字逐一进行编码后排序。

(2)通过对汉字编码排序，然后采用上述“路径”编码的方法，把重码较为集中的汉字按使用频度分散安排到全码路径的各级简码中去，修改后形成汉字码表文本文件。

(3)依据词的编码规则对二字词和多字词进行词的编码，形成词的码表文本文件。

(4)将字和词的码表文件合一进行排序形成字词合一的码表源文件。

(5)通过WINDOWS95或UCDOS的应用程序将码表源文件编译生成输入法编码字典，然后按操作系统规定步骤进行安装。

(6)根据WINDOWS 95或UCDOS工作平台的要求运行加载汉字规范输入法程序，即可调用规范码输入汉字和词组。

本发明作为计算机汉字信息处理的规范编码输入方法，采用了悬挂方式，可在中文WINDOWS 3.X、中文WINDOWS 9X、以及UCDOS等汉字操作系统下调用汉字规范输入法以输入汉字。

Claims

1、一种计算机汉字输入方法，该方法的汉字编码由声码和形码两部分组成，其特征在于：

(1)声码为汉字汉语拼音的首字母，且与普通英文字母键盘上的英文字母相对应，形码部分由首形码、尾形码、补形码组成，它们分别以汉字三个角的笔形特征进行编码，对形码的约定意义是：先以汉字左上角的起笔为首形码，然后以汉字右下角的末笔为尾形码，最后以汉字右上角最高的笔形为补形码，汉字的声码加上汉字的形码构成汉字规范编码输入法及其编码体系，用以输入汉字和词组；

(2)汉字字形的编码元素分为十种，它们分别按笔形特征与英文字母键盘上的十个英文字母以象形、形声、会意的映射关系确定其对应的字母键：E— — 横、横上钩、斜右钩I— 丨

丿亅竖、撇、竖左钩U— 丶

点、捺X— 十ナ乂叉 (两笔交叉的笔画)W— 扌插 (一笔纵穿两笔或两笔以上的笔画)O— 囗

方框 (四角整齐的方形)L— 乛

角 (一笔向下转折或两笔笔头相接所形成的角形)B—

丷 八 (八字形和八字形的变形)V—

忄

小 (小字形和小字形的变形)A— 亠点下有一横 (点和横相结合)；

(3)汉字编码是不等长编码，其最大码长为四键，取码顺序为：

声码+首形码+尾形码+补形码。

2、如权利要求1所述的汉字输入方法，词组输入采用四键或少于四键的简码方式编码，其特征在于词组编码先取各汉字的声码，然后再取形码的原则，编码方法如下：

双字词编码

依序输入每个字的声码和首字的首形码、末字的尾形码，即：

首字声码+末字声码+首字首形码+末字尾形码；

三字词编码

依序输入每个字的声码和末字的尾形码，即：

声码1+声码2+声码3+末字尾形码；

多字词编码

多字词是指三个以上汉字所组成的词组，其编码依序输入前三个字的声码和末字的声码，即：

声码1+声码2+声码3+末字声码。

3、如权利要求1、2所述的汉字输入方法，包括汉字和词组的编码，其特征还在于：把多个全编码相同的重码汉字或词组按“路径”的编码方法分散到沿路径的二、三级简码上，使之成为二、三级简码字或词组，录入汉字或词组时须根据汉字的全编码查看沿路径的一、二、三级简码直至全编码，当汉字或词组的编码以简码的形式直接作为该汉字唯一的固定编码后，其原有的全编码被取消。