CN1194285C

CN1194285C - 多输入方式的计算机汉字编码输入技术

Info

Publication number: CN1194285C
Application number: CNB001313363A
Authority: CN
Inventors: 刘君度; 陈昌英; 刘冰彬
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-10-28
Filing date: 2000-10-28
Publication date: 2005-03-23
Anticipated expiration: 2020-10-28
Also published as: CN1300976A

Abstract

本发明是一种用于计算机和电子通讯设备的中文信息处理汉字编码输入技术。该技术提供了一种新颖高效的汉字规范编码输入方法。它借助计算机键盘的26个字母键，通过引入汉字笔划形态、方向及其相互关系的概念，科学选取汉字的基本码元和偏旁，同时根据古代“六书”的造字方法使之与键位字母形成自然关联，并将多种输入法合为一体，进一步解决生僻字、繁难字的键盘输入问题，从而最大限度地减少记忆量，减轻汉字输入的劳动强度，给人们提供一种既规范、又简易便捷、能即学即用的汉字快速输入技术。

Description

多输入方式的计算机汉字编码输入技术

技术领域

本发明涉及一种用于中文信息处理的汉字编码技术，特别是使用键盘往微型计算机及其它电子设备输入汉字以进行信息处理、存储和传输的编码方法。

背景技术

汉字编码输入技术现状

计算机信息处理的汉字输入方式，一般有光电扫描、手写输入、语音录入以及键盘编码输入等几种。前三种方式由于对计算机硬件配置的要求较高以及适应性问题而不易推广普及。目前成本低、应用广泛的仍是键盘编码输入方式，其中具有代表性且使用较多的有拼音、自然码、钱码、五笔字型以及最近由北京大学权威专家组成课题组通过的《中国二笔输入法社会经济效益研究》报告所推荐的二笔码等多种汉字输入方法。这些输入方法尚存在着这样的问题，即易学易用与重码率高的矛盾，重码率的高低又直接关系到汉字录入的速度，如拼音输入法易学，但重码字多，须频繁翻页寻找再选字输入，录入很慢。为了减少重码以达到快速往计算机输入汉字的目的，就必须把汉字按一定的规则拆分为多个部首和字根，由于汉字数量多，且结构复杂，拆分出的部首和字根多达数百个才能满足汉字编码的要求，而这种拆分为了满足编码的需要，往往因字而异，规则繁琐，给汉字输入人员增加了很大的记忆负担。这种字根多、又不规范的拆分方法破坏了汉字内在结构的整体性，成为计算机汉字输入难以掌握的主要原因。

为了解决这个问题，通常的办法是将拆分后的部首和字根按形、音、义分类整理，然后按一定的规则有序地进行排列组合，使人们便于记忆，如申请中国专利的钱码、天然码以及二笔输入法，即采用了按形、音、义分类安排键位，高频字预示等便于记忆的方法，但其拆分的编码字根高达200-300个，占用键位多达30余个，码元安排与键位字母之间缺乏有机的联系，所需的记忆量并未减少，仍是人们学习汉字输入技术的沉重负担和障碍，难以为一般人在短时间内掌握，因此推广和普及计算机应用的瓶颈仍是汉字的输入问题。

发明内容

一、发明的目的和任务

本发明的目的是要提供一种改进的汉字编码技术。首先，它基于一般人均已具有的知识储备，通过科学地选取汉字的基本码元和引入汉字字首偏旁与字末偏旁的概念，将声形与形声两种输入法合为一体，进一步解决不认识的汉字的输入问题，在降低重码率，达到计算机汉字编码技术指标的同时，实现汉字编码的规范化。其次，运用我国古代象形、会意的“六书”造字方法，建立基本码元与键位字母之间的有机联系，从而使所需的记忆量降到最低限度，减轻汉字输入的劳动强度，进而有效地解决计算机信息处理过程中汉字录入难学易忘的问题，给人们提供一种既规范、又简易便捷、能即学即用并且具有多种输入方式的计算机汉字快速输入方法。

二、多输入方式的汉字编码实施方案

1、汉字编码的指导思想和编码规则

本发明的汉字规范编码方法是这样实现的：借助计算机键盘的26个字母键，一个汉字取四键作为编码。其编码思想是：汉字的编码由声码和形码两部分组成，声码部分取汉字的声母编码，形码部分取汉字的首、尾、补编码。汉字的声母编码与键盘的英文字母相对应(无声母的汉字取韵母的首字母为编码)。汉字规范编码对首、尾、补编码的约定意义是：以汉字左上角的起笔为首形码，右下角末笔为尾形码，最后以汉字右上角最高的笔形为补形码，一个汉字的全码为四码，即最多四键输入一个汉字。

2、汉字编码的码元体系

(1)汉字声母的编码

汉字声母的编码是指选取汉字汉语拼音的首字母进行编码。一般情况下首字母即是该汉字的声母，若遇卷舌音如：ZH、CH、SH或无声母的汉字则取其拼音或韵母的第一个首字母编码。声母的编码与键位上的英文字母一一对应。

(2)汉字字形的编码

形码部分的字形编码元素分为十九种，分别用十九个字母键表示：

E-一横

C-乚右弯钩 (含横上钩和斜右钩)

I-丨 竖 (含竖左钩)

P-丿撇

U-丶点

R- 捺

H-十艹正叉 (两笔垂直交叉)

X-乂ナ斜叉 (两笔斜向交叉)

M- 正插 (一笔纵向垂直穿两笔或两笔以上)

W-扌斜插 (一笔纵向斜穿两笔或两笔以上)

O-口空口 (四角整齐内无笔划的方形)

Q-日实口 (四角整齐内含笔划的方形)

L- 正角 (一笔向下转折或两笔笔头相接所形成的直角)

K-乛斜角 (一笔向下转折或两笔笔头相接所形成的锐角或钝角)

B-丷八八 (八字和八字的变形)

T- 金旁头 (撇与横笔组成的复笔)

V-小小 (小字和小字的变形)

F-忄竖心旁 (竖心旁)

A-亠头笔 (点与横笔组成的复笔)

字形编码元素按国家现行出版的《新华字典》、《辞海》对汉字笔形的分类进行了取舍，同时引入了笔划形态、方向及其相互关系的概念，按象形、会意、形声的关系使之与相应的键位字母自然地关联，无须强记，达到心领神会、一目了然的效果。

本发明的汉字声码元素与形码元素的集合共同构成汉字多输入方式的规范编码输入法及其编码体系。

3、解决汉字重码的技术措施

由于同声母的一些汉字可能具有相似的首尾结构，会出现多个汉字编码相同的重码问题，为了进一步降低重码率，分散较为集中的重码字，达到易学好用的目的，本发明采用了一种“路径”的编码方法，将全码相同的多个不同汉字，按其使用的频度分散到全码所路经的上级简码，即任何一个全码汉字，均可根据编码需要占用其“路径”上的一级、二级、三级简码资源。例如有三个汉字的编码均为JALE，则按汉字的使用频度以JA为一个高频字简码，JAL为一个常用字简码，JALE为一个非常用字的编码。因此只要知道一个字的全码，就可以在键入全码的“路径”上通过屏幕显示并录入该汉字，从而使重码率大为降低，为计算机的汉字快速输入创造了条件。

4、多输入方式的汉字编码

本发明的单个汉字可同时采用声形输入和形声输入两种方式输入汉字，其编码规则分述如下。

(1)单字的声形输入方式

单字的声形输入方式是按照人们书写汉字的习惯思维方式，即先根据字的读音考虑写首笔划，最后以末笔划结束的过程。因此编码的规则是先输入汉字读音的声母，然后是首形码、尾形码，最后加补形码，也就是：声码+首形码+尾形码+补形码。例如：“金”字的编码JBE；“石”字的编码SEO；“教”字的编码JHX；“新”字的编码XAIP。

(2)单字的形声输入方式

为适应文化层次不同的人员，允许对那些不会读或不会写的汉字采用下述形声方式输入汉字。

在一般的声形输入方式下，应当先输入汉字的声码，然后再输入该字的三个形码。对于不认识的字，难以确定声母的编码，也可以采用形声方式输入，即先输入该字的首形码，尾形码、补形码，第四键取组成该汉字的字首成字偏旁或字末成字偏旁的声母编码，也就是：首形码+尾形码+补形码+偏旁声码。在这里需要注意：无论是字首成字偏旁或是字末成字偏旁，均须取最大成字偏旁的声母编码。具体规定如下：

a、本发明所指的“成字偏旁”是指组成该字的偏旁有明确的读音，

而且不需要修正笔形即可独立作为汉字使用的偏旁。例如：虫、石、贝、牛、又、皮、俞、扁等均为有读音、可独立成字的偏旁；而纟、亻、攵、钅、、扌、宀等则不作成字偏旁处理。

b、本发明所指的“字首成字偏旁”是由汉字首笔与其后续笔划组成的最大成字偏旁。

例如：“彰”有字首成字偏旁“章”，而无字末成字偏旁。

“郇”郇有字首成字偏旁“旬”，而无字末成字偏旁。

c、本发明所指的“字末成字偏旁”是由汉字末笔与其前续笔划组成的最大成字偏旁。

例如：“读”有字末成字偏旁“卖”，而无字首成字偏旁。

“鞭”既有字首成字偏旁“革”，也有字末成字偏旁“便”。

d、汉字偏旁的取码按位置先取字末成字偏旁的声母编码，如没有字末成字偏旁则改取字首成字偏旁的声母编码。

例如：“彬”的声码取字末成字偏旁“杉”的声母S。

“统”的声码取字末成字偏旁“充”的声母C。

“谧”的声码取字末成字偏旁“皿”的声母M。

“邡”的声码取字首成字偏旁“方”的声母F。

e、没有字首、字末成字偏旁的汉字，声码一律取V。

例如：单、事、卮、其声码均取V。

以下是用形声输入方式输入汉字的例子：

例1、输入汉字“盛”。

假如不认识“盛”字，难以确定其声母的编码，可敲入形码LEU后再敲入“皿”字的声母M，即可输入“盛”字。

例2、输入汉字“垣”

先敲入形码HE E，该字仅有字末成字偏旁“亘”，继续敲入声母G即可输入“垣”字。

例3、输入汉字“浚”。

先敲入形码UXU，因该字首、末均无成字偏旁，应敲入V，若无重码，则自动输入汉字“浚”，有重码可用数字键选择输入。

由此可见，一个汉字可以同时具有“声形码”和“形声码”两个编码，二者相互兼容，互不干扰，使用人员勿需按转换键，就可以随意交替使用另一种输入法录入汉字。

(3)万能键查字输入

本发明提供了声码、形码的模糊编码方法，键盘右下角的“/”(可视为？)键为万能键，无论是单字声形方式或形声方式，还是输入词汇，它均可替代编码中任何一位不能确定的编码。

例1、输入汉字“馏”。

假如我们难以判断“馏”字的首形码，可用模糊编码代替首形码，输入L/QL，便可从提示行查出“馏”字的编码为LIQL，这时可用数字键选择输入。

例2、输入汉字“啬”。

假如不认识“啬”字，则不能确定“啬”字的声母编码，可以敲入/HQH，提示行即显示“啬”的编码SHQH，可用数字键选择输入。

5、词汇与整句的编码

词汇编码按“声母优先、形码后补”的原则编码，即按顺序键入词汇中每个汉字的声母，最多只取四个声母，不足四个声母的可继续取形码补足。根据词汇的字数不同有以下三种编码方法。

(1)双字词编码：

依序输入每个字的声码及首字的首形码和末字的尾形码，

首字声码+末字声码+首字首形码+末字尾形码

(2)三字词编码：

依序输入每个字的声码和末字的尾形码。

即：声码1+声码2+声码3+末字尾形码

(3)多字词与整句编码：

依序输入前三个字的声码和末字的声码。

即：声码1+声码2+声码3+末字声码

基于快速输入的思想，词汇的编码与汉字的编码一样，采用了“路径”的编码方法，全码词可以占用“路径”上的二级简码、三级简码资源。如“北京”的简码为BJ；“计算机”的简码为JSJ；“技术创新”的全码为JSCX；“满园春色”的全码为MYCS；“中华人民共和国”的全码为ZHRG，均无需输入形码。汉字规范编码收集了国标GB2312-80的一、二级汉字和国家新颁布的GB18030《信息交换汉字编码字符集》的汉字以及五万余条常用词汇。此外，囊括了商务印书馆1996年版《汉语成语小词典》中的全部成语，只需直接敲入声母就可进行成语的录入而不会与汉字发生重码。

三、汉字多输入编码方式的特点及有益效果

1、规范性

多输入方式的汉字规范编码与现行汉字编码方法相比，其特点是编码的规范性和确定性。本发明是基于国家确定了的汉语拼音和对汉字笔形分类的确定性条件下构建的规范编码，其中任何一个汉字也都具有规范确定的编码，因而最大限度地减少了汉字编码的模糊性和二义性。

2、多输入方式解决了不认识汉字的键盘录入问题

多输入方式的汉字规范编码兼容了声形输入和形声输入两种汉字录入方式。由于字首成字偏旁和字末成字偏旁概念的引入，本发明兼有音码输入法的简便和形码输入法的快捷等优点，解决了拼音和声形输入法对不认识的汉字的键盘录入问题。

3、易学、易记、易用

编码规则特别简单，充分利用了人们已有的知识储备，没有特殊要求记忆的附加内容。由于用声母作首码，与键盘的英文字母完全一致，形码的基本码元与其对应键位的字母有“形似”和“神似”的联系，如巧妙地用E表示横笔，I表示竖笔，O表示口，L表示直角的折笔，X表示两笔交叉，W表示多笔交叉，都极为形象自然、顺理成章，扩展的异形码元也仅13个，因而无须强记。在汉字输入过程中，使用者取码的视线只需集中在汉字的首、尾及右上角固定位置的笔划上，操作规范，不存在对汉字进行部件拆分的问题，只要知道汉字的大概轮廓便可录入，不必细究汉字的内部笔划，因此学习掌握特别容易。一个具有小学文化程度的人，已经初步学习了汉语拼音和查字典的基础知识，只要了解一下编码的基本规则就可以使用键盘进行汉字输入，容易做到即学即用。

本发明实现了单字和词汇的自然区分。由于编码中选用了不同的字母键分别表示声码和形码，根据I、O、U、V、E、A等仅表示形码的字母在编码中出现的位置，即可区分是单字还是词汇，减少了单字和词汇同时出现的重码问题，这种使单字和词汇的编码泾渭分明，各行其道的措施，进一步提高了编码素质。

词汇和整句录入是提高输入速度的关键，词汇的编码以声母编码为主，形码为辅，先“声”后“形”，形码则先首码而后尾码，符合人们书写的思维过程，词的简码只需连续键入两个或两个以上的声母，省去形码后，进一步提高了词汇的输入速度，三字以上的词组只需根据声母就可以快速录入，无须考虑该词组具体怎么写，因而给人一种亲切自然的感受。

声母的ZH、CH、SH和Z、C、S不分，适应南方方言不分卷舌音的特点。

具体实施方式

本发明可以软件的形式制作成中文信息处理的汉字输入系统，安装于UCDOS、以及WINDOWS3.X、WINDOWS95、WINDOWS98、WINDOWS NT等计算机操作平台上，为计算机提供一种简便的汉字输入方式；也可固化于只读存储器中作为中文信息处理的汉字输入技术，供掌上型移动通信设备输入汉字进行中文信息的传输和交换。

Claims

1、一种中文信息处理的汉字编码输入方法，该方法的汉字编码由声码和形码两部分组成，其特征是：

(1)所述声码部分为汉语拼音的声母或韵母的首字母，且与键盘上的英文字母一一相对应，形码部分由汉字的首形码、尾形码、补形码组成，它们分别以汉字三个角的笔形特征进行编码，对形码的约定意义是：先以汉字左上角起笔的笔形代码为首形码，然后以右下角末笔的笔形代码为尾形码，最后以汉字右上角最高的笔形代码为补形码，汉字的声码元素与形码元素的集合共同构成汉字多输入方式的规范编码输入法及其编码体系；

(2)所述形码部分的基本编码元素由汉字的十九种笔划形态组成，同时引入了笔划形态、方向及其相互关系的概念，按象形、会意、形声的关系使之与相应的键位字母形成自然的映射关联，每个键位字母所代表的笔形如下：

E-一横

C- 右弯钩含横上钩和斜右钩

I-丨亅竖含竖和竖左钩

P-丿撇

U-丶点

R- 捺

H-十艹正叉两笔垂直交叉

X-乂ナ斜叉两笔斜向交叉

M- 正插一笔纵向垂直穿两笔或两笔以上

W-扌斜插一笔纵向斜穿两笔或两笔以上

O-口空口四角整齐内无笔划的方形

Q-日实口四角整齐内含笔划的方形

L-

正角一笔向下转折或两笔笔头相接所形成的直角

K-

乛斜角一笔向下转折或两笔笔头相接所形成的锐角或钝角

B-丷八八八字和八字的变形

T- 金旁头撇与横笔组成的复笔

V-小小小字和小字的变形

F-忄竖心旁

A-亠头笔点与横笔组成的复笔；

(3)所述的汉字多输入方式包括声形编码输入方式和形声编码输入方式两种，声形编码输入方式和形声编码输入方式二者相互兼容、共同存在，无需作任何切换便可交替使用声形编码方式或者形声编码方式直接输入汉字，其编码是不等长码，最大码长为四键，取码顺序分别为：

a、声形编码输入方式：声码+首形码+尾形码+补形码；

b、形声编码输入方式：首形码+尾形码+补形码+偏旁声码；

(4)所述偏旁声码是指组成该汉字的字首成字偏旁或字末成字偏旁的声母编码：

a、所述“成字偏旁”是指组成该字的偏旁有明确的读音、而且不需要修正笔形即可独立作为汉字使用的偏旁；

b、所述“字首成字偏旁”是由汉字首笔与其后续笔划组成的最大成字偏旁；

c、所述“字末成字偏旁”是由汉字末笔与其前续笔划组成的最大成字偏旁；

d、汉字偏旁的取码按位置先取字末成字偏旁的声码，如没有字末成字偏旁则改取字首成字偏旁的声码；

e、没有字首、字末成字偏旁的汉字，声码一律取V。

2、根据权利要求1所述的汉字编码输入方法，在设置汉字和词组的简码时，其特征在于：以“路径”的编码方法分散较为集中的重码字到沿“路径”的二级、三级简码上，输入汉字和词汇时，可在键入全码的过程中通过屏幕显示并录入“路径”中的相应汉字。

3、根据权利要求1所述的汉字编码输入方法，词汇的编码采用“声码优先，形码后补”的编码原则，即按顺序键入词汇中每个汉字的声母，不足四个声母的可继续取形码补足，其编码规则根据词汇的字数不同有以下几种编码方法，其特征是：

(1)双字词编码：

依序输入每个字的声码及首字的首形码和末字的尾形码，

首字声码+末字声码+首字首形码+末字尾形码；

(2)三字词编码：

依序输入每个字的声码和末字的尾形码，

即：声码1+声码2+声码3+末字尾形码；

(3)多字词与整句编码：

依序输入前三个字的声码和末字的声码，

即：声码1+声码2+声码3+末字声码。