CN1054930C

CN1054930C - 形声复合码汉字输入方法

Info

Publication number: CN1054930C
Application number: CN94112196A
Authority: CN
Inventors: 张炳奎
Original assignee: Individual
Current assignee: Individual
Priority date: 1994-06-08
Filing date: 1994-06-08
Publication date: 2000-07-26
Anticipated expiration: 2014-06-08
Also published as: CN1098525A

Abstract

一种形声复合的汉字编码输入方法，以汉字造字最基本的形声方法为基础，将构成汉字的基本笔画和部首分解、归纳为10大类74种字根，并用0～9的10个数字码表示。本发明对单字和词语进行编码，前者以数字码为主、以字母码为辅，后者以字母码为主、以数字码为辅，码长为4位。本编码字根分解科学，编码规则简明，易学易记、操作方便。字词共享空间，容量巨大，重码率低，码长相同，便于连续快打、盲打。本发明为实现计算机汉字输入的最佳状态和最高速度迈出了巨大的一步。

Description

形声复合码汉字输入方法

本发明属汉字编码技术领域，是一种形声复合码。

目前汉字编码方案已达四百余种。这些方案可以分作三大类：依据汉字读音编码的音码，依据汉字字形编码的音码，以及综合考虑字音和字形编码的音形码。各种编码方案均有所长，也各有所短，它们在汉字编码的园地中百花齐放，斗奇斗艳。

音码易学易记，但重码率高，输入速度慢。因为汉字可分音节总共只有四百多个，加上声调标志也不过一千二百多个。这就不可避免地出现大量重码字。形码虽然基本上克服了重码字的障碍，却又在分解字形上搞得错综复杂。一般人很难在短时间内掌握其方法，至于各种音形码，虽然各在某些方面克服了音码、形码的缺陷，但同时却又带来许多新的问题，具有广泛运用价值的还不多。

本发明的目的在于以汉字造字最基本的形声方法为基础，提供一种可以克服音码重码率高、形码字形分解复杂之缺陷，而且编码规则简明、操作使用便捷的形声复合编码方法。

众所周知，汉字是一种由象形文字发展而成的表意文字，其造字方法主要有象形、指事、会意、形声四种，而以形声方法最常见、最有生命力。统计资料告诉我们，汉字中百分之九十以上为形声字。因此，可以说，形声字的特点就是汉字的基本特点。利用形声字的特点对汉字进行编码，是最符合汉字实际面貌和书写习惯，因而也可能是最优秀的汉字编码。

形声字的最明显的特点是可以很方便地分解成表义的形旁和表音的声旁两部分。那些非形声字，以及一些经过长期演变已失去原有面目的形声字，虽无形旁、声旁之分，或者形旁、声旁区别不明显，但依据部首和笔画，往往还是可以分解成两部分的。利用形声字的特点对汉字“一分为二”或“一分为三”是本方案的主要思想和主要做法。

本发明将构成汉字的基本笔画和部首分解和归纳成十大类七十四种字根。并分别用0～9十个阿位伯数字表示。全部汉字的编码即在此基础上产生。

汉字的读音是汉字三要素之一。在设计编码方案时充分利用汉字读音这个信息，必定会对新编码方案带来积极的作用。形声复合码在对单个汉字编码时充分考虑了汉字的读音这个要素，并将其作为那些笔画少、字形结构简单且又多是日常用字的编码的一部分。由于增添了这部分汉字的读音信息，从而为彻底消除重码现象迈出了决定性的一步。

本发明还对常有词语进行编码。由于词语和单字表现形式不同：单字仅凭读音很难确定，还要靠书写形式才能最终明确；而词语特别是双音节以上的词语，凭借读音就可作出判断。所以本方案对词语编码以读音为主要依据，而字形信息则用来区分同音词语。本方案对词语的编码，既吸收了一般音码的长处，又具有自己的特色，从而使词语的编码和输入，变得十分简便快捷。

本发明的具体方案如下：将构成汉字的所有基本笔画和部首分解为字根，并归纳为10大类共74种。对10类字根分别用0～9共10个数字码号表示。这10类字根的名称为横、竖、撇、点、折、口、叉、八、盖、合，对应的数字码号分别为：1、2、3、4、5、6、7、8、9、0。把74个字根分为基本级字根(26个)数字级字根(16个)、扩大级字根(32个)，具体见如下字根表：

以上述字根及其数字码号为基础，本发明提出了汉字单字和词语的编码方法：

关于汉字单字编码。将每个汉字单字按上述字根分解，用对应的数字码组成该字码，对于笔画较少的单字，则用字根的数字码和该字的字母码组合成该字码，码数不超过4个。按单字字根的多少分为下述3种情形：

(一)少于4字根的单字，按书写顺序依次取各字根的数字码，最后再附加字母码。例：口：冂、一，91K。于：二、亅，22V。

兴：、一、八，418X。

(二)等于4字根的单字，按书写顺序依次取各字根的数字码，取足4码。例：经：纟、フ、丶、工，5541。湖：氵、十、口、月，4769。

锥：钅、亻、亠、，8303。

(三)多于4字根的单字，分为2种情形。

1、独体字，按书写顺序依次取前4个字根的数字码，其余不用。

例：承：

亅、三、

5235。弟：丷、

丨，8052。

重：丿、一、口、一，3161。

2、合体字，合体字的构字情况较复杂，根据合体字的构字情况，本码将合体字分成三种情况处理。

(1)“二二式”，这类字由两部分构成，每一部分可以分解成两个或两个以上的字根，称为“二二式”，其编码方法是：先将单字“一分为二”，对各部分再分解成字根，然后按书写顺序分别取前、后两部分的前二个字根的数字码，合为4码。例：

解：

月、刀、，9958。零：一、冖、人、丶，1984。阔：丶、丨、氵、丿，4243。

(2)“一三式”，这类字由两部分构成，前一部分只有一个字根，后一部分可以分解为三个以上的字根，称为“一三式”。其编码方法是：先将单字“一分为二”，再将后一部分分成字根，然后取前一部分一个字根的数字码和后一部分前3个字根数字码，合为4码。

例：萍：艹、氵、一、丷，2418。淘：氵、勹、、十，4987。

喷：口、十、

6729。僻：亻、

丿

3036。

(3)“三一式”，这类字由两部分构成，前一部分可以分解成三个以上的字根，后一部分只有一个字根，称为“三一式”。其编码方法是：先将单字“一分为二”，再将前一部分分解成字根，后一部分即为字根，取前一部分的前三个字根的数字码和后一部分一个字根的数字码，合为4码。

例：愿：厂、丿、口、心，0364。善：丷、三、、口，8326。

遵：丷、一、

辶8174。熊：厶、月、匕、灬，5971。

关于汉字词语编码。本发明对于由2个汉字及2个以上汉字组成的常用词语进行编码，其基本方法是用该词的字母码和有关字根的数字码组成该词的4位词码，按词语的汉字(音节)数量具体分下述4种情形：

1、对于双音节词，先依次取这2个字的字母码，再依次取这2个字的第一个字根的数字码组成该词码。例：作家：ZJ39。

2、对于三音节词，先依次取这3个字的字母码，再取第一个字第一字根的数字码组成该词码。例如：计算机：JSJ4，现代化：XDH1。

3、对于四音节词，依次取这4个字的字母码组成该词码。例如，汉字编码：HZBM，突飞猛进：TFMJ。

4、对于多音节词，即多于4个音节的词，依次取前3个字和最后一字的字母码组成该词码。例如：印度尼西亚：YDNY。

上述所谓的字母码是指该字的声母字母，ZH、CH、SH分别取Z、C、S。

i行、u行、u行零声母字，按拼音方案处理，i、u分别写成Y、W，u则改写成V。

上述提到的字根的次序，如第一个字根前2个字根等，是根据书写规则确定的顺序而言的。

本发明提出的形声复合码同时依据汉字、特别是形声字字形和读音两方面信息，综合运用数字码和字母码，对单字实行以形为主、以音为辅，对词语实行以音为主、以形为辅编码，是一种新颖的音形码。它具有如下几个特点：

一、设计科学，易学易记。本编码对构成全部汉字的笔画和部首用字根进行分解和归纳，大“类”(10)的区分明确，“种”(74)的数量有限，因而易学易记，使用方便。编码规则和方法简明扼要便于操作，一般人员经过短期学习和训练，即可熟练地进行汉字输入。

二、容量巨大，字词共享。本编码同时启用0～9十个数字码和A～Z二十六个字母码，除了同时具有数字码和字母码原有空间外，还具有数字和字母组合码的巨大空间。4位等长的数字码可以绰绰有余地容纳国家标准《信息交换用汉字编码字符集(基本集)》中规定的全部6763个汉字，4位等长的字母码和字母数字组合码则完全可以容纳现代汉语基本词汇和各种专用词汇。字码、词码共享空间，二者输入方式相同，不用换档，操作十分方便。

三、空间广阔，消除重码。字和字之间、词和词之间由于空间广阔，离散度大，因而将重码现象降到最低限度。可以说，本编码距离一码一字、一码一词的理想境界只有一步之遥了。

四、灵活方便，可简可扩。对本编码的方案，可根据输入的实际需要进行简化。例如在常规编码的基础上，分别编制一级数字简码、二级数字简码、一级字母简码、二级字母简码，自然还可编制三级数字简码和三级字母简码。如遇特殊需要，还可编制特别简码。因此，本编码在编制简码方面提供了特别的方便。本编码还可视实际需要，大量设定新码，扩大字、词容量。此外，还可同时编制不同专业用码，以供特殊需要。因此本编码在扩容方面具有巨大的潜力。

五、编码等长，方便盲打。本编码单字编码为等长数字码(即流水码)，词语编码为字母、数字组合码。数字码较字母码更易操作，等长则有利于实现连续盲打。

六、快速高效，省时省力。本编码上述诸特点，均为了努力达到汉字计算机输入的最佳状态和最高水平。随着操作技术的日趋熟练，追赶口语速度也也将成为现实。我们还希望：形声复合码的出现，将改变汉字计算机输入的艰难落后状态，努力使之成为轻松愉快、令人欢乐的工作。

形声复合码是一种用途极其广泛的汉字编码。它除了主要运用于汉字计算机输入之外，还有其它多种用途。例如，本编码可以用来检字和编制索引，特别在编排辞书方面更具优越性。由于本编码无繁锁的规则，无一次次转换过程，见字即可出码，码号即成页号，简易快速，非其他方式检字可比。形声复合码可以运用于简易速记，不需经过专门训练，直接用编码代替部分常用字和常用词语，可以在很短时间内提高书写速度。同时，书写者还可根据工作需要和书写习惯，利用本编码方案，特制简码或临时创制新码，十分方便实用。形声复合码可以经过适当改造，取代旧式电报码，大大减轻电报收发的劳动强度，提高工作效率和服务质量。此外，形声复合码对科学研究、文化教育、新闻出版、图书管理、密码制定、软件开发诸方面都有着广阔的应用前景。

Claims

1.一种计算机汉字输入方法，其特征在于将构成汉字的基本笔画和部首分解为字根，并将字根归纳为10大类共74种，对10类字根分别用计算机键盘的0～9共10个数字键(码号)表示如下：

然后将每个汉字按上述字根分解，用下述不超过4个码的数字码和字母码组成汉字的编码，利用键盘上的相应键位输入汉字：

(1)对于少于4个字根的单字，按书写顺序依次取各字根的数字码，最后加上该单字的字母码；

(2)对于等于4个字根的单字，按书写顺序依次取4个字根的数字码；

(3)对于多于4个字根的单字，分成2种情形：

①独体字，按书写顺序依次取前4个字根的数字码；

②合体字，将其分为三种情形处理：

(i)“二二式”，将单字分解为2个部分，再将各部分分解为字根，按照书写顺序依次取前、后两部分的前2个字根的数字码；

(ii)“一三式”，将单字分解为2个部分，先取前一部分的一个字根的数字码，再取后一部分前3个字根的数字码；

(iii)“三一式”，将单字分解为2个部分，先取前一部分的前3个字根的数字码，再取后一部分一个字根的数字码。

2.根据权利要求1所述的计算机汉字输入方法，其特征在于2个汉字及2个以上汉字组成的词语，分别按下述情形用该词的字母码和有关的字根数字码组成该词的编码，利用键盘的相应键位输入词语：

(1)对于双音节词，先依次取这2个字的字母码，再依次取这2个字的第一个字根的数字码；

(2)对于三音节词，先依次取这3个字的字母码，再取第一个字的第一个字根的数字码；

(3)对于四音节词，依次取这个4个字的字母码；

(4)多于四音节的词，依次取前3个字和最事一个字的字母码。