CN1121204A

CN1121204A - 汉字主次字元码

Info

Publication number: CN1121204A
Application number: CN 94117367
Authority: CN
Inventors: 李保源
Original assignee: Individual
Current assignee: Individual
Priority date: 1994-10-15
Filing date: 1994-10-15
Publication date: 1996-04-24

Abstract

本发明涉及一种汉字音形结合式编码方案。本发明通过以下编码原则对汉字进行编码：从构成汉字的结构单元(即字元)中选取不超过30个的高频字元作为主要字元，其余结构单元均作为次要字元。次要字元的数目没有限制。对每个字元提取其一个音码和首尾两个形码作为对汉字进行编码的元素。对每个汉字最多只取四个字元用以编码，字元的提取根据汉字的具体结构而定，不足四字元时，进一步拆分仅对次要字元进行。结合字元的音码和次要字元的形码最终形成汉字的编码。本发明提出的汉字编码方案记忆量少、重码少、使用方便、可对任意大小汉字字符集进行编码。

Description

汉字主次字元码

本发明涉及一种汉字音形结合式编码方案。

本发明可用于计算机的汉字输入和辞书查检汉字之用。

目前流行的各种汉字编码方案，基于汉字发音的，或者对汉语拼音知识的要求高，如自然码；或者重码多不便于使用，如拼音码。基于汉字笔型或考虑到汉字笔型的，其字元的选取个数多、不易记忆、且对字元的处理过于简单，表现为：人为割断了字元和不同汉字间的有机联系，对同一字元出现在不同汉字中的情况不加区分一视同仁；且对字元本身信息的提取也不充足，或者仅考虑其音的信息、或者仅考虑其形的信息，且重码仍有一定数量。如五笔字型须记忆130多个字元，结果重码汉字对国标‘GB2312-80信息交换用汉字编码字符集(基本集)’规定的6763个汉字仍有500多个。表形码采用了三十一个键位，重码字却为1000多个。

本发明的目的在于尽量提取能反映汉字间相互区别的音形信息，以解决计算机汉字输入过程中既要求规则简洁明了便于掌握，又要重码少以达到快速输入的效果。本发明需要记忆的字元不多，重码汉字仅400多个。

本发明的目的可以通过以下编码原则和措施来达到：一、从构成汉字的结构单元(即字元)中选取28个高频字元作为主要字元，其余结构单元均作为次要字元。次要字元的数目没有限制。规定凡由相连或相交笔画构成的汉字部件连同其附属笔画，如不是由两个或两个以上单个汉字相连而成均作为一个字元。这样在汉字中的字元一般可以由其相互间形成的自然间隙加以区分。

下面是一些字元的具体例子：

由相连或相交笔画构成的汉字部件，如：匚、口、万、臣、足、自、曲、柬、弗、也、禺、幸；

由相连或相交笔画构成、而且具有附属笔画的汉字部件，如：雨、小、火、鸟、负、辶；

笔画虽相连但由两个汉字相连而成，故不作为一个字元，如：辛、古、糸。

28个主要字元的内容及键位按排如下表所示：

表一

主要字元	键位	说明
主要字元	键位	说明	山疒虫氵衤扌纟火讠钅口足字旁木女日阝犭亻石土宀冖艹辶王忄月竹字头	ABCDEFGHIJKLMNOPQRSTUVWXYZ	字母A形同山取部首音取字音称‘三点水’，取‘点’字音‘衣字旁’，字母E音同‘衣’形同形同勾取字音形同取部首音取字音特别按排，例字：跄，跗取字音取字音特别按排形同字母P取部首音取部首音取字音取字音形同字母U颠倒写‘草字头’而字母V形同草、‘辶’特别按排取字音取部首音取字音取部首音

二、对于次要字元提取其一个音码和两个形码作为对汉字进行编码的元素。

字元音码的提取可分以下两种情况：

(1)字元本身即为单个汉字，则其音码为其汉语拼音的第一个字母。例如：‘自’取z，‘雨’取y。字‘一’例外取h。

(2)字元本身不为单个汉字，其音码应将其置于具体汉字中加以选取。原则是通过前拼、后拼以构成笔画最少之单个汉字，然后取对应单个汉字的汉语拼音的第一个字母。可见对同一字元其音码可以不同，例如：同为‘勹’，位于汉字‘勾’、‘匍’、‘句’，‘包’中时分别取g、p、j、b。

为减少拼读，为下述几个常用部首：‘刂、冫、囗、彡、卩、饣、礻、廾、廴、灬、夂、攵’规定了音码，具体如下表：

表二

字元	键位	说明
字元	键位	说明	刂冫口彡卩饣礻廾廴灬夂攵	ILOPSVW	取首笔形同‘两点水’，取‘两’字音形似‘卩’参照‘阝’，‘彡’取首笔画音取部首音‘廾’参照‘艹’，‘廴’参照‘辶’‘夂’‘攵’取部首音，‘灬’形似字母W

字元形码通过进一步拆分字元获得，选取原则为：

对由不相交笔画构成的字元以书写顺序选取其首尾两个形码。对由相交笔画构成的字元则一般采用先去交叉笔画将字元笔画离散，然后再选取的方法。

字元的形码用下表所示的十种类型加以表征：

表三

形码类型	键位	说明
形码类型	键位	说明	一丨丿丶乙撇连折撇捺两笔两笔叉多笔横单个汉字(及部首)	HIPNZDVCF	取笔画音，仅一笔，包括提形似取笔画音，包括撇点取笔画音包括捺和捺点取笔画音称‘刀形撇’特点：撇后紧跟折，例字：勹，角形似字母V，例字：半、并、兆、水、益取‘叉’字音，例字：民、弋、义、九、于连续书写的多于一笔的横，倒字：目、乍取单字音(部首仅指表一及表二所例之部首)

不同类型字元首尾形码的提取可区分为以下四种情况：

(1)仅由相连笔画所构成的字元：依其书写顺序取其首尾两个形码。例如：‘自’取pm，‘兆’取ev，‘立’取nh。

(2)具有相交笔画，但相交部分可用表所示的十种类型加以表征：保留相交笔画取其首尾两个形码。例如：‘主’取nw，‘米’取vm。

(3)字元某笔为交叉笔画且去掉后余下部分构成单个汉字：将此笔去掉即可。例如：‘丸’、‘必’去掉交叉笔画后分别为‘九’、‘心’其首形码为j、x，尾形码空缺。

(4)其余情况：从交叉点最多的笔画开始逐一去除，直止余下部分无交叉笔画或可用表所示的十种类型之一加以表征。一般情况去掉的为横向或竖向的最长笔画。例如：‘本’、‘册’、‘重’，可分别去掉笔画‘丨’、‘一’、‘丨’。

无论那种情况均应遵循尽量使产生的首尾两码所具有的笔画数最多的原则，以便字元的首尾两形码最大限度地反映该字元的具体结构。三、对每个汉字最多只取四个字元用以编码，如组成汉字的字元序列其字元数超过四个，则取前三个与最末一个字元。汉字字元序列的提取根据汉字的具体结构分以下二种情况采用不同的选取方法；

(1)不以主要字元作部首的左右结构以及含左右结构的任何混合结构：对其左右结构中的任一部分最多只取首尾两个字元。例如：‘敬’取‘艹口攵’‘糖’取‘米广口’。

(2)以主要字元作部首的左右结构以及除(1)以外的其余情况按书写顺序依次提取。

汉字字元选取次序仍遵循先上后下、先左后右、先中间后两旁的原则，对于包围型结构的汉字则根据包围字元和被包围字元的起笔画的前后次序而定。如包围字元的起笔画在被包围字元的起笔画之前，则次序为先外后里，如：庙、赶、句、同、区、困；相反情况其次序为先里后外，如：凶、连、延。四、结合字元的音码和次要字元的形码最终形成汉字的编码，具体步骤可分以下几种情况进行：

(1)提取的字元数恰为四个：汉字编码即为此四个字元的对应音码。例如：‘源’字编码为dcbx，‘撂’字编码为ftwk。

(2)提取的字元数为三个：汉字编碍的前三碍为此三个字元的音码，第四码则取三个字元中第一个次要字元的首形码，如三个字元均为主要字元，则第四码空缺。例如：‘忪’字，前三码为‘忄八厶’的音码xbs，最后一码取‘八’的首形码p，合起来为xbsp；‘保’字三个字元均为主要字元，故仅取三码为rkm。

(4)提取的字元效为两个：汉字编码的前两码为此两个字元的音码，后两码的决定分以下三种情况：

①两个字元均为主要字元：后两码空缺。如‘如’字为nk、‘休’字为rm 。

②两个字元中有一个为主要字元：则避开主要字元，选取次要字元的首尾两形码作为后两码。如‘护’字前两码为fh，后两码为‘户’字的首尾形码ns。

③两个字元均为次要字元：依次取相应字元的首形码作为后两码。如‘欢’字后两码为cd。

(4)提取的字元效仅为一个：取其相应的音码和首尾形码，不足四码以字母‘q’填补。不同表一及表二所例之部首依其书写顺序取其笔画形码。

总之其基本原则为：若提取的字元不足四个则进一步拆分仅对次要字元进行，尽量避开主要字元。其理由是：主要字元是高频字元，故汉字间的相互区别主要受其次要字元的制约。避开主要字元的步骤并不复杂，因为主要字元仅为28个，容易记忆，而字元数此时仅为2、3个也易从中挑选。

下表给出一些例字：

表四

汉字	音码对应字	音码	形码
汉字	音码对应字	音码	形码	峪嵩峒崩瘤必徵才赤匆滞勹勾漠液弗缎	山八人口山高口口山同一口山月月疒留刀田必彳山王攵才赤匆氵带冖巾勹勾厶氵艹日大氵夜人夜弗纟段几又	abrkagkkathkayybldtbcawwcccdduj不定gsdvoddyryfgdjy	xcptbwddzg

汉字	音码对应字	音码	形码
汉字	音码对应字	音码	形码	萌廾葆丸攵灬夂夷羊曳朋叠兆再正占凵	艹日月廾艹亻口木丸攵灬夂夷羊曳月月又又又且兆再正占凵	voyvvrkmwwwwyyyyyyyyqzzzz不定	pijpcpnpyinlopevhrhzikzi

膏缦关廓匚殴谈刂九角柬几镶嘀品啁冫末枉民亠如廿口丕阳彡隙卩七欠獬

膏口冖月纟日四又关广享子阝匚区区几又讠火火刂九角柬几钅襄口襄口嘀十口口口口口周土口冫末木王民亠女口廿口丕阝日彡阝小日小卩七欠犭角刀牛

gkuygosyggxzp不定qqjyihhijjjjjxkxkdskkkkkztklmmwm不定nknoppoppxoxpqqqjdn

vthzizcdyhbpznhfbzcnhvhihbhppzicdr

中乍李垤址审芒吝吾旬昔怏忆胼肥垩圣功颗秘欣帙站粕粑类驮祢饵视饥尾

中乍木子土至土止宀申艹亡文口五口旬日昔日忄央忄乙月并月巴亚土又土工力果页禾必斤欠巾失立占米白米巴米大马大礻尔饣耳礻见饣几尸毛

zzmztztzusvwwkwkxoxoxyxyybybytytglgyhbjqjslzmbmbmdmdsesesjsjsm

kpflhlihOnznchhdvhinzvkzzhychcohpxpdipnivpvzvczcnddhnidpzp

憩狂冉休做饣束世礻申甩兔田案

千口自心犭王冉亻木亻十口攵饣束世礻申甩兔田宀女木

qkzxqwrrmrskwssssssttunm

ihdzhbnnnoymnos

屎祥袄盲氓疮蜇庥增堵荡苕苛笤

尸米礻羊礻夭亡目亡民疒人仓扌斤虫广亻木土曾日土者日艹氵汤艹刀口艹丁口竹刀口

smsysywmwmbrcfjcgrmtzotzovdtvdkvdkzdk

zvnlnpninzzpnvtzzhz

由上述四点组成的编码方案，运用于国标‘GB2312-80信息交换用汉字编码字符集(基本集)’规定的6763个汉字，重码为400多个。

几点说明：一、主要字元的个数可以增加，甚至可以入选某些合体汉字，如：辟、青、林、隹。其结果是减少了重码，简化了编码，但增加了记忆量。二、形码的键位按排如考虑汉字的具体结构而加以区分的话，可以进一步减少重码。例如：若字元出现在左右结构汉字中，其形码的横、竖、撇、折类对应计算机键盘的‘H’、‘L’、‘P’、‘Z’键位；其余情况，则相应对应表示元音字母的‘E’、‘I’、‘A’、‘U’键位。这样做可以考虑到更多的汉字结构信息，缺点是增加了记忆量。

本发明提出的汉字编码方案记忆量少、重码少、使用方便。和现有编码方案相比具有如下优点：一、编码原则严谨统一、字元拆分方法简洁明了、易于掌握。二、能更多反映汉字的结构信息，例如：

(1)不割断汉字字元和汉字本身的结构联系，将非单个汉字的字元的音码结合具体汉字加以考虑；

(2)考虑到汉字的结构差异，对不同结构采用不同的取字元序列的方法；

(3)以一音两形表征字元，更多地反映了作为组成汉字基本单元的字元的特征；

(4)通过尽量提取低频字元、即次要字元具有的信息，从而抓住了汉字间相互区分的主要信息。三、编码容量大，由于次要字元的数目不受限制，从而可不受汉字字符集大小的限制。四、编码原则灵活、便于扩充。例如：主要字元的个数可以增减；字元可以包括合体字；亦可根据汉字的不同结构使某些形码对应不同键位。

Claims

1.一种可对任意大小汉字字符集进行编码的汉字音形结合式编码方法，该方法从构成汉字的结构单元(即字元)中选取若于高频字元作为主要字元，其余结构单元均作为次要字元，次要字元的数目没有限制。用主要字元和次要字元对汉字进行编码，对每个汉字最多只取四个字元用以编码，编码采用和字元有关的声母及进一步拆分得出的首尾形码，其特征在于：

a.对不以主要字元作部首的左右结构汉字以及含左右结构的任何混合结构汉字取字元时，对其左右结构中的任一部分最多只取首尾两个字元；

b.若提取的字元不足四个则进一步拆分仅对次要字元进行。