CN1087733A

CN1087733A - 汉字前续码

Info

Publication number: CN1087733A
Application number: CN 93118031
Authority: CN
Inventors: 李向宇
Original assignee: Individual
Current assignee: Individual
Priority date: 1993-09-23
Filing date: 1993-09-23
Publication date: 1994-06-08

Abstract

本发明提供了一种比已有优秀编码方案更为优秀的汉字前续码。汉字前续码将代码符号分为前码符和续码符，将输入键分为前键和续键，有3666个以2—3键输入的简码，可为上百万个词语编取码长字均小于2位的代码，有供非专业人员使用的有较好实用价值的易学码系统和供专业人员使用的普通码系统，适用广泛，初学容易，发展无量。此外，本发明还提供了一种源于汉字前续码的前续异码方案。

Description

本发明涉及汉字编码及计算机输入键盘的设计。

在本发明提出之前，国内已有多项优秀的编码方案问世，如王永民的“五笔字型”、张国防的“五十字元”、杜冰蟾的“全息码”等等。这些优秀方案具有重码少、易记易学、便于盲打、输入速度快等诸多优点。

本发明的目的在于提供一种较之上述这些优秀方案更为优秀的汉字编码方案。本发明依据一种独创的设码方法，使之在基本上保持了重码少、易记易学等优点外，又具有了以往任何一种编码方案都不具备的两大优点：第一是简码数量多，是“五笔字型”简码数量的5倍多;第二是在重码率与“五笔字型”、“全息码”等方案相当的前提下，可对几十万乃至上百万个词语编码且字词码兼容。

本发明的独创的设码方法是：所用代码符号（拉丁字母）区分为前码符与续码符两种，编码时先取前码符续取续码符，绝不容许将续码符放在前码符的前面。这也正是本发明取名“汉字前续码”之含义所在。

以下将详细阐述本发明实现的具体方法：

一、代码符号与字根

汉字前续码采用拆分字根笔划取码的方法。图1列出了20个前码符及其所代表的字根笔划，括号中的是归类字根（笔划），归类于括号前的基本字根（笔划）。图2列出了6个续码符及其代表的笔划和字型。图2中的4个由双三角形组成的符号即为字型符号，分别代表了左右型、上下型、交叉型和其它型4种字型。这里所说的字型与我们平常所说的字型有所不同，是指两字根（笔划）的结合型。例：“明”为左右型，“太”为上下型，“中”为交叉型，其它型即是前边3种字型以外的字型。

由图可知，每种笔划都有两个代码符号，一个前码符和一个续码符。有一部分笔划归类于字根“了”，据于“了”形若单笔且实际书写中多以一笔写成，故将“了”视同笔划。

图1图2中共69个基本字根（笔划）将随同26个拉丁字母标印在输入键的键面上。

二、键盘设计及对计算机程序编制的要求

与代码符号的前续之分相关联，键盘的26个输入键也分为前键与续键，前码符所在的键为前键，续码符所在的键为续键。为使输入键的前续之分具有实质性的意义，为汉字前续码编制的计算机程序应使键盘具备如下功能：

（1）连击前键，每4键为一个间隔，即4键输入一字。

（2）击前键1-4次后接击续键，前续键之间无间隔，即击前键是输入一个代码中的前码符，接击续键是输入同一个代码中的续码符，击续键无间隔，也就是说，一个代码中的续码符可多可少且无限制。

（3）击完续键后再击前键，击续键与击前键之间必定被间隔开，即击前键是开始了另一个代码的输入。

具有上述功能的键盘，不但可以不借助空格键而以2键或3键输入一字，还可以用4键、5键……甚至很多键输入一字。

三、码型

凭借前续键键盘的功能，汉字前续码能编取多种码型的代码。

只有一个前码符或一个续码符的代码统称“1位码”。1位码需借助空格键以2键输入。1位码共26个。

含有一个前码符和一个续码符的代码称为“1前1续码”，也是2键输入，共120个（20×6）。

含有两个前码符的代码称为“2前码”，2前码需借助空格键以3键输入，共400个（20×20）。

以下对码型的名称不必再作解释。

“1前2续码”，3键输入，共720个（20×6²）。

“2前1续码”，3键输入，共2400个（20²×6）。

以2、3键输入的代码是简码，汉字前续码的简码共有3666个（26+120+400+720+2400）。

此外，还有“3前码”、“4前码”、“3前1续码”等许许多多的码型。

四、汉字编码

汉字前续码为每一个汉字分别编码以易学码、简码和普通码，以下分两部分予以阐述。

（1）易学码和简码的编取

易学码是一种即学即会的适宜于非专业人员使用的代码系统，它从图1图2表中选用少量字根和笔划，如图3所列。因为简码将结合易学码编取，为了简码编取的需要，易学码分别以“1前加续”法和“2前加续”法编取两次。“1前加续”法是：按笔顺拆字取码，首取一个前码符，然后将字的余下部分全部拆为笔划以续码符按序取码。如果不是从某字的编码过程而是从全部汉字的编码过程来看，情况是这样的：按规则取到第一个前码符后，就有了一个“1位码”，但这个“1位码”重码字极多，于是将这个代码分配给这许多字中实用频度最高的一个;然后取第二个码符，得到一个“1前1续码”，重码字少了许多但仍然不少，就仍以实用频度为据将此代码分配给某一个字;如此不断进行，直到最后一个字得到离散。编例：

嚣：K X B M M……

编例代码中的省略号表示整个编码过程的延续，至于特定的“嚣”字，它在第几位上得到离散就给予几位码。

有些字笔划很少且实用频度又低，笔划取尽还未得到离散，则可将整字拆成笔划再次取码，二次取笔划不够可取第三次、第四次……编例：

钇：J C V M M……

“2前加续”法除了取过两个前码符后再取续码符外，整个编码过程一如“1前加续”法。不过，在“1前加续”法中已得到简码的字，不再配以简码而应配以4位以上的代码。

如上编码代码有一个好处，比如操作员将一个由“1前加续”法配给简码的字错记成此字的简码由“2前加续”法配给，输入时，操作员击键三下发现错误后，可将错就错，继续击键以易学码输入。

包含在易学码中的简码有2千多个，而简码总数有3千多，余下一千多个简码需以定义或半定义方式配出。

为便于易学码的运用，易学码所选用的基本字根（笔划）在键盘输入键的键面上应占据显著位置与其余基本字根适当分开。

易学码有两种，使用者可任意选用，但在离散度、字均码长方面，以“2前加续码”为优。“2前加续码”的5位码（2前3续）共有86400个（20²×6³），加上4位以下的代码，总数超过10万，所以，绝大部分常用字能以5键或少于5键输入，可见，易学码不但易学，又具有较好的实用价值。

（2）普通码的编取

普通码是一种码长固定，便于盲打的适合专业人员使用的代码系统。普通码使用图1图2字根表，码长4位，取码顺序为：字的上边的字根笔划从上边拆取，下边的字根笔划从下边取，其余的从中间取，先自左至右拆取上边，再自右至左取下边，最后以先左后右、先下后上次序取中间，按以上取码顺序取足4位即止，且全都取以前码符。

对那些字根笔划少，只能取到3个前码符的字，则再以续码符对字的右上角笔划取最后一个码符，如果一个字只能取到2个前码符，则在对字的右上角笔划取码后，再对字型取一个续码符。

因普通码取码顺序为先上后下再中间，所以本发明提出了一个简单明了的在字体结构中给字根（笔划）定位的标准：两个或两个以上的字根（笔划）以交、连、围、夹、叠的方式结合在一起，必须予以定位，即分出上下或上中下来，首先以横笔或折笔中的横向线段定位，如“凤”字，本来只分内外难分上下，现依据横向线段定位，几上又下，确切无疑;如果一个字根没有横笔和横向线段，就以两笔划交连点定位，如“臾”字，虽“人”根贯穿上下，但依其两笔交连点定位，可确认“人”位于下方;对于没有横向线段的笔划和连交连点也没有的字根，则视其在结构中的相对位置予以定位，如“九”字，其中撇笔无横向线段，就视其整体高于折笔，确定为撇笔上折笔下;如“中”“申”等竖笔贯穿上下的情况，一概约定为竖笔在下;如一个字根有两个以上的横笔，那么，这个字根从上边拆取时以最上边的横笔定位，从下边或中间拆取则以最下边的横笔定位。

还有一个如何确定字的右上角笔划的问题，有些字，如“犬”、“族”、“义”、“汪”等，其右上角笔划显而易见，依次分别为点笔、横笔、撇笔、横笔;但另有一些字，则右上角笔划不易确定，为此，规定如下：

一个字有一个笔划整体高于别的笔划，就取这个笔划，如“安”字取点笔，“重”字取撇笔。

一个字的右上角有两笔交叉，则取高的一笔，如“估”字取竖笔。“太”“左”等字参照此规则取撇笔。

上述两条规则为舍右取上。

一个字如有一个笔划整体处于字的右侧，就取这个笔划，如“扑”字取点笔。此为舍上取右。

到此，可依据一整套规则给出普通码的编例了。

蝴：DIYK （虫十月口）

母：IJPY （

、亠）

估：RIKX （亻十口丨）

古：IKXN （十口丨）

普通码有少量“2前2续码”，所以有可能与易学码发生异字同码的问题，即普通码与易学码分别对两个不同的字编码，却编出了完全相同的代码，对此，易学码应该将代码让给普通码，同时易学码以5位码代之。

普通码成字字根的代码以“字根本身、字根的首笔、续笔、末笔”为序用前码符编取。

普通码的重码率较高，对“GB2312-80”中的6763个汉字进行编码，共有重码字600余个，但是，其中大部分重码字可以通过掌握运用简码予以解决，比如一个常用字与一个非常用字重码，可将非常用字安排在重码选择的首选位置上，当操作人员记取了常用字的简码后，这个重码就完全得到了解决。凭借3666个简码，汉字前续码有可能做到常用字无重三码且非常用字的重码率也极低。

五、词语编码

词语代码采用“4前加续”法编取，假如所用计算机的存储容量足够大，可对双音节词编以“4前1续码”，对三音节词或词组编以“4前2续码”，对四音节以上的词、词组和短语编以“4前3续码”。

4前1续码共有96万个（20⁴×6），4前2续码共有576万个（20⁴×6²），4前3续码共有3456万个（20⁴×6³）。

“五笔字型”共有可编代码39万余个，实编字词代码1万多个，按此比例，汉字前续码可为约25万双音节词，15万三音节词语，90万四音节以上词语编取代码，词语代码的字均码上小于2位。此外，还有许多空余的4位代码可作为简码编配给最常用的词语。如此巨量的词语代码，完全有可能使汉字输入计算机达到以词语输入为主单字输入为辅，至少是字词并重的水平。

词语代码的编取是在单字编码的基础上进行的，如何编取已无需详加阐述，在此只说明一点：先按字拆根取足4个前码符，再逐字对字的右上角笔划取续码符。

六、汉字前续码的适用推广

汉字前续码并不仅仅适用于26键的键盘，如调整增设字根，并将它们扩散到更多的输入键上，便可使汉字前续码适用于多于26键的键盘。反之，缩减字根紧缩分布便可使之适用于少于26键的键盘。

如要使用10个输入键的键盘，可设5个前键和5个续键，将全部笔划安排到5个前键上，并将全部笔划再次安排到5个续键上，另外选取5个或10个组字能力强的字根安排到5个前键上，输入时，按笔顺拆字击键，首键无论拆到字根或笔划都击前键，从第二键开始，拆到字根击前键，如拆到笔划则跳过不击键，当拆完全部字根后再回过头来拆取未拆用的笔划击续键。如一个字笔划少且不常用，按上述次序拆完全部字根笔划还不够时，可对此字再次进行拆分，全部拆成笔划并按笔划击续键。

这种适用于10个输入键键盘的汉字前续码，即学即会并且具有较好的输入速度，大部分常用字都可以2-6键输入。

综上所述，本发明的优势可归结为：适用广泛，初字容易，发展无量。

适用广泛，除了汉字前续码可适用于大小不等的各种键盘外，其将代码符号及输入键给以前续之分的基本方法还可用于其它语种文字的编码。

初学容易，一是指易学码易学，二是指普通码也不难学，因为使用时可撇开代码符号而以标印在键面上的基本字根（笔划）代替代码符号，这样，拆字击键只要背记归类字根（笔划）就行了。归类字根的背记也很容易，因为每类归类字根之间以及归类字根与基本字根之间存在着意义相同或结构形状相近的联系，如基本字根“王”所代表的那些归类字根，只要明白了它们的基本结构是三横一竖就可很方便地记住它们的归类。

发展无量，是指在输入速度上的发展，汉字前续码如此大量的简码和词语代码，掌握越多，输入速度必越快，只要掌握了相当数量的简码和词语代码，就可使输入速度达到前所未有的高度。事实上，词语代码按统一的规则编取，无需背记，要记住的是哪些词语有代码哪些词语没有代码，而当上百万个词语编有代码之后，一般较常用的词语都在有码之列，此时只要掌握分寸，分得清词语的常用与否就等于掌握了全部词语代码。

以上对汉字前续码作了详细阐述，在此，本发明还将提供一项在前续码的研究过程中意外得到的编码成果，这项成果源于前续码又非前续码，故取名为“前续异码”。

前续异码主要以字根读音的声母或韵母中的第一个字母作为代码符号，同时辅之于助记字的方法，即以含有字根的某个字作为字根的助记字，以助记字读音声母的第一个字母作为字根的代码符号。助记字有助于快速记忆。以“乙”为代表的那部分笔划称为“弯笔”。图4是前续异码所选设的代码符号及字根表。前续异码采用汉字前续码普通码的字根定位标准和取码顺序。编例：

蝴：CIYK 前：BDYH

只有三个字根（笔划）的字加取字的读音拼音的第一个字母。只有两个字根（笔划）的字则加上对末笔和读音取码。编例：

阿：EDKA 可：DKHK

也可考虑以右上角笔划代替末笔。

前续异码与“全息码”相比，“全息码”将字根分为键名字根和其它字根，因此编码规则比前续码繁复一些，再则，“全息码”以笔顺取码，笔顺规则（口诀）有多条，对某些字有应该适用哪一条之疑惑，如“母”字，该适用先上后下还是先左后右？实际上不同的人有不同的习惯笔顺，这就给掌握运用带来了麻烦，而前续异码则无此问题。

与“五十字元”相比，“五十字元”的拆根取码顺序有六种模式，且不说哪些字适用哪种模式需化工夫学习掌握，汉字中有不少字是六种模式全对不上号，这无疑是一个麻烦。

一般认为，“五十字元”选用字根少是一大优点，其实，字根少省下的背记工夫，还得化到拆字上去，因为少设的那部分字根需一一予以拆分。因此，两者相较，前续异码是有一定的优势的。

前续异码中那些字根笔划少的字使用了形音码，形音码有见字不知读音的问题，但这个问题是可以解决的。前续异码上有一部分字使用形音码，以“GB2312-80”的字量为例，前续异码的形音码字只有两千余个，其中如：红、打、可、回等等这些常用字不存在不知读音的问题，剔除这部分字，剩下来不足一千字，对这部分字可以再配以一个3位码，即将原形音码中的音码去掉，输入时如不知读音就加击空格键。因为不足千字，在3位码上已有很好的离散度，加击空格键也极少出现重码字。

Claims

1、一种汉字前续码，其特征在于：所用代码符号分为前码符和续码符。

2、如权利要求项1所述的汉字前续码，以前码符代表字根和笔划，以续码符代表笔划和字型，每个笔划有两种码符。

3、如权利要求1所述的汉字前续码，以先取1个前码符再加取续码符和先取2个前码符再加取续码符两种方法拆字取码编取代码，所编代码码长最短为1位，长则不限，每个汉字代码的码长依字的实用频度而定。

4、如权利要求项1所述的汉字前续码，按字根笔划在字体结构中的位置分从字的上边、下边和中间拆分取码，字根笔划以其横笔和折笔中的横向线段定位，没有横笔和横向线段的字根以两笔交连点定位，若连交连点也没有，则以其在结构中的相对位置定位。

5、如权利要求1所述的汉字前续码，对那些字根笔划少于3个的字需拆取其右上角笔划取码，对那些难于确定右上角笔划的字规定了确定笔划的原则，一个字如有一个笔划整体高于其余笔划，或其右上角有两笔交叉，舍右取上;如一个字有一个笔划整体位于其余笔划的右侧，舍上取右。

6、如权利要求1、4、5所述的汉字前续码，对有4个以上字根笔划的字以前码符编取4位码，对少于4个字根笔划的字，取完前码符后加对右上角笔划取以续码符。

7、一种适用如权利要求1所述汉字前续码的键盘，其特征在于：输入键分为前键和续键，前码符所在的键为前键，续码符所在的键为续键。

8、如权利要求1、7所述的将代码符号和输入键分为前、续两类的编码及输入方法也可用于其它语种文字的编码和输入运用。

9、一种源于汉字前续码的前续异码，其特征在于：按字根笔划在字体结构中所处位置分别从字的上边、下边和中间拆分取码，字根笔划以其横笔或折笔中的横向线段定位，无横笔和横向线段的字根则以两笔交连点定位，若连交连点也没有，则以其在字体结构中的相对位置定位。

10、如权利要求项9所述的前续异码，一部分字根笔划以其读音拼音的声母或韵母中的第一个字母作为代码，一部分字根以其助记字的拼音的第一个字母作为代码，以自左至右取字的上边，自右至左取字的下边，先左后右、先下后上取中间的拆根取码顺序，拆取4位代码，如取不够4位，则加对字的读音，或者加对末笔（或右上角笔划）和字的读音取码。