CN1116633C

CN1116633C - 一种计算机汉字音形编码输入法

Info

Publication number: CN1116633C
Application number: CN 97112863
Authority: CN
Inventors: 梁大石; 梁大成
Original assignee: Individual
Current assignee: Individual
Priority date: 1997-07-20
Filing date: 1997-07-20
Publication date: 2003-07-30
Anticipated expiration: 2017-07-20
Also published as: CN1177132A

Abstract

一种计算机汉字音形编码输入法(二元输入法)，本法依照汉字笔顺首尾拆字、表音取码，最大码长为四键：第一键汉字首音码，二键三键是首、尾形码，四键为识别码；码元包括23个首音码和60个部件分布于25键位。单字取码：自然拆得两部分，拆得成字取字音，拆不成字取部件，宁大勿小靠两边；每个汉字分首尾两半其方便性是显然的；每个键位约2个部件且表音对应其易学性是可见的；利用民众的汉字知识以音表形、形音并举，该输入法在简单、高效、规范、实用多方面具有综合优势。

Description

一种计算机汉字音形编码输入法

一种计算机汉字音形编码输入法(二元输入法)，本法依照汉字笔顺首尾拆字、表音取码，最大码长为四键：第一键汉字首音码，二键三键是首、尾形码，四键为识别码；码元包括23个首音码和60个部件分布于25键位。单字取码：自然拆得两部分，拆得成字取字音，拆不成字取部件，宁大勿小靠两边；每个汉字分首尾两半其方便性是显然的，每个键位约2个部件且表音对应其易学性是可见的。利用民众的汉字知识以音表形、形音并举，该输入法在简单、高效、规范、实用多方面具有综合优势。

多年来，在计算机汉字编码输入法的研究中，无论是音码、形码还是音形码都在朝着一个逐渐明朗的目标迈进：即最大限度地减少人为规则，遵从汉字的语音、书写规范，将人们的汉字知识自然渗透到输入法当中，简言之要向“无编码”输入法靠近！能否做到既简捷高效，又垂手可得，本法的创新在于：1.首次打破了字根与非字根的界限，开创了“读出音来即字根，首尾重音后半分”的轻松境界；2.本法的另一特征是：实现了由形到形音的转换(既能避免多余的笔画拆分又可保证拆分部件所见所得不需另做思维转换)，形音并举，融汇了人们最自然、最基本的语文知识，这是其它技术无法取代的社会优势。

经验表明，在汉字的自然属性中针对“形”的定性、定量通常较难把握，因而众多形码有字根不统一，拆法不统一，排列无规律(指自然规律)等弊端；而以语音知识为背景(这里特指汉字首音而不含韵母、声调等因素)，加上简单的基本笔画及部件相辅，它的简明易学性是勿容质疑的；正如人们识字：首先记住它念什么，上边是什么、下边是什么(是尽可能大的分块记忆而不是肢解成零碎部件)，只有那些笔形零散的汉字及独体字(如商、率、飞等)人们才进一步描述其笔画特征。可以说这是一种约定成俗的、最自然流畅的思维方式，比如：“李”、“伯”、“章”三个汉字，按“木、子”，“亻、白”、“立、早”来拆分最自然不过了。但能否每个汉字都这样拆分呢？请看以下汉字：“拉、拢、抡、搂、拎、拦、揽、捞、擂、掳”，如果第一键用其声母，再按成字取其音的方式组码，则上面10个汉字的编码都将是“LTL”。问题的焦点十分明显：在汉字中占据多数比例的“形声字”因其内含(声源)字与整个字首音相同而带来大量重码，而解决这一矛盾的最好方法是“声源形码不取全”；我们在此规定：凡上述情况一律对声源字再次折半(按成字拆分原则进行)来代替“声源字”(如二次重复可不必理会，只回避一次)，此举既可顺应首尾取码又能回避重码，本输入法的核心正在于此。“智者，当借力而行”——技能转移是简化学习的有力杠杆，关键是找准切入点：本方法严格遵循“汉语拼音方案”、“汉字笔顺规范”和“汉字部件规范”，可以说它发源于民众的语文知识之中；而将汉字常识自然糅进输入法中更显知识迁移的力量(可提高效率数十倍)；对于结构复杂的汉字只取两边忽略中间，这样取码方法简单、思维流畅，初学者极易上手；而码元少又表音对应人人可以过目不忘；与现有的“二笔输入法”相比，它把不属于先天自然规则而需要人们后天磨合适应的按笔顺确定的区位关系移到了第四键，这等于难点后移！它的意义非常明显：即能使大多数应用者在不涉及第四键(主要用于盲打)的前提下，仅靠前面两键(或三键)的组合便可轻松完成字、词输入的各种功能；而“二笔输入法”的第二键、第三键和第四键对于初学者均有较大摩擦系数(不比本法的形码，真正的所见所得)，因此，从易学(难忘)、高效(适合于各层用户)、规范(极少人为规则)和方便实用这几个方面综合考虑，本方法明显优于其它现有输入法。以下分部叙述本方法主要内容。

1.音码码元及对应键位

选择23个汉语拼音打头字母作为对汉字进行编码的音码码元，包括：A B C D E F G H J K L M N O P Q R S T W X Y Z；

本输入法首音不必区分平卷舌，26个英文字母中，除了“U”、“I”两键不用，“Z”键用作学习键(该键位灵敏度较差)，其它键位安排如下：用V键代表首音z和zh；用C键代表首音c和ch；用S键代表首音s和sh，其它首音码用本字母键位；

2.形码码元及对应键位

形码码元(即基本部件)总共60个，与键盘位置对应如下：A键：氵灬

；B键：宀冖疒；C键：ㄨ；D键：丶；E键：阝卩彐

；F键：

；G键：乙讠含所有带勾的折笔；H键：一

；I键：丨亅；J键：钅；L键：冫

丷；N键：含所有不带勾折笔；O键：辶廴；P键：丿；Q键：冂

凵犭豸；R键：亻彳；S键：礻饣ナ；T键：扌；U键：艹卄；W键：攵夂；X键： 

忄；Y键：衤

；

3.识别码及对应键位

我们利用一个汉字末部件头两笔的基本笔画(每笔都分横、竖、撇、点、折五种情况)所确定的区位共25个：横横，横竖，横撇，横点，横折，竖横，竖竖，竖撇，竖点，竖折，撇横，撇竖，撇撇，撇点，撇折，点横，点竖，点撇，点点，点折，折横，折竖，折撇，折点，折折，来作为区别重码的识别码。

识别码与键位对应如下：G：横横；F：横竖；D：横撇；S：横点；A：横折；H：竖横；J：竖竖；K：竖撇；L：竖点；M：竖折；T：撇横；R：撇竖；E：撇撇；W：撇点；Q：撇折；Y：点横；U：点竖；O：点撇，点点；P：点折；B：折横；V：折竖；C：折撇；X：折点；N：折折；

4.单字的输入方法

单字最大码长为四码：第一键是汉字首音码，第二、第三键为首、尾形码(表音)，第四键为识别码。(另有一、二级简码)

1)取码基本原则：当在上述计算机键盘上输入单个汉字时，首先输入汉字本字拼音第一字母所对应的代码即首音码；然后将该字形码自然拆为首、末两个部件并顺序输入它们的代码；拆分原则是：“依照笔顺，抓取两头；取大为先，多余可丢；成字取音，形声缩后；”具体操作即按照书写顺序和取大为先的原则将汉字形码拆为首、末两个部件(单笔画汉字重复取码)，当首部件和/或末部件是成字时，所述部件的代码即该成字的首音码；当首部件和/或末部件不是成字时，所述部件的代码是上述相应的形码码元。例如：汉字“析”字应拆为“木、斤”对应代码是M、J，“两”字拆为“一、从”对应代码是H、C。需要强调说明：本法所说的成字一律指内含于某个汉字中的“简单、常用”字—所说常用即比较生僻的成字(如苟、酉、缶、圭等)不在此列；所说简单即以大多数小学生都可认得为准。反之，小学生们不常用、不熟悉的字不在此列(如“妾”、“俞”、“厄”等)。另外，遇有多音字做内含字的情况，我们均取其明显常用的首音(如“会”取首音“h”，“参”取首音“c”)。以下五个汉字“长、重、朝、乐、辟”两种读音均较常用，故特殊规定：这几个字做内含字出现时不视为成字(需进一步拆分)。对于成字按以下两种方式产生的变形字应当与成字同样看待(1)横变提：如‘王→ ’、‘子→孑’；(2)弯勾变折如‘九→

’、‘几→

’等。

2)所谓“形声缩后”：如果拆分得到的末部件是成字且其首音与整个字的首音相同，则对末部件再按整字拆分原则一分为二并取其后半对应的代码来代表该部件；如“纺”字内含的‘方’与整个字首音相同都是F，“浪”字内含的‘良’与整个字首音相同都是L，故“纺”和“浪”均为形声字；形声字的拆分前一半照常即同非形声字一样，对后半形码可按整字拆分原则再次二分并取其后半(如“拦”字可拆为“扌、三”；“捞”字拆为“扌、力”)，此举自然呼应了首尾取码的总趋势。

有些形声字按“缩后”规则回避后，仍然出现首尾重音(指一键、三键相同)的情况，这时可不再理会，该是什么就是什么(即只回避一次)。例如：“援”字的形码初分是“扌、友”，回避后是“扌、又”，至此不用再分。另外，以上所说回避均是针对形声字的内含成字所讲，而那种虽有一键、三键相重(字母相同)，但第三键不是成字[包括两个单笔画汉字‘一’(本法归为横：即H)和‘乙’(本法归为勾：即G)]，此种情况不属回避之列，尽可照打。

3)所谓“多余可丢”：对于首、末部件之间的多余部分即与前与后都不能组合成更大部件的部分尽可以丢弃，比如“投”字中的“几”，“赢”字中的“口、月、贝”等等；而对那些与前与后皆可组成更大部件的中间部分应按以下原则处理：在左右结构的汉字中上述中间部分应归于后半即末部件(例如，“树”字拆为‘木、对’，“做”字拆为‘亻、故’)，而在其它结构的汉字中上述中间部分应归于前半即首部件(比如“天”字要拆为“二、人”，“卡”字拆为“上、卜”，“舌”字拆为“千、口”)；当然，还要注意到兼顾自然的原则：如“最”字应拆为“日、取”；“旱”字拆为“日、干”等等，而不论哪种情况，拆分一律按书写顺序进行。

4)识别码的应用：所说识别码应包括两种情形(1)空识别，上述三键输入之后，输入空格键即可打出排序在最前位的汉字而此时备选汉字大多情况是唯一确定的；(2)末笔识别，对那种三键之后有重码且在重码汉字中排序自第二位往后的汉字可加末笔识别码(或按数字键)打出该字；我们按以下五种基本笔画将键盘分成五个区，每个区又分成五个(或四个)键位，区位交叉确定末笔识别码。

五种基本笔画：横、竖、撇、点(捺)、折，数字代号依次为1，2，3，4，5。

横区：G(横横)F(横竖)D(横撇)S(横点)A(横折)

竖区：H(竖横)J(竖竖)K(竖撇)L(竖点)M(竖折)

撇区：T(撇横)R(撇竖)E(撇撇)W(撇点)Q(撇折)

点区：Y(点横)U(点竖)O(点撇.点点) P(点折)

折区：B(折横)V(折竖)C(折撇)X(折点)N(折折)用数字方式表示更加简捷：

1区：G(11)F(12)D(13)S(14)A(15)

2区：H(21)J(22)K(23)L(24)M(25)

3区：T(31)R(32)E(33)W(34)Q(35)

4区：Y(41)U(42)O(43、44) P(45)

5区：B(51)V(52)C(53)X(54)N(55)

识别方法概括如下：“末笔识别不用背，末一是区末二位，结尾‘单笔、辶、心、口’，末一末二往前推。”

所谓末笔是指编码的第三键(或者说形码第二键)即形码末部件；末一末二是指打入的末部件按书写顺序的第一笔和第二笔(每笔都分横、竖、撇、点、折五种情况)。比如，“拨、扳、扮”这三个汉字的前三码都是BTF，而三个字的末部件分别是“发、反、分”，按照上面所述的方法“拨”字的末一和末二是“折、撇”(其识别键为C)，“扳”字的末一和末二是“撇、撇”(其识别键为E)，“扮”字的末一和末二是“撇、点”(其识别键为W)。

所谓“结尾单笔、辶、心、口，末一末二往前推”即当末部件是“单笔、辶、心、口”时，所述识别码的笔画要在原字当中按照书写顺序向前推两笔；比如“太、疆”这两字的末部件分别是“丶”和“一”(是单笔)，所以它的末一、末二(不算最后的单笔)要在原字当中往前推两笔即“撇、点”和“竖、横”；个别情形中如果倒推的两笔之间明显跨度较大，则以整字的最末两笔为末一末二：如“剥”字的形码拆分为“录、亅”，其末一、末二应为“竖、竖”；再有凡以“辶、心、口”结尾的，其末一、末二也要倒推两笔，而不论那种情况，若退到头即算第一笔。

5.词组的输入方法

1)双字词输入

双字词依序取每个字的前两码。

2)三字词输入

三字词依序取三个字的首音加第三字的第二码。

3)四字及四字以上多字词输入

多字词依序取前三字和最后一字的首音码。

6.关于简码

1)一级简码：在键盘上除Z键外的25个字母键上分别设置一个最常用的汉字，只需击该键一次再加空格便可。一级简码25个。

2)二级简码：二级简码的编码方式是取全码的前两码再加上一个空格键即可。

7.关于容错码

容错码的含义有两个：一个是针对那些由字形和笔顺引起拆码错误的，我们在条件许可的范围内给出相容的编码(即容纳‘非故意’错误)。第二个含义是容纳‘故意性’错误，有些汉字在打满四键后仍然出现重码，我们给重码中的第二侯选字(第一字可不加选择)提供一个“替补码”(所有字共用)。它的作用是输入某个第二侯选字时，我们可凭经验直接用“替补码”代替原来的识别码，四键打出该字。如“播、扮”的四码都是“BTFW”，因为我们规定用“I”键做末笔容错码，所以按“BTFI”可直接打出“扮”字

本法除了规定用“I”做单字的末笔容错码外(简称“末容”码)，还规定了用“U”键做词组编码的第三键容错码(简称“三容”码)。其理由在于1)“U”键与“I”键一样有许多‘空闲时刻’：比如两者都与字音无缘；“I”键做第一形码机会很少；另外“U”做第三键时几乎完全闲置(也属故意安排)。2)不同于其它编码，为了充分扩展词组的编码空间，让熟练者在多种情况下都能发挥效率四键选中，我们对重码中的非首条词组(第一条可不加选择)提供了第三键的替补码，即‘三容’码。灵活运用，可使上万个词组“死里逃生”。比如：“能力、努力”的编码都是“NNLG”，熟练者可用“NNUG”直接打出排在后面的能力；再如“北京地区、边疆地区”编码都是“BJDQ”，为了不用选择，可直接输入“BJUQ”使“边疆地区”到位。

8.关于学习键

输入中遇到未知的音、形或识别码时，可借助学习键查寻帮助。

1)代替形码或识别码

例如，对“舞”字的未笔及识别码不清楚，可按WPZZ进行查寻。

2)代替音码

本输入法中，如果不知道某个字的首音，可用“U”(称左音键)或“I”(右音键)来代替未知的首音。如此做法必要性在于：形声汉字的形码部分在不知道首音的情况下与原编码不同。如“授”字，知道首音打STY，不知道首音时打？TS。如用“Z”键代表首音输入ZTS将查不到原来编码。所以我们规定用‘左音键’U代表“撇、点、折”起笔的未知汉字首音，用‘右音键’I代表“横、竖”起笔的未知汉字首音(如此既提高了查找效率又解决了问题)，而后面未知的二、三、四码可用Z代表。例如：查寻“锂、冀”两个字，输入UJLZ和IBZZ均可。

9.有关“形声字”的历史与现实背景

据史学记载：汉字的造字原理是以“六书”为依据的(即象形、指事、会意、形声、转注、假借)，其中以形声字为最多(占80％左右)。“形声”是一种由形旁和声旁两部分合二为一的造字方法，比如“洋”是由形旁‘氵’和声旁‘羊’合成的，其中形旁表意，声旁表音。汉字的绝大多数是形声字：例如“编、码、管、理、评、论…”等等，多年来，在音形编码输入法的研究中，普遍存在偏重于字形结构而略于对字音做深入细致的分析。针对汉字中广泛存在的形声字的字音属性采取“形声缩后”的编码对策，既能保证汉字结构的简单化又可照顾到民众对汉字的直观记忆(不需另做思维转换)，同时还有效的离散了重码；究竟它是否达到了“一石三鸟”，实践可做出检验。

Claims

1.一种计算机汉字音形编码输入法，包括：

1.)

a.从构成汉字的部件中选择60个部件作为对汉字进行编码的形码码元，包括：氵灬

宀冖疒ㄨ丶阝卩彐

乙讠一丨亅钅冫丷辶廴丿冂

凵犭豸亻彳礻饣ナ扌艹卄攵夂



忄衤

；

b.选择23个汉语拼音打头字母作为对汉字进行编码的音码码元，包括：A B C D E F G H J K L M N O P Q R S T W X Y Z；

c.利用一个汉字末部件头两笔的基本笔画所确定的区位共25种情况：横横，横竖，横撇，横点，横折，竖横，竖竖，竖撇，竖点，竖折，撇横，撇竖，撇撇，撇点，撇折，点横，点竖，点撇，点点，点折，折横，折竖，折撇，折点，折折，来作为区别重码的识别码；

2.)将上述用于对汉字进行编码的码元分别指定到计算机相应键位上；

3.)当在上述计算机键盘上输入单个汉字时，首先输入汉字本字拼音第一字母所对应的代码即首音码；然后将该字形码自然拆为首、末两个部件并顺序输入它们的代码；拆分原则为：依照笔顺，抓取两头，取大为先，多余可丢，成字取音，形声缩后；具体操作即按照书写顺序和取大为先的原则将汉字形码拆为首、末两个部件，当首部件和/或末部件是成字时，所述部件的代码即该成字的首音码；当首部件和/或末部件不是成字时，所述部件的代码是上述相应的形码码元；如果末部件是成字且其首音与整个字的首音相同则对末部件按整字的拆分原则再次二分并取其后半所对应的代码来代表该部件；另外，对于首、末部件之间的多余部分即与前与后都不能组合成更大部件的部分尽可以丢弃；而对那些与前与后皆可组成更大部件的中间部分应按以下原则处理：在左右结构的汉字中上述中间部分应归于后半即末部件，在其它结构的汉字中上述中间部分应归于前半即首部件；

4.)以上三键输入过后，输入空格键即空识别可以打出排序在最前位的汉字而此时备选汉字大多情况是唯一确定的；当出现重码时，利用汉字末部件按书写顺序的第一笔和第二笔所确定的区位作为区分重码的识别码；如果末部件是“单笔、辶、心、口”，则所述识别码的笔画要在原字当中按书写顺序向前推两笔；

2.根据权利要求1所述的计算机汉字音形编码输入法，所述形码、音码和识别码与计算机键位的映射关系如下：

所述音码分别映射到键盘上的23个英文字母上：即用V键代表首音码z和zh；用C键代表首音码c和ch；用S键代表首音码s和sh，其它首音码用本字母键位；所述形码的映射关系为：A键：氵灬

；B键：宀冖疒；C键：ㄨ；D键：丶；E键：阝卩彐 ；F键：

；G键：乙讠含所有带勾的折笔；H键：一；I键：丨亅；J键：钅；L键：冫

丷；N键：含所有不带勾折笔；O键：辶廴；P键：丿；Q键：

冂 凵犭豸；R键：亻彳；S键：礻饣ナ；T键：扌；U键：艹卄；W键：攵夂；X键：

 忄；Y键：衤

；

所述识别码的映射关系为：G：横横；F：横竖；D：横撇；S：横点；A：横折；H：竖横；J：竖竖；K：竖撇；L：竖点；M：竖折；T：撇横；R：撇竖；E：撇撇；W：撇点；Q：撇折；Y：点横；U：点竖；O：点撇，点点；P：点折；B：折横；V：折竖；C：折撇；X：折点；N：折折；

3.根据权利要求1所述的计算机汉字音形编码输入法输入汉语词组的方法，其特征为双字词输入：依序取每个字的前两码；三字词输入：依序取三个字的首音码加第三字的第二码；四字及四字以上多字词输入：依序取前三字和最后一字的首音码。