CN1383053A

CN1383053A - 拆半取音汉字输入法

Info

Publication number: CN1383053A
Application number: CN 02108642
Authority: CN
Inventors: 彭文艺; 余大杭
Original assignee: Individual
Current assignee: Individual
Priority date: 2002-04-02
Filing date: 2002-04-02
Publication date: 2002-12-04

Abstract

本发明是一种以声码为主、形码为辅,形成优势互补的汉字输入法,其特征是:把每个汉字(除了独体字外)根据字体先拆成两大半,再把第二半再拆分成两小半(独体字除外),然后根据整个汉字的声母和每一部分能取的最大汉字的声母或最常用的五种笔画(横、竖、撇、点折)的对应键来构成基本键位;每个汉字的声母为第一键,第一半能取的最大的汉字的声母为第二键(若第一半不能成字,则取第一半的首笔画的对应键,以下相同),第二半的第一小半能取的最大的汉字的声母为第三键,第二半的第二小半能取的最大的汉字的声母为第四键来组合成单字的输入规则。

Description

拆半取音汉字输入法

本发明是一种易学通用的汉字输入方法，属于信息产业领域中的中文处理技术。

一、汉字输入的现状：

目前，汉字输入技术主要分为键盘输入技术、手写输入技术、语音录入和扫描输入技术四大类，其中属键盘输入应用最为广泛。在键盘输入的编码方案中，大体可分为音码、形码、音形结合码等几大类。音码虽然易学，但还没有真正克服重码问题；形码虽然速度快，但字根多、难学难记。如何解决以上的矛盾呢？很多专家、学者和电脑爱好者不断地进行研究和探索，开发出数以计百的汉字编码方案，这些方案虽然各有千秋，但在人们的打字实践中，有一个共同的感觉：“即易学的打不快，打得快的不易学”。因而就出现了音形结合码，它整合了以上两种方案优缺点。本方案采用的也是音形结合码，目前这类编码方案很多，其中比较典型的有“一码输入法”、“一根码输入法”和“二笔输入法”等。

二、本发明的目的

目前已有的汉字编码方案，易学易记的则输入速度慢；输入速度快的则难学难记。本发明的目的，就是要扬长避短，同时达到既易学又输入快速的目标，使汉字输入电脑这一难关真正得到彻底的突破，使中国“万马奔腾”的时代变成“一马当先”，并且是“遥遥领先”，让每个中国人，不管是老人、小孩都能快速、高效、廉价地使用中文输入法，让中国的汉字文化永立于世界民族之林。

三、发明的内容

本发明是一种以声码为主、形码为辅，形成优势互补的汉字输入法，其特征是：把每个汉字(除了独体字外)根据字体先拆成两大半，再把第二半再拆分成两小半(独体字除外)，然后根据整个汉字的声母和每一部分能取的最大汉字的声母或最常用的五种笔画(横、竖、撇、点折)的对应键来构成基本键位；每个汉字的声母为第一键，第一半能取的最大的汉字的声母为第二键(若第一半不能成字，则取第一半的首笔画的对应键，以下相同)，第二半的第一小半能取的最大的汉字的声母为第三键，第二半的第二小半能取的最大的汉字的声母为第四键来组合成单字的输入规则。

所述的汉字基本笔画分为横、竖、撇、点、折五种标准笔画，除了分别对应于“E、I、A、O、V”五个键外，还可还简单地对应每个笔画的汉字名称的首字母，分别为“H、S、P、D、Z”。这样处理后，会增加少数词组的重码，则删去其词组的编码。虽有小小的不足，但却能使得用户的记忆量变为“零”，使输入更直观、更具有推广和实用的价值，而且是在同一套输入法中实现的，无须切换，两种代码均可混合使用(如在输入词组时，可以把词组的第一字的笔画用前者，第二字的笔画用后者，不会产生互相影响的结果)，使得输入汉字变得更轻松、简单、心想“字”成。这也正是本输入法的一个优点，具有高度的适应性。其中，把向左钩的“竖钩”归为“横笔”；把“捺笔”并入“点笔”；把所有带转折弯钩的笔画(向竖左钩的除外)都并入“折笔”。

所述的汉字的字体分为：(1)独体字(2)合体字。

四、本发明的取码规则有声形法、形声法和首尾法三种，三种共存在于同一个输入法中，形成优势互补。

(一)、单字：

1、声形版：

A、独体字＝声母+第一笔+第二笔+最后一笔

B、合体字：

第一键：取该字的拼音首字母(即声母)

(如：“腑”的声母为F，取F为第一键。)

第二键：取第一半能构成最大汉字的声母，若没有最大的汉字，

则取其第一个笔画的对应键。

(如：“腑”字第一半为“月”字，取第一半的最大汉

字“月”的声母为“Y”作为第二键)

第三键：取第二半的第一小半能构成最大汉字的声母，若没有最

大的汉字，则取其第一个笔画的对应键。

(如果第二大半是一个独体字，则直接取独体字的声母作

为第三键)

(如：“腑”字的第二半的第一小半为“广”字，取其声

母“G”作为第三键)

第四键：取第二半的第二小半能构成最大汉字的声母，若没有最

大的汉字，则取其最后一个笔画对应键。

(若第二大半是一个独体字，除了第三键取其读音外，第

四键补最后一个笔画对应键)

(如：“腑”字的第二半的第二小半是“付”字，取其声

母“F”做为第四键，但不能取“寸”的声母作为第四

键，这违反了“各取最大汉字”的规定。)

2、形声版：即把“声形版”声母从第一键放在最后一键，其他键

推前。

(如上述的“腑”字的编码为：YGFF)

3、首尾版：即最后两键取第二部分的第一笔和最后一笔，词组输

入不变。

(如上述的“腑”字的编码为：FYDD、YDDF、FYOO

和YOOF四种均可。

(二)词组：

1、两字词：取每个单字的前两键组成。

2、三字词：取第一字前两键和后一字的第一键组成。

3、多字词：取第一、二、三字和最后一字的第一键。

(三)取码规则：

1、码数：每个汉字最多取四码，不足四码的加按“空格键”补足即可。

2、具体规则：

(1)中国的汉字千变万化、错综复杂，没有多大的规律性，但最少可以知道它们的一个特点就是所有的汉字都是第一半比较小，而第二半比较大的居多，如：“输、格、浙、厚、品、最等等。这样在编码时，理应把四个键平均分布，这样的编码体系才能使重码最低，也才是最合理的。根据这样的构思：每个汉字除了整个字的声母分配一个键位外，剩下的三个键位，第一半分配一个键位，第二半则分配两个键位，而不是一个键位，这是有别于其他以“三码定字，四码定词”的输入法。这样每个汉字都先由四码组成，再来设置简码，这样可大大降低重码。

(2)上面所述的取第一半和第二半的第一小半的最大汉字都规定为：取其第一个笔画及以后几个笔画能构成的最大汉字的声母，而不是取该部分中可能存在的最大汉字。所述的取第二半的第二小半是指取其最后一个笔画及以上的几个笔画能构成的最大汉字的声母。(如：“鹳”字不能取“隹”的声母为第一半，而应取该第一半的首笔画作为第一键，因为第一笔画及以后笔画只能组成一个“艹”字头，而它不是一个汉字，所以只能取其第一笔画作为第一键)

(3)所述的第一半、第二半是这样来区分的：

只有“合体字”才需区分成两半，独体字则无须区分，直接取其读音再加上最后一个笔画的对应码即可。这样本输入法的一个关键点就是如何区分“合体字”的第一半和第二半。具体原则根据汉字的字型来区分为：

A、左右结构：左、右各取一半。如：“轻、淋、似、鹏”，分别取“车、氵、亻、朋”作为第一半，其它作为第二半。

B、左中右结构：“左”部分为第一半，“中右”部分为第二半。如：“班、弼、辩”，分别取“王、弓、辛”作为第一半，其余的为第二半。

C、上下结构：上、下各取一半。如：“宝、壁、穷、熬”，分别取“宀、辟、穴、敖”作为第一半，其余的为第二半。

D、上中下结构：“上”部分为第一半，“中下”部分为第二半。如“暴、茶、纂”，分别取“日、艹、竹”作为第一半，其余的为第二半。

E、半包围结构：包围的作为第一半，被包围的作为第二半。如“处、闪、氛”，分别其“夂、门、气”作为第一半，其余的为第二半。

F、全包围结构：比照“半包围结构”进行确定。

G、品字型结构：上一部分作为第一半，下面较大的部分作为第二半。如：“晶、森、鑫”，分别取上部的“日、木、金”做为第一半，其余的为第二半。

以上的区分应遵循的基本原则为：

A、“成字优先”的原则。如：“鹏”字不能取“月”为第一半，而要取“朋”为第一半。因为，后一个“月”不能和“鸟”字组成一个汉字，而前两个“月”字可以组成“朋”字。

A、“先小后大”的原则。如：“淋”字的前两部分可组成“沐”，后两部分可组成“林”字，根据这一原则和“成字优先”的原则，应取“氵”为第一半。

(4)所述的若没有最大汉字则取其第一笔画或最后一个笔画的问题。现举例说明：如“编”字的第一键取其声母为“B”；第二键取第一半的“纟”，但“纟”不是一个汉字，且第一笔画及以下也不能组成一个汉字，所以应取其第一笔画“折笔”，为“Z”键或“V”键；第三键取第二半的第一小半为“户”字的声母“H”；第四键取第二半的第二小半，但第二半的第二小半不是一个汉字，且最后一笔画及以上也不能组成一个汉字，所以应取其最后一个笔画“竖笔”，为“S”键或“I”键均可。

(5)所述的若第二大半是一个独体字，除了第三键取其读音外，第四键补最后一个笔画对应键的问题。现举例说明：如“村”字的第一键为声母“C”；第二键为第一半的汉字“木”的声母“M”组成；第三键取其第二半，但第二半为“寸”已经是一个独体字了，所以只取该独体字的声母“C”组成；第四键再取“寸”字的最后一个笔画“点笔”，取点笔的对应键为“D”键或“O”键补足。

(6)键盘图上字根排列说明：

把汉字的五种笔画按“形”排列为：

一E(26个字母中，只有E、F、T首笔

画为“横笔”，故取“E”作为横

笔的对应键。

丨I(26个字母中，I的形状类似竖笔)

丿A(26个字母中，只有A首笔是撇笔)

丶O(把字母O缩小一下就是一点)

乙V(字母V最接近折笔画)

把汉字的五种笔画按“音”排列为：

横(H)、竖(S)、撇(P)、点(D)、折(Z)

(四)高度的容错功能：

一个全民能普及的输入法，至少能适应不同人群的使用，有所区别，如南方发音和北方的发音就差别很大，许多南方的朋友，声母N，L、S，SH、C，CH、Z，ZH普遍分不清楚。这就需要一定的容错功能。

1、N、L容错：本输入法可以让用户随意输入N或L都可以把汉字输出来。具体举例说明如下：

如：“怒”字的声母为“N”，你也可以输入容错的声母“L”。反过来，如果声母是“L”，你也可以输入容错的声母“N”都可以。不仅容错到第一个键位，而且能容错到所有的键位。如上述的“怒”的编码可以为：NNXD、LNXD、LLXD、NLXD、NNXO、LNXO、LLXO、NLXO。

2、常用部首的容错：

有些部首看上去很像一个汉字，如“竹”字头，“钅”字旁等等。因此对于这些常用的部首可以按正常的打法，取它的第一个笔画，也可以按容错的打法，取部首的准声母，如“竹”字头取“Z”；“亻”取“R”“钅”取“J”等等都可以。

3、成字与笔画间的容错：

如：“很”字的第一半“彳”是一个汉字，读音为“chi”，但多数人会认为不是汉字而取其第一笔画。所以应设置必要的容错，使其打笔画也可以，打其汉字的声母也可以。还有“很”的第二半是一个汉字“艮”，但对于初中生可能较难认识其读音，所以也应考虑把它当作非汉字的可能，按其第一笔和最后一笔画来编码。

(五)方便的查询键：

本方案采用“？”键作为查询键，即不懂其读音的汉字可以用“？”键输入。这样和前面所述的“形声版”形成照应，“形声版”是在不懂得整个字的读音，而采用的不输入声母或在最后一键输入声母来解决难字的输入。采用“？”键是为了中间过程中不懂其读音的而采用的一种通配键。

(六)超高的性能指标：

1、极少数汉字重码，通过设置成二级简码、三级简码和全码后，实现了国标基本集中的一、二级汉字的唯一编码，即“零重码”；超大的词组量44761条不重码；多简码字(一级26个，二级625个，三级6212个)。

2、除了国标一、二级汉字外，还能处理4万多字的其它非常用或现已不用的汉字，连同国标一、二级汉字在内，共可处理5万多字的汉字，是目前处理汉字最多的输入法之一，但非国标的重码率稍高，约为7.3％，但这些都是非常用的汉字。

五、本发明的优点：

(一)本发明采用“拆半取音”的方法，把汉字先分成两半，再把第二半再分成二个小半，且每一大半或小半都是取最大汉字，这样的重码率是最少的，输入也较直观。如：“想”字，先分成“相”和“心”两半，编码为“XXXD”(第二半为独体字的再加最后一个笔画的对应键)，如果采用“一根码输入法”的按小取字的拆法，则为“XMM”，这和“相”的编码是一样的，都是“XMM”，增加了重码，这也是没有采用“拆半取音”的一个缺点。并且也是“三键定字，四键定词”的最大缺点，这样使得重码率增多，得不偿失。其实先四键定字后再设其简码，原理是一样的，但使得重码大幅度减少。如在“一码输入法”中拆“焊”字的编码为“HHH”，这样以“三键定字”所形成的重码是惊人的，如：煌(HHH)、焓(HHH)、烩(HHH)、煳(HHH)。但在本输入方案中，则实现没有重码：焊(HHRG)、煌(HHBW)、焓(HHJK)、烩(HHPY)、煳(HHGY)，如果本方案加上本方案设置的简码后，同样也可以实现输入三键后即可得出唯一码，如上述的几个汉字都取它们的前三码作为“三级简码”同样不会产生重码，这正是本输入法的一大优点。

(二)与现有的方案相比，本输入法采用的是“三部分”都取最大汉字，更具合理性和直观性。如：“驾”的编码为“JJMH”而“一根码输入法”则是“JLK”这样又和“加”的编码一样，都是“JLK”，这样的情况数不胜数。

(三)高度的容错功能，通过采用声母N、L互相容错、常用部首容错、成字与笔画间的容错，使得输入汉字更加顺畅，大大减少了记忆量，使输入速度得到空前的提高。

(四)实现了“零记忆”的输入，本输入法采用的是拆半取最大汉字的读音，没有最大汉字取其笔画的对应键。这样根本不需要记忆众多的偏旁部首的读音，对于不是汉字的，取该笔画键的声母对应键。这也是本输入法把五种笔画键(横、竖、撇、点、折)分别对应它们的读音(H、S、P、D、Z)，使得输入时没有任何需要记忆的。

(五)“声形法”、“形声法”、“首尾法”三种输入方案共处在同一个输入法中，形成优势互、相辅相成。使输入更简单、更快速，难字的拆分呈简单化，并且，由于本输入法的“形声版”不需要输入声母(或在最后一键加上声母也可以)就可打出汉字来，这就真正克服了“音码”的不足，使得不认识的字也能方便地打出来。

(六)高度的混合性。在方案中，把五种笔画按“形”和“声”分别编码，任意组合，使输入更随意、更轻松。

(七)超低的重码率，超大量的词组输入，能够实现只要是词组都可输入，且重码率几乎为零。这和“五笔”是不同的。

六、附图说明。图1是本发明拆字取音汉字输入法的键盘总表。

七、示例：

1、按“声形版”编码：

独体字实施例1：

本＝BHSH(按笔画键的声母)

或：本＝BEIE (按笔画的形状对应键)

合体字实施例1：

娱＝YNKT或按N、L容错为：YLKT(以下相同)

合体字实施例2：

驾＝JJMH(笔画取声) 或：驾＝JJME(笔画取形)

合体字实施例3：

警＝JJYH(笔画取声) 或：警＝JJYE(笔画取形)

合体字实施例4：

没＝MDJY(笔画取声) 或：没＝MOJY(笔画取形)

合体字实施例5：

编＝BZHS(笔画取声) 或：编＝BVHI(笔画取形)

合体字实施例6：

榜＝BMDF(笔画取声) 或：榜＝BMOF(笔画取形)

合体字实施例7：

绑＝BZHS(笔画取声) 或：绑＝BVEI(笔画取形)

合体字实施例8：

鄙＝BKZS(笔画取声) 或：鄙＝BKVI(笔画取形)

合体字实施例9：

勃＝BSZP(笔画取声) 或：勃＝BSVA(笔画取形)

合体字实施例10：

骨＝GSYH(笔画取声) 或：骨＝GIYE(笔画取形)

合体字实施例11：

赏＝SSKB(笔画取声) 或：赏＝SIKB(笔画取形)

合体字实施例12：

辍＝CCSS

合体字实施例13：

襟＝JDLS(笔画取声) 或：襟＝JOLS(笔画取形)

合体字实施例14：

禁＝JLEX或：禁＝JNEX 或：禁＝JLS或：禁＝JNS

2、声形法、形声法、首尾法对比编码：

声形法形声法首尾法理＝LWLE WLEL LWSH(或LWIE)想＝XXXD(XXXO) XXDX(XXOX) XXDD(或XXOO)

Claims

本发明是一种易学、通用的汉字输入法。

本发明的主要特征是：

1、每个汉字根据字体先拆成两半，再把第二半再拆成二小半，然后根据其每一部分能取得的最大汉字的声母或每一部分的首笔画(或末笔画)来组合而成的汉字编码方案。
2、“形声法”、“声形法”和“首尾法”三种编码方案，共存于同一个输入法中，相辅相成。
3、把汉字的五种标准笔画(横、竖、撇、点、折)，按“形”和“声”分别编码，相辅相成。按“形”分别对应于(E、I、A、O、V)。这几个字母的首笔画或形状类似于五种笔画，更直观，记忆更牢固；按“声”分别对应于(H、S、P、D、Z)，实现了不需记忆的编码方案。
4、全方位的容错功能，适合大众的需要。