CN104731360A

CN104731360A - 分层首拼编码法

Info

Publication number: CN104731360A
Application number: CN201510085396.9A
Authority: CN
Inventors: 许晓敏
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-02-16
Filing date: 2015-02-16
Publication date: 2015-06-24

Abstract

分层首拼编码法是依据人的语言发音特点、结合汉字构造原理和汉字来历而设计,以汉语拼音为基础，取汉字及其拆分的字根汉语拼音首字母（简称首拼）组合而成，只要撑握汉字及字根的音，即可学会本输入法，是首次实现字、词、句统一进行编码，且可实现无重码，是首次实现中英文输入不用依赖ctrl+shift即可进行切换，是首次实现数字0~9也可用字母键进行输入，预计是我国汉字自电脑、手机、平板等智能终端出现以来汉字编码输入领域一场新的革命，其有简单易学易记的特点，适合在中小学生中推广，适合大众人员，也适合专业打字员盲打。可广泛应用于中文电脑（含手机等智能设备）输入、中文检索等领域。

Description

分层首拼编码法

技术领域

本公开涉及汉语字、词、句分层首拼编码法，可广泛应用于中文电脑（含手机等智能设备）输入、中文检索等领域。

背景技术

目前汉语智能化编码技术一直是个难题，虽然已有五笔编码法，但五笔也存在字根复杂、难记，字难拆、拆样多、大规模推广难等缺点，汉语拼音方案虽然简单，但重码太多，编码效率低，此处，还有类似的智能ABC输入法，也是重码率高。而且，以前的编码法只是主要针对字和简单的二字、至四字词进行编码，还没有一个编码技术可以对很长的一段句子进行编码。因此，还是需要一种方法能解决以上问题。

汉语字、词、句分层首拼编码法（以下简称分层首拼编码法）设计可以解决汉字输入难、效率低、重码率高、字根难记等的缺点。她的出现预计是我国汉字自电脑、手机、平板等智能终端出现以来汉字编码输入领域一场新的革命，是首次实现字、词、句统一进行编码，是首次实现中英文输入不用依赖ctrl+shift即可进行切换，是首次实现数字0~9也可用字母键进行输入，通过分层首拼编码法的学习与撑握，还可加深对我国汉字本质的理解，通过拆分汉字认识字根的发音来了解我国汉字是怎么来的，能够更好地撑握中国汉字构造规律，也加深对中国传统文化的了解。

发明内容

分层首拼编码法。

分层首拼编码法是依据人的语言发音特点、结合汉字构造原理和汉字来历而设计,以汉语拼音为基础，取汉字及其拆分的字根汉语拼音首字母（以下简称首拼）组合而成，只要撑握汉字及字根的音，即可学会本输入法，所谓音，即语言，而语言是与生俱来的，本说明书具体讲就是汉语拼音，而汉语拼音在我国汉语教学中是必修课，这就决定了分层首拼编码法具有广泛推广的基础，加上其有简单易学易记的特点，因而适合在中小学生中推广。

分层首拼编码法对于初学者的要求是撑握基本汉字及字根的首拼，比准确掌握全部汉语拼音的发音要求还要低，例如，很多人不大会区别声母“s”和“sh”（对应的汉字有“三”和“山”），分层首拼编码法统一其首拼皆为“s”，足见本编码法的简单吧；分层首拼编码法还具有学习功能，当遇到有不认识的汉字或字根而不知道其首拼时，对于单个字或字根，可直接从第2层开始输入，由于编程时可做到每个汉字或字根上屏前皆附有其全拼发音，故可通过打字来认识汉字、学习汉字。

分层首拼编码法不仅仅限于字的编码，还可实现二字词及以上词语、句子的编码，理论上可实现任意长度的句子（可理解为一句话、甚至一段文章）的编码，且可实现无重码。

分层首拼编码法可实现汉字输入高速、高效，能大大提高汉字输入速度，因而也适合专业打字员盲打。

分层首拼编码法编码方案都是围绕取汉字或字根发音的首拼展开，因而简单易学，无须像五笔那样需要记忆复杂的字根在键盘的哪个键上，只需记住附图1、图2、图3、图4中汉字或字根的发音首拼字母即可，而字母在键上的位置是固定的，因而不用记汉字或字根在键盘的哪个键上，只记住首拼便可打字，非常适合普通人员打字输入。适合在大众中推广，社会价值高。

分层首拼编码法使用的是标准键盘（中文与英文通用键盘），通过v键可实现中英文输入切换，不用依赖ctrl+shift即可进行切换，通过i键实现数字0~9也可用字母键进行输入，即当输入i切到数字功能时，o代表0，y代表1，e代表2，s代表3，f（four是英文4的读音）代表4，w代表5，l代表6，q代表7，b代表8，j代表9（注：oyesfwlqbj为对应0~9的首拼）。

分层首拼编码法是以简体中文为输入对象，由于简体字与繁体字发音没有变化，字根书写虽有一些变化，但基本字根没有变，因而同样适用繁体字。

分层首拼编码法基本要求学习者对汉字要有正确的发音，至少应知道首拼。这样会加速学习者对我国汉字的认识，因而是有利于汉字普通话的推广。能促进提高学习者识字水平,特别适合在中小学学生中推广。

分层首拼编码法引入“层”的概念，即字、词、句在没有拆分前取其首拼的字母皆归为第1层；字、词、句首次一拆为三后的汉字或字根首拼皆归为第2层，同样，字、词、句2次拆分后的字根首拼皆归为第3层，依次同理，字、词、句n-1次拆分后的字根首拼皆归为第n层。汉字拆分的终点是第n层字根皆由单笔画字根组成。可实现字、词、句编码无重码。

分层首拼编码法汉字拆分规则相当简单,只需记住口诀：“可改笔顺、取多优先、一拆为三、若拆多三，取首次末”,比起五笔复杂的拆分方案要简单的多。

可改笔顺、取多优先指汉字拆分时，不必按照书写顺序拆分汉字，要取最多的笔画，即使不是连续的笔顺也可组成字根，本规则自始至终会体现在任何一级字或字根拆分上面,包括首位字根，次位字根，末位字根（简称首次末）等等。例如：“目”字，正确应拆为“口一一”，而不是“冂二一”。又如：“国”正确的拆分应是“口王点”。

所谓一拆为三、若拆多三，取首次末，即指任一大于或等于3画的汉字或字根一定要拆为三部分，这是最高的优先级（当汉字或字根只有2画时拆成2部分，只有1画时拆成1部分）。若拆分字根总数大于3个时，只需取首次末字根编码即可，不必每个字根都要入编码。

一拆为三规则的优先级高于取多优先规则，两者有矛盾时，要首先满足一拆为三规则。

分层首拼编码法以汉语拼音为基础，取每一个汉字首拼。此外，需要熟记图1、图2、图3、图4中汉字或字根的发音以及首拼（这部分属于本编码方案发明创造的，需要熟记）。这些汉字或字根都是本编码法的基础。有了这些基础后，分层首拼编码法中字、词、句及其拆分字根的编码就是由这些首拼组合而成。

依据分层首拼编码法形成的编码可叫做分层首拼码或许码，许码对于字、词、句而言，可分为有效长码和最大长码；其中最大长码是依据本编码规则对汉字进行拆分到底的长码；有效长码长度是不确定的，有效长码以实现输入时无重码时的长度为有效长码，在设计有效长码时，可将高频汉字有效长码尽量短，低频汉字有效长码加长。

附加层码：为了防止以上规则全部用完后仍有重码的情况发生，取oyesfwlqbj（注：oyesfwlqbj为对应0~9的首拼）任意字母附加在以上最大长码或有效长码后面（仅当按以上规则输入出现重码时选用）。

单字最大长码＝第1层首拼码+第2层首拼码+…+第n层首拼码+附加层码=1+3+9+…+3(n-1)+1。

词或句子（设由m个单字组成）最大长码＝m（第1层首拼码+第2层首拼码+…+第n层首拼码+附加层码）=m(1+3+9+…+3(n-1)+1) 。

单个汉字编码：分层首拼编码法对单个汉字编码时，第1层首拼码只有1个；第二层一拆为三，即三个首拼码；第三层，又进行一拆为三，共得九个首拼码；依次类推。

词、句编码：是属于单个汉字组合分层编码问题，本发明编码规则是每一层皆按先组合后拆分的顺序编码（以下简称先组后拆）。比如：二字词语“XY”(假设其许码分别为abcd,ABCD，那么，第1层组合首拼码就为aA，第二层先组后拆字根（首首次次末末）首拼码就为bBcCdD, 二字词总的编码为aAbBcCdD（简称组合许码）。为何要先组合呢，是因为这样组合交替输入，有效避免了字与词之间的重码问题。实际输入时不必要输入8位，可减少码长，提高输入速度。具体可参见图5：汉字和词语拆分举例；图6：典型汉字一拆为三的拆分方法。

分层首拼编码法可用于中文汉字检索，以现代汉语词典为例，目前有汉语拼音检字方案和部首检字方案，以分层首拼编码法为基础的检字法可看作汉语拼音检字方案和部首检字方案的优化。具体如下：词典名称可叫“汉语分层首拼编码词典”，分为两部分，第一部分为无1许码检字表（无1许码，故名字义，即许码是从第2层开始的按照分层首拼规则形成，去掉了第1层码，即无1许码），无1许码以英文字母顺序排列汉字或字根，这样可从该检字表直接查到该汉字在正文中的位置页码，那么，为何要从第2层开始呢，因为考虑到有些汉字我们不认识，不知其发音，如果从第1层开始的编码排序，则无从查起，从第2层开始的排序方案，有助于查字过程中认识汉字，也达到了查字的目的；第二部分（即词典正文），汉字或字根排列顺序按许码英文字母顺序排列汉字。如果知道汉字或字根的发音，则可直接跳过无1许码检字表，直接在正文部分查找汉字或字根。例如：“中”字，许码有效长码为“zjhs”, 无1许码为“jhs”，假设某小朋友不知道这个字的发音，无法确定有效长码，但学习了本编码法后，知道应一拆为三，三部分是“冂一竖”，即知道无1许码为“jhs”，则可在字典第一部分无1许码检字表中检索jhs，可查到 “中”字在正文中的页码，再根根据页码查到“中”发音。假设这个小朋友，连“冂”的发音也不知，他同样可将“冂”一拆为二，知道“冂”的无1许码为“sz”, 则可在字典第一部分无1许码检字表中检索“sz”，可查到字“冂”字在正文中的页码，再根据页码查到“冂”字发音。

查了字后，接着可以查词语了，由于词语是建立在字的基础上，故一般不存在不认识发音的，故可接从第二部分查词了。例如，“中国”的许码为“zgjkhwsd” 可直接从第二部分正文查到这个词，非常方便。

可见利用“汉语分层首拼编码词典”查字过程也是分层的，是有趣味的，查字过程也是学习汉字的过程。

分层首拼编码法存在u、i、v键未被利用（v键未被完全利用）情况，因而，u键可作为字、词、句编码的识别码，安排在第1层和第2层之间（u键可输入也可不输入，加入u键识别率高，可减少2层以上码长的输入）；i键作为数字切换键或备用键；v键由于仅不出现第1层编码中，因而可作可作为中英文输入切换键。

分层首拼编码法拓展性强，可实现新造字、词、句的编码输入。多音字可有多个码都对应一个汉字。

附图说明

图1：1笔画基本字根及特别字根发音表。

图2：2笔画及以上基本字根及特别字根发音表1。

图3：2笔画及以上基本字根及特别字根发音表2。

图4：2笔画及以上基本字根及特别字根发音表3。

图5：汉字和词语拆分举例。

图6：典型汉字一拆为三的拆分方法。

具体实施方式

依据分层首拼编码法而形成的汉语字、词、句一套编码可叫做分层首拼码或许码，依据许码定义，为方便学习者撑握、查询不认识的汉字，特定义“无1层许码”（简称无1许码），无1许码是许码的组成部分。可利用数据库技术将许码、无1许码存于计算机中，可利用许码制作输入法软件，以实现汉语字、词、句的快速输入，这些软件可用于电脑、手机、平板电脑、笔记本电脑及其他需要中文输入的地方。同理，可将将许码、无1许码应用于中文检索领域及其他相关领域。

Claims

1.分层首拼编码法，其特征是以汉语拼音为基础，取字、词、句及其拆分的字根汉语拼音首字母（以下简称首拼）组合编码。

2.分层首拼编码法以汉语每一个汉字首拼作为编码的基础，1笔画基本字根及特别字根发音表(图1)和2笔画及以上基本字根及特别字根发音表(图2、图3、图4)也作为本编码的基础。

3.分层首拼编码法引入“层”的概念，即字、词、句在没有拆分前取其首拼的字母皆归为第1层；字、词、句首次一拆为三后的汉字或字根首拼皆归为第2层，同样，字、词、句2次拆分后的字根首拼皆归为第3层，依次同理，字、词、句n-1次拆分后的字根首拼皆归为第n层，汉字拆分的终点是第n层字根皆由单笔画字根组成。

4.分层首拼编码法汉字拆分口诀：“可改笔顺、取多优先、一拆为三、若拆多三，取首次末”。

5.按照权利要求4，可改笔顺、取多优先指汉字拆分时，不必按照书写顺序拆分汉字，要取最多的笔画，即使不是连续的笔顺也可组成字根。

6.按照权利要求4，所谓一拆为三、若拆多三，取首次末，即任一大于或等于3画的汉字或字根一定要拆为三部分，这是最高的优先级（当汉字或字根只有2画时拆成2部分，只有1画时拆成1部分）；若拆分字根总数大于3个时，只需取首次末字根编码即可，不必每个字根都要入编码。

7.按照权利要求4，一拆为三规则的优先级高于取多优先规则，两者有矛盾时，要首先满足一拆为三。

8.按照权利要求1~4，依据分层首拼编码法形成的编码可叫做分层首拼码或许码，许码对于字、词、句而言，可分为有效长码和最大长码；其中最大长码是依据本编码规则对汉字进行拆分到底的长码；有效长码长度是不确定的，有效长码以实现输入时无重码时的长度为有效长码，在设计有效长码时，可将高频汉字有效长码尽量短，低频汉字有效长码加长。

9.如同权利要求8，附加层码：为了防止以上规则全部用完后仍有重码的情况发生，取oyesfwlqbj（注：oyesfwlqbj为对应0~9的首拼）任意字母附加在以上最大长码或有效长码后面（仅当按以上规则输入出现重码时选用）。

10.按照权利要求8和9，最大长码＝第1层首拼码+第2层首拼码+…+第n层首拼码+附加层码。

11.词、句编码规则，其特征：每一层皆按先组合后拆分的顺序编码（以下简称先组后拆），比如：二字词语“XY”(假设其许码分别为abcd,ABCD，那么，第1层组合首拼码就为aA，第二层先组后拆字根（首首次次末末）首拼码就为bBcCdD, 二字词总的编码为aAbBcCdD（简称组合许码）。

12.如同权利要求1~11，分层首拼编码法不仅仅限于字的编码，还可实现二字词及以上词语、句子的编码，理论上可实现任意长度的句子的编码。

13.如同权利要求1~2，分层首拼编码法使用的是标准键盘（中文与英文通用键盘），通过v键可实现中英文输入切换，不用依赖ctrl+shift即可进行切换，通过i键实现数字0~9也可用字母键进行输入，即当输入i切到数字功能时，o代表0，y代表1，e代表2，s代表3，f（four是英文4的读音）代表4，w代表5，l代表6，q代表7，b代表8，j代表9。

14.如同权利要求1~2，分层首拼编码法是一简体中文为输入对象，同样适用繁体字。

15.依照权利要求1~2，分层首拼编码法可用于中文汉字检索，以分层首拼编码法为基础的检字法可看作汉语拼音检字方案和部首检字方案的优化，由此形成的词典名称可叫“汉语分层首拼编码词典”，词典分为两部分，第一部分为无1许码检字表（无1许码，故名字义，即许码是从第2层开始的按照分层首拼规则形成，去掉了第1层码，即无1许码）；第二部分（即词典正文），字、词或字根排列顺序按许码英文字母顺序排列汉字，如果知道汉字或字根的发音，则可直接跳过无1许码检字表，直接在正文部分查找汉字或字根。

16.依照权利要求1~2，分层首拼编码法存在u、i、v键未被利用（v键未被完全利用）情况，因而u键可作为字、词、句编码的识别码，安排在第1层和第2层之间（u键可输入也可不输入，加入u键识别率高，可减少2层以上码长的输入）；i键作为数字切换键或备用键；v键由于仅不出现第1层编码中，因而可作可作为中英文输入切换键。

17.依照权利要求1~2，分层首拼编码法可实现新造字、词、句的编码输入。

18.如同权利要求1~2，多音字可有多个码都对应一个汉字。

19.按照前述权利要求1－18中的任一条，依据分层首拼编码法而形成的汉语字、词、句一套编码可叫做分层首拼码或许码，依据许码定义，为方便学习者撑握、查询不认识的汉字，特定义“无1层许码”（简称无1许码），无1许码是许码的组成部分，可利用数据库技术将许码、无1许码存于计算机中，可利用许码制作输入法软件，以实现汉语字、词、句的快速输入，这些软件可用于电脑、手机、平板电脑、笔记本电脑及其他需要中文输入的地方，同理，可将将许码、无1许码应用于中文检索领域及其他相关领域。