CN1204796A

CN1204796A - 基于读音的汉字输入方法

Info

Publication number: CN1204796A
Application number: CN 97108974
Authority: CN
Inventors: 全威
Original assignee: Individual
Current assignee: Individual
Priority date: 1997-07-03
Filing date: 1997-07-03
Publication date: 1999-01-13

Abstract

本发明公开了一种基于读音的三码汉字输入方法,所抽取并编码的三个汉字特征部件包括该汉字的读音、首部及尾部笔划组合,读音直接以拼音首字母编码,首部及尾部笔划组合由其组成字元或字元字所对应的字母编码。这种汉字输入方法,具有如下突出特点:输入速度较快,特别容易学习,字元仅73个,均按其规范读音、构字读音和相形读音来记忆,十分简单,记忆时间仅需几分钟。因其规则简单,且符合人们的辨字习惯,易记难忘。而且,无须顾虑南北口音及手写体与印刷体的差异。

Description

基于读音的汉字输入方法

本发明涉及计算机汉字输入编码技术，更具体地说，涉及一种基于读音的汉字输入方法。

由于电脑键盘使用的是包括英文字母在内的小字符集，要在电脑里实现汉字输入，就必须建立小字符集与汉字的对应关系及使用规则，这种规则就是汉字编码。现有的汉字编码方案已不下千种，其中较常用的主要有汉语拼音(全拼和双拼)、五笔字型、自然码等，其中有的是形码，有的是音码，一般来说，形码重码少、输入速度快，但较难学，音码重码多，输入速度慢，但比形码易学。已有的编码大多为专业人士设计，在许多方面破坏了汉字的固有结构，增加了学习难度。电脑已普及到千家万户，这些用户大多未必是计算机专业人士，他们对汉字编码的要求，首先是好学，其次才是速度，根据调查，现有很多家庭用户仍在使用汉语拼音输入法，原因很简单：拼音好学。本发明提供的目的就是提供一种面向家庭电脑用户的以音为主、以形托音的简单易学的汉字编码。

本发明的目的在于提供一种基于读音的汉字输入方法，这种基于读音的汉字输入方法可以克服现有技术的缺点，特别适合于非专业人员学习、使用和掌握，而且，比普通的拼音法输入有更高的效率。

本发明的目的是这样实现的，构造一种基于读音的汉字输入方法，用于将包括二级国标汉字在内的较大汉字集合中的每一个汉字，通过一定步骤转换成可以输入到计算机并为其所识别的汉字编码，所述汉字编码集合包含英文26个字母，所述一定步骤包括从欲输入汉字中抽取三个汉字特征部件的步骤、将抽取出的三个汉字特征部件中的每一个分别映射到一个汉字编码集合中的一个的步骤、逐个输入得到的汉字编码到计算机的步骤，其特征在于：

所述三个汉字特征部件中的第一部件是该汉字的汉语拼音、第二部件是该汉字的首部、第三部件是该汉字的尾部，所述首部是该汉字首笔划所在的字元或字元字，所述尾部则是该汉字中除去首部以外的尾笔划所在的字元或字元字，所述字元是笔划组合，包括

所述字元字是不可分解的单体字，包括(凹、八、卜、半、贝、白、百、本、不、必、髟、步、川、巛、厂、才、臣、册、斥、虫、寸、长、才、垂、车、成、串、承、丑、彳、亍、匆、重、叉、大、刀、东、刁、歹、电、丹、单、斗、石、氐、耳、儿、二、而、丰、凡、父、甫、夫、缶、飞、非、方、鬼、个、戈、更、艮、瓜、广、甘、工、弓、丐、火、户、禾、乎、黑、互、乙、弋、义、衣、已、一、夷、金、臼、九、几、巾、甲、见、戋、夹、巨、井、久、及、击、柬、开、口、六、立、力、了、来、龙、良、耒、吏、里、木、目、皿、门、马、米、毛、母、民、面、矛、末、内、女、年、牛、廿、鸟、乃、又、由、酉、尤、匹、疋、片、爿、平、犬、求、七、且、曲、乞、气、丘、日、冉、入、人、刃、十、水、厶、书、手、山、四、上、三、少、尸、氏、术、豕、束、事、世、矢、失、勺、升、卅、生、身史、土、太、天、屯、田、头、五、无、勿、兀、戊、毋、乌、午、雨、玉、匀、月、鱼、于、予、聿、与、文、王、万、韦、瓦、未、亡、我、为、丸、心、小、西、习、下、血、乡、彡、言、幺、央、羊页、用、业、也、牙、丫、永、亚、曳、之、足、爪、夊、中、隹、子、止、丁、自、乍、专、舟、州、兆、专、丈、走)，

所述第一部件的编码就是该汉字的汉语拼音字母本身，所述第二和第三部件的编码是这样的，如果所述第二、第三部件是字元字，其编码就是该字元字汉语拼音的首字母，如果所述第二、第三部件是字元，其编码是由以下所列字元到编码集合的映射关系确定的：(凵(凹)宀(安)主圭亠(敖)爫(爱)->A)、(冫丷)(八)

按照本发明提供的基于读音的汉字输入方法，其特征在于，在对欲输入汉字分解时，遵循以下规则：先左后右、先上后下、先外后内、先中后旁。

按照本发明提供的基于读音的汉字输入方法，其特征在于，在完成三码输入后，如果出现重码，以加输一个代表汉字笔划数的数字来区分。

按照本发明提供的基于读音的汉字输入方法，其特征在于，欲输入汉字属于字元字时，其编码对象的第一部件是该字元字的汉语拼音的首字母，第二部件是该字元字首笔的笔划，第三部件是该字元字末笔的笔划，所述笔划“横(heng)、竖(shu)、撇(pie)、捺(na)、折(ze)”笔画分别用其汉语拼音H、S、P、N、Z编码。

按照本发明提供的基于读音的汉字输入方法，其特征在于，输入词组时，二字词的编码由组成二字的汉语拼音首字母、再加上尾字的第三部件编码组成，三字词编码由三字的汉语拼音的首字母组成，三字以上词的编码由前二字及最后一字的汉语拼音首字母组成。

实施本发明的基于读音的汉字输入方法，具有如下突出特点：首先，它是一种输入速度较快的三键音码，即每个汉字仅三键便可完成输入，比起四键码，理论上速度要快四分之一。即使加入校验码(极少数字)，也不会比四键码慢。其次，这种编码方法特别容易学习，只要会汉语拼音(小学三年级以上文化)便可在十分钟以内学会。第三个特点是易记难忘，由于所选字元字本是一些简单常用的完整汉字，无须记忆；字元仅73个，均按其规范读音、构字读音和相形读音来记忆，十分简单，记忆时间仅需几分钟。编码规则更加简单，仅用一句话便可教会，因其规则简单，且符合人们的辨字习惯，学会后很难忘记。最后，无须顾虑南北口音差异，也无须顾虑汉字手写体与印刷体的差异。

结合实施例，进一步说明本发明的特点。

通过对《现代汉语词典》中11000个汉字的分析研究，可以知道：汉字的构成无非是三种构件：字、常用非汉字构件和笔画，而每一个汉字均可分为三部分：首部、尾部和中间部，有些汉字仅有首部和尾部，则可将中间部视为空笔。在汉字的三种构件中，我们将构成汉字的笔划组合组成的常用构件叫作字元，将构成汉字的一些常见字叫作字元字，笔画则只有五种：“横竖撇捺折”。从《现代汉语词典》的11000个汉字中，可以总结出800个汉字构件，这些构件共出现了34471次，其中，有250个构件(包括字元和字元字)比较常用，共出现了27037次，占全部构件出现次数的78．43％，通过对这250个常用构件的分析，在250个常用构件基础上，将800个汉字构件进行归纳、合并，整理成73个字元和247个字元字，它们在《现代汉语词典》中一共出现了33893次，占构件总出现次数的98．32％，剩下的一些汉字都是无法用构件来拆分的独体字，这部分字可用笔画来解决。这便可做到以最少的构件来拆分最多的汉字。

人们在语言中对汉字的分辩是非常有规则的，比方说，人们常说阝东陈、弓长张、木子李等等，将汉字字按其组字规律来拆分，以此来分辨同音汉字。全码对汉字的拆分，便是按照人们的这种习惯。

每一个汉字的编码，便由该字汉语拼音的第一个字母，再加上该字首尾部分的第一个字母而成，这就是该字的编码。

譬如：“陈”(cheng)字，首部为“阝”(er)，尾部为“东”(dong)，则“陈”的全码为CED；“张”(zhang)字的首部为弓(gong)，尾部为长(chang)，则该字的全码为ZGC；“李”(li)字的首部为(mu)，尾部为(zi)，则该字的全码为LMZ。

在本发明提供的汉字输入方案中，欲输入汉字的汉语拼音的第一个字母是可以称为字码，也是对第一部件的编码，对该字笔划首部的编码叫首码，对该字笔划尾部的编码叫尾码。用一个公式来表示：欲输入汉字的编码=字码+首码+尾码。由此可见，本发明提供的汉字输入方案(或称全码)是一种三键码，是一种以音为主，以形托音的音形码。1．字母

本发明提供的全码用26个拉丁字母、即电脑键盘上的26个字母来对汉字编码，以?为通配符来作为万能键。由于汉语拼音的特殊性，故在编码中将部分拼音作如下处理：wu(u)开头用u作第一个字母，yi(i)音开头用i作第一个字母，yu(u)音开头用v作第一个字母，o、yo、you音开头用o作第一个字母。这样做既不违反汉语拼音的规则，又可将字母键在编码中均匀分配，从而减少重码。其它22个拉丁字母可视为汉语拼音字母来使用。2．字元

字元是笔划组合、其编码以拼音为基础，用三种方法来安排：

规范拼音：字元是标准偏旁部首，本来有其规范读音。如“艹”一般读为“草字头”，故拼音代码为“C”，“阝”一般读为“耳旁”，故拼音代码为“E”，“亻”一般读为“单人旁”，故拼音代码为“R”。

构字拼音：以该字元构成的某常见字拼音为其读音。如“”是“爱”的构件，将其读音定为ai，故其拼音代码为A，“_”是“虎”的构件，故拼音代码为H；“廴”是“建”的构件，故拼音代码为J。

相形拼音：该字元与某字或某字元相形相似，以其相形相似的字或字元的读音作为其拼音。如“冂”似“几”，故拼音代码为J，“屮”似“山”，故拼音代码为S，“凵”似“凹”，故拼音代码为A。3．字元字

字元字是无法用字元拆分的独体字，如“五”、“日”、“之”、“口”等，它们既是完整的汉字，又是常用的汉字构件，作为汉字构件。对字元字的拆分，用“横(heng)、竖(shu)、撇(pie)、捺(na)、折(ze)”五种笔画(用“hspnz”五个字母作为其汉语拼音代码)就以足够，其字码是汉字的汉语拼音第一个字母，首码是该字首笔的代码，尾码是该字尾笔的代码。譬如：“五”(wu)字首笔为横(h)，尾笔为横(h)，则“五”字的全码为UHH；“日”(ri)字首笔为竖(s)，尾笔为横(h)，则“日”字的全码为RSH；“之”(zhi)字首笔为点，点属捺(n)，尾笔为捺(n)，则“之”字全码为ZNN。“一”在字元字中是笔画横(h)，在其它字中则是字元字“一”(yi)。4．词组

二字词由二字之字码，再加上尾字之尾码组成，如“全码”一词的编码为QMM；三字词由三字之字码组成，如“计算机”一词的编码为JSJ；三字以上词由前二字之字码加上尾字之字码组成，如“大浪淘沙”一词的编码为DLS。5．首部和尾部

汉字有独体形(如″上″、″下″、″中″)、左右形(如″铁″、″铜″、″矿″)、上下形(″苗″、″芒″、″每″)、包围形(如″围″、″因″、″国″)和混合形(如″逶″、″覆″、″嚼″)等五种结构，要正确辨认汉字的首尾部，必须了解这几种结构。

一般来说，汉字的首部是该字首笔所在的字元或字元字，尾部则是除开该字首部以外的尾笔所在的字元或字元字。

但由于各人的书写习惯不同，首尾笔因人而异，这就需要有明确的规定，全码对汉字首尾部的规定也是按照汉字的组字规律和标准笔顺。

在本发明中规定如下：先左后右、先上后下、先外后内、先中后旁。

例如：“红”，先左后右，首部为“纟”，尾部为“工”，“全”，先上后下，首部为“人”，尾部为“王”，“连”，先外后内，首部为“辶”，尾部为“车”，“乘”，先中后旁，首部为“禾”，尾部为“匕”。6．重码率与校验码

作为一种以音为主的三键码，如何降低重码率是编码过程中的首要考虑。在本发明中，主要利用字元与字元字的读音规定来减少重码。

根据一字多音的特点，将少数字元字的非常用音作为其拼音代码。如″石″取dan音，拼音代码定为D；“丁”取zheng音，拼音代码定为Z；根据全码中字元的注音规则，将部分字元的拼音代码加以调整。如“饣”取其相似的字元“个”音，拼音代码定为G；“扌”取其相似的字元“牛”音，拼音代码定为N；根据汉字的相似特点，将少数相似的字元归入一个音，不仅减少了重码，也解决了手写体与印刷体的差异，即使手写不标准，仍可用全码输入汉字。如将“壬”归入“王”，拼音代码为定W；“士”归入“土”，拼音代码定为T；“夭”归入“天”，拼音代码定为T；“千”、“干”归入“于”，拼音代码定为V。

校验码是对重码的一种非绝对必要的分辨码，此码由汉字尾部的笔画数所对应的键组成，附加于该字编码之后，这样，可使全码的重码率进一步降低。在实现本发明的输入方案时，校验码是可选可不选的一种辅助方式。笔画数与字母的对应关系是无须记忆的，因为代表笔画数的键是标准键盘是从1至0数字键下方的一排字母键：QWERTYUIOP，分别对应1234567890，其中0代表10，笔画超过10的字元或字元字全部用字母Z代替。例如：要输入“温”字，键入编码WSM，会出现“温”和“尾”两个字，“温”的尾部为“皿”，笔画为5，对应的校验码为T，再键入T，便输入了“温”字。

根据统计，本发明的汉字输入方案在实现二级字库情况下，重码率为4．33％。

Claims

1．一种基于读音的汉字输入方法，用于将包括二级国标汉字在内的较大汉字集合中的每一个汉字，通过一定步骤转换成可以输入到计算机并为其所识别的汉字编码，所述汉字编码集合包含英文26个字母，所述一定步骤包括从欲输入汉字中抽取三个汉字特征部件的步骤、将抽取出的三个汉字特征部件中的每一个分别映射到一个汉字编码集合中的一个的步骤、逐个输入得到的汉字编码到计算机的步骤，其特征在于：

所述三个汉字特征部件中的第一部件是该汉字的汉语拼音、第二部件是该汉字的首部、第三部件是该汉字的尾部，所述首部是该汉字首笔划所在的字元或字元字，所述尾部则是该汉字中除去首部以外的尾笔划所在的字元或字元字，

所述字元是笔划组合，包括

所述第一部件的编码就是该汉字的汉语拼音字母本身，所述第二和第三部件的编码是这样的，如果所述第二、第三部件是字元字，其编码就是该字元字汉语拼音的首字母，如果所述第二、第三部件是字元，其编码是由以下所列字元到编码集合的映射关系确定的：(凵(凹)宀(安) 主圭亠(敖)爫(爱)->A)、(冫丷)(八)

2．根据权利要求1所述的基于读音的汉字输入方法，其特征还在于，在对欲输入汉字分解时，遵循以下规则：先左后右、先上后下、先外后内、先中后旁。

3．根据权利要求1所述的基于读音的汉字输入方法，其特征还在于，在完成三码输入后，如果出现重码，以加输一个代表汉字笔划数的数字来区分。

4．根据权利要求1所述的基于读音的汉字输入方法，其特征还在于，欲输入汉字属于字元字时，其编码对象的第一部件是该字元字的汉语拼音的首字母，第二部件是该字元字首笔的笔划，第三部件是该字元字末笔的笔划，所述笔划“横(heng)、竖(shu)、撇(pie)、捺(na)、折(ze)”笔画分别用其汉语拼音H、S、P、N、Z编码。

5．根据权利要求1所述的基于读音的汉字输入方法，其特征还在于，输入词组时，二字词的编码由组成二字的汉语拼音首字母、再加上尾字的第三部件编码组成，三字词编码由三字的汉语拼音的首字母组成，三字以上词的编码由前二字及最后一字的汉语拼音首字母组成。