CN1949148A - 一种汉字输入方法及装置 - Google Patents
一种汉字输入方法及装置 Download PDFInfo
- Publication number
- CN1949148A CN1949148A CN 200610088911 CN200610088911A CN1949148A CN 1949148 A CN1949148 A CN 1949148A CN 200610088911 CN200610088911 CN 200610088911 CN 200610088911 A CN200610088911 A CN 200610088911A CN 1949148 A CN1949148 A CN 1949148A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- chinese
- parts
- character
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种汉字编码以及以此编码为基础的汉字输入方法和装置。本发明的汉字输入方法包括:如果汉字为单字根汉字,则以该字对应的拼音为其编码;如果汉字为部件的组合,则以该字拆分得到的各部件对应的拼音码组合为其编码,所述部件为偏旁部件或者字根部件;利用包含有26个汉语拼音字母的键盘进行编码输入。本发明还可以存储汉字本身对应的拼音编码,则大多数的汉字可以通过现有的拼音输入法获得,避免将字拆分为部件的麻烦;而如果较为复杂的汉字,则可以通过部件的拼音码组合的方式得到,可以解决用户通过现有拼音输入法无法输入不知晓读音的汉字,还可以准确定位多音字,并可实现基于汉字字形的模糊输入。本发明既拥有拼音输入法的简便,又具有笔画输入法的效率,非常符合用户的使用习惯。
Description
技术领域
本发明涉及一种汉字输入法领域,尤其涉及一种使用拼音码输入汉字的方法和装置。
背景技术
汉字编码的基本原理是利用键盘上字符按照一定的规则和要求对汉字进行编码。也可理解为给汉字编号或排序,这些编号或排序就是汉字的外码,然后通过汉字输入方法将外码转换成汉字在计算机中的内码,最终将汉字显示在计算机的屏幕上。目前,应用最为广泛的就是形码和音码两种编码方法。
形码是一种将字根或笔划规定为基本的输入编码,再由这些编码组合成汉字的输入方法。该方法按汉字的字形(笔画、部首)来进行编码的。汉字是由许多相对独立的基本部分组成的,例如,“好”字是由“女”和“子”组成,“助”字是由“且”和“力”组成,这里的“女”“子”“且”“力”在汉字编码中称为字根或字元。其最典型的应用是五笔字形输入法,但是在五笔中将一些基本笔画也作为字根使用了,这样的目的是为了能够输入所有的汉字,却给用户带来了背字根、按规则拆分的困难,因为有些字根在五笔中又进行了更细拆分,而有的原本不是字根的在五笔中也定义为字根了。这种输入的优点是重码率低,输入效率高,但是用户需要记忆大量的内容,长时间不用很容易忘记,要想熟练掌握这种输入法必需经过艰苦培训。
音码的典型应用是拼音输入法。这种方法是按照拼音规定输入汉字,不需要特殊记忆,符合人的思维习惯,只要会拼音就可以输入汉字。拼音输入法由于其简单易用的特点最为人们接受和广发使用,据统计,97%以上的中文用户使用这种方法输入汉字(陈原主编.汉语语言文字信息处理.上海:上海教育出版社,1997.)。
但拼音输入法也有缺点:
一是同音字太多,重码率高,输入效率低,即使用户输入了拼音,仍需要花费一定时间来查找和选择自己需要的文字;
二是难于处理不会拼音的生字。对于这样的情况,大多数拼音输入法的用户也只好无能为力了。
虽然笔画输入法较之拼音输入法具有效率较高、可处理生字的优点,但是该方法却有其适用性问题。作为以“看打”为主的专业汉字录入人员,使用五笔字型有一定的好处,那是因为“看打”的思想都集中到分析字形上去了,眼睛看的是文稿,想的却是字根,见字拆字,按“横、竖、撇、捺、折”五种笔画,用大量的字根像搭积木那样去组合汉字,并不管文章内容是什么,只要不出错就行。而对于占据中文输入绝大多数的以“想打”为主的用户,例如文秘、记者、作家之类的文字写作人员等等,使用五笔字型,是不太方便的。他们眼前没有现成的文稿,而是靠思维去构思文章。但是,思维是没有笔画的,用五笔字型记录这些思维,首先要把这些思维语言在脑子里经过“翻译”,“映出”文字,然后再来分拆字型、字根、笔画,这样多次转弯抹角,也会影响到思路,导致输入速度的严重降低。所以有人说:五笔字型把人变成了机器的奴隶,是电脑控制了人,而不是人控制了电脑。
因此,如何让那些中文输入过程中需要大量思维的用户保留其思维习惯,又能够解决现有拼音输入法中存在的效率低、无法处理生字等问题就成为本领域技术人员需要解决的问题。
发明内容
本发明所要解决的技术问题是提供一种汉字输入方法和装置,既拥有拼音输入法的简便,又具有笔画输入法的效率,同时能够解决用拼音输入法输入汉字时在不知道汉字读音的情况下就无法输入汉字的问题。
为解决上述技术问题,本发明提供了一种汉字输入方法,包括以下步骤:
如果汉字为单字根汉字,则以该字对应的拼音为其编码;
如果汉字为部件的组合,则以该字拆分得到的各部件对应的拼音码组合为其编码,所述部件为偏旁部件或者字根部件;
利用包含有26个汉语拼音字母的键盘进行编码输入。
优选的,所述汉字编码中各部件对应的拼音码之间通过分隔符相连。优选的,所述拆分按照先左后右、先上后下或者先外后内的顺序进行,所述拆分后的部件具有相应的拼音码。
优选的,如果一个汉字能够拆分为两个或者多个部件,所述拆分后的部件都具有相应的拼音码;则该汉字对应的编码包括拆分为二部件的拼音组合码和/或拆分为多个部件的拼音组合码。
优选的,一个汉字对应的拼音编码包括:该汉字本身对应的拼音码和该汉字拆分后各部件对应的拼音组合码。
优选的,所述的汉字输入方法,还包括:设置汉字-编码影射库;根据用户输入的汉字拼音编码,从所述汉字-编码影射库中查找得到相应的汉字集,并显示;其中,所述汉字拼音编码为汉字本身对应的拼音码或者各部件对应的拼音组合码。
优选的,所述的汉字输入方法,还包括:设置部件拼音编码表和汉字-编码影射库;根据用户输入的部件的拼音码字符串,计算部件拼音编码表中其他部件的拼音码字符串与该部件的拼音码字符串之间的相似度;如果相似度大于预置阀值,则确定为相似部件拼音码字符串;依次确定用户输入的各部件相对应的相似部件拼音码字符串;将部件的拼音码字符串、相似部件拼音码字符串进行组合,得到相关联的汉字拼音编码;根据用户输入的汉字拼音编码、计算得到的相关联的汉字拼音编码,从所述汉字-编码影射库中查找得到相应的汉字集,并显示。
优选的,所述的汉字输入方法,还包括:从用户输入的部件拼音组合编码中分解出各个部件对应的拼音码,按照不同的顺序进行组合,然后根据原输入编码和组合后得到的拼音组合码从汉字-编码影射库中找到匹配的汉字集输出。
本发明还提供了一种汉字输入装置,包括:
接口装置,用于接收用户利用包含有26个汉语拼音字母的键盘输入的汉字拼音编码;其中,如果汉字为单字根汉字,则以该字对应的拼音为其编码;如果汉字为部件的组合,则以该字拆分得到的各部件对应的拼音码组合为其编码,所述部件为偏旁部件或者字根部件;
汉字-编码影射库,用于存储汉字与编码的影射关系;
查找装置,用于根据汉字拼音编码,从所述汉字-编码影射库中查找得到相应的汉字集;
显示装置,用于显示所述汉字集。
优选的,所述的汉字输入装置,还包括:
部件拼音编码表,用于存储部件与相应的拼音编码之间的关系;
显示运算装置,该显示运算装置分别与查找装置和所述部件拼音编码表相连,用于完成以下步骤:
根据用户输入的部件的拼音码字符串,计算部件拼音编码表中其他部件的拼音码字符串与该部件的拼音码字符串之间的相似度;如果相似度大于预置阀值,则确定为相似部件拼音码字符串;依次确定用户输入的各部件相对应的相似部件拼音码字符串;将部件的拼音码字符串、相似部件拼音码字符串进行任意组合,得到相关联的汉字拼音编码,并输出至查找装置;所述查找装置根据用户输入的汉字拼音编码、计算得到的相关联的汉字拼音编码,从所述汉字-编码影射库中查找得到相应的汉字集。
优选的,所述汉字拼音编码中各部件对应的拼音码之间通过分隔符相连。所述拆分按照先左后右、先上后下或者先外后内的顺序进行,所述拆分后的部件具有相应的拼音码。
优选的,在所述汉字-编码影射库中:如果一个汉字能够拆分为两个或者多个部件,所述拆分后的部件都具有相应的拼音码;则该汉字对应的编码包括拆分为二部件的拼音组合码和/或拆分为多个部件的拼音组合码。在所述汉字-编码影射库中,汉字对应的编码包括:该汉字本身对应的拼音码和该汉字拆分后各部件对应的拼音组合码。
与现有技术相比,本发明具有以下优点:
由于本发明的汉字输入方法中,用户输入的是汉字部件的拼音编码组合,而将汉字拆分为部件的过程是用户熟知的,一般常用的是拆分为偏旁部首和其他字根两个部件;复杂汉字可以拆分为多个偏旁和字根的组合,但是每一个部件都应具有人们熟知的拼音编码。对于字根而言,一般都是简单的字,则用户都可以熟知其拼音;对于偏旁而言,需要用户了解的只有几十个,而且这些部件又都为用户所熟悉,如“同字框-冂”“包字头-勹”等,在通常字典中的部首表中都有介绍。因此即使用户遇到不知道读音的陌生汉字,只要按照本发明的方法输入汉字部件的拼音编码,也依然能够快速准确的找出相应的汉字,而不必学习和使用别的笔画输入法,因此,极大方便了用户的使用,提高了其输入汉字的效率。
此外,在实际输入的过程中,系统可根据用户输入的偏旁拼音和前后紧跟的字根拼音自动组合成一个汉字,而不一定非得按某个字的构成方式如左右结构或者上下结构的顺序输入,即通过模糊匹配的方式查找汉字,从而进一步为用户节省了输入时间。
本发明针对汉字存储了相应的多个编码,包括拆分为二部件的拼音组合码和/或拆分为多个部件的拼音组合码,用户根据自己对某个汉字的理解拆分为偏旁和字根的二部件,也可以拆分为多个部件的拼音组合码,都可以在汉字-编码影射库中找到正确的汉字。
本发明还可以存储汉字本身对应的拼音编码,则大多数的汉字可以通过现有的拼音输入法获得,避免将字拆分为部件的麻烦;而如果较为复杂的汉字,则可以通过部件的拼音码组合的方式得到,可以解决用户通过现有拼音输入法无法输入不知晓读音的汉字,还可以准确定位多音字。由于本发明保留了现有拼音输入法的所有特性,并提出了汉字部件拆分拼音输入方法,将二者的优点结合。因此用户在使用本发明输入汉字的同时,依然可以使用其原有的使用习惯和方法,用户几乎不需要再花费时间学习本发明即可正常使用。
再者,本发明通过输入汉字部件的拼音编码,计算部件相应的拼音编码之间的相似性,获取各部件相对应的相似部件的拼音码字符串;将部件的拼音码字符串、相似部件的拼音码字符串进行组合,得到相关联的汉字拼音编码,并在汉字-编码影射库找到预置匹配的汉字输出。则可以找出与该汉字同根或结构相近的汉字组成汉字集提供给用户,从而很好的解决汉字模糊输入的问题,例如,输入不会读音或者字形记忆不清的汉字,通过上述编码字符串的相似度的计算可以获取一系列的候选词,提高用户汉字准确输入的速度。
附图说明
图1是本发明汉字输入方法的流程图;
图2是本发明汉字输入装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的核心思想在于:汉字不仅是拼音文字也是象形文字,一个字所表达的意思往往可以从那个汉字的构成来解读,人们在学习汉字的最初,就是从汉字的构成和读音上开始的。本发明就是要不仅从拼音上同时要从字的偏旁结构上判断和输入用户会拼读和不会拼读,认识和不认识的汉字,达到统一拼音、字形的无切换输入,从人学习的角度来说这也更加符合人的思维习惯。本发明对汉字拼音进行了扩展,拼音对应的汉字元素不仅包含词、字,同时还包含字的一部分--偏旁部首。不同于一般的拼音输入法,只能在知道拼音的前提下才能进行汉字输入,也不同于普通的笔画输入法,本发明中优选的,认为字所包含的具有意义的最小单位应该是偏旁部首而不是笔画。可以作为偏旁的字一般是简单的汉字或者这些简单汉字的变形,大部分人都能够很容易地记住其拼音,从这部分简单的汉字及其对应拼音出发,通过关联和组合可以形成汉字中另外一部分复杂的汉字。
在本发明中,用户输入汉字各部件的拼音组成汉字编码,而各部件中非常重要的一部分就是汉字的偏旁部首。当然,对于汉字的拆分而言,部件也可以为更细分至笔画等。本发明中,优选的,拆分至偏旁部首即可,因为对于偏旁部首,人们是非常熟悉的,可以避免人们对笔画的称谓不了解导致汉字无法输入的情况。
在《新华字典》、《现代汉语词典》都有偏旁部首代码表,其中列出了大约180多个部首,每个都具有其固定的称谓,本发明可以直接采用这样的偏旁部首代码表,也可以根据需要精选一些偏旁部首组成本发明专用的偏旁拼音编码表。
对于现有的拼音输入法而言,拼音是字的拼音;对本发明而言,不仅字有其对应的拼音,构字所用的偏旁同样具有拼音。为了严格区分构成汉字的各种成分,本发明认为汉字主要是由“偏旁+字根”、“字根+字根”组成(其中并没有部件的个数限制)。
优选的,在本发明中,偏旁特指不能独立作为汉字的偏旁,而对于像“厂,广,巾,子”等在汉语里面既可作为偏旁也可作为独立的字,可以作为字根来处理。对于汉字偏旁,常用的不包括可以独立成字的才几十个,并且一般都为人所熟悉,其名称也容易记忆,根据通用的汉字偏旁名称本发明约定其规范的拼读以及缩写,缩写是对偏旁全称的一种符合人拼读习惯的简化方法,采用偏旁中每个拼音的韵母或者首字母,制定缩写时应该使得各个偏旁的拼音编码缩写形式尽量不重复,以减少系统识别的负担。这种简化方式针对现有双拼用户具有自然熟稔的特性。例如,据此制定偏旁的拼音编码表如下:
偏旁 | 名称+拼音 | 拼音编码缩写 | 例字 |
冫冖讠匚刂冂(冂)亻勹厶廴卩阝 | 两点水(liǎngdiǎnshu ǐ)秃宝盖(t ūbǎogài)言字旁(yánzìpáng)言旁(yánp áng)三匡栏(sānkuānglán)三匡(sānku āng)立刀旁(lìd āopáng);同字匡(tóngzìku āng)单人旁(dānr énpáng);单立人(dānlìrén)包字头(bāozìtóu)私字旁(sīzìpangpáng)建之旁(jìànzhīpáng)单耳旁(dān′ěrpáng)单耳刀(dān′ěrd āo)双耳旁(shuāng′ěrpáng)双耳刀(shuāng′ěrdāo)双耳刀(shuāng′ěrdāo) | ldslbgyzsklldtzdrbztszJzhpderdsherd | 次、冷、准写、军、冠计、论、识区、匠、匣列、别、剑冈、网、周仁、位、你勺、勾、旬允、去、矣廷、延、建卫、印、却防、阻、院邦、那、郊 |
氵丬(爿)忄宀辶艹廾尢扌口彳夂犭饣纟巛灬礻夊 | 左耳刀(zuǒ′ěrdāo)(在左)右耳刀(yòu′ěrdāo)(在右)三点水(sāndiǎnshuǐ)将字旁(jiàngzìpáng)竖心旁(shùxīnpáng);宝盖头(bǎogàitóu)走之旁(zǒuzhīpáng)草字头(cǎozitóu)弄字底(nòngzìdǐ)尤字旁(yōuzìpáng)提手旁(tíshǒupáng)方匡旁(fāngkuàngpáng)双人旁(shuāngrénpáng);双立人(shuānglìrén)三撇(sānpiě)折文(zhéwén)反犬旁(fǎnquǎnpáng)犬旁(quǎnpáng)食字旁(shízìpáng)绞丝旁(jiǎosīpáng)三拐(sānguǎi)四点(sìdiǎn)示字旁(shìzìpáng)反文旁(fǎnwénpáng) | sdshjzshxbgtzzhcztnzdyzptsfkshrspzhwfqshzJssgsdshzfw | 江、汪、活壮、状、将怀、快、性宇、定、宾过、还、送艾、花、英开、弁、异尤、龙、尥扛、担、摘因、国、图行、征、徒形、参、须冬、处、夏狂、独、狠饮、饲、饰红、约、纯甾、邕、巢杰、点、热礼、社、祖收、政、教 |
疒衤钅癶 | 病字旁(bìngzìpánr)衣字旁(yīzìpáng)衣旁(yīpáng)春字头(chūnzìtóu)金字旁(jīnzìpáng)登字头(dēngzìtóu)虎字头(hǔzìtóu)竹字头(zhúzìtóu) | yi zchztJinzdztfztzhzt | 症、疼、痕初、袖、被奉、奏、秦钢、钦、铃癸、登、凳虏、虑、虚笑、笔、笛 |
需要说明的是,上述偏旁部首拼音编码表所列内容并非固定不变,根据需要仍可对其进行补充和修改,只要符合命名规范的拼音组合以及缩写形式即可。
本发明所说的字根是指可以单独成字的汉字部件(包括汉语里面所说可以单独成字的偏旁),字根可能是简单的不能被拆分为“偏旁+字根”的字,如“认”字中的“人”字根;也可能是多个更简单的字根的组合,如“语”字中的“吾”字根;也可以是由“偏旁+字根”构成的字,如“附”字中的“付”字根。
在盛玉麒主编、高等教育音像出版社出版的现代汉语网络课程中,对字根描述如下:
字根是是最小的相互离散的构字单位。字根是对汉字结构成分进行拆分所得出的结果。一个汉字至少包含一个字根。绝大多数汉字都包括2个以上的字根。多根字的各个字根之间存在不同层级的关系,例如:
贺——加 贝;
力、口、贝;
意——音 心;
立、日、心;
章——音、十(《说文解字》的解释)
章——立、早(现代人习惯的拆字法)
章——立、日、十;(字根切分)
韶——音 召;
立、日、刀、口;
孀——女 霜
女、雨 相;
女、雨、木、目;
样——木 羊;
惞——忄 斤 欠;
颉——士 口 页;
韶——立 曰 刀 口。
本发明在对汉字进行部件拆分时,字根一般拆分成能够独立成字的程度即可,例如,“长”在本发明中就是一个字根,但是在五笔输入法中“长”还需要进一步拆分。优选的,本发明中一般将汉字拆分为两个部件,基本上绝大多数的汉字可以通过这样的拆分而实现输入了。对于少许的汉字需要拆分为多个部件时,也是拆分至能够单独成字的部件即可。这样拆分得到的字根一般就是一个个简单的汉字,人们都能够认识其拼音,进而可以根据拼音组合码获得该汉字的输入。由于能够独立成字的字根太多了,并且本发明不需要对其进行限制,任何能够独立成字的都可以成为本输入法的字根,以其相应的拼音输入即可,所以在此并不需要以列表的形式完全列出。
另外,由于99.9%以上的汉字可以通过单字根输入或者偏旁和能够独立成字的字根组合输入,对于难以拆分成为独立成字的字根组合的汉字,本发明还可以结合拼音输入法,因为一般这些字都是比较简单的。当然,还有可能存在一些复杂的、用户不知悉拼音的、并且难以拆分成独立成字的字根或偏旁组合的,则应用本发明可能无法输入,但是这样的汉字极少,普通用户几乎不可能碰到,所以并不影响本发明的实用性和优点的体现。
以前述偏旁拼音表为基础,结合偏旁读音和汉字的读音,可以像输入词语的拼音一样输入偏旁和字根的拼音组合来输入对应的汉字。根据汉字书写规范,对构成汉字的各部件组合添加拼音编码时也应该遵循先左后右,先上后下,先外后内的规则。假如三点水“氵”的读音为“sandianshui”,则“淦”可以注音为“sandianshuijin”。如此组合拼音,不仅可以让用户输入其不会读音的字,而且也可以精确定位多音字,减少重码率。为了和拼音输入法保持一致,实际系统中可根据用户输入的偏旁拼音和前后紧跟的字根拼音自动组合成一个汉字,而不一定非得按某个字的构成方式如左右结构或者上下结构的顺序输入。汉字拼音编码的过程就是一个把汉字拆分然后编码的过程,详细的拆分和编码规则描述如下:
汉字拆分规则:
汉字是由“偏旁+字根”或者“字根+字根”构成,偏旁不可再拆分,而字根可以进一步根据此汉字构成规则拆分,这是一个递归定义的过程。
拆分顺序按照人们习惯的汉字书写顺序。对于可根据拆分规则进行拆分(下面将直接简称为可拆分)的汉字,按照先左后右,先上后下,先外后内的原则进行拆分。拆分到不能再拆分,也可以只作一级拆分,不拆分到底。
例如:″新″根据先左后右,先上后下的规则只能先拆成“亲、斤”,然后再拆为″立、木、斤″,而不能拆成为″立、斤、木″。当然为了简单也可只作一级拆分,拆为“亲、斤”即可;按照,先上后下,先外后内的规则,″夷″只能拆成″一、弓、人″,而不能拆成″大、弓″。
拼音编码规则:
1).单字根汉字
这种汉字就是我们所说的不可再根据拆分规则拆分(下面将直接简称为不可拆分)的成字字根。由于这种汉字只有一个基本字根,所以不用再拆,这类汉字的拼音编码就直接使用其本来字的拼音。如“开”直接用其拼音进行编码为“kai”。
2).偏旁+字根
偏旁加字根构成的汉字以偏旁的拼音加字根的拼音编码作为编码,因为字根仍然可能再拆分,所以这是一个递归的过程。如“郝”的编码是“chishuangerpang”。
3).字根+字根
由多个字根组成的汉字,可采用其本身的拼音进行编码,也可以采用拆分规则对其进行一级或者多级拆分后,分别以拆分后单字根或者偏旁的拼音加起来作为其编码。因为拆分具有顺序,所以由拆分后的各个部件对应的拼音组成的拼音编码也具有一定的顺序。实际系统中,程序可以根据适当的排列组合的算法处理可能拆分顺序不对的拼音编码,并不一定强制要求用户采用唯一的顺序进行编码。如“焓”的一级编码为“huohan”。
4).笔画+偏旁+字根
笔画汉字主要是针对五笔字形组合汉字而言的,如果把构成汉字的基本笔画也进行拼音编码的话(如,笔画“丶”可以编码为“dian”,“丨”可编码为“shu”),就可以依照五笔输入法的组字方法和顺序,加上我们上面1)-3)的编码规则对任何汉字进行拼音编码。如:“中”字按五笔输入法的拆分原则可以拆分为“口、丨”,则其拼音编码为“koushu”。但是由于笔画不像偏旁和字根一样具有语义信息,不符合人的认知习惯,并且有些笔画并没有特定的拼音码对应,还需要预先进行设置,也就是说五笔拼音编码会带来汉字拆分的过度复杂性。
实际使用中,除非特别需要,拆分到“偏旁+字根”或者“字根+字根”的级别一般就够了。即优选的,本发明不需要定义笔画拼音编码表,仅仅设置偏旁部首拼音编码表即可,因为基本上所有的汉字都应该可以采用偏旁部件进行识别。
对于一些汉字可能会难以拆分成偏旁和字根,或者字根对应的拼音不常见,例如,“制”“范”“金”等等。则本发明可以通过直接输入该汉字对应的拼音编码而获得该汉字,例如,本发明在-编码影射库中存储的汉字对应的拼音编码可以包括:该汉字本身对应的拼音码和各部件对应的拼音组合码。这样,对于大多数简单或者常见字词(难以拆分成偏旁和字根),则可以通过拼音输入法完成,对于不会读音或者记忆不清的字词则可以通过输入该汉字的部件拼音组合码得到,从而可以综合两种输入方法的优点。
为了区别拼音输入时是根据拼音编码输入还是根据普通的拼音输入,我们规定在作为拼音编码的拼音前加一个特许标记以标明当前拼音是作为拼音编码输入,如在拼音编码前加一个既不能做韵母也不能做声母的字母“v”,如下图:
淦 | vsandianshuivjin |
图中第一列为要编码的汉字,第二列为汉字的拼音编码。拼音编码前均以字母“v”开头作为标识。当然,其中的“v”仅仅是一种举例而已,本领域技术人员根据需要或者经验设定其他分隔符都是可行的。
如果一个汉字根据编码规则可以有多种编码方式,则汉字后面就并列有多个拼音编码串。例如,可以一级拆分也可以多级拆分;或者可以按照各种顺序进行拆分。实际存储汉字的拼音编码时,这些拼音编码串可以根据含有偏旁结构数目的多少从少到多依次排列,多个拼音组合之间以并列的关系存储。如下图是一个具有多种拼音编码的情况:
悯 | vshuxinpangvminvshuxinpangvmenvwen |
以上描述了对汉字进行编码时所采用的拆分规则和编码规则,本发明的核心内容之一就是按照上述规则对所有的汉字进行编码并形成汉字-编码影射库。因为本发明可以存储该汉字对应的多个编码,则用户可以根据自己的理解随意按照先左后右,先上后下或者先外后内的原则进行拆分,拆分得到的部件都分别具有相应的拼音,输入任何一个都可以匹配得到相应的汉字,增加本发明所述输入法的应用范围和应用人群。
在前述偏旁部首拼音编码的基础上,按照一定的规则拆分汉字,同时按一定的编码规则对汉字各部件进行编码,并最终形成汉字-编码影射库。
基于汉字-编码影射库,当用户按照书写顺序输入汉字部件拼音编码时,通过字符串相似度算法,优选的采用Levenshtein Distance算法,对上述编码进行相似性计算,从而得到与该汉字同根或者结构相近的汉字。该方法也可用以作为汉字模糊输入的一个有效办法。对于不会读音或者记忆不清的汉字,普通的拼音输入法甚至笔画输入法都无能为力。使用上述方法根据字型结构来计算相近的汉字,从而可以帮助用户输入一个其不会读音甚至只记住部分结构的汉字。通过计算字符串相似度,从而输出字形相近或者字根相同、结构相近的汉字,具体步骤描述如下:
设置部件拼音编码表和汉字-编码影射库;
根据用户输入的部件的拼音码字符串,计算部件拼音编码表中其他部件的拼音码字符串与该部件的拼音码字符串之间的相似度;
如果相似度大于预置阀值,则确定为相似部件拼音码字符串;
依次确定用户输入的各部件相对应的相似部件拼音码字符串;
将部件的拼音码字符串、相似部件拼音码字符串进行组合,得到相关联的汉字拼音编码;
根据用户输入的汉字拼音编码、计算得到的相关联的汉字拼音编码,从所述汉字-编码影射库中查找得到相应的汉字集,并显示。
其中所述部件拼音编码表,可以包括前述的偏旁部首拼音编码,还可以包括能够独立成字的字根相应的拼音编码。由于本发明优选的和现有的拼音输入法结合应用,故现有的拼音输入法中已经存储有能够独立成字的字根相应的拼音编码,所以应用本发明时就可以不用再建立字根相应的拼音编码表了,将偏旁部首拼音编码加入至现有的拼音输入法就是一个不错的实现方式。
下面以一个例子进行详细说明:
1).首先根据拼音编码规则获取汉字的拼音编码。
如“淦”的编码为“vsandianshuiv.jin”。
2).分析拼音编码,提取偏旁拼音编码以及字根拼音编码,进一步在汉字的拼音编码表中匹配汉字。
对于“淦”,从“vsandianshuivjin”可以匹配到两个汉字“淦”和“沂”。
3).根据步骤2)中所得到的字根拼音编码,获取汉字字根。
从2)中获得的汉字“淦”和“沂”中提取字根为“金”和“斤”。如果需要更多相似字根,可以根据拼音中经常容易混淆的拼音,如“jin”和“jing”,从“jin”这个拼音编码联想到“jing”,从而增加相似字根,也可以达到增加候选字,进行模糊匹配的效果。
4).如果根据步骤2)求得了偏旁拼音编码的话,则根据此偏旁拼音编码,求得与它相似的偏旁拼音编码。相似主要是根据两个拼音编码中拼音重复的多少来判断。如“氵(sandianshui)”和“冫(liangdianshui)”之间有两个拼音相同“dian”和“shui”,它们之间就很相似,相似度可以定为2。而“氵(sandianshui)”和“忄(shuxinpang)”没有重复的拼音,相似度为0,则认为他们不相似。根据步骤4)可以获得与“淦”字偏旁相似的偏旁为“冫”。当然上述相似度仅仅是一种举例而已,例如,对于“氵(sandianshui)”和“冫(liangdianshui)”之间的相似度,也可以定义为重复的字符串“dianshui”在“冫(liangdianshui)”中所占的比例作为相似度的数值,或者本领域技术人员还可以根据需要和经验进行设定即可,本发明对此不需要加以限制。
5).把步骤4)获取的所有偏旁拼音编码与步骤3)获取的相似字根的拼音编码进行组合,对组合后形成的所有拼音编码,在汉字拼音编码表里面进行严格匹配,从而得到关联的汉字。其中,所述的所有拼音编码中包括了用户输入的原拼音编码,也包括了根据上述相似度计算得到的相似字根的拼音编码与偏旁拼音编码之间的组合。
例如:前面获取“淦”的关联字根拼音编码为“jin”和“jing”,关联偏旁的拼音编码为“sandianshui”和“liangdianshui”,组合后可以得到四个新的拼音编码,分别为“vsandianshuivjin”、“vsandianshuivjing”、“vangdianshuivjin”、“vliangdianshuivjing”,在汉字拼音编码表里面进行严格匹配后可以获得如下关联汉字:“淦、淦、沂、涼、汵、凉”。
上述的相似性计算中,也可以仅仅计算偏旁部件的相似部件拼音编码,也可以得到一定量的模糊匹配的同根字,增加用户选字的准确率。同时计算各个部件的相似部件拼音编码,当然可以增加用户的选择余地,提高模糊匹配的功效,但是需要计算较大的数据量,本领域技术人员根据需要选择使用即可。
需要注意的是,上面所说的“关联”是指近似联想或者说模糊匹配,而“匹配”是指两者的严格一致。一般情况下,为了提高字根匹配的精度,若字根能再拆分的话就以拆分后的拼音编码作为字根的输入,这样根据拼音编码匹配出来的汉字就会更准确,可以求得的同字根汉字也就会更加符合需求。
由于本发明中输入的汉字编码是由拼音字母组成,根据这一特点可知,本发明可应用于任何能够输入26个拼音字母的系统或装置。例如,采用标准的通用的计算机标准101键盘,手机标准键盘等。本发明沿袭了拼音输入法的简便,同时又具有比拼音输入法更高的准确率。对于汉字中多音字常见的现象,本发明可以在不增加其他输入方式的情况下提供简便有效的解决方案。不仅可以通过普通计算机的标准键盘输入,也能在手机,手持电脑上或其他提供字母输入的仪器上推广应用。
其中需要说明的是,根据本发明之前提出的字符串相似度计算步骤,可以完成在用户输入过程中的逐字母匹配显示的功能。例如:用户输入“vsandianshuivj”时,可以显示偏旁为“氵”和拼音以“j”开头的字根能够组合成的汉字,所述拼音以“j”开头的字根可以为“ji”“jie”“jia”“jin”等等。当用户输入“vsandianshuivji”时,则可以在候选词中显示偏旁为“氵”和拼音字符串中包括“ji”的字根能够组合成的汉字,当然,其中拼音字符串为“ji”的字根组合成的汉字优先排列在前。
另外,本发明所述输入法中,还可以包括:将用户输入的部件拼音组合编码分解出各个部件对应的拼音码,按照不同的顺序进行组合,然后根据组合后得到的拼音组合码从库中找到匹配的汉字输出。例如,用户输入“vjinvsandianshui”,则本发明还可以根据该编码自动生成“vsandianshuivjin”,这两个编码分别从库中找到匹配的汉字输出,当然,可以将用户输入的编码对应匹配的汉字优先输出。上述步骤可以保证,当用户拆分字的顺序错误时,也可以得到正确的汉字输出,简化用户输入汉字难度,提高输入效率。
参见图1,图1是从用户使用角度描述的本发明汉字输入方法的流程图。如图1所示:
步骤101:用户输入汉字的编码,所述汉字编码为汉字各部件的拼音码组合。用户对汉字的拆分可以按照汉字的书写顺序或者其他顺序进行拆分,得到的部件需要具有相应的拼音码,将各部件对应的拼音码加上分隔符连接即得到该汉字的输入编码。
步骤102:根据输入的汉字编码从汉字-编码影射库中查找相应的汉字集。
步骤103:计算输入汉字编码的相似性以取得与该汉字同根或结构相近的汉字组成汉字集。该步骤可以很好的增加用户汉字输入的准确率。
步骤104:将上述汉字集输出显示到显示器上。
在上述过程中,用户即使不知道汉字的读音,只要按照上述方法输入该汉字各部件的拼音编码依然可以快速准确的找出该汉字。如果用户知晓汉字的读音,则可以直接输入该汉字对应的拼音编码,所述汉字-编码影射库也存储有汉字自身的拼音编码,所以本发明还可以具有拼音输入法的简便。
下面参照图2,描述利用本发明核心构思的输入装置,包括:
接口装置201,用于接收用户利用包含有26个汉语拼音字母的键盘输入的汉字拼音编码;其中,如果汉字为成字部件,则以该字对应的拼音为其编码;如果汉字为部件的组合,则以该字拆分得到的各部件对应的拼音码组合为其编码;
汉字-编码影射库202,用于存储汉字与编码的影射关系;
查找装置203,用于根据汉字拼音编码,从所述汉字-编码影射库中查找得到相应的汉字集;
显示装置204,用于显示所述汉字集。
优选的,为了能够输出模糊匹配的汉字候选词,则所述的汉字输入装置,还包括:
部件拼音编码表205,用于存储部件与相应的拼音编码之间的关系;
显示运算装置206,该显示运算装置分别与查找装置和所述部件拼音编码表相连,用于完成以下步骤:
根据用户输入的部件的拼音码字符串,计算部件拼音编码表205中其他部件的拼音码字符串与该部件的拼音码字符串之间的相似度;如果相似度大于预置阀值,则确定为相似部件的拼音码字符串;依次确定用户输入的各部件相对应的相似部件的拼音码字符串;将部件的拼音码字符串、相似部件的拼音码字符串进行组合,得到相关联的汉字拼音编码,并输出至查找装置203;
所述查找装置203根据用户输入的汉字拼音编码、计算得到的相关联的汉字拼音编码,从所述汉字-编码影射库202中查找得到相应的汉字集。
其中,所述汉字拼音编码中各部件对应的拼音码之间通过分隔符相连。所述拆分可以按照先左后右、先上后下或者先外后内的顺序进行,所述拆分后的部件具有相应的拼音码。在所述汉字-编码影射库202中:如果一个汉字能够拆分为两个或者多个部件,所述拆分后的部件都具有相应的拼音码;则该汉字对应的编码包括拆分为二部件的拼音组合码和/或拆分为多个部件的拼音组合码。
优选的,为了兼顾现有拼音输入法的简便,在所述汉字-编码影射库202中,汉字对应的编码包括:该汉字本身对应的拼音码和各部件对应的拼音组合码。
例如,用户通过接口装置201,按照汉字的书写顺序输入汉字各部件的拼音编码,如“淦”字的编码:“vsandianshuivjin”。显示运算装置206计算、组合得出相关联的汉字拼音编码。所述查找装置203根据用户输入的汉字拼音编码“vsandianshuivjin”、计算得到的相关联的汉字拼音编码“vsandianshuivjing”、“vliangdianshuivjin”、“vliangdianshuivjing”,从所述汉字-编码影射库202中查找得到相应的汉字集。然后传送至显示装置204进行显示,即可显示出用户输入的原拼音组合编码对应的汉字以及其他同根或者字形相近的汉字,提高了用户输入汉字的准确率。
以上对本发明所提供的一种汉字输入方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1、一种汉字输入方法,其特征在于:
如果汉字为单字根汉字,则以该字对应的拼音为其编码;
如果汉字为部件的组合,则以该字拆分得到的各部件对应的拼音码组合为其编码,所述部件为偏旁部件或者字根部件;
利用包含有26个汉语拼音字母的键盘进行编码输入。
2、根据权利要求1所述的汉字输入方法,其特征在于,所述汉字编码中各部件对应的拼音码之间通过分隔符相连。
3、根据权利要求1或2所述的汉字输入方法,其特征在于,所述拆分按照先左后右、先上后下或者先外后内的顺序进行,所述拆分后的部件具有相应的拼音码。
4、根据权利要求1或2所述的汉字输入方法,其特征在于,
如果一个汉字能够拆分为两个或者多个部件,所述拆分后的部件都具有相应的拼音码;
则该汉字对应的编码包括拆分为二部件的拼音组合码和/或拆分为多个部件的拼音组合码。
5、根据权利要求1所述的汉字输入方法,其特征在于,一个汉字对应的拼音编码包括:该汉字本身对应的拼音码和该汉字拆分后各部件对应的拼音组合码。
6、根据权利要求1或5所述的汉字输入方法,其特征在于,还包括:
设置汉字-编码影射库;
根据用户输入的汉字拼音编码,从所述汉字-编码影射库中查找得到相应的汉字集,并显示;其中,所述汉字拼音编码为汉字本身对应的拼音码或者各部件对应的拼音组合码。
7、根据权利要求1所述的汉字输入方法,其特征在于,还包括:
设置部件拼音编码表和汉字-编码影射库;
根据用户输入的部件的拼音码字符串,计算部件拼音编码表中其他部件的拼音码字符串与该部件的拼音码字符串之间的相似度;
如果相似度大于预置阀值,则确定为相似部件拼音码字符串;
依次确定用户输入的各部件相对应的相似部件拼音码字符串;
将部件的拼音码字符串、相似部件拼音码字符串进行组合,得到相关联的汉字拼音编码;
根据用户输入的汉字拼音编码、计算得到的相关联的汉字拼音编码,从所述汉字-编码影射库中查找得到相应的汉字集,并显示。
8、根据权利要求1所述的汉字输入方法,其特征在于,还包括:
从用户输入的部件拼音组合编码中分解出各个部件对应的拼音码,按照不同的顺序进行组合,然后根据原输入编码和组合后得到的拼音组合码从汉字-编码影射库中找到匹配的汉字集输出。
9、一种汉字输入装置,其特征在于,包括:
接口装置,用于接收用户利用包含有26个汉语拼音字母的键盘输入的汉字拼音编码;其中,如果汉字为单字根汉字,则以该字对应的拼音为其编码;如果汉字为部件的组合,则以该字拆分得到的各部件对应的拼音码组合为其编码,所述部件为偏旁部件或者字根部件;
汉字-编码影射库,用于存储汉字与编码的影射关系;
查找装置,用于根据汉字拼音编码,从所述汉字-编码影射库中查找得到相应的汉字集;
显示装置,用于显示所述汉字集。
10、如权利要求9所述的汉字输入装置,其特征在于,还包括:
部件拼音编码表,用于存储部件与相应的拼音编码之间的关系;
显示运算装置,该显示运算装置分别与查找装置和所述部件拼音编码表相连,用于完成以下步骤:
根据用户输入的部件的拼音码字符串,计算部件拼音编码表中其他部件的拼音码字符串与该部件的拼音码字符串之间的相似度;
如果相似度大于预置阀值,则确定为相似部件拼音码字符串;
依次确定用户输入的各部件相对应的相似部件拼音码字符串;
将部件的拼音码字符串、相似部件拼音码字符串进行任意组合,得到相关联的汉字拼音编码,并输出至查找装置;
所述查找装置根据用户输入的汉字拼音编码、计算得到的相关联的汉字拼音编码,从所述汉字-编码影射库中查找得到相应的汉字集。
11、根据权利要求9所述的汉字输入装置,其特征在于,所述汉字拼音编码中各部件对应的拼音码之间通过分隔符相连。
12、根据权利要求9或10所述的汉字输入装置,其特征在于,所述拆分按照先左后右、先上后下或者先外后内的顺序进行,所述拆分后的部件具有相应的拼音码。
13、根据权利要求9或10所述的汉字输入装置,其特征在于,在所述汉字-编码影射库中:
如果一个汉字能够拆分为两个或者多个部件,所述拆分后的部件都具有相应的拼音码;则该汉字对应的编码包括拆分为二部件的拼音组合码和/或拆分为多个部件的拼音组合码。
14、根据权利要求9或10所述的汉字输入装置,其特征在于,在所述汉字-编码影射库中,汉字对应的编码包括:该汉字本身对应的拼音码和该汉字拆分后各部件对应的拼音组合码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200610088911 CN1949148A (zh) | 2006-07-25 | 2006-07-25 | 一种汉字输入方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200610088911 CN1949148A (zh) | 2006-07-25 | 2006-07-25 | 一种汉字输入方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1949148A true CN1949148A (zh) | 2007-04-18 |
Family
ID=38018681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200610088911 Pending CN1949148A (zh) | 2006-07-25 | 2006-07-25 | 一种汉字输入方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1949148A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109254670A (zh) * | 2018-08-28 | 2019-01-22 | 深圳市有钱科技有限公司 | 汉字输入方法、存储设备及计算机设备 |
CN109976548A (zh) * | 2017-12-28 | 2019-07-05 | 北京搜狗科技发展有限公司 | 一种输入方法及输入装置 |
CN112650398A (zh) * | 2020-12-21 | 2021-04-13 | 北京搜狗科技发展有限公司 | 输入方法、装置和介质 |
CN117875267A (zh) * | 2024-03-11 | 2024-04-12 | 江西曼荼罗软件有限公司 | 一种汉字转拼音的方法及系统 |
-
2006
- 2006-07-25 CN CN 200610088911 patent/CN1949148A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109976548A (zh) * | 2017-12-28 | 2019-07-05 | 北京搜狗科技发展有限公司 | 一种输入方法及输入装置 |
CN109976548B (zh) * | 2017-12-28 | 2022-07-19 | 北京搜狗科技发展有限公司 | 一种输入方法及输入装置 |
CN109254670A (zh) * | 2018-08-28 | 2019-01-22 | 深圳市有钱科技有限公司 | 汉字输入方法、存储设备及计算机设备 |
CN109254670B (zh) * | 2018-08-28 | 2023-05-16 | 深圳市有钱科技有限公司 | 汉字输入方法、存储介质及计算机设备 |
CN112650398A (zh) * | 2020-12-21 | 2021-04-13 | 北京搜狗科技发展有限公司 | 输入方法、装置和介质 |
CN117875267A (zh) * | 2024-03-11 | 2024-04-12 | 江西曼荼罗软件有限公司 | 一种汉字转拼音的方法及系统 |
CN117875267B (zh) * | 2024-03-11 | 2024-05-24 | 江西曼荼罗软件有限公司 | 一种汉字转拼音的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9767788B2 (en) | Method and apparatus for speech synthesis based on large corpus | |
CN109271644A (zh) | 一种翻译模型训练方法及装置 | |
CN1870728A (zh) | 自动加配字幕的方法和系统 | |
CN106407235B (zh) | 一种基于点评数据的语义词典构建方法 | |
CN101819469A (zh) | 中文内容拼写校正的方法 | |
CN1949148A (zh) | 一种汉字输入方法及装置 | |
CN103838392B (zh) | 高频词语并全部汉字快易的键盘、手写、语音输入法 | |
JP2012018201A (ja) | テキスト補正方法及び認識方法 | |
JP5701327B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
CN101577115A (zh) | 语音输入系统及其方法 | |
CN1278209C (zh) | 组合拼音汉字编码输入法 | |
JP2013186673A (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP2020177196A (ja) | 手話cg制作支援装置及びプログラム | |
CN1110741C (zh) | 音形码汉字输入方法 | |
KR101201913B1 (ko) | 사용자의 후보 합성단위 선택에 의한 음성 합성 방법 및 시스템 | |
CN103984420B (zh) | 一种基于拼音的藏文智能输入法 | |
JP2014191484A (ja) | 文末表現変換装置、方法、及びプログラム | |
Dasgupta et al. | A joint source channel model for the English to Bengali back transliteration | |
CN104599670B (zh) | 点读笔的语音识别方法 | |
CN1825254A (zh) | 汉字输入法及其所用的计算机键盘 | |
CN1584809A (zh) | 可做拼音汉字的汉字编码的输入法 | |
CN1328649C (zh) | 汉字“三形联想”形码输入法 | |
CN105549757A (zh) | 一种普通话拼音输入方言词汇输出的输入法 | |
TWI614618B (zh) | 字詞校正方法 | |
CN1379307A (zh) | 全息万能规范汉字编码及高速输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |