CN102478971A - 一种方块字的键盘输入方法及具有键盘的数字电子装置 - Google Patents
一种方块字的键盘输入方法及具有键盘的数字电子装置 Download PDFInfo
- Publication number
- CN102478971A CN102478971A CN2010105658480A CN201010565848A CN102478971A CN 102478971 A CN102478971 A CN 102478971A CN 2010105658480 A CN2010105658480 A CN 2010105658480A CN 201010565848 A CN201010565848 A CN 201010565848A CN 102478971 A CN102478971 A CN 102478971A
- Authority
- CN
- China
- Prior art keywords
- character
- keyboard
- string
- character string
- input method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明属于信息输入领域,公开一种方块字的键盘输入方法及具有键盘的数字电子装置,其中方块字的键盘输入方法包含下列步骤:(1)预置发音字符串列表与词库;(2)将字符串分隔成p个音节的子字符串;(3)根据发音字符串列表创建p个匹配列表,将子字符串与发音字符串列表按预定规则进行匹配,而在匹配列表中设置匹配标志、保存匹配信息;(4)选择词长为p的小词库,根据匹配信息检索候选词并保存;(5)重复(2)至(4),遍历所有子字符串组合,将所有候选词输出。本发明将各种方块字的键盘输入方法统一起来,尤其是应用于数字压缩小键盘时不用进行繁复的组合,只搜索一遍小词库就可将候选的全部查找并保存,提高运行的效率和速度。
Description
技术领域
本发明属于信息输入方法的技术领域,更具体地,涉及一种针对不同语种的方块字的键盘输入方法。
背景技术
自从发明了计算机等电子设备,为了方便使用者操作,键盘输入法也随之应运而生,并且不断地被该领域的研究人员进行改进推新,以适应使用者对输入速度和方便性越来越高的要求。发展至今,目前已有一定规模且被使用的键盘输入法大体可以分为:音码、形码、音形混合码。以汉字为例,常用的键盘输入法为拼音输入法、笔划输入法和字根输入法。研究学者在设计如中文、日文或韩文此种方块字文字符号输入的算法的时候,往往只是针对其中的一种文字的特点进行研究,不能够应用到其它的方块字的使用中,这样的针对性很强,推广范围也较小,使得算法有一定的局限性。同时,在现有的一些键盘输入算法中,以拼音输入法为例,其中对字符串的分隔和匹配的过程中,从匹配直到输出候选方块字,需要计算的步骤很多,也使得算法具有一定的复杂性。
现有技术的中国授权专利第1292333号提出了一种能够适应多种语言(中文、日文、韩文)的方块字的输入法,但是此输入法引用了较多的术语和需要使用者记忆的内容,这样对于不熟悉的使用者来说需要一定的适应和学习的时间,且该技术的主要原理在于重复利用方块字的声码,并把已有俗称的偏旁、部首等部件、特殊部件或难以分解的字,经定义后另外获得唯一的丁码,加以重复利用,并用ASCII码录入任一中文、日文或韩文等方块字,但是使用此输入法单是记忆外部的键盘布局上这些偏旁部首就需要花费一定的精力,而且这种输入方法对已经熟悉拼音输入的使用者来说,使用起来尤其的不方便。因此,寻找一种能让使用者的学习障碍降到最低且可以适用于各种不同语种的方块字的输入系统及方法,仍是目前重要发展方向。
发明内容
为了解决前述现有技术不尽理想之处,提供更佳方案,本发明主要目的是提供一种方块字的键盘输入方法,可以统一使用发音原理的各种键盘输入方块字的方法。且最重要的是本发明所提出的方块字的键盘输入方法可以只转换发音列表和查询的词库,而不改变输入法的编程代码,即可以应用于其它通过发音来确定字符的方块字输入系统,如中文、日文或韩文等。因此,本发明将各种方块字的键盘输入方法统一起来,使其应用性提高,尤其是应用于数字压缩小键盘时,不用进行繁复的组合,能够只搜索一遍小词库,就可以将可能候选的全部查找保存起来,提高了运行的效率和速度。
本发明首先提出 一种方块字的键盘输入方法,可接受实体键盘或虚拟键盘的点击而输出候选词,包含有下列步骤:
(1) 预置发音字符串列表与词库,所述词库包含有m个小词库,各小词库的词组具有设定的词长;
(2) 将输入的字符串分隔成p个音节的子字符串,p为大于0的正整数;
(3) 根据发音字符串列表,创建p个匹配列表,分别将各子字符串与预置的发音字符串列表按预定规则进行匹配,并根据匹配结果在相应的匹配列表中相应位置设置匹配标志,根据p个匹配列表中的匹配标志判断步骤(2)的分隔是否有效,若有效,则保存匹配信息,若无效,则回到步骤(2),对所述输入的字符串重新进行分隔;
(4) 在词库中选择词长为p的小词库,根据步骤(3)生成的匹配信息,在小词库中检索匹配的词组,列为候选词并保存;
(5) 重复步骤(2)至步骤(4),以遍历q种子字符串组合,q为大于0的正整数。
上述m、p为输入法的设计参数,可根据各个语种弹性地调整。
本发明同时提供另一种方块字的键盘输入方法,可接受数字压缩小键盘的数字点击而输出候选词,包含有下列步骤:
(1) 预置发音字符串列表与词库,所述词库包含有m个小词库,各小词库的词组具有设定的词长;
(2) 将输入的数字串分隔成p个音节的子数字串,p为大于0的正整数,并将子数字串转换成相应的子字符串;
(3) 根据发音字符串列表,创建p个匹配列表,分别将各子字符串与预置的发音字符串列表按预定规则进行匹配,并根据匹配结果在相应的匹配列表中相应位置设置匹配标志,根据p个匹配列表中的匹配标志判断步骤(2)的分隔是否有效,若有效,则保存匹配信息,若无效,则回到步骤(2),对所述输入的数字串重新进行分隔成子数字串、并转换成子字符串;
(4) 在词库中选择词长为p的小词库,根据步骤(3)生成的匹配信息,在小词库中检索匹配的词组,列为候选词并保存;
(5) 重复步骤(2)至步骤(4),以遍历q种子数字串组合,q为大于0的正整数。上述m、p为输入法的设计参数,可根据各个语种弹性地调整。
缘此,本发明的主要优点是具有极佳的跨语言适应性,可以在多种语言的方块字的输入法中应用,而且其核心所包含的查询列表和词库等占用的内存较小,使得系统的反应速度很快,综合性较强,而且模块化的设计利于维护、编修与更新。
本发明的再一优点是可以让熟悉某一种键盘输入的使用者将学习障碍降到最低,就算语种变换,也不因此而让使用者需要重新学习,降低使用的意愿。
本发明更提供一种具有键盘的数字电子装置,其使用上述的方块字的键盘输入方法,因此可以让熟悉某一种键盘输入的使用者将学习障碍降到最低,就算语种变换,也不因此而让使用者需要重新学习,降低使用的意愿。
附图说明
读者在参照附图阅读本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中:
图1A是本发明所提出的第一实施例,为一种方块字的键盘输入方法流程图。
图1B是本发明的第一实施例中,子字符串与发音字符串列表的匹配流程图。
图1C是本发明的第一实施例中,查找小词库的流程图。
图1D是本发明的第二实施例,为另一种方块字的键盘输入方法流程图。
图2A是本发明所提出的发音字符串列表示意图。
图2B、图2C是本发明所提出的匹配列表示意图。
图3是本发明所提出的小词库示意图。
图4是数字压缩小键盘示意图。
图5A是本发明所提出的发音字符串列表示意图。
图5B、图5C是本发明所提出的匹配列表示意图。
图6是本发明所提出的小词库示意图。
图7A是本发明应用于日文输入时的发音字符串列表与匹配列表示意图。
图7B是本发明应用于日文输入时的小词库示意图。
附图中主要组件符号说明
步骤 701、702、703、704、705、801、802、803、804、805
发音字符串列表 13、15
匹配列表 13a、13b、15a、15b
名词定义:
为了清楚表达本发明的技术特征,下面先对说明书中使用的名词进行定义:
字符串:在键盘敲击所形成的一连串字母。
数字串:特别指以数字压缩小键盘输入的一系列数字。
字符串的长度:一个字符串内所包含的字母的个数,以字符串“haolihai”为例,字符串的长度为8;以字符串“lihai”为例,字符串的长度为5。
子字符串:通过分隔后所形成的字符串,举例:字符串“lihai”通过分隔后,会产生“lihai”、“liha i”、“lih ai”、“li hai”、“l ihai”等不同的子字符串。一个长度为n的字符串,通过各种排列组合的分隔,最多会产生2n-1种子字符串。例如字符串“lihai”,其长度为5,因此最多有2n-1=25-1=24=16种分隔方式,产生16种子字符串。
发音字符:在输入法中,相应于一个音节、类音位或汉字,所相应使用的字符串;举例以拼音输入法而言,“zhuang”就是一个发音字符,相应到汉字是“庄”、“装”、“妆”等。
发音字符的长度:一个发音字符里所包含的字母的个数;以发音字符“zhuang”而言,其发音字符的长度为6。
词长:一个词组中包含字符的个数。
具体实施方式
下面结合附图对本发明作进一步详细的描述。由于本发明公开了一种方块字的键盘输入方法,其中所使用的键盘输入原理已为本领域普通技术人员所能明了,故以下文中的说明,不再作完整描述。同时,以下文中所对照的附图,意在表达与本发明特征有关的结构的含义,并未亦不需要根据实际尺寸完整绘制,在先声明。
第一实施例:方块字的键盘输入方法
本发明首先提出一种方块字的键盘输入方法,可接受实体键盘或虚拟键盘的点击而输出候选词,请参考图1A,包含有下列步骤:
步骤701:预置一个发音字符串列表与一个词库,发音字符串列表包含多个发音字符,且按照发音字符的字母顺序与长度依次排列,各发音字符为独立、具有其预设的位置。词库包含有m个小词库,m为大于0的正整数,各小词库包含有多个由发音字符所构成的词组、发音字符的索引值与词组的频率,且各个小词库内的词组的词长为相同,不同小词库内的词组的词长为不相同。
步骤702:接受键盘点击而生成字符串,字符串具有n个字母,n为大于0的正整数,至少为1。以预设的分隔模式对字符串进行分隔,而形成包含有p个音节的子字符串,其中,每个音节的最大长度为r,p与r皆为大于0的正整数。
步骤703:根据子字符串的音节个数p,生成相应数量的匹配列表,各匹配列表的内容相同于发音字符串列表,并以预设的匹配模式将子字符串的音节与发音字符串列表内的发音字符进行匹配,若此音节匹配于某个发音字符,则将发音字符的位置在匹配列表中与发音字符中相同的位置给予一个非0的匹配标志(例如匹配标志为1),直到子字符串内的p个音节都匹配成功时,进行下一步骤。若无法完成所有p个音节对照发音字符的匹配,则表示步骤702分隔得到的子字符串不恰当,必须回到步骤702对字符串重新进行分隔。具体步骤请再参考图1B。
步骤704:根据匹配列表的个数p,确定子字符串的词长为p,然后选择具有相应词长为p的小词库。依次遍历其中词组,取得子字符串相应词组的索引值,判断此索引值在匹配列表中相应的位置是否具有非0的匹配标志,若是,则将该词组保存为候选词,若否,则将该词组忽略,并继续查找直到所述小词库内所有匹配所述子字符串的词组都被查找出来而保存为候选词。具体步骤请再参考图1C。
步骤705:因为字符串会有多种分隔方式,此时必须重复步骤702至步骤704,将通过分隔而产生的每一个子字符串所查找到的所有相应词组都列为候选词而保存,最后将所有的候选词输出。其中,当输入的字符串的字符个数为n时,分隔的最多方式q有2n-1个。
上述m、p、r为输入法的设计参数,可根据各个语种弹性地调整。步骤701至步骤705,以汉字拼音输入法为例(但不以汉字拼音输入法为限)更进一步详细说明如下:
步骤701
本发明根据音节的长度,预先设置一个发音字符串列表13,如图2A所示,发音字符串列表13包含有多个发音字符,而且各个发音字符都是独立的,依照26个英文字母的顺序依次排列,对于每个英文字母,再以发音字符的长度(1个~6个)依次排列,每个发音字符各有相应的位置。以汉字的拼音输入法而言,共有四百一十多个发音字符,因此,图2A所示的发音字符串列表13共包含有四百一十多个发音字符。
本发明同时提供一个词库,这个词库里按照词组的词长分组而分成了m个个部份,或称为m个小词库。举例若m为6,则有6个小词库,分别是词组的词长为1至6的小词库,各个小词库包含有发音字符的索引值、发音字符相应的词组以及词组的频率。
步骤702
当使用者对键盘(例如科提QWERTR键盘或触摸屏上的虚拟键盘)点击输入时,本发明会响应使用者对键盘的点击输入,将每个键盘上相应的字母组合而生成了一个具有n个字母的字符串。本发明设定上述字符串里具有p个音节,每个音节的最大长度为r。以汉字的拼音输入法的为例,r为6,即音节的最大长度为6。接着对字符串以音节为基础进行分隔,因为分隔后的每个音节的最大长度为6,因此一个字符串可以因此被分隔成具有一个或多个音节的子字符串。分隔方法是将字符串按照最长优先的顺序依次进行分隔,假如字符串的长度小于6,就直接分隔成一个音节的子字符串;假如字符串的长度大于6,就将最前面的6个字母先分隔成第一音节,再对剩下的字母进行分隔,如果剩下的字母的长度小于6,就将这些字母直接列为第二音节;如果剩下的字母的长度还是大于6,就把剩下的字母的最前面6个字母先分隔成第二音节,剩下的字母再依照上述的准则继续进行分隔,直到被分隔之后的每个音节的长度都不大于6为止,以此类推,即产生包含一个或多个音节的子字符串。必须注意的是,如果字符串的长度大于r*p=6*6=36,本发明建议可以仅取最前面的36个字母做分隔而成为具有6个音节的子字符串,而不计36个字母以后的字母,藉以提高运算速度与系统效率。但是本发明并不以取最前面的36个字母做分隔为限。
以字符串“lihai”为例,因为“lihai”的字符串的长度为5,小于6,所以分隔后的第一组子字符串就是“lihai”。 以字符串“haolihai”为例,因为“haolihai”的字符串的长度为8,大于6,所以分隔后的第一组子字符串就是“haolih ai”。
步骤703
根据前述的分隔结果及子字符串内所包含的音节个数p而形成p个匹配列表,匹配列表的结构与组成基本上相同于发音字符串列表。如果子字符串内所包含的音节个数是一个,则形成一个匹配列表;如果字符串内所包含的音节个数是2个,则形成2个匹配列表,以此类推。
接着,将子字符串内的音节与发音字符串列表内的发音字符去进行匹配。匹配时,如图2B所示,匹配模式要按照子字符串与发音字符内的字符从前到后逐个进行匹配,即首先将第一个字符进行匹配,如果能够匹配成功,则将第1个匹配列表13a的相应的位置第一位匹配标志置为非0(例如:匹配标志为1),其余的不能匹配的位置匹配标志置为0,当进行第二个字符的匹配时,只需要找到第一位匹配标志为非0所在匹配列表13a的起始位置,然后进行匹配。同样,匹配成功的继续置匹配标志为非0,匹配不成功的匹配标志置为0、并将以前匹配标志为非0的匹配标志的重新归0,这样到最后只保存完全匹配成功的,并把匹配信息保存下来。匹配信息可以是完整的匹配列表。也可以是匹配列表中匹配成功的索引值与匹配标志。如果子字符串的音节对照于发音字符,没有找到完全匹配成功的对象,则表示该分隔方式是无效的,此时必须回到步骤702重新进行分隔。相反地,如果不论子字符串包含几个音节,都能够直接匹配到子字符串的最后一个发音字符,即可以找到某一个或某几个发音字符,使其所有字符的匹配标志都为非0,则说明这种分隔的方式是有效的,可以继续进行后续步骤704。
继续以上述的子字符串“lihai”为例详细说明,“lihai”只有一个音节,因此先产生一个匹配列表。因为音节长度为5,匹配时会挑选匹配列表内以“l”为开头的发音字符,然后将子字符串与发音字符的字母一个一个进行匹配。
第一次发音字符匹配的结果是将匹配成功者在第1个匹配列表13a中发音字符所处位置第一位匹配标志置为非0,进行第二个发音字符匹配时,只需要从首位匹配标志为非0的位置开始进行第二个发音字符的匹配,将第二个发音字符匹配成功的发音字符所处位置第二位继续将匹配标志置为非0,如果没有匹配成功则将原来为非0的匹配标志改为0,如图2B所示。如果匹配第三个发音字符时,查找前两字符位置匹配标志为非0的相应的所有发音字符,都没有发现可以匹配的对象,此时这种情况就会定义为分隔无效,这种分隔结果会被排除掉,并回到步骤702重新进行分隔。
继续以上述的字符串“lihai”为例,通过了多次的分隔无效的循环过程(步骤702->步骤703->步骤702->步骤703->、、、),直到子字符串为“li hai”时,这种子字符串能够与发音字符串列表完全匹配成功,此时子字符串通过分隔成了2部分,因此使用了2个匹配列表13a、13b,请分别参考图2B与图2C。其中图2A为系统的发音字符串列表13,图2B与图2C分别为子字符串匹配成功所产生的匹配列表13a与13b。图2B中,“li”为匹配成功,发音字符“li”的位置174的匹配标志置为非0,在匹配列表13a的前两位匹配标志置为“11”。图2C中,“hai”为匹配成功,发音字符“hai”的位置115的匹配标志置为非0,在匹配列表13b的前三位匹配标志置为“111”。
步骤704
匹配列表的个数代表的是词长,以上述的字符串“lihai”为例,当子字符串为“li hai”时,能够与发音字符串列表13完全匹配成功,而使用了2个匹配列表13a、13b,因此可以知道这个子字符串“li hai”的词长为2,因此在词库中选择词长为2的小词库。根据子字符串的词长直接去选取相应词长的小词库,可以减少查找所花的时间。
当选取相应的小词库以后,再根据上述匹配列表去查找相应的词组。首先是从相应的小词库中首个词组的第一个字开始进行,利用第一个字的索引值在前述步骤703所产生的匹配列表中查找,若查找到相同的索引值,说明这个字是可以查找到,接著再查找该词组的第一个字在相应的匹配列表中的发音字符的匹配标志,如果该匹配标志为非0,说明这个字是正确匹配的,如果该匹配标志为0,说明这个字不能匹配,就继续下一个词组的第一个字的查找。当第一个字正确匹配,然后进行词组中第二个字与第二个匹配列表的判断,同样是利用索引值先查找词组中第二个字在匹配列表中的发音字符的相应位置,再判断发音字符相应的匹配标志是否为非0。以此类推,将每个词组的全部索引值都与匹配列表中相应的发音字符的位置的匹配标志进行匹配判断,若完全匹配成功(匹配标志都为非0),则将这个词组保存为候选词。
查找小词库的过程中,如果其中某一个词组已经能够匹配成功、查找出来,这时仍然需要继续向下查找,因为这时小词库中可能还存在具有同样发音的词组,因此需要充分查找,将全部能够匹配的词组查找出来并保存作为候选词组。
继续以上述的子字符串“li hai”为例,请参考图3,首先,从第一个词组开始进行查找匹配,依次查找小词库中的词组,每一个词组都有自己的索引值和频率,同样发音的词组具有相同的索引值,只是其频率可能不同,其中F1代表的是“厉害”的频率,F2代表的是“利害”的频率,F3代表的是“里海”的频率。当查找到“厉害”时,利用其第一个索引值去查看上一个前述获得的匹配列表中这个索引值位置所相应的匹配标志是否为非0,可以发现如图2B所示,匹配列表的某一处已经匹配标志为非0,然后再利用第二个索引值与第二个匹配列表去匹配,匹配列表的另一处已经匹配标志为非0,因此这个词组可以匹配查找到,系统会将其保存。然后会按照同样的方式继续查找小词库后面的词组,对于这个子字符串“li hai”的分隔,系统将搜索且匹配成功的词组并保存下来,便于最后候选词的输出。
步骤705
重复上述步骤702至步骤704,继续针对其它分隔方式所形成的子字符串进行查找候选词,直至字符串的所有分隔方式都被查找完毕,然后将所有的候选词输出。
初始分隔查找完词组之后,接着对字符串进行其它的分隔,仍是按照最长优先的顺序进行分隔。如果字符串的字母个数n小于6,则将(n-1)个字符优先分隔成一组音节,最后一个字母为一组音节。总之,每个字符串皆会经历排列组合的每一种分隔的情况,因此当字符串的字母个数为n时,通过排列组合就最多有2n-1个分隔方式而形成2n-1个子字符串。举例,当字符串为“abc”,字母个数n为3,因此第一次分隔按照最长优先的原则是将其作为一个整体的拼音,产生子字符串“abc”,后续再继续做分隔时,系统会自动产生“ab c”、“a bc”、“a b c”等3种子字符串,总计最多产生23-1=22=4个分隔方式。
如以字符串“lihai”为例,这个字符串的总长度为5,小于6,就会产生“lihai”、“liha i”、“lih ai”、“li hai”、“l ihai”、、、等25-1=24=16个子字符串,而且最优先产生的是“lihai”这个子字符串。
针对每一个子字符串,都重复上述步骤703至步骤704,找出候选词并保存,完成所有的子字符串的候选词查找动作以后,将所有的子字符串所能够查找出的候选词输出。
第二实施例:方块字的键盘输入方法
本发明提出第二实施例,为另一种方块字的键盘输入方法,可接受数字压缩小键盘的点击而输出候选词,请参考图1D,主要步骤相同于第一实施例,但是多了将数字压缩小键盘输入的数字转换为发音字符的排列组合及检查的程序。第二实施例所包含步骤如下:
步骤801:预置一个发音字符串列表与一个词库,发音字符串列表包含多个发音字符,且按照发音字符的字母顺序与长度依次排列,各发音字符为独立、具有其预设的位置,词库包含有m个小词库,m为大于0的正整数,各小词库包含有多个由发音字符所构成的词组、发音字符的索引值与词组的频率,且各个小词库内的词组的词长为相同,不同小词库内的词组的词长为不相同。
步骤802:接受键盘点击而生成数字串,数字串具有n个数字,n为大于0的正整数,至少为1。以预设的分隔模式对数字串进行分隔,而形成包含有p个音节的子数字串,其中,每个音节的最大长度为r,p与r皆为大于0的正整数。然后将子数字串内各个音节的数字分别转换为相应的字母而生成多个子字符串,且各个子字符串具有p个音节。
步骤803:根据子字符串内所包含的音节个数p,生成相应的p个匹配列表,各匹配列表的内容相同于发音字符串列表,并以预设的匹配模式将子字符串的音节与发音字符串列表内的发音字符进行匹配,若子字符串的音节匹配于某个发音字符,则将发音字符的位置在匹配列表中与发音字符中相同的位置给予一个非0的匹配标志,直到子字符串的p个音节都各自匹配成功时,则保存匹配信息并进行下一步骤;若无法完成所有p个音节对照发音字符的匹配,则表示步骤802分隔所得到的子数字串不恰当,必须回到步骤802,对数字串重新进行分隔;
步骤804:根据匹配列表的个数p,确定子字符串的词长为p,然后选择具有相应词长为p的小词库。依次遍历其中词组,取得子字符串相应词组的索引值,判断此索引值在匹配列表中相应的位置是否具有非0的匹配标志,若是,则将该词组保存为候选词,若否,则将该词组忽略,并继续查找直到所述小词库内所有匹配所述子字符串的词组都被查找出来而保存为候选词。
步骤805:因为数字串会有多种分隔方式,此时必须重复步骤802至步骤804,将通过分隔而产生的每一个子数字串所查找到的所有相应词组都列为候选词而保存,最后将所有的候选词输出。其中,当输入的数字串的数字个数为n时,分隔的最多方式q有2n-1个。
上述m、p、r为输入法的设计参数,可根据各个语种弹性地调整。步骤801至步骤805,以汉字拼音输入法为例(但不以汉字拼音输入法为限)更进一步详细说明如下:
步骤801
此相同于前述第一实施例的步骤701,请相互参照,于此不再赘述。
步骤802
当使用者对数字压缩小键盘点击输入时,本发明会响应使用者对键盘的点击输入,将每个键盘上相应的数字组合而形成了一个数字串进行输出。
将数字串分隔成子数字串,分隔的方式相同于第一实施例的步骤702,以最长优先,请相互参照。举例说明,当使用者点击数字压缩小键盘产生的数字串“42694264”以后,分隔的方法同第一实施例,以最长优先,产生第一个子数字串“426942 64”。“426942 64”具有2个音节,这时把各个音节的数字转换到每个数字键上相应的字母,例如“426942”就可以转换成“gamwhb”,“64”就可以转换成“mg”。必须提醒的是,因为数字压缩小键盘的每个按键都相应有多个字母,如图4所示,此时将数字转换到字母时,必须将每个键盘上的英文字母都与其它键盘上的英文字母进行排列,找出所有的可能排列组合。
步骤803
“426942 64”具有2个音节,因此生成2个匹配列表,匹配列表的结构与组成基本上相同于发音字符串列表。接着,将“426942”通过排列组合后所相应生成的所有的音节“gamwha”、“gamwhb”、“gamwhc”、“gamwga”、、、与发音字符串列表内的发音字符去进行匹配。并且将“64”通过排列组合后所相应生成的所有的音节“mg”、“mh”、“mi”、“ng”、、、与发音字符串列表内的发音字符去进行匹配。匹配模式要按照子字符串与发音字符内的字符从前到后逐个进行匹配,即首先将第一个字符进行匹配,如果能够匹配成功,则将第1个匹配列表内的发音字符相应位置的第一位匹配标志置为1,其余的不能匹配的位置的匹配标志置为0,当进行第二个字符的匹配时,只需要找到第一位匹配标志为1所在匹配列表的起始位置,然后进行匹配。同样,匹配成功的继续将匹配标志置为1,匹配不成功的将匹配标志置为0、并将以前的匹配标志为1的重新归0,这样到最后只保存完全匹配成功的,并把匹配成功的匹配列表保存下来。如果子字符串的音节对照于发音字符,没有找到完全匹配成功的对象,则表示步骤802分隔的子数字串是无效的,此时必须回到步骤802重新进行分隔。
如果不论子字符串包含几个音节,每个音节都能够直接匹配到最后一个发音字符,即可以找到某一个或某几个发音字符,使其所有字符的匹配标志都为1,则说明这种分隔的方式是有效的,可以继续进行后续步骤。
步骤804
匹配列表的个数p代表的是词长,当具有p个音节的子字符串能够与发音字符串列表完全匹配成功,便可以确认这个子字符串的词长为p。接著在词库中直接选择词长为p的小词库,根据子字符串的词长直接去选取相应词长的小词库,可以减少查找所花的时间。
在小词库里查找词组,此步骤基本上相同于第一实施例的步骤704。
查找小词库的过程中,如果其中某一个词组已经能够匹配成功、查找出来,这时仍然需要继续向下查找,因为这时小词库中可能还存在具有同样发音的词组,因此需要充分查找,将全部能够匹配的词组查找出来并保存作为候选词组。
步骤805
重复上述步骤802至步骤804,继续针对其它分隔方式所形成的子数字串进行查找候选词,直至数字串的所有分隔方式都被查找完毕,然后将所有的候选词输出。
以数字串“42694264”为例将上述步骤整体说明。当分隔进行到“426 94264”这种情况,此时将其转换到相应的字符,并将每个键盘上的英文字母都与其它键盘上的英文字母进行排列组合,请参考图4的数字压缩小键盘。“426”会有“gan”、“gcn”、“hao”、、、等27种英文字母的组合形式,然后将这27种拼音组合分别与发音字符串列表进行匹配,匹配的过程同前述步骤803。“94264”也采用同样的方式转换为英文字母的多种组合形式然后进行匹配。最后匹配的结果请同时参考图5A、图5B及图5C,其中图5B的“a”、“b”、“c”,以及图5C的“d”、“e”分别代表的是数字键相应的字母组合中能够与发音字符串列表15中的发音字符匹配而生成的匹配列表15a、15b中的位置,例如“c”就是“hao”音的位置,这个发音字符能够完全匹配成功,其相应的匹配列表的位置会设置有匹配标志111;“d”就是“xiang”音的位置,这个发音字符能够完全匹配成功,其相应的匹配列表的位置会设置有匹配标志11111。
由于这个数字串通过分隔为2个部分,使用了2个匹配列表15a与15b,因此词长为2,在查找小词库的时候直接查找词长为2的小词库。查找词长为2 的小词库时,可以发现对于同样按键产生的字符分隔后的词组,具有不同的索引值,例如“感想”和“好像”都是由数字串“426 94264”相应的词组,但其索引值是不同的。请继续参考图6,“感想”和“好像”的索引值分别是“a d”和“c d”,而其分别相应的频率则是“F1”和“F4”。
当开始查找小词库的时候,同样首先是从第一个词组开始查找,当查找到“感想”一词时,利用其前面的索引值与前面产生的匹配列表去匹配,可以发现图5B的“a”位置的匹配标志为非0,图5C中“d”位置的匹配标志同样为非0,系统便可将这个词保存起来,然后继续查找后面的词组,图6中所示的全部词组的索引值都可以与图5B与图5C中的匹配列表15a、15b进行匹配,这些词组都被保存起来,用于后面候选词的输出。此时可以发现,只需查找一遍这个小词库,便可以将这种数字压缩小键盘中产生的多个字符串相应的词组都查找出来,非常有利于效率的提高。
当“426 94264”这种分隔查找完词组之后,接着要再回到步骤802对数字串进行其它的分隔,找出候选词并保存,最后完成所有的子数字串相应的候选词查找动作而输出候选词。
第三实施例:具有键盘的数字电子装置
本发明进一步提出第三实施例,是一种具有键盘的数字电子装置,此数字电子装置可以使用键盘输入字符串,其特征在于此数字电子装置是采用第一实施例的一种方块字的键盘输入方法。此数字电子装置可以是一般手机、智能型手机、电纸书、个人数字助理(PDA)、卫星定位导航仪、笔记型计算机、具有触摸屏的平板计算机、使用键盘的桌上型计算机等。
以上主要针对汉字的拼音输入法说明,然而本发明亦可应用其其它语种,对于日、韩等通过发音来确定其相应字词输入的方块字,同样可以采用本发明所提出的方块字的键盘输入方法,只需要更换其发音的列表和方块字相应的词库,算法的核心思想不需要改变,便可以实现所需方块字的输入。
以日文输入为例,首先其发音的列表是由166个假名组成的,其排列顺序是按照每个假名相应的unicode码的顺序。其词库也是分成了6部分,是按照音长的长度进行分组的,即包含假名的个数。
例如,用户输入的是含有4个假名的假名串“めでたい”,首先要将每一个假名与假名列表进行匹配,确定其匹配标志的位置,如图7A所示。
按照最长分隔优先,首先查找的是音长为4的小词库,请参考图7B,当搜索到“目出度い”一词时,根据其前面的索引值与前述的匹配标志列表去比对,发现“d c b a”的位置都匹配标志为1,则将这个词保存用于候选的输出。继续搜索到“烋”时,其索引值中的每个值在匹配标志列表中所相应的位置同样匹配标志为1,这个词也会保存。
然后搜索遍历音长依次减少的假名组合,会发现没有以“めでた”和“めで”发音的字词;当遍历到“め”,发现有以“め”发音的字,而且该发音相应多个字,将其全部保存,系统将会按照其频率的大小依次出现在候选里表中。
再以中文繁体的注音输入法为例,其发音的列表是由37个注音符号“ㄅ ㄆ ㄇ ㄈ ㄉ 、、、、”所组成,其排列顺序是按照每个注音符号相应的unicode码的顺序。每个音节最多使用3个注音符号,除了这些参数与汉字拼音输入法有差异,其余大致相同,因此本发明所提出的方块字的键盘输入方法也能够很容易地应用至中文繁体的注音输入法。
本发明所提出的一种方块字的键盘输入方法,具有极佳的跨语言适应性,可以在多种语言的方块字的输入法中应用,而且其核心所包含的查询列表和词库等占用的内存较小,使得系统的反应速度很快,综合性较强,而且模块化的设计利于维护、编修与更新。同时,对于已经熟悉某一种键盘输入的使用者,其够降低其语种变换时的学习障碍,不需要重新学习,便能够很快熟悉使用。
本发明的又一目的是提供一种具有键盘的数字电子装置,其使用方块字的键盘输入方法,因此可以让熟悉某一种键盘输入的使用者将学习障碍降到最低,就算语种变换,也不需要让使用者需要重新学习,降低使用的意愿。
以上仅为本发明较佳实施例,并非用以限定本发明申请的权利范围;同时以上描述对于本领域普通技术人员应可明了与实施,因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰,均应包含于权利要求书的范围中。
Claims (20)
1.一种方块字的键盘输入方法,其特征在于,包含步骤:
(1) 预置发音字符串列表与词库,所述词库包含有多个小词库,各小词库的词组具有设定的词长;
(2) 将输入的字符串分隔成p个音节的子字符串,p为大于0的正整数;
(3) 根据发音字符串列表,创建p个匹配列表,分别将各子字符串与预置的发音字符串列表按预定规则进行匹配,并根据匹配结果在相应的匹配列表中相应位置设置匹配标志,根据p个匹配列表中的匹配标志判断步骤(2)的分隔是否有效,若有效,则保存匹配信息,若无效,则回到步骤(2),对所述输入的字符串重新进行分隔;
(4) 在词库中选择词长为p的小词库,根据步骤(3)生成的匹配信息,在小词库中检索匹配的词组,列为候选词并保存;
(5) 重复步骤(2)至步骤(4),以遍历q种子字符串组合,q为大于0的正整数。
2.根据权利要求1所述的方块字的键盘输入方法,其特征在于,所述预置的发音字符串列表包含多个发音字符,且按照一定顺序排列,各发音字符为独立,并具有预设的位置。
3.根据权利要求2所述的方块字的键盘输入方法,其特征在于,所述的发音字符是按照英文字母的顺序依次排列,且对于每个英文字母,再以发音字符的长度由小到大依次排列。
4.根据权利要求1所述的方块字的键盘输入方法,其特征在于,所述小词库的数量为m,m为大于0的正整数;所述小词库包含有多个由发音字符串所构成的词组、发音字符串的索引值与词组的频率,且各个小词库内的词组的词长为相同,不同小词库内的词组的词长为不相同。
5.根据权利要求4所述的方块字的键盘输入方法,其特征在于,所述步骤(3)中,匹配列表长度与预置的发音字符串列表相匹配;所述预定规则为将子字符串的字符与预设发音字符串列表内的字符从前到后逐个进行匹配,且第二个字符及其以后的匹配是自匹配列表中前一个字符已经设置有匹配标志的位置开始匹配;所述匹配信息包括子字符串在匹配列表中相应的索引值与匹配标志。
6.根据权利要求5所述的方块字的键盘输入方法,其特征在于:所述步骤(4)根据所确定的小词库,依次遍历其中词组,取得相应词组的索引值,判断该索引值与匹配信息是否一致,若是,则将该词组保存为候选词,并继续查找直到所述小词库内所有匹配所述子字符串的词组都被查找出来而保存为候选词。
7.根据权利要求1所述的方块字的键盘输入方法,其特征在于,所述步骤(2)中,输入的字符串包含至少1个字符;输入的字符串是汉语拼音字母串或日文字母串或韩文字母串。
8.根据权利要求1所述的方块字的键盘输入方法,其特征在于,所述步骤(2)对输入的字符串进行分隔时,若输入的发音字符串的字符个数大于r,则前r个字符分隔为1个子发音字符串,后续字符个数若大于r,依然如此分隔,若小于r,则不再分隔,r为大于0的正整数;所述r最大值为6。
9.根据权利要求1所述的方块字的键盘输入方法,其特征在于,所述步骤(5)中,q为2n-1,其中n为所述输入的字符串的字符个数。
10.一种方块字的键盘输入方法,接受数字压缩小键盘点击而输出候选词,其特征在于,包含有下列步骤:
(1) 预置发音字符串列表与词库,所述词库包含有多个小词库,各小词库的词组具有设定的词长;
(2) 将输入的数字串分隔成p个音节的子数字串,p为大于0的正整数,并将子数字串转换成相应的子字符串;
(3) 根据发音字符串列表,创建p个匹配列表,分别将各子字符串与预置的发音字符串列表按预定规则进行匹配,并根据匹配结果在相应的匹配列表中相应位置设置匹配标志,根据p个匹配列表中的匹配标志判断步骤(2)的分隔是否有效,若有效,则保存匹配信息,若无效,则回到步骤(2),对所述输入的数字串重新进行分隔成子数字串、并转换成子字符串;
(4) 在词库中选择词长为p的小词库,根据步骤(3)生成的匹配信息,在小词库中检索匹配的词组,列为候选词并保存;
(5) 重复步骤(2)至步骤(4),以遍历q种子数字串组合,q为大于0的正整数。
11.根据权利要求10所述的方块字的键盘输入方法,其特征在于,所述预置的发音字符串列表包含多个发音字符,且按照一定顺序排列,各发音字符为独立、具有其预设的位置。
12.根据权利要求11所述的方块字的键盘输入方法,其特征在于,所述的发音字符是按照英文字母的顺序依次排列,且对于每个英文字母,再以发音字符的长度由小到大依次排列。
13.根据权利要求10所述的方块字的键盘输入方法,其特征在于,所述小词库的数量为m,m为大于0的正整数;所述小词库包含有多个由发音字符串所构成的词组、发音字符串的索引值与词组的频率,且各个小词库内的词组的词长为相同,不同小词库内的词组的词长为不相同。
14.根据权利要求10所述的方块字的键盘输入方法,其特征在于,所述步骤(2)对输入的数字串进行分隔时,若输入的数字串的数字个数大于r,则前r个数字分隔为子数字串的第一个音节,后续数字个数若大于r,依然如此分隔,若小于r,则不再分隔,r为大于0的正整数;所述r最大值为6。
15.根据权利要求14所述的方块字的键盘输入方法,其特征在于,所述步骤(2)中,将各子数字串转换成相应的子字符串时,先将子数字串中的各个数字转换到数字压缩小键盘上与其相应的字符,然后再将字符进行排列组合,而生成多个子字符串。
16.根据权利要求15所述的方块字的键盘输入方法,其特征在于,所述步骤(3)中,匹配列表长度与预置的发音字符串列表相匹配;所述预定规则为将子字符串的字符与预设发音字符串列表内的字符从前到后逐个进行匹配,且第二个字符及其以后的匹配是自匹配列表中前一个字符已经设置有匹配标志的位置开始匹配;所述匹配信息包括匹配列表与各子字符串在匹配列表中的索引值。
17.根据权利要求16所述的方块字的键盘输入方法,其特征在于:所述步骤(4)根据所确定的小词库,依次遍历其中词组,取得相应词组的索引值,判断该索引值与匹配信息是否一致,若是,则将该词组保存为候选词,并继续查找直到所述小词库内所有匹配所述子字符串的词组都被查找出来而保存为候选词。
18.根据权利要求10所述的方块字的键盘输入方法,其特征在于,所述步骤(2)中,输入的数字串包含至少1个数字;转换得到的子字符串是汉语拼音字母串或日文字母串或韩文字母串。
19.根据权利要求10所述的方块字的键盘输入方法,其特征在于,所述步骤(5)中,q为2n-1,其中n为所述输入的数字串的数字个数。
20.一种具有键盘的数字电子装置,选自于由一般手机、智能型手机、个人数字助理、电纸书、卫星定位导航仪、笔记型计算机、具有触摸屏的平板计算机或使用键盘的桌上型计算机,其特征在于:所述数字电子装置具有权利要求1至19其中任一项所述的方块字的键盘输入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105658480A CN102478971A (zh) | 2010-11-30 | 2010-11-30 | 一种方块字的键盘输入方法及具有键盘的数字电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105658480A CN102478971A (zh) | 2010-11-30 | 2010-11-30 | 一种方块字的键盘输入方法及具有键盘的数字电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102478971A true CN102478971A (zh) | 2012-05-30 |
Family
ID=46091640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105658480A Pending CN102478971A (zh) | 2010-11-30 | 2010-11-30 | 一种方块字的键盘输入方法及具有键盘的数字电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102478971A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598117A (zh) * | 2015-03-04 | 2015-05-06 | 广东欧珀移动通信有限公司 | 一种文字编辑方法、装置及移动终端 |
CN108877833A (zh) * | 2018-05-31 | 2018-11-23 | 深圳市泰辰达信息技术有限公司 | 一种基于嵌入式微处理单位非特定对象语音识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6587819B1 (en) * | 1999-04-15 | 2003-07-01 | Matsushita Electric Industrial Co., Ltd. | Chinese character conversion apparatus using syntax information |
CN1834865B (zh) * | 2005-03-18 | 2010-04-28 | 马贤亮 | 一种小键盘上数字编码的汉语拼音和注音多字连续输入法 |
-
2010
- 2010-11-30 CN CN2010105658480A patent/CN102478971A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6587819B1 (en) * | 1999-04-15 | 2003-07-01 | Matsushita Electric Industrial Co., Ltd. | Chinese character conversion apparatus using syntax information |
CN1200376C (zh) * | 1999-04-15 | 2005-05-04 | 松下电器产业株式会社 | 使用语法信息的汉字转换装置 |
CN1834865B (zh) * | 2005-03-18 | 2010-04-28 | 马贤亮 | 一种小键盘上数字编码的汉语拼音和注音多字连续输入法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598117A (zh) * | 2015-03-04 | 2015-05-06 | 广东欧珀移动通信有限公司 | 一种文字编辑方法、装置及移动终端 |
CN104598117B (zh) * | 2015-03-04 | 2017-10-27 | 广东欧珀移动通信有限公司 | 一种文字编辑方法、装置及移动终端 |
CN108877833A (zh) * | 2018-05-31 | 2018-11-23 | 深圳市泰辰达信息技术有限公司 | 一种基于嵌入式微处理单位非特定对象语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2515726B2 (ja) | 情報検索方法及び装置 | |
CN100594470C (zh) | 用于对用户输入的多义性输入序列进行多义性消除的系统和方法 | |
CN100549915C (zh) | 去多义性语音输入系统和方法 | |
CN1989547A (zh) | 在语音识别和文本-语音引擎中处理缩写词和数字 | |
CN101556508A (zh) | 一种输入法中候选词的生成方法、装置、系统及设备 | |
JP2006216044A (ja) | 辞書学習方法、その利用する装置、及び入力方法とその方法を利用するユーザ端末装置 | |
JP2013117978A (ja) | タイピング効率向上のためのタイピング候補の生成方法 | |
CN101950285A (zh) | 利用统计学方法对汉字的本国语读音串转换系统及其方法 | |
JP2009116900A (ja) | 曖昧なテキスト入力の明確な文字フィルタリング | |
CN102200839A (zh) | 一种汉字输入过程中的汉语拼音串处理方法及其系统 | |
CA2496872C (en) | Phonetic and stroke input methods of chinese characters and phrases | |
CN100403239C (zh) | 基于英文键盘的藏文输入法 | |
CN101667099A (zh) | 一种连笔键盘文字输入的方法和设备 | |
CN102478971A (zh) | 一种方块字的键盘输入方法及具有键盘的数字电子装置 | |
Lehal | Design and implementation of Punjabi spell checker | |
CN102063196A (zh) | 一种罗马字拼写的手机日文智能输入法 | |
CN103984420B (zh) | 一种基于拼音的藏文智能输入法 | |
CN111813235A (zh) | 一种拼音输入法 | |
CN101788852A (zh) | 一种基于简拼的藏文词组输入法 | |
CN100399245C (zh) | 中文拼音声调笔划组合输入法 | |
JP2004206659A (ja) | 読み情報決定方法及び装置及びプログラム | |
WO1996011442A1 (fr) | Procede de traitement de donnees de caracteres, et appareil associe | |
CN104641367A (zh) | 用于格式化电子字符序列的格式化模块、系统和方法 | |
JPS60189069A (ja) | かな漢字変換装置 | |
CN101086689B (zh) | 利于“学用”汉字的智能汉语输入系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120530 |