发明内容
为了克服现有技术中没有提供对基于用户输入习惯对输入法候选项进行排序的技术方案的技术问题,本发明的目的是提供一种在输入法编辑器中调整输入法候选项排序的控制方法以及相应的控制装置。
根据本发明的一个方面,提供一种在输入法编辑器中调整输入法候选项排序的控制方法,所述候选项被显示在输入界面上以待用户选择,其特征在于,包括如下步骤:
a.基于用户输入信息在语料库中确定与所述用户输入信息对应的N个候选编码,其中N≥1;
b.通过如下公式计算每个所述候选编码的总频率F:
其中,x为所述候选编码被输入的次数,y为语料库中所述候选编码的频率,k为所述候选编码在单位时间内的输入次数;
c.基于所述总频率F确定所述N个候选编码的排列顺序,从而生成与所述用户输入信息对应的候选项列表。
优选地,所述k为0。
优选地,所述y通过如下公式计算:
y=y1+H
其中,y1为基础频率,H为单位时间下的修正参数。
优选地,所述y1通过如下步骤获得:
-分析所述词在第一阈值时间内在一个或多个历史语料库中出现的频率,并将所述频率作为所述y1。
优选地,所述H通过如下公式计算获得:
H=h*f(c1,y1)
其中,h为基准参数,f函数通过如下公式计算:
其中,所述c1通过如下步骤获得:
-分析所述词在第二阈值时间内在一个或多个历史语料库中出现的频率,并将所述频率作为所述c1。
优选地,所述历史语料库包括如下中的任一种:
-词库;
-句库;
-互联网上的全部文章组成的集合。
优选地,所述语料库被预置在输入法软件客户端内。
优选地,所述语料库预置在输入法软件客户端所在的计算机系统内,其中,所述语料库以单独文件形式存储在所述输入法编辑器客户端根目录中。
优选地,所述语料库包括核心词库以及核心字库,其中,所述核心词库包括词编码和所述词编码对应的频率,所述核心字库包括字编码和所述字编码对应的频率。
优选地,所述步骤a包括如下步骤:
a1.若所述用户输入信息为多个字编码组成的词编码,则在所述核心词库中查找对应的N个候选词编码;否则,
a2.若所述用户输入信息为单个字编码,则在所述核心字库中查找对应的N个候选字编码。
优选地,所述步骤a1还包括如下步骤:
a11.若所述用户输入信息在所述核心词库中未查找到对应候选项,则根据用户选择在核心字库中逐字确定新编码。
优选地,所述语料库还包括候选编码列表,其用于保存同一拼音下用户最近M次确定输入的候选编码信息,其中,M≥1。
优选地,在所述步骤c后还包括如下步骤:
-基于用户本次确定输入的候选编码信息更新所述候选编码列表。
优选地,所述候选编码信息包括所述候选编码的编码信息、频率信息或用户确定输入的时间信息中的任一种或任多种。
根据本发明的另一个方面,还提供一种在输入法编辑器中调整输入法候选项排序的控制装置,优选地,所述候选项被显示在输入界面上以待用户选择,包括:
第一确定装置,其用于基于用户输入信息在语料库中确定与所述用户输入信息对应的N个候选编码,其中N≥1;
第一处理装置,其用于通过如下公式计算每个所述候选编码的总频率F:
其中,x为所述候选编码被输入的次数,y为语料库中所述候选编码的频率,k为所述候选编码在单位时间内的输入次数;
第一生成装置,基于所述总频率F确定所述N个候选编码的排列顺序,从而生成与所述用户输入信息对应的候选项列表。
优选地,所述k为0。
优选地,所述y通过如下公式计算:
y=y1+H
其中,y1为基础频率,H为单位时间下的修正参数。
优选地,所述y1通过如下装置获得:
第一分析装置,其用于分析所述词在第一阈值时间内在一个或多个历史语料库中出现的频率,并将所述频率作为所述y1。
优选地,所述H通过如下公式计算获得:
H=h*f(c1,y1)
其中,h为基准参数,f函数通过如下公式计算:
其中,所述c1通过如下装置获得:
第二分析装置,其用于分析所述词在第二阈值时间内在一个或多个历史语料库中出现的频率,并将所述频率作为所述c1。
优选地,所述语料库被预置在输入法软件客户端内。
优选地,所述语料库预置在输入法软件客户端所在的计算机系统内,其中,所述语料库以单独文件形式存储在所述输入法编辑器客户端根目录中。
优选地,所述语料库包括核心词库以及核心字库,其中,所述核心词库包括词编码和所述词编码对应的频率,所述核心字库包括字编码和所述字编码对应的频率。
优选地,所述第一确定装置包括:
第一查找装置,其用于在所述用户输入信息为多个字编码组成的词编码时在所述核心词库中查找对应的N个候选词编码;或者,第二查找装置,其用于在所述用户输入信息为单个字编码时在所述核心字库中查找对应的N个候选字编码。
优选地,所述第一查找装置包括:
第二确定装置,其用于若所述用户输入信息在所述核心词库中未查找到对应候选项,则根据用户选择在核心字库中逐字确定新编码。
优选地,所述语料库还包括候选编码列表,其用于保存同一拼音下用户最近M次确定输入的候选编码信息,其中,M≥1。
优选地,所述第一生成装置还包括:
第二处理装置,其用于基于用户本次确定输入的候选编码信息更新所述候选编码列表。
优选地,所述候选编码信息包括所述候选编码的编码信息、频率信息或用户确定输入的时间信息中的任一种或任多种。
通过本发明提供的技术内容,可以有效地解决用户无法在所述输入法候选项前几位找到最常输入或最近突然高频输入字词的技术问题,从而给终端用户带来了非常良好的用户体验,并提高了工作效率。
具体实施方式
为了更好的使本发明的技术方案清晰的表示出来,下面结合附图对本发明作进一步说明。
本领域技术人员理解,本发明的技术方案在于提供一种可以调整输入法候选项排序的解决方案。解决了目前现有的输入法编辑器中,无法根据用户使用习惯智能调整候选项排序的技术问题,大大优化了用户体验,提高了终端用户的办公效率。
图1示出根据本发明的第一具体实施例的,在输入法编辑器中调整输入法候选项排序的控制方法的流程图,所述候选项被显示在输入界面上以待用户选择。具体地,在本实施例中,首先执行步骤S101,基于用户输入信息在核心词库中查找对应的N个候选词编码,其中N≥1。更为具体地,所述输入信息包括用户使用输入设备向所述输入法编辑器发送的指令信息。更进一步地,所述输入设备包括计算机普通键盘、手机键盘、IPAD等触摸式虚拟键盘。更进一步地,所述指令信息包括与所述输入信息对应的输入码。优选地,所述输入码基于汉语拼音表示。优选地,所述汉语拼音包括全拼和简拼。优选地,所述汉语拼音还包括全拼简拼混合输入。在一个优选例中,用户基于汉语拼音通过所述计算机普通键盘输入一串字符,则所述计算机处理系统接收到所述输入信息后,将所述输入信息中的输入码发送给所述输入法编辑器,例如,用户输入拼音“BAO”,则所述输入码即为“BAO”。
优选地,所述核心词库通过预先分析大量网页语料获得。优选地,所述输入法编辑器通过分析互联网历史语料获得词与词、字与字之间的关系,并基于自然语言习惯获取大量词组或者短语,然后计算所述词组或短语在互联网历史中出现的频率。在一个优选例中,所述输入法编辑器首先计算互联网上所有出现过的词的出现频率获取其中出现频率最高的T个词,然后再基于当前互联网用户使用情况调整所述T个词的频率,最终构成所述核心词库。优选地,所述频率按如下公式调整:
y=y1+H
其中,y1为基础频率,H为单位时间下的修正参数。
优选地,所述y1通过分析所述词在第一阈值时间内在一个或多个历史语料库中出现的频率获得,例如,所述输入法编辑器基于搜索引擎获取“你好”一词在过去10年内共出现过500万次,则所述y1=500000次/年。
优选地,所述H用于对所述y1进行修正从而使所述频率y更准确,本领域技术人员理解,所述y1是对所述词在互联网很长一段时间跨度内出现频率的计算结果,无法灵活体现当前时段互联网热门词语的频率变化,例如,“囧”一词为2年前刚出现的一个新词,则按照所述y1的计算公式,所述词“囧”的基础频率y1可能非常低,但作为最近两年的热门词语,用户输入该词的实际频率是很高的。本领域技术人员理解,互联网出现的词语一部分基于用户语言习惯长久以来被频繁使用,例如“你好”等日常用语,其频率以年为单位变化不大;另一部分则为某一特别时间段内突然频繁地被用户使用,例如“马航”这一词语在2014年以前的出现频率基本为几十万次/年,而在2014年3月8日以后出现频率猛增,仅网页浏览一项每天的出现频率就达百万级,则此时所述y1对于所述词语“马航”的频率描述就出现了偏差,不利于所述输入法编辑器对所述词语“马航”进行正确排序,则所述输入法编辑器引入所述H来对所述频率y1进行修正。优选地,所述H基于如下相关度公式计算:
H=h*f(c1,y1)
其中,h为基准参数,c1通过分析所述词在第二阈值时间内在一个或多个历史语料库中出现的频率获得。
优选地,所述f函数标示基于数学模型架构下的,所述词最近一段时间在互联网上的出现频率与所述词对应的基础频率的相关度,该相关度取值范围在[-1,1]区间内。在一个优选例中,所述f函数基于如下公式计算:
优选地,所述基准参数h为100000,所述第一阈值时间为10年,所述第二阈值时间为30天。
例如,f(50,5)=0.9,对应H=90000,其用于标示一词语,其基于所述搜索引擎检索获得最近30天内的出现频率为50次/天,过去10年内出现频率为5次/天,则可以认为所述词语为当前时段的热门词语,基于所述H数值对所述频率y进行增加式修正以使所述频率y更贴近当前时段所述词语的出现频率。
又例如,f(4,40)=-0.9,对应H=-90000,其用于标示一词语,其基于所述搜索引擎检索获得最近30天内的出现频率为4次/天,过去10年内出现频率为40次/天,则可以认为所述词语为当前时段的生僻词语,基于所述H数值对所述频率y进行减少式修正以使所述频率y更贴近当前时段所述词语的出现频率。
优选地,所述历史语料库包括词库、句库、互联网上全部文章组成的集合中的任一种或任多种。
本领域技术人员理解,若基于互联网语料分析获取的所述词语为当前时段的热门词语对应当前频率c1,而所述词语的历史出现频率y1偏低,则确认所述c1与所述y1正相关,基于上述f函数计算得到的所述修正参数H值为正,其用于增加所述词语的频率y;若基于互联网语料分析获取的所述词语为当前时段的生僻词语对应当前频率c1,而所述词语的历史出现频率y1偏高,则确认所述c1与所述y1负相关,基于上述f函数计算得到的所述修正参数H值为负,其用于减少所述词语的频率y,从而达到对所述频率y随当前互联网用户语言习惯而修正的目的,这是现有技术中不采用的技术方案,能够使所述输入法编辑器的所述核心词库中收录词语的排序更准确,尤其使一些最近突然频繁输入的词能够被优选地收录到所述核心词库中。
优选地,所述搜索引擎包括人工搜索和软件抓取。本领域技术人员理解,所述数值h、A和B的取值可以根据实际需要变化出更多实施例,这并不影响本发明的技术内容。
优选地,所述T为99999个。在一个优选例中,所述核心词库中所有词基于汉语拼音字母排列,其中,首先按每个词第一位字的汉语拼音字母排列,首位字相同再按各个词第二位字的汉语拼音字母排列,依次类推,对于同音词则按照每个词对应的频率由高到低排列。本领域技术人员理解,所述词组或短语基于用户语言习惯能够代表特定含义,通过多个字组成一相互有关联关系的词组或者短语,例如,“母女”一般用于描述亲子关系具有特定含义,可以作为所述词收录到所述核心词库中。优选地,所述词还可以基于用户输入习惯在单位时间内连续输入的多个字组成。本领域技术人员理解,所述T的数值可以根据实际需要变化出更多实施例,在此不予赘述。
优选地,所述核心词库包括词编码和所述词编码对应的频率。优选地,所述词编码由多个字编码组成。优选地,所述字编码基于国标码字符集(“中华人民共和国国家标准信息交换汉字编码”,标准代号GB2312-80)的规则表示,其将所有国标汉字及符号分配在一个94行、94列的方阵中,所述方阵的每一行称为一个“区”,每一列称为一个“位”,所述方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四位阿拉伯数字为所述汉字或符号对应的“区位码”,其用于唯一确定一个汉字或符号,例如,汉字“母”字的区位码是3624,表明它在方阵的36区24位,问号“?”的区位码为0331,则它在03区31位。在一个优选例中,所述区位码以0-9共十个阿拉伯数字表示,每个汉字或符号的码长均为等长的四个数码组成,一个四位编码代表一个字编码,例如,“母女”对应区位码36243714,由“母”的区位码3624和“女”的区位码3714两个字编码组成。优选地,所述词编码对应的频率基于上述基于数学模型下的公式计算而得,所述输入法编辑器通过计算互联网历史中出现的大量词组或短语获得其对应的出现频率,并将所述词组或短语中出现频率最高的T个词的词编码以及每个词编码对应的频率存储到所述核心词库中。优选地,所述核心词库存储在所述输入法编辑器语料库中。优选地,所述语料库预置在所述输入法编辑器客户端所在的计算机系统内,以单独文件形式存储在所述输入法编辑器客户端根目录中,当所述输入法编辑器处于使用状态时自动加载所述语料库到所述输入法编辑器内存中。本领域技术人员理解,与现有技术基于用户输入信息实时分析网页语料获得候选字词的技术方案,本实施例将所述核心词库预置在所述输入法编辑器客户端内的方法是现有技术中并不采用的技术方案,而该实施例的实施极大地提高了用户操作的便捷性,允许用户在断网或网络信号差的情况下同样流畅地完成字符输入,给予用户更好的操作感受。
优选地,所述客户端安装在计算机、手机或者IPAD等移动终端上,本领域技术人员可以根据实际需要变化出更多实施例,在此不予赘述。本领域技术人员理解,所述核心词库的数量T可以根据实际需要由本领域技术人员变化出更多实施例,在此不予赘述。
在一个优选例中,所述输入法编辑器基于汉语拼音接收所述用户输入信息,并基于汉语拼音规则对所述用户输入信息包括的输入码进行判断,若所述输入码为多个字拼音组成的词拼音,则在所述核心词库中查找对应的候选词编码。本领域技术人员理解,汉字中包括许多同音字,所述输入法编辑器接收到所述输入信息包括的基于汉语拼音的输入码后,可能在所述核心词库中搜索到N个符合条件的区位码,其中N≥1,例如,用户通过计算机键盘输入“wenhua”,则所述输入法编辑器基于所述输入码“wenhua”在所述核心词库中查找到的对应区位码可能是46362715,对应词组“文化”,还可能对应区位码46422716,对应词组“问话”,则所述46362715和所述46422716即为与所述输入信息对应的候选词编码。优选地,所述输入法编辑器将所述N个候选词编码对应的编码信息存储在所述输入法编辑器内存中,其中,所述编码信息包括所述N个候选词编码和所述N个候选词编码分别对应的频率。
在另一个优选例中,所述词编码还可以基于电报码、双音编码、五笔字型等多种形式,所述核心词库还可以保存在后台线程或云存储装置等存储装置中。在又一个优选例中,所述输入设备包括但不限于:手写输入装置,其借由计算机认字功能通过识别用户的手写字体来辨别文字或其他符号从而实现文字输入;语音输入装置,其通过话筒和语音识别软件来辨别输入文字;OCR扫描阅读器,其采用内置系统对图形进行识别来输入文字或符号;速录机,其一般采用专用速录键盘和设备,通过采用并击手术实现每按一次就出来整一个单词的输入方式,本领域技术人员可以根据实际需要变化出更多实施例,在此不予赘述。
在一个非优选例中,所述输入法编辑器还可以基于汉字笔画接收所述用户输入信息,则所述输入码为汉字笔画顺序,所述核心词库中所有词基于所述汉字笔画顺序排列,用户通过手写输入装置向所述输入法编辑器发送输入信息,所述输入法编辑器根据用户手写输入的笔画顺序在所述核心词库中查找对应的N个候选词编码。本领域技术人员理解,所述核心词库中所有词的排列顺序基于所述输入法编辑器接收到的用户输入信息而变化,本领域技术人员可以根据实际需要变化出更多实施例,在此不予赘述,例如,用户还可以将汉字笔画数作为输入信息发送给所述输入法编辑器,则所述输入法编辑器接收到所述笔画数后,在基于汉字笔画数排列的所述核心词库中查找对应的N个候选词编码。
然后进入步骤S102执行,判断所述用户输入信息在所述核心词库中是否有对应候选词编码。具体地,所述核心词库保存在所述输入法编辑器客户端。更为具体地,所述核心词库中所有词基于汉语拼音字母顺序排列。更进一步地,所述输入法编辑器基于所述用户输入信息对应的输入码在所述核心词库中查找所述对应候选编码。优选地,所述输入码基于汉语拼音表示。在一个优选例中,首先判断所述用户输入信息在所述核心词库中是否有对应候选词编码,若所述用户输入信息在所述核心词库中有对应候选词编码,则所述步骤S102的判断结果是肯定的;否则,则所述步骤S102的判断结果是否定的。进一步地,若所述步骤S102的判断结果是肯定的,则进入步骤S103执行;若所述步骤S102的判断结果是否定的,即所述用户输入信息在所述核心词库中没有对应候选词编码,则接下来进入步骤S106执行。
具体地,在所述步骤S103中,计算每个所述候选词编码的总频率F。更为具体地,所述总频率F用于表示所述候选词编码基于用户语言习惯在单位时间内出现的次数。更进一步地,所述输入法编辑器基于如下公式计算所述总频率F:
其中,x为所述候选词编码被输入的次数,y为语料库中所述候选词编码的频率,k为所述候选词编码在单位时间内的输入次数;
优选地,所述次数x表示所述候选词编码本次被用户作为候选项之前在所述输入法编辑器客户端上被确定输入的次数。优选地,所述候选词编码和所述候选词编码对应的所述次数x以列表形式存储在所述输入法编辑器内存中,所述输入法编辑器基于所述候选词编码在所述列表中查找对应的所述次数x。优选地,所述列表中所述候选词编码对应的所述次数x基于用户每次确定输入的结果而变化,例如,用户基于所述N个候选词编码确定其中某一候选词编码为需要输入的候选词编码,则所述输入法编辑器即基于所述被确定输入的候选词编码的词编码在所述列表中查找对应的数据行,将所述被确定输入的候选词编码对应的次数x数值加1,更新所述列表。优选地,所述列表还可以保存在所述输入法编辑器后台线程或云存储装置等存储装置中,本领域技术人员可以根据实际需要变化出更多实施例,在此不予赘述。
在另一个优选例中,所述x表示用户本次输入之前所述候选词编码在互联网中被确定输入的次数,所述输入法编辑器基于所述搜索引擎在互联网语料中实时统计所述候选词编码出现的次数,并将所述统计结果作为所述x数值带入所述总频率F公式进行计算。
优选地,所述频率y为所述核心词库中所述候选词编码对应的频率,其基于上述步骤S101中的频率计算公式y=y1+H计算得到。
优选地,所述输入法编辑器基于所述候选编码在候选编码列表中确定对应的所述确定输入次数k。优选地,所述候选编码列表存储在所述输入法编辑器语料库中。优选地,所述候选编码列表用于存储同一拼音下用户最近M次确定输入的候选编码信息,其中M≥1。优选地,所述候选编码信息包括每个所述确定输入的候选编码对应的拼音信息、所述候选词编码和对应的时间戳。优选地,所述时间戳包括用户上屏确定输入所述候选编码的时间,其用于表示从北京时间1970年01月01日08时00分00秒起至所述候选编码上屏被确定输入时的总秒数,例如,用户在2015年2月7日16时33分05秒确定输入一词语“知道”,则所述候选编码列表基于字段“zhidao541021321422433984”存储所述“知道”对应的候选编码信息。优选地,所述M个确定输入的候选编码信息可重复,例如,对于一拼音“nihao”,用户最近5次确定输入中2次确定输入“拟好”,3次确定输入“你好”,则所述候选编码列表中所述拼音“nihao”按照“你好”“你好”“拟好”“你好”“拟好”的顺序依次记录各个候选项对应的候选编码信息。优选地,所述同一拼音下M个候选编码信息按照所述时间戳由大到小排列。在一个优选例中,M=5,则所述候选编码列表优选地记录同一拼音下用户最近5次确定输入的候选编码信息,所述输入法编辑器本次获取N个候选词编码后,基于每个所述候选词编码在所述候选编码列表中查找对应的候选编码信息,若所述候选词编码在所述候选编码列表中有对应记录,则记录所述候选词编码对应的字段个数并基于所述重复次数确定所述确定输入次数k,例如,所述候选编码列表中同一拼音下对应所述候选词编码54102132的字段有3个,则确定所述候选词编码54102132对应的所述k数值为3;又例如,若所述N个候选词编码中某个候选词编码在所述候选编码列表中无对应字段,则所述k=0。优选地,所述M的具体数值还可以根据实际需要进行调整,这并不影响本发明的技术方案。
在一个优选例中,所述输入法编辑器基于用户输入信息确定需要进行计算的N个候选词编码,然后基于所述总频率F公式计算每个所述候选词编码对应的所述F数值,并将每个所述候选词编码和所述候选词编码对应的所述总频率F数值存储在所述输入法编辑器内存中。优选地,所述总频率F的计算结果还可以存储在云存储装置或后台线程中,本领域技术人员可以根据实际需要变化出更多实施例,在此不予赘述。
接下来执行所述步骤S104,基于所述总频率F确定所述N个候选词编码的排列顺序,从而生成与所述用户输入信息对应的候选项列表。具体地,所述候选项列表包括所述候选词编码对应的点阵码。更为具体地,所述点阵码存储在所述核心词库中。优选地,所述点阵码用于汉字符号在计算机等外部设备上的显示和输出。在一个优选例中,由于汉字数量多且字形变化大,所述点阵码用于表示汉字符号点阵字形的代码,不同的点阵字形代表不同字形汉字符号的输出,所述点阵码包括16x16点阵码、24x24点阵码、32x32点阵码等。优选地,所述点阵码基于二进制位0和1的分布构成字模信息。优选地,所述输入法编辑器预先设定所述二进制位0为白点,所述二进制位1为黑点,例如,在所述16x16点阵码中,所述点阵共16行,每一行上有16个点,每一个点用一个二进制位表示,则所述每一行有16个二进制位,所述16x16点阵码通过256个二进制位0和1的有序排列体现一个汉字或符号,并基于所述0代表白点、1代表黑点的定义最终显示和输出所述汉字或符号。在一个优选例中,所述输入法编辑器基于所述总频率F对所述N个候选词编码由大到小进行排序,例如,用户基于拼音输入“wenhua”,则所述核心词库中对应的候选词编码有46362715和46422716两个,所述输入法编辑器对两个所述候选词编码分别进行计算,得到计算结果所述46362715的总频率F为20,所述46422716的总频率F为15,则所述输入法编辑器基于所述计算结果对所述两个候选词编码按照第一位46362715,第二位46422716的顺序进行排列,并基于所述排列结果分别获取每一位候选词编码对应的点阵码,则所述第一位46362715对应的点阵码为“文化”,所述第二位46422716对应的点阵码为“问话”,则所述候选项列表按照“1、文化,2、问话”的顺序排列。优选地,所述候选项列表基于所述N个候选词编码的排列顺序和每个候选词编码对应的点阵码横向依次显示在所述输入法编辑器显示窗口上。优选地,所述候选项列表还可以纵向排列显示在所述输入法编辑器显示窗口上。优选地,所述候选项列表分页显示在所述输入法编辑器显示窗口上,其中每页显示A个候选项,若当前显示的A个候选项中没有用户希望输入的词,则根据用户指令显示所述当前显示A个候选项的后A个候选项。优选地,若排序在所述当前显示A个候选项之后的候选项数量小于A,则将排序在所述当前显示A个候选项之后的所有候选项显示在所述输入法编辑器显示窗口上,所述显示窗口上多余的位置为空。优选地,所述用户指令包括计算机普通键盘指令、手机/IPAD等虚拟键盘指令、语音指令等多种形式,本领域技术人员可以根据实际需要变化出更多实施例,在此不予赘述。优选地,所述每页显示的候选项数量A可以基于用户自定义,例如每页显示5个候选项,本领域技术人员也可根据实际需要变化出更多实施例,在此不予赘述。本领域技术人员理解,所述点阵码中二进制位0还可以代表黑点,相应地所述二进制位1代表白点,这并不影响本发明的技术内容。
本领域技术人员理解,现有的输入法编辑器在对所述N个候选词编码进行排序时,所述N个候选词编码都是相对固定的按照一定频率值排序,无法灵活适应用户使用习惯快速变换所述N个候选词编码中某些候选词编码的排列顺序,若用户最近突然高频输入一生僻词语,则现有的输入法编辑器无法将所述词语相对快递的排到所述候选项列表的前几位去,与现有技术相比,本发明所述输入法编辑器的区别在于,基于所述总频率F公式对所述N个候选词编码进行总频率F计算,基于所述x,所述y和所述k的共同作用使得用户最常输入的词语能相对固定地排列在所述候选项列表前几位,同时用户最近突然高频输入的词语能够相对快速地排到前面,更进一步地,本发明所述技术方案还使得用户上屏确定输入过的生僻词不至于太快地排列到所述候选项列表的前几位,有一个循序渐进的过程。
然后进入所述步骤S105执行,基于用户本次确定输入的候选编码信息更新候选编码列表。具体地,所述候选编码信息包括所述候选词编码对应的拼音信息、所述候选词编码对应的点阵码以及本次确定输入的时间戳,例如,上述步骤S103中所述候选编码信息“zhidao541021321422433984”还可以表示为“zhidao知道1422433984”。更为具体地,所述核心词库还包括所述点阵码,所述候选编码列表基于所述候选词编码在所述核心词库中查找对应的点阵码。优选地,所述候选编码列表长度为U行,基于用户每次确定输入的候选编码信息实时更新,若所述候选编码列表长度超过U行,则删除所述时间戳最小的候选编码信息。在一个优选例中,所述U=9000行,所述候选编码信息中的拼音基于全拼形式保存,若所述用户输入信息是简拼或错拼,则基于用户本次确定输入的候选词编码对应的拼音信息更新所述候选编码列表。本领域技术人员理解,所述候选编码列表的长度可以根据实际需要变化出更多实施例,在此不予赘述。
具体地,在所述步骤S106中,根据用户选择在核心字库中逐字确定新编码。更为具体地,所述核心字库包括字编码和所述字编码对应的频率。更进一步地,所述字编码基于所述区位码表示。优选地,所述核心字库包括辞海、新华字典等规范类辞典中记录的汉字。优选地,所述核心字库还包括互联网语料中出现过的或新创造的汉字。优选地,所述字编码对应的频率基于上述步骤S103中所述公式y计算获得。在一个优选例中,所述输入法编辑器基于上述步骤S102的判断结果确定所述核心词库中没有与所述用户输入信息对应的候选词编码,则所述输入法编辑器将所述用户输入信息分解成单个字输入信息,基于所述核心字库确定与所述用户输入信息对应的新编码。优选地,所述输入法编辑器基于拼音对所述用户输入信息进行拆分,例如,所述用户输入信息“dahai”在所述核心词库中没有所述对应候选词编码,则所述输入法编辑器将所述用户输入信息拆解成“da”和“hai”并基于所述拆解结果首先在所述核心字库中查找所述拼音“da”对应的N个候选字编码,同样通过所述总频率F公式计算每个所述候选字编码的排列顺序并基于所述计算结果生成对应的候选项列表提示用户,当用户确定所述拼音“da”对应的汉字后记录所述用户确定输入的汉字对应的字编码,同时将所述拼音“hai”的候选项列表提示用户,当用户确定所述拼音“hai”对应的汉字后记录所述用户确定输入的汉字对应的字编码,从而将所述用户确定输入的“da”和“hai”的词编码组合成所述新编码。优选地,所述用户选择过程中分别记录的所述字编码存储在所述输入法编辑器的内存中。在另一个优选例中,所述输入法编辑器还可以基于汉字笔画数或语音等方式对所述用户输入信息进行拆解,这并不影响本发明的技术内容。
然后执行所述步骤S107,将所述新编码对应的新词显示到所述候选项列表第一位。具体地,所述新编码与所述新词基于所述点阵码相对应。更为具体地,所述候选项列表包括基于用户选择确定的所述新编码以及基于用户输入信息的模糊音在所述核心词库中查找到的对应N个候选词编码对应的候选词。更进一步地,所述基于用户输入信息的模糊音包括平舌和翘舌、前鼻音和后鼻音之间的模糊设置。优选地,当所述输入法编辑器在所述核心词库中没有查找到与所述用户输入信息对应的候选词编码时,则基于汉语拼音规则对所述用户输入信息进行分析,不区分所述用户输入信息中的平舌、翘舌问题,扩大在所述核心词库中的查找范围。优选地,用户还可以通过模糊音设置确定希望所述输入法编辑器忽略的汉语拼音规则。在一个优选例中,当所述输入法编辑器无法在所述核心词库中查找到与所述用户输入信息相对应的候选词编码时,所述输入法编辑器分两个步骤生成所述候选项列表,首先执行上述步骤S106基于用户选择确定所述新编码,然后基于所述模糊用户输入信息的方式扩大在所述核心词库中的查找范围从而获得与所述用户输入信息相关联的N个候选词编码并通过所述总频率F公式对所述N个候选词编码进行排序,最终与所述第一步获得的所述新编码一起生成所述候选项列表显示给用户。优选地,所述新编码显示在所述候选项列表第一位。本领域技术人员理解,所述新编码是基于用户选择确定的,其最能代表用户希望输入的词语,因而所述新编码无需通过所述总频率F的计算即优选地排列在所述候选项列表第一位。
最后执行所述步骤S108,将所述新编码对应的编码信息保存至所述候选编码列表的相应位置。具体地,所述编码信息包括所述新编码对应的区位码、所述新编码对应的点阵码以及用户本次确定输入的时间戳。更为具体地,所述候选编码列表存储在所述语料库中。优选地,若所述候选编码列表的长度已达到U行,则将所述候选编码列表中所述时间戳数值最小的候选编码信息替换为所述新编码对应的编码信息。优选地,所述输入法编辑器还将所述新编码对应的所述次数x存储在上述步骤S103所述次数x的对应列表中。优选地,将所述新编码对应的频率y存储在所述候选编码列表中,并将所述y赋值为W。在一个优选例中,由于所述新编码在本次用户确定输入前并不存在于所述核心词库或没有在所述输入法编辑器客户端所在的计算机操作系统内出现过,则所述新编码对应的所述x初始数值为1。在另一优选例中,所述次数x表示用户本次输入之前所述新编码在互联网中被确定输入的次数,虽然所述新编码在本次用户确定输入前并不存在于所述核心词库或没有在所述输入法编辑器客户端所在的计算机操作系统内出现过,但不排除其在整个互联网语言环境中出现过的可能性,只不过由于所述新编码在所述互联网语料中出现频率y低于所述核心词库中T个词编码的出现频率而未被录入所述核心词库,因此所述输入法编辑器基于所述搜索引擎在互联网语料中实时统计所述新编码的出现次数,包括本次被用户确定输入的次数,将所述统计结果作为所述x数值存储至所述次数x对应的列表。在一个优选例中,所述W为100000,本领域技术人员理解,所述新编码初始未被所述输入法编辑器收录到所述预置语料库中,则所述新编码经用户第一次确定输入后被添加到所述候选编码列表后,所述输入法编辑器需要对所述新编码对应的所述频率y进行赋值,否则当用户第二次输入所述新编码对应的拼音时,所述输入法编辑器会由于无法在所述语料库中查找到所述新编码对应的所述频率y而导致所述计算公式F的计算结果发生偏差。
在本实施例的一个变化例中,所述步骤S107可以被省略。例如,用户在所述核心字库中逐字确定所述新编码过程中,所述输入法编辑器优选地基于所述用户选择同步将所述确定输入的字编码对应的汉字显示在所述计算机显示窗口待输入位置上,节省了用户确定所述新编码后再次向所述输入法编辑器发送确定输入指令信息的步骤,使用户操作更便捷。
在本实施例的另一个变化例中,再所述步骤S105或所述步骤S108后还可以增加一个步骤“基于用户指令信息更新所述候选编码列表。”例如,用户基于所述候选项列表确定当前显示页面第3个候选词为需要输入的词后,由于操作失误向所述输入法编辑器发送了选择所述当前页面第2个候选词为确认输入词的确认信息,则所述输入法编辑器基于用户选择将所述第2个候选词对应点阵码显示在计算机当前窗口待输入位置上并将所述第2个候选词对应的编码信息更新至所述候选编码列表,用户发现所述显示信息错误后,则通过所述计算机普通键盘“退格键”等方式删除所述第2个候选词,所述输入法编辑器接收到用户所述删除上屏输入词的指令信息后,优选地删除所述候选编码列表中最近更新的所述第2个候选词对应的候选编码信息。本领域技术人员理解,所述用户指令信息与所述上屏确认输入信息之间具有连续性,当用户发现上屏输入字词错误后会第一时间对所述操作进行纠正,则所述输入法编辑器同步对所述候选编码列表中的记录进行更正,确保所述候选编码列表中记录的字词是用户最近确认输入的字词,且所述确认输入是用户实际希望输入的字词,排除用户误输入对所述总频率F计算结果的影响。
图2示出根据本发明的第二实施例的,在输入法编辑器中调整输入法候选项排序的控制方法的流程图,所述候选项被显示在输入界面上以待用户选择。具体地,在本实施例中,首先执行步骤S111,基于用户输入信息在核心词库中查找对应的N个候选词编码,其中N≥1。更为具体地,所述输入信息包括用户使用输入设备向所述输入法编辑器发送的指令信息。更进一步地,所述输入设备包括计算机普通键盘、手机键盘、IPAD等触摸式虚拟键盘。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S101,在此不予赘述。在一个优选例中,所述用户输入信息还包括与所述用户输入信息相对应的模糊音信息,所述输入法编辑器基于汉语拼音规则对所述用户输入信息进行判断,不区分所述用户输入信息中的平舌和翘舌、前鼻音和后鼻音。本领域技术人员理解,所述输入法编辑器通过对所述用户输入信息进行模糊音分析,可以在一定程度上避免用户输入信息中的错拼或漏拼现象,还可以有效避免用户普通话不标准导致无法正确拼写汉语拼音的现象,在扩大所述核心词库中对应N个候选词编码的搜索范围同时使得所述搜索更精准、更贴合所述用户输入信息。
然后执行步骤S112,通过公式计算每个所述候选编码的总频率F。具体地,所述总频率F用于表示所述候选词编码基于用户语言习惯在单位时间内出现的次数。更为具体地,所述输入法编辑器基于如下公式计算所述总频率F:
其中,x为所述候选词编码被输入的次数,y为语料库中所述候选词编码的频率,k为所述候选词编码在单位时间内的输入次数。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S103,在此不予赘述。
接下来进入步骤S113执行,基于所述总频率F确定所述N个候选编码的排列顺序,从而生成与所述用户输入信息对应的候选项列表。具体地,所述候选项列表包括所述候选词编码对应的点阵码。更为具体地,所述点阵码存储在所述核心词库中。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S104,在此不予赘述。
接下来执行步骤S114,基于用户选择判断所述候选项列表中是否有用户希望输入的词。具体地,所述候选项列表包括N个候选项,其中,所述N个候选项基于所述点阵码显示。更为具体地,所述候选项的点阵码与所述候选项编码相对应。更进一步地,所述候选项基于所述总频率F的计算结果由大至小排列。本领域技术人员理解,本发明的技术方案中,所述核心词库优选地收录所述历史语料中出现频率最高的T个词而非所述历史语料中出现过的所有词,则所述输入法编辑器从所述核心词库中基于所述用户输入信息查找到的所述N个候选词编码可能不是用户实际希望输入的词编码,则所述输入法编辑器生成所述候选项列表后还需根据用户选择确定所述候选项列表中是否有符合用户要求的词。在一个优选例中,首先基于用户选择判断所述候选项列表中是否有用户希望输入的词,若所述用户希望输入的词在所述候选项列表中,则所述步骤S114的判断结果是肯定的;否则,则所述步骤S114的判断结果是否定的。进一步地,若所述步骤S114的判断结果是肯定的,则进入步骤S115执行;若所述步骤S114的判断结果是否定的,即所述候选项列表中没有用户希望输入的词,则接下来进入步骤S116执行。
具体地,在所述步骤S115中,基于用户本次确定输入的候选编码信息更新候选编码列表。更为具体地,所述候选编码信息包括所述候选词编码对应的拼音信息、所述候选词编码对应的点阵码以及本次确定输入的时间戳。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S105,在此不予赘述。
具体地,在所述步骤S116中,根据用户选择在核心字库中逐字确定新编码。更为具体地,所述核心字库包括字编码和所述字编码对应的频率。更进一步地,所述字编码基于所述区位码表示。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S106,在此不予赘述。在一个优选例中,若所述用户输入信息对应的拼音由多个字拼音组成,则所述候选项列表还包括与所述用户输入信息对应的n个候选字编码信息,所述输入法编辑器在所述核心词库中查找到与所述用户输入信息对应的N个候选词编码后,再基于所述用户输入信息中每个字拼音在所述核心字库中查找对应的n个候选字编码,并将所述n个候选字编码基于所述总频率F排序后显示在所述候选项列表中。优选地,所述候选字编码对应的候选项排在所述N个候选词编码后面。优选地,所述多个字拼音分别对应的n个候选字编码基于所述多个字拼音在所述用户输入信息中的排列顺序排列,例如,用户输入“wenhua一词,则所述用户输入信息包括所述字拼音“wen”和所述字拼音“hua”,则所述候选项列表中的候选项按照词拼音“wenhua”在所述核心词库中对应的N个候选词编码、所述字拼音“wen”在所述核心字库中对应的n个候选字编码以及所述字拼音“hua”在所述核心字库中对应的n个候选字编码的顺序排列,当用户确定所述候选项列表中所述N个候选词编码对应的候选项中没有希望输入的词时,则继续浏览所述候选项列表的剩余内容,逐字确定需要输入的新编码。优选地,所述输入法编辑器同时在所述语料库中获取所述N个候选词编码和所述n个候选字编码生成候选项列表。在另一个优选例中,所述输入法编辑器分两个步骤更新所述候选项列表,首先获取所述N个候选词编码生成所述候选项列表,当用户浏览到所述候选项列表倒数第d页且未选择确定需要输入的候选词时,则获取所述用户输入信息中每个字拼音分别对应的n个候选字编码,排列在所述候选项列表当前显示页的后面,供用户逐字确定所述新编码。优选地,所述d为1,例如,用户通过计算机普通键盘“+”按键将所述候选项列表翻到最后一页时,所述输入法编辑器基于所述用户输入信息每个字拼音获取对应的n个候选字编码,生成对应的候选项列表。本领域技术人员理解,所述d还可以为2,则当用户翻页到所述候选项列表倒数第二页时所述输入法编辑器即认为所述N个候选词编码中没有用户希望输入的词进而生成候选字列表供用户逐字确认新编码,本领域技术人员还可以根据实际需要变化出更多实施例,这并不影响本发明的技术内容。
然后进入所述步骤S117执行,将所述新编码对应的新词显示到所述候选项列表第一位。具体地,所述新编码与所述新词基于所述点阵码相对应。更为具体地,所述候选项列表包括基于用户选择确定的所述新编码以及基于用户输入信息的模糊音在所述核心词库中查找到的对应N个候选词编码对应的候选词。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S107,在此不予赘述。
最后执行所述步骤S118,将所述新编码对应的编码信息保存至所述候选编码列表的相应位置。具体地,所述编码信息包括所述新编码对应的区位码、所述新编码对应的点阵码以及用户本次确定输入的时间戳。更为具体地,所述候选编码列表存储在所述语料库中。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S108,在此不予赘述。
本领域技术人员理解,与上述图1所示实施例相比,本实施例在所述步骤S112和所述步骤S113中生成所述N个候选词编码对应的候选项列表时,即优选地通过不区分用户输入信息对应拼音中的平翘舌和前后鼻音等汉语拼音规则使得所述候选项列表中包括的N个候选项范围更广泛,并基于所述总频率F对所述N个候选项进行排序,提高所述候选项列表尤其是所述候选项列表首页即出现用户希望输入词的命中率,是现有技术中不采用的技术方案,使得用户输入更方便快捷。
在图2所示实施例和上述图1所示实施例的一个共同变化例中,本实施例所述步骤S112和上述图1所示实施例中所述步骤S103中所述总频率F的计算公式中,所述k可以被省略。具体地,所述输入法编辑器基于如下公式计算所述总频率F’:
其中,x为所述候选词编码被输入的次数,y为语料库中所述候选词编码的频率。
本领域技术人员理解,在上述第一实施例和上述第二实施例中所述总频率公式F中的所述k主要用于提高用户最近M词输入的词语排在本次所述候选项列表前几位的概率。当所述k与所述F’的数值相近时,所述k对于所述总频率F的计算结果影响较大,则在同一拼音下所述候选编码列表中记录的用户最近M次确定输入的词相对其他未被记录在所述候选编码列表中的词语有更大概率排在所述候选项列表的前几位;当所述k与所述F’的数值相差几个数量级时,所述k对于所述总频率F的计算结果影响较小,则在同一拼音下所述输入法编辑器优选地基于所述x和所述y参数对所述N个候选词编码进行排序,则所述k可以被省略。本领域技术人员理解,与现有技术相比,本发明所述输入法编辑器基于所述总频率F’公式对所述N个候选词编码进行排序,其优选地基于所述x和所述y的作用同样能够使得用户最常输入的词语能相对固定地排列在所述候选项列表前几位,所述总频率F’公式中所述k的省略并不影响本发明的技术内容。
图3示出根据本发明的第三实施例的,在输入法编辑器中调整输入法候选项排序的控制方法的流程图,所述候选项被显示在输入界面上以待用户选择。具体地,在本实施例中,首先执行步骤S121,基于用户输入信息在核心字库中查找对应的N个候选字编码,其中N≥1。具体地,所述输入法编辑器通过分析一个或多个历史语料库中出现过的汉字符号获得所述核心字库。更为具体地,所述核心字库包括字编码和所述字编码对应的频率。更进一步地,所述核心字库中所述字编码对应的频率y的获得方法本领域技术人员可以参考上述图1所示实施例中所述步骤S101,在此不予赘述。更进一步地,所述字编码表示方法本领域技术人员可以参考上述图1所示实施例中所述步骤S101,在此不予赘述。优选地,所述历史语料库包括词库、字库、互联网上全部文章组成的集合中的任一种或任多种。在一个优选例中,所述输入法编辑器将所述历史语料库中出现频率最高的T个字收录到所述核心字库中,并将所述核心字库以单独文件形式存储在所述输入法编辑器客户端根目录中,当所述输入法编辑器被用户激活使用时所述输入法编辑器优选地将包括所述核心字库在内的所述语料库加载到所述输入法编辑器客户端。优选地,所述核心字库中的所述T个字编码基于汉语拼音规则排列,相同拼音的多个所述字编码基于所述字编码分别对应的频率由大至小排列。优选地,所述用户输入信息包括汉语拼音信息。优选地,所述汉语拼音信息包括全拼和简拼,其中所述简拼包括声母或声母的首字母。优选地,所述汉语拼音信息还包括简拼和全拼混合输入。优选地,所述T为99999个。本领域技术人员理解,所述核心词库的数量T可以根据实际需要由本领域技术人员变化出更多实施例,在此不予赘述。优选地,所述N个候选字编码信息存储在所述输入法编辑器内存中,或云存储装置等存储装置中,这并不影响本发明的技术内容。
然后进入步骤S122执行,判断所述用户输入信息在所述核心字库中是否有对应候选字编码。具体地,所述核心字库存储在所述输入法编辑器客户端。更为具体地,所述输入法编辑器基于所述用户输入信息对应的输入码在所述核心词库中查找所述对应候选编码。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S102,在此不予赘述。在一个优选例中,首先判断所述用户输入信息在所述核心字库中是否有对应候选字编码,若所述用户输入信息在所述核心字库中有对应候选字编码,则所述步骤S122的判断结果是肯定的;否则,则所述步骤S122的判断结果是否定的。进一步地,若所述步骤S122的判断结果是肯定的,则进入步骤S123执行;若所述步骤S122的判断结果是否定的,即所述用户输入信息在所述核心字库中没有对应候选字编码,则接下来进入步骤S126执行。
具体地,在所述步骤S123,通过公式计算每个所述候选字编码的总频率F。更为具体地,所述总频率F用于表示所述候选字编码基于用户语言习惯在单位时间内出现的次数。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S103,在此不予赘述。优选地,所述N个候选字编码和所述N个字编码分别对应的总频率F存储在所述输入法编辑器内存中。
然后进入所述步骤S124执行,基于所述总频率F确定所述N个候选字编码的排列顺序,从而生成与所述用户输入信息对应的候选项列表。具体地,所述候选项列表包括所述N个候选字编码分别对应的点阵吗。更为具体地,所述点阵吗存储在所述核心字库中。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S104,在此不予赘述。
最后执行所述步骤S125,基于用户本次确定输入的候选编码信息更新候选编码列表。具体地,所述候选编码信息包括所述候选字编码对应的拼音信息、所述候选字编码对应的点阵码以及本次确定输入的时间戳。更为具体地,更为具体地,所述核心字库还包括所述点阵码,所述候选编码列表基于所述候选字编码在所述核心字库中查找对应的点阵码。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S104,在此不予赘述。
具体地,在所述步骤S126中,根据用户选择在历史语料库中确定新编码。更为具体地,所述历史语料库包括词库、句库、互联网上全部文章组成的集合中的任一种或任多种。更进一步地,所述历史语料库还包括辞海、新华字典等规范类辞典中记录的汉字。在一个优选例中,所述输入法编辑器基于所述用户输入信息中的拼音信息在所述核心字库中没有找到对应的所述候选字编码时,则在所述历史语料库中基于所述用户输入信息查找对应的N个候选字变啊,并基于所述总频率公式F将对应的N个候选字编码排列在所述候选项列表中供用户选择,当用户选择确认需要输入的候选编码后,确认所述候选编码为所述核心字库中没有的所述新编码。
然后进入所述步骤S127执行,将所述新编码对应的新字显示到所述候选项列表第一位。具体地,所述新编码与所述新字基于所述点阵码相对应。更为具体地,所述候选项列表包括基于用户选择确定的所述新编码以及基于用户输入信息的模糊音在所述核心字库中查找到的对应N个候选词编码对应的候选词。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S107,在此不予赘述。
最后执行所述步骤S128,将所述新编码对应的编码信息保存至所述候选编码列表的相应位置。具体地,所述编码信息包括所述新编码对应的区位码、所述新编码对应的点阵码以及用户本次确定输入的时间戳。更为具体地,所述候选编码列表存储在所述语料库中。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S108,在此不予赘述。
在本实施例的一个变化例中,所述步骤S127可以被省略,则所述输入法编辑器基于用户选择确定所述新编码后优选地将所述新编码对应的点阵码显示在所述输入法编辑器确定输入窗口上或者计算机显示窗口待输入位置上。
图4示出根据本发明的第四实施例的,在输入法编辑器中调整输入法候选项排序的控制方法的流程图,所述候选项被显示在输入界面上以待用户选择。具体地,在本实施例中,首先执行步骤S131,基于用户输入信息在核心字库中查找对应的N个候选字编码,其中N≥1。更为具体地,所述输入法编辑器通过分析一个或多个历史语料库中出现过的汉字符号获得所述核心字库。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S101,在此不予赘述。
然后进入步骤S132执行,通过公式计算每个所述候选字编码的总频率F。具体地,所述总频率F用于表示所述候选字编码基于用户语言习惯在单位时间内出现的次数。更为具体地,所述每个候选字编码和所述每个字编码对应的总频率F存储在所述输入法编辑器内存中。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S103,在此不予赘述。
接下来执行步骤S133,基于所述总频率F确定所述N个候选字编码的排列顺序,从而生成与所述用户输入信息对应的候选项列表。具体地,所述候选项列表包括所述N个候选字编码分别对应的点阵码。更为具体地,所述点阵码存储在所述核心字库中。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S104,在此不予赘述。
然后进入步骤S134执行,基于用户选择判断所述候选项列表中是否有用户希望输入的字。具体地,所述所述候选项列表包括N个候选项,其中,所述N个候选项基于所述点阵码显示。更为具体地,所述候选项的点阵码与所述候选项编码相对应。更进一步地,本领域技术人员可以参考上述图2所示实施例中所述步骤S114,在此不予赘述。在一个优选例中,首先基于用户选择判断所述候选项列表中是否有用户希望输入的字,若所述用户希望输入的字在所述候选项列表中,则所述步骤S134的判断结果是肯定的;否则,则所述步骤S134的判断结果是否定的。进一步地,若所述步骤S134的判断结果是肯定的,则进入步骤S135执行;若所述步骤S134的判断结果是否定的,即所述候选项列表中没有用户希望输入的字,则接下来进入步骤S136执行。
具体地,在所述步骤S135中,基于用户本次确定输入的候选编码信息更新候选编码列表。更为具体地,所述候选编码信息包括所述候选词编码对应的拼音信息、所述候选词编码对应的点阵码以及本次确定输入的时间戳。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S105,在此不予赘述。
具体地,在所述步骤S136中,根据用户选择在历史语料库中确定新编码。更为具体地,所述历史语料库包括词库、句库、互联网上全部文章组成的集合中的任一种或任多种。更进一步地,本领域技术人员可以参考上述图3所示实施例中所述步骤S126,在此不予赘述。
然后进入所述步骤S137执行,将所述新编码对应的新字显示到所述候选项列表第一位。具体地,所述新编码与所述新词基于所述点阵码相对应。更为具体地,所述候选项列表包括基于用户选择确定的所述新编码以及基于用户输入信息的模糊音在所述核心词库中查找到的对应N个候选词编码对应的候选词。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S107,在此不予赘述。
最后执行所述步骤S138,将所述新编码对应的编码信息存储至所述候选编码列表的相应位置。具体地,所述编码信息包括所述新编码对应的区位码、所述新编码对应的点阵码以及用户本次确定输入的时间戳。更为具体地,所述候选编码列表存储在所述语料库中。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S108,在此不予赘述。
本领域技术人员理解,与上述图1和上述图2所示实施例相比,上述图3和上述图4所示实施例优选地适用于所述用户输入信息为单个字拼音或单个字笔画等基于所述编码规则仅对应一个汉字或符号的技术情形,在一个优选例中,所述输入法编辑器通过对所述用户输入信息的判断结果判断在所述核心词库还是在所述核心字库中查找对应的所述N个候选词编码或N个候选字编码,其中所述判断结果包括判断用户输入的拼音代表一个字还是一个词,或用户输入的笔画信息代表一个字对应的笔画还是一个词对应的笔画,或用户输入的语音信息代表一个汉字还是一个词语甚至一个短句,例如,用户基于拼音输入“dahai”则所述输入法编辑器基于所述汉语拼音规则判断所述用户输入拼音为一个词,则优选地在所述核心词库中查找对应的N个候选词编码;若用户输入拼音为“da”则基于汉语拼音规则为一个字,则所述输入法编辑器优选地在所述核心字库中查找对应的N个候选字编码。本领域技术人员理解,所述核心词库和所述核心字库允许所述输入法编辑器基于不同需要对所述用户输入信息进行精确查找,尤其是所述核心词库中预置的T个在所述历史语料库中高频出现的词组使得所述输入法编辑器在处理用户连续输入一个词语甚至短句时反馈的N个候选编码更精准,提高用户的办公效率。
图5示出根据本发明的第五实施例的,在输入法编辑器中调整输入法候选项排序的控制方法的时序图,所述候选项被显示在输入界面上以待用户选择。具体地,在本实施例中,所述时序图包括4个对象,依时间顺序分别为用户、输入法编辑器、核心词库和候选编码列表。更为具体地,首先执行步骤141,用户向所述输入法编辑器发送输入一串字符的指令信息。更为具体地,用户通过输入设备向所述输入法编辑器发送所述指令信息。更进一步地,所述输入设备包括计算机普通键盘、手机键盘、IPAD等触摸式虚拟键盘。更进一步地,所述指令信息包括与所述输入信息对应的输入码。优选地,所述输入码基于汉语拼音表示。优选地,所述汉语拼音包括全拼和简拼。优选地,所述汉语拼音还包括全拼简拼混合输入。
然后进入步骤S142执行,所述输入法编辑器基于所述输入码在所述核心词库中查找对应的N个候选词编码。具体地,所述输入码与所述用户输入信息基于所述汉语拼音规则相对应。更为具体地,输入码与所述区位码基于所述国标码字符集相对应。更进一步地,所述候选词编码对应的词编码包括所述区位码。优选地,所述核心词库包括所述词编码和所述词编码对应的频率。优选地,所述核心词库通过预先分析一个或多个所述历史语料库中字与字、词与词之间的关系,基于自然语言习惯获取大量词组或短语,并通过如下公式计算所述词组或短语在所述历史语料库中的出现频率:
y=y1+H
其中,y1为基础频率,H为单位时间下的修正参数。
优选地,所述H通过如下公式获得:
H=h*f(c1,y1)
其中,h为基准参数,c1通过分析所述词在第二阈值时间内在一个或多个历史语料库中出现的频率获得。
优选地,所述f函数标示基于数学模型架构下的,所述词最近一段时间在互联网上的出现频率与所述词对应的基础频率的相关度,该相关度取值范围在[-1,1]区间内。在一个优选例中,所述f函数基于如下公式计算:
优选地,本领域技术人员可以参考上述图1所示实施例中所述步骤S101,在此不予赘述。
在一个优选例中,所述核心词库基于所述输入码查找到对应的N个候选词编码后,则将所述N个候选词编码对应的编码信息的集合返回给所述输入法编辑器,其中,所述编码信息包括所述候选词编码的区位码、所述候选词编码对应的频率以及与所述候选词编码对应的点阵码。
接下来执行步骤S143,所述输入法编辑器基于所述核心词库返回的所述N个候选词编码生成候选项列表。具体地,所述候选项列表中所述N个候选词编码基于总频率F排序。更为具体地,所述总频率F通过如下公式计算:
其中,x为所述候选词编码被输入的次数,y为语料库中所述候选词编码的频率,k为所述候选词编码在单位时间内的输入次数;
更为具体地,所述语料库包括所述核心词库、所述核心字库和所述候选编码列表。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S103,在此不予赘述。
在一个优选例中,所述候选项列表基于所述候选词编码的点阵码显示所述N个候选词编码对应的候选项,更为具体地,本领域技术人员可以参考上述图1所示实施例中所述步骤S104,在此不予赘述。
然后进入步骤S144执行,用户在所述候选项列表中选择一点阵码作为本次确认输入的词。具体地,所述点阵码与所述候选词编码相对应。更为具体地,所述候选项列表包括所述N个候选词编码对应的点阵码。优选地,用户在所述候选项列表中找到本次需要输入的词后,即发送确认输入的指令信息。优选地,所述指令信息包括所述本次确认输入词编码在所述候选项列表中的排序信息。优选地,所述排序信息与所述候选词编码相对应。优选地,所述指令信息通过鼠标点击或计算机普通键盘输入发送,例如,用户确定所述候选项列表当前显示页面上第3个候选项为本次需要输入的词,则用户可以移动鼠标点击所述第3个候选项向所述输入法编辑器发送确认输入的指令信息,还可以通过计算机键盘数字“3”按键向所述输入法编辑器发送确认输入信息,本领域技术人员还可以根据实际需要变化出更多实施例,这并不影响本发明的技术内容。
最后进入步骤S145执行,所述输入法编辑器基于所述用户指令信息更新所述候选编码列表。具体地,所述用户指令信息包括所述本次确认输入候选词对应的候选编码信息。更为具体地,所述候选编码信息包括所述候选词编码对应的拼音信息、所述候选词编码对应的点阵码以及本次确定输入的时间戳。更进一步地,本领域技术人员可以参考上述图1所示实施例中所述步骤S105,在此不予赘述。
在本实施例的一个变化例中,在所述对象“核心词库”和所述对象“候选编码列表”之间还可以增加一对象“核心字库”,其用于当所述N个候选词编码中没有用户希望输入的词时,接收来自所述输入法编辑器的指令信息。具体地,所述指令信息与所述用户输入信息相对应。更为具体地,所述核心字库包括字编码和所述字编码对应的频率。优选地,若所述步骤S143所述候选项列表中没有用户希望输入的词,则所述输入法编辑器再基于所述用户输入信息在所述核心字库中逐字确定新编码。优选地,所述用户输入信息包括汉语拼音信息。在一个优选例中,所述输入法编辑器基于用户输入信息中每个字拼音在所述核心字库中查找对应的N个候选字编码,并基于所述总频率F公式排序后生成新的所述候选项列表供用户选择,当用户在所述新候选项列表中逐字确定需要输入的词后,所述输入法编辑器将所述用户确定输入的新编码对应的拼音、点阵码以及用户本次输入的时间戳作为所述候选编码信息添加到所述候选编码列表中,并对所述新编码的频率y赋值100000便于用户下次输入所述新编码对应的拼音时对所述新编码进行总频率F计算。
图6示出根据本发明的第六实施例的,在输入法编辑器中调整输入法候选项排序的控制装置的结构图,所述候选项被显示在输入界面上以待用户选择。具体地,在本实施例中,所述控制装置4包括第一确定装置41,其用于基于用户输入信息在语料库中确定与所述用户输入信息对应的N个候选编码,其中N≥1;第一处理装置42,其用于计算每个所述候选编码的总频率F;第一生成装置43,其用于基于所述总频率F确定所述N个候选编码的排列顺序,从而生成与所述用户输入信息对应的候选项列表。更为具体地,所述所述输入信息包括用户使用输入设备向所述输入法编辑器发送的指令信息。更进一步地,所述指令信息包括与所述输入信息对应的输入码。优选地,所述语料库包括核心词库、核心字库和候选编码列表。优选地,所述语料库预置在所述输入法编辑器客户端所在的计算机系统内,以单独文件形式存储在所述输入法编辑器客户端根目录中,当所述输入法编辑器处于使用状态时自动加载所述语料库到所述输入法编辑器内存中。优选地,所述第一处理装置42通过如下公式计算所述总频率F:
其中,x为所述候选词编码被输入的次数,y为语料库中所述候选词编码的频率,k为所述候选词编码在单位时间内的输入次数;
优选地,所述次数x表示所述候选词编码本次被用户作为候选项之前在所述输入法编辑器客户端上被确定输入的次数。在一个优选例中,所述输入法编辑器基于所述候选词编码在所述列表中查找对应的所述次数x。在另一个优选例中,所述x表示用户本次输入之前所述候选词编码在互联网中被确定输入的次数,所述输入法编辑器基于所述搜索引擎在互联网语料中实时统计所述候选词编码出现的次数,并将所述统计结果作为所述x数值带入所述总频率F公式进行计算。优选地,所述候选项列表包括所述候选词编码对应的点阵码。优选地,所述候选项列表基于所述N个候选词编码的排列顺序和每个候选词编码对应的点阵码依次显示在所述输入法编辑器显示窗口上。
优选地,所述第一确定装置41包括第一查找装置411,其用于若所述用户输入信息为多个字编码组成的词编码,则在所述核心词库中查找对应的N个候选词编码;第二确定装置412,其用于若所述用户输入信息在所述核心词库中未查找到对应候选项,则根据用户选择在核心字库中逐字确定新编码。具体地,所述核心词库包括所述词编码和所述词编码对应的频率y。在一个优选例中,所述输入法编辑器基于汉语拼音接收所述用户输入信息,并基于汉语拼音规则对所述用户输入信息包括的输入码进行判断,若所述输入码为多个字拼音组成的词拼音,则在所述核心词库中查找对应的候选词编码。优选地,所述第一查找装置411将与所述用户输入信息相对应的N个候选词编码和所述N个候选词编码分别对应的频率等信息存储在所述输入法编辑器内存中。优选地,所述核心字库包括字编码和所述字编码对应的频率y。在一个优选例中,若所述第一查找装置411在所述核心词库中没有找到与所述用户输入信息相对应的候选词编码,则所述第二确定装置412将所述用户输入信息分解成单个字输入信息,基于用户选择在所述核心字库确定与所述用户输入信息相对应的新编码。
优选地,所述第一处理装置42包括第一分析装置421,其用于分析所述词在第一阈值时间内在一个或多个历史语料库中出现的频率,并将所述频率作为所述y1;第二分析装置422,其用于分析所述词在第二阈值时间内在一个或多个历史语料库中出现的频率,并将所述频率作为所述c1。具体地,所述历史语料库包括词库、句库或互联网上全部文章组成的集合中的任一种或任多种。更为具体地,所述总频率F公式中的所述频率y通过如下公式计算:
y=y1+H
其中,y1为基础频率,H为单位时间下的修正参数。
优选地,所述y1从所述第一分析装置421中获得。优选地,所述H用于对所述y1进行修正从而使所述频率y更准确,其基于如下相关度公式计算:
H=h*f(c1,y1)
其中,h为基准参数,c1从所述第二分析装置422中获得。
优选地,所述f函数标示基于数学模型架构下的,所述词编码最近一段时间在互联网上的出现频率与所述词对应的基础频率的相关度,该相关度取值范围在[-1,1]区间内。在一个优选例中,所述f函数基于如下公式计算:
优选地,所述基准参数h为100000,所述第一阈值时间为10年,所述第二阈值时间为30天。在一个优选例中,所述核心词库和所述核心字库分别包括T个字词,其基于汉语拼音字母排列,对于同音词则按照每个词对应的频率y由高到低排列。优选地,所述T为99999个。优选地,所述第一处理装置42基于所述N个候选词编码的总频率F数值进行排序,获取所述N个候选词编码对应的点阵码并存储在所述输入法编辑器内存中。
优选地,所述第一生成装置43包括第二处理装置431,其用于基于用户本次确定输入的候选编码信息更新所述候选编码列表。具体地,所述候选项列表基于所述点阵码与所述候选词编码相对应。更为具体地,所述候选编码信息包括所述候选词编码对应的拼音信息、所述候选词编码对应的点阵码以及本次确定输入的时间戳。更进一步地,所述候选编码列表用于存储同一拼音下用户最近M次确定输入的候选编码信息,其中M≥1。优选地,所述候选编码列表长度为U行,基于用户每次确定输入的候选编码信息实时更新,若所述候选编码列表长度超过U行,则删除所述时间戳最小的候选编码信息。
在本实施例的一个变化例中,所述第一查找装置411和所述第二确定装置412可以替换为第二查找装置413,其用于若所述用户输入信息为单个字编码,则在所述核心字库中查找对应的N个候选字编码,其中N≥1。例如,当所述用户输入信息为单个字拼音信息时,则所述第一确定装置41调用所述第二查找装置413查找与所述用户输入信息相对应的N个候选字编码。在一个优选例中,若所述第二查找装置413在所述核心字库中没有找到与所述用户输入信息对应的候选字编码,则所述第二查找装置413从所述历史语料库中进一步查找与所述用户输入信息对应的N个候选字编码,或者忽略所述用户输入信息中的平翘舌、前后鼻音等汉语拼音规则在所述核心字库中扩大范围进行查找。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。