CN101697099B - 一种字词转换结果的获取方法及系统 - Google Patents
一种字词转换结果的获取方法及系统 Download PDFInfo
- Publication number
- CN101697099B CN101697099B CN200910236605XA CN200910236605A CN101697099B CN 101697099 B CN101697099 B CN 101697099B CN 200910236605X A CN200910236605X A CN 200910236605XA CN 200910236605 A CN200910236605 A CN 200910236605A CN 101697099 B CN101697099 B CN 101697099B
- Authority
- CN
- China
- Prior art keywords
- server
- word
- user
- input content
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种字词转换结果的获取方法及系统,该方法包括:针对用户的输入内容,根据本地词库进行候选词转换;当转换结果不符合预置条件时,将所述输入内容发送到服务器;接收服务器返回的字词转换结果,并将该字词转换结果显示给用户。通过本发明,可以利用服务器的数据及计算资源,作为本地资源的补充,从而摆脱本地资源限制,为用户提供更多更好的候选项。
Description
技术领域
本发明涉及输入法技术领域,特别是涉及一种字词转换结果的获取方法及系统。
背景技术
当前的输入法系统(包括中文、日文以及韩文等等)都是基于其词库系统以及词库系统中的词频来为使用者在信息输入过程中提供候选词及其排序。
以中文输入法为例,当前流行的输入法软件的候选项内容,是根据输入法所附带的本地词库来进行匹配和组合的。本地词库储存了单纯词、合成词以及词的二元关系(或多元)。当用户输入的拼音串可以完全命中单纯词或者合成词时,则根据这些词的词频,依次罗列候选项;当不能完全匹配时,输入法会根据诸多词的二元(或多元)关系,自动组合出可能符合用户预期的合成词。
但是,当用户输入的拼音串没有命中词库,而自动组出来的词组也不符合用户的预期时,或者命中了词库但给出的候选项不符合用户的预期时,就需要用户去手动选择各个语素,以便达到预期,从而导致了用户输入速度的降低。
为了解决无匹配,或者匹配准确率不高的问题,现有的输入法系统采用对本地词库进行升级更新(增量式)的方法,以便能匹配用户的输入,或者根据二元(或多元)关系,来自动组合出用户需要的词。但更新不可能频繁进行(网络、系统资源的占用等因素),其时效性也并不好。如果用户输入的新词还没有更新到本地词库中,则导致无法给出针对该新词的候选项。
发明内容
本发明提供一种字词转换结果的获取方法及系统,能够提高给出符合用户预期的候选项的概率。
为实现上述目的,本发明提供了如下方案:
一种字词转换结果的获取方法,包括:
针对用户的输入内容,根据本地词库进行候选词转换,得到转换结果;
获取所述转换结果的匹配准确率,当所述匹配准确率低于预置阈值时,将所述输入内容发送到服务器;和/或,当接收到用户输入的进行网络取词的请求时,将所述输入内容发送到服务器;其中,所述匹配准确率为所述转换结果与用户预期相符合的概率;
接收服务器返回的字词转换结果,并将该字词转换结果显示给用户。
优选的,所述获取所述转换结果的匹配准确率,当所述匹配准确率低于预置阈值时,将所述输入内容发送到服务器包括:
当用户的输入内容命中了本地词库的词条时,查询词条的词频,如果词条的词频小于预置阈值,则将所述输入内容发送到服务器。
优选的,所述获取所述转换结果的匹配准确率,当所述匹配准确率低于预置阈值时,将所述输入内容发送到服务器包括:
当根据本地词库中的多元数据,组合成针对用户输入内容的合成词时,获取所述合成词的稳定性值,如果所述稳定性值小于预置阈值,则将所述输入内容发送到服务器。
优选的,所述获取所述合成词的稳定性值包括:
对所述合成词中相邻语素的多元关系值进行综合折算,获得所述合成词的稳定性值。
优选的,所述获取所述合成词的词频包括:
对所述合成词中各语素的词频进行综合折算,获得所述合成词的稳定性值。
优选的,所述将所述输入内容发送到服务器包括:
将所述输入内容发送到搜索引擎服务器;所述搜索引擎服务器具有字词转换接口,用于收集用户通过搜索引擎输入的焦点词汇,当接收到用户的输入内容时,通过字词转换接口从所述焦点词汇中获得字词转换结果,并将所述字词转换结果返回。
优选的,所述将所述输入内容发送到服务器包括:
将所述输入内容发送到词库服务器;所述词库服务器用于实时收集通过各种渠道获取的新词,并添加到词库中,当接收到用户的输入内容时,获得字词转换结果,并将所述字词转换结果返回。
优选的,所述词库服务器中包括细胞词库,当接收到用户的输入内容时,优先根据所述细胞词库获得字词转换结果。
优选的,还包括:
如果所述服务器返回的字词转换结果未出现在本地词库中,则将所述服务器返回的字词转换结果添加到本地词库中。
优选的,还包括:
将用户的选词状况返回给服务器,以便服务器进行词频调整。
一种字词转换结果的获取系统,包括:
本地取词单元,用于针对用户的输入内容,根据本地词库进行候选词转换,得到转换结果;
概率判断单元,用于获取所述转换结果的匹配准确率,当所述匹配准确率低于预置阈值时,将所述输入内容发送到服务器;和/或,接口单元,用于当接收到用户输入的进行网络取词的请求时,将所述输入内容发送到服务器;其中,所述匹配准确率为所述转换结果与用户预期相符合的概率;
服务器,用于根据所述输入内容得到字词转换结果;
显示单元,用于接收服务器返回的字词转换结果,并将该字词转换结果显示给用户。
优选的,所述概率判断单元包括:
第一判断单元,用于当用户的输入内容命中了本地词库的词条时,查询词条的词频,如果词条的词频小于预置阈值,则将所述输入内容发送到服务器。
优选的,所述概率判断单元包括:
第二判断单元,用于当根据本地词库中的多元数据,组合成针对用户输入内容的合成词时,获取所述合成词的稳定性值,如果所述稳定性值小于预置阈值,则将所述输入内容发送到服务器。
优选的,所述第二判断单元包括:
第一稳定性值获取单元,用于对所述合成词中相邻语素的多元关系值进行综合折算,获得所述合成词的稳定性值。
优选的,所述第二判断单元包括:
第二稳定性值获取单元,用于对所述合成词中各语素的词频进行综合折算,获得所述合成词的稳定性值。
优选的,所述服务器包括:
搜索引擎服务器,具有字词转换接口,用于收集用户通过搜索引擎输入的焦点词汇,当接收到用户的输入内容时,通过字词转换接口从所述焦点词汇中获得字词转换结果,并将所述字词转换结果返回;
所述概率判断单元包括:
第一发送单元,用于将所述输入内容发送到所述搜索引擎服务器。
优选的,所述服务器包括:
词库服务器,用于实时收集通过各种渠道获取的新词,并添加到词库中,当接收到用户的输入内容时,获得字词转换结果,并将所述字词转换结果返回;
所述概率判断单元包括:
第二发送单元,用于将所述输入内容发送到所述词库服务器。
优选的,所述词库服务器中包括细胞词库,当接收到用户的输入内容时,优先根据所述细胞词库获得字词转换结果。
优选的,还包括:
词库调整单元,用于根据外界因素对服务器的词库进行调整。
优选的,还包括:
本地词库更新单元,用于如果所述服务器返回的字词转换结果未出现在本地词库中,则将所述服务器返回的字词转换结果添加到本地词库中。
优选的,还包括:
选词状况反馈单元,用于将用户的选词状况返回给服务器,以便服务器进行词频调整。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明首先针对用户的输入内容,根据本地词库进行候选词转换;在转换结果不理想的触发事件发生时,将所述输入内容发送到服务器;接收服务器返回的字词转换结果,并将该字词转换结果显示给用户。即,当依据本地词库的转换结果不理想时,能够通过网络取词获取候选项,由于服务器具有强大的数据存储能力及计算能力,而且可以做到词库的实时更新,因此,可以提供更多更好的候选项,提高给出符合用户预期的候选项的概率。可见,通过本发明实施例提供的方法,可以利用服务器的数据及计算资源,作为本地资源的补充,从而摆脱本地资源限制,为用户提供更多更好的候选项。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的方法的流程图;
图2是本发明实施例提供的系统的示意图;
图3是本发明实施例提供的另一系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明实施例提供的字词转换结果的获取方法包括以下步骤:
S101:针对用户的输入内容,根据本地词库进行候选词转换;
其中,所述用户输入内容可以是通过键盘输入的拼音、笔画等编码字符串,也可以是采用手写、语音等其他输入方式输入的内容。当然,在以手写或语音等输入方式下,本发明实施例适用于手写或语音方式输入后,输入法同样根据用户输入进行转换,并给出多个候选词供用户选择的情况。例如,用户在触摸屏上手写了“手”,输入法会针对该手写字给出与其同音的多个候选词,如“手”、“收”、“受”等,用户同样会在各个候选词中选择自己需要的候选词。又如,用户采用语音的方式读出需要的字词或句子,输入法可以根据读音转换出多个转换结果供用户选择。
本地词库可以包括本地的基本词库、组词词库、专业词库、细胞词库、用户词库等等,因此根据本地词库得到的转换结果包括单纯的基本词库词,或者由二元或多元组词词库组合出来的合成词等所有的结果。
S102:当转换结果不符合预置条件时,将所述输入内容发送到服务器;
S103:接收服务器返回的字词转换结果,并将该字词转换结果显示给用户。
其中,服务器得到字词转换结果的具体方式与本地的输入法系统相似,即在接收到用户的输入内容后,可以在词库中查找与用户输入内容相对应的候选项。客户端在接收到服务器返回的字词转换结果之后,显示给用户,用户可以从中选择自己需要的候选项进行上屏。
即,在接收到用户的输入内容之后,首先利用本地词库进行转换,如果转换结果不符合预置条件,再使用网络取词。其中,所述网络取词就是将所述输入内容发送到服务器,由服务器提供转换结果。由于服务器具有强大的存储及计算能力,因此,可以提供比本地词库更多更好的候选项。
例如,考虑到本地资源的有限性(尤其是手机等移动终端),输入法系统的本地词库不可能包含过多的词条,否则可能会对计算机系统的性能产生影响,因此,输入内容直接命中本地词库词条的概率相对较低;同时,由于计算能力也比较有限,因此,本地词库所使用的组词算法也不可能过于复杂,通常,本地词库只能使用二元的组词算法,因此,根据本地组词词库获得合成词的概率也会相对较低;等等。
而服务器可以是专门用来进行候选词转换的,因此,可以保存大而全的词库,同时,可以使用复杂的高级组词算法(如三元、四元等),而且,服务器端的词库可以二十四小时不间断地收集各种渠道获得的新词,保证词库的及时更新。这样,就可以为用户提供更多更好的候选词,有利于提高候选词符合用户预期的概率。
当然,在将输入内容发送到服务器之前,还可以判断当前的设备是否连接了网络,或者设备是否接入了指定网络(比如公司局域网等),如果能够接入网络,则可以就把输入内容发送给服务器。在实际应用中,由于输入法用户通常希望在输入拼音等字符串之后能够马上看到相应的候选项,而网络取词的过程涉及到客户端与服务器之间传输数据,因此,可能对网络状况的要求较高,为了尽量避免一些负面的影响,在能够用户设备能够接入网络的情况下,还可以判断判断网络的状态,例如,当连接到服务器的过程中发生超时,或者网速过慢等情况发生时,可以取消网络取词,仅将本地词库的转换结果展现给用户,供用户选择。
需要说明的是,实际上本地取词与网络取词各有优缺点,例如,本地取词虽然受到本地存储资源及计算资源的限制,但是可以实时进行字词转换,给出候选项时没有时延;而网络取词虽然存储资源及计算资源不受限制,但是由于需要进行网络传输,因此,会需要一定的网络开销及时间开销,用户在输入的过程中可能需要等待返回的结果。
而本发明实施例提供的方法中,则可以使得本地取词与网络取词相结合,使两者实现优势互补,如果本地取词能够得到理想的转换结果,则不必要进行网络取词;只有在本地取词不理想的情况下,再进行网络取词,这样可以从整体上提高输入的速度。
实际应用中,所述转换结果不符合预置条件的情况可能有多种,下面分别进行详细地介绍。
(一)可以由输入法系统自动判断根据本地词库的转换结果,以决定是否需要进行网络取词。即获取所述转换结果的匹配准确率(即与用户预期相符合的概率),当所述匹配准确率低于预置阈值时,将所述输入内容发送到服务器。具体获取所述转换结果的匹配准确率时,可以包括以下情况:
1)当用户的输入内容命中了本地词库的词条时,可以进一步查询该词条的词频,当词频低于某阈值时,则认为用户不需要该词的概率较大(即不符合用户预期的概率较大),此时就相当于转换结果的匹配准确率较低,因此,可以进行网络取词;
其中,本地词库中的词条,都会附带一个词频属性,词频可能是在通过统计语料库生成词库的过程中获得的,并且可以随着用户的使用,增加本地词库中的词频。为了判断根据本地词库得到的转换结果符合用户预期的概率,可以假设词频高于(或等于)1000的词为高频词,而词频低于1000的词为低频词(这里阈值取1000,当然也可以根据实际需要选择其他的阈值),以此来进行硬性划分;当用户的输入内容命中了本地词库的词条时,判断该词条的词频是否大于1000,如果是,则认为该词条的匹配准确率较高,因此直接展现给用户;否则,认为该词条的匹配准确率较低,因此触发进行网络取词,将用户的输入内容发送到服务器。
此外,在获取词条的匹配准确率时,除了直接判断某词条的词频是否高于某阈值之外,也可以根据同音下各词条词频的相对大小来判断转换结果的匹配准确率。例如,对于“keneng”,“可能”的词频是500,但是“科能”等其他词条的词频都非常低,在这种情况下,“可能”的绝对词频并不高(小于1000),但是其相对于同音下其他词条的相对频率非常高,此时,也可以判断出转换结果的匹配准确率较高。
当然,用户的输入内容可能会命中本地词库的多个词条,则可以将这些词条中词频最高的一个与所述阈值进行比较,如果低于所述阈值,则触发进行网络取词。
2)当用户输入的内容没有完全匹配本地词库的词条时,通常输入法会根据本地组词词库中词汇的二元(或多元)数据,自动组合成针对用户输入内容的合成词;此时,为了判断合成词符合用户预期的概率,则可以获取所述合成词的稳定性值,如果所述稳定性值小于预置阈值,则触发进行网络取词。
获取合成词稳定性值的具体方法可以有多种,其中一种可以是:对该合成词中每一对相邻语素的二元(或多元)关系值进行综合折算,折算为稳定性值,然后采用预制的阈值进行比较,以便决定是否需要网络取词。
例如,用户输入“man’tian’da’xue”这个拼音串,并且希望得到“漫天大雪”这个词。假设这个词没有包含在本地的基本词库里。但是输入法附带了二元词库,记录了“漫天”和“大雪”的二元关系值,例如是500,表明二元关系很强。接着,可以用公式n=m×2+1000来得出n=2000(m=500,高频),从而确认该组合词的稳定性值为2000,高于预置的阈值1000,因此,认为符合用户预期的概率较高,无需网络取词。
另一种获取合成词稳定性值的具体方法可以是:对合成词中每一个语素的词频进行统计,然后综合折算为一个词频值,然后应用预制的阈值进行比较,以便决定是否需要网络取词。
仍以用户输入“man’tian’da’xue”这个拼音串,并且希望得到“漫天大雪”这个词为例。现假设“漫天”的词频为300,“大雪”的词频为500,“大学”的词频为600。在没有二元值的情况下,组合出“漫天大学”的可能性更大,但是其总词频(300+600=900)低于1000,据此判断需要网络取词。
当然,上述例子中涉及的数值及公式均是举例说明,不应看作是本发明的限制。
(二)也可以由用户手动触发网络取词,输入法可以向用户提供手动触发的入口,用户可以通过该入口触发进行网络取词。例如,可以提供快捷键或组合键等特殊操作方式,首先仍根据本地词库进行转换,并给出转换结果,用户看到转换结果后,如果感觉这些转换结果均不理想,即都不符合自己的预期,则可以按下所述快捷键或组合键,触发进行网络取词。此时,输入法平台就可以将用户的输入内容发送到服务器,由服务器重新给出转换结果,并显示给用户。
例如,用户输入“zeng’ge”这个拼音串,并且希望输入的词是最近流行的热门词汇“曾哥”。输入法平台根据本地词库给出的转换结果为(括号内数字为词频,用于说明):1.曾戈(500)2.增个(400)3.曾隔(300),用户发现这些转换结果中并不包括“曾哥”这个候选项,因此,按下快捷键触发网络取词;输入法平台将“zeng’ge”发送到服务器,服务器返回结果为:曾哥(10000)、增个(1000),再显示给用户,用户就可以将“曾哥”上屏输出了。
在这个例子中,之所以能够从网络取词获得“曾哥”这个词条,是因为服务器已经将“曾哥”作为新词增加到了服务器端的词库中。而此时,可能还没有将该词条更新到本地词库中,因此,无法通过本地取词获取到该词条。
以上所述介绍了可以在何种时机下使用网络取词,达到本地取词与网络取词相结合的目的。在本发明实施例中,还对如何进行网络取词,以及服务器端如何收集词汇给出了相应的方法,下面对此进行介绍。
(一)直接连接互联网查找当下流行的、与用户的输入内容相符合的词条。
由于互联网信息丰富,又有很强的时效性,因此,输入法可以直接从众多的页面中提取相关信息。
(二)经由搜索引擎服务器查找当下流行的、与用户的输入内容相符合的词条。
搜索引擎是网络用户获取、查询信息的重要工具,搜索引擎具有查询速度快、信息量大的优点,并且当前的搜索引擎具有统计用户搜索关键词的功能,用来分析当前搜索的趋势,然后搜索引擎会对关键词按搜索指数进行排序,比如:台湾台风1000000、口靓模900000、爱的华尔兹800000等等。因此,搜索引擎很容易收集到时下用户关注的焦点词汇,并记录其使用的次数。而这些焦点词汇很可能就是用户需要在输入法中用到的。因此输入法通过搜索引擎的强大查询能力与庞大的资源库,会有很大的机会找到完全符合用户预期的词,再辅以词汇的关注程度,可以大大提高输入法的首选准确率。
当然,在具体实现时,搜索引擎服务器相对于普通的搜索引擎服务器而言,需要增加字词转换接口,当接收到用户的输入内容时,搜索引擎服务器可以通过字词转换接口从所述焦点词汇中获得字词转换结果,并将所述字词转换结果返回。例如,当用户输入“ai’de’hua’er’zi”后,输入法将该拼音串发送给搜索引擎服务器,服务器接收到该字符串后,通过查找关键词列表后,返回与该拼音串相应的焦点词汇,例如,可能是将一个最匹配且同音下指数最高的词(例如“爱的华尔兹”)返回给输入法。
此处服务器在向输入法返回结果时基于这样一个事实,被搜索指数最高的词,一定是正确的,也是同音下用户当前最想要的词。当然,搜索引擎可服务器也以做其他各种限制,例如搜索指数低于一个阈值,则返回空的结果,以保证输入法不会显示太多无用的候选项,等等。
可见,在这种方式下,当需要进行网络取词时,输入法平台可以将所述输入内容发送到搜索引擎服务器;此时,搜索引擎服务器用于收集用户输入的焦点词汇,而且应该能够提供字词转换接口(如,音->词匹配接口),当接收到用户的输入内容时,通过字词转换接口获得字词转换结果,并将所述字词转换结果返回。
该过程可以简单描述如下:1.输入法与搜索引擎服务器建立连接;2.输入法发送拼音串等用户输入内容到搜索引擎服务器;3.搜索引擎服务器进行匹配查找;4.搜索引擎服务器把结果返回给输入法;5.输入法根据返回结果向用户展现候选项。
(三)利用专门的词库服务器来获取对应的词汇,即输入法将用户的输入内容发送到该专门的词库服务器;该词库服务器用于实时收集通过各种渠道获取的新词,并添加到词库中,当接收到用户的输入内容时,获得字词转换结果,并将所述字词转换结果返回。
词库服务器维护了一个大而全的超级词库,词库更新的时效性可以达到较高水平。由于可以及时更新当下的流行新词,那么完全匹配用户输入词的可能性就大大提高了。
如果说输入法本地取词会有词库更新、组词运算的资源开销,那么把部分词库放在专门的服务器上则可以解决该问题,该服务器是输入法专用服务器,专门用户根据用户输入给出转换结果,由该服务器来维护词库的更新、以及相应的匹配运算,这样输入法客户端只需要占用少许网络带宽即可完成同样的功能,并且还可能增加首选准确率。
同时,由于有专门的服务器来做匹配的工作,那么可以应用更复杂、更精确的组词算法,并将工作量分配到多台服务器上并行执行,以期获得更加符合用户预期的候选结果。另外,由于算法也在服务器端完成,因此修改、升级算法可以对用户透明,做到对用户的完全无影响。
因此,相当于拥有一个超级服务器,里面保存了更大的词库以及更大的二元(或多元)关系库。服务器端可以存在一个程序,二十四小时不间断收集各种渠道获取的新词,包括但不限于搜索引擎整理出的新词热词、用户提交的新词热词等等,然后经过机器或者人工筛选,添加到现有的服务器词库中。
当用户输入“ai’de’hua’er’zi”后,输入法将该拼音串发送给词库服务器,服务器接收到该字符串后,通过拼音匹配或者组词计算之后,将找到的词返回给输入法(例如“爱的华尔兹”)。最后,输入法将接收到的结果显示给用户。
此外,在上述专门的词库服务器基础上,还可以针对某一类用户可能频繁使用的词汇组成专业词库,并且还可以提高专业词库的优先级,当接收到这类用户的输入内容时,优先根据所述专业词库获得字词转换结果。
例如,在企业内部的工作人员使用输入法时,可能会频繁涉及到专有的一类词汇。现在的主流输入法可以通过在用户本地增加类别词库的方法来达到增加某类词汇的目的,但是同样涉及到了更新不及时等问题。为此,就可以针对该企业内部的工作人员提供服务器端的专业词库,通过更新企业内服务器上的专业词库,即可解决该问题。
专业词库服务器相当于是在所述词库服务器的基础上,额外增加了专业词汇词库,并适当调高该专业词库的优先级,以便优先返回命中该词库的词条。该专业词汇库可以由人手工整理,也可以通过解析程序分析公司的内部文档,从而提取出常用、公用的词汇等。
当员工通过输入法获取了网络取词结果,并且选择上屏之后,可以再经过输入法将用户的选词状况返回给服务器,由服务器将该词的词频增加1(或其他调整)。
其中,在通过所述专门的词库服务器进行网络取词时,同样需要通过网络通讯与服务器建立连接,发送、接收指令及数据。
此外,服务器词库还可以随着时间段、事件等外界因素,动态调整整体组词结果的侧重点。例如,目前正处于国庆期间,可以适当地提高国庆期间常用的词汇的优先级。通过动态地、透明地更改侧重点,可以更加符合用户在一段时间内的输入需求,从而间接提高符合用户预期的概率。
另外,本地词库与服务器之间还可以互相优化,例如,在通过网络取词从服务器获取到字词转换结果之后,如果所述服务器返回的字词转换结果尚未出现在本地词库中,则可以将所述服务器返回的字词转换结果添加到本地词库中,这样下次用户再输入该词条时,就可以直接从本地词库获取。
同样,输入法还可以将用户的选词状况返回给服务器,以便服务器进行词频调整。例如,当某用户通过输入法获取了网络取词结果,并且选择上屏之后,输入法可以将用户选择了一次该词条的信息发送到服务器,由服务器将该词条的词频增加1(或做其他调整)。这样做的目的是返回用户选择情况,进而把相应的词提高词频,为以后其他用户提供最可能的候选词。与本地词库的区别在于:本地词库的词频只写到本地词库,并且仅仅是针对用户自己的;而反馈到服务器,就是给整体词库的词频进行增减。
与本发明实施例提供的字词转换结果的获取方法相对应,本发明实施例还提供了一种字词转换结果的获取系统,参见图2,该系统包括:
本地取词单元U201,用于针对用户的输入内容,根据本地词库进行候选词转换;
触发单元U202,用于当转换结果不符合预置条件时,将所述输入内容发送到服务器;
服务器U203,用于根据所述输入内容得到字词转换结果;
显示单元U204,用于接收服务器返回的字词转换结果,并将该字词转换结果显示给用户。
可见,根据本发明实施例提供的系统,当依据本地词库的转换结果不理想时,能够通过网络取词获取候选项,由于服务器具有强大的数据存储能力及计算能力,而且可以做到词库的实时更新,因此,可以提供更多更好的候选项,提高给出符合用户预期的候选项的概率。可见,通过本发明实施例提供的方法,可以利用服务器的数据及计算资源,作为本地资源的补充,从而摆脱本地资源限制,为用户提供更多更好的候选项。
同时,由于本发明实施例可以当本地词库中的转换结果不理想时,再进行网络取词(即不是一直都进行网络取词,只有在必要时进行网络取词),因此可以实现本地取词与网络取词的优势互补(本地取词虽然受到本地资源的限制,但是可以实时进行转换,给出候选项时没有时延;而网络取词虽然资源不受限制,但是由于需要进行网络传输,因此,会带来网络开销及一定的时延),可以在保证为用户提供高质量的候选项的前提下,尽量减少网络取词带来的网络开销及时间开销。
转换结果不理想的触发事件可以有多种,其中一种是,输入法可以主动判断本地取词的转换结果是否符合用户的预期,此时,所述触发单元U202可以包括:
概率判断单元,用于获取所述转换结果的匹配准确率,当所述匹配准确率低于预置阈值时,将所述输入内容发送到服务器。
具体的判断方法可以有多种情况,所述概率判断单元包括:
第一判断单元,用于当用户的输入内容命中了本地词库的词条时,查询词条的词频,如果词条的词频小于预置阈值,则将所述输入内容发送到服务器。
此外,所述概率判断单元也可以包括:
第二判断单元,用于当根据本地词库中的多元数据,组合成针对用户输入内容的合成词时,获取所述合成词的稳定性值,如果所述稳定性值小于预置阈值,则将所述输入内容发送到服务器。
其中,所述第二判断单元可以包括:
第一稳定性值获取单元,用于对所述合成词中相邻语素的多元关系值进行综合折算,获得所述合成词的稳定性值。
所述第二判断单元也可以包括:
第二稳定性值获取单元,用于对所述合成词中各语素的词频进行综合折算,获得所述合成词的稳定性值。
在其他实施例中,也可以由用户手动触发进行网络取词,例如,当用户发现根据本地取词的转换结果均不符合自己的预期时,通过按下预置的快捷键或组合键的方式,触发进行网络取词,此时,触发单元U202包括:
接口单元,用于当接收到用户输入的进行网络取词的请求时,将所述输入内容发送到服务器。
其中,服务器U203可以包括:
搜索引擎服务器,具有字词转换接口,用于收集用户通过搜索引擎输入的焦点词汇,当接收到用户的输入内容时,通过字词转换接口从所述焦点词汇中获得字词转换结果,并将所述字词转换结果返回;
具体进行网络取词时,触发单元U202包括:
第一发送单元,用于将所述输入内容发送到所述搜索引擎服务器。
此外,所述服务器也可以包括:
词库服务器,用于实时收集通过各种渠道获取的新词,并添加到词库中,当接收到用户的输入内容时,获得字词转换结果,并将所述字词转换结果返回;
具体进行网络取词时,触发单元U202包括:
第二发送单元,用于将所述输入内容发送到所述词库服务器。
所述词库服务器中包括细胞词库,当接收到用户的输入内容时,优先根据所述细胞词库获得字词转换结果。
另外,该系统还可以随着时间段、事件等外界因素,动态调整整体组词结果的侧重点,从而间接提高符合用户预期的概率。因此,参见图3,该系统还包括:
词库调整单元U205,用于根据外界因素对服务器的词库进行调整。
本地词库与服务器之间还可以互相优化,对本地词库进行优化时,该系统还可以包括:
本地词库更新单元U206,用于如果所述服务器返回的字词转换结果未出现在本地词库中,则将所述服务器返回的字词转换结果添加到本地词库中。
对服务器词库进行优化时,该系统还可以包括:
选词状况反馈单元U207,用于将用户的选词状况返回给服务器,以便服务器进行词频调整。
本发明中所描述的系统、装置和方法适用于各种网络或客户端环境中,其例如可以实现在诸如个人计算机设备之类的计算机设备中,或者可以实现在诸如移动电话、移动通信设备、个人数字助理(PDA)等其他电子设备中。
以上对本发明所提供的一种字词转换结果的获取方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (20)
1.一种字词转换结果的获取方法,其特征在于,包括:
针对用户的输入内容,根据本地词库进行候选词转换,得到转换结果;
获取所述转换结果的匹配准确率,当所述匹配准确率低于预置阈值时,将所述输入内容发送到服务器;和/或,当所述转换结果不符合用户预期并接收到用户输入的进行网络取词的请求时,将所述输入内容发送到服务器;其中,所述匹配准确率为所述转换结果与用户预期相符合的概率;
接收服务器返回的字词转换结果,并将该字词转换结果显示给用户。
2.根据权利要求1所述的方法,其特征在于,所述获取所述转换结果的匹配准确率,当所述匹配准确率低于预置阈值时,将所述输入内容发送到服务器包括:
当用户的输入内容命中了本地词库的词条时,查询词条的词频,如果词条的词频小于预置阈值,则将所述输入内容发送到服务器。
3.根据权利要求1所述的方法,其特征在于,所述获取所述转换结果的匹配准确率,当所述匹配准确率低于预置阈值时,将所述输入内容发送到服务器包括:
当根据本地词库中的多元数据,组合成针对用户输入内容的合成词时,获取所述合成词的稳定性值,如果所述稳定性值小于预置阈值,则将所述输入内容发送到服务器。
4.根据权利要求3所述的方法,其特征在于,所述获取所述合成词的稳定性值包括:
对所述合成词中相邻语素的多元关系值进行综合折算,获得所述合成词的稳定性值。
5.根据权利要求3所述的方法,其特征在于,所述获取所述合成词的稳定性值包括:
对所述合成词中各语素的词频进行综合折算,获得所述合成词的稳定性值。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述将所述输入内容发送到服务器包括:
将所述输入内容发送到搜索引擎服务器;所述搜索引擎服务器具有字词转换接口,用于收集用户通过搜索引擎输入的焦点词汇,当接收到用户的输入内容时,通过字词转换接口从所述焦点词汇中获得字词转换结果,并将所述字词转换结果返回。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述将所述输入内容发送到服务器包括:
将所述输入内容发送到词库服务器;所述词库服务器用于实时收集通过各种渠道获取的新词,并添加到词库中,当接收到用户的输入内容时,获得字词转换结果,并将所述字词转换结果返回。
8.根据权利要求7所述的方法,其特征在于,所述词库服务器中包括细胞词库,当接收到用户的输入内容时,优先根据所述细胞词库获得字词转换结果。
9.根据权利要求1至5任一项所述的方法,其特征在于,还包括:
如果所述服务器返回的字词转换结果未出现在本地词库中,则将所述服务器返回的字词转换结果添加到本地词库中。
10.根据权利要求1至5任一项所述的方法,其特征在于,还包括:
将用户的选词状况返回给服务器,以便服务器进行词频调整。
11.一种字词转换结果的获取系统,其特征在于,包括:
本地取词单元,用于针对用户的输入内容,根据本地词库进行候选词转换,得到转换结果;
概率判断单元,用于获取所述转换结果的匹配准确率,当所述匹配准确率低于预置阈值时,将所述输入内容发送到服务器;和/或,接口单元,用于当所述转换结果不符合用户预期并接收到用户输入的进行网络取词的请求时,将所述输入内容发送到服务器;其中,所述匹配准确率为所述转换结果与用户预期相符合的概率;
显示单元,用于接收服务器返回的字词转换结果,并将该字词转换结果显示给用户。
12.根据权利要求11所述的系统,其特征在于,所述概率判断单元包括:
第一判断单元,用于当用户的输入内容命中了本地词库的词条时,查询词条的词频,如果词条的词频小于预置阈值,则将所述输入内容发送到服务器。
13.根据权利要求11所述的系统,其特征在于,所述概率判断单元包括:
第二判断单元,用于当根据本地词库中的多元数据,组合成针对用户输入内容的合成词时,获取所述合成词的稳定性值,如果所述稳定性值小于预置阈值,则将所述输入内容发送到服务器。
14.根据权利要求13所述的系统,其特征在于,所述获取所述合成词的稳定性值包括:
对所述合成词中相邻语素的多元关系值进行综合折算,获得所述合成词的稳定性值。
15.根据权利要求13所述的系统,其特征在于,所述获取所述合成词的稳定性值包括:
对所述合成词中各语素的词频进行综合折算,获得所述合成词的稳定性值。
16.根据权利要求11至15任一项所述的系统,其特征在于,所述将所述输入内容发送到服务器包括:
将所述输入内容发送到所述搜索引擎服务器,所述搜索引擎服务器具有字词转换接口,用于收集用户通过搜索引擎输入的焦点词汇,当接收到用户的输入内容时,通过字词转换接口从所述焦点词汇中获得字词转换结果,并将所述字词转换结果返回。
17.根据权利要求11至15任一项所述的系统,其特征在于,所述将所述输入内容发送到服务器包括:
将所述输入内容发送到所述词库服务器,所述词库服务器用于实时收集通过各种渠道获取的新词,并添加到词库中,当接收到用户的输入内容时,获得字词转换结果,并将所述字词转换结果返回。
18.根据权利要求17所述的系统,其特征在于,所述词库服务器中包括细胞词库,当接收到用户的输入内容时,优先根据所述细胞词库获得字词转换结果。
19.根据权利要求11至15任一项所述的系统,其特征在于,还包括:
本地词库更新单元,用于如果所述服务器返回的字词转换结果未出现在本地词库中,则将所述服务器返回的字词转换结果添加到本地词库中。
20.根据权利要求11至15任一项所述的系统,其特征在于,还包括:
选词状况反馈单元,用于将用户的选词状况返回给服务器,以便服务器进行词频调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910236605XA CN101697099B (zh) | 2009-10-26 | 2009-10-26 | 一种字词转换结果的获取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910236605XA CN101697099B (zh) | 2009-10-26 | 2009-10-26 | 一种字词转换结果的获取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101697099A CN101697099A (zh) | 2010-04-21 |
CN101697099B true CN101697099B (zh) | 2012-06-27 |
Family
ID=42142205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910236605XA Active CN101697099B (zh) | 2009-10-26 | 2009-10-26 | 一种字词转换结果的获取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101697099B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982023A (zh) * | 2011-09-02 | 2013-03-20 | 北京百度网讯科技有限公司 | 一种提供搜索建议的方法及装置 |
CN103034632A (zh) * | 2011-09-29 | 2013-04-10 | 北京神州泰岳软件股份有限公司 | 一种信息传送方法和系统 |
CN102999275B (zh) * | 2012-10-11 | 2015-12-09 | 北京搜狗科技发展有限公司 | 获取字词转换结果的方法及装置 |
CN103092826B (zh) * | 2012-12-31 | 2018-06-05 | 百度在线网络技术(北京)有限公司 | 一种根据用户的输入信息构建输入词条的方法与设备 |
GB201511887D0 (en) | 2015-07-07 | 2015-08-19 | Touchtype Ltd | Improved artificial neural network for language modelling and prediction |
CN106445181A (zh) * | 2016-05-13 | 2017-02-22 | 深圳市熊天科技有限公司 | 一种输入法 |
US11205110B2 (en) * | 2016-10-24 | 2021-12-21 | Microsoft Technology Licensing, Llc | Device/server deployment of neural network data entry system |
US20180227239A1 (en) * | 2017-02-06 | 2018-08-09 | Honeywell International Inc. | Efficient message combining communication exchange system |
CN109144285B (zh) * | 2017-06-16 | 2022-09-06 | 北京搜狗科技发展有限公司 | 一种输入方法和装置 |
CN109558017B (zh) * | 2017-09-26 | 2023-02-03 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和电子设备 |
CN111522448B (zh) * | 2019-02-02 | 2024-04-30 | 北京搜狗科技发展有限公司 | 一种提供输入候选项的方法、装置和设备 |
-
2009
- 2009-10-26 CN CN200910236605XA patent/CN101697099B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101697099A (zh) | 2010-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101697099B (zh) | 一种字词转换结果的获取方法及系统 | |
EP3933657A1 (en) | Conference minutes generation method and apparatus, electronic device, and computer-readable storage medium | |
CN102207945B (zh) | 基于知识网络的文本标引系统及其方法 | |
KR20220027220A (ko) | 자연어 이해(nlu) 프레임워크에서의 예측 유사도 스코어링 서브시스템 | |
US8126897B2 (en) | Unified inverted index for video passage retrieval | |
US20050283369A1 (en) | Method for speech-based data retrieval on portable devices | |
CN103810168A (zh) | 检索应用的方法、装置及终端 | |
CN107222757A (zh) | 一种语音搜索方法、机顶盒、存储介质、服务器和系统 | |
CN111931500B (zh) | 搜索信息的处理方法、装置 | |
KR101195341B1 (ko) | 미등록 단어의 카테고리 결정 방법 및 장치 | |
WO2007008798A3 (en) | System and method for searching for network-based content in a multi-modal system using spoken keywords | |
CN101013443A (zh) | 一种智能组词输入的方法和一种输入法系统及其更新方法 | |
CN101149758A (zh) | 搜索系统及搜索方法 | |
CN105574138A (zh) | 一种信息检索系统 | |
CN1687925A (zh) | 一种实现双语网页搜索的方法 | |
US20090192991A1 (en) | Network information searching method by speech recognition and system for the same | |
CN103092943A (zh) | 一种广告调度的方法和广告调度服务器 | |
CN105912662A (zh) | 基于Coreseek的垂直搜索引擎研究与优化的方法 | |
CN100456293C (zh) | 一种信息快捷搜索客户端、系统及方法 | |
CN109063166A (zh) | 一种语音查询方法及装置、用户设备 | |
CN101901276A (zh) | 智能查询系统及查询方法 | |
CN115248839A (zh) | 一种基于知识体系的长文本检索方法以及装置 | |
US7730061B2 (en) | Fast-approximate TFIDF | |
CN111538817A (zh) | 人机交互方法和装置 | |
CN112948573B (zh) | 文本标签的提取方法、装置、设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |