CN101697109A - 一种获取输入法候选项的方法及系统 - Google Patents

一种获取输入法候选项的方法及系统 Download PDF

Info

Publication number
CN101697109A
CN101697109A CN200910236606A CN200910236606A CN101697109A CN 101697109 A CN101697109 A CN 101697109A CN 200910236606 A CN200910236606 A CN 200910236606A CN 200910236606 A CN200910236606 A CN 200910236606A CN 101697109 A CN101697109 A CN 101697109A
Authority
CN
China
Prior art keywords
data source
user
server
transformation result
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910236606A
Other languages
English (en)
Inventor
张扬
何立涛
贾剑峰
王砚峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN200910236606A priority Critical patent/CN101697109A/zh
Publication of CN101697109A publication Critical patent/CN101697109A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种获取输入法候选项的方法及系统,所述方法包括:接收用户的输入内容;从至少一个远程数据源获取针对所述输入内容的转换结果;根据所述转换结果展现候选项。通过本发明,能够根据现有的本地输入法所不能实时获取的网络资源生成最佳候选项,即能够为输入法用户提供更好更多的候选项,以便从整体上提高打字的速度。

Description

一种获取输入法候选项的方法及系统
技术领域
本发明涉及输入法技术领域,特别是涉及一种获取输入法候选项的方法及系统。
背景技术
当前的输入法系统(包括中文、日文、英文以及韩文等等)都是基于其词库系统以及词库系统中的词频来为使用者在信息输入过程中提供候选词及其排序。
以中文输入法为例,当前流行的输入法软件的候选项内容,是根据输入法所附带的本地词库来进行匹配和组合的。本地词库储存了单纯词、合成词以及词的二元关系(或多元)。当用户输入的拼音串可以完全命中单纯词或者合成词时,则根据这些词的词频,依次罗列候选项;当不能完全匹配时,输入法会根据诸多词的二元(或多元)关系,自动组合出可能符合用户预期的合成词。
但是,当用户输入的拼音串没有命中词库,或者命中了词库但给出的候选项不符合用户的预期时,就需要用户去手动选择各个语素,以便达到预期,从而导致了用户输入速度的降低。
为了解决无匹配,或者匹配准确率不高的问题,现有的输入法系统采用对本地词库进行升级更新(增量式)的方法,以便能匹配用户的输入,或者根据二元(或多元)关系,来自动组合出用户需要的词。但本地词库的更新不可能频繁进行(网络、系统资源的占用等因素),其时效性也并不好。例如,目前的输入法基本词库随版本发布,更新周期一般在一个月左右。词库的更新过程可以是网络在线安装,或者是手动下载安装包安装。每个输入法新版的发布,都需要产品策划、开发、测试等一系列流程。本地的扩展词库更新周期不定,一些时效性较强的扩展词库虽然最快可做到每天更新,但总的说来,输入法资源更新仍不能在第一时间做到实时更新,或多或少存在滞后情况。如果用户输入的新词还没有更新到本地词库中,则导致无法给出针对该新词的候选项。
发明内容
本发明提供一种获取输入法候选项的方法及系统,能够充分利用外界的远程数据,为输入法用户提供与输入内容匹配效果更好、数据实时性更强、数据源更广泛的候选项。
本发明提供了如下方案:
一种获取输入法候选项的方法,包括:
接收用户的输入内容;
从至少一个远程数据源获取针对所述输入内容的转换结果;
根据所述转换结果展现候选项。
优选的,所述至少一个远程数据源包括远程词库服务器、对等机词库服务器、异构信息服务器及带有字词转换接口及焦点词汇收集功能的搜索引擎服务器中的任意一个或任意多个组合。
优选的,所述远程词库服务器包括远程基本词库服务器、远程新词服务器、远程组词服务器及远程细胞词库服务器中的任意一个或任意多个组合。
优选的,所述至少一个远程数据源由用户指定,或者,由输入法系统预置,或者,由输入法系统动态加载。
优选的,所述根据所述转换结果展现候选项包括:
将从各个数据源获得的转换结果进行排序,展现所述排序后的转换结果。
优选的,所述将从各个数据源获得的转换结果进行排序包括:
根据数据源的整体优先级、转换结果在所属数据源中的得分、数据源的权重、数据源间候选项得分的归一化因子和/或屏蔽标志位,将从各个数据源获得的转换结果进行排序。
优选的,还包括:
接收用户的修改请求,将数据源的整体优先级或权重调整为用户的指定值;
或者,
根据用户的输入环境相关信息,调整数据源的整体优先级或权重。
优选的,所述根据所述转换结果展现候选项包括:
将来自不同数据源的转换结果在用户显示界面上进行区分显示。
优选的,还包括:
根据用户兴趣选择和/或更新所述数据源。
优选的,还包括:
将本地的用户词和/或环境相关参数上传至远程词库服务器,以便所述远程词库服务器针对用户返回个性化的转换结果。
一种获取输入法候选项的系统,包括:
接收单元,用于接收用户的输入内容;
获取单元,用于从至少一个远程数据源获取针对所述输入内容的转换结果;
展现单元,用于根据所述转换结果展现候选项。
优选的,所述至少一个远程数据源包括远程词库服务器、对等机词库服务器、异构信息服务器及带有字词转换接口及焦点词汇收集功能的搜索引擎服务器中的任意一个或任意多个组合。
优选的,所述远程词库服务器包括远程基本词库服务器、远程新词服务器、远程组词服务器及远程细胞词库服务器中的任意一个或任意多个组合。
优选的,所述至少一个远程数据源由用户指定,或者,由输入法系统预置,或者,由输入法系统动态加载。
优选的,所述展现单元包括:
排序子单元,用于将从各个数据源获得的转换结果进行排序;
展现子单元,用于展现所述排序后的转换结果。
优选的,所述排序子单元具体用于根据数据源的整体优先级、转换结果在所属数据源中的得分、数据源的权重、数据源间候选项得分的归一化因子和/或屏蔽标志位,将从各个数据源获得的转换结果进行排序。
优选的,还包括:
第一调整单元,用于接收用户的修改请求,将数据源的整体优先级或权重调整为用户的指定值;
或者,
第二调整单元,用于根据用户的输入环境相关信息,调整数据源的整体优先级或权重。
优选的,所述展现单元包括:
区分显示子单元,用于将来自不同数据源的转换结果在用户显示界面上进行区分显示。
优选的,还包括:
处理单元,用于根据用户兴趣选择和/或更新所述数据源。
优选的,还包括:
上传单元,用于将本地的用户词和/或环境相关参数上传至远程词库服务器,以便所述远程词库服务器针对用户返回个性化的转换结果。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明在接收用户的输入内容后,可以从多个数据源获取针对所述输入内容的转换结果,其中,所述数据源可以包括至少一个远程数据源;然后根据所述转换结果展现候选项。由于可以从多个数据源获取数据,因此,可以减少本地的资源开销,摆脱本地资源的限制,充分利用外界的数据及计算资源,能够根据现有的本地输入法所不能实时获取的网络资源生成最佳候选项,即能够为输入法用户提供更好更多的候选项,以便从整体上提高打字的速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的方法的流程图;
图2是本发明实施例提供的方法中一展现界面示意图;
图3是本发明实施例提供的方法中另一展现界面示意图;
图4是本发明实施例提供的系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明实施例提供的获取输入法候选项的方法包括以下步骤:
S101:接收用户的输入内容;
其中,所述用户输入内容可以是通过键盘输入的拼音、笔画等编码字符串,也可以是采用手写、语音等其他输入方式输入的内容。当然,在以手写或语音等输入方式下,本发明实施例适用于手写或语音方式输入后,输入法同样根据用户输入进行转换,并给出多个候选词供用户选择的情况。例如,用户在触摸屏上手写了“手”,输入法会针对该手写字给出与其同音的多个候选词,如“手”、“收”、“受”等,用户同样会在各个候选词中选择自己需要的候选词。又如,用户采用语音的方式读出需要的字词或句子,输入法可以根据读音转换出多个转换结果供用户选择。
S102:从至少一个远程数据源获取针对所述输入内容的转换结果;
S103:根据所述转换结果展现候选项。
需要说明的是,本发明实施例所述至少一个远程数据源可以包括非本地的所有可能的数据源,但这并不是说将本地数据源排除在外,即只要使用至少一个远程数据源,则不管是否使用了本地数据源,都属于本发明的保护范畴。当从多个数据源获取到转换结果时,本发明实施例则可以将该多个数据源的转换结果进行合并,然后展现给用户。其中,合并的过程可以包括除去重复的转换结果等。
在本发明实施例中,本地数据源可以包括本地的基本词库、扩展词库、组词词库、用户词库等等。其中,基本词库用于保存满足大部分用户基本输入需要的词条列表。其收录的词条具有用户覆盖面广,重复使用率高的特点。基本词库对于所有用户都是一样的。
扩展词库用于保存满足用户特定输入需要的词表。相对基本词库而言,扩展词库条目涉及内容较狭窄,专业性或时效性较强。例如英文词库、各分类专业词库等,通常,用户可以根据实际需要决定是否使用扩展词库,或者选择合适的分类专业词库。
输入法组词是指,当输入法用户一次性输入内容较长,粒度超过一个词条时,输入法词库无法直接覆盖,需要输入法系统根据用户的输入意图,将词条加以组合,生成尽可能匹配输入法用户意图的词条组合,帮助用户完成输入。组词词库就用于保存词条的多元关系,当用户输入内容的粒度超过一个词条时,通过词条之间的多元关系组合成合成词。
用户词库用于保存用户曾经输入过的词表,该词库所收录的词条是因人而异的,通常,使用用户词库可以为用户提供个性化的候选项。
远程数据源是相对于本地数据源而言的,现有技术中,在进行字词转换的过程中,通常仅从本地数据源获取候选项,即使用上述各种本地词库进行候选项的生成。而本发明实施例中,则可以从至少一个远程数据源获取转换结果,例如,所述远程数据源可以包括远程词库服务器。该远程词库服务器可以维护一个大而全的超级词库,词库更新的时效性可以达到较高水平。由于可以及时更新当下的流行新词,那么完全匹配用户输入词的可能性就大大提高了。
如果说输入法本地取词会有词库更新、组词运算的资源开销,那么把部分词库放在专门的服务器上则可以解决该问题,该服务器是输入法专用服务器,专门用户根据用户输入给出转换结果,由该服务器来维护词库的更新、以及相应的匹配运算,这样输入法客户端只需要占用少许网络带宽即可完成同样的功能,并且还可能增加首选准确率。
同时,由于有专门的服务器来做匹配的工作,那么可以应用更复杂、更精确的组词算法,并将工作量分配到多台服务器上并行执行,以期获得更加符合用户预期的候选结果。另外,由于算法也在服务器端完成,因此修改、升级算法可以对用户透明,做到对用户的完全无影响。
因此,相当于拥有一个超级服务器,里面保存了更大的词库以及更大的二元(或多元)关系库。服务器端可以存在一个程序,二十四小时不间断收集各种渠道获取的新词,包括但不限于搜索引擎整理出的新词热词、用户提交的新词热词等等,然后经过机器或者人工筛选,添加到现有的服务器词库中。另外,由于算法也在服务器端完成,因此修改、升级算法可以对用户透明,做到对用户的完全无影响。
当然,为了进一步提高远程词库服务器的性能,可以将工作量分配到多台服务器上并行执行,以期获得更加符合用户预期的候选结果。例如,可以将远程词库服务器分为远程基本词库服务器、远程新词服务器、远程组词服务器及远程细胞词库服务器。远程基本词库服务器专门用于收录大多数用户都常用的词条;远程新词服务器专门用于实时收录新词热词;远程组词服务器专门用于提供词条的二元或多元关系,进行组词;远程细胞词库服务器专门用于提供各种细胞词库。此外,还可以存在一台或多台服务器作为控制服务器,用于在各个远程服务器间分配计算,并整合运算结果。
另一种远程数据源可以是对等机词库服务器。所述对等一般指用户因某种关系(临近地域、统一组织内部、类似兴趣)绑定在一起时,相互结成对等关系(peer)。构成对等关系的两台机器称为对等机器,可在输入法词库、计算资源层面上进行共享。多个对等机器在输入法词库层面上共享时,则构成词库圈子。对等机器一般是输入法用户所使用的,与专门提供词库及相关资源的词库服务器相区别。例如,用户A与用户B是都是某公司的员工,则两者可以进行输入法词库(比如公司内部员工姓名词库、公司专用术语词库等)的共享,两者的机器互相成为对方的对等机器,当用户A进行字词输入时,可以使用用户B机器中共享出来的词库,生成候选项。
此外,再一种远程数据源可以是异构信息服务器。其中,异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,每个数据库系统在加入异构数据库系统之前本身就已经存在。异构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍保有自己的应用特性、完整性控制和安全性控制。在本发明实施例中,所述异构信息服务器可以包括远程百科服务器、远程翻译服务器等等。通过异构信息服务器,可以向用户提供词条的英文释义、百科释义等相关信息。需要说明的是,本地并不提供此类候选项数据源,而全部来自外界提供,这类数据源可以统称为异构数据源。
其中,需要说明的是,由于异构数据源中保存的是某词条的英文释义、百科释义等信息,因此,从异构信息服务器获取数据的目的可能并不是获取词条,而是获取词条的英文释义、百科释义等相关信息。在向用户展现候选项时,如果获取到了某候选项的英文释义、百科释义等相关信息,则直接将其英文释义、百科释义等展现在候选框的某位置即可。
另外需要说明的是,为了能够使输入法系统能够直接从中获取到信息,可以在异构数据源中提供音->词转换接口,根据用户输入的拼音,可以首先通过音->词转换接口查找对应的词条,然后获取该词条对应的英文释义、百科释义等信息即可。
在实际应用中,还可以有另外一种远程数据源,即带有字词转换接口及焦点词汇收集功能的搜索引擎服务器。搜索引擎是网络用户获取、查询信息的重要工具,搜索引擎具有查询速度快、信息量大的优点,并且当前的搜索引擎具有统计用户搜索关键词的功能,用来分析当前搜索的趋势,然后搜索引擎会对关键词按搜索指数进行排序,比如:台湾台风1000000、口靓模900000、爱的华尔兹800000等等。因此,搜索引擎很容易收集到时下用户关注的焦点词汇,并记录其使用的次数,而这些焦点词汇很可能就是用户需要在输入法中用到的。因此输入法通过搜索引擎的强大查询能力与庞大的资源库,会有很大的机会找到完全符合用户预期的词,再辅以词汇的关注程度,可以大大提高输入法的首选准确率。
当然,在具体实现时,搜索引擎服务器相对于普通的搜索引擎服务器而言,需要增加字词转换接口,当接收到用户的输入内容时,搜索引擎服务器可以通过字词转换接口从所述焦点词汇中获得字词转换结果,并将所述字词转换结果返回。例如,当用户输入“ai’de’hua’er’zi”后,输入法系统可以将该拼音串发送给搜索引擎服务器,服务器接收到该字符串后,通过查找关键词列表后,返回与该拼音串相应的焦点词汇,例如,可能是一个最匹配且同音下指数最高的词返回给输入法(例如“爱的华尔兹”)。最后,以便输入法将接收到的结果显示出来。
可见,实际应用中,所述至少一个远程数据源包括远程词库服务器、对等机词库服务器、异构信息服务器及带有字词转换接口及焦点词汇收集功能的搜索引擎服务器中的任意一个或任意多个组合。总之,本发明实施例旨在通过多种数据源的结合,为用户提供更多更符合用户预期的候选项。其中,在默认情况下,各种数据源可以任意组合,例如,可以由系统预置,或者,由系统动态加载。为了进一步提高候选项的质量,减少干扰候选项,可以根据用户的需要进行个性化配置,例如,可以由输入法系统根据用户的兴趣选择使用哪个或哪些数据源;也可以在客户端提供配置的入口,由用户自行设置需要使用哪个或哪些数据源,同时还可以设置其他的相关信息。例如,参见表1,给出了各种设置项名称、类型及可能的配置实例。
表1
Figure G2009102366064D0000091
Figure G2009102366064D0000101
其中,由于如果数据源为非本地词库,则需要将用户的输入内容通过网络通讯发送到目标远程数据源,因此,输入法需要选择发送时机。由于使用输入法的用户可能有多个,需要同时进行网络取词的用户可能也有多个,同时,相同类型的服务器也会有多个,因此,在向服务器发送用户的输入内容时,可以首先进行负载平衡判断,进行负载平衡判断需要制定相应的策略,该策略可以由本地制定,也可以由距离用户最近的服务器来制定;具体由本地还是服务器指定可以由用户设置。其他各设置项的名称及类型可以参见表1,这里不再进行详述。
用户完成配置之后,输入法可以响应用户输入的发送时机(实时响应或等待完整输入结束);并确定以下信息:获取候选项的数据源类型、具体地址及负载平衡策略,目标数据源可以是远程基本词库服务器、远程组词服务器、远程百科服务器,对等机词库服务等等;获取候选项的格式,协议版本等;用户个性化信息处理,如专业细胞词库;其它,如超时返回时间,本地缓存更新周期,等;一种可能的配置内容及实际设置示例参见表1。
从多个数据源获取到转换结果后,除了将相同的转化结果进行合并以外,还可以从各个数据源获得的转换结果进行排序。即,在本发明实施例中,能够识别哪些转换结果来自哪个数据源,然后将所有的转换结果按照预置的策略进行排序,以期为用户提供最佳的候选项,并提高首选项的命中率。
当然,由于可能是从多个数据源获取到转换结果,因此,所述排序可以是指各个数据源之间的排序,同一数据源的转换结果仍采用原来的顺序;还可以是指将各个数据源的转换结果全部放在一起进行统一的重新排序。当然,对于异构信息服务器获取到的数据,可以与其他各数据源的转换结果进行数据源之间的排序,如将异构信息服务器获取到的数据整体放在其他数据源的转换结果之后等;另外,异构信息服务器获取到的数据由于可能是附加在某个词条之后的,因此,在排序时,可以首先将其他数据源的转换结果进行排序,然后将相关信息展现在相应的词条位置即可。
其中,具体在进行统一的重新排序时,可以根据数据源的整体优先级(比如数据源A词条均优先于数据源B词条排列,这称为绝对优先级)、转换结果在所属数据源中的得分、词条的权重(是指不存在绝对优先级的情况下,各词条按数据源的权重与匹配概率的乘积排序,不按数据源进行分组)、数据源间因统计语料量级差异等确定的归一化因子和/或屏蔽标志位,将从各个数据源获得的转换结果进行排序。
更为具体的,每个候选项参与排序的参数集合可表示为一个五元组:(candij,pi,scoreij,θi,fi),其中,
candij表示来自数据源i的第j个候选词条;
pi表示该数据源的整体优先级,如果对所有候选均为0,则按照得分通排,否则按照优先级确定数据源分组的先后顺序;
scoreij是该候选项在数据源i给出的候选列表中排在第j个位置的得分;通常,可以通过统计词条在语料库中的词频来获得候选项的得分;同时,该得分可以随着用户的使用而不断更新,例如,用户每上屏一次某候选项,则可以将词库中该候选项的词频加1。
θi是用于调整数据源与数据源间因统计语料量级差异等给出的归一化因子;在本发明实施例中,可以根据词条的得分对各数据源的词条进行排序,其中,词库中的各个词条及其得分通常都是从语料库中统计获得的,不同数据源的语料库的大小有所不同,当语料库之间存在量级差异时,直接比较词库中词条的得分可能是不准确的,此时,就需要将词条的得分进行归一化,然后再进行比较。
fi是标志位,表示在pi不为0的情况下,是否屏蔽优先级较低的数据源中的候选项。在所有候选pi均为0时,通排得分由如下公式给出:
scorenormed=scoreiji                                     (1)
其中,数据源的整体优先级、归一化因子、屏蔽标志位都可以是预先配置的,例如,整体优先级和归一化因子可以是由输入法系统预先根据词库的特征进行配置,当用户选择需要的数据源时,还可以同时设置屏蔽标志位,等等。而词条的得分是可以直接从各数据源获取的。
当然,在实际应用中,上述各参数也可以进行调整,例如,用户可以根据需要手动调整各个数据源的整体优先级或权重,输入法系统在接收到用户的修改请求时,将数据源的整体优先级或权重调整为用户的指定值;也可以由输入法系统自动根据用户的输入历史、当前输入的上下文、当前打开的网页或应用程序中的内容等输入环境相关信息自动调节数据源的整体优先级或权重等。
例如,用户选择的数据源为本地词库和网络新词服务器,输入内容为“tanlina”,得到的候选项及其排序数据如表2所示:
表2
Figure G2009102366064D0000131
最终的候选展现结果如图2,其中本地词库的第三个候选项与网络词库第一个候选重复且得分较低,归并到第一个候选里,不做重复展示。可见,如果用户想输入的是“谈莉娜”,则由于该候选项为首选项,因此,用户可以直接按空格键将其上屏输出,非常方便。
又如,用户选择的数据源为本地组词词库和远程组词服务器,输入内容为“daigeliangsantian”,得到的候选项及其排序数据如表3所示:
表3
  数据源   序号   候选项五元组   候选打分结果
  本地组词   1   (带个两三天,2,1991,1.0,1)   1991*1.0=1991
  网络组词   1   (呆个两三天,1,433,3.0,1)   433*3.0=1299
最终的候选展现结果如图3所示,其中,虽然本地组词候选得分要高于网络组词,但由于它的优先级为2,低于网络组词的1;同时五元组最后一项屏蔽标志位设为1,所以网络组词结果将本地组词结果屏蔽,显示出如图3的候选排序结果。
此外,由于不同的数据源中可能包含相同的转换结果,即,前文所述的重复转换结果的步骤,在进行排序时,可以将重复的次数作为排序的参考信息,例如,如果某转换结果在多个数据源中都有出现,则证明该转换结果符合用户预期的概率可能较高,因此,可以适当提升该转换结果的位置,等等。
需要说明的是,为了避免占用过多的本地资源,上述对各个数据源的转换结果进行合并以及排序等过程都可以是在服务器端进行的,即,所述控制服务器不仅可以用于将用户的输入内容分配到各个计算服务器(能够提供远程数据库的服务器),还可以收集各个计算服务器返回的结果,进行统一处理之后,再发送给客户端,这样,客户端仅进行展现即可。
排序之后,可以在用户显示界面上对候选项进行显示,在进行显示时,还可以将来自不同数据源的词条进行区分显示,例如,可以将来自数据源A的词条高亮显示,将来自数据源B的词条加粗显示,或者采用不同字体颜色进行显示,或者,也可以将不同数据源的词条在不同区域显示(例如,将各个数据源的词条分别在不同的候选框中展现等),还可以在各候选框的适当位置显示出该候选框中的词条来源于哪个数据源;再或者,还可以在一个区域中显示各个数据源的词条,此时可以在各个词条上加上标识,标识出分别来自于哪个数据源,等等。其中,标识出词条对应的数据源的方式,可以向用户提供更多的信息,例如,可以用户可能在使用一段时间过后,发现某个数据源的词条对自己非常有用,因此可以手动地加大该数据源的权重。
此外,还可以对获取到的词条进行后处理。例如,如果候选项中包括来自非本地词库的词条,则还可以对从这些非本地的数据源获取的信息进行缓存,当然,可以首先通过用户的配置信息,判断用户是否需要对这些信息进行缓存,或者用户是否仅需要对指定数据源的信息进行缓存,等等。
具体的,缓存可以包括以下两种情况:一是发生在用户进行过相关输入之前,称为预取(prefetching),就是系统预测用户将会进行某些输入,在网络空闲时提前加载这些数据资源;可以把本地系统词库看成是一个大的预取词库。二是发生在用户进行输入后,称为缓存(caching),因为用户输入过一次后,下次再次输入的可能性很大,所以保存本次结果,可以提升今后访问的速度。
所述后处理还可以包括针对外界的词条获取结果,对本地词库进行更新,包括增加未收录词条,去除网络大词库认定的垃圾词,更正本地词库词条的错误读音或频率,等等;另外,还可以针对用户兴趣更新数据源,例如,可以获取用户兴趣列表,然后自动加入、搜索、更新、注册相关数据源的服务器配置信息(ip、数据格式、版本等),以便在今后的用户输入中,自动地获取这些用户兴趣词库的候选项。其中,关于如何获取用户的兴趣列表,现有技术已经能够实现,这里不再赘述。
需要说明的是,非本地词库通常都是通用的,因此,针对相同的用户输入,提供的候选项都是相同的,无法为用户提供个性化的候选项。为了更好地将本地取词与网络取词相结合,可以使网络取词也实现个性化。具体的,可以将本地的用户词及相关参数上传至远程词库服务器,以便所述远程词库服务器针对用户返回个性化的转换结果。
以表3中涉及的拼音串“daigeliangsantian”为例,一般情况下,本地结果“带个两三天”要比远程组词服务器结果“呆个两三天”效果要差些。但如果本地的用户输入上下文涉及“代课”的内容,用户之前可能输入了“代个高三毕业班的课”,那么本地输入法学到了用户词“代个”,这样很可能本地的组词结果就变成了“代个两三天”,从用户意图看比没有使用用户词“代个”的远程结果要好。所以在这种方式下,可以在上传“daigeliangsantian”拼音串的同时,上传“代个”、“三体”这种符合拼音串切分规则的用户词,让远程服务器也能给出“代个两三天”的最优结果。从而在使用到远程组词服务器强大的计算能力之外,兼顾了用户个性化。
此外,由于用户的意图可能通过当前的一些环境信息体现出来,例如,用户正在编辑一篇关于专利的文章,则当期输入“quanli”这样的拼音串时,需要得到“权利”这一候选项的可能性要大些。因此,为了使远程数据库能够针对用户给出个性化的转换结果,还可以将用户当前浏览的本地的页面内容、当前打开的应用程序中的文字、已经输入的文字等作为语料素材或者整理成词库发送到远程服务器,再由远程服务器根据上述语料素材或者词库,结合原有的远程数据源生成转换结果,并把转换结果发送给客户端。
总之,本发明实施例可以从多个数据源获取信息,减少本地的资源开销,摆脱本地资源限制,充分利用本地及外界的计算能力,为输入法用户展现更高质量的候选项。对于本发明实施例的方案,下面做几下几点说明:
第一,网络上的各种资源(服务器、对等机器)本身就可看作本地存储及计算资源的延伸,去除网络通信速度相对本地而言慢一些之外,二者其实并没有本质的区别。需要说明的是,本地词库+网络词库的应用方式只是其中很典型的一种应用场景,不应理解为全部情况。本地词库甚至都可以不存在,在网络连接畅通的情况下完全依赖外界来提供候选项集合。
第二,关于候选项优先级中的屏蔽策略,以组词为例进行说明,如不考虑个性化(用户词参与组词),远程组词服务器因计算模型(比如选择trigram甚至更精细的语言模型,而本地采用较简单的bigram模型)、语料数据(如元词规模,统计语料量级、语料质量等)的关系组词结果绝对优于本地结果,那么就可以在能够获取远程组词结果的前提下(在超时前获取结果),屏蔽本地结果。
第三,当本地存在可用的数据资源时,如词库数据(即用户的输入内容能够直接命中本地词库中的词条),可以同时采用本地和网络资源(这里的网络资源含远程服务器或对等机等,下同)。外在表现为屏蔽网络取词前后候选项存在候选项数目或内容变化,而关闭网络连接后与屏蔽网络取词所得到的结果基本相同。
第四,当本地存在可用的计算资源时,比如组词服务(即能够通过本地多元关系库将用户的输入内容转换为某复合词),可以同时调用本地和网络的计算资源,将网络计算资源的结果返回,外在表现为屏蔽网络取词前后候选项存在候选项数目或内容发生变化,而关闭网络连接后与屏蔽网络取词所得到的结果基本相同。
第五,当本地不存在的数据资源时,可以从网络资源进行查找并返回结果,外在表现为屏蔽网络获取数据的功能或关闭网络连接后,无法为用户提供候选词。
第六,对于本地不存在、或无法承担计算任务的计算资源,可以调用网络计算资源进行计算,将结果返回,外在表现为屏蔽网络获取数据的功能或关闭网络连接后,无法为用户提供候选词。
一般情况下,上述数据流均在输入法界面中可设置为开启或关闭。个别情况会存在不能设置的情况,比如无替代数据,或者产品设计如此。
与本发明实施例提供的获取输入法候选项的方法相对应,本发明实施例还提供了一种获取输入法候选项的系统,参见图4,该系统包括:
接收单元U401,用于接收用户的输入内容;
获取单元U402,用于从至少一个远程数据源获取针对所述输入内容的转换结果;
展现单元U403,用于根据所述转换结果展现候选项。
其中,所述至少一个远程数据源包括远程词库服务器、对等机词库服务器、异构信息服务器及带有字词转换接口及焦点词汇收集功能的搜索引擎服务器中的任意一个或任意多个组合。
所述远程词库服务器可以包括远程基本词库服务器、远程新词服务器、远程组词服务器及远程细胞词库服务器中的任意一个或任意多个组合。
在实际应用中,输入法系统可以为用户提供设置入口,使用哪个或哪些数据源可以由用户根据实际需要指定;当然,也可以由输入法系统根据用户的兴趣进行选择。即,所述至少一个远程数据源由用户指定,或者,由输入法系统预置,或者,由输入法系统动态加载。
由于可能是从多个数据源获得转换结果,因此,还可以在获取到转换结果后,对各个转换结果进行排序,此时,展现单元U403可以包括以下子单元:
排序子单元,用于将从各个数据源获得的转换结果进行排序;
展现子单元,用于展现所述排序后的转换结果。
其中,所述排序子单元具体用于根据数据源的整体优先级、转换结果在所属数据源中的得分、数据源的权重、数据源间候选项得分的归一化因子和/或屏蔽标志位,将从各个数据源获得的转换结果进行排序。
该系统还可以包括:
第一调整单元,用于接收用户的修改请求,将数据源的整体优先级或权重调整为用户的指定值;
或者,
第二调整单元,用于根据用户的输入环境相关信息,调整数据源的整体优先级或权重。
在实际应用中,展现单元U403还可以包括:
区分显示子单元,用于将来自不同数据源的转换结果在用户显示界面上进行区分显示。
此外,该系统还可以包括:
处理单元,用于根据用户兴趣选择和/或更新所述数据源。
为了实现远程个性化转换,该系统还可以包括:
上传单元,用于将本地的用户词和/或环境相关参数上传至远程词库服务器,以便所述远程词库服务器针对用户返回个性化的转换结果。
需要说明的是,本发明实施例的系统中所述各单元或子单元可以全部位于客户端,也可以将部分单元(如所述排序子单元等)放在服务器,以避免占用过多的客户端资源。具体如何部署各个单元及子单元,本发明实施例中不做限制。
本发明中所描述的系统、装置和方法适用于各种网络或客户端环境中,其例如可以实现在诸如个人计算机设备之类的计算机设备中,或者可以实现在诸如移动电话、移动通信设备、个人数字助理(PDA)等其他电子设备中。
以上对本发明所提供的一种输入法候选项生成方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种获取输入法候选项的方法,其特征在于,包括:
接收用户的输入内容;
从至少一个远程数据源获取针对所述输入内容的转换结果;
根据所述转换结果展现候选项。
2.根据权利要求1所述的方法,其特征在于,所述至少一个远程数据源包括远程词库服务器、对等机词库服务器、异构信息服务器及带有字词转换接口及焦点词汇收集功能的搜索引擎服务器中的任意一个或任意多个组合。
3.根据权利要求2所述的方法,其特征在于,所述远程词库服务器包括远程基本词库服务器、远程新词服务器、远程组词服务器及远程细胞词库服务器中的任意一个或任意多个组合。
4.根据权利要求1所述的方法,其特征在于,所述至少一个远程数据源由用户指定,或者,由输入法系统预置,或者,由输入法系统动态加载。
5.根据权利要求1所述的方法,其特征在于,所述根据所述转换结果展现候选项包括:
将从各个数据源获得的转换结果进行排序,展现所述排序后的转换结果。
6.根据权利要求5所述的方法,其特征在于,所述将从各个数据源获得的转换结果进行排序包括:
根据数据源的整体优先级、转换结果在所属数据源中的得分、数据源的权重、数据源间候选项得分的归一化因子和/或屏蔽标志位,将从各个数据源获得的转换结果进行排序。
7.根据权利要求6所述的方法,其特征在于,还包括:
接收用户的修改请求,将数据源的整体优先级或权重调整为用户的指定值;
或者,
根据用户的输入环境相关信息,调整数据源的整体优先级或权重。
8.根据权利要求1所述的方法,其特征在于,所述根据所述转换结果展现候选项包括:
将来自不同数据源的转换结果在用户显示界面上进行区分显示。
9.根据权利要求1所述的方法,其特征在于,还包括:
根据用户兴趣选择和/或更新所述数据源。
10.根据权利要求1所述的方法,其特征在于,还包括:
将本地的用户词和/或环境相关参数上传至远程词库服务器,以便所述远程词库服务器针对用户返回个性化的转换结果。
11.一种获取输入法候选项的系统,其特征在于,包括:
接收单元,用于接收用户的输入内容;
获取单元,用于从至少一个远程数据源获取针对所述输入内容的转换结果;
展现单元,用于根据所述转换结果展现候选项。
12.根据权利要求11所述的系统,其特征在于,所述至少一个远程数据源包括远程词库服务器、对等机词库服务器、异构信息服务器及带有字词转换接口及焦点词汇收集功能的搜索引擎服务器中的任意一个或任意多个组合。
13.根据权利要求12所述的系统,其特征在于,所述远程词库服务器包括远程基本词库服务器、远程新词服务器、远程组词服务器及远程细胞词库服务器中的任意一个或任意多个组合。
14.根据权利要求11所述的系统,其特征在于,所述至少一个远程数据源由用户指定,或者,由输入法系统预置,或者,由输入法系统动态加载。
15.根据权利要求11所述的系统,其特征在于,所述展现单元包括:
排序子单元,用于将从各个数据源获得的转换结果进行排序;
展现子单元,用于展现所述排序后的转换结果。
16.根据权利要求15所述的系统,其特征在于,所述排序子单元具体用于根据数据源的整体优先级、转换结果在所属数据源中的得分、数据源的权重、数据源间候选项得分的归一化因子和/或屏蔽标志位,将从各个数据源获得的转换结果进行排序。
17.根据权利要求16所述的系统,其特征在于,还包括:
第一调整单元,用于接收用户的修改请求,将数据源的整体优先级或权重调整为用户的指定值;
或者,
第二调整单元,用于根据用户的输入环境相关信息,调整数据源的整体优先级或权重。
18.根据权利要求11所述的系统,其特征在于,所述展现单元包括:
区分显示子单元,用于将来自不同数据源的转换结果在用户显示界面上进行区分显示。
19.根据权利要求11所述的系统,其特征在于,还包括:
处理单元,用于根据用户兴趣选择和/或更新所述数据源。
20.根据权利要求11所述的系统,其特征在于,还包括:
上传单元,用于将本地的用户词和/或环境相关参数上传至远程词库服务器,以便所述远程词库服务器针对用户返回个性化的转换结果。
CN200910236606A 2009-10-26 2009-10-26 一种获取输入法候选项的方法及系统 Pending CN101697109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910236606A CN101697109A (zh) 2009-10-26 2009-10-26 一种获取输入法候选项的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910236606A CN101697109A (zh) 2009-10-26 2009-10-26 一种获取输入法候选项的方法及系统

Publications (1)

Publication Number Publication Date
CN101697109A true CN101697109A (zh) 2010-04-21

Family

ID=42142215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910236606A Pending CN101697109A (zh) 2009-10-26 2009-10-26 一种获取输入法候选项的方法及系统

Country Status (1)

Country Link
CN (1) CN101697109A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063504A (zh) * 2011-01-06 2011-05-18 腾讯科技(深圳)有限公司 在线输入中文的方法、客户端和系统
CN102214011A (zh) * 2010-04-09 2011-10-12 北京搜狗科技发展有限公司 一种发起输入法远程计算请求的方法及装置
CN102541446A (zh) * 2010-12-09 2012-07-04 微软公司 重新规划工具栏输入区域
CN102999275A (zh) * 2012-10-11 2013-03-27 北京搜狗科技发展有限公司 获取字词转换结果的方法及装置
CN103019407A (zh) * 2012-11-22 2013-04-03 百度国际科技(深圳)有限公司 输入法应用方法、自动问答处理方法及电子设备、服务器
CN103257718A (zh) * 2012-02-17 2013-08-21 腾讯科技(深圳)有限公司 汉字输入方法、设备及系统
CN103268310A (zh) * 2013-05-14 2013-08-28 百度在线网络技术(北京)有限公司 基于推荐的自媒体信息编辑方法及装置
WO2013127060A1 (en) * 2012-02-28 2013-09-06 Google Inc. Techniques for transliterating input text from a first character set to a second character set
CN103399766A (zh) * 2013-07-29 2013-11-20 百度在线网络技术(北京)有限公司 更新输入法系统的方法和设备
CN103458305A (zh) * 2013-08-28 2013-12-18 小米科技有限责任公司 视频播放方法、装置、终端设备和服务器
CN103558908A (zh) * 2012-04-30 2014-02-05 谷歌公司 帮助用户以多种不同语言将实体的名称文本输入到用户设备的技术
CN103869998A (zh) * 2012-12-11 2014-06-18 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
CN103870001A (zh) * 2012-12-11 2014-06-18 百度国际科技(深圳)有限公司 一种生成输入法候选项的方法及电子装置
CN103886043A (zh) * 2014-03-11 2014-06-25 北京搜狗科技发展有限公司 一种展现候选项的方法及装置
CN103902720A (zh) * 2014-04-10 2014-07-02 北京博雅立方科技有限公司 一种关键词的拓展词获取方法及装置
CN103929448A (zh) * 2013-01-14 2014-07-16 百度国际科技(深圳)有限公司 在云端服务器提供细胞词库的方法、系统及装置
CN103970647A (zh) * 2013-01-29 2014-08-06 百度国际科技(深圳)有限公司 输入法中非激活窗口的测试方法、装置和测试终端
CN104317961A (zh) * 2014-11-14 2015-01-28 武汉日电光通信工业有限公司 一种专业系统输入智能提示系统
CN104375660A (zh) * 2013-08-16 2015-02-25 文鼎科技开发股份有限公司 多字集字码输入方法、系统与装置
CN104820695A (zh) * 2015-04-29 2015-08-05 百度在线网络技术(北京)有限公司 一种资源获取方法及装置
CN105279227A (zh) * 2015-09-11 2016-01-27 百度在线网络技术(北京)有限公司 同音词的语音搜索处理方法及装置
CN105786492A (zh) * 2016-02-23 2016-07-20 浪潮软件集团有限公司 利用大数据的方法实现代码预测提示的方法
WO2016155643A1 (zh) * 2015-04-01 2016-10-06 北京奇虎科技有限公司 一种基于输入的显示候选词的方法和装置
CN106383590A (zh) * 2016-09-06 2017-02-08 珠海格力电器股份有限公司 一种智能输入的方法及装置
CN106774970A (zh) * 2015-11-24 2017-05-31 北京搜狗科技发展有限公司 对输入法的候选项进行排序的方法和装置
CN107037965A (zh) * 2016-02-04 2017-08-11 北京搜狗科技发展有限公司 一种基于输入的信息展示方法、装置和移动终端
CN107422872A (zh) * 2016-05-24 2017-12-01 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN109085932A (zh) * 2018-08-17 2018-12-25 科大讯飞股份有限公司 一种候选词条调整方法、装置、设备及可读存储介质
CN109725737A (zh) * 2017-10-31 2019-05-07 北京金山安全软件有限公司 一种信息展示方法、装置及系统
CN109725736A (zh) * 2017-10-27 2019-05-07 北京搜狗科技发展有限公司 一种候选排序方法、装置及电子设备
CN111522448A (zh) * 2019-02-02 2020-08-11 北京搜狗科技发展有限公司 一种提供输入候选项的方法、装置和设备
CN112783337A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 输入法候选项的排序方法及相关模型的训练方法

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214011A (zh) * 2010-04-09 2011-10-12 北京搜狗科技发展有限公司 一种发起输入法远程计算请求的方法及装置
CN102214011B (zh) * 2010-04-09 2015-09-09 北京搜狗科技发展有限公司 一种发起输入法远程计算请求的方法及装置
CN102541446A (zh) * 2010-12-09 2012-07-04 微软公司 重新规划工具栏输入区域
CN102063504A (zh) * 2011-01-06 2011-05-18 腾讯科技(深圳)有限公司 在线输入中文的方法、客户端和系统
CN103257718B (zh) * 2012-02-17 2018-05-29 深圳市世纪光速信息技术有限公司 汉字输入方法、设备及系统
CN103257718A (zh) * 2012-02-17 2013-08-21 腾讯科技(深圳)有限公司 汉字输入方法、设备及系统
WO2013127060A1 (en) * 2012-02-28 2013-09-06 Google Inc. Techniques for transliterating input text from a first character set to a second character set
CN104272223A (zh) * 2012-02-28 2015-01-07 谷歌公司 用于将输入文本从第一字符集音译到第二字符集的技术
US9613029B2 (en) 2012-02-28 2017-04-04 Google Inc. Techniques for transliterating input text from a first character set to a second character set
CN104272223B (zh) * 2012-02-28 2018-05-04 谷歌有限责任公司 用于将输入文本从第一字符集音译到第二字符集的技术
US9442902B2 (en) 2012-04-30 2016-09-13 Google Inc. Techniques for assisting a user in the textual input of names of entities to a user device in multiple different languages
CN103558908A (zh) * 2012-04-30 2014-02-05 谷歌公司 帮助用户以多种不同语言将实体的名称文本输入到用户设备的技术
CN102999275B (zh) * 2012-10-11 2015-12-09 北京搜狗科技发展有限公司 获取字词转换结果的方法及装置
CN102999275A (zh) * 2012-10-11 2013-03-27 北京搜狗科技发展有限公司 获取字词转换结果的方法及装置
CN103019407A (zh) * 2012-11-22 2013-04-03 百度国际科技(深圳)有限公司 输入法应用方法、自动问答处理方法及电子设备、服务器
CN103870001A (zh) * 2012-12-11 2014-06-18 百度国际科技(深圳)有限公司 一种生成输入法候选项的方法及电子装置
CN103869998A (zh) * 2012-12-11 2014-06-18 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
CN103870001B (zh) * 2012-12-11 2018-07-10 百度国际科技(深圳)有限公司 一种生成输入法候选项的方法及电子装置
CN103869998B (zh) * 2012-12-11 2018-05-01 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
CN103929448A (zh) * 2013-01-14 2014-07-16 百度国际科技(深圳)有限公司 在云端服务器提供细胞词库的方法、系统及装置
CN103970647A (zh) * 2013-01-29 2014-08-06 百度国际科技(深圳)有限公司 输入法中非激活窗口的测试方法、装置和测试终端
CN103970647B (zh) * 2013-01-29 2017-02-08 百度国际科技(深圳)有限公司 输入法中非激活窗口的测试方法、装置和测试终端
CN103268310A (zh) * 2013-05-14 2013-08-28 百度在线网络技术(北京)有限公司 基于推荐的自媒体信息编辑方法及装置
CN103399766A (zh) * 2013-07-29 2013-11-20 百度在线网络技术(北京)有限公司 更新输入法系统的方法和设备
CN103399766B (zh) * 2013-07-29 2016-05-11 百度在线网络技术(北京)有限公司 更新输入法系统的方法和设备
CN104375660B (zh) * 2013-08-16 2017-08-04 文鼎科技开发股份有限公司 多字集字码输入方法、系统与装置
CN104375660A (zh) * 2013-08-16 2015-02-25 文鼎科技开发股份有限公司 多字集字码输入方法、系统与装置
CN103458305A (zh) * 2013-08-28 2013-12-18 小米科技有限责任公司 视频播放方法、装置、终端设备和服务器
CN103458305B (zh) * 2013-08-28 2017-03-01 小米科技有限责任公司 视频播放方法、装置、终端设备和服务器
CN103886043A (zh) * 2014-03-11 2014-06-25 北京搜狗科技发展有限公司 一种展现候选项的方法及装置
CN103886043B (zh) * 2014-03-11 2017-10-20 北京搜狗科技发展有限公司 一种展现候选项的方法及装置
CN103902720B (zh) * 2014-04-10 2017-11-21 北京博雅立方科技有限公司 一种关键词的拓展词获取方法及装置
CN103902720A (zh) * 2014-04-10 2014-07-02 北京博雅立方科技有限公司 一种关键词的拓展词获取方法及装置
CN104317961A (zh) * 2014-11-14 2015-01-28 武汉日电光通信工业有限公司 一种专业系统输入智能提示系统
CN104317961B (zh) * 2014-11-14 2018-04-27 武汉众邦领创技术有限公司 一种专业系统输入智能提示系统
WO2016155643A1 (zh) * 2015-04-01 2016-10-06 北京奇虎科技有限公司 一种基于输入的显示候选词的方法和装置
CN104820695A (zh) * 2015-04-29 2015-08-05 百度在线网络技术(北京)有限公司 一种资源获取方法及装置
CN105279227A (zh) * 2015-09-11 2016-01-27 百度在线网络技术(北京)有限公司 同音词的语音搜索处理方法及装置
CN106774970A (zh) * 2015-11-24 2017-05-31 北京搜狗科技发展有限公司 对输入法的候选项进行排序的方法和装置
CN107037965A (zh) * 2016-02-04 2017-08-11 北京搜狗科技发展有限公司 一种基于输入的信息展示方法、装置和移动终端
CN105786492A (zh) * 2016-02-23 2016-07-20 浪潮软件集团有限公司 利用大数据的方法实现代码预测提示的方法
CN107422872B (zh) * 2016-05-24 2021-11-30 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN107422872A (zh) * 2016-05-24 2017-12-01 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN106383590A (zh) * 2016-09-06 2017-02-08 珠海格力电器股份有限公司 一种智能输入的方法及装置
CN109725736A (zh) * 2017-10-27 2019-05-07 北京搜狗科技发展有限公司 一种候选排序方法、装置及电子设备
CN109725737A (zh) * 2017-10-31 2019-05-07 北京金山安全软件有限公司 一种信息展示方法、装置及系统
CN109085932A (zh) * 2018-08-17 2018-12-25 科大讯飞股份有限公司 一种候选词条调整方法、装置、设备及可读存储介质
CN109085932B (zh) * 2018-08-17 2023-07-25 科大讯飞股份有限公司 一种候选词条调整方法、装置、设备及可读存储介质
CN111522448A (zh) * 2019-02-02 2020-08-11 北京搜狗科技发展有限公司 一种提供输入候选项的方法、装置和设备
CN111522448B (zh) * 2019-02-02 2024-04-30 北京搜狗科技发展有限公司 一种提供输入候选项的方法、装置和设备
CN112783337A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 输入法候选项的排序方法及相关模型的训练方法
CN112783337B (zh) * 2020-12-31 2024-04-12 科大讯飞股份有限公司 输入法候选项的排序方法及相关模型的训练方法

Similar Documents

Publication Publication Date Title
CN101697109A (zh) 一种获取输入法候选项的方法及系统
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
US10282419B2 (en) Multi-domain natural language processing architecture
CN101520786B (zh) 一种输入法词典的实现方法和输入法系统
CN100580666C (zh) 使用消除歧义的查询搜索消除歧义信息的方法和系统
US8280902B2 (en) High precision search system and method
CN101470732B (zh) 一种辅助词库的生成方法和装置
US10552467B2 (en) System and method for language sensitive contextual searching
CN103678576A (zh) 基于动态语义分析的全文检索系统
US20110078205A1 (en) Method and system for finding appropriate semantic web ontology terms from words
CN103425714A (zh) 一种搜索方法和系统
CN107145496A (zh) 基于关键词将图像与内容项目匹配的方法
US20100293162A1 (en) Automated Keyword Generation Method for Searching a Database
CN102930054A (zh) 数据搜索方法及系统
CN102915380A (zh) 用于对数据进行搜索的方法和系统
CN107408107A (zh) 文本预测整合
KR20130036863A (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
CN107844493B (zh) 一种文件关联方法及系统
US20090119283A1 (en) System and Method of Improving and Enhancing Electronic File Searching
US20090192991A1 (en) Network information searching method by speech recognition and system for the same
CN107145497A (zh) 基于图像和内容的元数据选择与内容匹配的图像的方法
CN105677725A (zh) 一种用于旅游垂直搜索引擎的前置解析方法
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
CN111194457A (zh) 专利评估判定方法、专利评估判定装置以及专利评估判定程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100421