CN103064967B - 一种用于建立用户二元关系库的方法与设备 - Google Patents

一种用于建立用户二元关系库的方法与设备 Download PDF

Info

Publication number
CN103064967B
CN103064967B CN201210592849.3A CN201210592849A CN103064967B CN 103064967 B CN103064967 B CN 103064967B CN 201210592849 A CN201210592849 A CN 201210592849A CN 103064967 B CN103064967 B CN 103064967B
Authority
CN
China
Prior art keywords
binary
user
candidate
input
crelation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210592849.3A
Other languages
English (en)
Other versions
CN103064967A (zh
Inventor
陆阳阳
孟可丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210592849.3A priority Critical patent/CN103064967B/zh
Publication of CN103064967A publication Critical patent/CN103064967A/zh
Application granted granted Critical
Publication of CN103064967B publication Critical patent/CN103064967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明的目的是提供一种用于建立用户二元关系库的方法与设备。其中,处理设备获取待训练的用户语料;对所述用户语料进行分析处理,以获得一个或多个候选二元关系对;对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对;根据所述校验后的候选二元关系对,建立或更新对应用户的二元关系库。与现有技术相比,本发明通过对用户语料进行分析处理所获得的一个或多个候选二元关系对进行校验,利用校验后的候选二元关系对,建立或更新对应用户的二元关系库;从而有效地对用户的二元关系对进行了纠错,提高了输入灵活度,与用户的输入需求相匹配,还提高了输入法的输入效率,改善了用户体验。

Description

一种用于建立用户二元关系库的方法与设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于建立用户二元关系库的技术。
背景技术
当前,输入法中的二元关系库主要根据基础词库以及用户自行输入的一个或多个常用词生成;然而,根据用户输入所生成用户二元关系库可能存在错误,例如,当用户多次输入某个带有错别字的词组时,则可能训练出带有该错误词组的用户二元关系库,从而导致输入选项与用户期望不相符,使得用户的输入效率较低。
发明内容
本发明的目的是提供一种用于建立用户二元关系库的方法与设备。
根据本发明的一个方面,提供了一种用于建立用户二元关系库的方法,其中,该方法包括以下步骤:
a获取待训练的用户语料;
b对所述用户语料进行分析处理,以获得一个或多个候选二元关系对;
c对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对;
d根据所述校验后的候选二元关系对,建立或更新对应用户的二元关系库。
根据本发明的另一方面,还提供了一种用于建立用户二元关系库的处理设备,其中,该设备包括:
获取装置,用于获取待训练的用户语料;
分析装置,用于对所述用户语料进行分析处理,以获得一个或多个候选二元关系对;
校验装置,用于对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对;
处理装置,用于根据所述校验后的候选二元关系对,建立或更新对应用户的二元关系库。
与现有技术相比,本发明通过对用户语料进行分析处理所获得的一个或多个候选二元关系对进行校验,利用校验后的候选二元关系对,建立或更新对应用户的二元关系库;从而有效地对用户的二元关系对进行了纠错,提高了输入灵活度,与用户的输入需求相匹配,还提高了输入法的输入效率,改善了用户体验。
而且,本发明还可以根据预定的二元关系黑名单,对所述候选二元关系对进行校验处理;进一步地,还可以根据预定的二元关系黑名单,并结合对应的二元关系白名单,对所述候选二元关系对进行校验处理;更进一步地,还可以根据所述二元关系白名单,对所述二元关系黑名单进行调整处理,并根据所述调整后的二元关系黑名单,对所述候选二元关系对进行校验处理;从而有效地对用户的二元关系对进行了纠错,提高了输入灵活度,与用户的输入需求相匹配,还提高了输入法的输入效率,改善了用户体验。
而且,本发明还可以根据所述用户的输入特征信息,在语料库或搜索索引库中匹配查询,以获得一个或多个语料结果,以作为所述用户语料;进一步地,还可以对所述用户的历史输入记录和/或历史浏览记录进行分析处理,以获得所述用户的输入特征信息;从而扩大了用户语料的获取来源,根据所获得的更多语料,得到更多的用户二元关系对,与用户的输入需求相匹配,进一步提高用户的输入效率,改善了用户体验。
而且,本发明还可以根据所述校验后的候选二元关系对,并结合所述二元关系库中二元关系对的使用相关信息,建立或更新所述二元关系库;从而提高了所述二元关系库中的二元关系对的时效性,有效地对用户的二元关系对进行了纠错,提高了输入灵活度,与用户的输入需求相匹配,还提高了输入法的输入效率与资源利用率,改善了用户体验。
而且,本发明还可以根据所述用户的输入字符串,以及所述输入字符串的上下文信息,在所述二元关系库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第一输入候选项;进一步地,还可以根据所述输入字符串,以及所述上下文信息,在系统词库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第二输入候选项,并将所述第一输入候选项优先所述第二输入候选项提供给所述输入字符串所对应的目标应用;从而将所述二元关系库用于输入法应用中,有效地对用户的输入进行了纠错,提高了输入灵活度,与用户的输入需求相匹配,还提高了输入法的输入效率,改善了用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种用于建立用户二元关系库的处理设备示意图;
图2示出根据本发明一个优选实施例的一种用于建立用户二元关系库的处理设备示意图;
图3示出根据本发明另一个方面的一种用于建立用户二元关系库的方法流程图;
图4示出根据本发明一个优选实施例的一种用于建立用户二元关系库的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的一种用于建立用户二元关系库的处理设备示意图;其中,所述处理设备包括获取装置11、分析装置12、校验装置13、处理装置14。具体地,获取装置11获取待训练的用户语料;分析装置12对所述用户语料进行分析处理,以获得一个或多个候选二元关系对;校验装置13对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对;处理装置14根据所述校验后的候选二元关系对,建立或更新对应用户的二元关系库。
在此,处理设备包括但不限于网络设备、用户设备、或网络设备与用户设备通过网络相集成所构成的设备。其中,所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述用户设备其包括但不限于任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的电子产品,例如计算机、智能手机、PDA、游戏机、或IPTV等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解,其他的处理设备同样适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求,进行待训练的用户语料的获取、候选二元关系对的获取、候选二元关系对的校验、二元关系库的建立或更新等,直至处理设备停止获取待训练的用户语料。
获取装置11获取待训练的用户语料。具体地,获取装置11例如通过根据各种通信协议(Communications Protocol),通过各种数据传输接口,与待训练的用户语料数据库或用户输入历史日志等进行交互,获取待训练的用户语料;或者通过直接从例如输入框中接收用户或其他应用等通过输入、选择、点击等操作所输入的待训练的用户语料,在此,所述输入框如短信编辑框、内容输入框等。其中,所述用户语料包括但不限于字、词、短句或长句等。
分析装置12对所述用户语料进行分析处理,以获得一个或多个候选二元关系对。具体地,分析装置12通过对所述用户语料进行例如分词、频率统计、词频搭配统计等分析处理,将所述经分词的用户语料作为一个或多个候选二元关系对;或者将词频搭配统计超过一定阈值次数的用户语料作为所述一个或多个候选二元关系对。其中,所述二元关系指示用户语料中至少一个字词与所述用户的输入字符串或用户输入的关系,例如所述字词在所对应的输入字符串下的出现频率、该字词与其他字词的组合关系等,从而指示所述用户的输入习惯;在此,所述输入字符串包括但不限于通过如全拼或简拼等方式所输入的拼音编码字符等。
校验装置13对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。具体地,校验装置13获取分析装置12所获取的一个或多个候选二元关系对,通过利用系统内置的校验数据库或根据各种通信协议,通过各种数据传输接口,利用实时获取的校验数据库或校验规则对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。其中,所述校验处理包括但不限于检错、纠错、删除等。其中,所述校验数据库如包含一个或多个常见错别字词或常见错误输入字词的数据库,例如在所述校验数据库中,存储有常见错误输入“(新浪,微薄)”与正确输入“(新浪,微博)”的映射关系,若所述候选二元关系对为“(新浪,微薄)”,则经过校验处理后,将该候选二元关系对“(新浪,微薄)”修正为“(新浪,微博)”,并将“(新浪,微博)”作为校验后的所述候选二元关系对;或者,直接将错误的候选二元关系对“(新浪,微薄)”进行删除。
处理装置14根据所述校验后的候选二元关系对,建立或更新对应用户的二元关系库。具体地,处理装置14根据所述经校验装置13校验后的候选二元关系对,将所述一个或多个校验后的候选二元关系对建立为对应用户的二元关系库;或者将所述校验后的候选二元关系对更新至原有的对应用户的二元关系库中。
优选地,所述校验装置13还可以根据预定的二元关系黑名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。具体地,所述校验装置13通过从第三方获取、或是根据机器学习等方式自行获取或确定二元关系黑名单,例如,获取网络或词库中的相关词组,对所述相关词组进行统计,将用户所输入的词组与所述相关词组进行对比,若用户所输入的词组频率远小于统计所得的词组频率,则将用户输入的词组与相关词组加入所述二元关系黑名单;其中,所述二元关系黑名单中包括但不限于错误词组或短语,或者错误词组或短语与其对应的正确词组或短语的映射关系等;所述校验装置13将所述候选二元关系根据所述预定的二元关系黑名单中的词组、短语或所述映射关系进行校验处理,以获得校验后的所述候选二元关系对。在此,所述校验装置13的校验处理方式与图1所述校验装置13的处理方式相同或相似,故此处不再赘述,并通过引用的方式包含于此。
更优选地,所述校验装置13还可以根据预定的二元关系黑名单,并结合对应的二元关系白名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。具体地,所述校验装置13通过从第三方获取、或是根据机器学习等方式自行获取或确定二元关系黑名单以及对应的二元关系白名单,其中,所述二元关系白名单中例如包含基于用户习惯或语言变化所产生的一个或多个易被误判为“错误”输入的字词等,例如,在网络用语中,用户喜欢使用“捉急”或“拙计”等表达“着急”,因此,将“捉急”或“拙计”添加至所述二元关系白名单中。所述校验装置13将所述候选二元关系根据所述预定的二元关系黑名单以及结合所对应的二元关系白名单,通过筛选、检错、纠错、删除等处理,获取校验后的所述候选二元关系对。例如,先将所述候选二元关系对经由所述二元关系白名单进行匹配,若所述候选二元关系对能够与所述二元关系白名单中的相应关系对或词组等匹配成功,则不再对该候选二元关系对进行校验;若所述候选二元关系对不能够与所述二元关系白名单中的相应关系对或词组等匹配成功,则继续利用二元关系黑名单将此候选二元关系对进行校验处理。
更优选地,所述校验装置13还可以根据所述二元关系白名单,对所述二元关系黑名单进行调整处理,以获得调整后的所述二元关系黑名单;根据所述调整后的二元关系黑名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。具体地,所述校验装置13通过从第三方获取、或是根据机器学习等方式自行获取或确定二元关系黑名单以及对应的二元关系白名单,其中,所述二元关系白名单中例如包含基于用户习惯或语言变化所产生的一个或多个易被误判为“错误”输入的字词等,例如,在网络用语中,用户喜欢使用“捉急”或“拙计”等表达“着急”,因此,将“捉急”或“拙计”添加至所述二元关系白名单中。所述校验装置13可以根据所述二元关系白名单,对所述二元关系黑名单进行调整处理,根据所述二元关系白名单,例如若所述二元关系黑名单中的一个或多个“错误”词组、短语或者映射关系等存在于所述二元关系白名单,则所述校验装置13将所述二元关系黑名单中的该“错误”词组、短语或者映射关系进行屏蔽、删除等调整,以获得调整后的所述二元关系黑名单。所述校验装置13根据所述调整后的二元关系黑名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。在此,所述校验装置13的校验处理方式与图1所述校验装置13的处理方式相同或相似,故此处不再赘述,并通过引用的方式包含于此。
优选地,所述获取装置11还可以根据所述用户的输入特征信息,在语料库或搜索索引库中匹配查询,以获得一个或多个语料结果,以作为所述用户语料。具体地,所述获取装置11还可以获取所述用户的输入特征信息,在此,所述输入特征信息包括但不限于典型的词语搭配、前置状语等,如诗词、俗语、常用的引用语句等,或者,例如,所述用户习惯在句末使用的叹词,习惯使用的状语倒置等;根据所述用户的输入特征信息,通过本地或在线方式,在语料库或搜索索引库中进行匹配查询,例如,通过在线搜索,得到包含一个或多个与用户的输入特征信息相对应的页面或文件,将所述页面或文件等语料结果,作为所述用户语料。与仅根据用户历史输入记录的用户语料相比,本方案可以获得更多的语料,从而获得更多的用户二元关系对,进一步提高用户的输入效率。
更优选地,所述处理设备还包括特征获取装置(未示出),其中,所述特征处理装置对所述用户的历史输入记录和/或历史浏览记录进行分析处理,以获得所述用户的输入特征信息。具体地,所述特征处理装置通过对所述用户的历史输入记录和/或历史浏览记录进行分词、统计频率等处理,例如通过分词与词频统计等处理方法,获取所述历史输入记录和/或历史浏览记录中出现频率较高的表达习惯、词语搭配、短句、长句等,从而将所述表达习惯、词语搭配、短句、长句等作为所述用户的输入特征信息。
优选地,所述处理装置14还可以根据所述校验后的候选二元关系对,并结合所述二元关系库中二元关系对的使用相关信息,建立或更新所述二元关系库。具体地,所述处理装置14根据所述经校验装置13校验后的候选二元关系对,通过与所述二元关系库中的二元关系对的使用相关信息相结合,例如,当所述候选二元关系对的使用相关信息在预定阈值范围以上时,才对所述二元关系库进行建立或更新,反之,若所述候选二元关系对的使用相关信息中的最后一次使用时间超过一定时间阈值,或使用次数小于使用预定阈值时,则不对所述二元关系库进行建立或更新;进一步地,所述处理装置14还可以根据预定的二元关系对数量阈值,如所述二元关系库中仅能存储上限为N的二元关系对,结合所述使用相关信息,对所述二元关系库中的二元关系对进行筛选等;从而满足终端,特别是移动终端上的资源利用率要求。其中,所述使用相关信息包括但不限于使用次数、使用频率、最后一次使用时间等;所述使用相关信息可以存储在所述二元关系库中,也可以根据用户的使用情况实时获取等。
图2示出根据本发明一个优选实施例的一种用于建立用户二元关系库的处理设备示意图;其中,所述处理设备包括获取装置11’、分析装置12’、校验装置13’、处理装置14’、输入获取装置15’、二元查询装置16’。具体地,获取装置11’获取待训练的用户语料;分析装置12’对所述用户语料进行分析处理,以获得一个或多个候选二元关系对;校验装置13’对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对;处理装置14’根据所述校验后的候选二元关系对,建立或更新对应用户的二元关系库;输入获取装置15’获取所述用户的输入字符串,以及所述输入字符串的上下文信息;二元查询装置16’根据所述输入字符串,以及所述上下文信息,在所述二元关系库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第一输入候选项。其中,所述获取装置11’、分析装置12’、校验装置13’、处理装置14’与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求,进行待训练的用户语料的获取、候选二元关系对的获取、候选二元关系对的校验、二元关系库的建立或更新等,直至处理设备停止获取待训练的用户语料。
输入获取装置15’获取所述用户的输入字符串,以及所述输入字符串的上下文信息。具体地,输入获取装置15’通过从输入框中接收用户或其他应用等通过输入、选择、点击等操作所输入的字符串;或者根据各种通信协议(Communications Protocol),通过各种数据传输接口,获取从其他应用的输入框中的字符串;其中,所述输入框如短信编辑框、内容输入框等。其中,所述输入字符串包括但不限于通过如全拼或简拼等方式所输入的拼音编码字符等;输入获取装置15’还可以通过直接获取或自行确定获取的方式,确定所述输入字符串的上下文信息;其中,所述自行确定获取例如根据所获取的输入字符串,利用当前所输入的字符串所属的文字等,将所述当前输入字符串所属的文字与一个或多个词库进行匹配,获取与所述输入字符串相关联的一种或多种匹配信息,并作为所述输入字符串的上下文信息,从而获取所述输入字符串的上下文信息;例如,当输入“huacao”时,先确定所述输入字符串所属的文字可能为“花草”,根据“花草”在所属词库中的匹配信息,确定其下文信息可能为“茶”等;或者,所述自行确定获取还可以通过根据与所述输入字符串相对应的历史记录信息,对所述输入字符串的上下文信息进行确定,从而获取所述输入字符串的上下文信息,例如,所述输入字符串前刚刚上屏的前一个输入字符串,则可作为所述输入字符串的前文信息。在此,所述上下文信息包括但不限于与所述输入字符串相对应的上文信息或下文信息。
二元查询装置16’根据所述输入字符串,以及所述上下文信息,在所述二元关系库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第一输入候选项。二元查询装置16’可将所述二元关系库应用于如输入法等应用,其中,二元查询装置16’通过将所述输入字符串以及所述上下文信息,在所述二元关系库中进行匹配查询,若所述输入字符串以及所述上下文信息与所述二元关系库中的一个或多个二元关系对相匹配,则将匹配的二元关系对作为所述输入字符串对应的一个或多个第一输入候选项。例如,当用户已经在屏幕上输入“令人”,随后输入“zhuoji”,则将所述“zhuoji”作为用户的输入字符串,“令人”作为所述输入字符串的上文信息,在一般的输入词库中,“zhuoji”可以对应“捉鸡”、“捉急”、“拙荆”、“卓机”、“拙计”等,或者可能查询不到对应的词组;而在所述二元关系库中,由于存在“令人拙计”的二元关系对,因此,当用户已经在屏幕上输入“令人”,随后输入“zhuoji”后,二元确定装置16’根据所述二元关系库中的匹配信息,确定与所述输入字符串对应的第一输入候选项为“拙计”。
优选地,所述处理设备还包括系统查询装置(未示出)和提供装置(未示出);其中,系统查询装置根据所述输入字符串,以及所述上下文信息,在系统词库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第二输入候选项;提供装置将所述第一输入候选项优先所述第二输入候选项提供给所述输入字符串所对应的目标应用。具体地,系统查询装置通过所述输入字符串,以及所述上下文信息,在系统词库中进行匹配,根据所述匹配结果,确定与所述输入字符串对应的一个或多个第二输入候选项;而由于用户二元关系库所获得的输入候选项是根据用户语料所训练获得,而所述用户语料基于用户的输入历史或输入习惯,因此,通常情况下,用户二元关系库所获得第一输入候选项的优先级高于所述系统词库所获得第二输入候选项,从而提供装置将所述第一输入候选项优先所述第二输入候选项提供给所述输入字符串所对应的目标应用。
图3示出根据本发明另一个方面的一种用于建立用户二元关系库的方法流程图。具体地,在步骤s1中,处理设备获取待训练的用户语料;在步骤s2中,处理设备对所述用户语料进行分析处理,以获得一个或多个候选二元关系对;在步骤s3中,处理设备对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对;在步骤s4中,处理设备根据所述校验后的候选二元关系对,建立或更新对应用户的二元关系库。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求,进行待训练的用户语料的获取、候选二元关系对的获取、候选二元关系对的校验、二元关系库的建立或更新等,直至处理设备停止获取待训练的用户语料。
在步骤s1中,处理设备获取待训练的用户语料。具体地,在步骤s1中,处理设备例如通过根据各种通信协议(CommunicationsProtocol),通过各种数据传输接口,与待训练的用户语料数据库或用户输入历史日志等进行交互,获取待训练的用户语料;或者通过直接从例如输入框中接收用户或其他应用等通过输入、选择、点击等操作所输入的待训练的用户语料,在此,所述输入框如短信编辑框、内容输入框等。其中,所述用户语料包括但不限于字、词、短句或长句等。
在步骤s2中,处理设备对所述用户语料进行分析处理,以获得一个或多个候选二元关系对。具体地,在步骤s2中,处理设备通过对所述用户语料进行例如分词、频率统计、词频搭配统计等分析处理,将所述经分词的用户语料作为一个或多个候选二元关系对;或者将词频搭配统计超过一定阈值次数的用户语料作为所述一个或多个候选二元关系对。其中,所述二元关系指示用户语料中至少一个字词与所述用户的输入字符串或用户输入的关系,例如所述字词在所对应的输入字符串下的出现频率、该字词与其他字词的组合关系等,从而指示所述用户的输入习惯;在此,所述输入字符串包括但不限于通过如全拼或简拼等方式所输入的拼音编码字符等。
在步骤s3中,处理设备对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。具体地,在步骤s3中,处理设备获取步骤s2所获取的一个或多个候选二元关系对,通过利用系统内置的校验数据库或根据各种通信协议,通过各种数据传输接口,利用实时获取的校验数据库或校验规则对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。其中,所述校验处理包括但不限于检错、纠错、删除等。其中,所述校验数据库如包含一个或多个常见错别字词或常见错误输入字词的数据库,例如在所述校验数据库中,存储有常见错误输入“(新浪,微薄)”与正确输入“(新浪,微博)”的映射关系,若所述候选二元关系对为“(新浪,微薄)”,则经过校验处理后,将该候选二元关系对“(新浪,微薄)”修正为“(新浪,微博)”,并将“(新浪,微博)”作为校验后的所述候选二元关系对;或者,直接将错误的候选二元关系对“(新浪,微薄)”进行删除。
在步骤s4中,处理设备根据所述校验后的候选二元关系对,建立或更新对应用户的二元关系库。具体地,在步骤s4中,处理设备根据所述经步骤s3校验后的候选二元关系对,将所述一个或多个校验后的候选二元关系对建立为对应用户的二元关系库;或者将所述校验后的候选二元关系对更新至原有的对应用户的二元关系库中。
优选地,在步骤s3中,处理设备还可以根据预定的二元关系黑名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。具体地,在步骤s3中,处理设备通过从第三方获取、或是根据机器学习等方式自行获取或确定二元关系黑名单,例如,获取网络或词库中的相关词组,对所述相关词组进行统计,将用户所输入的词组与所述相关词组进行对比,若用户所输入的词组频率远小于统计所得的词组频率,则将用户输入的词组与相关词组加入所述二元关系黑名单;其中,所述二元关系黑名单中包括但不限于错误词组或短语,或者错误词组或短语与其对应的正确词组或短语的映射关系等;在步骤s 3中,处理设备将所述候选二元关系根据所述预定的二元关系黑名单中的词组、短语或所述映射关系进行校验处理,以获得校验后的所述候选二元关系对。在此,在步骤s3中,处理设备的校验处理方式与图3所述步骤s3的处理方式相同或相似,故此处不再赘述,并通过引用的方式包含于此。
更优选地,在步骤s3中,处理设备还可以根据预定的二元关系黑名单,并结合对应的二元关系白名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。具体地,在步骤s3中,处理设备通过从第三方获取、或是根据机器学习等方式自行获取或确定二元关系黑名单以及对应的二元关系白名单,其中,所述二元关系白名单中例如包含基于用户习惯或语言变化所产生的一个或多个易被误判为“错误”输入的字词等,例如,在网络用语中,用户喜欢使用“捉急”或“拙计”等表达“着急”,因此,将“捉急”或“拙计”添加至所述二元关系白名单中。在步骤s3中,处理设备将所述候选二元关系根据所述预定的二元关系黑名单以及结合所对应的二元关系白名单,通过筛选、检错、纠错、删除等处理,获取校验后的所述候选二元关系对。例如,先将所述候选二元关系对经由所述二元关系白名单进行匹配,若所述候选二元关系对能够与所述二元关系白名单中的相应关系对或词组等匹配成功,则不再对该候选二元关系对进行校验;若所述候选二元关系对不能够与所述二元关系白名单中的相应关系对或词组等匹配成功,则继续利用二元关系黑名单将此候选二元关系对进行校验处理。
更优选地,在步骤s3中,处理设备还可以根据所述二元关系白名单,对所述二元关系黑名单进行调整处理,以获得调整后的所述二元关系黑名单;根据所述调整后的二元关系黑名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。具体地,在步骤s3中,处理设备通过从第三方获取、或是根据机器学习等方式自行获取或确定二元关系黑名单以及对应的二元关系白名单,其中,所述二元关系白名单中例如包含基于用户习惯或语言变化所产生的一个或多个易被误判为“错误”输入的字词等,例如,在网络用语中,用户喜欢使用“捉急”或“拙计”等表达“着急”,因此,将“捉急”或“拙计”添加至所述二元关系白名单中。在步骤s3中,处理设备可以根据所述二元关系白名单,对所述二元关系黑名单进行调整处理,根据所述二元关系白名单,例如若所述二元关系黑名单中的一个或多个“错误”词组、短语或者映射关系等存在于所述二元关系白名单,则在步骤s3中,处理设备将所述二元关系黑名单中的该“错误”词组、短语或者映射关系进行屏蔽、删除等调整,以获得调整后的所述二元关系黑名单。在步骤s3中,处理设备根据所述调整后的二元关系黑名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。在此,在步骤s3中,处理设备的校验处理方式与图3所述步骤s3的处理方式相同或相似,故此处不再赘述,并通过引用的方式包含于此。
优选地,在步骤s1中,处理设备还可以根据所述用户的输入特征信息,在语料库或搜索索引库中匹配查询,以获得一个或多个语料结果,以作为所述用户语料。具体地,在步骤s1中,处理设备还可以获取所述用户的输入特征信息,在此,所述输入特征信息包括但不限于典型的词语搭配、前置状语等,如诗词、俗语、常用的引用语句等,或者,例如,所述用户习惯在句末使用的叹词,习惯使用的状语倒置等;根据所述用户的输入特征信息,通过本地或在线方式,在语料库或搜索索引库中进行匹配查询,例如,通过在线搜索,得到包含一个或多个与用户的输入特征信息相对应的页面或文件,将所述页面或文件等语料结果,作为所述用户语料。与仅根据用户历史输入记录的用户语料相比,本方案可以获得更多的语料,从而获得更多的用户二元关系对,进一步提高用户的输入效率。
更优选地,所述处理设备还包括步骤s7(未示出),其中,所述在步骤s7中,处理设备对所述用户的历史输入记录和/或历史浏览记录进行分析处理,以获得所述用户的输入特征信息。具体地,在步骤s7中,处理设备通过对所述用户的历史输入记录和/或历史浏览记录进行分词、统计频率等处理,例如通过分词与词频统计等处理方法,获取所述历史输入记录和/或历史浏览记录中出现频率较高的表达习惯、词语搭配、短句、长句等,从而将所述表达习惯、词语搭配、短句、长句等作为所述用户的输入特征信息。
优选地,在步骤s4中,处理设备还可以根据所述校验后的候选二元关系对,并结合所述二元关系库中二元关系对的使用相关信息,建立或更新所述二元关系库。具体地,在步骤s4中,处理设备根据所述经步骤s3校验后的候选二元关系对,通过与所述二元关系库中的二元关系对的使用相关信息相结合,例如,当所述候选二元关系对的使用相关信息在预定阈值范围以上时,才对所述二元关系库进行建立或更新,反之,若所述候选二元关系对的使用相关信息中的最后一次使用时间超过一定时间阈值,或使用次数小于使用预定阈值时,则不对所述二元关系库进行建立或更新;进一步地,在步骤s4中,处理设备还可以根据预定的二元关系对数量阈值,如所述二元关系库中仅能存储上限为N的二元关系对,结合所述使用相关信息,对所述二元关系库中的二元关系对进行筛选等;从而满足终端,特别是移动终端上的资源利用率要求。其中,所述使用相关信息包括但不限于使用次数、使用频率、最后一次使用时间等;所述使用相关信息可以存储在所述二元关系库中,也可以根据用户的使用情况实时获取等。
图4示出根据本发明一个优选实施例的一种用于建立用户二元关系库的方法流程图。具体地,在步骤s1’中,处理设备获取待训练的用户语料;在步骤s2’中,处理设备对所述用户语料进行分析处理,以获得一个或多个候选二元关系对;在步骤s3’中,处理设备对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对;在步骤s4’中,处理设备根据所述校验后的候选二元关系对,建立或更新对应用户的二元关系库;在步骤s5’中,处理设备获取所述用户的输入字符串,以及所述输入字符串的上下文信息;在步骤s6’中,处理设备根据所述输入字符串,以及所述上下文信息,在所述二元关系库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第一输入候选项。其中,所述步骤s1’、步骤s2’、步骤s3’、步骤s4’与图3所示对应步骤相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求,进行待训练的用户语料的获取、候选二元关系对的获取、候选二元关系对的校验、二元关系库的建立或更新等,直至处理设备停止获取待训练的用户语料。
在步骤s5’中,处理设备获取所述用户的输入字符串,以及所述输入字符串的上下文信息。具体地,在步骤s5’中,处理设备通过从输入框中接收用户或其他应用等通过输入、选择、点击等操作所输入的字符串;或者根据各种通信协议(Communications Protocol),通过各种数据传输接口,获取从其他应用的输入框中的字符串;其中,所述输入框如短信编辑框、内容输入框等。其中,所述输入字符串包括但不限于通过如全拼或简拼等方式所输入的拼音编码字符等;在步骤s5’中,处理设备还可以通过直接获取或自行确定获取的方式,确定所述输入字符串的上下文信息;其中,所述自行确定获取例如根据所获取的输入字符串,利用当前所输入的字符串所属的文字等,将所述当前输入字符串所属的文字与一个或多个词库进行匹配,获取与所述输入字符串相关联的一种或多种匹配信息,并作为所述输入字符串的上下文信息,从而获取所述输入字符串的上下文信息;例如,当输入“huacao”时,先确定所述输入字符串所属的文字可能为“花草”,根据“花草”在所属词库中的匹配信息,确定其下文信息可能为“茶”等;或者,所述自行确定获取还可以通过根据与所述输入字符串相对应的历史记录信息,对所述输入字符串的上下文信息进行确定,从而获取所述输入字符串的上下文信息,例如,所述输入字符串前刚刚上屏的前一个输入字符串,则可作为所述输入字符串的前文信息。在此,所述上下文信息包括但不限于与所述输入字符串相对应的上文信息或下文信息。
在步骤s6’中,处理设备根据所述输入字符串,以及所述上下文信息,在所述二元关系库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第一输入候选项。在步骤s6’中,处理设备可将所述二元关系库应用于如输入法等应用,其中,在步骤s6’中,处理设备通过将所述输入字符串以及所述上下文信息,在所述二元关系库中进行匹配查询,若所述输入字符串以及所述上下文信息与所述二元关系库中的一个或多个二元关系对相匹配,则将匹配的二元关系对作为所述输入字符串对应的一个或多个第一输入候选项。例如,当用户已经在屏幕上输入“令人”,随后输入“zhuoji”,则将所述“zhuoji”作为用户的输入字符串,“令人”作为所述输入字符串的上文信息,在一般的输入词库中,“zhuoji”可以对应“捉鸡”、“捉急”、“拙荆”、“卓机”、“拙计”等,或者可能查询不到对应的词组;而在所述二元关系库中,由于存在“令人拙计”的二元关系对,因此,当用户已经在屏幕上输入“令人”,随后输入“zhuoji”后,在步骤s6’中,处理设备根据所述二元关系库中的匹配信息,确定与所述输入字符串对应的第一输入候选项为“拙计”。
优选地,所述方法还包括步骤s8’(未示出)和步骤s9’(未示出);其中,在步骤s8’中,处理设备根据所述输入字符串,以及所述上下文信息,在系统词库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第二输入候选项;在步骤s9’中,处理设备将所述第一输入候选项优先所述第二输入候选项提供给所述输入字符串所对应的目标应用。具体地,在步骤s8’中,处理设备通过所述输入字符串,以及所述上下文信息,在系统词库中进行匹配,根据所述匹配结果,确定与所述输入字符串对应的一个或多个第二输入候选项;而由于用户二元关系库所获得的输入候选项是根据用户语料所训练获得,而所述用户语料基于用户的输入历史或输入习惯,因此,通常情况下,用户二元关系库所获得第一输入候选项的优先级高于所述系统词库所获得第二输入候选项,从而在步骤s9’中,处理设备将所述第一输入候选项优先所述第二输入候选项提供给所述输入字符串所对应的目标应用。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (12)

1.一种用于建立用户二元关系库的方法,其中,该方法包括以下步骤:
-对用户的历史输入记录和/或历史浏览记录进行分析处理,以获得所述用户的输入特征信息,其中,所述输入特征信息包括所述历史输入记录和/或所述历史浏览记录中出现频率较高的表达习惯、词语搭配、短句、长句中的至少任一项;
a根据所述用户的输入特征信息,在语料库或搜索索引库中匹配查询,以获得一个或多个语料结果,以作为所述用户语料;
b对所述用户语料进行分析处理,以获得一个或多个候选二元关系对;
c根据预定的二元关系黑名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对,其中,所述二元关系黑名单的确定方式为:获取网络或词库中的相关词组,对所述相关词组进行统计,将所述用户所输入的词组与所述相关词组进行对比,若所述用户所输入的词组频率远小于统计所得的词组频率,则将所述用户输入的词组与所述相关词组加入所述二元关系黑名单;
d根据所述校验后的候选二元关系对,建立或更新对应用户的二元关系库。
2.根据权利要求1所述的方法,其中,所述步骤c包括:
-根据预定的二元关系黑名单,并结合对应的二元关系白名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。
3.根据权利要求2所述的方法,其中,所述步骤c包括:
-根据所述二元关系白名单,对所述二元关系黑名单进行调整处理,以获得调整后的所述二元关系黑名单;
-根据所述调整后的二元关系黑名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤d包括:
-根据所述校验后的候选二元关系对,并结合所述二元关系库中二元关系对的使用相关信息,建立或更新所述二元关系库。
5.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-获取所述用户的输入字符串,以及所述输入字符串的上下文信息;
-根据所述输入字符串,以及所述上下文信息,在所述二元关系库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第一输入候选项。
6.根据权利要求5所述的方法,其中,该方法还包括:
-根据所述输入字符串,以及所述上下文信息,在系统词库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第二输入候选项;
-将所述第一输入候选项优先所述第二输入候选项提供给所述输入字符串所对应的目标应用。
7.一种用于建立用户二元关系库的处理设备,其中,该设备包括:
特征获取装置,用于对用户的历史输入记录和/或历史浏览记录进行分析处理,以获得所述用户的输入特征信息,其中,所述输入特征信息包括所述历史输入记录和/或所述历史浏览记录中出现频率较高的表达习惯、词语搭配、短句、长句中的至少任一项;
获取装置,用于根据所述用户的输入特征信息,在语料库或搜索索引库中匹配查询,以获得一个或多个语料结果,以作为所述用户语料;
分析装置,用于对所述用户语料进行分析处理,以获得一个或多个候选二元关系对;
校验装置,用于根据预定的二元关系黑名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对,其中,所述二元关系黑名单的确定方式为:获取网络或词库中的相关词组,对所述相关词组进行统计,将所述用户所输入的词组与所述相关词组进行对比,若所述用户所输入的词组频率远小于统计所得的词组频率,则将所述用户输入的词组与所述相关词组加入所述二元关系黑名单;
处理装置,用于根据所述校验后的候选二元关系对,建立或更新对应用户的二元关系库。
8.根据权利要求7所述的处理设备,其中,所述校验装置用于:
-根据预定的二元关系黑名单,并结合对应的二元关系白名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。
9.根据权利要求8所述的处理设备,其中,所述校验装置用于:
-根据所述二元关系白名单,对所述二元关系黑名单进行调整处理,以获得调整后的所述二元关系黑名单;
-根据所述调整后的二元关系黑名单,对所述候选二元关系对进行校验处理,以获得校验后的所述候选二元关系对。
10.根据权利要求7至9中任一项所述的处理设备,其中,所述处理装置用于:
-根据所述校验后的候选二元关系对,并结合所述二元关系库中二元关系对的使用相关信息,建立或更新所述二元关系库。
11.根据权利要求7至9中任一项所述的处理设备,其中,该设备还包括:
输入获取装置,用于获取所述用户的输入字符串,以及所述输入字符串的上下文信息;
二元查询装置,用于根据所述输入字符串,以及所述上下文信息,在所述二元关系库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第一输入候选项。
12.根据权利要求11所述的处理设备,其中,该设备还包括:
系统查询装置,用于根据所述输入字符串,以及所述上下文信息,在系统词库中进行匹配查询,以确定与所述输入字符串对应的一个或多个第二输入候选项;
提供装置,用于将所述第一输入候选项优先所述第二输入候选项提供给所述输入字符串所对应的目标应用。
CN201210592849.3A 2012-12-31 2012-12-31 一种用于建立用户二元关系库的方法与设备 Active CN103064967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210592849.3A CN103064967B (zh) 2012-12-31 2012-12-31 一种用于建立用户二元关系库的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210592849.3A CN103064967B (zh) 2012-12-31 2012-12-31 一种用于建立用户二元关系库的方法与设备

Publications (2)

Publication Number Publication Date
CN103064967A CN103064967A (zh) 2013-04-24
CN103064967B true CN103064967B (zh) 2018-10-12

Family

ID=48107597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210592849.3A Active CN103064967B (zh) 2012-12-31 2012-12-31 一种用于建立用户二元关系库的方法与设备

Country Status (1)

Country Link
CN (1) CN103064967B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997343A (zh) * 2017-03-28 2017-08-01 联想(北京)有限公司 信息处理方法及设备
CN109116996B (zh) * 2017-06-23 2023-06-20 百度在线网络技术(北京)有限公司 用于获取信息的方法、装置及服务器
CN110244861B (zh) * 2018-03-09 2024-02-02 北京搜狗科技发展有限公司 数据处理方法和装置
CN111708444A (zh) * 2020-06-15 2020-09-25 北京搜狗科技发展有限公司 输入方法、装置和用于输入的装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013443A (zh) * 2007-02-13 2007-08-08 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法系统及其更新方法
CN101114298A (zh) * 2007-08-31 2008-01-30 北京搜狗科技发展有限公司 一种获取口语词条的方法、装置以及一种输入法系统
CN101290632A (zh) * 2008-05-30 2008-10-22 北京搜狗科技发展有限公司 一种用户词参与智能组词输入的方法及一种输入法系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329674A (zh) * 2007-06-18 2008-12-24 北京搜狗科技发展有限公司 一种提供个性化搜索的系统和方法
CN101350004B (zh) * 2008-09-11 2010-08-11 北京搜狗科技发展有限公司 形成个性化纠错模型的方法及个性化纠错的输入法系统
CN101727271B (zh) * 2008-10-22 2012-11-14 北京搜狗科技发展有限公司 一种提供纠错提示的方法、装置及输入法系统
US9465798B2 (en) * 2010-10-08 2016-10-11 Iq Technology Inc. Single word and multi-word term integrating system and a method thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013443A (zh) * 2007-02-13 2007-08-08 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法系统及其更新方法
CN101114298A (zh) * 2007-08-31 2008-01-30 北京搜狗科技发展有限公司 一种获取口语词条的方法、装置以及一种输入法系统
CN101290632A (zh) * 2008-05-30 2008-10-22 北京搜狗科技发展有限公司 一种用户词参与智能组词输入的方法及一种输入法系统

Also Published As

Publication number Publication date
CN103064967A (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
US20190121850A1 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
US10891322B2 (en) Automatic conversation creator for news
US20160140106A1 (en) Phrase-based data classification system
CN107220386A (zh) 信息推送方法和装置
US20140279751A1 (en) Aggregation and analysis of media content information
WO2020077824A1 (zh) 异常问题的定位方法、装置、设备及存储介质
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN103092826B (zh) 一种根据用户的输入信息构建输入词条的方法与设备
WO2008022581A1 (fr) Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie
CN107330613A (zh) 一种舆情监控方法、设备及计算机可读存储介质
CN112104642B (zh) 一种异常账号确定方法和相关装置
US8793120B1 (en) Behavior-driven multilingual stemming
CN104899315A (zh) 推送用户信息的方法和装置
CN107562939A (zh) 垂直领域新闻推荐方法、装置及可读储存介质
CN107690634A (zh) 自动查询模式生成
JP6506489B1 (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
CN110472016B (zh) 文章推荐方法、装置、电子设备及存储介质
CN103064967B (zh) 一种用于建立用户二元关系库的方法与设备
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN110175264A (zh) 视频用户画像的构建方法、服务器及计算机可读存储介质
CN112560452B (zh) 一种自动生成纠错语料的方法和系统
CN110096681A (zh) 合同条款分析方法、装置、设备及可读存储介质
CN107656997A (zh) 自然语言处理方法、装置、存储介质及终端设备
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant