CN103942204A - 用于挖掘意图的方法和设备 - Google Patents

用于挖掘意图的方法和设备 Download PDF

Info

Publication number
CN103942204A
CN103942204A CN201310019620.5A CN201310019620A CN103942204A CN 103942204 A CN103942204 A CN 103942204A CN 201310019620 A CN201310019620 A CN 201310019620A CN 103942204 A CN103942204 A CN 103942204A
Authority
CN
China
Prior art keywords
intention
candidate
inquiry
pattern
interim
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310019620.5A
Other languages
English (en)
Other versions
CN103942204B (zh
Inventor
胡钦谙
黄耀海
那森
李荣军
夏云庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Canon Inc
Original Assignee
Tsinghua University
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Canon Inc filed Critical Tsinghua University
Priority to CN201310019620.5A priority Critical patent/CN103942204B/zh
Publication of CN103942204A publication Critical patent/CN103942204A/zh
Application granted granted Critical
Publication of CN103942204B publication Critical patent/CN103942204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了用于挖掘意图的方法和设备。该用于挖掘意图的方法包括:接收步骤,接收输入的查询;预获取步骤,基于所接收到的查询来获取第一组候选意图;构建步骤,为所述查询构建至少一个临时意图模式;获取步骤,基于所述至少一个临时意图模式来获取第二组候选意图;以及组合步骤,将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图;其中,所述临时意图模式包括所述查询和上下文字符。

Description

用于挖掘意图的方法和设备
技术领域
本发明涉及数据搜索。特别地,本发明涉及一种用于挖掘意图的方法和设备。更特别地,本发明涉及针对用户提交的搜索查询来挖掘用户意图的方法和设备。
背景技术
目前,互联网正在快速发展,在互联网中常常产生大量的信息(诸如官方公布的科技信息、个人产生的日记或者博客等),并且互联网用户在大量的互联网信息中搜索所希望的信息这一方式已经越来越普遍。为了在海量的互联网数据中找到所希望的信息,信息检索系统诸如搜索引擎变得越来越重要。
目前,在实际进行网络搜索的过程中,用户往往为了方便而输入简短但是含糊的查询,并希望找到其希望的搜索结果。然而,在此情况下,大多数的依赖现有技术的信息检索系统不足以准确地返回用户希望的搜索结果,这是因为不同用户可能通过使用相同的简短且含糊的查询作为输入来搜寻不同的解释搜索结果,而现有技术所提供的搜索结果往往不能正确地契合用户的意图。
目前传统的信息检索系统如图1所示,该图示出了传统信息检索系统的用户界面,其中示出了输入的查询以及搜索结果。
在这种传统的信息检索系统中,输入的简短并且可能含糊的查询没有被进行任何附加的处理,并且输出也仅仅是与所输入的查询相对应的搜索结果。
此外,在传统的信息检索系统中,搜索结果往往被不适当地组织;并且导致用户需要花费大量时间来浏览搜索结果以找到其所希望的,使得效率以及用户体验变差。
为了使得用户能够快速且准确地找到他们所感兴趣的内容,目前已经提出了基于对返回的搜索结果进行组织的各种自然语言处理和信息检索方法。
这样的信息检索系统可被称为基于意图的信息检索系统,此系统是针对用户所输入的简短并且可能含糊的查询进行挖掘以获取用户的查询意图。在此系统中,针对用户输入的查询,系统挖掘并且显示用户输入的查询的可能的意图,从而用户可以在所显示的意图中进行选择和确认,使得系统可以基于所选择的意图进行更有针对性的检索。
图2示出了基于意图的信息搜索系统的用户界面,在该界面中显示出了包括输入查询、一些被挖掘得到的意图以及对于所选择的意图的搜索结果。
在此系统中,用户输入的简短并且可能含糊的查询被进行挖掘以便从中获取用户可能的查询意图,并且所获取的查询意图被呈现给用户进行选择和确认,这样用户能够快速且准确地找到他所想要的内容,而且搜索结果也基于所获取的查询意图被良好地进行组织。
在这样的基于意图的信息搜索系统中,通常包含用于挖掘意图、即从用户输入的查询来挖掘用户意图的系统。此挖掘系统旨在从用户输入的查询挖掘出更加重要且多样化的用户意图。其的输入通常是查询,并且输出是候选意图以供用户进行选择和确认。
作为示例,典型的用于挖掘意图的系统(参照NTCIR中的子主题挖掘任务)被如下地设计(参见如下表1),其中NTCIR(NII TestCollection for IR Systems)是一个为所有研究人员提供共同的测试数据从而方便评价各种方法的性能的平台,其具体内容可以参见如下网站:http://research.nii.ac.jp/ntcir/outline/prop-en.html。并且,如下表中所示的示例是来自NTCIR10INTENT任务的针对NTCIR域的示例:
输入:(简短以及含糊的)查询,例如“becoming a paralegal”;
输出:(重要的以及多样化的)n个最佳意图(例如,n=10),
表1
请注意,n=10仅仅是示例性的,而n并不限于此数值。
图3示出了现有技术的典型的用于挖掘意图的方法的总体流程图。该方法提取包含输入查询的搜索结果,然后基于搜索结果来挖掘针对输入查询的候选意图;并且最终将基于一些规则来对候选意图进行排序。
目前已经提出了多种方式来实现用于挖掘意图的方法和系统。
一种方式是直接从用户输入的查询的搜索结果中提取用户意图,而不对输入的查询进行额外的处理。
例如,美国专利US8214347B2提出了一种意图挖掘方法,其从搜索结果中提取高出现频率的短语,并且然后通过使用一些预定义的规则(诸如排除以停用词(stop)开始或者结束的短语,基于短语长度以及出现频率来排除短语等)来选择这些短语中的一些作为候选意图。
图4示出了上述美国专利的方法的流程图,其特征在于挖掘候选意图的处理,即,从对于输入的查询的搜索结果中识别短语,并且确定最优的短语作为候选意图。
另外一种方式是通过利用从用户输入的查询的搜索结果中提取的关键词来对输入的查询进行扩展,从而获取用户意图。
中国专利申请CN201110306193.X提出了一种意图挖掘方法,其通过使用一些关键词来扩展用户输入的查询,其中,首先从包含网页的标题、标签(tag)、内容以及链接锚文本的搜索结果中提取关键词,然后将关键词与用户输入的查询进行组合来构建用户意图。
图5示出了上述中国专利申请的方法的流程图,其特征在于挖掘候选意图的处理,即,识别对于输入的查询的搜索结果中的关键词短语,从关键词短语中提取高覆盖率的关键词,并且通过将所提取的关键词与查询相组合来构建候选意图。
然而,现有技术中的意图挖掘方法和系统常常存在明显的缺陷。
当前,衡量一个意图挖掘系统的一些重要指标如下:I_rec(指的是意图召回率(intent recall),即在所获得的意图中,所获得的有用的意图的数量(即,所获得的正确结果)相对于希望获得的那些意图的数量(所有正确结果)的比,往往用于度量意图的多样化,D_nDCG(指的是意图准确率(intent precision),往往用于度量意图的整体相关度),“D_nDCG”为多样化的归一化折扣累积增益(Diversified-Normalized Discounted Cumulative Gain),它基于位置计算搜索引擎返回的结果文档列表的相关度(参见Sakai和Song,Evaluating Diversified Search Result Using Per-intent GradedRelevance,Proceedings of SIGIR’11,2011Beijing);以及D#-nDCG指的是I_rec与D_nDCG的线性组合(参见参考文献1和2)。并且这些指标通常是基于所挖掘出的候选意图中的前预定数量的候选意图(例如,前20个候选意图、前30个候选意图)来衡量。
然而,现有技术中的各种典型意图挖掘方法或系统(如上所述的两种意图挖掘方式中的任一种或者它们的组合)的I_rec(也被称为召回率)低。下表2示出了现有技术中的一种典型意图挖掘方法或系统的结果,其为前述两种意图挖掘方式的组合。
表2
从上表可见,现有技术中的D-nDCG20已经达到81.31%,但是I_rec仅仅是65.60%,这说明I_rec是系统性能的瓶颈。其原因是现有技术仅仅通过提取特殊类型的字符串(例如,前述第一种方式中的搜索结果中的符合特定规则的短语以及第二种方式中的关键词)来挖掘候选意图,这样导致了低的I_rec性能。
特别地,前述第一种方式的方法使用短语在搜索结果中的出现频率作为用于挖掘意图的重要指标。也就是说,按照短语在搜索结果中的出现频率对短语进行排序,并且将排序后的短语中的出现频率最高的短语为输入的查询的候选意图。然而在实际应用中,出现频率低的短语有时是重要的候选意图,而该方法由于主要关注出现频率高的短语而不能召回这样的出现频率低但是重要的候选意图。
上述第二种方式的方法提取高覆盖率的关键词并基于其构建候选意图。但是,该方法不能召回由覆盖率低但是重要的关键词构建的候选意图。
此外,上述第二种方式的方法仅仅是通过将关键词和输入的查询机械地进行组合来构建候选意图,而没有考虑所构建的候选意图的可读性(readability)和可理解性(understandability)。
例如,在上述第二种方式的方法中,如现有技术中常用的,关键词往往是有实际含义的实意词,而用户输入的查询往往也是具有实际含义的,将这二者简单地进行组合,这样所得到的字符串往往不能很好地符合用户语言环境下的表述习惯,语言表达不自然或者不连贯,导致用户不易于理解,从而这样的表述自然也就偏离了用户所想表达的意图。
本发明旨在解决上述问题,并且提供一种与领域无关的方式来挖掘更加重要的意图,其能够提高I_rec性能而基本不会影响D_nDCG性能。
引文列表
[1]Sakai,et al.2010.Simple Evaluation Metrics for DiversifiedSearch Results.Proceedings of the3rd EVIA,2010,Tokyo.
[2]Sakai and Song.2011.Evaluating Diversified Search Results UsingPer-intent Graded Relevance.Proceedings of SIGIR’11,2011,Beijing.
发明内容
本发明旨在解决上述问题。本发明的一个目的是提供一种解决上述问题中的任一个的方法和系统。
本发明的一个目标是使得针对用户输入的查询挖掘得出的候选意图更加多样化从而不会遗漏重要的候选意图。
本发明的另一个目标是使得针对用户输入的查询挖掘得出的候选意图的可读性高,而进一步抑制那些不重要且不易理解的候选意图。
根据本发明的一个方面,提供了一种用于挖掘意图的方法,包括:接收步骤,接收输入的查询;预获取步骤,基于所接收到的查询来获取第一组候选意图;构建步骤,为所述查询构建至少一个临时意图模式;获取步骤,基于所述至少一个临时意图模式来获取第二组候选意图;以及组合步骤,将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图;其中,所述临时意图模式包括所述查询和上下文字符。
根据本发明的另一个方面,提供了一种用于挖掘意图的设备,包括:接收单元,被配置用于接收输入的查询;预获取单元,被配置用于基于所接收到的查询来获取第一组候选意图;构建单元,被配置用于为所述查询构建至少一个临时意图模式;获取单元,被配置用于基于所述至少一个临时意图模式来获取第二组候选意图;以及组合单元,被配置用于将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图;其中,所述临时意图模式包括所述查询和上下文字符。
[有利效果]
现有技术中的方法或者通过直接从查询的搜索结果中按照短语的出现频率的高低来确定候选意图,或者通过查询以及查询的搜索结果中的高覆盖率的关键词的简单组合来确定候选意图,这样的实现往往会遗漏出现频率/覆盖率低但是仍重要的候选意图,而且所获得的候选意图的可读性/可理解性较差。
作为对比,根据本发明的方法通过为用户输入的查询构建临时意图模式以获得候选意图,其中上下文字符的应用使得所获得的候选意图的表述能够更加符合用户语言环境的表述习惯,从而提高其可读性/可理解性,而且使得所获得的候选意图能够进一步多样化、更加全面,从而不会遗漏重要的候选意图。
此外,根据本发明的方法还可以使得重要的且易于理解的候选意图常常被排列在前排,使得用户能够更加直观且方便地获知这样的意图,并且抑制不重要的或者不可读的意图在候选意图列表中的出现。
在实际应用中,这些优点对于大小受限的显示设备而言是非常有用的,例如,搜索结果常常局限于搜索引擎所返回的第一页上。
从参照附图的示例性实施例的以下描述,本发明的其它特征将变得清晰。
附图说明
并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于解释本发明的原理。在附图中,相似的附图标记指示相似的项目。
图1是传统信息检索系统的用户界面的示图。
图2是基于意图的信息检索系统的用户界面的示图。
图3示出了现有技术的典型的用于挖掘意图的方法的总体流程图。
图4示出了现有技术的一种用于挖掘意图的方法的流程图。
图5示出了现有技术的另一种用于挖掘意图的方法的流程图。
图6示出了根据本发明的第一实施例的用于挖掘意图的方法的流程图。
图7示出了根据本发明的第一实施例的用户挖掘意图的设备的框图。
图8A和8B分别示出了现有技术与本发明的意图挖掘方法的量度的比较。
图9A和9B分别示出了示例性的现有技术与本发明的方法对于查询的意图挖掘结果。
图10示出了根据本发明的第二实施例的重组步骤的操作的流程图。
图11示出了根据本发明的第三实施例的临时意图模式构建步骤的流程图。
图12示出了根据本发明的第三实施例的基于用户预先设定的意图训练库或者用户搜索历史选择记录日志构建子查询的临时意图模式的过程的流程图。
图13示出了根据本发明的第四实施例的临时意图模式的构建。
图14示出了根据本发明的第五实施例的构建临时意图模式的方法的流程图。
图15示出了根据本发明的第五实施例的第一组候选意图各自的结构模式图。
图16示出了根据本发明的第五实施例所获得的临时意图模式图。
图17示出了根据本发明的用于挖掘意图的设备的总体框图。
图18示出了挖掘出的与用户的查询有关的候选意图。
图19示出了示例性的多个候选合集。
图20示出了根据排他度来识别排他合集。
图21示出了对于图18所示的候选意图划分得到的多个候选合集。
图22示出了对于图21中所示的“候选合集1432”的排他度。
图23示出了排他合集中仅保留一个候选意图。
图24示出了现有技术中的输出候选意图。
图25示出了候选意图多样化之后的输出候选意图。
图26示出了候选意图作为上位词的下拉列表显示。
图27示出了根据本发明的第七实施例的方法的流程图。
图28示出了搜索结果的全集和子集之间的关系。
图29是示出可实施本发明的实施例的计算机系统的示例性硬件配置的框图。
具体实施方式
下文将参照附图详细描述本发明的实施例。
应注意,在附图中相似的附图标记和字母指示相似的项目,并且因此一旦一个项目在一个附图中被定义,则对于随后的附图无需再对其进行论述。
为了有助于透彻地并且适当地理解本发明,下文将首先解释本发明的说明书以及权利要求书中所使用的术语。
“意图”指的是用户所输入的简短且含糊的查询所对应的真实希望的意思表示。例如,当用户输入的查询“北京”时,“北京的天气”、“在北京的生活成本”等等都可是用户所输入的该查询的意图。
“可读性/可理解性”指的是意图的表述更加符合应用环境下的表述习惯,而不仅仅是多个词或短语的简单堆砌。在本申请中,通过利用上下文字符、尤其是连接字符,例如功能词,来扩展用户输入的查询能够获得易于理解的候选意图。
在本公开中,术语“第一”、“第二”等仅仅用于区分元素或者步骤,而不是要指示时间顺序、优先选择或者重要性。
[第一实施例]
下文将参照附图来描述根据本发明的第一实施例的用于挖掘意图的方法和设备。本发明的第一实施例总体上涉及一种通过利用上下文字符来扩展用户输入的查询以获取候选意图的方法和设备。下文将参照图6描述根据本发明的第一实施例的用于挖掘意图的方法的流程图。其中图6示出了根据本发明的第一实施例的用于挖掘意图的方法的流程图。
在步骤S601(下文可被称为“接收步骤”)中,接收用户输入的查询。
在步骤S602(下文可被称为“预获取步骤”)中,基于所接收到的查询来获取第一组候选意图。
在步骤S603(下文可被称为“构建步骤”)中,对于所述查询构建至少一个临时意图模式(temporary intent schema),其中,所述临时意图模式包括所述查询和上下文字符。
在步骤S604(下文可被称为“获取步骤”)中,基于构建步骤中所构建的至少一个临时意图模式来获取第二组候选意图。
在步骤S605(下文可被称为“组合步骤”)中,将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图。
该上下文字符指的是在用户的语言习惯环境下与所输入的查询有关的表述字符,例如查询领域中常用的位于查询之前或者之后的通配符,与所输入的查询相关联的连接字符等,例如功能词,下文以功能词为例进行说明,该功能词为在用户的语言习惯环境下表明一种语法关系的语义很虚的词,例如包含冠词、前置词(preposition)和连词中的至少一个。
上下文字符可以是用户根据个人习惯所预先设定的,优选地,该上下文字符可由意图挖掘系统自动地获得,例如,上下文字符可由意图挖掘系统基于预先设定的意图训练库或者用户搜索历史选择记录或者所述第一组候选意图中的至少一个来获得。继而,基于所获得的上下文字符,可得到所述临时意图模式,下文将对此进行详细描述。
临时意图模式是通过利用上下文字符针对所输入的查询进行挖掘而获得的,并且通常为包含所输入的查询和上下文字符的字符串形式。
优选地,该临时意图模式包含查询、至少一个通配符以及至少一个功能词。这是因为在其中功能词与查询连用的临时意图模式往往更加符合用户语言习惯,从而能够更加适当地构建用户输入的查询的意图。
所述预获取步骤中的过程可采用本领域已知的任何用于获取用户输入的查询的意图的方式被执行,此外,第一组候选意图可被以本领域公知的方式(例如,按照各候选意图的出现频率)进行排序,而且还可被以本领域公知的方式进行过滤以显示预定数量的候选意图。在此将不对其进行详细描述。
所述获取步骤中的过程也可采用本领域已知的任何用于获取查询的意图的方式被执行,其中所构建的临时意图模式可以被看作等同于要被获取意图的查询。在一种实例中,该获取方式可与前述预获取方式相同。此外,第二组候选意图也可被以本领域公知的方式(例如,按照各候选意图的出现频率)进行排序,而且还可被以本领域公知的方式进行过滤以显示预定数量的候选意图。在此将不对其进行详细描述。
所述组合步骤可以采用多种方式执行。例如,一种简单的方式是将第一组候选意图和第二组候选意图简单地集合在一起,从而获得其数量为第一组候选意图中的候选意图的数量与第二组候选意图中的候选意图的数量之和的候选意图的集合,作为所输入的查询的候选意图。可替代地,所组合得到的候选意图的集合也可被按照预定规则被过滤以获得包含预定数量的候选意图的集合。
此外,组合得到的候选意图的集合也可被以本领域公知的方式(例如,按照各候选意图的出现频率)进行排序。
此外,组合得到的候选意图也可被按照各候选意图的重要性排序,使得重要性高的候选意图能够被置于候选意图列表的前列,从而用户能够更加直观地看到更为重要的候选意图而便于选择和确认。在本申请中,除了出现频率之外,各候选意图的重要性还可通过各候选意图所对应的临时意图模式的覆盖率和置信度来衡量,下文将对此进行详细描述。
为了有助于对本发明的第一实施例的方法的透彻理解,下文将结合一个示例来描述该方法。
首先,用户输入一个查询“becoming a paralegal”。
然后,针对该输入的查询,进行预获取操作,即初步挖掘所输入的查询的意图以获取该查询的第一组候选意图,如下表3所示。
表3
这些候选意图可通过本领域中常用的方式来获得。
作为示例,在该表中示出了前10个候选意图,这些候选意图是按照各候选意图的出现频率来排序的。应指出所显示的列表仅仅是示例性的,候选意图的数量以及候选意图的排序方式可不限于此。
然后,基于用户输入的查询,构建该查询的临时意图模式,如下表4所示。其中该临时意图模式包含该查询“becoming a paralegal”、连用的功能词以及至少一个通配符,其中该功能词和通配符共同作为上下文字符。
表4
这里,功能词是用户预先设定的。例如,可以是常用的功能词,例如“of”、“at”、“in”、“on”、“for”、“to”、“and”、“or”、“’s”中的任一种,在这里以“to”、“of”、“for”为例,从而由此得到基于查询的临时意图模式集合。
然后,基于该临时意图模式集合中的任一个临时意图模式,来获得该临时意图模式对应的候选意图,并且将对于该临时意图模式集合所获取的候选意图作为第二组候选意图。如下表5所示,
表5
这些候选意图也可通过本领域中常用的获得查询意图的方式来获得。作为示例,在该表中示出了前2个候选意图,这些候选意图是按照各候选意图的出现频率来排序的。当然,第二组候选意图的数量以及候选意图的排序规则可不限于此。
然后,将所得到的第二组候选意图与第一组候选意图进行组合,以获得进一步多样化的候选意图。如下表6所示。
表6
从上述表6可知,在按照出现频率排序的情况下,通过构建临时意图模式来获取的候选意图实际上是出现频率高且可理解性强的候选意图,也就是说,这些意图可能是更加重要的候选意图,而常规的现有技术的方法并没有挖掘出这样的更加重要的候选意图。
从上述示例可知,通过利用上下文字符、尤其是功能词来扩展输入的查询,可以获取更加多样化的候选意图,而不会遗漏掉可能重要的候选意图,使得用户能够获得更希望的搜索结果。而且,这样所获得的候选意图的可读性/可理解性更高。
应注意,上述示例仅仅是说明性的,而不是限制性的。用户输入的查询、上下文字符、该方法所获取的候选意图的数量以及排序方式都不局限于上述示例。
下文将参照图7描述根据本发明的第一实施例的用于挖掘意图的设备的框图,其中图7示出了根据本发明的第一实施例的用于挖掘意图的设备700。
该设备700可包括被配置为接收用户输入的查询的接收单元701,被配置为基于所接收到的查询来获取第一组候选意图的预获取单元702,被配置为对于所述查询构建至少一个临时意图模式的构建单元703,被配置为基于通过所述构建单元构建的至少一个临时意图模式来获取第二组候选意图的获取单元703,以及被配置为将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图的组合单元704。
在一种实例中,该预获取单元702和获取单元703可以是同一获取单元。
[有利效果]
本实施例的用于挖掘意图的方法在于通过上下文字符针对所输入的查询构建临时意图模式,并且使用该临时意图模式来再次进行意图挖掘。
通过上述处理,能够获得比现有技术所得到的查询的候选意图更加多样化的候选意图,从而能够获得更多的用户意图,而不会遗漏用户输入查询所希望的意图。
而且,上下文字符的应用使得所构建的临时意图模式能够更好地适合于用户语言环境的表达习惯,从而所获得的候选意图的可读性/可理解性提高,这样所获得的候选意图也更有可能是用户所希望的。
[比较示例]
为了有助于更好地了解本发明的优点,如下将描述根据本发明的方法与现有技术的方法的比较示例。
假定用户在信息检索系统中输入查询,并且信息检索系统将为用户呈现前10个候选意图。
并且,评价方法的效果的度量指标在此为本领域中公知的I_rec、D_nDCG以及D#-nDCG,其中D#-nDCG为I_rec与D_nDCG的线性组合,并且例如可以是这两者的算术平均。
在上式中,I_rec、D-nDCG以及D#-nDCG是基于查询的真实状态数据(ground truth)被确定的,通常是通过将意图挖掘结果与真实状态数据进行比较来计算得到的,这些指标的获得是本领域公知的,因此将不再详细描述。
作为示例,在现有技术中,可通过如下方式来获得查询的真实状态数据。例如,真实状态数据可以是人为设定的。再如真实状态数据是由评注者所提供并且由多个人投票产生的(参照NTCIR中的子主题挖掘任务)。具体流程可如下:
●获得由NTCIR提供的采样查询;
●将每次运行所得到的前20个意图进行汇总;
●从候选意图手动地获得集合的意图;
●对所获得的集合中的每个意图进行投票;
●基于票数评估各意图的概率。
图8A和8B分别示出了现有技术与本发明的意图挖掘方法的量度的比较,其中8A示出了对于前20个候选意图的现有技术与本发明的意图挖掘方法的量度的比较,并且图8B示出了对于前30个候选意图的现有技术与本发明的意图挖掘方法的量度的比较。
从图8A和8B所示,本发明的方法与现有技术相比,各性能提高明显。例如,对于前20个候选意图以及前30个候选意图,本发明与现有技术相比I_rec能够分别提高3.54%以及2.88%,这导致D_nDCG分别提高5.18%以及5.17%。最后,导致D#-nDCG分别提高4.35%以及4.03%。
此外,与现有技术相比,本发明的方法还能够挖掘出更加多样化的候选意图,并且能够将更加重要的候选意图以及可读性高的候选意图以更加醒目的方式(例如,在候选意图列表中的位置更加靠前)呈现给用户,而将不重要的候选意图以及可读性差的候选意图以更加不醒目的方式(例如,在候选意图列表中的位置靠后)呈现。
为了提供更直观的比较,以查询“becoming a paralegal”为例来比较本发明的方法与现有技术的意图挖掘结果。图9A和9B分别示出了示例性的现有技术与本发明的方法对于该查询的意图挖掘结果。
参见图9A可知,在现有技术所获得的候选意图列表中,重要的以及易于理解的候选意图(例如,意图9))被排列在候选意图列表的后面,而不重要的以及不可读的候选意图(例如,意图1))被排列在候选意图列表的前面,这样使得用户不能醒目地注意到重要的以及易于理解的候选意图。
作为对比,从图9B中可见,在通过本发明的方法所获取的候选意图列表中,重要的以及易于理解的候选意图被排列在候选意图列表的前面,而不重要的以及不可读的候选意图被排列在候选意图列表的后面,这样使得用户能够醒目地注意到重要的以及易于理解的候选意图。而且,根据本发明的方法还能够获得现有技术中遗漏的重要的以及易于理解的候选意图。
[第二实施例]
下文将描述根据本发明的第二实施例的用于挖掘意图的方法。根据本发明的第二实施例的方法与第一实施例的不同之处仅在于接收步骤。具体来说,根据本发明的第二实施例的方法的接收步骤包含对于输入的查询的处理,尤其是通过对查询进行解析并重组来获得更加多样化的查询。为了简便起见,与第一实施例相同或者相似的步骤或部件将不再进行重复描述。
在现有技术中,用户输入的查询往往被作为一个整体来进行搜索并获得其候选意图。由于用户输入的查询往往是简短且含糊的,因此用户输入的查询可能并不一定符合用户语言环境的习惯,这样将输入的查询作为一个整体进行处理可能不能获得符合用户语言环境的习惯的候选意图。
针对上述可能的情况,本实施例的方法对于用户输入的查询进行解析并重组以获得新的查询,使得用户输入的查询多样化,从而能够获得更加多样化的候选查询。
在一种实现中,根据本发明的方法的接收步骤可进一步包括重组步骤,其用于将所接收到的查询中的概念进行重组,以获得至少一个重组后的查询。在此情况下,该方法中的预获取步骤基于所述至少一个重组后的查询来获得所述第一组候选意图,且该方法中的构建步骤基于所述至少一个重组后的查询来构建所述至少一个临时意图模式。
概念是用户语言环境中的基本词义单元,其通常可以是单个单词,并且优选地也可以是用户语言环境中的常用短语。
在一种实现中,本实施例中的重组操作是将所输入的查询中的所有概念的排序打乱并重新排序以获得新的查询,其可以采用本领域中已知的方式(例如贪婪算法或者动态编程方法)来执行。下文将详细描述重组步骤的操作的一种实现。
优选地,重组之后所得到的查询可被根据预定规则进行过滤。例如,可以参照重组之后所得到的各个查询的在数据搜索资源(例如,搜索引擎、Wikipedia、查询日志等)出现频率来进行过滤以保留出现频率较高的重组后的查询。当然,重组之后得到的查询还可被按照本领域已知的其它规则进行过滤。
以下将参照图10描述根据本发明的第二实施例的重组步骤,其中图10是示出根据本发明的第二实施例的重组步骤的操作的流程图。
在步骤S1001(下文被称为解析步骤),对所接收到的查询进行解析以获得所接收到的查询中的各概念。
在步骤S1002(下文被称为位置调整步骤),对于所获得的各概念进行位置调整以生成至少一个重组后的查询。
其中,所述预获取步骤基于所述至少一个重组后的查询来获得所述第一组候选意图;而且,所述构建步骤为所述至少一个重组后的查询构建所述至少一个临时意图模式。
优选地,该重组步骤还可包含过滤步骤S1003,该过滤步骤基于第一预定参数来对所生成的至少一个重组后的查询进行过滤。该步骤在图10的流程图中用虚线框表示,这表明该步骤对于根据本发明的重组步骤而言并不是必需的。
其中,所述第一预定参数可以为本领域中已知的用于过滤候选查询列表的参数,例如可以为重组查询在数据搜索资源中的出现频率,当然,该第一预定参数并不限于此。
其中,所述至少一个重组后的查询包含重组得到的查询中的其第一预定参数大于等于第一阈值的查询。
在此情况下,所述预获取步骤基于所述至少一个重组后的查询中的其第一预定参数大于等于第一阈值的查询来获得所述第一组候选意图;而且,所述构建步骤为所述至少一个重组后的查询中的其第一预定参数大于等于所述第一阈值的查询构建所述至少一个临时意图模式。
应注意,上述的过滤步骤是优选地,也就是说根据本发明的重组步骤也可以不包含过滤步骤,而仍可获得多样化的候选查询。
为了更透彻的理解上述方法,下文将结合一个示例来描述该方法。
首先,输入查询“Battles in the civil war”。
然后,对于输入查询进行解析,从而获得该查询中的各个概念“Battles”、“in”、“the”和“civil war”。这里,短语“civil war”被看作是一个概念。
然后,对于所获得的该查询中的各个概念通过进行重新排序来进行重新组合,从而获得更多的候选查询,如下表7所示。
表7
候选查询
in battles the civil war
in the battles civil war
in the civil war battles
battles in civil war
优选地,为了提高后续处理的效率,还可以对重新排序后所获得的多个候选查询进行过滤,从而获得合理性更高的候选查询。例如,可对于重新排序后的多个查询中的每一个进行检索,并且基于各查询的出现频率来进行排序,并且选择前几个查询作为重组后的查询。如下表8所示。
表8
重组后的查询
in the civil war battles
battles in civil war
由此,根据本发明的方法,可获得更加多样化的查询,并且基于此多样化的查询可获得更加多样化的候选意图。
[有利效果]
现有技术往往将用户输入的查询作为一个不可分割的整体来进行检索,这样限制了所能够获得的用户意图的多样性。而且,在用户输入的查询简短且含糊导致不易理解的情况下,直接利用该查询所获得的用户意图可能不易理解。
根据本发明的方法对于用户输入的查询进行解析并进行重组,使得能够获得更加多样化的查询,从而在此基础上获得的用户意图也必然更加多样化。而且,即使用户输入的查询不易理解,通过上述的重组处理也有可能获得易于理解/可读的查询,从而提高了利用重组后的查询所获得的用户意图的可理解性/可读性。
以下将参照若干实施例来进一步详细描述临时意图模式的构建。
[第三实施例]
下文将参照附图来描述根据本发明的第三实施例的方法,该方法更具体地限定了一种临时意图模式的构建方式。在本实施例的方法中,所输入的查询的临时意图模式是基于所输入的查询中所包含的子查询而获得的。为了简便起见,本实施例的方法中与其它实施例相同或者相似的步骤或组件将不再被重复描述。
下文将参照图11详细描述根据本发明的第三实施例的方法,图11示出根据本发明的第三实施例的临时意图模式的构建步骤的流程图。
在步骤S1101中,将所述查询分割成至少一个子查询(sub-query)。
在步骤S1102中,对于所述至少一个子查询中的每一个,获得该子查询的至少一个临时意图模式。
在步骤S1103中,基于所述至少一个子查询中的每一个的临时意图模式中的每一个与其余子查询的组合,得到该查询的至少一个临时意图模式。
查询的子查询通常是该查询中的具有实际含义的词语或者短语,例如可以是输入的查询中的具有实际含义的概念或者短语,通常还可包括输入查询本身。
查询的分割处理可被以与第二实施例中的解析步骤中相似的方式来执行。
在一种实现中,该子查询的临时意图模式的构建可采用与第一实施例中所述的构建步骤相同的方式来执行,即可如第一实施例中所述的那样,该子查询的临时意图模式包含该子查询以及预先设定的上下文字符,优选地,该子查询的临时意图模式包含该子查询、用户预先设定的功能词以及至少一个通配符。
优选地,该子查询的临时意图模式还可从用户预先设定的训练数据库或者用户搜索历史选择记录日志来获得。如下将参照图12来详细描述这种构建方式,图12示出了根据本发明的第三实施例的基于用户预先设定的意图训练库或者用户搜索历史选择记录日志构建子查询的临时意图模式的过程的流程图。
在步骤S1201,从意图训练库或者用户搜索历史选择记录日志中的各数据中提取包含该子查询的最短字符串;
在步骤S1202,对所提取的最短字符串进行泛化以得到该子查询的至少一个临时意图模式,
其中,在该最短字符串不包含连接字符的情况下,将该最短字符串中的除该子查询之外的其它内容用通配符替换,在此情况下该上下文字符为通配符;
在该最短字符串包含与该子查询紧邻的连接字符的情况下,将该最短字符串中的除该子查询和与该子查询紧邻的连接字符之外的其它内容用通配符替换,在此情况下该上下文字符为通配符和该连接字符。
其中,该连接字符,例如代表了用户语言环境中的功能词。
优选地,根据本实施例的构建步骤还可包括过滤步骤,该过滤步骤基于第二预定参数来对所得到的组合进行过滤以获得所述查询的至少一个临时意图模式,并且,所述至少一个临时意图模式包含步骤S1103得到的所述组合中的其第二预定参数大于等于第二阈值的组合。
这里,第二预定参数可以被本领域中已知的用于过滤候选查询列表的参数,例如可以为所得到的组合在数据搜索资源中的出现频率,当然,该第二预定参数并不限于此。
这里,最短字符串可被认为是包含子查询的、在用户语言环境中具有实际含义的最短的短语。
优选地,泛化得到的子查询的临时意图模式中可仅仅保留如下这样的临时意图模式,即该临时意图模式包含子查询、至少一个功能词以及通配符,基于这样的临时意图模式所组合得到的输入的查询的临时意图模式将具有更高的可读性/可理解性。
为了更透彻的理解上述方法,下文将结合一个示例来描述该方法。
首先,输入查询“American civil war”。
然后,对于输入查询进行分割,从而获得该查询中所包含的多个子查询。子查询的获得可基于本领域中的多种常用方法来实现。分割得到的子查询例如:
1)American
2)civil war
3)American civil war
可见,该子查询可以是对应于该查询中的具有实际含义的概念或短语,在该输入查询作为一个整体考虑的情况下还可以对应于该输入查询本身。
然后,对于每个子查询,从用户意图训练库或者用户搜索历史选择记录日志来获得其可能的临时意图模式。
用户意图训练库或者用户搜索历史选择记录日志可被手动地收集,或者由计算机系统自动地采用本领域已知的方式来收集。
例如,当用户在以前的网络检索或者浏览活动中输入查询“American”并且点击选择搜索结果“American express”以及“American education”时,该搜索结果“American express”以及“American education”将作为对于查询“American”的训练数据被收集。例如,收集到的用户意图训练库或者用户搜索历史选择纪录日志可如下表9所示:
表9
然后,对于用户输入的查询的子查询,从上述训练数据库提取包含用户输入的查询的子查询的最短字符串,如下表10所示:
表10
然后,将所获得的最短字符串进行泛化以获得子查询对应的临时意图模式,特别地,泛化指的是将最短字符串中的除子查询以及可能的连接字符(例如,功能词)之外的其它字符用通配符替换,如下表11所示:
表11
从中可见,在子查询的最短字符串不包含连接字符时,该最短字符串中的除子查询之外的其它字符被用通配符替换;在子查询的最短字符串中包含连接字符时,该最短字符串中的除子查询以及连接字符之外的其它字符被用通配符替换。
然后,对所获得的各子查询的临时意图模式与其余子查询进行组合以构建用户输入的查询的临时意图模式集合。
例如,对于如上得到的子查询的临时意图模式的组合如下:
1)American{wildcard}+civil war→American{wildcard}civil war
2){wildcard}of American+civil war→{wildcard}of American civil war
3)American+{wildcard}civil war→American{wildcard}civil war
4)American+civil war{wildcard}→American civil war{wildcard}
并且所获得的输入的查询的临时意图模式集合以及由此挖掘得到的候选意图如下表12所示:
表12
临时意图模式 候选意图
American{wildcard}civil war American history civil war
{wildcard}of American civil war Causes of American civil war
American civil war{wildcard} American civil war battles
从上表可见,即使不存在与原始的用户输入的查询“Americancivil war”直接匹配的模式,仍可获得对于所输入的查询的临时意图模式。
本实施例中的基于意图训练库或者用户搜索历史选择记录日志来构建子查询的临时意图模式的方法可等同地应用于用户输入的原始查询,即,可在不对输入的查询进行分割的情况下,将输入的查询作为一个整体来从意图训练库或者用户搜索历史选择记录日志中获取该输入的查询所对应的临时意图模式。这对于用户输入的查询是简短且含糊的字符串的情况尤其有利。
[有利效果]
通过根据本实施例的构建临时意图模式的方法,能够获得更加多样化的临时意图模式,因此在此基础上获得的用户意图也必然更加多样化,而且所获得的用户意图的合理性也将提高。
此外,即使在不直接存在与原始的用户输入的查询直接匹配的模式(例如,包含作为一个整体的用户输入的查询以及在其前后添加的上下文字符的模式)的情况下,通过本实施例的基于子查询构建临时意图模式的方法仍有可能恢复得到对于所输入的查询的直接匹配的临时意图模式,从而仍可获得与该直接匹配的临时意图模式相对应的用户意图,避免了可能重要的用户意图的遗漏。
[第四实施例]
下文将参照附图来描述根据本发明的第四实施例的方法,该方法更具体地限定了一种临时意图模式的构建方式。在本实施例的方法中,临时意图模式是基于根据用户输入的查询预先获取的第一组候选意图的覆盖率和置信度而获得的。为了简便起见,本实施例的方法中与其它实施例相同或者相似的步骤或组件将不再被重复描述。
下文将参照图13来描述根据本实施例的临时意图模式的构建,图13示出了根据本发明的第四实施例的构建临时意图模式的过程。
在步骤S1301中,从所述第一组候选意图中泛化出至少一个第一意图模式;
在步骤S1302中,计算所述至少一个第一意图模式中的各意图模式的覆盖率(coverage score)和置信度(confidence score);以及
在步骤S1303中,确定所述至少一个第一意图模式中的其覆盖率大于等于第三阈值或其置信度大于等于第四阈值的意图模式作为所述输入查询的至少一个临时意图模式。
其中,所述泛化步骤包括:对于所述第一组候选意图中的每一个
在该候选意图不包含连接字符的情况下,将该候选意图中的除该查询之外的其它内容用通配符替换,在此情况下该上下文字符为通配符;而在该候选意图包含与该查询紧邻的连接字符的情况下,将该意图查询中的除该查询和与该查询紧邻的连接字符之外的其它内容用通配符替换,在此情况下该上下文字符为通配符和该连接字符。
本实施例中的泛化可被以与前述第三实施例中的泛化处理相似地方式进行处理。
优选地,泛化得到的所述至少一个第一意图模式中可仅仅保留如下这样的意图模式,即该意图模式包含查询、至少一个功能词以及通配符,基于这样的意图模式所得到的输入的查询的临时意图模式将具有更高的可读性/可理解性。
优选地,该意图模式的覆盖率在此指的是该意图模式对应的第一组候选意图中的候选意图在该第一组候选意图中所占的比例。
在一种实现中,意图模式的覆盖率可通过将该意图模式所对应的候选意图的数量除以第一组候选意图中所包含的候选意图的总数而得到的,并且可由下式表示:
优选地,候选意图的置信度是用于衡量该候选意图成为真实意图的可能性,而该可能性优选地对应于该候选意图在数据搜索资源中的出现频率。例如,候选意图在数据搜索资源中的出现频率越高,则该候选意图成为真实意图的可能性越高,则该候选意图的置信度越高。
在一种实现中,意图模式的置信度是基于该意图模式所对应的第一组候选意图中的候选意图各自的置信度来计算的。例如,意图模式的置信度是通过对于第一组候选意图中的该意图模式所对应的候选意图各自的置信度进行平均而获得的,如下式所示:
这里的平均是简单的算术平均,但是应指出,这仅是示例性的。该平均还可以是加权平均,例如为各候选意图提供基于其置信度的权重。
为了更透彻的理解上述方法,下文将结合一个示例来描述该方法。
首先,确定对于用户输入的查询而预获取的第一组候选意图中各候选意图各自的置信度。在一种实现中,将对于用户输入的查询而预获取的候选意图按照搜索出现频率进行排序,并且将前10个候选意图分别标注各自的分数(即,置信度),例如从10到1,分数值越大表示该候选意图越可能成为真实的意图。如下表13所示:
表13
当然,这个分数是说明性的,而不是限制性的。而且,各候选意图的置信度的确定还可基于其它参数来确定,而不仅限于候选意图的搜索出现频率。
然后,对于所列出的第一组候选意图进行泛化以得到它们所对应的意图模式,并且计算各意图模式的覆盖率和置信度。例如,下表14中示出了两个意图模式的覆盖率和置信度:
表14
优选地,还可对于所获得的至少一个意图模式进行过滤,具体来说,基于各意图模式的覆盖率和置信度进行过滤,从而能够保留可被认为更加重要的意图模式。
此外,基于上述所获得的至少一个临时意图模式所得到的用户候选意图还可通过考虑各候选意图的出现频率以及该候选意图所对应的临时意图模式的覆盖率和置信度被进行排序。例如,出现频率高且其对应的临时意图模式的覆盖率和/或置信度高的候选意图将被排在候选意图列表的前面的位置。
优选地,此实施例中所述的获得临时意图模式的方式也可与前述第三实施例中所述的获得临时意图模式的方式相组合地使用,即对于输入的查询,可以分别采用根据第三实施例和第四实施例的方法来获取临时意图模式,并将通过两种方式获取的临时意图模式进行组合,这样能够获得被进一步多样化的临时意图模式,并且保留了尽可能多的更重要的临时意图模式。
[有利效果]
现有技术仅仅考虑了候选意图中的每一个的出现频率,而对于意图的重要性等没有进行充分考虑。
本实施例中的方法考虑了第一组候选意图中的各个候选意图所对应的意图模式的重要性,例如通过意图模式的覆盖率和置信度来衡量意图模式的重要性,从而在获得多样化的候选意图的同时,能够挖掘出现有技术可能遗漏的重要的候选意图。
[第五实施例]
下文将参照附图来描述根据本发明的第五实施例的方法,该方法更具体地限定了一种临时意图模式的构建方式。在本实施例的方法中,临时意图模式是基于根据用户输入的查询预先获取的第一组候选意图的结构而获得的。为了简便起见,本实施例的方法中与其它实施例相同或者相似的步骤或组件将不再被重复描述。
下文将参照图14描述根据本发明的第五实施例的方法,图14示出了根据本发明的第五实施例的构建临时意图模式的方法的流程图。
在步骤S1401中,通过对所述第一组候选意图中的每一个进行结构分析来提取至少一个结构模式,
在步骤S1402中,计算所述至少一个结构模式中的各结构模式的覆盖率和置信度;以及
在步骤S1403中,确定所述至少一个结构模式中的其覆盖率大于等于第五阈值或其置信度大于等于第六阈值的结构模式作为所述输入查询的至少一个临时意图模式。
提取结构模式总体来说是通过对所述第一组候选意图中的每一个进行结构分析来获得结构候选意图;以及通过在结构候选意图中用通配符替换意图来提取至少一个结构模式。
优选地,所得到的临时意图模式中可仅仅保留如下这样的临时意图模式,即该临时意图模式包含查询、至少一个功能词以及通配符,由此输入的查询的临时意图模式将具有更高的可读性/可理解性。
这里,结构模式的覆盖率和置信度的计算可类似于前述第四实施例中的计算。
如下示出提取结构模式的一个示例以有助于理解,其中假定用户输入的查询为“becoming a paralegal”。
首先,对于输入的查询进行挖掘以获得第一组候选意图,例如:
1)becoming a paralegal criminal justice
2)tips for becoming a paralegal
3)how to become a paralegal or a legal assistant
4)benefits of becoming a paralegal
这里,第一组候选意图的数量为4,当然,此数量仅是说明性的,其数量还可以任何其它值。
然后,对于第一组候选意图中的每一个进行结构分析,该结构分析可利用本领域已知的分析方法来实现。
例如,对于上述第一组候选意图,能够分别得到各个候选意图的结构模式图,如图15所示。
然后,从各候选意图的结构模式中提取具有高置信度和/或高覆盖率的结构模式的作为所述输入查询的临时意图模式。
通常,如果一个意图模式具有高覆盖率,则其所有子模式都具有高覆盖率。如果一个意图模式具有低覆盖率,则其所有的父模式都具有低覆盖率。
作为示例,一种从各候选意图的结构模式,(例如句法结构模式),中提取临时意图模式的算法如下:
首先,对搜索得到的各候选意图进行句法结构分析。之后遍历句法结构分析的结果,获得包含查询的长度为1的句法结构模式,从长度为1的句法结构模式开始迭代地生成临时意图模式。
该迭代操作中的每一次循环的操作具体如下:
1.句法结构模式扩充。以长度为k的句法结构模式生成长度为(k+1)的句法结构模式;
2.评估生成的句法结构模式的置信度。可使用候选意图的分析结果对生成的句法结构模式进行评估;
该迭代操作的终止条件。为当生成的句法结构模式的置信度或者覆盖率低于预定义阈值时算法停止;
通过迭代操作所生成的临时生成的临时意图模式被输出,如图16所示。
优选地,为了进一步提高挖掘得到的用户候选意图的召回率,还可对于通过前述实施例所获得的候选意图进行进一步处理。下文将描述根据本发明的对于候选意图进行进一步处理的实施例。
[第六实施例]
下文将参照附图来描述根据本发明的第六实施例的对所获得的候选意图进行进一步处理的方法。该第六实施例的方法能够与前述实施例中的至少一个的方法进行组合,从而能够得到如下这样的实施例,其中通过前述实施例中的至少一个的方法获得用户候选意图之后,再利用根据本实施例的方法对于所获得的用户候选意图进行进一步处理。
为了简便起见,本实施例的方法中与其它实施例相同或者相似的步骤或组件将不再被重复描述。
在很多情况下,用户会在一组候选意图(包括至少两个候选意图)之间进行排他性选择。也就是说,用户总是只会在这一组候选意图之中选择一个候选意图,而忽略其它候选意图。这时,这一组候选意图是相互排他的,在下文中被称为“排他意图”。
例如,当用户输入查询“furniture for small space”时,可以得到如下两个候选意图:“furniture for small spaces New York”、
“furniture for small spaces Los Angeles”。很明显这两个候选意图涉及两个不同城市。住在“New York”附近的人总是选择前一个候选意图,而忽略后一个候选意图。然而,住在“Los Angeles”附近的人总是选择后一个候选意图,而忽略前一个候选意图。在这种情况下,这两个候选意图是相互排他的排他意图。
“排他合集”指的是由相互排他的至少两个排他意图构成的合集。例如,在上述例子中,可以构建一个如下的排他合集:{“furniture forsmall spaces New York”,“furniture for small spaces Los Angeles”}。
本实施例的方法包括在所挖掘出的候选意图之中构建至少一个排他合集,其中每个排他合集包括至少两个相互排他的候选意图。可以利用各种方式来构建排他合集。
下文将详细描述构建排他合集的一种示例性方法,该方法包括根据候选意图的语义类型来对所挖掘出的至少两个候选意图进行分类,以便得到至少一个候选合集,其中每个候选合集包括至少两个具有相同语义类型的候选意图;以及根据每个候选合集中的候选意图的语义类型的排他度来识别排他合集。
语义类型包括概念类型(concept type)、命名实体类型(nameentity type)、本体类型(ontology type)和用户定义的类型中的至少一种。例如,对于本体类型,可以采用Freebase来识别和泛化候选意图,从而将具有相同本体类型的候选意图关联到同一个本体集群(ontological cluster)。Freebase是一种结构化数据的在线集合,旨在创建允许人们(和机器)更有效地访问共同信息的全球资源。
作为具体示例,语义类型可以为例如,性别、年龄、时间、等级、布尔值、社会关系和位置等等。全球社会知识源(诸如Freebase)可以提供必要的信息来确定候选意图的语义类型。
下面示例性地示出几个相应语义类型的候选排他合集:
具有性别特征的候选排他合集:{Blue throated hummingbirdfemale,Blue throated humming bird male};
具有年龄特征的候选排他合集:{Signs of a heart attack in womenover 50,Signs of a heart attack in young women};
具有时间特征的候选排他合集:{Brooks brothers summerclearance sales,Brooks brothers winter clearance sales}。
语义类型的排他度可以是针对语义类型手动地预先设定的,或者是基于具有所述语义类型的候选意图来自动地预先计算的。可以通过利用具有相同语义类型的候选意图之间的关系分数来预先计算排他度。具体的排他度的计算方法可以参考后述的计算候选合集的排他度的方法。排他度一般被设定在0到1之间,排他度的值越大表明候选意图之间的排他性越强。
下面的表15给出了手动地预先设定的语义类型的排他度的一些示例。
表15
语义类型 排他度
性别 0.9
年龄 0.9
时间 0.9
等级 0.8
布尔值 1
...
在一个示例中,可以通过预先定义一个排他度阈值来识别排他合集。如果候选合集对应的语义类型的排他度大于该排他度阈值,则将该候选合集识别为排他合集。例如,可以预先定义排他度阈值为0.7。本领域技术人员应理解,上述方法和数值仅仅是示例性的,本发明的识别排他合集的方法显然不限于此。
为了有助于透彻理解上述的构建排他合集的示例性方法,下面将给出一个详细示例来例示该方法。应注意,下面的示例仅仅是说明性的,而不是限制性的。用户的查询、所挖掘出的候选意图及其数量以及排序方式等都不局限于上述示例。
首先,获取用户的查询——“furniture for small spaces”。
然后,挖掘与用户的查询有关的候选意图,如图18所示。
然后,如图19所示,根据候选意图的语义类型来对所挖掘出的候选意图进行分类,从而得到多个候选合集。图19的左边示出的是图18所示的所挖掘出的候选意图,右边示出了候选合集1,该候选合集1中的所有候选意图均具有位置特征。即,候选合集1中的候选意图的语义类型为“位置”。
然后,如图20所示,根据每个候选合集中的候选意图的语义类型的排他度来识别排他合集,其中语义类型的排他度是针对语义类型手动地预先设定的。预先定义排他度阈值为0.7。从图20可以看出,候选合集1的排他度为0.9,大于排他度阈值,因此,可以确定候选合集1为排他合集。
下文将描述构建排他合集的另一种示例性方法。
该方法包括将所挖掘出的至少两个候选意图划分成多个候选合集,其中每个候选合集包括至少两个候选意图;为每个候选合集中的任意两个候选意图构建意图排他性向量,每个意图排他性向量包括两个候选意图和这两个候选意图的关系分数;通过使用所述为每个候选合集中的任意两个候选意图构建的意图排他性向量来计算每个候选合集的排他度;以及根据每个候选合集的排他度来识别排他合集。
在该方法的上述划分候选合集的步骤中,候选意图可以被任意划分,或者根据系统要求进行特定的划分。例如,在挖掘出如图18所示的与用户的查询“furniture for small spaces”有关的候选意图之后,可以将这些候选意图如图21所示地任意地划分成多个候选合集。
可以利用各种方式来获得两个候选意图之间的关系分数。
例如,一种获得关系分数的方法可以包括:分析与用户的查询有关的日志数据;构建与查询、有关用户ID(identifier,标识符)和有关用户点击的意图相关联的数据集;以及基于所述数据集,根据点击了两个候选意图中的至多一个的用户ID的数量来计算这两个候选意图的关系分数,从而构建针对这两个候选意图的意图排他性向量。优选地,所述数据集可以包括用户ID编号、用户提交的查询以及用户点击的搜索结果的主题或URL(Uniform Resource Locator,统一资源定位器)。
在该方法的上述划分候选合集的步骤中,候选意图可以被任意划分,或者根据系统要求进行特定的划分。例如,在挖掘出如图18所示的与用户的查询“furniture for small spaces”有关的候选意图之后,可以将这些候选意图如图21所示地任意地划分成多个候选合集。
可以利用各种方式来获得两个候选意图之间的关系分数。
例如,一种获得关系分数的方法可以包括:分析与用户的查询有关的日志数据;构建与查询、有关用户ID(identifier,标识符)和有关用户点击的意图相关联的数据集;以及基于所述数据集,根据点击了两个候选意图中的至多一个的用户ID的数量来计算这两个候选意图的关系分数,从而构建针对这两个候选意图的意图排他性向量。优选地,所述数据集可以包括用户ID编号、用户提交的查询以及用户点击的搜索结果的主题或URL(Uniform Resource Locator,统一资源定位器)。
在该方法中,在分析日志数据之后,优选地,可以过滤没有排序或点击URL的记录数据(record data),更优选地,还可以过滤重复的记录数据。
优选地,构建的数据集可以包括以下数据:SessionID(用户ID编号)、QUERY(用户提交的查询)、Query Time(提交查询的时间)、RANK(搜索结果的排序)、UserClickedIntent(用户点击的搜索结果的主题或URL)。下面的表16给出了如此构建的数据集的一个示例。
表16
优选地,在数据集中,所有用户ID的针对图6中的步骤610中获取的查询的点击频率不小于2。
例如,可以利用如下的公式(1)来计算两个候选意图之间的关系分数。本领域技术人员应理解,计算关系分数的方式并不限于此。
其中E表示两个候选意图之间的关系分数,“总对话数(totalsession size)”表示数据集中的所有“SessionID”的数量,“有效对话数(valid session size)”表示数据集中的点击了这两个候选意图中的至多一个的SessionID的数量。
表17示出了一个意图排他性向量的示例。
表17
还存在其它各种获得关系分数的方法。
其中一种方法可以包括:获得包含所述查询和所挖掘出的候选意图的用户生成文档(user generated document);创建与所述用户生成文档、所述查询以及所挖掘出的候选意图中的用户点击过的意图相关联的数据集;以及基于所述数据集,根据与两个候选意图中的至多一个有关的用户生成文档的数量来计算这两个候选意图的关系分数,从而构建针对这两个候选意图的意图排他性向量。用户生成文档可以是例如,微博、博客等。可以用与公式(1)类似的方式基于该数据集来计算两个候选意图的关系分数。本领域技术人员应理解,关分数的计算方式不受限制。
在另一个示例中,构建意图排他性向量的方法可以包括:获得来自用户查询结果的包括单选按钮(radio button)或下拉列表(dropdown list)的UI(User Interface,用户界面)元素的文本值;以及基于所述文本值来构建意图排他性向量,其中关系分数是手动地预先设定的。
关于该方法的计算排他度的步骤,在一个示例中,可以通过对一个候选合集中的每两个候选意图的关系分数求平均,来得到该候选合集的排他度,如下面公式(2)所示。
其中Ei表示每两个候选意图的关系分数,n反映了该候选合集的大小,即,n表示从该候选合集中任取两个候选意图的所有组合的个数。也就是说,当该候选合集包括m个候选意图(m≥2)时,n=m!/2(m-2)!,其中“!”表示阶乘。图22示出了通过公式(2)计算图21中的“候选合集1432”的排他度的示例。
然而,本领域技术人员显然可知,计算候选合集的排他度的方法并不限于此。例如,还可以根据需要,通过对一个候选合集中的每两个候选意图的关系分数进行加权求平均,来计算该候选合集的排他度。
关于该方法的识别排他合集的步骤,如上所述,同样地,可以通过预先定义一个排他度阈值来识别排他合集。如果候选合集的排他度大于该排他度阈值,则将该候选合集识别为排他合集。本领域技术人员应理解,上述方法和数值仅仅是示例性的,本发明的识别排他合集的方法显然不限于此。
通过如上所述地构建排他合集,可以将排他意图聚到相应的排他合集中,从而有利于用户方便、迅速地选择意图,并且有利于输出更有用的用户意图。因此,可以提高意图召回率。
在本实施例的另外的实现中,优选地,除了上述排他合集的构建之外,本实施例的方法还进一步包括利用所述至少一个排他合集使所获得的所述查询的候选意图多样化。
具体来说,可以利用构建的至少一个排他合集使所挖掘出的候选意图多样化。可以利用各种方式来使候选意图多样化。例如,可以将排他的候选意图合并或者根据用户的信息选择保留仅仅一个排他意图,从而使最终输出的候选意图多样化。
在一种实现中,仅保留排他合集中的一个候选意图,并且将排他合集中的未被保留的其它候选意图从所挖掘出的候选意图中去除,从而使候选意图多样化。图23-25示出了这种实现的一个示例。
图23的左边示出的是如图18所示的所挖掘出的候选意图,右边示出了利用本实施例的前述构建排他合集的方法构建出的排他合集1。如图23所示,仅保留排他合集1中的第一个候选意图,而删除其余的候选意图。在现有技术中,不构建排他合集,因此仅简单地输出前10个候选意图,如图24所示。而在如图23所示那样使得候选意图多样化之后,如图25所示的输出候选意图。
在另一个实现中,可以仅保留排他合集中的一个候选意图,并且将排他合集中的未被保留的其它候选意图在所挖掘出的候选意图中的位次向后移动。例如,在图19所示的候选合集1被识别为排他合集之后,可以仅保持候选合集1中的第一个候选意图(即在所挖掘出的候选意图中排第2位的候选意图)的位次不动,而将候选合集1中的其它候选意图(例如,排第4、7、10位的候选意图)的位次向后移动一个预定位数(例如,10位)。也就是说,最终,候选合集1中的初始排第4、7、10位的候选意图被分别排在了第14、17、20位。这样,降低了排他意图同时输出的概率,使得最终输出的候选意图多样化。
在上述两种实现中,所保留的候选意图可以是指出用户偏好的最可能的候选意图。应理解,所保留的候选意图还可以根据其它条件来选择。
另外,可以寻找一个上位词来代表排他合集,并且用该上位词来代替相应的排他合集。也就是说,将排他合集中的所有候选意图从所挖掘出的候选意图中去除,而保留该上位词作为一个候选意图。一些知识源(例如,WorldNet)可以提供获得排他合集的上位词所需的信息。例如,可使用现有技术中的任意概念词典来获得上位词。可替代地,可以如图26所示地将排他合集中的所有候选意图作为上位词的下拉列表显示。
可替代地,可以将排他合集中的所有候选意图合并成一个候选意图,从而用该合并的候选意图来代替相应的排他合集。相应地,将排他合集中的所有候选意图从所挖掘出的候选意图中去除。可使用现有技术中的任意汇总(summary)方法获得合并的候选意图。例如,对于排他合集{“furniture for small spaces New York”,“furniture forsmall spaces Los Angeles”},可以将这两个候选意图合并成例如候选意图“furniture for small spaces New York,Los Angeles”,用合并得到的候选意图代替这两个候选意图中位次靠前的那个候选意图,并且将这两个候选意图删除。
通过上述多样化方法,可以使得输出更多重要且多样化的候选意图,从而能够提高意图召回率。
[第七实施例]
下文将参照附图来描述根据本发明的第七实施例的方法,该方法限定了对于通过前述实施例所获得的候选意图进行的进一步处理。特别地,本实施例的方法是基于如下思路的,即基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的,其中n是自然数。
应注意,该第七实施例的方法能够与前述实施例中的至少一个的方法进行组合
例如,能够组合得到如下实施例,即通过前述第一至第五实施例中的至少一个的方法获得用户候选意图之后,再利用根据本实施例的方法对于所获得的用户候选意图进行进一步的选择。
例如,能够组合得到如下这样的实施例,即通过前述第一至第五实施例中的至少一个的方法获得用户候选意图之后,并且利用根据第六实施例的方法对于所获得的用户候选意图进行处理之后,再利用本实施例的方法对处理后的用户候选意图进行进一步处理。即,本实施例的方法可直接对于通过构建排他合集选择的意图进行进一步处理,也可对于通过排他合集被多样化之后的意图进行进一步处理。
为了简便起见,本实施例的方法中与其它实施例相同或者相似的步骤或组件将不再被重复描述。
图27是示出根据本发明的本实施例的实施方式的用于基于合计的非重叠率来挖掘意图的方法的流程图。在该方法中:
在步骤100中,获取查询和要被获得的意图的数量n,其中n是自然数。
在步骤200中,针对所输入的查询挖掘一组候选意图。
在步骤300,针对所输入的查询,对数据搜索资源进行搜索,获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果。
在步骤400中,基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。
为了有助于对根据本发明的实施例的方法的透彻理解,下文将结合一个示例来描述该方法。
如图27所示,在步骤100中,获取查询和要被获得的意图的数量n,其中n是自然数。例如,可以获得用户所输入的查询“the beatles:rock band”,其中“the beatles:rock band”是一个音乐视频游戏的名称。另外,假定要被获得的意图的数量为2。要被获得的意图的数量可以通过用户输入获得,也可以基于用户偏好或预先的系统设置确定。例如,可以基于屏幕的尺寸来确定要被获得的意图的数量。
在步骤200,该意图挖掘方法可采用本领域已知的方法,还可采用根据前述任一实施例的方法来实现。
在步骤300,针对所输入的查询,对数据搜索资源进行搜索,获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果。数据搜索资源能够提供关于查询的附加信息。其可以是查询日志(query log),文集(corpus),或网络资源等。所述数据搜索资源可以包括文本和/或多媒体资源。所述数据搜索资源可以没有标签,或者被手动或自动地标有标签。标签可以是术语、概念或义项(sense)等。而且,可选地,标签可以具有权重。另选地和/或附加地,其它数据搜索源也可以使用。另选地和/或附加地,可以使用搜索引擎进行搜索结果的获取。如果通过该方法或系统返回大量的搜索结果,可以可选地对这些搜索结果进行采样。
对于查询“the beatles:rock band”,如表18所示,例如挖掘出三个候选意图,这里的意图挖掘方法可采用前述实施例中的任一个,也可采用本领域已知的意图挖掘方法。
表18
候选意图
the beatles:rock band guides
the beatles:rock band cheats
the beatles:rock band story
对于查询“the beatles:rock band”,表19所示,从数据搜索资源中返回了10个URL(Uniform Resource Locator,统一资源定位器)。在这些URL中,当搜索“the beatles:rock band story”时,返回3个URL,即第5、6、7个URL,当搜索“the beatles:rock bandguides”时,返回8个URL,即第1-8个URL,当搜索“the beatles:rockband cheats”时,返回5个URL,即第1-4和第10个URL。
对于查询“the beatles:rock band”,表19所示,从数据搜索资源中返回了10个URL(Uniform Resource Locator,统一资源定位器)。在这些URL中,当搜索“the beatles:rock band story”时,返回3个URL,即第5、6、7个URL,当搜索“the beatles:rock bandguides”时,返回8个URL,即第1-8个URL,当搜索“the beatles:rockband cheats”时,返回5个URL,即第1-4和第10个URL。
表19
对于根据本发明的方法的示例,搜索结果的全集和各个子集之间的关系在图28中示出。
以针对所输入的查询“the beatles:rock band”从搜索引擎返回的搜索结果作为全集。与候选意图“the beatles:rock band story”、“thebeatles:rock band guides”、“the beatles:rock band cheats”相关的搜索结果分别是该全集的子集。图27示出了搜索结果的全集和各个子集之间的关系。如图27所示,全集包括10个搜索结果,由整个圆表示。而针对候选意图的搜索结果所覆盖的区域表示为阴影区域。
在步骤400中,基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意重叠的非重叠搜索结果的数量计算的。
其中,假定意图集合Π包括一组意图,即∏={I1,I2,...,IΩ},搜索结果的合集为其中被意图Iυ.覆盖的搜索结果集合为通过比较搜索结果集合,可以对进行以下划分
R ^ = R ^ unique ∪ R ^ common .
其中,表示仅由一个意图覆盖的搜索结果, R ^ common = { R ^ common 1 , R ^ common 2 , . . . , R ^ common O } , 表示被两个或更多个意图所覆盖的搜索结果。
根据本发明的实施方式的方法的目标函数为:
arg max i : { 1 , . . . , l } ( Σ k = 1 n | intent candidate i - ∪ j = 1 , i ≠ j n intent candudate j | ) - - - ( 3 )
其中,l代表候选意图的总数,n代表要输出的候选意图的数量,m=1,…,n,表示已选择的候选意图的数量,函数|A-B|表示在集合A中但不在集合B中的元素的数量。
上述目标函数表明,在每一轮的选择新候选意图的过程中,总是选择具有最大的合计的非重叠覆盖的候选意图。这是因为,通过研究,本发明的发明人认识到非重叠覆盖是多样性的指示。在本发明中,计算各个候选意图与每个已经选择的候选意图的非重叠区域,并且将所得到的非重叠区域积累,作为评价候选意图的度量。
另选地和/或附加地,在本发明的一种实施方式中,在基于合计的非重叠率对候选意图进行排序时,可以首先对候选意图进行排序。例如,可以基于所返回的搜索结果的数量对各候选意图进行排序。排序结果如表20所示。即,“the beatles:rock band guides”排在第一位,“thebeatles:rock band cheats”排在第二位,而“the beatles:rock bandstory”排在第三位。
表20
编号 候选意图的初始排序
1 the beatles:rock band guides
2 the beatles:rock band cheats
3 the beatles:rock band story
下面,将对步骤400中的基于合计的非重叠率选择n个意图的示例处理进行详细说明。在该示例性处理中包括如下的步骤。
首先,针对n个候选意图计算合计的非重叠率。
然后,基于合计的非重叠率和针对n个候选意图的其它度量来计算n个候选意图的总分。
所述其它度量可以是候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等。其中,候选意图之间的相似度可以是候选意图之间的文本相似度(textual similarity)、时间相似度(temporal similarity)、人口统计相似度(demographical similarity)。例如,针对相关度,基于以下公式获得该n个候选意图的总分:
α×[aggregated non-overlapping ratio]+(1-α)×relevance(4)
其中,α为用户设定的参数,0<α<1。
其后,基于所计算的总分,通过以下公式获得所希望的前n个意图。
Max(a×aggregated non-overlappingratio+(1-α)×relevance)(5)
即,选取总分高的n个意图的组。
本领域技术人员能够理解,对于候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等其它度量,也可以进行类似的操作。此外,也可以考虑候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等中的多个因素进行操作。
在本实施例的一种实现中,该针对n个候选意图计算合计的非重叠率的步骤可以基于如下思路实现:即针对n个候选意图,将非重叠搜索结果的数量求和。
本领域技术人员能够理解,对于候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等其它度量,也可以进行类似的操作。此外,也可以考虑候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等中的多个因素进行操作。
在本实施例的一种实现中,该针对n个候选意图计算合计的非重叠率的步骤可以基于如下思路实现:即针对n个候选意图,将非重叠搜索结果的数量求和。
具体来说,该针对n个候选意图计算合计的非重叠率的步骤的处理可包括获取候选意图的列表,其具有n个候选意图;对于n个候选意图中的每一个候选意图,计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量;针对n个候选意图,将非重叠搜索结果的数量求和;以及将所求得的和作为合计的非重叠率输出。
本领域技术人员能够理解,对于候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等其它度量,也可以进行类似的操作。此外,也可以考虑候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等中的多个因素进行操作。
在本实施例的一种实现中,该针对n个候选意图计算合计的非重叠率的步骤可以基于如下思路实现:即针对n个候选意图,将非重叠搜索结果的数量求和。
具体来说,该针对n个候选意图计算合计的非重叠率的步骤的处理可包括获取候选意图的列表,其具有n个候选意图;对于n个候选意图中的每一个候选意图,计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量;针对n个候选意图,将非重叠搜索结果的数量求和;以及将所求得的和作为合计的非重叠率输出。
例如,在上述表20所示的候选意图列表中,在n=2的情况下,前两个候选意图为“guides”和“cheats”。对于“guides”的八个搜索结果中有四个不与“cheats”的搜索结果共享。对于“cheats”的五个搜索结果中有一个不与“guides”的搜索结果共享。对于该前两个候选意图“guides”和“cheats”,在仅仅考虑非重叠搜索结果的数量的情况下,和是5。因此,在此示例中,合计的非重叠率为5。
在关于计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量的过程的实现中,优选地,对于n个候选意图中的每一个候选意图,可以基于与候选意图相关的搜索结果的重要性对所述非重叠搜索结果的数量进行加权,作为非重叠搜索结果的数量。所述重要性可以基于搜索结果的排序、与搜索结果相关的候选意图的排序、或者在查询日志中记录的用户点击的数量等进行计算。本领域技术人员能够理解,一般情况下,搜索结果的排名越高,或者与搜索结果相关的候选意图的排名越高,或者用户点击的数量越多,加权后的数量就越大。毋庸置疑,可以另选地和/或附加地采用其它加权方案。
此外,另选地和/或附加地,对于n个候选意图中的每一个候选意图,还可以计算与其它n-1个候选意图重叠的重叠搜索结果的数量;然后计算非重叠搜索结果的数量与常量a之和相对于重叠搜索结果的数量与常量a之和的比率,作为非重叠搜索结果的数量,其中a大于或等于0。之所以引入常量a,是考虑到重叠搜索结果的数量可能为零,为了避免分母为零而进行的处理。
另选地和/或附加地,对于n个候选意图中的每一个候选意图,与任意其它n-1个候选意图重叠的重叠搜索结果的数量可以基于与任意其它n-1个候选意图重叠的次数进行加权。即,基于与任意其它n-1个候选意图重叠的次数,计算重叠搜索结果的权重;以及通过所计算的权重,计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量,作为重叠搜索结果的数量。
另选地和/或附加地,对于n个候选意图中的每一个候选意图,可以基于与候选意图相关的搜索结果的重要性对所述重叠搜索结果的数量进行加权,作为重叠搜索结果的数量。所述重要性可以基于搜索结果的排序、与搜索结果相关的候选意图的排序、或者在查询日志中记录的用户点击的数量等进行计算。本领域技术人员能够理解,一般情况下,搜索结果的排名越高,或者与搜索结果相关的候选意图的排名越高,或者用户点击的数量越多,加权后的数量就越大。毋庸置疑,可以另选地和/或附加地采用其它加权方案。
在本实施例的另一种实现中,针对n个候选意图计算合计的非重叠率的步骤可被基于如下思路实现:即,针对n个候选意图,计算非重叠搜索结果的数量的平均值和/或标准差。
具体地说,该针对n个候选意图计算合计的非重叠率的步骤可包括获取候选意图的列表,其具有n个候选意图;对于n个候选意图中的每一个候选意图,计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量;针对n个候选意图,将非重叠搜索结果的数量求和;针对n个候选意图,计算非重叠搜索结果的数量的平均值;以及输出合计的非重叠率。
另选地和/或附加地,该针对n个候选意图计算合计的非重叠率的步骤还可包括针对n个候选意图,基于所计算的平均值计算非重叠搜索结果的数量的标准差。可以将非重叠搜索结果的数量的平均值、或者将非重叠搜索结果的数量的标准差的相反数、或者将非重叠搜索结果的数量的标准差的倒数作为合计的非重叠率。
另选地和/或附加地,该针对n个候选意图计算合计的非重叠率的步骤还可包括针对n个候选意图,计算非重叠搜索结果的数量的平均值与非重叠搜索结果的数量的标准差之间的差值,并且将所述差值作为合计的非重叠率。
之所以采用这种方法计算合计的非重叠率,是因为本发明的发明人认识到:非重叠搜索结果的数量的平均值越大,搜索结果的多样性就越高;非重叠搜索结果的数量的标准差越小,非重叠搜索结果的数量相同并且多样化的可能性就越大。
另选地和/或附加地,在本实施例的还另一种实现中,针对n个候选意图计算合计的非重叠率的步骤还可包括针对n个候选意图,还可以通过计算每个候选意图与其它n-1个候选意图重叠的重叠搜索结果的数量;然后对于n个候选意图,将重叠搜索结果的数量求和;然后计算非重叠搜索结果的数量之和与常量a之和相对于重叠搜索结果的数量之和与常量a之和的比率,作为合计的非重叠率,其中a大于或等于0。之所以引入常量a之和,是考虑到重叠搜索结果的数量可能为零,为了避免分母为零而进行的处理。
另选地和/或附加地,对于n个候选意图中的每一个候选意图,与任意其它n-1个候选意图重叠的重叠搜索结果的数量可以基于与任意其它n-1个候选意图重叠的次数进行加权。即,基于与任意其它n-1个候选意图重叠的次数,计算重叠搜索结果的权重;以及通过所计算的权重,计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量,作为重叠搜索结果的数量。
另选地和/或附加地,判断任意两个搜索结果是否重叠包括以下两种处理中的至少一种:(1)判断这两个搜索结果的URL是否相同;和(2)判断这两个搜索结果的相似度是否大于一个阈值,其中所述相似度包括文本相似度或基于用户行为的相似度。此外,文本相似度可以通过基于术语的向量(term-based vector)或基于义项的向量(sense-based vector)获得。
图17示出了根据本发明的用于挖掘意图的设备的总体框图。应注意,尽管图17的设备框图中包含了前述任一实施例中的单元,但是根据本发明的用于挖掘意图的设备并不必须同时包含所有这些单元,而是可仅包含其中的一部分。例如,图17中至少虚线框所对应的单元并不是必需的。
该设备1700的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是图17中所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
设备1700是一种用于挖掘意图的设备,包括被配置为接收输入的查询的接收单元1701,被配置为基于所接收到的查询来获取第一组候选意图的预获取单元1702,被配置为为所述查询构建至少一个临时意图模式的构建单元1703,被配置为基于所述至少一个临时意图模式来获取第二组候选意图的获取单元1704,以及将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图的组合单元1705,其中,所述临时意图模式包括所述查询和上下文字符。
优选地,该接收单元1701可包括被配置为对所接收到的查询进行解析以获得所接收到的查询中的各概念的解析单元1701-1,以及被配置为通过将所获得的各概念进行位置调整以生成至少一个重组后的查询的位置调整单元1701-2。
优选地,该接收单元1701可进一步包括被配置为基于第一预定参数来对所生成的至少一个重组后的查询进行过滤的过滤单元1701-3。优选地,所述第一预定参数为所述重组后的查询在数据搜索资源中的出现频率,并且,所述至少一个重组后的查询包含重组查询候选中的其第一预定参数大于等于第一阈值的重组查询候选。
在此情况下,所述预获取单元1702基于所述至少一个重组后的查询来获得所述第一组候选意图,所述构建单元1703为所述至少一个重组后的查询构建所述至少一个临时意图模式。
优选地,所述构建单元1703可包括被配置为将所述查询分割成至少一个子查询的单元1703-10,被配置为对于所述至少一个子查询中的每一个,获得该子查询的至少一个临时意图模式的单元1703-11,以及被配置为基于所述至少一个子查询中的每一个的临时意图模式中的每一个与其余子查询的组合,得到该查询的至少一个临时意图模式的单元1703-12。
优选地,所述构建单元1703还可包括被配置基于第二预定参数来对所述单元1703-12所得到的组合进行过滤以获得所述至少一个临时意图模式的过滤单元1703-14。优选地,所述第二预定参数为所得到的组合在数据搜索资源中的出现频率,并且,其中,所述至少一个临时意图模式包含所述组合中的其第二预定参数大于等于第二阈值的组合。
优选地,所述单元1703-11可包括被配置为从意图训练库或者用户搜索历史选择记录中的各数据中提取包含该子查询的最短字符串的单元1703-11-1,被配置为对所提取的最短字符串进行泛化以得到该子查询的至少一个临时意图模式的单元1703-11-2,其中,在该最短字符串不包含连接字符的情况下,将该最短字符串中的除该子查询之外的其它内容用通配符替换,在此情况下该上下文字符为通配符;在该最短字符串包含与该子查询紧邻的连接字符的情况下,将该最短字符串中的除该子查询和与该子查询紧邻的连接字符之外的其它内容用通配符替换,在此情况下该上下文字符为通配符和该连接字符。
优选地,该构建单元1703可包括被配置为从所述预获取单元1702获得的所述第一组候选意图中泛化出至少一个第一意图模式的单元1703-20,被配置为计算所述至少一个第一意图模式中的各意图模式的覆盖率和置信度的单元1703-21;以及被配置为确定所述至少一个第一意图模式中的其覆盖率大于等于第三阈值或其置信度大于等于第四阈值的意图模式作为所述至少一个临时意图模式的单元1703-22。优选地,所述单元1703-20进行处理以使得对于所述第一组候选意图中的每一个,在该候选意图不包含连接字符的情况下,将该候选意图中的除该查询之外的其它内容用通配符替换,在此情况下该上下文字符为通配符;在该候选意图包含与该查询紧邻的连接字符的情况下,将该意图查询中的除该查询和与该查询紧邻的连接字符之外的其它内容用通配符替换,在此情况下该上下文字符为通配符和该连接字符。
优选地,所述构建单元1703可包括被配置为通过对所述预获取单元1702获得的所述第一组候选意图进行结构分析来提取至少一个结构模式的单元1703-30,被配置为计算所述至少一个结构模式中的各结构模式的覆盖率和置信度的单元1703-31;以及被配置为确定所述至少一个结构模式中的其覆盖率大于等于第五阈值或其置信度大于等于第六阈值的结构模式作为所述至少一个临时意图模式的单元1703-32。
优选地,该设备1700可进一步包括被配置为在所获得的所述查询的候选意图之中构建至少一个排他合集的单元1706,其中每个排他合集包括至少两个相互排他的候选意图,并且该设备1700可进一步包括被配置为利用所述至少一个排他合集使所获得的所述查询的候选意图多样化的单元1707。
应理解,该单元1706和1707分别可以包括被配置为执行第六实施例中所详细描述的相应的各个处理的单元。
优选地,该设备1700还可进一步包含被配置用于获取要被获得的意图的数量n的单元1708,其中n为自然数;被配置用于从至少一个数据搜索资源获取与所述查询和所获得的所述查询的候选意图相关的一组搜索结果的单元1709;以及被配置用于基于合计的非重叠率选择n个意图的单元1710,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。
应理解,该单元1708-1710分别可以包括被配置为执行第七实施例中所详细描述的相应的各个处理的单元。优选地,单元1708可与单元1701合并,例如这两个单元可合并为单个单元使用。
本发明还涉及一种数据检索方法,该方法包括通过根据前述实施例中的任一个所述的方法获得用户输入的查询的候选意图;以及根据用户对于所述候选意图的选择来进行数据检索。
此外,本发明涉及一种数据检索系统,包括被配置为通过根据前述实施例中的任一个所述的方法获得用户输入的查询的候选意图的单元;以及被配置为根据用户对于所述候选意图的选择来进行数据检索的单元。
根据本发明的各实施例的方法和设备还可用于各种电子设备,尤其优选地用于便携式电子设备,该便携式电子设备通常为显示屏幕大小受限的便携式设备,例如手机、PDA等。该便携式电子设备的显示屏可以是触摸屏。
图29是示出可实施本发明的实施例的计算机系统1000的示例性硬件配置的框图。为了简便起见,该过程被示出为内置在单个计算设备中。但是,不管该过程被内置在单个计算设备中还是被内置在作为网络系统的多个计算设备中,该过程都是有效的。
如图29所示,计算机系统包括计算机1110。计算机1110包括处理单元1120、系统存储器1130、不可移除非易失性存储器接口1140、可移除非易失性存储器易失性存储器1141例如可存储操作系统1144、应用程序1145、其它程序模块1146以及一些程序数据1147。
可移除非易失性存储器(例如软盘驱动器1151和CD-ROM驱动器1155)连接到可移除非易失性存储器接口1150。例如,软盘1152可插入软盘驱动器1151,并且CD(紧致盘)1156可插入CD-ROM驱动器1155。
诸如鼠标1161和键盘1162的输入设备连接到用户输入接口1160。
计算机1110可通过网络接口1170连接到远程计算机1180。例如,网络接口1170可经局域网1171连接到远程计算机1180。可替换地,网络接口1170可连接到调制解调器(调制器-解调器)1172,并且调制解调器1172经广域网1173连接到远程计算机1180。
不可移除非易失性存储器1141(诸如硬盘)连接到不可移除非易失性存储器接口1140。不可移除非易失性存储器1141例如可存储操作系统1144、应用程序1145、其它程序模块1146以及一些程序数据1147。
可移除非易失性存储器(例如软盘驱动器1151和CD-ROM驱动器1155)连接到可移除非易失性存储器接口1150。例如,软盘1152可插入软盘驱动器1151,并且CD(紧致盘)1156可插入CD-ROM驱动器1155。
诸如鼠标1161和键盘1162的输入设备连接到用户输入接口1160。
计算机1110可通过网络接口1170连接到远程计算机1180。例如,网络接口1170可经局域网1171连接到远程计算机1180。可替换地,网络接口1170可连接到调制解调器(调制器-解调器)1172,并且调制解调器1172经广域网1173连接到远程计算机1180。
远程计算机1180可包括诸如硬盘的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图29所示的计算机系统仅是说明性的,并且决不打算限制本发明、其应用或者使用。
图29所示的计算机系统可对于任一实施例被实现为孤立计算机,或者设备中的处理系统,其中可去除一个或多个不必要的组件或者可添加一个或多个附加的组件。
本发明的方法和系统可以广泛地应用于各种在其中能够利用浏览器浏览网页的电子设备,诸如家用计算机(诸如台式计算机和笔记本计算机等)、便携式设备(诸如手机、PDA、电子阅读器等)。本发明的方法和系统优选地用于处理能力受限的电子设备中。本发明的方法和系统还优选地在具有显示屏幕尺寸受限的便携式电子设备中。该便携式电子设备的显示屏可以是触摸屏。
另外,可采用多种方式来实行本发明的方法和系统。例如,可通过软件、硬件、固件或它们的任何组合来实行本发明的方法和系统。上文所述的该方法的步骤的顺序仅是说明性的,并且除非另外具体说明,否则本发明的方法的步骤不限于上文具体描述的顺序。此外,在一些实施例中,本发明还可具体化为记录介质中记录的程序,包括用于实施根据本发明的方法的机器可读指令。因此,本发明还涵盖了存储用于实施根据本发明的方法的程序的记录介质。
虽然已经参考示例实施例描述了本发明,应当理解,本发明不限于公开的示例实施例。下面的权利要求的范围将被给予最宽泛的解释,以便包含所有这些修改以及等同结构和功能。

Claims (34)

1.一种用于挖掘意图的方法,包括:
接收步骤,接收输入的查询;
预获取步骤,基于所接收到的查询来获取第一组候选意图;
构建步骤,为所述查询构建至少一个临时意图模式;
获取步骤,基于所述至少一个临时意图模式来获取第二组候选意图;以及
组合步骤,将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图;
其中,所述临时意图模式包括所述查询和上下文字符。
2.根据权利要求1所述的方法,其中,所述接收步骤包括:
解析步骤,对所接收到的查询进行解析以获得所接收到的查询中的各概念;以及
位置调整步骤,通过将所获得的各概念进行位置调整,由此生成至少一个重组后的查询;
其中,所述预获取步骤基于所述至少一个重组后的查询来获得所述第一组候选意图;且
所述构建步骤为所述至少一个重组后的查询构建所述至少一个临时意图模式。
3.根据权利要求2所述的方法,其中,所述接收步骤还包括:
过滤步骤,基于第一预定参数来对所生成的至少一个重组后的查询进行过滤,
其中,所述预获取步骤基于所述至少一个重组后的查询中的其第一预定参数大于等于第一阈值的查询来获得所述第一组候选意图;且
所述构建步骤为所述至少一个重组后的查询中的其第一预定参数大于等于所述第一阈值的查询构建所述至少一个临时意图模式,
其中,所述第一预定参数为所述至少一个重组后的查询在数据搜索资源中的出现频率。
4.根据权利要求1所述的方法,其中所述构建步骤包括:
将所述查询分割成至少一个子查询;
对于所述至少一个子查询中的每一个,获得该子查询的至少一个临时意图模式;
基于所述至少一个子查询中的每一个的临时意图模式中的每一个与其余子查询的组合,得到该查询的至少一个临时意图模式。
5.根据权利要求4所述的方法,其中所述构建步骤还包括:
基于第二预定参数来对所得到的组合进行过滤以获得所述至少一个临时意图模式,
其中,所述至少一个临时意图模式包含所述组合中的其第二预定参数大于等于第二阈值的组合,
其中,所述第二预定参数为所得到的组合在数据搜索资源中的出现频率。
6.根据权利要求4所述的方法,其中,所述获得该子查询的至少一个临时意图模式包括:
从意图训练库或者用户搜索历史选择记录中的各数据中提取包含该子查询的最短字符串;
对所提取的最短字符串进行泛化以得到该子查询的至少一个临时意图模式,
其中,在该最短字符串不包含连接字符的情况下,将该最短字符串中的除该子查询之外的其它内容用通配符替换,在此情况下该上下文字符为通配符;
在该最短字符串包含与该子查询紧邻的连接字符的情况下,将该最短字符串中的除该子查询和与该子查询紧邻的连接字符之外的其它内容用通配符替换,在此情况下该上下文字符为通配符和该连接字符。
7.根据权利要求1所述的方法,其中,所述构建步骤包括:
从所述第一组候选意图中泛化出至少一个第一意图模式;
计算所述至少一个第一意图模式中的各意图模式的覆盖率和置信度;以及
确定所述至少一个第一意图模式中的其覆盖率大于等于第三阈值或其置信度大于等于第四阈值的意图模式作为所述至少一个临时意图模式。
8.根据权利要求7所述的方法,其中,所述泛化步骤包括:对于所述第一组候选意图中的每一个
在该候选意图不包含连接字符的情况下,将该候选意图中的除该查询之外的其它内容用通配符替换,在此情况下该上下文字符为通配符;
在该候选意图包含与该查询紧邻的连接字符的情况下,将该意图查询中的除该查询和与该查询紧邻的连接字符之外的其它内容用通配符替换,在此情况下该上下文字符为通配符和该连接字符。
9.根据权利要求1所述的方法,其中,所述构建步骤包括:
通过对所述第一组候选意图中的每一个进行结构分析来提取至少一个结构模式;
计算所述至少一个结构模式中的各结构模式的覆盖率和置信度;以及
确定所述至少一个结构模式中的其覆盖率大于等于第五阈值或其置信度大于等于第六阈值的结构模式作为所述至少一个临时意图模式。
10.根据权利要求1所述的方法,其中所述上下文字符为通配符和连接字符中的至少一个,
其中,所述连接字符包含冠词、前置词和连词中的至少一个。
11.根据权利要求1所述的方法,其中,所述上下文字符是用户预先设定的,或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。
12.根据权利要求1所述的方法,其中,所述组合步骤包括根据各候选意图所对应的临时意图模式的参数来将各候选意图进行排序,
其中,所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一个。
13.根据权利要求1-12中任一项所述的方法,其中,所述方法进一步包括:
在所获得的所述查询的候选意图之中构建至少一个排他合集,其中每个排他合集包括至少两个相互排他的候选意图。
14.根据权利要求13所述的方法,其中,所述方法进一步包括:
利用所述至少一个排他合集使所获得的所述查询的候选意图多样化。
15.根据权利要求1-12中任一项所述的方法,其中,所述方法进一步包括:
获取要被获得的意图的数量n,其中n为自然数;
从至少一个数据搜索资源获取与所述查询和所获得的所述查询的候选意图相关的一组搜索结果;以及
基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。
16.根据权利要求13所述的方法,其中,所述方法进一步包括:
获取要被获得的意图的数量n,其中n为自然数;
从至少一个数据搜索资源获取与所述查询和所获得的所述查询的候选意图相关的一组搜索结果;以及
基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。
17.根据权利要求14所述的方法,其中,所述方法进一步包括:
获取要被获得的意图的数量n,其中n为自然数;
从至少一个数据搜索资源获取与所述查询和多样化后的候选意图相关的一组搜索结果;以及
基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。
18.一种用于挖掘意图的设备,包括:
接收单元,被配置用于接收输入的查询;
预获取单元,被配置用于基于所接收到的查询来获取第一组候选意图;
构建单元,被配置用于为所述查询构建至少一个临时意图模式;
获取单元,被配置用于基于所述至少一个临时意图模式来获取第二组候选意图;以及
组合单元,被配置用于将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图;
其中,所述临时意图模式包括所述查询和上下文字符。
19.根据权利要求18所述的设备,其中,所述接收单元包括:
解析单元,被配置用于对所接收到的查询进行解析以获得所接收到的查询中的各概念;以及
位置调整单元,被配置用于通过将所获得的各概念进行位置调整,由此生成至少一个重组后的查询;
其中,所述预获取单元基于所述至少一个重组后的查询来获得所述第一组候选意图;且
所述构建单元为所述至少一个重组后的查询构建所述至少一个临时意图模式。
20.根据权利要求19所述的设备,其中,所述接收单元还包括:
过滤单元,被配置用于基于第一预定参数来对所生成的至少一个重组后的查询进行过滤,
其中,所述预获取单元基于所述至少一个重组后的查询中的其第一预定参数大于等于第一阈值的查询来获得所述第一组候选意图;且
所述构建单元为所述至少一个重组后的查询中的其第一预定参数大于等于所述第一阈值的查询构建所述至少一个临时意图模式,
其中,所述第一预定参数为所述至少一个重组后的查询在数据搜索资源中的出现频率。
21.根据权利要求18所述的设备,其中所述构建单元包括:
被配置用于将所述查询分割成至少一个子查询的单元;
被配置用于对于所述至少一个子查询中的每一个,获得该子查询的至少一个临时意图模式的单元;
被配置用于基于所述至少一个子查询中的每一个的临时意图模式中的每一个与其余子查询的组合,得到该查询的至少一个临时意图模式的单元。
22.根据权利要求21所述的设备,其中所述构建单元还包括:
被配置用于基于第二预定参数来对所得到的组合进行过滤以获得所述至少一个临时意图模式的单元,
其中,所述至少一个临时意图模式包含所述组合中的其第二预定参数大于等于第二阈值的组合,
其中,所述第二预定参数为所得到的组合在数据搜索资源中的出现频率。
23.根据权利要求21所述的设备,其中,所述获得该子查询的至少一个临时意图模式的单元包括:
被配置用于从意图训练库或者用户搜索历史选择记录中的各数据中提取包含该子查询的最短字符串的单元;
被配置用于对所提取的最短字符串进行泛化以得到该子查询的至少一个临时意图模式的单元,
其中,在该最短字符串不包含连接字符的情况下,该最短字符串中的除该子查询之外的其它内容被用通配符替换,在此情况下该上下文字符为通配符;
在该最短字符串包含与该子查询紧邻的连接字符的情况下,该最短字符串中的除该子查询和与该子查询紧邻的连接字符之外的其它内容被用通配符替换,在此情况下该上下文字符为通配符和该连接字符。
24.根据权利要求18所述的设备,其中,所述构建单元包括:
被配置用于从所述第一组候选意图中泛化出至少一个第一意图模式的单元;
被配置用于计算所述至少一个第一意图模式中的各意图模式的覆盖率和置信度的单元;以及
被配置用于确定所述至少一个第一意图模式中的其覆盖率大于等于第三阈值或其置信度大于等于第四阈值的意图模式作为所述至少一个临时意图模式的单元。
25.根据权利要求24所述的设备,其中,所述泛化单元包括如下单元,该单元被配置用于对于所述第一组候选意图中的每一个
在该候选意图不包含连接字符的情况下,将该候选意图中的除该查询之外的其它内容用通配符替换,在此情况下该上下文字符为通配符;
在该候选意图包含与该查询紧邻的连接字符的情况下,将该意图查询中的除该查询和与该查询紧邻的连接字符之外的其它内容用通配符替换,在此情况下该上下文字符为通配符和该连接字符。
26.根据权利要求18所述的设备,其中,所述构建单元包括:
被配置用于通过对所述第一组候选意图中的每一个进行结构分析来提取至少一个结构模式的单元;
被配置用于计算所述至少一个结构模式中的各结构模式的覆盖率和置信度的单元;以及
被配置用于确定所述至少一个结构模式中的其覆盖率大于等于第五阈值或其置信度大于等于第六阈值的结构模式作为所述至少一个临时意图模式的单元。
27.根据权利要求18所述的设备,其中所述上下文字符为通配符和连接字符中的至少一个,
其中,所述连接字符包含冠词、前置词和连词中的至少一个。
28.根据权利要求18所述的设备,其中,所述上下文字符是用户预先设定的,或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。
29.根据权利要求18所述的设备,其中,所述组合单元包括根据各候选意图所对应的临时意图模式的参数来将各候选意图进行排序,
30.根据权利要求18-29中任一项所述的设备,其中,所述设备进一步包括:
被配置用于在所获得的所述查询的候选意图之中构建至少一个排他合集的单元,其中每个排他合集包括至少两个相互排他的候选意图。
31.根据权利要求30所述的设备,其中,所述设备进一步包括:
被配置用于利用所述至少一个排他合集使所获得的所述查询的候选意图多样化的单元。
32.根据权利要求18-29中任一项所述的设备,其中,所述设备进一步包括:
被配置用于获取要被获得的意图的数量n的单元,其中n为自然数;
被配置用于从至少一个数据搜索资源获取与所述查询和所获得的所述查询的候选意图相关的一组搜索结果的单元;以及
被配置用于基于合计的非重叠率选择n个意图的单元,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。
33.根据权利要求30所述的设备,其中,所述设备进一步包括:
被配置用于获取要被获得的意图的数量n的单元,其中n为自然数;
被配置用于从至少一个数据搜索资源获取与所述查询和所获得的所述查询的候选意图相关的一组搜索结果的单元;以及
被配置用于基于合计的非重叠率选择n个意图的单元,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。
34.根据权利要求31所述的设备,其中,所述设备进一步包括:
被配置用于获取要被获得的意图的数量n的单元,其中n为自然数;
被配置用于从至少一个数据搜索资源获取与所述查询和多样化后的候选意图相关的一组搜索结果的单元;以及
被配置用于基于合计的非重叠率选择n个意图的单元,所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。
CN201310019620.5A 2013-01-18 2013-01-18 用于挖掘意图的方法和设备 Active CN103942204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310019620.5A CN103942204B (zh) 2013-01-18 2013-01-18 用于挖掘意图的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310019620.5A CN103942204B (zh) 2013-01-18 2013-01-18 用于挖掘意图的方法和设备

Publications (2)

Publication Number Publication Date
CN103942204A true CN103942204A (zh) 2014-07-23
CN103942204B CN103942204B (zh) 2017-09-01

Family

ID=51189874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310019620.5A Active CN103942204B (zh) 2013-01-18 2013-01-18 用于挖掘意图的方法和设备

Country Status (1)

Country Link
CN (1) CN103942204B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533542A (zh) * 2015-01-23 2018-01-02 微软技术许可有限责任公司 用于理解不完整的自然语言查询的方法
CN108287858A (zh) * 2017-03-02 2018-07-17 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN108959257A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 一种自然语言解析方法、装置、服务器及存储介质
CN111782965A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 意图推荐方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6169986B1 (en) * 1998-06-15 2001-01-02 Amazon.Com, Inc. System and method for refining search queries
CN101203856A (zh) * 2005-06-20 2008-06-18 电子湾有限公司 用于生成相关搜索查询的系统
US20100228710A1 (en) * 2009-02-24 2010-09-09 Microsoft Corporation Contextual Query Suggestion in Result Pages
CN102253982A (zh) * 2011-06-24 2011-11-23 北京理工大学 一种基于查询语义和点击流数据的查询建议方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6169986B1 (en) * 1998-06-15 2001-01-02 Amazon.Com, Inc. System and method for refining search queries
CN101203856A (zh) * 2005-06-20 2008-06-18 电子湾有限公司 用于生成相关搜索查询的系统
US20100228710A1 (en) * 2009-02-24 2010-09-09 Microsoft Corporation Contextual Query Suggestion in Result Pages
CN102253982A (zh) * 2011-06-24 2011-11-23 北京理工大学 一种基于查询语义和点击流数据的查询建议方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533542A (zh) * 2015-01-23 2018-01-02 微软技术许可有限责任公司 用于理解不完整的自然语言查询的方法
CN108287858A (zh) * 2017-03-02 2018-07-17 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN108959257A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 一种自然语言解析方法、装置、服务器及存储介质
CN108959257B (zh) * 2018-06-29 2022-11-22 北京百度网讯科技有限公司 一种自然语言解析方法、装置、服务器及存储介质
CN111782965A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 意图推荐方法、装置、设备及存储介质
KR20210038860A (ko) * 2020-06-29 2021-04-08 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 의도 추천 방법, 장치, 기기 및 저장매체
US11580104B2 (en) 2020-06-29 2023-02-14 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus, device, and storage medium for intention recommendation
CN111782965B (zh) * 2020-06-29 2023-08-11 北京百度网讯科技有限公司 意图推荐方法、装置、设备及存储介质
KR102591421B1 (ko) * 2020-06-29 2023-10-18 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 의도 추천 방법, 장치, 기기 및 저장매체

Also Published As

Publication number Publication date
CN103942204B (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
US9262532B2 (en) Ranking entity facets using user-click feedback
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
US11455313B2 (en) Systems and methods for intelligent prospect identification using online resources and neural network processing to classify organizations based on published materials
CN103942198B (zh) 用于挖掘意图的方法和设备
CN103425763B (zh) 基于sns的用户推荐方法及装置
CN102687138A (zh) 搜索建议聚类和呈现
CN103389988A (zh) 一种引导用户进行信息搜索的方法及装置
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN105045875A (zh) 个性化信息检索方法及装置
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
CN101661490B (zh) 搜索引擎、其客户端及搜索网页的方法
US8700624B1 (en) Collaborative search apps platform for web search
CN103942232B (zh) 用于挖掘意图的方法和设备
CN103942204A (zh) 用于挖掘意图的方法和设备
KR101122737B1 (ko) 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법
KR100869545B1 (ko) 검색 히스토리를 생성하는 되풀이 검색시스템
Ma et al. Advanced deep web crawler based on Dom
Guesmi et al. Community detection in multi-relational social networks based on relational concept analysis
Jadidoleslamy Introduction to metasearch engines and result merging strategies: a survey
CN102495844B (zh) 用于构建用户模型的改进的GuTao法
Khurana et al. Survey of techniques for deep web source selection and surfacing the hidden web content
Chen Building a web‐snippet clustering system based on a mixed clustering method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant