CN103942198A

CN103942198A - 用于挖掘意图的方法和设备

Info

Publication number: CN103942198A
Application number: CN201310018519.8A
Authority: CN
Inventors: 胡钦谙; 黄耀海; 那森; 夏云庆
Original assignee: Tsinghua University; Canon Inc
Current assignee: Tsinghua University; Canon Inc
Priority date: 2013-01-18
Filing date: 2013-01-18
Publication date: 2014-07-23
Anticipated expiration: 2033-01-18
Also published as: CN103942198B

Abstract

本发明公开了用于挖掘意图的方法和设备。一种用于挖掘意图的方法，包括：获取查询和要被获得的意图的数量n，其中n为自然数；针对所输入的查询挖掘一组候选意图；从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果；以及基于合计的非重叠率选择n个意图，所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。

Description

用于挖掘意图的方法和设备

技术领域

本发明涉及信息搜索的方法和设备。特别地，本发明涉及用于挖掘意图的方法和设备。并且更特别地，本发明涉及用于针对由用户所提出的查询进行意图挖掘的方法和设备。

背景技术

随着计算机和信息技术的不断发展，现在在整个世界中的信息产生的速率不断增加。现今世界中存在个人信息、职业信息、娱乐信息、科技信息、政府信息等诸多信息。因为信息过多，所以导致对信息的组织和访问成为问题。

为了改进用户在信息搜索过程中的体验，用于帮助用户访问其所寻找的信息的方法和系统不断被研发。例如，在Wei Song,etc.HITSCIR System in NTCIR-9 Subtopic Mining Task,Proceedings ofNTCIR-9 Workshop Meeting,December6-9,2011,Tokyo,Japan中提出了尝试理解用户所输入的查询背后的潜在意图。在用户输入简短并且含糊的查询的情况下，希望能够输出n个（例如，n=10）重要的并且多样化的最佳意图结果。表1示出了一种示例。

表1

例如，如表1所示，如果用户输入查询“the beatles:rock band”（“the beatles:rock band”为一款音乐视频游戏），则可以输出若干个与“the beatles:rock band”有关的意图，以供用户进行选择。

在意图挖掘处理中，通常用以下公式来评价意图挖掘结果的好坏：

D # - nDCG = \frac{I - rec + D - nDCG}{2} - - - (1)

其中I-rec（Intent recall）表示意图召回率，即在所获得的意图中，所获得的有用的意图的数量（即，所获得的正确结果）相对于希望获得的那些意图的数量（所有正确结果）的比率，往往用于度量意图的多样化；D-nDCG表示意图准确率（Intent precision），D-nDCG为多样化的归一化折扣累积增益（Diversified-Normalized DiscountedCumulative Gain），它基于位置计算搜索引擎返回的结果文档列表的相关度（参见Sakai和Song，Evaluating Diversified Search ResultUsing Per-intent Graded Relevance,Proceedings of SIGIR’11,2011Beijing），其用于度量意图的整体相关度；而D#-nDCG表示I-rec和D-nDCG的线性组合。

在上式中，I_rec、D-nDCG以及D#-nDCG是基于查询的真实状态数据（ground truth）被确定的，通常是通过将意图挖掘结果于真实状态数据进行比较来计算得到的，这些指标的获得是本领域公知的，因此将不再详细描述。

作为示例，在现有技术中，可通过如下方式来获得查询的真实状态数据。例如，真实状态数据可以是人为设定的。再如真实状态数据是由评注者所提供并且由多个人投票产生的。

在US2010/198837中公开了一种用于挖掘意图的方法。在该专利文献中，使用相似度分数来度量意图的多样性，所述相似度分数是基于意图名称、文档（例如标题和片段）或路径中的文本计算的。在该专利文献中，目标函数如公式（2）所示：

\underset{i : {m + 1, . . ., l}}{\arg \max} (- textsimilarity (intent {candidate}_{i}, \cup_{j = 1}^{m} selectedintent {candidate}_{j})) - - - (2)

其中，l代表候选意图的总数，n代表要输出的候选意图的数量，m=1,…,n，表示已选择的候选意图的数量，text similarity（）函数是表示文本相似度的函数。在每一轮的选择新候选意图的过程中，通过该目标函数，选择与已经选择的m个候选意图具有最小文本相似度的候选意图。在该专利中通过将流行度分数除以相似度分数来对候选意图进行排序。

图1A和图1B示出了在专利申请US2010/198837中所使用的方法的流程图，其中图1A示出了在该专利申请中所使用的方法的主流程图，图1B示出了图1A的步骤830的详细流程图。如图1A所示，首先，在步骤810中，用户输入查询以及要输出的意图的数量n。在步骤820中，针对所输入的查询，挖掘一组候选意图。在步骤830中，产生n个意图。如图1B所示，产生n个意图的步骤830更具体地包括以下三个子步骤。首先，在步骤831中，计算候选意图的流行度分数。接着，在步骤832中，计算候选意图的相似度分数。在步骤833中，基于流行度分数除以相似度分数的商，来获得n个意图。也就是说，在步骤833中，选择与已经选择的m个候选意图具有最小文本相似度的候选意图。返回参看图1A，在步骤840中，输出所获得的n个意图。

但是根据实践，本领域技术人员发现，通过现有技术的专利申请US2010/198837中所公开的方法获得的意图召回率I-rec比意图准确率D-nDCG低很多。这表明多样化是该方法的一个瓶颈。并且，在很多情况下通过该方法所返回的意图并不是用户所希望返回的意图。

在US2011/0055238中公开了用于挖掘意图的另一种方法。该专利申请支持所获得的搜索结果的多样化，并且在该专利申请中，以用户可以更容易地理解要被访问的内容的方式将搜索结果划分/组织成意图。该专利申请指出：意图要以可感知的、易于理解的、并且相对全面的方式划分搜索空间。使搜索结果多样化被理解为类似于所谓的集合覆盖问题。该专利申请选择与从中已经去除了和所选候选意图相关的搜索结果的最大数量的搜索结果相关的候选意图，作为意图。公式（3）示出了该专利申请的目标函数：

\underset{i : {m + 1, . . ., l}}{\arg \max} (| intent {candidate}_{i} - \cup_{j = 1}^{m} selectedintent {candidate}_{j} |) - - - (3)

其中，l代表候选意图的总数，n代表要输出的候选意图的数量，m=1,…,n，表示已选择的候选意图的数量，函数|A-B|表示在集合A中但不在集合B中的元素的数量。在每一轮的选择新候选意图的过程中，通过该目标函数，选择相对于已经选择的候选意图具有最大增量覆盖（incremental coverage）的候选意图。

图2示出了在专利申请US2011/0055238中所使用的方法的流程图。如图2所示，在步骤910中，用户输入查询。在步骤920中，针对用户所输入的查询挖掘一组候选意图。在步骤930中，初始化一个空的候选意图列表。在步骤940中，计算数据搜索资源中的针对每个候选意图的搜索结果的数量。在步骤950中，将具有最大搜索结果数量的候选意图添加到候选意图列表中。在步骤960中，从所述搜索结果中去除与所添加的候选意图相关的搜索结果。在步骤970中，判断是否还有更多的搜索结果或者是否还有更多的候选意图要被添加。如果判断为仍然有更多的搜索结果或者更多的候选意图要被添加，则处理返回到步骤940，继续计算数据搜索资源中的针对每个候选意图的搜索结果的数量。如果判断为没有更多的搜索结果或者更多的候选意图要被添加，则处理前进到步骤980，在步骤980输出排序后的意图。

在专利申请US2011/0055238中，假定候选意图是非重叠的，其仅仅考虑选择一个新候选意图所导致的增量覆盖，但是该专利申请中的方法忽略了由于选择所导致的重叠覆盖（overlapping coverage）的副作用。重叠覆盖不会带来新的信息，甚至会对意图的多样性产生损害。因此，在很多情况下，通过该方法所返回的意图并不是用户所希望返回的意图。

例如，仍以输入查询“the beatles:rock band”为例，如表2所示，当搜索“the beatles:rock band”时，从数据搜索资源中返回了10个URL（Uniform Resource Locator，统一资源定位器）。在这些URL中，当搜索“the beatles:rock band story”时，返回3个URL，即第5、6、7个URL，当搜索“the beatles:rock band guides”时，返回8个URL，即第1-8个URL,当搜索“the beatles:rock band cheats”时，返回5个URL，即第1-4和第10个URL。

表2

以针对所输入的查询“the beatles:rock band”从搜索引擎返回的搜索结果作为全集。与候选意图“the beatles:rock band story”、“thebeatles:rock band guides”、“the beatles:rock band cheats”相关的搜索结果分别是该全集的子集。图3示出了搜索结果的全集和各个子集之间的关系。如图3所示，全集包括10个搜索结果，由整个圆表示。而针对候选意图的搜索结果所覆盖的区域表示为阴影区域。

初始地，基于所返回的搜索结果的数量对各候选意图进行排序。排序结果如表3所示。即，“the beatles:rock band guides”排在第一位，“the beatles:rock band cheats”排在第二位，而“the beatles:rock bandstory”排在第三位。

编号	候选意图的初始排序
		1	the beatles:rock band guides
2	the beatles:rock band cheats
		3	the beatles:rock band story

表3

对于专利申请US2011/0055238所公开的方法，由于对于“guides”返回了8个搜索结果，即返回了大部分的搜索结果，因此在去除了关于“guides”的搜索结果后，最多的剩余搜索结果是针对“cheats”返回的。因此，如表4所示，在重新排序后，前两个意图是“the beatles:rock band guides”和“the beatles:rock band cheats”。

表4

对于在专利申请US2010/198837所公开的方法，通过基于相似度对意图进行多样化。由于“cheats”相比于“story”而言，更类似于“guides”，因此，候选意图“cheats”被惩罚，其排序将低于story。因此，如表5所示，在重新排序后，前两个意图是“the beatles:rockband guides”和“the beatles:rock band story”。

表5

但是，上面两种排序的结果与人们的直觉都是不同的。“cheats”和“story”这两个候选意图给出了全集中更多样化的划分。因此，根据人们的直觉应该选择这两个候选意图。专利申请US2011/0055238所公开的方法和专利申请US2010/198837所公开的方法都没有精确地提供用户希望得到的候选意图。

因此，需要提出一种新的技术来解决上述现有技术中的任何问题。

发明内容

本发明的一个目的是精确地提供用户希望得到的候选意图，所得到的候选意图具有良好的多样性。

根据本发明的一个方面，提供了一种用于挖掘意图的方法，包括：获取查询和要被获得的意图的数量n，其中n为自然数；针对所输入的查询挖掘一组候选意图；从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果；以及基于合计的非重叠率（aggregated non-overlapping ratio，ANOL）选择n个意图，所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。

根据本发明的另一方面，提供了一种用于挖掘意图的设备，包括：查询和意图数量获取单元，获取查询和要被获得的意图的数量n，其中n为自然数；候选意图挖掘单元，针对所输入的查询挖掘一组候选意图；搜索结果获取单元，从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果；以及意图选择单元，基于合计的非重叠率选择n个意图，所述意图选择单元包括合计的非重叠率计算单元，用于针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算所述合计的非重叠率。

本发明的一个优点在于，能够精确地提供用户希望得到的候选意图，所得到的候选意图具有良好的多样性。并且，通过本发明的方法和设备，意图的召回率相比于现有技术中的方法和系统得到改进。

通过以下参照附图对本发明的示例性实施方式的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本发明的实施方式，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，

其中：

图1A是示出根据现有技术的一种用于挖掘意图的方法的流程图；

图1B是示出图1A中的意图挖掘方法中的意图生成处理的详细流程图；

图2是示出根据现有技术的另一种用于挖掘意图的方法的流程图；

图3是示出搜索结果的全集和各个子集之间的关系的图；

图4是示出能够实施本发明的实施方式的计算机系统1000的硬件配置的示意性框图；

图5是示出根据本发明的实施方式的用于基于合计的非重叠率来挖掘意图的示例方法的流程图；

图6是示出在根据本发明的实施方式的方法中，用于基于合计的非重叠率选择n个意图的示例处理的详细流程图；

图7是示出根据本发明的实施方式针对n个候选意图计算合计的非重叠率的示例方法的流程图；

图8是示出根据本发明的实施方式针对n个候选意图计算合计的非重叠率的另一示例方法的流程图；

图9是示出根据本发明的实施方式的用于挖掘意图的示例方法的流程图，在该方法中，基于合计的非重叠率对候选意图进行重新排序；

图10示出了不同候选意图列表的非重叠覆盖区域；

图11是示出根据本发明的实施方式的用于使用贪婪算法基于合计的非重叠率挖掘意图的示例方法的流程图；

图12是示出根据本发明的实施方式的用于挖掘意图的系统设备2000的功能框图；

图13是示出根据本发明的实施方式的用于挖掘意图的处理的流程图；

图14示出了构建排他合集的一种示例性方法；

图15示例性地示出了挖掘出的多个候选意图；

图16示例性地示出了获得候选合集的过程；

图17示例性地示出了识别排他合集的过程；

图18示出了构建排他合集的另一种示例性方法；

图19示例性地示出了任意划分的候选合集；

图20示出了计算图19中的“候选合集1432”的排他度的示例；

图21－24示意性地示出了一种使候选意图多样化的方法的示例；

图25示出了将排他合集中的所有候选意图作为上位词的下拉列表显示的示例；

图26示出了根据本发明的方法与根据专利申请US2011/198837所公开的方法进行测试的结果的比较图；以及

图27示出了根据本发明的方法的测试示例的效果。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施方式。应注意到：除非另外具体说明，否则在这些实施方式中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施方式的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施方式的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为了有助于透彻地并且适当地理解本发明，下文将首先解释本发明的说明书以及权利要求书中所使用的术语。

“意图”指的是用户所输入的简短且含糊的查询所对应的真实希望的意思表示。例如，当用户输入的查询“北京”时，“北京的天气”、“在北京的生活成本”等等都可是用户所输入的该查询的意图。

在很多情况下，用户会在一组候选意图（包括至少两个候选意图）之间进行排他性选择。也就是说，用户总是只会在这一组候选意图之中选择一个候选意图，而忽略其它候选意图。这时，这一组候选意图是相互排他的，在下文中被称为“排他意图”。

例如，当用户输入查询“furniture for small space”时，可以得到如下两个候选意图：“furniture for small spaces New York”、“furniture for small spaces Los Angeles”。很明显这两个候选意图涉及两个不同城市。住在“New York”附近的人总是选择前一个候选意图，而忽略后一个候选意图。然而，住在“Los Angeles”附近的人总是选择后一个候选意图，而忽略前一个候选意图。在这种情况下，这两个候选意图是相互排他的排他意图。

“排他合集”指的是由相互排他的至少两个排他意图构成的合集。例如，在上述例子中，可以构建一个如下的排他合集：{“furniture forsmall spaces New York”，“furniture for small spaces Los Angeles”}。

“可读性/可理解性”指的是意图的表述更加符合应用环境下的表述习惯，而不仅仅是多个词或短语的简单堆砌。在本申请中，通过利用上下文字符、尤其是连接字符，例如功能词，来扩展用户输入的查询能够获得易于理解的候选意图。

图4是示出能够实施本发明的实施方式的计算机系统1000的硬件配置的框图。

如图4中所示，计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。

系统存储器1130包括ROM（只读存储器）1131和RAM（随机存取存储器）1132。BIOS（基本输入输出系统）1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。

诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。

诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如，软盘1152可以被插入到软盘驱动器1151中，以及CD（光盘）1156可以被插入到CD-ROM驱动器1155中。

诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口1160。

计算机1110可以通过网络接口1170连接到远程计算机1180。例如，网络接口1170可以经由局域网1171连接到远程计算机1180。或者，网络接口1170可以连接到调制解调器（调制器－解调器）1172，以及调制解调器1172经由广域网1173连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘之类的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191。

输出外围接口1195连接到打印机1196和扬声器1197。

图4所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。

图4所示的计算机系统可以被实施于任何实施方式，可作为独立计算机，或者也可作为设备中的处理系统，可以移除一个或更多个不必要的组件，也可以向其添加一个或更多个附加的组件。

图5是示出根据本发明的实施方式的用于基于合计的非重叠率来挖掘意图的方法的流程图。为了有助于对根据本发明的实施方式的方法的透彻理解，下文将结合一个示例来描述该方法。

如图5所示，在步骤100中，获取查询和要被获得的意图的数量n，其中n是自然数。例如，可以获得用户所输入的查询“the beatles：rock band”，其中“the beatles：rock band”是一个音乐视频游戏的名称。另外，假定要被获得的意图的数量为2。要被获得的意图的数量可以通过用户输入获得，也可以基于用户偏好或预先的系统设置确定。例如，可以基于屏幕的尺寸来确定要被获得的意图的数量。

在步骤200中，针对所输入的查询挖掘一组候选意图。如表6所示，针对所获得的查询“the beatles：rock band”，例如挖掘出三个候选意图。

候选意图
	the beatles:rock band guides
the beatles:rock band cheats
	the beatles:rock band story

表6

在步骤300，针对所输入的查询，对数据搜索资源进行搜索，获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果。数据搜索资源能够提供关于查询的附加信息。其可以是查询日志（query log），文集（corpus），或网络资源等。所述数据搜索资源可以包括文本和/或多媒体资源。所述数据搜索资源可以没有标签，或者被手动或自动地标有标签。标签可以是术语、概念或义项（sense）等。而且，可选地，标签可以具有权重。另选地和/或附加地，其它数据搜索源也可以使用。另选地和/或附加地，可以使用搜索引擎进行搜索结果的获取。如果通过该方法或系统返回大量的搜索结果，可以可选地对这些搜索结果进行采样。

对于查询“the beatles：rock band”，例如表7所示，从数据搜索资源中返回了10个URL（Uniform Resource Locator，统一资源定位器）。在这些URL中，当搜索“the beatles:rock band story”时，返回3个URL，即第5、6、7个URL，当搜索“the beatles:rock bandguides”时，返回8个URL，即第1-8个URL,当搜索“the beatles:rockband cheats”时，返回5个URL，即第1-4和第10个URL。

表7

应该指出，针对本发明的方法所进行的测试示例与在本说明书的背景技术部分针对现有技术的专利申请US2011/0055238和US2010/198837的方法所进行的测试示例的数据相同。因此，表7中的数据与表2中的数据相同。因此，对于根据本发明的方法的示例，搜索结果的全集和各个子集之间的关系同样在图3中示出。即，全集包括10个搜索结果，由整个圆表示。而针对候选意图的搜索结果所覆盖的区域表示为阴影区域。

方法继续前进到步骤400，在步骤400中，基于合计的非重叠率选择n个意图，所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。

其中，假定意图集合Π包括一组意图，即Π＝{I₁，I₂，...，I_Ω}，搜索结果的合集为其中被意图I_υ.覆盖的搜索结果集合为通过比较搜索结果集合，可以对进行以下划分

\hat{R} = {\hat{R}}_{unique} \cup {\hat{R}}_{common .}

其中，表示仅由一个意图覆盖的搜索结果，表示被两个或更多个意图所覆盖的搜索结果。

根据本发明的实施方式的方法的目标函数为：

\underset{i : {1, . . ., l}}{\arg \max} (Σ_{k = 1}^{n} | intent {candidate}_{i} - \cup_{j = 1, i &NotEqual; j}^{n} intent {candidate}_{j} |) - - - (4)

其中，l代表候选意图的总数，n代表要输出的候选意图的数量，m=1,…,n，表示已选择的候选意图的数量，函数|A-B|表示在集合A中但不在集合B中的元素的数量。

上述目标函数表明，在每一轮的选择新候选意图的过程中，总是选择具有最大的合计的非重叠覆盖的候选意图。这是因为，通过研究，本发明的发明人认识到非重叠覆盖是多样性的指示。显然，根据本发明的实施方式的目标函数与现有技术的专利申请US2011/0055238和US2010/198837的方法的目标函数不同。在本发明中，计算各个候选意图与每个已经选择的候选意图的非重叠区域，并且将所得到的非重叠区域积累，作为评价候选意图的度量。

另选地和/或附加地，在本发明的一种实施方式中，在基于合计的非重叠率对候选意图进行排序时，可以首先对候选意图进行排序。例如，可以基于所返回的搜索结果的数量对各候选意图进行排序。排序结果如表8所示。即，“the beatles:rock band guides”排在第一位，“thebeatles:rock band cheats”排在第二位，而“the beatles:rock bandstory”排在第三位。

表8

下面，参考图6对于基于合计的非重叠率选择n个意图的示例处理进行详细说明。

图6是示出在根据本发明的实施方式的方法中，用于基于合计的非重叠率选择n个意图的示例处理的详细流程图。

首先，在步骤410，针对n个候选意图计算合计的非重叠率。

图7是示出根据本发明的实施方式针对n个候选意图计算合计的非重叠率的示例方法的流程图，在该示例方法中，针对n个候选意图，将非重叠搜索结果的数量求和。具体地说，在步骤411，获取候选意图的列表，其具有n个候选意图。然后，在步骤412，对于n个候选意图中的每一个候选意图，计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量。例如，在图5的方法的说明性示例中，n=2，因此前两个候选意图为“guides”和“cheats”。对于“guides”的八个搜索结果中有四个不与“cheats”的搜索结果共享。对于“cheats”的五个搜索结果中有一个不与“guides”的搜索结果共享。

另选地和/或附加地，对于n个候选意图中的每一个候选意图，可以基于与候选意图相关的搜索结果的重要性对所述非重叠搜索结果的数量进行加权，作为非重叠搜索结果的数量。所述重要性可以基于搜索结果的排序、与搜索结果相关的候选意图的排序、或者在查询日志中记录的用户点击的数量等进行计算。本领域技术人员能够理解，一般情况下，搜索结果的排名越高，或者与搜索结果相关的候选意图的排名越高，或者用户点击的数量越多，加权后的数量就越大。毋庸置疑，可以另选地和/或附加地采用其它加权方案。

此外，另选地和/或附加地，对于n个候选意图中的每一个候选意图，还可以通过计算与其它n-1个候选意图重叠的重叠搜索结果的数量；然后计算非重叠搜索结果的数量与常量a之和相对于重叠搜索结果的数量与常量a之和的比率，作为非重叠搜索结果的数量，其中a大于或等于0。之所以引入常量a，是考虑到重叠搜索结果的数量可能为零，为了避免分母为零而进行的处理。

另选地和/或附加地，对于n个候选意图中的每一个候选意图，与任意其它n-1个候选意图重叠的重叠搜索结果的数量可以基于与任意其它n-1个候选意图重叠的次数进行加权。即，基于与任意其它n-1个候选意图重叠的次数，计算重叠搜索结果的权重；以及通过所计算的权重，计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量，作为重叠搜索结果的数量。

另选地和/或附加地，对于n个候选意图中的每一个候选意图，可以基于与候选意图相关的搜索结果的重要性对所述重叠搜索结果的数量进行加权，作为重叠搜索结果的数量。所述重要性可以基于搜索结果的排序、与搜索结果相关的候选意图的排序、或者在查询日志中记录的用户点击的数量等进行计算。本领域技术人员能够理解，一般情况下，搜索结果的排名越高，或者与搜索结果相关的候选意图的排名越高，或者用户点击的数量越多，加权后的数量就越大。毋庸置疑，可以另选地和/或附加地采用其它加权方案。

在步骤413中，针对n个候选意图，将非重叠搜索结果的数量求和。对于图5的方法的说明性示例，对于前两个候选意图“guides”和“cheats”，在仅仅考虑非重叠搜索结果的数量的情况下，和是5。

然后，在步骤414中，将所求得的和作为合计的非重叠率输出。因此，在上述示例中，合计的非重叠率为5。

图8是示出根据本发明的实施方式针对n个候选意图计算合计的非重叠率的另一示例方法的流程图，在该方法中，针对n个候选意图，计算非重叠搜索结果的数量的平均值和标准差。

具体地说，在步骤415，获取候选意图的列表，其具有n个候选意图。然后，在步骤416，对于n个候选意图中的每一个候选意图，计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量。然后，在步骤417中，针对n个候选意图，将非重叠搜索结果的数量求和。然后，在步骤418中，针对n个候选意图，计算非重叠搜索结果的数量的平均值。另选地和/或附加地，在步骤419中，针对n个候选意图，基于所计算的平均值计算非重叠搜索结果的数量的标准差。可以将非重叠搜索结果的数量的平均值、或者将非重叠搜索结果的数量的标准差的相反数、或者将非重叠搜索结果的数量的标准差的倒数作为合计的非重叠率。另选地和/或附加地，在步骤420中，针对n个候选意图，计算非重叠搜索结果的数量的平均值与非重叠搜索结果的数量的标准差之间的差值，并且将所述差值作为合计的非重叠率。最后，在步骤421，输出合计的非重叠率。之所以采用这种方法计算合计的非重叠率，是因为本发明的发明人认识到：非重叠搜索结果的数量的平均值越大，搜索结果的多样性就越高；非重叠搜索结果的数量的标准差越小，非重叠搜索结果的数量相同并且多样化的可能性就越大。

此外，另选地和/或附加地，针对n个候选意图，还可以通过计算每个候选意图与其它n-1个候选意图重叠的重叠搜索结果的数量；然后对于n个候选意图，将重叠搜索结果的数量求和；然后计算非重叠搜索结果的数量之和与常量a之和相对于重叠搜索结果的数量之和与常量a之和的比率，作为合计的非重叠率，其中a大于或等于0。之所以引入常量a之和，是考虑到重叠搜索结果的数量可能为零，为了避免分母为零而进行的处理。

下面，返回参照图6的流程图。在步骤420，基于合计的非重叠率和针对n个候选意图的其它度量来计算n个候选意图的总分。所述其它度量可以是候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等。其中，候选意图之间的相似度可以是候选意图之间的文本相似度（textual similarity）、时间相似度（temporal similarity）、人口统计相似度（demographical similarity）。例如，针对相关度，基于以下公式获得该n个候选意图的总分：

α×[aggregated non-overlapping ratio]+(1-α)×relevance （5）

其中，α为用户设定的参数，0<α<1。

接下来，在步骤430中，基于所计算的总分，通过以下公式获得所希望的前n个意图。

Max(α×aggregated non-overlapping ratio+(1-α)×relevance) （6）

即，选取总分高的n个意图的组。

本领域技术人员能够理解，对于候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等其它度量，也可以进行类似的操作。此外，也可以考虑候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等中的多个因素进行操作。

下面参照图9，对根据本发明的实施方式的一种用于基于合计的非重叠率挖掘意图的方法进行描述。图9是示出根据本发明的实施方式的用于挖掘意图的示例方法的流程图，在该方法中，基于合计的非重叠率对候选意图进行重新排序。

首先，在步骤610，获取查询和要被获得的意图的数量n，其中n为自然数，并且针对所输入的查询挖掘一组候选意图，并对其进行排序，从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果。在步骤620，计算所述候选意图中前n个候选意图的合计的非重叠率。对前n个候选意图的合计的非重叠率的计算可以采用前面所述的任意方法，在此对其不再赘述。然后，在步骤630，产生备选候选意图列表，该备选候选意图列表同样具有n个候选意图。然后，在步骤640，计算备选候选意图列表中的n个候选意图的合计的非重叠率。对备选候选意图列表中的n个候选意图的合计的非重叠率的计算可以采用前面所述的任意方法，在此同样对其不再赘述。然后，处理前进到步骤650。在步骤650，判断所述备选候选意图列表中的n个候选意图的合计的非重叠率与所述前n个候选意图的合计的非重叠率之差是否大于第一阈值。其中，所述第一阈值是用户预先确定的，并且大于零。如果所述备选候选意图列表中的n个候选意图的合计的非重叠率与所述前n个候选意图的合计的非重叠率之间的差大于该第一阈值，则处理前进到步骤660，在该步骤660中，使用所述备选候选意图列表更新所述前n个候选意图，然后在步骤670输出更新后的n个候选意图。如果所述备选候选意图列表中的n个候选意图的合计的非重叠率与所述前n个候选意图的合计的非重叠率之间的差小于等于该第一阈值，则处理前进到步骤670，直接将原来的前n个候选意图输出。

另选地和/或附加地基于合计的非重叠率选择n个意图可以包括：计算前n个候选意图的第一总分，其中所述第一总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对前n个候选意图所计算的合计的非重叠率计算的；产生具有n个候选意图的备选候选意图列表；计算所述备选候选意图列表中的n个候选意图的第二总分，其中所述第二总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对所述备选候选意图列表中的n个候选意图计算的合计的非重叠率计算的；如果所述第二总分与所述第一总分之差大于第二阈值，则使用所述备选候选意图列表更新所述前n个候选意图，其中所述第二阈值大于0；以及将前n个候选意图作为意图输出。

另选地和/或附加地，可以产生若干个备选候选意图列表，例如使用所获得的候选意图的所有可能的组合，来进行比较。此外，产生备选候选意图列表可以利用对所获得的候选意图的排序。例如，可以将前n个候选意图中的一个过滤掉，并将第n+i个候选意图添加到列表的末尾（其中，i为自然数，并且是递增的）。从而使得，较高排名的候选意图具有进行比较的优先级。

例如，在前面的“the beatles：rock band”的示例中，存在两个包括两个候选意图的备选候选意图列表。如表9所示，通过过滤掉第一个候选意图并将第三个候选意图添加到列表的末尾得到包括两个候选意图的第一备选候选意图列表。并且通过过滤掉第二个候选意图并将第三个候选意图添加到列表的末尾得到包括两个候选意图的第二备选候选意图列表。对于第一和第二备选候选意图列表的合计的非重叠率分别为9和5。

表9

另选地和/或附加地，还可以采用其它策略来生成备选候选意图列表。

可以将备选候选意图列表的合计的非重叠率与前n个候选意图的合计的非重叠率进行比较，直到满足预定的终止条件。所述终止条件可以是达到替换的次数，或者合计的非重叠率之间的差小于预定的阈值。另选地和/或附加地，其它终止条件也可以采用。在所述的示例中，由于第一备选候选意图列表的合计的非重叠率大于当前的前2个候选意图的合计的非重叠率，因此第一备选候选意图列表将用于替换当前的前2个候选意图的列表。

图10示出了不同候选意图列表的非重叠覆盖区域。在图10中，非重叠覆盖区域通过阴影部分示出。从图10中可以看出“cheats”和“story”的非重叠覆盖区域大于“guides”和“cheats”的非重叠覆盖区域以及“guides”和“story”的非重叠覆盖区域。通过本发明的方法，能够得到与用户的直觉一样的意图输出结果。

另选地和/或附加地，判断任意两个搜索结果是否重叠包括以下两种处理中的至少一种：（1）判断这两个搜索结果的URL是否相同；和（2）判断这两个搜索结果的相似度是否大于一个阈值，其中所述相似度包括文本相似度或基于用户行为的相似度。此外，文本相似度可以通过基于术语的向量（term-based vector）或基于义项的向量（sense-based vector）获得。

下面，说明根据本发明的另一种实施方式，在该实施方式中使用贪婪算法（greedy algorithm）并基于合计的非重叠率来挖掘意图。该方法采用迭代处理，假定在第n步获得的n个候选意图的集合为Πⁿ={I₁，I₂，...，I_n}，那么在第n+1步中，希望在剩余的候选意图中找到一个候选意图I^*，使得满足以下关系：

I^{*} = {\arg \max}_{I &Element; \overset{&OverBar;}{Π^{n}}} {{ratio}_{ω}^{ANOL} (Π^{n} + I)} - - - (7)

其中Π＝{I₁，I₂，...，I_Ω}，表示候选意图的集合，为合计的非重叠率，其可以根据前面所述的任意一种方法计算。

在一种实施方式中，如前所述，

其中为非重叠搜索结果的数量的加权和，为重叠搜索结果的数量的加权和，β为常量，β大于或等于零。

换言之，在每一轮的候选意图选择的过程中，希望获得具有最大的合计的非重叠覆盖的候选意图。这是因为，本发明的发明人认识到：非重叠覆盖是多样性的指示。公式（8）示出了该方法的目标函数：

{\arg \max}_{i = m + 1}^{l} (Σ_{k = 1}^{m + 1} | intent {candidate}_{i} - \cup_{j = 1, i &NotEqual; j}^{m + 1} intent {candidate}_{j} |) - - - (8)

其中l代表候选意图的总数，n代表要输出的候选意图的数量，m=1,…,n，表示已选择的候选意图的数量，函数|A-B|表示在集合A中但不在集合B中的元素的数量。下面参照图11对该方法进行说明。

图11示出了根据本发明的实施方式的用于使用贪婪算法基于合计的非重叠率挖掘意图的示例方法的流程图。首先，在步骤710，获取查询和要被获得的意图的数量n，其中n为自然数，并且针对所输入的查询挖掘一组候选意图，从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果。可以假定，在初始状态下候选意图未经过排序。可以在步骤720初始化一个空的候选意图列表。当然，也可以在初始状态下通过排序选出一组候选意图，并且跳过步骤720。在步骤730，对于没有包括在列表中的每个候选意图，通过将该候选意图添加到列表的末尾而产生备选候选意图列表。然后，处理前进到步骤740，在步骤740中，计算备选候选意图列表的合计的非重叠率。然后，在步骤750中，找出具有最大的合计的非重叠率的备选候选意图列表，并用该备选候选意图列表更新当前的候选意图列表。然后，在步骤760中，判断是否满足终止条件。所述终止条件可以是：候选意图列表的长度已经达到n，或者没有更多的候选意图可被添加。另选地和/或附加地，也可以采用其它终止条件。如果满足终止条件，则该处理前进到步骤770，在步骤770中输出候选意图列表。如果不满足终止条件，则该处理返回步骤730，继续产生新的备选候选意图列表。

使用贪婪算法基于合计的非重叠率挖掘意图的一种示例方法的计算机程序伪码如下所示：

作为替代，还可以以所有候选意图的排序后的列表作为开始。对于列表中的每一个候选意图，通过从列表中去除该候选意图来产生备选候选意图列表，并且计算备选候选意图列表的合计的非重叠率。通过用具有最大的合计非重叠率的备选候选意图列表来更新当前的候选意图列表。重复这些步骤，直到满足预定的终止条件。

另选地和/或附加地，可以基于以下总分使用贪婪算法选择n个意图，所述总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与所计算的合计的非重叠率计算的。

图12示出了根据本发明的实施方式的用于挖掘意图的设备2000的功能框图。该设备2000的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是图12中所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

如图12所示，根据本发明的一个方面，用于挖掘意图的设备2000可以包括：查询和意图数量获取单元2100、候选意图挖掘单元2200、搜索结果获取单元2300、以及意图选择单元2400。所述查询和意图数量获取单元2100获取查询和要被获得的意图的数量n，其中n为自然数。所述候选意图挖掘单元2200针对所输入的查询挖掘一组候选意图。所述搜索结果获取单元2300从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果。所述意图选择单元2400基于合计的非重叠率选择n个意图，所述意图选择单元2400包括合计的非重叠率计算单元2410，用于针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算所述合计的非重叠率。

根据本发明的一种实施方式，所述意图选择单元2400可以进一步包括：备选候选意图列表产生单元2420、更新单元2430、以及意图输出单元2440。所述备选候选意图列表产生单元2420产生具有n个候选意图的备选候选意图列表。所述合计的非重叠率计算单元2410针对前n个候选意图计算合计的非重叠率，以及针对所述备选候选意图列表中的n个候选意图计算合计的非重叠率。所述更新单元2430在所述备选候选意图列表中的n个候选意图的合计的非重叠率与所述前n个候选意图的合计的非重叠率之间的差大于第一阈值的情况下，使用所述备选候选意图列表更新所述前n个候选意图，其中所述第一阈值大于0。所述意图输出单元2440将前n个候选意图作为意图输出。

根据本发明的一种实施方式，所述意图选择单元2400可以进一步包括：第一总分计算单元2450、备选候选意图列表产生单元2420、第二总分计算单元2460、更新单元2430以及意图输出单元2440。所述第一总分计算单元2450计算前n个候选意图的第一总分，其中所述第一总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对前n个候选意图所计算的合计的非重叠率计算的。所述备选候选意图列表产生单元2420产生具有n个候选意图的备选候选意图列表。所述第二总分计算单元2460计算所述备选候选意图列表中的n个候选意图的第二总分，其中所述第二总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对所述备选候选意图列表中的n个候选意图计算的合计的非重叠率计算的。所述更新单元2430在所述第二总分与所述第一总分之差大于第二阈值的情况下使用所述备选候选意图列表更新所述前n个候选意图，其中所述第二阈值大于0。所述意图输出单元2440将前n个候选意图作为意图输出。

根据本发明的一种实施方式，所述意图选择单元2400可以包括使用贪婪算法的第一选择单元2470。所述使用贪婪算法的第一选择单元2470基于所计算的合计的非重叠率使用贪婪算法选择n个意图。

根据本发明的一种实施方式，所述意图选择单元2400可以包括：使用贪婪算法的第二选择单元2480。所述使用贪婪算法的第二选择单元基于以下总分使用贪婪算法选择n个意图，所述总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与所计算的合计的非重叠率计算的。

根据本发明的一种实施方式，所述合计的非重叠率计算单元2410可以进一步包括：数量确定单元2411以及求和单元2412。所述数量确定单元2411对于每个候选意图，计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量。所述求和单元2412对于n个候选意图，将非重叠搜索结果的数量求和。

另选地和/或附加地根据本发明的一种实施方式，所述合计的非重叠率计算单元2410可以进一步包括平均值计算单元2413。所述平均值计算单元2413基于所述求和单元2412计算出的和对于n个候选意图的非重叠搜索结果的数量求平均值。

根据本发明的一种实施方式，所述合计的非重叠率计算单元2410可以进一步包括标准差计算单元2414。所述标准差计算单元2414基于所述平均值计算单元2413计算出的平均值对于n个候选意图的非重叠搜索结果的数量计算标准差。

根据本发明的一种实施方式，所述数量确定单元2411可以进一步包括重要性确定单元和加权单元。所述重要性确定单元基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性。所述加权单元基于所计算的重要性计算非重叠搜索结果的加权后的数量。

根据本发明的一种实施方式，所述数量确定单元2411可以进一步包括重叠搜索结果的数量确定单元和比率确定单元。所述重叠搜索结果的数量确定单元计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量。所述比率确定单元计算非重叠搜索结果的数量与常量a之和相对于重叠搜索结果的数量与常量a之和的比率，其中a大于或等于0。

根据本发明的一种实施方式，所述重叠搜索结果的数量确定单元可以进一步包括权重确定单元和加权单元。所述权重确定单元基于与任意其它n-1个候选意图重叠的次数，计算重叠搜索结果的权重。所述加权单元通过所计算的权重，计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量，作为重叠搜索结果的数量。

根据本发明的一种实施方式，所述重叠搜索结果的数量确定单元可以进一步包括重要性确定单元和加权单元。所述重要性确定单元基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性。所述加权单元基于所计算的重要性计算重叠搜索结果的加权后的数量。

根据本发明的一种实施方式，所述合计的非重叠率计算单元2410可以进一步包括：重叠搜索结果数量计算单元2415、求和单元2412、以及比率计算单元2416。所述重叠搜索结果数量计算单元2415对于每个候选意图，计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量。所述求和单元2412对于n个候选意图，将重叠搜索结果的数量求和。所述比率计算单元2416计算非重叠搜索结果的数量之和与常量a之和相对于重叠搜索结果的数量之和与常量a之和的比率，作为合计的非重叠率，其中a大于或等于0。

根据本发明的一种实施方式，所述重叠搜索结果数量计算单元2415可以进一步包括权重确定单元以及加权单元。所述权重确定单元基于与任意其它n-1个候选意图重叠的次数，计算重叠搜索结果的权重。所述加权单元通过所计算的权重，计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量，作为重叠搜索结果的数量。

根据本发明的一种实施方式，所述用于挖掘意图的设备2000还可以包括重叠判断单元2490。所述重叠判断单元2490判断搜索结果是否重叠，包括URL判断单元2491和相似度判断单元2492中的至少一种。所述URL判断单元2491判断搜索结果的URL是否相同。所述相似度判断单元2492判断搜索结果的相似度是否大于一个阈值，其中所述相似度包括文本相似度或基于用户行为的相似度。

下文将参照附图来描述对图5所示出的方法中的针对所输入的查询挖掘一组候选意图的步骤200的改进。该方法能够与前述实施方式中的至少一个的方法进行组合。例如，能够组合得到如下实施例，即通过本实施方式的方法获得用户候选意图之后，再利用前述实施方式的方法基于合计的非重叠率来挖掘意图。

为了简便起见，本实施方式的方法中与其它实施方式相同或者相似的步骤或组件将不再被重复描述。

现有技术中的方法或者通过直接从查询的搜索结果中按照短语的出现频率的高低来确定候选意图，或者通过查询以及查询的搜索结果中的高覆盖率的关键词的简单组合来确定候选意图，这样的实现往往会遗漏出现频率/覆盖率低但是仍重要的候选意图，而且所获得的候选意图的可读性/可理解性较差。

作为对比，根据本发明的方法通过为用户输入的查询构建临时意图模式以获得候选意图，其中所述临时意图模式包括查询和上下文字符，上下文字符的应用使得所获得的候选意图的表述能够更加符合用户语言环境的表述习惯，从而提高其可读性/可理解性，而且使得所获得的候选意图能够进一步多样化、更加全面，从而不会遗漏重要的候选意图。

此外，根据本发明的方法还可以使得重要的且易于理解的候选意图常常被排列在前排，使得用户能够更加直观且方便地获知这样的意图，并且抑制不重要的或者不可读的意图在候选意图列表中的出现。

在实际应用中，这些优点对于大小受限的显示设备而言是非常有用的，例如，搜索结果常常局限于搜索引擎所返回的第一页上。

下文将参照图13描述根据本发明的实施方式的用于挖掘意图的处理。图13示出了根据本发明的实施方式的用于挖掘意图的处理的流程图。

在步骤S3601（下文可被称为“接收步骤”）中，接收用户输入的查询。

在步骤S3602（下文可被称为“预获取步骤”）中，基于所接收到的查询来获取第一组候选意图。

在步骤S3603（下文可被称为“构建步骤”）中，对于所述查询构建至少一个临时意图模式（temporary intent schema），其中，所述临时意图模式包括所述查询和上下文字符。

在步骤S3604（下文可被称为“获取步骤”）中，基于构建步骤中所构建的至少一个临时意图模式来获取第二组候选意图。

在步骤S3605（下文可被称为“组合步骤”）中，将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图。

在一种实施方式中，该上下文字符指的是在用户的语言习惯环境下与所输入的查询有关的表述字符，例如查询领域中常用的位于查询之前或者之后的通配符，与所输入的查询相关联的连接字符等，例如功能词，下文以功能词为例进行说明，该功能词为在用户的语言习惯环境下表明一种语法关系的语义很虚的词，例如包含冠词、前置词（preposition）和连词中的至少一个。

上下文字符可以是用户根据个人习惯所预先设定的，优选地，该上下文字符可由意图挖掘系统自动地获得，例如，上下文字符可由意图挖掘系统基于预先设定的意图训练库或者用户搜索历史选择记录或者所述第一组候选意图中的至少一个来获得。继而，基于所获得的上下文字符，可得到所述临时意图模式，下文将对此进行详细描述。

临时意图模式是通过利用上下文字符针对所输入的查询进行挖掘而获得的，并且通常为包含所输入的查询和上下文字符的字符串形式。

优选地，该临时意图模式包含查询、至少一个通配符以及至少一个功能词。这是因为在其中功能词与查询连用的临时意图模式往往更加符合用户语言习惯，从而能够更加适当地构建用户输入的查询的意图。

所述预获取步骤S3602中的过程可采用本领域已知的任何用于获取用户输入的查询的意图的方式被执行，此外，第一组候选意图可被以本领域公知的方式（例如，按照各候选意图的出现频率）进行排序，

而且还可被以本领域公知的方式进行过滤以显示预定数量的候选意图。在此将不对其进行详细描述。

所述获取步骤S3604中的过程也可采用本领域已知的任何用于获取查询的意图的方式被执行，其中所构建的临时意图模式可以被看作等同于要被获取意图的查询。在一种实例中，该获取方式可与前述预获取方式相同。此外，第二组候选意图也可被以本领域公知的方式（例如，按照各候选意图的出现频率）进行排序，而且还可被以本领域公知的方式进行过滤以显示预定数量的候选意图。在此将不对其进行详细描述。

所述组合步骤S3605可以采用多种方式执行。例如，一种简单的方式是将第一组候选意图和第二组候选意图简单地集合在一起，从而获得其数量为第一组候选意图中的候选意图的数量与第二组候选意图中的候选意图的数量之和的候选意图的集合，作为所输入的查询的候选意图。可替代地，所组合得到的候选意图的集合也可被按照预定规则被过滤以获得包含预定数量的候选意图的集合。

此外，组合得到的候选意图的集合也可被以本领域公知的方式（例如，按照各候选意图的出现频率）进行排序。

此外，组合得到的候选意图也可被按照各候选意图的重要性排序，使得重要性高的候选意图能够被置于候选意图列表的前列，从而用户能够更加直观地看到更为重要的候选意图而便于选择和确认。在本申请中，除了出现频率之外，各候选意图的重要性还可通过各候选意图所对应的临时意图模式的覆盖率和置信度来衡量，下文将对此进行详细描述。

优选地，意图模式的覆盖率在此指的是该意图模式对应的第一组候选意图中的候选意图在该第一组候选意图中所占的比例。

在一种实现方式中，意图模式的覆盖率可通过将该意图模式所对应的候选意图的数量除以第一组候选意图中所包含的候选意图的总数而得到的，并且可由下式表示：

优选地，候选意图的置信度是用于衡量该候选意图成为真实意图的可能性，而该可能性优选地对应于该候选意图在数据搜索资源中的出现频率。例如，候选意图在数据搜索资源中的出现频率越高，则该候选意图成为真实意图的可能性越高，则该候选意图的置信度越高。

在一种实现方式中，意图模式的置信度是基于该意图模式所对应的第一组候选意图中的候选意图各自的置信度来计算的。例如，意图模式的置信度是通过对于第一组候选意图中的该意图模式所对应的候选意图各自的置信度进行平均而获得的，如下式所示：

这里的平均是简单的算术平均，但是应指出，这仅是示例性的。该平均还可以是加权平均，例如为各候选意图提供基于其置信度的权重。

此外，基于上述所获得的至少一个临时意图模式所得到的用户候选意图还可通过考虑各候选意图的出现频率以及该候选意图所对应的临时意图模式的覆盖率和置信度被进行排序。例如，出现频率高且其对应的临时意图模式的覆盖率和置信度高的候选意图将被排在候选意图列表的前面的位置。

为了有助于对该实施方式的方法的透彻理解，下文将结合一个示例来描述该方法。

首先，用户输入一个查询“becoming a paralegal”。

然后，针对该输入的查询，进行预获取操作，即初步挖掘所输入的查询的意图以获取该查询的第一组候选意图，如下表10所示。

表10

这些候选意图可通过本领域中常用的方式来获得。

作为示例，在该表中示出了前10个候选意图，这些候选意图是按照各候选意图的出现频率来排序的。应指出所显示的列表仅仅是示例性的，候选意图的数量以及候选意图的排序方式可不限于此。

然后，基于用户输入的查询，构建该查询的临时意图模式，如下表11所示。其中该临时意图模式包含该查询“becoming a paralegal”、连用的功能词以及至少一个通配符，其中该功能词和通配符共同作为上下文字符。

表11

这里，功能词是用户预先设定的。例如，可以是常用的功能词，例如“of”、“at”、“in”、“on”、“for”、“to”、“and”、“or”、“’s”中的任一种，在这里以“to”、“of”、“for”为例，从而由此得到基于查询的临时意图模式集合。

然后，基于该临时意图模式集合中的任一个临时意图模式，来获得该临时意图模式对应的候选意图，并且将对于该临时意图模式集合所获取的候选意图作为第二组候选意图。如下表12所示，

表12

这些候选意图也可通过本领域中常用的获得查询意图的方式来获得。作为示例，在该表中示出了前2个候选意图，这些候选意图是按照各候选意图的出现频率来排序的。当然，第二组候选意图的数量以及候选意图的排序规则可不限于此。

然后，将所得到的第二组候选意图与第一组候选意图进行组合，以获得进一步多样化的候选意图。如下表13所示。

表13

从上述表13可知，在按照出现频率排序的情况下，通过构建临时意图模式来获取的候选意图实际上是出现频率高且可理解性强的候选意图，也就是说，这些意图可能是更加重要的候选意图，而常规的现有技术的方法并没有挖掘出这样的更加重要的候选意图。

从上述示例可知，通过利用上下文字符、尤其是功能词来扩展输入的查询，可以获取更加多样化的候选意图，而不会遗漏掉可能重要的候选意图，使得用户能够获得更希望的搜索结果。而且，这样所获得的候选意图的可读性/可理解性更高。

应注意，上述示例仅仅是说明性的，而不是限制性的。用户输入的查询、上下文字符、该方法所获取的候选意图的数量以及排序方式都不局限于上述示例。

在本发明的一种实施方式中，所述接收步骤还可以包括：解析步骤，对所接收到的查询进行解析以获得所接收到的查询中的各概念；以及位置调整步骤，通过将所获得的各概念进行位置调整，由此生成至少一个重组后的查询；其中，所述预获取步骤基于所述至少一个重组后的查询来获得所述第一组候选意图；且所述构建步骤为所述至少一个重组后的查询构建所述至少一个临时意图模式。

在本发明的一种实施方式中，所述接收步骤还可以包括：过滤步骤，基于第一预定参数来对所生成的至少一个重组后的查询进行过滤，其中，所述预获取步骤基于所述至少一个重组后的查询中的其第一预定参数大于等于第一阈值的查询来获得所述第一组候选意图；且所述构建步骤为所述至少一个重组后的查询中的其第一预定参数大于等于所述第一阈值的查询构建所述至少一个临时意图模式，其中，所述第一预定参数为所述至少一个重组后的查询在数据搜索资源中的出现频率。

在本发明的一种实施方式中，所述构建步骤还可以包括：将所述查询分割成至少一个子查询；对于所述至少一个子查询中的每一个，获得该子查询的至少一个临时意图模式；基于所述至少一个子查询中的每一个的临时意图模式中的每一个与其余子查询的组合，得到该查询的至少一个临时意图模式。

在本发明的一种实施方式中，所述构建步骤还可以包括：基于第二预定参数来对所得到的组合进行过滤以获得所述至少一个临时意图模式，其中，所述至少一个临时意图模式包含所述组合中的其第二预定参数大于等于第二阈值的组合，其中，所述第二预定参数为所得到的组合在数据搜索资源中的出现频率。

在本发明的一种实施方式中，所述获得该子查询的至少一个临时意图模式还可以包括：从意图训练库或者用户搜索历史选择记录中的各数据中提取包含该子查询的最短字符串；对所提取的最短字符串进行泛化以得到该子查询的至少一个临时意图模式，其中，在该最短字符串不包含连接字符的情况下，该最短字符串中的除该子查询之外的其它内容被用通配符替换，在此情况下该上下文字符为通配符；在该最短字符串包含与该子查询紧邻的连接字符的情况下，将该最短字符串中的除该子查询和与该子查询紧邻的连接字符之外的其它内容被用通配符替换，在此情况下该上下文字符为通配符和该连接字符。

在本发明的另一种实施方式中，所述构建步骤还可以包括：从所述第一组候选意图中泛化出至少一个第一意图模式；计算所述至少一个第一意图模式中的各意图模式的覆盖率和置信度；以及确定所述至少一个第一意图模式中的其覆盖率大于等于第三阈值或其置信度大于等于第四阈值的意图模式作为所述至少一个临时意图模式。

在本发明的一种实施方式中，所述泛化步骤还可以包括：对于所述第一组候选意图中的每一个，在该候选意图不包含连接字符的情况下，将该候选意图中的除该查询之外的其它内容用通配符替换，在此情况下该上下文字符为通配符；在该候选意图包含与该查询紧邻的连接字符的情况下，将该意图查询中的除该查询和与该查询紧邻的连接字符之外的其它内容用通配符替换，在此情况下该上下文字符为通配符和该连接字符。

在本发明的再一种实施方式中，所述构建步骤还可以包括：通过对所述第一组候选意图中的每一个进行结构分析来提取至少一个结构模式；计算所述至少一个结构模式中的各结构模式的覆盖率和置信度；以及确定所述至少一个结构模式中的其覆盖率大于等于第五阈值或其置信度大于等于第六阈值的结构模式作为所述至少一个临时意图模式。

根据本发明的实施方式，与用于挖掘意图的方法相对应地，根据本发明的实施方式的图12中的用于挖掘意图的设备2000中的所述候选意图挖掘单元2200可以进一步包括：预获取单元，基于所获取的查询来获取第一组候选意图；构建单元，为所述查询构建至少一个临时意图模式；获取单元，基于所述至少一个临时意图模式来获取第二组候选意图；以及组合单元，将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图；其中，所述临时意图模式包括所述查询和上下文字符。

在一种实施方式中，该预获取单元和获取单元可以是同一获取单元。

在一种实施方式中，图12中的用于挖掘意图的设备2000中的所述查询和意图数量获取单元2100还可以包括：解析单元，被配置用于对所接收到的查询进行解析以获得所接收到的查询中的各概念；以及位置调整单元，被配置用于通过将所获得的各概念进行位置调整，由此生成至少一个重组后的查询；其中，所述预获取单元基于所述至少一个重组后的查询来获得所述第一组候选意图；且所述构建单元为所述至少一个重组后的查询构建所述至少一个临时意图模式。

在一种实施方式中，所述查询和意图数量获取单元2100还可以包括：过滤单元，被配置用于基于第一预定参数来对所生成的至少一个重组后的查询进行过滤，其中，所述预获取单元基于所述至少一个重组后的查询中的其第一预定参数大于等于第一阈值的查询来获得所述第一组候选意图；且所述构建单元为所述至少一个重组后的查询中的其第一预定参数大于等于所述第一阈值的查询构建所述至少一个临时意图模式，其中，所述第一预定参数为所述至少一个重组后的查询在数据搜索资源中的出现频率。

在一种实施方式中，所述构建单元还可以包括：被配置用于将所述查询分割成至少一个子查询的单元；被配置用于对于所述至少一个子查询中的每一个，获得该子查询的至少一个临时意图模式的单元；被配置用于基于所述至少一个子查询中的每一个的临时意图模式中的每一个与其余子查询的组合，得到该查询的至少一个临时意图模式的单元。

在一种实施方式中，所述构建单元还可以包括：被配置用于基于第二预定参数来对所得到的组合进行过滤以获得所述至少一个临时意图模式的单元，其中，所述至少一个临时意图模式包含所述组合中的其第二预定参数大于等于第二阈值的组合，其中，所述第二预定参数为所得到的组合在数据搜索资源中的出现频率。

在一种实施方式中，所述获得该子查询的至少一个临时意图模式的单元还可以包括：被配置用于从意图训练库或者用户搜索历史选择记录中的各数据中提取包含该子查询的最短字符串的单元；被配置用于对所提取的最短字符串进行泛化以得到该子查询的至少一个临时意图模式的单元，其中，在该最短字符串不包含连接字符的情况下，该最短字符串中的除该子查询之外的其它内容被用通配符替换，在此情况下该上下文字符为通配符；在该最短字符串包含与该子查询紧邻的连接字符的情况下，该最短字符串中的除该子查询和与该子查询紧邻的连接字符之外的其它内容被用通配符替换，在此情况下该上下文字符为通配符和该连接字符。

在一种实施方式中，所述构建单元还可以包括：被配置用于从所述第一组候选意图中泛化出至少一个第一意图模式的单元；被配置用于计算所述至少一个第一意图模式中的各意图模式的覆盖率和置信度的单元；以及被配置用于确定所述至少一个第一意图模式中的其覆盖率大于等于第三阈值或其置信度大于等于第四阈值的意图模式作为所述至少一个临时意图模式的单元。

在一种实施方式中，所述泛化单元还可以包括如下单元，该单元被配置用于对于所述第一组候选意图中的每一个，在该候选意图不包含连接字符的情况下，将该候选意图中的除该查询之外的其它内容用通配符替换，在此情况下该上下文字符为通配符；在该候选意图包含与该查询紧邻的连接字符的情况下，将该意图查询中的除该查询和与该查询紧邻的连接字符之外的其它内容用通配符替换，在此情况下该上下文字符为通配符和该连接字符。

在一种实施方式中，所述构建单元还可以包括：被配置用于通过对所述第一组候选意图中的每一个进行结构分析来提取至少一个结构模式的单元；被配置用于计算所述至少一个结构模式中的各结构模式的覆盖率和置信度的单元；以及被配置用于确定所述至少一个结构模式中的其覆盖率大于等于第五阈值或其置信度大于等于第六阈值的结构模式作为所述至少一个临时意图模式的单元。

在一种实施方式中，所述组合单元还可以包括根据各候选意图所对应的临时意图模式的参数来将各候选意图进行排序的单元，其中，所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一个。

[有利效果]

本实施方式的用于挖掘意图的方法在于通过上下文字符针对所输入的查询构建临时意图模式，并且使用该临时意图模式来再次进行意图挖掘。

通过上述处理，能够获得比现有技术所得到的查询的候选意图更加多样化的候选意图，从而能够获得更多的用户意图，而不会遗漏用户输入查询所希望的意图。

而且，上下文字符的应用使得所构建的临时意图模式能够更好地适合于用户语言环境的表达习惯，从而所获得的候选意图的可读性/可理解性提高，这样所获得的候选意图也更有可能是用户所希望的。

下文将参照附图来描述根据本发明的实施方式的对所获得的候选意图进行进一步处理的方法。该实施方式能够与前述实施方式中的至少一个进行组合。例如，能够组合得到如下这样的实施例，即通过本实施方式的方法，基于排他合集对于候选意图进行多样化，再根据前述实施方式的方法基于合计的非重叠率来选择n个意图。例如，也能够组合得到如下这样的实施例，通过前述实施方式的方法获得用户候选意图，然后通过本实施方式的方法，基于排他合集对于候选意图进行多样化，再利用前述实施方式的方法基于合计的非重叠率来挖掘意图。为了简便起见，本实施方式的方法中与其它实施方式相同或者相似的步骤或组件将不再被重复描述。

根据本发明的实施方式，在意图挖掘步骤之后，可以在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。

可以利用各种方式来构建排他合集。

图14示出了构建排他合集的一种示例性方法。

如图14所示，在步骤6310a中，根据候选意图的语义类型来对所挖掘出的至少两个候选意图进行分类，以便得到至少一个候选合集，其中每个候选合集包括至少两个具有相同语义类型的候选意图。

语义类型可以包括概念类型（concept type）、命名实体类型（name entity type）、本体类型（ontology type）和用户定义的类型中的至少一种。例如，对于本体类型，可以采用Freebase来识别和泛化候选意图，从而将具有相同本体类型的候选意图关联到同一个本体集群（ontological cluster）。Freebase是一种结构化数据的在线集合，旨在创建允许人们（和机器）更有效地访问共同信息的全球资源。

作为具体示例，语义类型可以为例如，性别、年龄、时间、等级、布尔值、社会关系和位置等等。全球社会知识源（诸如Freebase）可以提供必要的信息来确定候选意图的语义类型。

下面示例性地示出几个相应语义类型的候选排他合集：

具有性别特征的候选排他合集：{Blue throated hummingbirdfemale,Blue throated hummingbird male}；

具有年龄特征的候选排他合集：{Signs of a heart attack in womenover50,Signs of a heart attack in young women}；

具有时间特征的候选排他合集：{Brooks brothers summerclearance sales,Brooks brothers winter clearance sales}。

然后，在步骤6320a中，根据每个候选合集中的候选意图的语义类型的排他度来识别排他合集。语义类型的排他度可以是针对语义类型手动地预先设定的，或者是基于具有所述语义类型的候选意图来自动地预先计算的。可以通过利用具有相同语义类型的候选意图之间的关系分数来预先计算排他度。具体的排他度的计算方法可以参考后述的结合图18描述的计算候选合集的排他度的方法。排他度一般被设定在0到1之间，排他度的值越大表明候选意图之间的排他性越强。

下面的表14给出了手动地预先设定的语义类型的排他度的一些示例。

语义类型	排他度
		性别	0.9
年龄	0.9
		时间	0.9
等级	0.8
		布尔值	1
…

表14

在一个示例中，可以通过预先定义一个排他度阈值来识别排他合集。如果候选合集对应的语义类型的排他度大于该排他度阈值，则将该候选合集识别为排他合集。例如，可以预先定义排他度阈值为0.7。本领域技术人员应理解，上述方法和数值仅仅是示例性的，本发明的识别排他合集的方法显然不限于此。

为了有助于透彻理解上述的图14的方法，下面将给出一个详细示例来例示该方法。应注意，下面的示例仅仅是说明性的，而不是限制性的。用户的查询、所挖掘出的候选意图及其数量以及排序方式等都不局限于上述示例。

首先，获取用户的查询——“furniture for small spaces”。

然后，挖掘与用户的查询有关的候选意图，如图15所示。

然后，如图16所示，根据候选意图的语义类型来对所挖掘出的候选意图进行分类，从而得到多个候选合集。图16的左边示出的是图15所示的所挖掘出的候选意图，右边示出了候选合集1，该候选合集1中的所有候选意图均具有位置特征。即，候选合集1中的候选意图的语义类型为“位置”。

然后，如图17所示，根据每个候选合集中的候选意图的语义类型的排他度来识别排他合集，其中语义类型的排他度是针对语义类型手动地预先设定的。预先定义排他度阈值为0.7。从图17可以看出，候选合集1的排他度为0.9，大于排他度阈值，因此，可以确定候选合集1为排他合集。

图18示出了构建排他合集的另一种示例性方法。

如图18所示，在步骤6310b中，将所挖掘出的至少两个候选意图划分成多个候选合集，其中每个候选合集包括至少两个候选意图。候选意图可以被任意划分，或者根据系统要求进行特定的划分。例如，在挖掘出如图15所示的与用户的查询“furniture for small spaces”有关的候选意图之后，可以将这些候选意图如图19所示地任意地划分成多个候选合集。

在步骤6320b中，为每个候选合集中的任意两个候选意图构建意图排他性向量，每个意图排他性向量包括两个候选意图和这两个候选意图的关系分数。

可以利用各种方式来获得两个候选意图之间的关系分数。

例如，一种获得关系分数的方法可以包括：分析与用户的查询有关的日志数据；构建与查询、有关用户ID（identifier，标识符）和有关用户点击的意图相关联的数据集；以及基于所述数据集，根据点击了两个候选意图中的至多一个的用户ID的数量来计算这两个候选意图的关系分数，从而构建针对这两个候选意图的意图排他性向量。优选地，所述数据集可以包括用户ID编号、用户提交的查询以及用户点击的搜索结果的主题或URL（Uniform Resource Locator，统一资源定位器）。

在该方法中，在分析日志数据之后，优选地，可以过滤没有排序或点击URL的记录数据（record data），更优选地，还可以过滤重复的记录数据。

优选地，构建的数据集可以包括以下数据：SessionID（用户ID编号）、QUERY（用户提交的查询）、QueryTime（提交查询的时间）、RANK（搜索结果的排序）、UserClickedIntent（用户点击的搜索结果的主题或URL）。下面的表15给出了如此构建的数据集的一个示例。

表15

优选地，在数据集中，所有用户ID的针对用户输入的查询的点击频率不小于2。

例如，可以利用如下的公式（11）来计算两个候选意图之间的关系分数。本领域技术人员应理解，计算关系分数的方式并不限于此。

其中E表示两个候选意图之间的关系分数，“总对话数（totalsession size）”表示数据集中的所有“SessionID”的数量，“有效对话数（valid session size）”表示数据集中的点击了这两个候选意图中的至多一个的SessionID的数量。

表16示出了一个意图排他性向量的示例。

表16

还存在其它各种获得关系分数的方法。

其中一种方法可以包括：获得包含所述查询和所挖掘出的候选意图的用户生成文档（user generated document）；创建与所述用户生成文档、所述查询以及所挖掘出的候选意图中的用户点击过的意图相关联的数据集；以及基于所述数据集，根据与两个候选意图中的至多一个有关的用户生成文档的数量来计算这两个候选意图的关系分数，从而构建针对这两个候选意图的意图排他性向量。用户生成文档可以是例如，微博、博客等。可以用与公式（11）类似的方式基于该数据集来计算两个候选意图的关系分数。本领域技术人员应理解，关系分数的计算方式不受限制。

在另一个示例中，构建意图排他性向量的方法可以包括：获得来自用户查询结果的包括单选按钮（radio button）或下拉列表（dropdown list）的UI（User Interface，用户界面）元素的文本值；以及基于所述文本值来构建意图排他性向量，其中关系分数是手动地预先设定的。

接下来，在图18所示的方法中的步骤6330b中，通过使用所述为每个候选合集中的任意两个候选意图构建的意图排他性向量来计算每个候选合集的排他度。

在一个示例中，可以通过对一个候选合集中的每两个候选意图的关系分数求平均，来得到该候选合集的排他度，如下面公式（12）所示。

其中E_i表示每两个候选意图的关系分数，n反映了该候选合集的大小，即，n表示从该候选合集中任取两个候选意图的所有组合的个数。也就是说，当该候选合集包括m个候选意图（m≥2）时，n=m!/2(m-2)!，其中“!”表示阶乘。图20示出了通过公式（12）计算图19中的“候选合集1432”的排他度的示例。

然而，本领域技术人员显然可知，计算候选合集的排他度的方法并不限于此。例如，还可以根据需要，通过对一个候选合集中的每两个候选意图的关系分数进行加权求平均，来计算该候选合集的排他度。

在步骤6340b中，根据每个候选合集的排他度来识别排他合集。

如上所述，同样地，可以通过预先定义一个排他度阈值来识别排他合集。如果候选合集的排他度大于该排他度阈值，则将该候选合集识别为排他合集。本领域技术人员应理解，上述方法和数值仅仅是示例性的，本发明的识别排他合集的方法显然不限于此。

根据本发明的实施方式，图12中的用于挖掘意图的设备2000可以进一步包括构建单元，所述构建单元在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。

在上述的用于挖掘意图的方法和设备中，可以将排他意图聚到相应的排他合集中，从而有利于用户方便、迅速地选择意图，并且有利于输出更有用的用户意图。因此，可以提高意图召回率。

在一些情况下，在所挖掘出的候选意图之中构建至少一个排他合集之后，可选地，可以利用构建的至少一个排他合集使所挖掘出的候选意图多样化。可以利用各种方式来使候选意图多样化。例如，可以将排他的候选意图合并或者根据用户的信息选择保留仅仅一个排他意图，从而使最终输出的候选意图多样化。

图21－24示意性地示出了一种使候选意图多样化的方法的示例。图21示出了该方法的流程。如图21所示，这种使候选意图多样化的方法可以包括：仅保留排他合集中的一个候选意图（步骤4510），并且将排他合集中的未被保留的其它候选意图从所挖掘出的候选意图中去除，从而使候选意图多样化（步骤4520）。图22的左边示出的是如图15所示的所挖掘出的候选意图，右边示出了利用例如图14或图18所述的方法构建出的排他合集1。如图22所示，仅保留排他合集1中的第一个候选意图，而删除其余的候选意图。在现有技术中，不构建排他合集，因此仅简单地输出前10个候选意图，如图23所示。而在如图22所示那样使得候选意图多样化之后，如图24所示的输出候选意图。

在另一个示例中，可以仅保留排他合集中的一个候选意图，并且将排他合集中的未被保留的其它候选意图在所挖掘出的候选意图中的位次向后移动。例如，在图16所示的候选合集1被识别为排他合集之后，可以仅保持候选合集1中的第一个候选意图（即在所挖掘出的候选意图中排第2位的候选意图）的位次不动，而将候选合集1中的其它候选意图（例如，排第4、7、10位的候选意图）的位次向后移动一个预定位数（例如，10位）。也就是说，最终，候选合集1中的初始排第4、7、10位的候选意图被分别排在了第14、17、20位。这样，降低了排他意图同时输出的概率，使得最终输出的候选意图多样化。

在上述两个示例中，所保留的候选意图可以是指出用户偏好的最可能的候选意图。应理解，所保留的候选意图还可以根据其它条件来选择。

另外，可以寻找一个上位词来代表排他合集，并且用该上位词来代替相应的排他合集。也就是说，将排他合集中的所有候选意图从所挖掘出的候选意图中去除，而保留该上位词作为一个候选意图。一些知识源（例如，WorldNet）可以提供获得排他合集的上位词所需的信息。例如，可使用现有技术中的任意概念词典来获得上位词。可替代地，可以如图25所示地将排他合集中的所有候选意图作为上位词的下拉列表显示。

可替代地，可以将排他合集中的所有候选意图合并成一个候选意图，从而用该合并的候选意图来代替相应的排他合集。相应地，将排他合集中的所有候选意图从所挖掘出的候选意图中去除。可使用现有技术中的任意汇总（summary）方法获得合并的候选意图。例如，对于排他合集{“furniture for small spaces New York”，“furniture forsmall spaces Los Angeles”}，可以将这两个候选意图合并成例如候选意图“furniture for small spaces New York,Los Angeles”，用合并得到的候选意图代替这两个候选意图中位次靠前的那个候选意图，并且将这两个候选意图删除。

通过该实施方式的方法，可以使得输出更多重要且多样化的候选意图，从而能够提高意图召回率。

此外，根据本发明的实施方式，图12中的用于挖掘意图的设备2000可以进一步包括：利用所述至少一个排他合集使所挖掘出的候选意图多样化的单元。

特别指出，在本发明中公开了多种实施方式，这些实施方式中的一种或多种可以任意地相互组合。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

试验测试例

利用根据本发明的方法以及根据现有技术的专利申请US2010/198837中所公开的方法分别针对50个查询进行测试。

表17示出了根据本发明的方法以及根据现有技术的专利申请US2010/198837在I-rec、D-nDCD和D#-nDCD方面的比较。

	现有技术	本发明	改进
				I-rec	0.4094	0.4221	3.10%
D-nDCD	0.8452	0.8476	0.28%
				D#-nDCD	0.6273	0.6348	1.20%

表17

从表17可以看出，相对于现有技术，本发明在I-rec上提高了3.1%，在D#-nDCD上提高了1.2%。

图26示出了这两种方法的测试结果的意图召回率的比较图。从图26中可以看出，根据本发明的方法进行的测试的意图召回率大多数在根据现有技术的专利申请US2010/198837中所公开的方法进行的测试的意图召回率之上。因此，通过本发明的方法能够相对于现有技术获得更高的意图召回率。

图27示出了根据本发明的方法的测试示例的效果。左面一栏是使用现有技术的专利申请US2010/198837中所公开的方法获得的测试结果，右面一栏是使用根据本发明的方法获得的测试结果。在图27中，标记有叉子的候选意图是与视频游戏无关的。通过现有技术的方法，输出guides、story和cheats。相反，通过本发明的方法，guides被过滤掉，而download被选择。因此，可以看出，通过本发明获得了比现有技术更好的输出结果。

虽然已经通过示例对本发明的一些特定实施方式进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施方式进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种用于挖掘意图的方法，包括：

获取查询和要被获得的意图的数量n，其中n为自然数；

针对所输入的查询挖掘一组候选意图；

从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果；以及

基于合计的非重叠率选择n个意图，所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。

2.如权利要求1所述的方法，其中基于合计的非重叠率选择n个意图包括：

针对前n个候选意图计算合计的非重叠率；

产生具有n个候选意图的备选候选意图列表；

针对所述备选候选意图列表中的n个候选意图计算合计的非重叠率；

如果所述备选候选意图列表中的n个候选意图的合计的非重叠率与所述前n个候选意图的合计的非重叠率之间的差大于第一阈值，则使用所述备选候选意图列表更新所述前n个候选意图，其中所述第一阈值大于0；以及

将前n个候选意图作为意图输出。

3.如权利要求1所述的方法，其中基于合计的非重叠率选择n个意图包括：

计算前n个候选意图的第一总分，其中所述第一总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对前n个候选意图所计算的合计的非重叠率计算的；

产生具有n个候选意图的备选候选意图列表；

计算所述备选候选意图列表中的n个候选意图的第二总分，其中所述第二总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对所述备选候选意图列表中的n个候选意图计算的合计的非重叠率计算的；

如果所述第二总分与所述第一总分之差大于第二阈值，则使用所述备选候选意图列表更新所述前n个候选意图，其中所述第二阈值大于0；以及

将前n个候选意图作为意图输出。

4.如权利要求1所述的方法，其中基于合计的非重叠率选择n个意图包括：

基于所计算的合计的非重叠率使用贪婪算法选择n个意图。

5.如权利要求1所述的方法，其中基于合计的非重叠率选择n个意图包括：

基于以下总分使用贪婪算法选择n个意图，所述总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与所计算的合计的非重叠率计算的。

6.如权利要求1-5中任一项所述的方法，其中针对n个候选意图的合计的非重叠率通过以下步骤来计算：

对于每个候选意图，计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量；以及

对于n个候选意图，将非重叠搜索结果的数量求和。

7.如权利要求6所述的方法，其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算：

基于所述和对于n个候选意图的非重叠搜索结果的数量求平均值。

8.如权利要求7所述的方法，其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算：

基于所述平均值对于n个候选意图的的非重叠搜索结果的数量计算标准差。

9.如权利要求6所述的方法，其中对于每个候选意图,计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量进一步包括：

基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性；以及

基于所计算的重要性计算非重叠搜索结果的加权后的数量。

10.如权利要求6所述的方法，其中对于每个候选意图,计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量进一步包括：

计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量；以及

计算非重叠搜索结果的数量与常量a之和相对于重叠搜索结果的数量与常量a之和的比率，其中a大于或等于0。

11.如权利要求10所述的方法，其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量是通过以下步骤计算的：

基于与任意其它n-1个候选意图重叠的次数，计算重叠搜索结果的权重；以及

通过所计算的权重，计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。

12.如权利要求10所述的方法，其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量是通过以下步骤计算的：

基于所计算的重要性计算重叠搜索结果的加权后的数量。

13.如权利要求6所述的方法，其中针对n个候选意图的合计的非重叠率进一步通过以下步骤来计算：

对于每个候选意图，计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量；

对于n个候选意图，将重叠搜索结果的数量求和；以及

计算非重叠搜索结果的数量之和与常量a之和相对于重叠搜索结果的数量之和与常量a之和的比率，其中a大于或等于0。

14.如权利要求13所述的方法，其中与任意其它n-1个候选意图重叠的重叠搜索结果的数量通过以下步骤来计算：

15.如权利要求1所述的方法，其中判断任意两个搜索结果是否重叠包括以下两种处理中的至少一种：

（1）判断这两个搜索结果的URL是否相同；和

（2）判断这两个搜索结果的相似度是否大于第三阈值，其中所述相似度包括文本相似度或基于用户行为的相似度。

16.如权利要求1所述的方法，其中针对所输入的查询挖掘一组候选意图进一步包括：

预获取步骤，基于所获取的查询来获取第一组候选意图；

构建步骤，为所述查询构建至少一个临时意图模式；

获取步骤，基于所述至少一个临时意图模式来获取第二组候选意图；以及

组合步骤，将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图；

其中，所述临时意图模式包括所述查询和上下文字符。

17.如权利要求16所述的方法，其中针对所输入的查询挖掘一组候选意图进一步包括：

根据各候选意图所对应的临时意图模式的参数，来将各候选意图进行排序，其中，所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一个。

18.根据权利要求17所述的方法，其中，所述上下文字符是用户预先设定的，或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。

19.如权利要求16-18中任一项所述的方法，在针对所输入的查询挖掘得到一组候选意图后，所述方法进一步包括：

在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。

20.如权利要求19所述的方法，所述方法进一步包括：

利用所述至少一个排他合集使所挖掘出的候选意图多样化；

其中，所述搜索结果是从至少一个数据搜索资源获取的与所输入的查询和多样化后的候选意图相关的一组搜索结果。

21.如权利要求1-5中任一项所述的方法，在针对所输入的查询挖掘得到一组候选意图后，所述方法进一步包括：

22.如权利要求21所述的方法，所述方法进一步包括：

利用所述至少一个排他合集使所挖掘出的候选意图多样化；

23.一种用于挖掘意图的设备，包括：

查询和意图数量获取单元，获取查询和要被获得的意图的数量n，其中n为自然数；

候选意图挖掘单元，针对所输入的查询挖掘一组候选意图；

搜索结果获取单元，从至少一个数据搜索资源获取与所输入的查询和挖掘出的候选意图相关的一组搜索结果；以及

意图选择单元，基于合计的非重叠率选择n个意图，所述意图选择单元包括合计的非重叠率计算单元，用于针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算所述合计的非重叠率。

24.如权利要求23所述的设备，其中所述意图选择单元进一步包括：

备选候选意图列表产生单元，产生具有n个候选意图的备选候选意图列表，所述合计的非重叠率计算单元针对前n个候选意图计算合计的非重叠率，以及针对所述备选候选意图列表中的n个候选意图计算合计的非重叠率；

更新单元，如果所述备选候选意图列表中的n个候选意图的合计的非重叠率与所述前n个候选意图的合计的非重叠率之间的差大于第一阈值，则使用所述备选候选意图列表更新所述前n个候选意图，其中所述第一阈值大于0；以及

意图输出单元，将前n个候选意图作为意图输出。

25.如权利要求23所述的设备，其中所述意图选择单元进一步包括：

第一总分计算单元，计算前n个候选意图的第一总分，其中所述第一总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对前n个候选意图所计算的合计的非重叠率计算的；

备选候选意图列表产生单元，产生具有n个候选意图的备选候选意图列表；

第二总分计算单元，计算所述备选候选意图列表中的n个候选意图的第二总分，其中所述第二总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对所述备选候选意图列表中的n个候选意图计算的合计的非重叠率计算的；

更新单元，如果所述第二总分与所述第一总分之差大于第二阈值，则使用所述备选候选意图列表更新所述前n个候选意图，其中所述第二阈值大于0；以及

意图输出单元，将前n个候选意图作为意图输出。

26.如权利要求23所述的设备，其中所述意图选择单元包括：

使用贪婪算法的第一选择单元，基于所计算的合计的非重叠率使用贪婪算法选择n个意图。

27.如权利要求23所述的设备，其中所述意图选择单元包括：

使用贪婪算法的第二选择单元，基于以下总分使用贪婪算法选择n个意图，所述总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与所计算的合计的非重叠率计算的。

28.如权利要求23-27中任一项所述的设备，其中所述合计的非重叠率计算单元进一步包括：

数量确定单元，对于每个候选意图，计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量；以及

求和单元，对于n个候选意图，将非重叠搜索结果的数量求和。

29.如权利要求28所述的设备，其中所述合计的非重叠率计算单元进一步包括：

平均值计算单元，基于所述和对于n个候选意图的非重叠搜索结果的数量求平均值。

30.如权利要求29所述的设备，其中所述合计的非重叠率计算单元进一步包括：：

标准差计算单元，基于所述平均值对于n个候选意图的非重叠搜索结果的数量计算标准差。

31.如权利要求28所述的设备，其中所述数量确定单元进一步包括：

重要性确定单元，基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性；以及

加权单元，基于所计算的重要性计算非重叠搜索结果的加权后的数量。

32.如权利要求28所述的设备，其中所述数量确定单元进一步包括：

重叠搜索结果的数量确定单元，计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量；以及

比率确定单元，计算非重叠搜索结果的数量与常量a之和相对于重叠搜索结果的数量与常量a之和的比率，其中a大于或等于0。

33.如权利要求32所述的设备，其中所述重叠搜索结果的数量确定单元进一步包括：

权重确定单元，基于与任意其它n-1个候选意图重叠的次数，计算重叠搜索结果的权重；以及

加权单元，通过所计算的权重，计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。

34.如权利要求32所述的设备，其中所述重叠搜索结果的数量确定单元进一步包括：

加权单元，基于所计算的重要性计算重叠搜索结果的加权后的数量。

35.如权利要求28所述的设备，其中所述合计的非重叠率计算单元进一步包括：

重叠搜索结果数量计算单元，对于每个候选意图，计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量；

求和单元，对于n个候选意图，将重叠搜索结果的数量求和；以及

比率计算单元，计算非重叠搜索结果的数量之和与常量a之和相对于重叠搜索结果的数量之和与常量a之和的比率，其中a大于或等于0。

36.如权利要求35所述的设备，其中所述重叠搜索结果数量计算单元进一步包括：

37.如权利要求23所述的设备，还包括重叠判断单元，判断任意两个搜索结果是否重叠，包括以下两种单元中的至少一种：

（1）URL判断单元，判断这两个搜索结果的URL是否相同；和

（2）相似度判断单元，判断这两个搜索结果的相似度是否大于第三阈值，其中所述相似度包括文本相似度或基于用户行为的相似度。

38.如权利要求23所述的设备，其中所述候选意图挖掘单元进一步包括：

预获取单元，基于所获取的查询来获取第一组候选意图；

构建单元，为所述查询构建至少一个临时意图模式；

获取单元，基于所述至少一个临时意图模式来获取第二组候选意图；以及

组合单元，将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图；

其中，所述临时意图模式包括所述查询和上下文字符。

39.如权利要求38所述的设备，其中所述组合单元进一步包括：

根据各候选意图所对应的临时意图模式的参数，来将各候选意图进行排序的单元，其中，所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一个。

40.根据权利要求39所述的设备，其中，所述上下文字符是用户预先设定的，或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。

41.如权利要求38-40中任一项所述的设备，其中所述设备进一步包括：

在所挖掘出的候选意图之中构建至少一个排他合集的单元，其中每个排他合集包括至少两个相互排他的候选意图。

42.如权利要求41所述的设备，所述设备进一步包括：

利用所述至少一个排他合集使所挖掘出的候选意图多样化的单元。

43.如权利要求23-27中任一项所述的设备，其中，所述设备进一步包括：

44.如权利要求43所述的设备，所述设备进一步包括：