CN103942232A

CN103942232A - 用于挖掘意图的方法和设备

Info

Publication number: CN103942232A
Application number: CN201310026233.4A
Authority: CN
Inventors: 黄耀海; 那森; 胡钦谙; 夏云庆
Original assignee: Tsinghua University; Canon Inc
Current assignee: Tsinghua University; Canon Inc
Priority date: 2013-01-18
Filing date: 2013-01-18
Publication date: 2014-07-23
Anticipated expiration: 2033-01-18
Also published as: CN103942232B

Abstract

本发明提供了用于挖掘意图的方法和设备。该方法包括以下步骤：获取用户的查询；挖掘与所述查询有关的候选意图；以及在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。利用本发明，可以提高意图召回率。

Description

用于挖掘意图的方法和设备

技术领域

本发明涉及数据搜索。特别地，本发明涉及一种用于挖掘意图的方法和设备。更特别地，本发明涉及针对用户提交的搜索查询来挖掘用户意图的方法和设备。

背景技术

目前，互联网正在快速发展，在互联网中常常产生大量的信息（诸如官方公布的科技信息、个人产生的日记或者博客等），并且互联网用户在大量的互联网信息中搜索所希望的信息这一方式已经越来越普遍。为了在海量的互联网数据中找到所希望的信息，信息检索系统（诸如搜索引擎）变得越来越重要。

然而，大多数的依赖现有技术的信息检索系统不足以准确地返回用户希望的搜索结果，这是因为不同用户可能通过使用相同的简短且含糊的查询作为输入来体现不同的意图。

为了帮助用户快速且准确地找到他们所感兴趣的内容，目前已经提出了基于各种自然语言处理和信息检索的对返回结果进行组织的方法。

图2示出了一种典型的用户界面，在该用户界面中显示出了输入的查询、一些被挖掘得到的意图以及对于所选择的意图的搜索结果。利用意图索引来较好地组织搜索结果，这使得用户能够快速且准确地找到他所想要的内容。

一种典型的意图搜索系统可以被如下设计（例如，参见Santos等人的论文（以下称为论文1））：

输入——（简短且含糊的）查询；

输出——（重要并且多样化的）n个最佳意图（例如，n＝10）。

图3示出了一个意图搜索系统的示例。

在这种搜索系统中，期望的是挖掘出重要且多样化的意图，并且输出用户最可能感兴趣的意图。

Xue等人的论文（以下称为论文2）提出了一种挖掘意图的方法，其为在NTCIR-9平台下的最佳系统。NTCIR（NII Test Collection forIR Systems）是一个为所有研究人员提供共同的测试数据从而方便评价各种方法的性能的平台，其具体内容可以参见如下网站：http://research.nii.ac.jp/ntcir/outline/prop-en.html。图4示出了论文2中提出的方法的流程。该方法利用全球资源（例如，搜索引擎、维基百科、查询日志等）来挖掘候选意图，通过诸如意图频率、共同出现频率、点击量数据（click-though data）和编辑距离之类的特征来将候选意图排序，并且最终输出意图列表。

然而，上述方法的意图召回率（Intent recall，I-rec）较低。

下面的表1示出了上述方法的真实状态数据（ground truth）的实验结果。

表1

在表1中，“I-rec”表示意图召回率，即在所获得的意图中，所获得的有用的意图的数量（即，所获得的正确结果）相对于希望获得的那些意图的数量（所有正确结果）的比率，往往用于度量意图的多样化；“D-nDCG”表示意图准确率（Intent precision，往往用于度量意图的整体相关度），“D-nDCG”为多样化的归一化折扣累积增益（Diversified-Normalized Discounted Cumulative Gain），它基于位置计算搜索引擎返回的结果文档列表的相关度；“D#-nDCG”表示“I-rec”和“D-nDCG”的线性组合。关于这些度量的更详细的描述请参见Sakai等人的论文（论文3）以及Sakai和Song的论文（论文4）。

在表1中，I_rec、D-nDCG以及D#-nDCG是基于查询的真实状态数据被确定的，通常是通过将意图挖掘结果与真实状态数据进行比较来计算得到的，这些指标的获得是本领域公知的，因此将不再详细描述。

从表1中可以看出，D-nDCG10已经达到0.845，但是I-rec10仅为0.409，这表明I-rec是该方法的瓶颈。因此，需要提高意图召回率。

图5示出了利用现有技术的方法输出的意图列表的一个示例。从图5中看到，输出了前10个候选意图，其中有四个候选意图（在图5中用五角星标记）与地点有关。然而，通常人们只会选择这四个候选意图中的一个。例如，住在“New York”附近的人总是选择第2个意图，即“furniture for small spaces new york”，而忽略其他三个意图。而住在“Seattle”附近的人总是选择第10个意图，即“furniture forsmall spaces seattle”，而忽略其他三个意图。因此，同时输出这样的四个候选意图会影响意图召回率。

特别是，在考虑到输出有限（例如，仅仅输出前10个候选意图）的情况下，可以过滤将被忽略的候选意图，而留出空间给更多有用的候选意图。这样可以提高意图召回率。

引文列表

论文1：Santos,et al.2011.University of Glasgow at theNTCIR-9 Intent task:Experiments with Terrier on Subtopic Miningand Document Ranking.Proceedings of NTCIR-9 Workshop Meeting，2011,Tokyo

论文2：Xue,et al.2011.THUIR at NTCIR-9 INTENT Task.Proceedings of NTCIR-9 Workshop Meeting，2011,Tokyo

论文3：Sakai,et al.2010.Simple Evaluation Metrics forDiversified Search Results.Proceedings of the3^rd EVIA,2010，Tokyo

论文4：Sakai and Song.2011.Evaluating Diversified SearchResults Using Per-intent Graded Relevance.Proceedings of SIGIR’11,2011,Beijing

发明内容

本发明旨在解决上述问题。本发明的一个目的是提供一种解决上述问题中的任一个的方法和设备。

本发明的一个目的是提高意图召回率。

根据本发明的一个方面，提供了一种用于挖掘意图的方法，其包括以下步骤：A）获取用户的查询；B）挖掘与所述查询有关的候选意图；以及C）在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。

另外，根据本发明的另一个方面，提供了一种用于挖掘意图的设备，其包括：单元A），被配置为获取用户的查询；单元B），被配置为挖掘与所述查询有关的候选意图；以及单元C），被配置为在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。

利用根据本发明的上述方法和设备，可以提高意图召回率。

根据参照附图的以下描述，本发明的其它特性特征和优点将变得清晰。

附图说明

并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例，并且与描述一起用于说明本发明的原理。

图1是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。

图2示出了一个用于基于意图的信息检索系统的用户界面的示例。

图3示出了一个意图搜索系统的示例。

图4示出了论文2中提出的方法的流程。

图5示出了利用现有技术的方法输出的意图列表的一个示例。

图6示出了根据本发明的第一实施例的用于挖掘意图的方法的流程图。

图7示出了构建排他合集的一种示例性方法。

图8示例性地示出了挖掘出的多个候选意图。

图9示例性地示出了获得候选合集的过程。

图10示例性地示出了识别排他合集的过程。

图11示出了构建排他合集的另一种示例性方法。

图12示例性地示出了任意划分的候选合集。

图13示出了计算图12中的“候选合集1432”的排他度的示例。

图14是示出了根据本发明的第一实施例的用于挖掘意图的设备的框图。

图15－18示意性地示出了一种使候选意图多样化的方法的示例。

图19示出了将排他合集中的所有候选意图作为上位词的下拉列表显示的示例。

图20示出了针对召回率的实验结果的分析。

图21示出了根据本发明第三实施例的一个示例的、可应用于图6中的意图挖掘步骤的、用于挖掘与输入的查询有关的候选意图的方法的示例性流程图。

图22是示出根据本发明第四实施例的一个示例的、在第一实施例的图6中的构建步骤被执行之后执行的、用于基于合计的非重叠率来对候选意图进行额外处理的方法的示例性流程图。

图23示出根据本发明第四实施例的搜索结果的全集和各个子集之间的关系。

图24是示出在根据本发明第四实施例的方法中，用于基于合计的非重叠率选择n个意图的示例处理的详细流程图。

图25是示出根据本发明第四实施例的针对n个候选意图计算合计的非重叠率的示例方法的流程图。

图26是示出根据本发明第四实施例的针对n个候选意图计算合计的非重叠率的另一示例方法的流程图。

具体实施方式

下面将参考附图来详细描述本发明的优选的实施例。不是本发明必需的细节和功能被省略，以便不会混淆本发明的理解。

请注意，类似的参考数字和字母指的是图中的类似的项目，因而一旦在一幅图中定义了一个项目，就不需要在之后的图中讨论了。

在本公开中，术语“第一”、“第二”等仅仅被用来在元件或步骤之间进行区分，而并不意图表示时间顺序、优先级或重要性。

为了有助于透彻地并且适当地理解本发明，下文将首先解释本发明的说明书以及权利要求书中所使用的术语。

“意图”指的是用户所输入的简短且含糊的查询所对应的真实希望的意思表示。例如，当用户输入的查询“北京”时，“北京的天气”、“在北京的生活成本”等等都可是用户所输入的该查询的意图。

在很多情况下，用户会在一组候选意图（包括至少两个候选意图）之间进行排他性选择。也就是说，用户总是只会在这一组候选意图之中选择一个候选意图，而忽略其它候选意图。这时，这一组候选意图是相互排他的，在下文中被称为“排他意图”。

例如，当用户输入查询“furniture for small space”时，可以得到如下两个候选意图：“furniture for small spaces New York”、“furniture for small spaces Los Angeles”。很明显这两个候选意图涉及两个不同城市。住在“New York”附近的人总是选择前一个候选意图，而忽略后一个候选意图。然而，住在“Los Angeles”附近的人总是选择后一个候选意图，而忽略前一个候选意图。在这种情况下，这两个候选意图是相互排他的排他意图。

“排他合集”指的是由相互排他的至少两个排他意图构成的合集。例如，在上述例子中，可以构建一个如下的排他合集：{furniturefor small spaces New York”，“furniture for small spaces Los Angeles”}。

“可读性/可理解性”指的是意图的表述更加符合应用环境下的表述习惯，而不仅仅是多个词或短语的简单堆砌。在本申请中，通过利用上下文字符、尤其是连接字符，例如功能词，来扩展用户输入的查询能够获得易于理解的候选意图。

（计算机系统的硬件配置）

图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。

如图1中所示，计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。

系统存储器1130包括ROM（只读存储器）1131和RAM（随机存取存储器）1132。BIOS（基本输入输出系统）1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。

诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。

诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如，软盘1152可以被插入到软盘驱动器1151中，以及CD（光盘）1156可以被插入到CD-ROM驱动器1155中。

诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。

计算机1110可以通过网络接口1170连接到远程计算机1180。例如，网络接口1170可以经由局域网1171连接到远程计算机1180。或者，网络接口1170可以连接到调制解调器（调制器－解调器）1172，以及调制解调器1172经由广域网1173连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘之类的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191。

输出外围接口1195连接到打印机1196和扬声器1197。

图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。

图1所示的计算机系统可以被实施于任何实施例，可作为独立计算机，或者也可作为设备中的处理系统，可以移除一个或更多个不必要的组件，也可以向其添加一个或更多个附加的组件。

（第一实施例）

如图6所示，在获取步骤610中，获取用户的查询。

在意图挖掘步骤620中，挖掘与用户的查询有关的候选意图。可以利用各种本领域已知的方法（例如参见论文2）来挖掘候选意图。

在构建步骤630中，在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。

可以利用各种方式来构建排他合集。

图7示出了构建排他合集的一种示例性方法。

如图7所示，在步骤6310a中，根据候选意图的语义类型来对所挖掘出的至少两个候选意图进行分类，以便得到至少一个候选合集，其中每个候选合集包括至少两个具有相同语义类型的候选意图。

语义类型可以包括概念类型（concept type）、命名实体类型（name entity type）、本体类型（ontology type）和用户定义的类型中的至少一种。例如，对于本体类型，可以采用Freebase来识别和泛化候选意图，从而将具有相同本体类型的候选意图关联到同一个本体集群（ontological cluster）。Freebase是一种结构化数据的在线集合，旨在创建允许人们（和机器）更有效地访问共同信息的全球资源。

作为具体示例，语义类型可以为例如，性别、年龄、时间、等级、布尔值、社会关系和位置等等。全球社会知识源（诸如Freebase）可以提供必要的信息来确定候选意图的语义类型。

下面示例性地示出几个相应语义类型的候选排他合集：

具有性别特征的候选排他合集：{Blue throated hummingbirdfemale，Blue throated hummingbirdmale}；

具有年龄特征的候选排他合集：{Signs of a heart attack in womenover50，Signs of a heart attack in young women}；

具有时间特征的候选排他合集：{Brooks brothers summerclearance sales,Brooks brothers winter clearance sales}。

然后，在步骤6320a中，根据每个候选合集中的候选意图的语义类型的排他度来识别排他合集。语义类型的排他度可以是针对语义类型手动地预先设定的，或者是基于具有所述语义类型的候选意图来自动地预先计算的。可以通过利用具有相同语义类型的候选意图之间的关系分数来预先计算排他度。具体的排他度的计算方法可以参考后述的结合图11描述的计算候选合集的排他度的方法。排他度一般被设定在0到1之间，排他度的值越大表明候选意图之间的排他性越强。

下面的表2给出了手动地预先设定的语义类型的排他度的一些示例。

语义类型	排他度
		性别	0.9
年龄	0.9
		时间	0.9
等级	0.8
		布尔值	1
…

表2

在一个示例中，可以通过预先定义一个排他度阈值来识别排他合集。如果候选合集对应的语义类型的排他度大于该排他度阈值，则将该候选合集识别为排他合集。例如，可以预先定义排他度阈值为0.7。本领域技术人员应理解，上述方法和数值仅仅是示例性的，本发明的识别排他合集的方法显然不限于此。

为了有助于透彻理解上述的图7的方法，下面将给出一个详细示例来例示该方法。应注意，下面的示例仅仅是说明性的，而不是限制性的。用户的查询、所挖掘出的候选意图及其数量以及排序方式等都不局限于上述示例。

首先，获取用户的查询——“furniture for small spaces”。

然后，挖掘与用户的查询有关的候选意图，如图8所示。

然后，如图9所示，根据候选意图的语义类型来对所挖掘出的候选意图进行分类，从而得到多个候选合集。图9的左边示出的是图8所示的所挖掘出的候选意图，右边示出了候选合集1，该候选合集1中的所有候选意图均具有位置特征。即，候选合集1中的候选意图的语义类型为“位置”。

然后，如图10所示，根据每个候选合集中的候选意图的语义类型的排他度来识别排他合集，其中语义类型的排他度是针对语义类型手动地预先设定的。预先定义排他度阈值为0.7。从图10可以看出，候选合集1的排他度为0.9，大于排他度阈值，因此，可以确定候选合集1为排他合集。

图11示出了构建排他合集的另一种示例性方法。

如图11所示，在步骤6310b中，将所挖掘出的至少两个候选意图划分成多个候选合集，其中每个候选合集包括至少两个候选意图。候选意图可以被任意划分，或者根据系统要求进行特定的划分。例如，在挖掘出如图8所示的与用户的查询“furniture for small spaces”有关的候选意图之后，可以将这些候选意图如图12所示地任意地划分成多个候选合集。

在步骤6320b中，为每个候选合集中的任意两个候选意图构建意图排他性向量，每个意图排他性向量包括两个候选意图和这两个候选意图的关系分数。

可以利用各种方式来获得两个候选意图之间的关系分数。

例如，一种获得关系分数的方法可以包括：分析与用户的查询有关的日志数据；构建与查询、有关用户ID（identifier，标识符）和有关用户点击的意图相关联的数据集；以及基于所述数据集，根据点击了两个候选意图中的至多一个的用户ID的数量来计算这两个候选意图的关系分数，从而构建针对这两个候选意图的意图排他性向量。优选地，所述数据集可以包括用户ID编号、用户提交的查询以及用户点击的搜索结果的主题或URL（Uniform Resource Locator，统一资源定位器）。

在该方法中，在分析日志数据之后，优选地，可以过滤没有排序或点击URL的记录数据（record data），更优选地，还可以过滤重复的记录数据。

优选地，构建的数据集可以包括以下数据：SessionID（用户ID编号）、QUERY（用户提交的查询）、QueryTime（提交查询的时间）、RANK（搜索结果的排序）、UserClickedIntent（用户点击的搜索结果的主题或URL）。下面的表3给出了如此构建的数据集的一个示例。

表3

优选地，在数据集中，所有用户ID的针对步骤610中获取的查询的点击频率不小于2。

例如，可以利用如下的公式（1）来计算两个候选意图之间的关系分数。本领域技术人员应理解，计算关系分数的方式并不限于此。

其中E表示两个候选意图之间的关系分数，“总对话数（totalsession size）”表示数据集中的所有“SessionID”的数量，“有效对话数（valid session size）”表示数据集中的点击了这两个候选意图中的至多一个的SessionID的数量。

表4示出了一个意图排他性向量的示例。

表4

还存在其它各种获得关系分数的方法。

其中一种方法可以包括：获得包含所述查询和所挖掘出的候选意图的用户生成文档（user generated document）；创建与所述用户生成文档、所述查询以及所挖掘出的候选意图中的用户点击过的意图相关联的数据集；以及基于所述数据集，根据与两个候选意图中的至多一个有关的用户生成文档的数量来计算这两个候选意图的关系分数，从而构建针对这两个候选意图的意图排他性向量。用户生成文档可以是例如，微博、博客等。可以用与公式（1）类似的方式基于该数据集来计算两个候选意图的关系分数。本领域技术人员应理解，关系分数的计算方式不受限制。

在另一个示例中，构建意图排他性向量的方法可以包括：获得来自用户查询结果的包括单选按钮（radio button）或下拉列表（dropdown list）的UI（User Interface，用户界面）元素的文本值；以及基于所述文本值来构建意图排他性向量，其中关系分数是手动地预先设定的。

接下来，在图11所示的方法中的步骤6330b中，通过使用所述为每个候选合集中的任意两个候选意图构建的意图排他性向量来计算每个候选合集的排他度。

在一个示例中，可以通过对一个候选合集中的每两个候选意图的关系分数求平均，来得到该候选合集的排他度，如下面公式（2）所示。

其中E_i表示每两个候选意图的关系分数，n反映了该候选合集的大小，即，n表示从该候选合集中任取两个候选意图的所有组合的个数。也就是说，当该候选合集包括m个候选意图（m≥2）时，n=m!/2(m-2)!，其中“!”表示阶乘。图13示出了通过公式（2）计算图12中的“候选合集1432”的排他度的示例。

然而，本领域技术人员显然可知，计算候选合集的排他度的方法并不限于此。例如，还可以根据需要，通过对一个候选合集中的每两个候选意图的关系分数进行加权求平均，来计算该候选合集的排他度。

在步骤6340b中，根据每个候选合集的排他度来识别排他合集。

如上所述，同样地，可以通过预先定义一个排他度阈值来识别排他合集。如果候选合集的排他度大于该排他度阈值，则将该候选合集识别为排他合集。本领域技术人员应理解，上述方法和数值仅仅是示例性的，本发明的识别排他合集的方法显然不限于此。

图14示意性地示出了根据本发明的第一实施例的用于挖掘意图的设备的框图。

如图14所示，用于挖掘意图的设备1400包括：获取单元1410、意图挖掘单元1420和构建单元1430。

更具体而言，获取单元1410被配置为获取用户的查询。

意图挖掘单元1420被配置为挖掘与用户的查询有关的候选意图。

构建单元1430被配置为在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。

该设备1400中的各个单元可以被配置为执行图6中的流程图所示出的各个步骤。

在上述的用于挖掘意图的方法和设备中，可以将排他意图聚到相应的排他合集中，从而有利于用户方便、迅速地选择意图，并且有利于输出更有用的用户意图。因此，可以提高意图召回率。

（第二实施例）

在一些情况下，在执行了第一实施例中的步骤630之后，可选地，可以利用构建的至少一个排他合集使所挖掘出的候选意图多样化。可以利用各种方式来使候选意图多样化。例如，可以将排他的候选意图合并或者根据用户的信息选择保留仅仅一个排他意图，从而使最终输出的候选意图多样化。

图15－18示意性地示出了一种使候选意图多样化的方法的示例。图15示出了该方法的流程。如图15所示，这种使候选意图多样化的方法可以包括：仅保留排他合集中的一个候选意图（步骤1510），并且将排他合集中的未被保留的其它候选意图从所挖掘出的候选意图中去除，从而使候选意图多样化（步骤1520）。图16的左边示出的是如图8所示的所挖掘出的候选意图，右边示出了利用第一实施例中的方法构建出的排他合集1。如图16所示，仅保留排他合集1中的第一个候选意图，而删除其余的候选意图。在现有技术中，不构建排他合集，因此仅简单地输出前10个候选意图，如图17所示。而在如图16所示那样使得候选意图多样化之后，如图18所示的输出候选意图。

在另一个示例中，可以仅保留排他合集中的一个候选意图，并且将排他合集中的未被保留的其它候选意图在所挖掘出的候选意图中的位次向后移动。例如，在图9所示的候选合集1被识别为排他合集之后，可以仅保持候选合集1中的第一个候选意图（即在所挖掘出的候选意图中排第2位的候选意图）的位次不动，而将候选合集1中的其它候选意图（例如，排第4、7、10位的候选意图）的位次向后移动一个预定位数（例如，10位）。也就是说，最终，候选合集1中的初始排第4、7、10位的候选意图被分别排在了第14、17、20位。这样，降低了排他意图同时输出的概率，使得最终输出的候选意图多样化。

在上述两个示例中，所保留的候选意图可以是指出用户偏好的最可能的候选意图。应理解，所保留的候选意图还可以根据其它条件来选择。

另外，可以寻找一个上位词来代表排他合集，并且用该上位词来代替相应的排他合集。也就是说，将排他合集中的所有候选意图从所挖掘出的候选意图中去除，而保留该上位词作为一个候选意图。一些知识源（例如，WorldNet）可以提供获得排他合集的上位词所需的信息。例如，可使用现有技术中的任意概念词典来获得上位词。可替代地，可以如图19所示地将排他合集中的所有候选意图作为上位词的下拉列表显示。

可替代地，可以将排他合集中的所有候选意图合并成一个候选意图，从而用该合并的候选意图来代替相应的排他合集。相应地，将排他合集中的所有候选意图从所挖掘出的候选意图中去除。可使用现有技术中的任意汇总（summary）方法获得合并的候选意图。例如，对于排他合集{“furniture for small spaces New York”，“furniture forsmall spaces Los Angeles”}，可以将这两个候选意图合并成例如候选意图“furniture for small spaces New York,Los Angeles”，用合并得到的候选意图代替这两个候选意图中位次靠前的那个候选意图，并且将这两个候选意图删除。

通过第二实施例的方法，可以使得输出更多重要且多样化的候选意图，从而能够提高意图召回率。

（效果）

如从前述内容可以看出的，本发明使得用户能够容易地对排他意图进行单项选择或者能够根据用户信息自动对排他意图进行单项选择，并且使得能够输出更多有用的候选意图。也就是说，本发明能够提高意图召回率。

为了更好地展示本发明的优点，下面比较本发明和现有技术（论文2）的方法的通过实验获得的评价效果的一些度量值。在下面的实验中，本发明采用的方法是第一实施例中的图7所示的构建排他合集的方法与第二实施例中的图15所示的使候选意图多样化的方法的结合。根据本发明的上述描述，本领域技术人员应理解，本发明涵盖的所有其它方法也均能获得类似的效果。

假定用户在信息检索系统中输入查询，并且信息检索系统中将为用户呈现前10个候选意图。利用NTCIR10平台进行测试。

此外，评价方法的效果的度量为如在背景技术中讨论的本领域中公知的I-rec、D-nDCG以及作为I-rec与D-nDCG的简单算术平均数的D#-nDCG。例如下面的公式（3）所示：

D # - nDCG l = \frac{I - rec l + D - nDCG l}{2} - - - (3)

在上式中，I-rec是基于查询的真实状态数据被确定的。

作为示例，在现有技术中，可通过如下方式来获得查询的真实状态数据。例如，真实状态数据可以是人为设定的。再如真实状态数据是由评注者所提供并且由多个人投票产生的（参照NTCIR中的子主题挖掘任务）。具体流程可如下：

●获得由NTCIR提供的采样查询；

●将每次运行所得到的前20个意图进行汇总；

●从候选意图手动地获得集合的意图；

●对所获得的集合中的每个意图进行投票；

●基于票数评估各意图的概率。

下面的表5给出了本发明与现有技术的意图挖掘方法的度量的比较。

	现有技术	本发明	提高程度
				I-rec	0.409	0.444	8.6％
D-nDCG	0.845	0.838	-0.8％
				D#-nDCG	0.627	0.642	2.4％

表5

如表5所示，本发明的方法优于现有技术的方法，其中I-rec度量提高了8.6%，而D#-nDCG度量提高了2.4%。

图20示出了针对召回率的实验结果的分析。从图20可以看出，对于NTCIR10平台中的38%的查询，本发明的I-rec10更高。

（第三实施例）

本实施例涉及对第一实施例中的图6所示出的方法中的意图挖掘步骤620的改进。本实施例的方法能够与前述任一实施例的方法结合。为了简便起见，本实施例中与其它实施例相同或者相似的步骤或组件将不再被重复描述。

现有技术中的方法或者通过直接从查询的搜索结果中按照短语的出现频率的高低来确定候选意图，或者通过查询以及查询的搜索结果中的高覆盖率的关键词的简单组合来确定候选意图，这样的实现往往会遗漏出现频率/覆盖率低但是仍重要的候选意图，而且所获得的候选意图的可读性/可理解性较差。

作为对比，根据本实施例的方法通过为用户输入的查询构建临时意图模式（temporary intent schema）以获得候选意图，其中所述临时意图模式包括查询和上下文字符，上下文字符的应用使得所获得的候选意图的表述能够更加符合用户语言环境的表述习惯，从而提高其可读性/可理解性，而且使得所获得的候选意图能够进一步多样化、更加全面，从而不会遗漏重要的候选意图。

此外，根据本实施例的方法还可以使得重要的且易于理解的候选意图常常被排列在前排，使得用户能够更加直观且方便地获知这样的意图，并且抑制不重要的或者不可读的意图在候选意图列表中的出现。

在实际应用中，这些优点对于大小受限的显示设备而言是非常有用的，例如，搜索结果常常局限于搜索引擎所返回的第一页上。

下文将参照附图来具体描述根据本实施例的对于意图挖掘步骤620的改进的示例性方法。本实施例总体上涉及一种通过利用上下文字符来扩展用户输入的查询以获取候选意图的方法。图21示出了根据本实施例的一个示例的、可应用于图6中的意图挖掘步骤620的、用于挖掘与输入的查询有关的候选意图的方法的示例性流程图。

在步骤2110（下文可被称为“预获取步骤”）中，基于图6中的步骤610中所获取的查询来获取第一组候选意图。

在步骤2120（下文可被称为“构建步骤”）中，对于所述查询构建至少一个临时意图模式，其中，所述临时意图模式包括所述查询和上下文字符。

在步骤2130（下文可被称为“获取步骤”）中，基于构建步骤中所构建的至少一个临时意图模式来获取第二组候选意图。

在步骤2140（下文可被称为“组合步骤”）中，将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图。

该上下文字符指的是在用户的语言习惯环境下与所获取的查询有关的表述字符，例如查询领域中常用的位于查询之前或者之后的通配符，与所获取的查询相关联的连接字符等，例如功能词，下文以功能词为例进行说明，该功能词为在用户的语言习惯环境下表明一种语法关系的语义很虚的词，例如包含冠词、前置词（preposition）和连词中的至少一个。

上下文字符可以是用户根据个人习惯所预先设定的，优选地，该上下文字符可由意图挖掘系统自动地获得，例如，上下文字符可由意图挖掘系统基于预先设定的意图训练库或者用户搜索历史选择记录或者所述第一组候选意图中的至少一个来获得。继而，基于所获得的上下文字符，可得到所述临时意图模式，下文将对此进行详细描述。

临时意图模式是通过利用上下文字符针对所获取的查询进行挖掘而获得的，并且通常为包含所输入的查询和上下文字符的字符串形式。

优选地，该临时意图模式包含查询、至少一个通配符以及至少一个功能词。这是因为在其中功能词与查询连用的临时意图模式往往更加符合用户语言习惯，从而能够更加适当地构建用户输入的查询的意图。

所述预获取步骤中的过程可采用本领域已知的任何用于获取用户输入的查询的意图的方式被执行，此外，第一组候选意图可被以本领域公知的方式（例如，按照各候选意图的出现频率）进行排序，而且还可被以本领域公知的方式进行过滤以显示预定数量的候选意图。在此将不对其进行详细描述。

所述获取步骤中的过程也可采用本领域已知的任何用于获取查询的意图的方式被执行，其中所构建的临时意图模式可以被看作等同于要被获取意图的查询。在一种实例中，该获取方式可与前述预获取方式相同。此外，第二组候选意图也可被以本领域公知的方式（例如，按照各候选意图的出现频率）进行排序，而且还可被以本领域公知的方式进行过滤以显示预定数量的候选意图。在此将不对其进行详细描述。

所述组合步骤可以采用多种方式执行。例如，一种简单的方式是将第一组候选意图和第二组候选意图简单地集合在一起，从而获得其数量为第一组候选意图中的候选意图的数量与第二组候选意图中的候选意图的数量之和的候选意图的集合，作为所输入的查询的候选意图。可替代地，所组合得到的候选意图的集合也可被按照预定规则被过滤以获得包含预定数量的候选意图的集合。

此外，组合得到的候选意图的集合也可被以本领域公知的方式（例如，按照各候选意图的出现频率）进行排序。

此外，组合得到的候选意图也可被按照各候选意图的重要性排序，使得重要性高的候选意图能够被置于候选意图列表的前列，从而用户能够更加直观地看到更为重要的候选意图而便于选择和确认。在本申请中，除了出现频率之外，各候选意图的重要性还可通过各候选意图所对应的临时意图模式的覆盖率和置信度来衡量，下文将对此进行详细描述。

优选地，意图模式的覆盖率在此指的是该意图模式对应的第一组候选意图中的候选意图在该第一组候选意图中所占的比例。

在一种实现方式中，意图模式的覆盖率可通过将该意图模式所对应的候选意图的数量除以第一组候选意图中所包含的候选意图的总数而得到的，并且可由下式表示：

优选地，候选意图的置信度是用于衡量该候选意图成为真实意图的可能性，而该可能性优选地对应于该候选意图在数据搜索资源中的出现频率。例如，候选意图在数据搜索资源中的出现频率越高，则该候选意图成为真实意图的可能性越高，则该候选意图的置信度越高。

在一种实现方式中，意图模式的置信度是基于该意图模式所对应的第一组候选意图中的候选意图各自的置信度来计算的。例如，意图模式的置信度是通过对于第一组候选意图中的该意图模式所对应的候选意图各自的置信度进行平均而获得的，如下式所示：

这里的平均是简单的算术平均，但是应指出，这仅是示例性的。该平均还可以是加权平均，例如为各候选意图提供基于其置信度的权重。

此外，基于上述所获得的至少一个临时意图模式所得到的用户候选意图还可通过考虑各候选意图的出现频率以及该候选意图所对应的临时意图模式的覆盖率和置信度被进行排序。例如，出现频率高且其对应的临时意图模式的覆盖率和置信度高的候选意图将被排在候选意图列表的前面的位置。

在本实施例的一种实现方式中，优选地，所述图6中的步骤610在获取用户的查询后可进一步包括：解析步骤，对所接收到的查询进行解析以获得所接收到的查询中的各概念；以及位置调整步骤，通过将所获得的各概念进行位置调整，由此生成至少一个重组后的查询；其中，所述预获取步骤基于所述至少一个重组后的查询来获得所述第一组候选意图；且所述构建步骤为所述至少一个重组后的查询构建所述至少一个临时意图模式。

在本实施例的一种实现方式中，优选地，所述图6中的步骤610在获取用户的查询后还可进一步包括：过滤步骤，基于第一预定参数来对所生成的至少一个重组后的查询进行过滤，其中，所述预获取步骤基于所述至少一个重组后的查询中的其第一预定参数大于等于第一阈值的查询来获得所述第一组候选意图；且所述构建步骤为所述至少一个重组后的查询中的其第一预定参数大于等于所述第一阈值的查询构建所述至少一个临时意图模式，其中，所述第一预定参数为所述至少一个重组后的查询在数据搜索资源中的出现频率。

在本实施例的一种实现方式中，优选地，所述构建步骤包括：将所述查询分割成至少一个子查询；对于所述至少一个子查询中的每一个，获得该子查询的至少一个临时意图模式；基于所述至少一个子查询中的每一个的临时意图模式中的每一个与其余子查询的组合，得到该查询的至少一个临时意图模式。

更优选地，所述构建步骤还包括：基于第二预定参数来对所得到的组合进行过滤以获得所述至少一个临时意图模式，其中，所述至少一个临时意图模式包含所述组合中的其第二预定参数大于等于第二阈值的组合，其中，所述第二预定参数为所得到的组合在数据搜索资源中的出现频率。

更优选地，所述获得该子查询的至少一个临时意图模式包括：从意图训练库或者用户搜索历史选择记录中的各数据中提取包含该子查询的最短字符串；对所提取的最短字符串进行泛化以得到该子查询的至少一个临时意图模式，其中，在该最短字符串不包含连接字符的情况下，该最短字符串中的除该子查询之外的其它内容被用通配符替换，在此情况下该上下文字符为通配符；在该最短字符串包含与该子查询紧邻的连接字符的情况下，将该最短字符串中的除该子查询和与该子查询紧邻的连接字符之外的其它内容被用通配符替换，在此情况下该上下文字符为通配符和该连接字符。

在本实施例的另一种实现方式中，优选地，所述构建步骤包括：从所述第一组候选意图中泛化出至少一个第一意图模式；计算所述至少一个第一意图模式中的各意图模式的覆盖率和置信度；以及确定所述至少一个第一意图模式中的其覆盖率大于等于第三阈值或其置信度大于等于第四阈值的意图模式作为所述至少一个临时意图模式。

更优选地，所述泛化步骤包括：对于所述第一组候选意图中的每一个：在该候选意图不包含连接字符的情况下，将该候选意图中的除该查询之外的其它内容用通配符替换，在此情况下该上下文字符为通配符；在该候选意图包含与该查询紧邻的连接字符的情况下，将该意图查询中的除该查询和与该查询紧邻的连接字符之外的其它内容用通配符替换，在此情况下该上下文字符为通配符和该连接字符。

在本实施例的再一种实现方式中，优选地，所述构建步骤包括：通过对所述第一组候选意图中的每一个进行结构分析来提取至少一个结构模式；计算所述至少一个结构模式中的各结构模式的覆盖率和置信度；以及确定所述至少一个结构模式中的其覆盖率大于等于第五阈值或其置信度大于等于第六阈值的结构模式作为所述至少一个临时意图模式。

为了有助于对本实施例的方法的透彻理解，下文将结合一个示例来描述该方法。

首先，用户输入一个查询“becoming a paralegal”。

然后，针对该输入的查询，进行预获取操作，即初步挖掘所输入的查询的意图以获取该查询的第一组候选意图，如下面表6所示。

表6

这些候选意图可通过本领域中常用的方式来获得。

作为示例，在该表中示出了前10个候选意图，这些候选意图是按照各候选意图的出现频率来排序的。应指出所显示的列表仅仅是示例性的，候选意图的数量以及候选意图的排序方式可不限于此。

然后，基于用户输入的查询，构建该查询的临时意图模式，如下表7所示。其中该临时意图模式包含该查询“becoming a paralegal”、连用的功能词以及至少一个通配符，其中该功能词和通配符共同作为上下文字符。

表7

这里，功能词是用户预先设定的。例如，可以是常用的功能词，例如“of”、“at”、“in”、“on”、“for”、“to”、“and”、“or”、“’s”中的任一种，在这里以“to”、“of”、“for”为例，从而由此得到基于查询的临时意图模式集合。

然后，基于该临时意图模式集合中的任一个临时意图模式，来获得该临时意图模式对应的候选意图，并且将对于该临时意图模式集合所获取的候选意图作为第二组候选意图。如下表8所示，

表8

这些候选意图也可通过本领域中常用的获得查询意图的方式来获得。作为示例，在该表中示出了前2个候选意图，这些候选意图是按照各候选意图的出现频率来排序的。当然，第二组候选意图的数量以及候选意图的排序规则可不限于此。

然后，将所得到的第二组候选意图与第一组候选意图进行组合，以获得进一步多样化的候选意图。如下表9所示。

表9

从上述表9可知，在按照出现频率排序的情况下，通过构建临时意图模式来获取的候选意图实际上是出现频率高且可理解性强的候选意图，也就是说，这些意图可能是更加重要的候选意图，而常规的现有技术的方法并没有挖掘出这样的更加重要的候选意图。

从上述示例可知，通过利用上下文字符、尤其是功能词来扩展输入的查询，可以获取更加多样化的候选意图，而不会遗漏掉可能重要的候选意图，使得用户能够获得更希望的搜索结果。而且，这样所获得的候选意图的可读性/可理解性更高。

应注意，上述示例仅仅是说明性的，而不是限制性的。用户输入的查询、上下文字符、该方法所获取的候选意图的数量以及排序方式都不局限于上述示例。

本实施例还可以被应用于第一实施例中描述的用于挖掘意图的设备1400中的意图挖掘单元1420。

根据本实施例的意图挖掘单元1420可包括被配置为基于所获取的查询来获取第一组候选意图的预获取单元、被配置用于为所述查询构建至少一个临时意图模式的构建单元、被配置为基于通过所述构建单元构建的至少一个临时意图模式来获取第二组候选意图的获取单元、以及被配置为将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图的组合单元，其中所述临时意图模式包括所述查询和上下文字符。

在一种示例中，该预获取单元和获取单元可以是同一获取单元。

[有利效果]

本实施例的方法在于通过上下文字符针对所输入的查询构建临时意图模式，并且使用该临时意图模式来再次进行意图挖掘。

通过上述处理，能够获得比现有技术所得到的查询的候选意图更加多样化的候选意图，从而能够获得更多的用户意图，而不会遗漏用户输入查询所希望的意图。

而且，上下文字符的应用使得所构建的临时意图模式能够更好地适合于用户语言环境的表达习惯，从而所获得的候选意图的可读性/可理解性提高，这样所获得的候选意图也更有可能是用户所希望的。

（第四实施例）

在第一实施例中的图6所示出的方法中的构建步骤630被执行之后可以对候选意图进行额外的处理，以进一步提高意图召回率。本实施例讨论了一种额外的处理的过程。本实施例的方法能够与前述任一实施例的方法结合。而且特别地，能够将本实施例的方法与第一实施例的构建排他合集的方法和第三实施例的意图挖掘方法全部结合来使用，以进一步提高意图挖掘的性能。为了简便起见，本实施例中与其它实施例相同或者相似的步骤或组件将不再被重复描述。

图22是示出根据本实施例的一个示例的、在第一实施例的图6中的构建步骤630被执行之后执行的、用于基于合计的非重叠率来对候选意图进行额外处理的方法的示例性流程图。为了有助于对根据本实施例的方法的透彻理解，下文将结合一个示例来描述该方法。

如图22所示，在步骤2210中，获取要被获得的意图的数量n，其中n是自然数。此时已经在图6中的步骤610中获取用户的查询。例如，可以获得用户所输入的查询“the beatles：rock band”，其中“the beatles：rock band”是一个音乐视频游戏的名称。另外，假定要被获得的意图的数量为2。要被获得的意图的数量可以通过用户输入获得，也可以基于用户偏好或预先的系统设置确定。例如，可以基于屏幕的尺寸来确定要被获得的意图的数量。

此时，已经通过第一实施例的意图挖掘步骤620和构建步骤630以及可选地第二实施例的候选意图多样化步骤，获得了一组候选意图。如表10所示，针对所获得的查询“the beatles：rock band”，例如获得了三个候选意图。

候选意图
	the beatles:rock band guides
the beatles:rock band cheats
	the beatles:rock band story

表10

在步骤2220，针对所获取的查询，对数据搜索资源进行搜索，获取与查询和已获得的一组候选意图相关的一组搜索结果。数据搜索资源能够提供关于查询的附加信息。其可以是查询日志、文集（corpus）、或网络资源等。所述数据搜索资源可以包括文本和/或多媒体资源。所述数据搜索资源可以没有标签，或者被手动或自动地标有标签。标签可以是术语、概念或义项（sense）等。而且，可选地，标签可以具有权重。另选地和/或附加地，其它数据搜索源也可以使用。另选地和/或附加地，可以使用搜索引擎进行搜索结果的获取。如果通过该方法或系统返回大量的搜索结果，可以可选地对这些搜索结果进行采样。

对于查询“the beatles：rock band”，例如表11所示，从数据搜索资源中返回了10个URL。在这些URL中，当搜索“the beatles:rockband story”时，返回3个URL，即第5、6、7个URL，当搜索“thebeatles:rock band guides”时，返回8个URL，即第1-8个URL,当搜索“the beatles:rock band cheats”时，返回5个URL，即第1-4和第10个URL。

表11

对于根据本实施例的方法的示例，搜索结果的全集和各个子集之间的关系在图23中示出。具体而言，以针对所输入的查询“the beatles:rock band”从搜索引擎返回的搜索结果作为全集。与候选意图“thebeatles:rock band story”、“the beatles:rock band guides”、“thebeatles:rock band cheats”相关的搜索结果分别是该全集的子集。图23示出了搜索结果的全集和各个子集之间的关系。如图23所示，全集包括10个搜索结果，由整个圆表示。而针对候选意图的搜索结果所覆盖的区域表示为阴影区域。

方法继续前进到步骤2230，在步骤2230中，基于合计的非重叠率选择n个意图，所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。

假定意图集合∏包括一组意图，即∏＝{I₁,I₂,…,I_Ω}，搜索结果的合集为其中被意图I_υ覆盖的搜索结果集合为通过比较搜索结果集合，可以对进行以下划分

\hat{R} = {\hat{R}}_{unique} \cup {\hat{R}}_{common} - - - (6)

其中，表示仅由一个意图覆盖的搜索结果，表示被两个或更多个意图所覆盖的搜索结果。

根据本实施例的方法的示例性目标函数为：

\underset{i : {1, . . ., l}}{\arg \max} (Σ_{k = 1}^{n} | intent candidat e_{i} - \cup_{j = 1, i &NotEqual; j}^{n} intent candid {ate}_{j} |) - - - (7)

其中，l代表候选意图的总数，n代表要输出的候选意图的数量，m=1，…,n，表示已选择的候选意图的数量，函数|A-B|表示在集合A中但不在集合B中的元素的数量。

上述目标函数表明，在每一轮的选择新候选意图的过程中，总是选择具有最大的合计的非重叠覆盖的候选意图。这是因为，通过研究，本发明的发明人认识到非重叠覆盖是多样性的指示。在本实施例中，计算各个候选意图与每个已经选择的候选意图的非重叠区域，并且将所得到的非重叠区域积累，作为评价候选意图的度量。

另选地和/或附加地，在本实施例的一种实施方式中，在基于合计的非重叠率对候选意图进行排序时，可以首先对候选意图进行排序。例如，可以基于所返回的搜索结果的数量对各候选意图进行排序。排序结果如表12所示。即，“the beatles:rock band guides”排在第一位，“the beatles:rock band cheats”排在第二位，而“the beatles:rock bandstory”排在第三位。

编号	候选意图的初始排序
		1	the beatles:rock band guides
2	the beatles:rock band cheats
		3	the beatles:rock band story

表12

下面，参考图24对于基于合计的非重叠率选择n个意图的示例处理进行详细说明。

图24是示出在根据本实施例的方法中，用于基于合计的非重叠率选择n个意图的示例处理的详细流程图。

首先，在步骤410，针对n个候选意图计算合计的非重叠率。

图25是示出根据本实施例的针对n个候选意图计算合计的非重叠率的示例方法的流程图，在该示例方法中，针对n个候选意图，将非重叠搜索结果的数量求和。具体地说，在步骤411，获取候选意图的列表，其具有n个候选意图。然后，在步骤412，对于n个候选意图中的每一个候选意图，计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量。例如，在图22的方法的说明性示例中，n=2，因此前两个候选意图为“guides”和“cheats”。对于“guides”的八个搜索结果中有四个不与“cheats”的搜索结果共享。对于“cheats”的五个搜索结果中有一个不与“guides”的搜索结果共享。

另选地和/或附加地，对于n个候选意图中的每一个候选意图，可以基于与候选意图相关的搜索结果的重要性对所述非重叠搜索结果的数量进行加权，作为非重叠搜索结果的数量。所述重要性可以基于搜索结果的排序、与搜索结果相关的候选意图的排序、或者在查询日志中记录的用户点击的数量等进行计算。本领域技术人员能够理解，一般情况下，搜索结果的排名越高，或者与搜索结果相关的候选意图的排名越高，或者用户点击的数量越多，加权后的数量就越大。毋庸置疑，可以另选地和/或附加地采用其它加权方案。

此外，另选地和/或附加地，对于n个候选意图中的每一个候选意图，还可以通过计算与其它n-1个候选意图重叠的重叠搜索结果的数量；然后计算非重叠搜索结果的数量与常量a之和相对于重叠搜索结果的数量与常量a之和的比率，作为非重叠搜索结果的数量，其中a大于或等于0。之所以引入常量a，是考虑到重叠搜索结果的数量可能为零，为了避免分母为零而进行的处理。

另选地和/或附加地，对于n个候选意图中的每一个候选意图，与任意其它n-1个候选意图重叠的重叠搜索结果的数量可以基于与任意其它n-1个候选意图重叠的次数进行加权。即，基于与任意其它n-1个候选意图重叠的次数，计算重叠搜索结果的权重；以及通过所计算的权重，计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。

另选地和/或附加地，对于n个候选意图中的每一个候选意图，可以基于与候选意图相关的搜索结果的重要性对所述重叠搜索结果的数量进行加权。所述重要性可以基于搜索结果的排序、与搜索结果相关的候选意图的排序、或者在查询日志中记录的用户点击的数量等进行计算。本领域技术人员能够理解，一般情况下，搜索结果的排名越高，或者与搜索结果相关的候选意图的排名越高，或者用户点击的数量越多，加权后的数量就越大。毋庸置疑，可以另选地和/或附加地采用其它加权方案。

在步骤413中，针对n个候选意图，将非重叠搜索结果的数量求和。对于图22的方法的说明性示例，对于前两个候选意图“guides”和“cheats”，在仅仅考虑非重叠搜索结果的数量的情况下，和是5。

然后，在步骤414中，将所求得的和作为合计的非重叠率输出。因此，在上述示例中，合计的非重叠率为5。

图26是示出根据本实施例的针对n个候选意图计算合计的非重叠率的另一示例方法的流程图，在该方法中，针对n个候选意图，计算非重叠搜索结果的数量的平均值和标准差。

具体地说，在步骤415，获取候选意图的列表，其具有n个候选意图。然后，在步骤416，对于n个候选意图中的每一个候选意图，计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量。然后，在步骤417中，针对n个候选意图，将非重叠搜索结果的数量求和。然后，在步骤418中，针对n个候选意图，计算非重叠搜索结果的数量的平均值。另选地和/或附加地，在步骤419中，针对n个候选意图，基于所计算的平均值计算非重叠搜索结果的数量的标准差。可以将非重叠搜索结果的数量的平均值、或者将非重叠搜索结果的数量的标准差的相反数、或者将非重叠搜索结果的数量的标准差的倒数作为合计的非重叠率。另选地和/或附加地，在步骤420中，针对n个候选意图，计算非重叠搜索结果的数量的平均值与非重叠搜索结果的数量的标准差之间的差值，并且将所述差值作为合计的非重叠率。最后，在步骤421，输出合计的非重叠率。之所以采用这种方法计算合计的非重叠率，是因为本发明的发明人认识到：非重叠搜索结果的数量的平均值越大，搜索结果的多样性就越高；非重叠搜索结果的数量的标准差越小，非重叠搜索结果的数量相同并且多样化的可能性就越大。

此外，另选地和/或附加地，针对n个候选意图，还可以通过计算每个候选意图与其它n-1个候选意图重叠的重叠搜索结果的数量；然后对于n个候选意图，将重叠搜索结果的数量求和；然后计算非重叠搜索结果的数量之和与常量a之和相对于重叠搜索结果的数量之和与常量a之和的比率，作为合计的非重叠率，其中a大于或等于0。之所以引入常量a之和，是考虑到重叠搜索结果的数量可能为零，为了避免分母为零而进行的处理。

另选地和/或附加地，判断任意两个搜索结果是否重叠包括以下两种处理中的至少一种：（1）判断这两个搜索结果的URL是否相同；和（2）判断这两个搜索结果的相似度是否大于一个阈值，其中所述相似度包括文本相似度或基于用户行为的相似度。此外，文本相似度可以通过基于术语的向量（term-based vector）或基于义项的向量（sense-based vector）获得。

下面，返回参照图24的流程图。在步骤420，基于合计的非重叠率和针对n个候选意图的其它度量来计算n个候选意图的总分。所述其它度量可以是候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等。其中，候选意图之间的相似度可以是候选意图之间的文本相似度（textual similarity）、时间相似度（temporal similarity）、人口统计相似度（demographical similarity）。例如，针对相关度，基于以下公式获得该n个候选意图的总分：

α×[aggregated non-overlapping ratio]+(1-α)×relevance （8）

其中，α为用户设定的参数，0<α<1。

接下来，在步骤430中，基于所计算的总分，通过以下公式获得所希望的前n个意图。

Max(α×aggregated non-overlapping ratio+(1-α)×relevance) （9）

即，选取总分高的n个意图的组。

本领域技术人员能够理解，对于候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等其它度量，也可以进行类似的操作。此外，也可以考虑候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度等中的多个因素进行操作。

本实施例还可以被应用于第一实施例中描述的用于挖掘意图的设备1400。也就是说，用于挖掘意图的设备1400还可以包括根据本实施例的用于对候选意图进行额外处理的若干单元。

根据本实施例的一个方面，用于挖掘意图的设备1400还可以包括：意图数量获取单元、搜索结果获取单元、以及意图选择单元。所述意图数量获取单元获取要被获得的意图的数量n，其中n为自然数。所述搜索结果获取单元从至少一个数据搜索资源获取与所获取的查询和先前得到的（经过排他合集构建处理和可选地多样化处理后的）候选意图相关的一组搜索结果。所述意图选择单元基于合计的非重叠率选择n个意图，所述意图选择单元包括合计的非重叠率计算单元，该计算单元被配置用于针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算所述合计的非重叠率。

根据本实施例的一种实施方式，所述意图选择单元可以进一步包括：备选候选意图列表产生单元、更新单元、以及意图输出单元。所述备选候选意图列表产生单元产生具有n个候选意图的备选候选意图列表。所述合计的非重叠率计算单元针对前n个候选意图计算合计的非重叠率，以及针对所述备选候选意图列表中的n个候选意图计算合计的非重叠率。所述更新单元在所述备选候选意图列表中的n个候选意图的合计的非重叠率与所述前n个候选意图的合计的非重叠率之间的差大于第一阈值的情况下，使用所述备选候选意图列表更新所述前n个候选意图，其中所述第一阈值大于0。所述意图输出单元将前n个候选意图作为意图输出。

根据本实施例的一种实施方式，所述意图选择单元可以进一步包括：第一总分计算单元、备选候选意图列表产生单元、第二总分计算单元、更新单元以及意图输出单元。所述第一总分计算单元计算前n个候选意图的第一总分，其中所述第一总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对前n个候选意图所计算的合计的非重叠率计算的。所述备选候选意图列表产生单元产生具有n个候选意图的备选候选意图列表。所述第二总分计算单元计算所述备选候选意图列表中的n个候选意图的第二总分，其中所述第二总分是基于候选意图与查询的相关度、候选意图的流行度、与候选意图相关的搜索结果的信息丰富程度及候选意图之间的相似度中的至少一个、与针对所述备选候选意图列表中的n个候选意图计算的合计的非重叠率计算的。所述更新单元在所述第二总分与所述第一总分之差大于第二阈值的情况下使用所述备选候选意图列表更新所述前n个候选意图，其中所述第二阈值大于0。所述意图输出单元将前n个候选意图作为意图输出。

根据本实施例的一种实施方式，所述合计的非重叠率计算单元可以进一步包括：数量确定单元以及求和单元。所述数量确定单元对于每个候选意图，计算不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量。所述求和单元对于n个候选意图，将非重叠搜索结果的数量求和。

另选地和/或附加地根据本实施例的一种实施方式，所述合计的非重叠率计算单元可以进一步包括平均值计算单元。所述平均值计算单元基于所述求和单元计算出的和对于n个候选意图的非重叠搜索结果的数量求平均值。

根据本实施例的一种实施方式，所述合计的非重叠率计算单元可以进一步包括标准差计算单元。所述标准差计算单元基于所述平均值计算单元计算出的平均值对于n个候选意图的非重叠搜索结果的数量计算标准差。

根据本实施例的一种实施方式，所述数量确定单元可以进一步包括重要性确定单元和加权单元。所述重要性确定单元基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性。所述加权单元基于所计算的重要性计算非重叠搜索结果的加权后的数量。

根据本实施例的一种实施方式，所述数量确定单元可以进一步包括重叠搜索结果的数量确定单元和比率确定单元。所述重叠搜索结果的数量确定单元计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量。所述比率确定单元计算非重叠搜索结果的数量与常量a之和相对于重叠搜索结果的数量与常量a之和的比率，其中a大于或等于0。

根据本实施例的一种实施方式，所述重叠搜索结果的数量确定单元可以进一步包括权重确定单元和加权单元。所述权重确定单元基于与任意其它n-1个候选意图重叠的次数，计算重叠搜索结果的权重。所述加权单元通过所计算的权重，计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。

根据本实施例的一种实施方式，所述重叠搜索结果的数量确定单元可以进一步包括重要性确定单元和加权单元。所述重要性确定单元基于搜索结果的排序、与搜索结果相关的候选意图的排序和查询日志中的用户点击数量中的至少一个计算搜索结果的重要性。所述加权单元基于所计算的重要性计算重叠搜索结果的加权后的数量。

根据本实施例的一种实施方式，所述合计的非重叠率计算单元可以进一步包括：重叠搜索结果数量计算单元、求和单元、以及比率计算单元。所述重叠搜索结果数量计算单元对于每个候选意图，计算与任意其它n-1个候选意图重叠的重叠搜索结果的数量。所述求和单元对于n个候选意图，将重叠搜索结果的数量求和。所述比率计算单元计算非重叠搜索结果的数量之和与常量a之和相对于重叠搜索结果的数量之和与常量a之和的比率，其中a大于或等于0。

根据本实施例的一种实施方式，所述重叠搜索结果数量计算单元可以进一步包括权重确定单元以及加权单元。所述权重确定单元基于与任意其它n-1个候选意图重叠的次数，计算重叠搜索结果的权重。所述加权单元通过所计算的权重，计算与任意其它n-1个候选意图重叠的重叠搜索结果的加权后的数量。

根据本实施例的一种实施方式，用于挖掘意图的设备1400还可以包括重叠判断单元。所述重叠判断单元判断搜索结果是否重叠，包括URL判断单元和相似度判断单元中的至少一种。所述URL判断单元判断搜索结果的URL是否相同。所述相似度判断单元判断搜索结果的相似度是否大于一个阈值，其中所述相似度包括文本相似度或基于用户行为的相似度。

以上描述的所有单元是用于实施本公开中描述的处理的示例性和/或优选的模块。这些单元可以是硬件单元（诸如现场可编程门阵列（FPGA）、数字信号处理器或专用集成电路等）和/或软件模块（诸如计算机可读程序）。以上并未详尽地描述用于实施各个步骤的单元。然而，只要有执行某个处理的步骤，就可以有用于实施同一处理的对应的功能模块或单元（由硬件和/或软件实施）。通过所描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都被包括在本申请的公开内容中，只要它们构成的这些技术方案是完整并且可应用的。

可以通过许多方式来实施本发明的方法和设备。例如，可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的，本发明的方法步骤不限于以上具体描述的次序，除非以其它方式明确说明。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，其包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解，上述实施例可以在不脱离本发明的范围和实质的情况下被修改。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种用于挖掘意图的方法，包括以下步骤：

A）获取用户的查询；

B）挖掘与所述查询有关的候选意图；以及

C）在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。

2.根据权利要求1所述的方法，其中，所述步骤C）包括以下步骤：

C11）根据候选意图的语义类型来对所挖掘出的至少两个候选意图进行分类，以便得到至少一个候选合集，其中每个候选合集包括至少两个具有相同语义类型的候选意图；以及

C12）根据每个候选合集中的候选意图的语义类型的排他度来识别排他合集。

3.根据权利要求2所述的方法，其中，所述语义类型的排他度是针对语义类型手动地预先设定的。

4.根据权利要求2所述的方法，其中，所述语义类型的排他度是基于具有所述语义类型的候选意图来自动地预先计算的。

5.根据权利要求2所述的方法，其中，所述语义类型包括概念类型、命名实体类型、本体类型和用户定义的类型中的至少一种。

6.根据权利要求1所述的方法，其中，所述步骤C）包括以下步骤：

C21）将所挖掘出的至少两个候选意图划分成多个候选合集，其中每个候选合集包括至少两个候选意图；

C22）为每个候选合集中的任意两个候选意图构建意图排他性向量，每个意图排他性向量包括两个候选意图和这两个候选意图的关系分数；

C23）通过使用所述为每个候选合集中的任意两个候选意图构建的意图排他性向量来计算每个候选合集的排他度；以及

C24）根据每个候选合集的排他度来识别排他合集。

7.根据权利要求6所述的方法，其中，所述步骤C22）包括以下步骤：

C2211）分析与用户的查询有关的日志数据；

C2212）构建与查询、有关用户ID和有关用户点击的意图相关联的数据集；以及

C2213）基于所述数据集，根据点击了两个候选意图中的至多一个的用户ID的数量来计算这两个候选意图的关系分数，从而构建针对这两个候选意图的意图排他性向量。

8.根据权利要求7所述的方法，其中，在所述数据集中，所有用户ID的针对所述查询的点击频率不小于2；以及

其中所述数据集包括用户ID编号、用户提交的查询以及用户点击的搜索结果的主题或URL。

9.根据权利要求6所述的方法，其中，所述步骤C22）包括以下步骤：

C2221）获得包含所述查询和所挖掘出的候选意图的用户生成文档；

C2222）创建与所述用户生成文档、所述查询以及所挖掘出的候选意图中的用户点击过的意图相关联的数据集；以及

C2223）基于所述数据集，根据与两个候选意图中的至多一个有关的用户生成文档的数量来计算这两个候选意图的关系分数，从而构建针对这两个候选意图的意图排他性向量。

10.根据权利要求6所述的方法，其中，所述步骤C22）包括以下步骤：

C2231）获得来自用户查询结果的包括单选按钮或下拉列表的UI元素的文本值；以及

C2232）基于所述文本值来构建意图排他性向量，其中关系分数是手动地预先设定的。

11.根据权利要求1－10中的任一项所述的方法，还包括以下步骤：

D）利用所述至少一个排他合集使所挖掘出的候选意图多样化。

12.根据权利要求11所述的方法，其中，所述步骤D）包括以下步骤：

D11）仅保留排他合集中的一个候选意图；以及

D12）将排他合集中的未被保留的其它候选意图从所挖掘出的候选意图中去除。

13.根据权利要求11所述的方法，其中，所述步骤D）包括以下步骤：

D21）仅保留排他合集中的一个候选意图；以及

D22）将排他合集中的未被保留的其它候选意图在所挖掘出的候选意图中的次序向后移动。

14.根据权利要求12或13所述的方法，其中，所保留的候选意图是指出用户的偏好的最可能的候选意图。

15.根据权利要求11所述的方法，其中，所述步骤D）包括以下步骤：

D31）保留代表排他合集的上位词来代替相应的排他合集；以及

D32）将排他合集中的所有候选意图从所挖掘出的候选意图中去除。

16.根据权利要求11所述的方法，其中，所述步骤D）包括以下步骤：

D41）保留代表排他合集的合并的候选意图来代替相应的排他合集；以及

D42）将排他合集中的所有候选意图从所挖掘出的候选意图中去除。

17.根据权利要求1所述的方法，其中，所述步骤B）包括以下步骤：

B11）基于所述查询来获取第一组候选意图；

B12）为所述查询构建至少一个临时意图模式；

B13）基于所述至少一个临时意图模式来获取第二组候选意图；以及

B14）将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图；

其中所述临时意图模式包括所述查询和上下文字符。

18.根据权利要求17所述的方法，其中，所述步骤B14）包括以下步骤：

B141）根据各候选意图所对应的临时意图模式的参数，来将各候选意图进行排序，

其中，所述临时意图模式的参数包含所述临时意图模式的置信度和覆盖率中的至少一个。

19.根据权利要求17所述的方法，其中，所述上下文字符是用户预先设定的，或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。

20.根据权利要求11所述的方法，还包括以下步骤：

E）获取要被获得的意图的数量n，其中n为自然数；

F）从至少一个数据搜索资源获取与所述查询以及多样化后的候选意图相关的一组搜索结果；以及

G）基于合计的非重叠率选择n个意图，所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。

21.根据权利要求1、17至19中的任意一个所述的方法，还包括以下步骤：

E）获取要被获得的意图的数量n，其中n为自然数；

F）从至少一个数据搜索资源获取与所述查询和所获得的所述查询的候选意图相关的一组搜索结果；以及

22.一种用于挖掘意图的设备，包括：

单元A），被配置为获取用户的查询；

单元B），被配置为挖掘与所述查询有关的候选意图；以及

单元C），被配置为在所挖掘出的候选意图之中构建至少一个排他合集，其中每个排他合集包括至少两个相互排他的候选意图。

23.根据权利要求22所述的设备，其中，所述单元C）包括：

单元C11），被配置为根据候选意图的语义类型来对所挖掘出的至少两个候选意图进行分类，以便得到至少一个候选合集，其中每个候选合集包括至少两个具有相同语义类型的候选意图；以及

单元C12），被配置为根据每个候选合集中的候选意图的语义类型的排他度来识别排他合集。

24.根据权利要求23所述的设备，其中，所述语义类型的排他度是针对语义类型手动地预先设定的。

25.根据权利要求23所述的设备，其中，所述语义类型的排他度是基于具有所述语义类型的候选意图来自动地预先计算的。

26.根据权利要求23所述的设备，其中，所述语义类型包括概念类型、命名实体类型、本体类型和用户定义的类型中的至少一种。

27.根据权利要求22所述的设备，其中，所述单元C）包括：

单元C21），被配置为将所挖掘出的至少两个候选意图划分成多个候选合集，其中每个候选合集包括至少两个候选意图；

单元C22），被配置为为每个候选合集中的任意两个候选意图构建意图排他性向量，每个意图排他性向量包括两个候选意图和这两个候选意图的关系分数；

单元C23），被配置为通过使用所述为每个候选合集中的任意两个候选意图构建的意图排他性向量来计算每个候选合集的排他度；以及

单元C24），被配置为根据每个候选合集的排他度来识别排他合集。

28.根据权利要求27所述的设备，其中，所述单元C22）包括：

单元C2211），被配置为分析与用户的查询有关的日志数据；

单元C2212），被配置为构建与查询、有关用户ID和有关用户点击的意图相关联的数据集；以及

单元C2213），被配置为基于所述数据集，根据点击了两个候选意图中的至多一个的用户ID的数量来计算这两个候选意图的关系分数，从而构建针对这两个候选意图的意图排他性向量。

29.根据权利要求28所述的设备，其中，在所述数据集中，所有用户ID的针对所述查询的点击频率不小于2；以及

30.根据权利要求27所述的设备，其中，所述单元C22）包括：

单元C2221），被配置为获得包含所述查询和所挖掘出的候选意图的用户生成文档；

单元C2222），被配置为创建与所述用户生成文档、所述查询以及所挖掘出的候选意图中的用户点击过的意图相关联的数据集；以及

单元C2223），被配置为基于所述数据集，根据与两个候选意图中的至多一个有关的用户生成文档的数量来计算这两个候选意图的关系分数，从而构建针对这两个候选意图的意图排他性向量。

31.根据权利要求27所述的设备，其中，所述单元C22）包括：

单元C2231），被配置为获得来自用户查询结果的包括单选按钮或下拉列表的UI元素的文本值；以及

单元C2232），被配置为基于所述文本值来构建意图排他性向量，其中关系分数是手动地预先设定的。

32.根据权利要求22－31中的任一项所述的设备，还包括：

单元D），被配置为利用所述至少一个排他合集使所挖掘出的候选意图多样化。

33.根据权利要求32所述的设备，其中，所述单元D）包括：

单元D11），被配置为仅保留排他合集中的一个候选意图；以及

单元D12），被配置为将排他合集中的未被保留的其它候选意图从所挖掘出的候选意图中去除。

34.根据权利要求32所述的设备，其中，所述单元D）包括：

单元D21），被配置为仅保留排他合集中的一个候选意图；以及

单元D22），被配置为将排他合集中的未被保留的其它候选意图在所挖掘出的候选意图中的次序向后移动。

35.根据权利要求33或34所述的设备，其中，所保留的候选意图是指出用户的偏好的最可能的候选意图。

36.根据权利要求32所述的设备，其中，所述单元D）包括：

单元D31），被配置为保留代表排他合集的上位词来代替相应的排他合集；以及

单元D32），被配置为将排他合集中的所有候选意图从所挖掘出的候选意图中去除。

37.根据权利要求32所述的设备，其中，所述单元D）包括：

单元D41），被配置为保留代表排他合集的合并的候选意图来代替相应的排他合集；以及

单元D42），被配置为将排他合集中的所有候选意图从所挖掘出的候选意图中去除。

38.根据权利要求22所述的设备，其中，所述单元B）包括：

单元B11），被配置为基于所述查询来获取第一组候选意图；

单元B12），被配置用于为所述查询构建至少一个临时意图模式；

单元B13），被配置为基于所述至少一个临时意图模式来获取第二组候选意图；以及

单元B14），被配置为将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图；

其中所述临时意图模式包括所述查询和上下文字符。

39.根据权利要求38所述的设备，其中，所述单元B14）包括：

单元B141），被配置为根据各候选意图所对应的临时意图模式的参数，来将各候选意图进行排序，

40.根据权利要求38所述的设备，其中，所述上下文字符是用户预先设定的，或者是从意图训练库、用户历史选择记录和所述第一组候选意图中的至少一个中获取的。

41.根据权利要求32所述的设备，还包括：

单元E），被配置为获取要被获得的意图的数量n，其中n为自然数；

单元F），被配置为从至少一个数据搜索资源获取与所述查询以及多样化后的候选意图相关的一组搜索结果；以及

单元G），被配置为基于合计的非重叠率选择n个意图，所述合计的非重叠率是针对n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1个候选意图重叠的非重叠搜索结果的数量计算的。

42.根据权利要求22、38至40中的任意一个所述的设备，还包括：

单元F），被配置为从至少一个数据搜索资源获取与所述查询和所获得的所述查询的候选意图相关的一组搜索结果；以及