CN104298676A

CN104298676A - 主题挖掘方法和设备、以及查询扩展方法和设备

Info

Publication number: CN104298676A
Application number: CN201310301260.8A
Authority: CN
Inventors: 黄耀海; 张碧川; 李荣军; 王钊
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-07-18
Filing date: 2013-07-18
Publication date: 2015-01-21

Abstract

本发明涉及主题挖掘方法和设备及查询扩展方法和设备。该主题挖掘方法包括：从知识库中获取多个句子；将至少一个句子转换为由多模因素的一个模式、条件及多值属性的一个值构成的条件三元组形式的第一断言声明；针对第一断言声明产生多模因素和多值属性分别与第一断言声明的条件三元组中的相同而多值属性的值不同的条件三元组形式的假设；计算每个假设的置信度并提取出置信度大于预定第一阈值的假设作为第二断言声明；将第一和第二断言声明组合以获得从多值属性到多模因素的映射，并且验证该映射是否是满射；在映射是满射的情况下，输出表示多值属性是多模因素的前提的前提断言对主题。得益于本发明，可以挖掘出隐含的用户查询主题从而提高召回率。

Description

主题挖掘方法和设备、以及查询扩展方法和设备

技术领域

本发明涉及文本挖掘技术，特别地涉及从较大的文本数据库中发掘隐含的用户查询主题的主题挖掘方法，即挖掘出某些没有直接文字记载但是可能作为用户查询的答案的用户查询主题。

背景技术

如今使用的机电装置的功能变得越来越多，并且这些机电装置通常能支持许多个性化的功能。以多功能打印机（MFP）为例，其将复印、打印、扫描、传真和远程操作功能结合在一起，以便满足大多数人的需求。这些强大的装置极大地便利了专业用户，但是通常会给缺乏经验的用户带来麻烦，这是因为功能强大的装置往往带来复杂的操作，从而使得用户不知道如何使用该装置或者不能找出必要的信息来操作该装置。

鉴于这种情形，已经提出了一种对话辅助系统（dialogue assistsystem），其使得用户能够找出用于操作机电装置的相关信息。用户通过使用语言或文本来向该系统输入查询，该系统预测用户的意图，并且引导用户操作装置。

美国专利No.US7,774,198提出了一种用于通过向用户输入的查询分层地添加短语来生成主题的方法。该专利认为用其它方法针对用户输入的查询生成的短语不一定有意义，因此其使用已经存在的文本串并且通过确定文本串中的各个单元之间的句法关系来生成主题。这个机制使得所生成的主题必须已经存在于知识库中，并且其内容被限制为包含用户输入的查询中的至少一个表达。这个专利提出了通过向原始主题添加词语或短语来产生新的优化的查询主题的方法，所产生的新的优化的查询主题与预定义的依存关系匹配。

发明内容

然而，本申请的发明人发现，现有技术的召回率（匹配用户意图）较低，这是因为现有技术只能挖掘出直接存在于知识库中的主题，而无法挖掘出很多隐含的用户期望的主题。

通过深入研究分析，本申请的发明人发现，在真实状态数据（ground truth）中，除了现有技术（例如上述美国专利）能挖掘出的主题（即，如美国专利No.US7,774,198中公开的由知识库中已经存在的句子中的组块（chunk）之间的依存链接构成的语言上依存主题）之外，还存在一类数量较多的主题，即，用于帮助用户改变配置以实现目标功能的针对查询的推荐主题（下文中将命名为“前提断言对主题（premises assertion pair topic）”），其中在该功能的有效性与一多值属性的值之间存在前提映射。图1示出了本申请的发明人作出的实验结果，其例示了真实状态数据中的各种类型主题的比例。该真实状态数据是通过如下操作而获得的：从一个MFP手册随机选择十个功能名作为用户输入查询，并且针对每个查询由人工收集尽可能多的在该MFP手册中有答案的问题，然后人工对所收集的问题进行投票，并且去除那些不重要的问题，从而得到真实状态数据。最后，分析真实状态数据中的这些主题的类型及其比例。从图1可以看出，前提断言对主题在真实状态数据中占据20.11%的较大比例（请注意，这并非大量统计得出的平均数据，而仅仅是出于例示的目的给出）。

因此，需要一种能够挖掘出前提断言对主题的主题挖掘方法和设备，并且可以将该主题挖掘方法和设备应用于查询扩展方法和设备。

根据本发明的一个方面，为了解决上述技术问题，本发明提供一种主题挖掘方法，其包括：获取步骤，从至少一个知识库中获取多个句子；转换步骤，将所获取的句子中的至少一个转换为条件三元组（condition triple form）形式的第一断言声明（assertion statement），其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属性的一个值构成；产生步骤，针对第一断言声明产生条件三元组形式的假设，其中所产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值属性相同，所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值；计算步骤，通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度，并且从所述假设中提取出一个或更多个假设作为第二断言声明，其中每个第二断言声明的置信度大于预定的第一阈值；组合步骤，将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素的映射（mapping），并且验证所述映射是否是满射（surjection）；以及输出步骤，在从所述多值属性到所述多模因素的映射是满射的情况下，输出表示所述多值属性是所述多模因素的前提的前提断言对主题。

根据本发明的另一方面，为了解决上述技术问题，本发明提供一种查询扩展方法，其包括：接收自然语言形式的用户输入的查询；在至少一个知识库中检索基于所述查询的结果；如上所述的主题挖掘方法，从所述结果中挖掘出主题；获取基于所挖掘出的主题的查询。

根据本发明的另一方面，本发明提供一种主题挖掘设备，其包括：获取部件，被配置为从至少一个知识库中获取多个句子；转换部件，被配置为将所获取的句子中的至少一个转换为条件三元组形式的第一断言声明，其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属性的一个值构成；产生部件，被配置为针对第一断言声明产生条件三元组形式的假设，其中所产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值属性相同，所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值；计算部件，被配置为通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度，并且从所述假设中提取出一个或更多个假设作为第二断言声明，其中每个第二断言声明的置信度大于预定的第一阈值；组合部件，被配置为将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素的映射，并且验证所述映射是否是满射；以及输出部件，被配置为在从所述多值属性到所述多模因素的映射是满射的情况下，输出表示所述多值属性是所述多模因素的前提的前提断言对主题。

根据本发明的另一方面，本发明提供一种查询扩展设备，其包括：接收部件，被配置为接收自然语言形式的用户输入的查询；检索部件，被配置为在至少一个知识库中检索基于所述查询的结果；如上所述的主题挖掘设备，被配置为从所述结果中挖掘出主题；获取部件，被配置为获取基于所挖掘出的主题的查询。

如上所述，本发明提供了用于挖掘出前提断言对主题的主题挖掘方法和设备。利用本发明的方法和设备，可以挖掘出隐含的用户查询主题，从而提高召回率。

根据参照附图的以下描述，本发明的其它特性特征和优点将变得清晰。

附图说明

并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例，并且与描述一起用于说明本发明的原理。

图1例示了真实状态数据中的各种类型主题的比例。

图2是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。

图3是示出了根据本发明的第一实施例的主题挖掘方法的流程图。

图4A、图4B和图4C例示了多模因素的各个模式与多值属性的各个值之间形成的条件三元组。

图5是示出了根据本发明的第一实施例的主题挖掘设备的框图。

图6是示出了根据本发明的第二实施例的主题挖掘方法的流程图。

图7A示例性地示出了组块之间的句法依存关系。

图7B示例性地示出了作为语言上依存主题的由组块之间的链接组成的操作句子。

图8是示出了根据本发明一个实施例的查询扩展方法的流程图。

图9是示出了根据本发明一个实施例的查询扩展设备的框图。

图10示意性地例示了应用有根据本发明的一个示例性实施例的查询扩展方法的对话辅助系统的用户界面。

具体实施方式

下面将参考附图来详细描述本发明的优选的实施例。不是本发明必需的细节和功能被省略，以便不会混淆本发明的理解。

请注意，类似的参考数字和字母指的是图中的类似的项目，因而一旦在一幅图中定义了一个项目，就不需要在之后的图中讨论了。

在本公开中，术语“第一”、“第二”等仅仅被用来在元件或步骤之间进行区分，而并不意图表示时间顺序、优先级或重要性。

（计算机系统的硬件配置）

图2是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。

如图2中所示，计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。

系统存储器1130包括ROM（只读存储器）1131和RAM（随机存取存储器）1132。BIOS（基本输入输出系统）1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。

诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。

诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如，软盘1152可以被插入到软盘驱动器1151中，以及CD（光盘）1156可以被插入到CD-ROM驱动器1155中。

诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。

计算机1110可以通过网络接口1170连接到远程计算机1180。例如，网络接口1170可以经由局域网1171连接到远程计算机1180。或者，网络接口1170可以连接到调制解调器（调制器－解调器）1172，以及调制解调器1172经由广域网1173连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘之类的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191。

输出外围接口1195连接到打印机1196和扬声器1197。

图2所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。

图2所示的计算机系统可以被实施于任何实施例，可作为独立计算机，或者也可作为设备中的处理系统，可以移除一个或更多个不必要的组件，也可以向其添加一个或更多个附加的组件。

（主题挖掘方法和主题挖掘设备）

[第一实施例]

如图3所示，在获取步骤310中，从至少一个知识库中获取多个句子。可以以本领域已知的任何方式来从知识库中获取句子，以供后续处理。

例如，在该主题挖掘方法被应用于查询扩展方法的情况下，可以首先接收例如用户输入的自然语言形式的查询作为输入，然后在所述至少一个知识库中检索与所述查询匹配的句子。其中所述检索方法可以是本领域已知的任何方法，例如可以是全文检索方法、命名实体识别（Named Entity Recognition，NER）方法或关系抽取（RelationExtraction，RE）方法。

以MFP为例，用户输入了一个查询，例如，作为MFP的操作的“调节图像质量”。然后例如使用搜索引擎来从至少一个知识库（例如该MFP的操作手册或网络资源）中检索出例如5个相关的句子，如下面的表1所示。

表1

在另一种实施方式中，所述获取步骤310可以包括：接收所述至少一个知识库作为输入；遍历所述至少一个知识库，并且获取所述至少一个知识库中的至少一个文本片段；以及在所述至少一个知识库中检索与所述至少一个文本片段匹配的句子。

上述的知识库可以包括如下中的至少一个：计算机可读的文本文档、以及计算机可读的领域本体（domain ontology）。如本领域技术人员能理解的，本方法可以利用的知识库不限于此。

接下来，在转换步骤320中，将所获取的句子中的至少一个转换为条件三元组形式的第一断言声明，其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属性的一个值构成。为了简单直观起见，可以如下地表示条件三元组：

多模因素（所涉及的模式），条件，多值属性（所涉及的值）。

在本文中提及的“条件三元组”表示的是多值属性的一个值可以作为实现多模因素的一个模式的条件并且表示出它们之间的具体的条件关系。

例如，表1中的第一个句子是一个明显的条件语句，即，“如果[PDF(Trace&Smooth)]为'ON'，则图像质量水平设定是无效的”。而且从该句子中可以看出，图像质量水平设定存在多个模式（例如，“无效”、“有效”），[PDF(Trace&Smooth)]存在多个值（例如，'ON'，'OFF'），因此，该句子可以被转换为如下所述的条件三元组：图像质量水平设定的有效性（无效）,必要条件(“如果”),[PDF(Trace&Smooth)](“ON”)

当然，本领域技术人员均能理解，条件三元组中的“条件”并不限于“如果”这种条件关系，还可以包括例如“操作顺序”等。

在一种实施方式中，对于所获取的句子中的至少一个，所述转换步骤320可以具体包括如下操作：提取所获取的句子中的特定实体，所述特定实体至少包括值和模式；识别所述至少一个知识库中的与所述模式对应的多模因素和与所述值对应的多值属性；以及将所获取的句子转换为所识别出的多模因素和所识别出的多值属性的条件三元组；其中通过如下步骤来识别所述至少一个知识库中的与所述模式对应的多模因素和与所述值对应的多值属性：从所述至少一个知识库中提取与所述模式对应的因素、以及与所述值对应的属性；以及从所述至少一个知识库中识别与所述因素对应的其它模式、以及与所述属性对应的其它值，以确定多模因素和多值属性。

以表1中的句子为例来说明转换的具体操作。

首先，例如可以单独地或结合地使用功能列表和NER模块来识别句子中的功能，例如，两个类似的功能“图像质量水平设定”和“调节图像质量”。

然后，例如可以单独地或结合地使用属性列表和NER模块来识别包括所识别出的功能的句子中的属性和值。例如，从表1中的第一个句子中可以识别出1个属性和1个值，如下面的表2所示。属性是用户可以改变以用于不同功能或输出的装置，其可以是按钮、选择框、或其它。

表2

基于所识别出的属性和值之间的关系可以判断所识别出的属性中的哪些属性是多值属性。如果两个或更多个值实体与同一个属性有关，则该属性可以被识别为多值属性。如果从句子中仅仅提取出一个值实体与一个属性有关，则可以从知识库中提取信息，如果从知识库中找到另外不同的一个或更多个值与这个属性有关，则该属性可以被识别为多值属性。可以单独地或结合地使用属性列表和RE模块来进行上述识别。下面的表3示出了一个多值属性的示例：

多值属性
	属性1：[PDF(Trace&Smooth)]
值：‘ON’,‘OFF’

表3

类似地，可以识别出多模因素（例如，某一功能的有效性）。可以例如额外使用一组与功能的有效性有关的关键字（诸如，“有效”、“无效”、“启用”和“禁用”等）来识别多模因素。例如，可以通过使用因素列表、NER模块、和/或该组关键字来从表1中的第一个句子中识别出1个因素和1个模式，如下面的表4所示。

表4

与上述关于多值属性所描述的类似，基于所识别出的模式和因素之间的关系可以判断所识别出的因素中的哪些因素是多模因素。或者，可以仅通过知识库中与模式相关的信息或该组关键字来判断与该模式关联的因素是否为多模因素。例如，表4中示出的模式为“无效”，而从例如该组关键字可以看出，模式“无效”自然地存在与其相对的模式，即模式“有效”，也就是说，与模式“无效”关联的因素“图像质量水平设定”自然具有两个模式，即“无效”和“有效”，如下面的表5所示。

多模因素
	因素1：图像质量水平设定
模式：无效，有效

表5

然后，可以把包含多模因素和多值属性的句子转换为条件三元组。可以使用例如句法分析器基于一组模板来分析该句子中体现出的条件关系。例如，如上所述，表1中的第一个句子可以被转换为如下所述的条件三元组：

图像质量水平设定的有效性（无效）,必要条件(“如果”),[PDF(Trace&Smooth)](“ON”)

接下来，在产生步骤330中，针对第一断言声明产生条件三元组形式的假设，其中所产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值属性相同，所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值。

也就是说，把第一断言声明的条件三元组中的多模因素的各个模式与多值属性的除了第一断言声明中的值以外的各个值分别形成的条件三元组列出作为产生的假设。

图4A以表格形式简单明了地示出了一个二模功能（即，功能有效性，对应于多模因素）和多值属性所能形成的所有条件三元组，包括第一断言声明的条件三元组以及所产生的假设的条件三元组。如图4A所示，图4A中的标记“√”对应于从所获取的句子中产生的关于模式（无效）和值（v1）的第一断言声明的条件三元组。由于多个模式即“有效”和“无效”是互斥的，因此，关于模式（有效）和值（v1）的条件三元组必然是不成立的，即假的（False），如图4A中的标记所表示的。对于多值属性A的其它值v2、v3等，分别针对各个模式产生对应的一组假设，如第1组假设（h11，h12）、第2组假设（h21，h22）等。具体的条件三元组形式的假设被列出在下面的表6中：

第一断言声明
	有效性(无效),必要条件(“如果”),[属性A](“v1”)
对应的假设
	h11：有效性(有效),必要条件(“如果”),[属性A](“v2”)
h12：有效性(无效),必要条件(“如果”),[属性A](“v2”)
	h21：有效性(有效),必要条件(“如果”),[属性A](“v3”)
h22：有效性(无效),必要条件(“如果”),[属性A](“v3”)
	……

表6

具体以表1中的第一个句子为例，如图4B所示，标记“√”对应于第一断言声明，所产生的假设如下：

图像质量水平设定的有效性（有效）,必要条件(“如果”),[PDF(Trace&Smooth)](“OFF”)

图像质量水平设定的有效性（无效）,必要条件(“如果”),[PDF(Trace&Smooth)](“OFF”)

接下来，在计算步骤340中，通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度，并且从所述假设中提取出一个或更多个假设作为第二断言声明，其中每个第二断言声明的置信度大于预定的第一阈值，其中该第一阈值可根据用户经验或实验测试获得。

当假设的置信度大于预定的第一阈值时，可以认为该假设是真的（True），从而把该假设作为第二断言声明。

在一个实施方式中，所述计算步骤340可以包括：从所述至少一个知识库中提取所述假设的条件三元组的证据；以及根据所提取的证据来计算与每个假设关联的置信度。

该证据可以是一组条件三元组形式的断言声明和/或一组包含多模因素和多值属性的操作序列。可替代地和/或额外地，可以使用其它结构的数据。例如，该证据可以包括如下中的至少一个：从无结构的文本片段中提取的语言模板以及指定的权重；从无结构的文本片段中提取的共同出现的频率以及指定的权重；从本体中提取的多模因素与多值属性之间的关系以及指定的权重；多模因素与多值属性的词汇元素（lexical elements）以及指定的权重。

例如，在该证据是条件三元组形式的断言声明的情况下，在该条件三元组形式的证据与假设相同时，与该假设关联的置信度被设为1，在相反时，置信度被设为－1，而在与假设没有关系时，置信度被设为0。例如，在该证据是一组操作序列的情况下，在证据与假设中的对应功能相同或者该证据包括假设中的功能时，与该假设关联的置信度被设为1，在证据中的功能与假设中的功能冲突时，置信度被设为－1，而在无法识别出两个功能之间的关系时，置信度被设为0。可以从知识库（例如，MFP手册中不同功能的说明书章节的组合）中搜索两个功能之间的关系。在该证据为其它结构的数据的情况下，可以使用其它相应的方法来计算置信度，例如使用语言模板、共同出现频率来计算置信度。在一种示例中，还可以基于各种结构的证据的置信度来计算最终的置信度。例如，可以为每种结构的证据的置信度指定一个权重，再把各个置信度加权求和来得到最终的置信度。

将上述计算得到的置信度与预定的第一阈值进行比较，在该置信度大于预定的第一阈值的情况下，表示该假设被验证为真的，因此把该假设作为第二断言声明。

以表1中的第一个句子为例，如图4C所示，相对于图4B增加的标记“√”对应于经验证为真的假设，即第二断言声明：

虽然上述示例中的多值属性的值和多模因素的模式的数量均为两个，但是本领域技术人员能理解，本发明并不限于此，而是可以应用于具有多于两个的值的多值属性和具有多于两个的模式的多模因素。

接下来，在组合步骤350中，将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素的映射，并且验证所述映射是否是满射。

在本文中的“满射”指的是，在所有断言声明之中，多模因素的每个模式都能在多值属性的多个值中找到与其对应的值。也就是说，第一断言声明和第二断言声明的组合包含了分别对应于多模因素的每个模式的断言声明。如果多值属性到多模因素的映射为满射，则意味着该多值属性为该多模因素的前提。

以表1中的第一个句子为例，如上所述，第一断言声明和第二断言声明的组合如下：

从上可以看出，多模因素的每个模式（即“有效”和“无效”）都被包含于上述第一断言声明和第二断言声明的组合中，因此，该示例的从多值属性[PDF(Trace&Smooth)]到多模因素“图像质量水平设定的有效性”的映射为满射。

然而，由于在计算步骤340中通过预设的阈值来判断假设是否为真，这存在误判的可能性，因此，为了谨慎起见，在一种实施方式中，所述组合步骤350还可以计算把该映射判定为满射的风险，以便在风险较高时进行一些补救。例如，在该风险超出一定阈值时，在稍后将描述的输出步骤360中将进行一些相应操作。

为了计算该风险，所述组合步骤350还可以包括：基于所产生的假设的个数及其置信度来计算验证为是满射的映射的关联风险。例如可以利用如下的公式来计算上述的关联风险：

Risk=N²·(1-min(Ci))，或

Risk=N²·(1-avg(Ci))

上式中，“Risk”表示验证为是满射的映射的关联风险，“N”表示所产生的假设的个数,“Ci”(i=1,2,…,N)表示各个假设的置信度，“min(Ci)”表示Ci中的最小值，“avg(Ci)”表示Ci的平均值。

可替代地和/或额外地，所述组合步骤350还可以包括：基于所述第一断言声明中的多模因素的影响值来计算验证为是满射的映射的关联风险。

例如，可以通过计算与该多模因素关联的功能的影响值来计算风险。计算该功能的影响值的一种方法基于该功能在操作序列的树形分支结构上的位置。操作序列的树形分支结构是要操作的装置的所有功能及其之间的关系。该功能越接近操作序列的树形分支结构的根部，则其影响值越大。例如，如果根部功能的影响值为1，则第4级功能的影响值可以为1/4。可以从知识库中获得该功能树。计算该功能的影响值的另一种方法基于使用日志。该功能被其它用户使用得越频繁，则其影响值越大。计算该功能的影响值的又一种方法基于不同功能的说明书章节的组合与使用日志。首先从不同功能的说明书章节的组合获得与该功能冲突的功能。然后通过冲突的功能计算影响值。与该功能冲突的功能被使用得越频繁，则该功能的影响越大。

或者，可以把上述两种方式计算得到的关联风险（即，基于假设的个数及其置信度计算的风险与基于多模因素的影响值计算的风险）以指定的权重加权相加，从而得到最终的风险值。

接下来，在输出步骤360中，在从所述多值属性到所述多模因素的映射是满射的情况下，输出表示所述多值属性是所述多模因素的前提的前提断言对主题。

在一个实施方式中，在从多值属性到多模因素的映射是满射的情况下，这意味着该多值属性为该多模因素的前提，因此该输出步骤360可以输出相应的前提断言对主题。本文中提到的“前提断言对主题”指的是断言在一对多值属性和多模因素之间存在该多值属性为该多模因素的前提的关系的主题。例如，在该实施方式中，该输出步骤360可以包括：在所述至少一个知识库中存储作为满射的从所述多值属性到所述多模因素的映射；以前提断言对的形式产生对于作为满射的从所述多值属性到所述多模因素的映射的知识；以及基于所产生的知识输出前提断言对主题。所述前提断言对主题可以包括如下模板中的至少一个：多值属性是多模因素的前提；在多值属性是二值属性的情况下，改变多值属性的值以满足多模因素的一个模式；设置多值属性的值以满足多模因素的一个模式。

以表1中的第一个句子为例，如前所述，确定从多值属性[PDF(Trace&Smooth)]到多模因素“图像质量水平设定的有效性”的映射为满射。因此，在该输出步骤中，可以输出一个前提断言对主题，即，“[PDF(Trace&Smooth)]是图像质量水平设定的前提”。另外，还可以根据该输出的前提断言对主题来生成一个操作句子。例如，该操作句子可以是“将[PDF(Trace&Smooth)]变为'OFF'以满足图像质量水平设定的条件”。

在一种实施方式中，在如前所述地计算风险的情况下，所述输出步骤360可以包括：将所述映射的关联风险与预定的第二阈值进行比较，并且在所述映射的关联风险高于预定的第二阈值的情况下，为了保险起见，不把从该多值属性到该多模因素的映射当作满射，而是将与所述第一断言声明对应的原始句子输出作为所挖掘出的主题。其中该第二阈值可根据用户经验或实验测试获得。

如图5所示，根据本发明的第一实施例的主题挖掘设备500包括：获取部件510、转换部件520、产生部件530、计算部件540、组合部件550和输出部件560。

更具体而言，获取部件510被配置为从至少一个知识库中获取多个句子。

转换部件520被配置为将所获取的句子中的至少一个转换为条件三元组形式的第一断言声明，其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属性的一个值构成。

产生部件530被配置为针对第一断言声明产生条件三元组形式的假设，其中所产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值属性相同，所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值。

计算部件540被配置为通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度，并且从所述假设中提取出一个或更多个假设作为第二断言声明，其中每个第二断言声明的置信度大于预定的第一阈值。

组合部件550被配置为将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素的映射，并且验证所述映射是否是满射。

输出部件560被配置为在从所述多值属性到所述多模因素的映射是满射的情况下，输出表示所述多值属性是所述多模因素的前提的前提断言对主题。

该设备500中的各个部件可以被配置为执行图3中的流程图所示出的各个步骤。

[第二实施例]

图6是例示了根据本发明的第二实施例的主题挖掘方法的流程图。

第二实施例与第一实施例的区别在于，除了挖掘前提断言对主题之外，还对语言上依存主题进行了挖掘。通过将前提断言对主题和语言上依存主题结合，可以进一步提高主题的召回率，从而可以进一步有效地为用户提供期望的信息。

图6中的用于产生前提断言对主题的步骤310－360与根据第一实施例的图3中的步骤310－360相同，因此在第二实施例中省略了它们的重复描述。

图6中的步骤610－620用于产生语言上依存主题，所述语言上依存主题在本文中指的是字面上可直接分析出的依存主题。出于例示的目的，图6中的用于产生语言上依存主题的步骤610－620被示出为与用于产生前提断言对主题的步骤310－360并行地执行，然而其执行顺序不限于此。如本领域技术人员均能理解的，用于产生语言上依存主题的步骤610－620也可以在用于产生前提断言对主题的步骤310－360之前或之后被执行。

具体而言，在步骤610中，从所述至少一个知识库中识别至少一个满足预定依存表达的句子，其中所述依存表达描述句法单元之间的依存关系。

在步骤620中，产生所识别出的至少一个句子的语言上依存主题，所述语言上依存主题由所述句法单元和表示所述依存关系的链接组成。

在一种实施方式中，可以用如下具体操作来产生语言上依存主题。首先，针对在获取步骤310中所获取的句子识别组块作为句法单元。在这里“组块”意指围绕一个中心词的词组。中心词可以是名词、动词、形容词、介词等。然后，可以识别组块类别（即，标签（tag））和组块之间的句法依存关系。例如识别诸如主语、宾语、介词修饰等之类的组块之间的句法依存关系，如图7A所示。然后，可以基于预定的句法依存关系集来对所获取的句子进行过滤，从而获得满足预定依存表达的句子。然后，通过使用依存格式来产生由组块之间的链接组成的操作句子作为语言上依存主题，如图7B所示。

另外，为了方便用户观看以及选择，通常在产生的前提断言对主题和语言上依存主题的总数较多（比如大于预定数量（例如，30））时，优选地，对产生的前提断言对主题和语言上依存主题的组合进行排序。即，如图6中的虚线所示的，可选地，根据第二实施例的方法还可以包括排序步骤630，其通过对产生的前提断言对主题和语言上依存主题进行排序，从而最终为用户呈现一定数量的优选的主题。

一种排序方法基于在总的候选主题中的这两种主题的比例。例如，假设总共产生了33个语言上依存主题和22个前提断言对主题，而所要求的主题总数为30个。那么，可以选择输出30*(33/55)=18个语言上依存主题以及30*(22/55)=12个前提断言对主题。然后，可以通过例如该主题在知识库中的频率对选出的这30个主题进行排序。

另外，还可以根据主题中所有词的频率之和的平均来进行排序。

如上所述，根据本发明的第二实施例的方法，通过将前提断言对主题和语言上依存主题结合，可以进一步提高主题的召回率，从而可以进一步有效地为用户提供期望的信息。

如上所述，通过例如根据第一和第二实施例的主题挖掘方法和设备，可以有利地挖掘出隐含的用户查询主题，从而提高召回率。

下面将详细描述应用有根据本发明的主题挖掘方法和设备的查询扩展方法和设备。

（查询扩展方法和查询扩展设备）

如图8所示，在步骤810中，接收自然语言形式的用户输入的查询，例如，如上所述的查询“调节图像质量”。

在步骤820中，在至少一个知识库中检索基于所述查询的结果。该检索步骤可以利用本领域已知的任何技术来实现。例如可以采用全文检索方法、命名实体识别（Named Entity Recognition，NER）方法或关系抽取（Relation Extraction，RE）方法来进行检索。

在步骤830中，通过如上所述的主题挖掘方法来从所述结果中挖掘出主题。如上所述，所述主题包括前提断言对主题，可选地进一步包括语言上依存主题。

在步骤840中，获取基于所挖掘出的主题的查询。

图9是示出了根据本发明一个实施例的查询扩展设备的框图。

如图9所示，根据本发明的示例性实施例的查询扩展设备900包括：接收部件910、检索部件920、如上所述的主题挖掘设备500和获取部件940。

更具体而言，接收部件910被配置为接收自然语言形式的用户输入的查询。

检索部件920被配置为在至少一个知识库中检索基于所述查询的结果。

如上所述的主题挖掘设备500被配置为从所述结果中挖掘出主题。

获取部件940被配置为获取基于所挖掘出的主题的查询。

该查询扩展设备900中的各个部件可以被配置为执行图8中的流程图所示出的各个步骤。

图10示意性地例示了应用有根据本发明的一个示例性实施例的查询扩展方法的对话辅助系统的用户界面。用户通过该界面输入查询“调节图像质量”，并且通过点击根据本发明的查询扩展方法输出的相关问题来获得感兴趣的操作帮助。

以上描述的部件是用于实施本公开中描述的处理的示例性和/或优选的模块。这些部件可以是硬件单元（诸如现场可编程门阵列（FPGA）、数字信号处理器或专用集成电路等）和/或软件模块（诸如计算机可读程序）。以上并未详尽地描述用于实施各个步骤的部件。然而，只要有执行某个处理的步骤，就可以有用于实施同一处理的对应的功能模块或单元（由硬件和/或软件实施）。通过所描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都被包括在本申请的公开内容中，只要它们构成的这些技术方案是完整并且可应用的。

此外，由各种部件构成的上述设备500和900可以作为功能模块被并入到诸如计算机、移动电话、手持装置等的电子装置中，只要在该电子装置中存在对于主题挖掘和查询扩展的需要即可。除了该设备500和900之外，该电子装置当然可以具有其它硬件或者软件部件。

可以通过许多方式来实施本发明的方法和设备。例如，可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的，本发明的方法步骤不限于以上具体描述的次序，除非以其它方式明确说明。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，其包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解，上述实施例可以在不脱离本发明的范围和实质的情况下被修改。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种主题挖掘方法，包括：

获取步骤，从至少一个知识库中获取多个句子；

转换步骤，将所获取的句子中的至少一个转换为条件三元组形式的第一断言声明，其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属性的一个值构成；

产生步骤，针对第一断言声明产生条件三元组形式的假设，其中所产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值属性相同，所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值；

计算步骤，通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度，并且从所述假设中提取出一个或更多个假设作为第二断言声明，其中每个第二断言声明的置信度大于预定的第一阈值；

组合步骤，将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素的映射，并且验证所述映射是否是满射；以及

输出步骤，在从所述多值属性到所述多模因素的映射是满射的情况下，输出表示所述多值属性是所述多模因素的前提的前提断言对主题。

2.根据权利要求1所述的主题挖掘方法，其中，对于所获取的句子中的至少一个，所述转换步骤包括：

提取所获取的句子中的特定实体，所述特定实体至少包括值和模式；

通过如下步骤来识别所述至少一个知识库中的与所述模式对应的多模因素和与所述值对应的多值属性：

从所述至少一个知识库中提取与所述模式对应的因素、以及与所述值对应的属性；以及

从所述至少一个知识库中识别与所述因素对应的其它模式、以及与所述属性对应的其它值，以确定多模因素和多值属性；以及

将所获取的句子转换为所识别出的多模因素和所识别出的多值属性的条件三元组。

3.根据权利要求1所述的主题挖掘方法，其中所述计算步骤包括：

从所述至少一个知识库中提取所述假设的条件三元组的证据；

根据所提取的证据来计算与每个假设关联的置信度。

4.根据权利要求1所述的主题挖掘方法，其中所述证据包括如下中的至少一个：

从无结构的文本片段中提取的语言模板以及指定的权重；

从无结构的文本片段中提取的共同出现的频率以及指定的权重；

从本体中提取的多模因素与多值属性之间的关系以及指定的权重；

多模因素与多值属性的词汇元素以及指定的权重。

5.根据权利要求1所述的主题挖掘方法，其中所述组合步骤还包括：

基于所产生的假设的个数及其置信度来计算验证为是满射的映射的关联风险；或/和

基于所述第一断言声明中的多模因素的影响值来计算验证为是满射的映射的关联风险。

6.根据权利要求1所述的主题挖掘方法，其中所述输出步骤包括：

在所述至少一个知识库中存储作为满射的从所述多值属性到所述多模因素的映射；

以前提断言对的形式产生对于作为满射的从所述多值属性到所述多模因素的映射的知识；

基于所产生的知识输出前提断言对主题，其中所述前提断言对主题包括如下中的至少一个：

多值属性是多模因素的前提；

改变多值属性的值以满足多模因素的一个模式，其中该多值属性是二值属性；

设置多值属性的值以满足多模因素的一个模式。

7.根据权利要求5所述的主题挖掘方法，其中所述输出步骤包括：

在所述映射的关联风险高于预定的第二阈值的情况下，将所述第一断言声明对应的原始句子输出。

8.根据权利要求1所述的主题挖掘方法，其中所述获取步骤包括：

接收自然语言形式的查询作为输入；

在所述至少一个知识库中检索与所述查询匹配的句子。

9.根据权利要求1所述的主题挖掘方法，其中所述获取步骤包括：

接收所述至少一个知识库作为输入；

遍历所述至少一个知识库，并且获取所述至少一个知识库中的至少一个文本片段；以及

在所述至少一个知识库中检索与所述至少一个文本片段匹配的句子。

10.根据权利要求1所述的主题挖掘方法，其中所述知识库包括如下中的至少一个：

计算机可读的文本文档；以及

计算机可读的领域本体。

11.根据权利要求1－10中的任意一项所述的主题挖掘方法，还包括：

从所述至少一个知识库中识别至少一个满足预定依存表达的句子，其中所述依存表达描述句法单元之间的依存关系；以及

产生所识别出的至少一个句子的语言上依存主题，所述语言上依存主题由所述句法单元和表示所述依存关系的链接组成。

12.根据权利要求11所述的主题挖掘方法，还包括：

通过对产生的前提断言对主题和语言上依存主题进行排序，呈现一定数量的主题。

13.一种查询扩展方法，包括：

接收自然语言形式的用户输入的查询；

在至少一个知识库中检索基于所述查询的结果；

根据权利要求1－12中的任意一项所述的主题挖掘方法，从所述结果中挖掘出主题；

获取基于所挖掘出的主题的查询。

14.一种主题挖掘设备，包括：

获取部件，被配置为从至少一个知识库中获取多个句子；

转换部件，被配置为将所获取的句子中的至少一个转换为条件三元组形式的第一断言声明，其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属性的一个值构成；

产生部件，被配置为针对第一断言声明产生条件三元组形式的假设，其中所产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值属性相同，所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值；

计算部件，被配置为通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度，并且从所述假设中提取出一个或更多个假设作为第二断言声明，其中每个第二断言声明的置信度大于预定的第一阈值；

组合部件，被配置为将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素的映射，并且验证所述映射是否是满射；以及

输出部件，被配置为在从所述多值属性到所述多模因素的映射是满射的情况下，输出表示所述多值属性是所述多模因素的前提的前提断言对主题。

15.根据权利要求14所述的主题挖掘设备，其中，所述转换部件包括：

被配置为，对于所获取的句子中的至少一个，提取所获取的句子中的特定实体的部件，所述特定实体至少包括值和模式；

被配置为通过如下操作来识别所述至少一个知识库中的与所述模式对应的多模因素和与所述值对应的多值属性的部件：

被配置为将所获取的句子转换为所识别出的多模因素和所识别出的多值属性的条件三元组的部件。

16.根据权利要求14所述的主题挖掘设备，其中所述计算部件包括：

被配置为从所述至少一个知识库中提取所述假设的条件三元组的证据的部件；

被配置为根据所提取的证据来计算与每个假设关联的置信度的部件。

17.根据权利要求14所述的主题挖掘设备，其中所述证据包括如下中的至少一个：

从无结构的文本片段中提取的语言模板以及指定的权重；

多模因素与多值属性的词汇元素以及指定的权重。

18.根据权利要求14所述的主题挖掘设备，其中所述组合部件还包括：

被配置为基于所产生的假设的个数及其置信度来计算验证为是满射的映射的关联风险的部件；或/和

被配置为基于所述第一断言声明中的多模因素的影响值来计算验证为是满射的映射的关联风险的部件。

19.根据权利要求14所述的主题挖掘设备，其中所述输出部件包括：

被配置为在所述至少一个知识库中存储作为满射的从所述多值属性到所述多模因素的映射的部件；

被配置为以前提断言对的形式产生对于作为满射的从所述多值属性到所述多模因素的映射的知识的部件；

被配置为基于所产生的知识输出前提断言对主题的部件，其中所述前提断言对主题包括如下中的至少一个：

多值属性是多模因素的前提；

设置多值属性的值以满足多模因素的一个模式。

20.根据权利要求18所述的主题挖掘设备，其中所述输出部件包括：

被配置为在所述映射的关联风险高于预定的第二阈值的情况下将所述第一断言声明对应的原始句子输出的部件。

21.根据权利要求14所述的主题挖掘设备，其中所述获取部件包括：

被配置为接收自然语言形式的查询作为输入的部件；

被配置为在所述至少一个知识库中检索与所述查询匹配的句子的部件。

22.根据权利要求14所述的主题挖掘设备，其中所述获取部件包括：

被配置为接收所述至少一个知识库作为输入的部件；

被配置为遍历所述至少一个知识库并且获取所述至少一个知识库中的至少一个文本片段的部件；以及

被配置为在所述至少一个知识库中检索与所述至少一个文本片段匹配的句子的部件。

23.根据权利要求14所述的主题挖掘设备，其中所述知识库包括如下中的至少一个：

计算机可读的文本文档；以及

计算机可读的领域本体。

24.根据权利要求14－23中的任意一项所述的主题挖掘设备，还包括：

被配置为从所述至少一个知识库中识别至少一个满足预定依存表达的句子的部件，其中所述依存表达描述句法单元之间的依存关系；以及

被配置为产生所识别出的至少一个句子的语言上依存主题的部件，所述语言上依存主题由所述句法单元和表示所述依存关系的链接组成。

25.根据权利要求24所述的主题挖掘设备，还包括：

被配置为通过对产生的前提断言对主题和语言上依存主题进行排序以呈现一定数量的主题的部件。

26.一种查询扩展设备，包括：

接收部件，被配置为接收自然语言形式的用户输入的查询；

检索部件，被配置为在至少一个知识库中检索基于所述查询的结果；

根据权利要求14－25中的任意一项所述的主题挖掘设备，被配置为从所述结果中挖掘出主题；

获取部件，被配置为获取基于所挖掘出的主题的查询。