CN104298683A - 主题挖掘方法和设备、以及查询扩展方法和设备 - Google Patents

主题挖掘方法和设备、以及查询扩展方法和设备 Download PDF

Info

Publication number
CN104298683A
CN104298683A CN201310303056.XA CN201310303056A CN104298683A CN 104298683 A CN104298683 A CN 104298683A CN 201310303056 A CN201310303056 A CN 201310303056A CN 104298683 A CN104298683 A CN 104298683A
Authority
CN
China
Prior art keywords
theme
entity
sentence
group
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310303056.XA
Other languages
English (en)
Other versions
CN104298683B (zh
Inventor
张碧川
黄耀海
李荣军
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201310303056.XA priority Critical patent/CN104298683B/zh
Publication of CN104298683A publication Critical patent/CN104298683A/zh
Application granted granted Critical
Publication of CN104298683B publication Critical patent/CN104298683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及主题挖掘方法和设备及查询扩展方法和设备。该主题挖掘方法包括:获取步骤,从至少一个知识库中获取多个句子;识别步骤,对于所获取的多个句子中的每个句子,识别与其关联的实体,其中该实体指示物理物体或物理物体属性;生成步骤,从与每个句子关联的实体中各提取一个实体生成一个或更多个实体组;选择步骤,从该一个或更多个实体组中选择具有最大区别度的一个实体组;以及用户可见区别性物体主题输出步骤,输出与所获取的多个句子对应的用户可见区别性物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一个句子及其在所选的实体组中的对应实体来表示。得益于本发明,可以挖掘出隐含的用户查询主题从而提高召回率。

Description

主题挖掘方法和设备、以及查询扩展方法和设备
技术领域
本发明涉及文本挖掘技术,特别地涉及从较大的文本数据库中发掘隐含的用户查询主题的主题挖掘方法,即挖掘出某些没有直接文字记载但是可能作为用户查询的答案的用户查询主题。
背景技术
如今使用的机电装置的功能变得越来越多,并且这些机电装置通常能支持许多个性化的功能。以多功能打印机(MFP)为例,其将复印、打印、扫描、传真和远程操作功能结合在一起,以便满足大多数人的需求。这些强大的装置极大地便利了专业用户,但是通常会给缺乏经验的用户带来麻烦,这是因为功能强大的装置往往带来复杂的操作,从而使得用户不知道如何使用该装置或者不能找出必要的信息来操作该装置。
鉴于这种情形,已经提出了一种对话辅助系统(dialogue assistsystem),其使得用户能够找出用于操作机电装置的相关信息。用户通过使用语言或文本来向该系统输入查询,该系统预测用户的意图,并且引导用户操作装置。
美国专利No.US7,774,198提出了一种用于通过向用户输入的查询分层地添加短语来生成主题的方法。该专利认为用其它方法针对用户输入的查询生成的短语不一定有意义,因此其使用已经存在的文本串并且通过确定文本串中的各个单元之间的句法关系来生成主题。这个机制使得所生成的主题必须已经存在于知识库中,并且其内容被限制为包含用户输入的查询中的至少一个表达。这个专利提出了通过向原始主题添加词语或短语来产生新的优化的查询主题的方法,所产生的新的优化的查询主题与预定义的依存关系匹配。
发明内容
然而,本申请的发明人发现,现有技术的召回率(匹配用户意图)较低,这是因为现有技术只能挖掘出直接存在于知识库中的主题,而无法挖掘出很多隐含的用户期望的主题。
通过深入研究分析,本申请的发明人发现,在真实状态数据(ground truth)中,除了现有技术(例如上述美国专利)能挖掘出的主题(即,如美国专利No.US7,774,198中公开的由知识库中已经存在的句子中的组块(chunk)之间的依存链接构成的语言上依存主题)之外,还存在一类数量较多的主题,即,用于以与用户可见且有区别性的物体有关的实体表示的主题(下文中将命名为“用户可见区别性物体主题(discriminative object for user topic)”),这类主题的存在可有助于用户直观地找到他/她实际需要的主题。除此之外,本申请的发明人发现还存在另一类数量较多的主题,即,用于帮助用户改变配置以实现目标功能的针对查询的推荐主题(下文中将命名为“前提断言对主题(premises assertion pair topic)”),其中在该功能的有效性与一多值属性的值之间存在前提映射。图1示出了本申请的发明人作出的实验结果,其例示了真实状态数据中的各种类型主题的比例。该真实状态数据是通过如下操作而获得的:从一个MFP手册随机选择十个功能名作为用户输入查询,并且针对每个查询由人工收集尽可能多的在该MFP手册中有答案的问题,然后人工对所收集的问题进行投票,并且去除那些不重要的问题,从而得到真实状态数据。最后,分析真实状态数据中的这些主题的类型及其比例。从图1可以看出,用户可见区别性物体主题在真实状态数据中占据28.74%的较大比例,而前提断言对主题在真实状态数据中占据20.11%的较大比例(请注意,这并非大量统计得出的平均数据,而仅仅是出于例示的目的给出)。
因此,需要一种能够挖掘出用户可见区别性物体主题(优选地,进一步挖掘出前提断言对主题)的主题挖掘方法和设备,并且可以将该主题挖掘方法和设备应用于查询扩展方法和设备。
根据本发明的一个方面,为了解决上述技术问题,本发明提供一种主题挖掘方法,其包括:获取步骤,从至少一个知识库中获取多个句子;识别步骤,对于所获取的多个句子中的每个句子,识别与其关联的实体,其中所述实体指示物理物体或物理物体属性;生成步骤,从与每个句子关联的实体中各提取一个实体生成一个或更多个实体组;选择步骤,从所述一个或更多个实体组中选择具有最大区别度(discriminative degree)的一个实体组;以及用户可见区别性物体主题输出步骤,输出与所获取的多个句子对应的用户可见区别性物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一个句子及其在所选的实体组中的对应实体来表示。
根据本发明的另一方面,为了解决上述技术问题,本发明提供一种查询扩展方法,其包括:接收自然语言形式的用户输入的查询;在至少一个知识库中检索基于所述查询的结果;如上所述的主题挖掘方法,从所述结果中挖掘出主题;获取基于所挖掘出的主题的查询。
根据本发明的另一方面,本发明提供一种主题挖掘设备,其包括:获取部件,被配置为从至少一个知识库中获取多个句子;识别部件,被配置为,对于所获取的多个句子中的每个句子,识别与其关联的实体,其中所述实体指示物理物体或物理物体属性;生成部件,被配置为从与每个句子关联的实体中各提取一个实体生成一个或更多个实体组;选择部件,被配置为从所述一个或更多个实体组中选择具有最大区别度的一个实体组;以及用户可见区别性物体主题输出部件,被配置为输出与所获取的多个句子对应的用户可见区别性物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一个句子及其在所选的实体组中的对应实体来表示。
根据本发明的另一方面,本发明提供一种查询扩展设备,其包括:接收部件,被配置为接收自然语言形式的用户输入的查询;检索部件,被配置为在至少一个知识库中检索基于所述查询的结果;如上所述的主题挖掘设备,被配置为从所述结果中挖掘出主题;获取部件,被配置为获取基于所挖掘出的主题的查询。
如上所述,本发明提供了用于挖掘出用户可见区别性物体主题的主题挖掘方法和设备。利用本发明的方法和设备,可以挖掘出隐含的用户查询主题,从而提高召回率。
根据参照附图的以下描述,本发明的其它特性特征和优点将变得清晰。
附图说明
并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于说明本发明的原理。
图1例示了真实状态数据中的各种类型主题的比例。
图2是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。
图3是示出了根据本发明的第一实施例的主题挖掘方法的流程图。
图4示出了选择具有最大区别度的一个实体组的一个示例。
图5是示出了根据本发明的第一实施例的主题挖掘设备的框图。
图6是示出了根据本发明的第二实施例的主题挖掘方法的流程图。
图7A、图7B和图7C例示了多模因素的各个模式与多值属性的各个值之间形成的条件三元组。
图8是示出了根据本发明的第三实施例的主题挖掘方法的流程图。
图9A示例性地示出了组块之间的句法依存关系。
图9B示例性地示出了作为语言上依存主题的由组块之间的链接组成的操作句子。
图10是示出了根据本发明一个实施例的查询扩展方法的流程图。
图11是示出了根据本发明一个实施例的查询扩展设备的框图。
图12示意性地例示了应用有根据本发明的一个示例性实施例的查询扩展方法的对话辅助系统的用户界面。
具体实施方式
下面将参考附图来详细描述本发明的优选的实施例。不是本发明必需的细节和功能被省略,以便不会混淆本发明的理解。
请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。
在本公开中,术语“第一”、“第二”等仅仅被用来在元件或步骤之间进行区分,而并不意图表示时间顺序、优先级或重要性。
(计算机系统的硬件配置)
图2是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。
如图2中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。
诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图2所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
图2所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
(主题挖掘方法和主题挖掘设备)
[第一实施例]
图3是示出了根据本发明的第一实施例的主题挖掘方法的流程图。
如图3所示,在获取步骤310中,从至少一个知识库中获取多个句子。可以以本领域已知的任何方式来从知识库中获取句子,以供后续处理。
例如,在该主题挖掘方法被应用于查询扩展方法的情况下,可以首先接收例如用户输入的自然语言形式的查询作为输入,然后在所述至少一个知识库中检索与所述查询匹配的句子。其中所述检索方法可以是本领域已知的任何方法,例如可以是全文检索方法、命名实体识别(Named Entity Recognition,NER)方法或关系抽取(RelationExtraction,RE)方法。
在另一种实施方式中,所述获取步骤310可以包括:接收所述至少一个知识库作为输入;遍历所述至少一个知识库,并且获取所述至少一个知识库中的至少一个文本片段;以及在所述至少一个知识库中检索与所述至少一个文本片段匹配的句子。
另外,在上述方式得到的与查询匹配的句子或与至少一个文本片段匹配的句子涉及多分支功能的情况下,优选的是,所述获取步骤310进一步包括:将与所述查询匹配的句子或与所述至少一个文本片段匹配的句子按可实现的功能分组;以及将所获得的每一组句子分别作为所述所获取的多个句子。也就是说,在与查询匹配的句子或与至少一个文本片段匹配的句子涉及多于一个多分支功能的情况下,将这些句子分组,即,对应于每个功能的句子被分为一组,并且将每一组句子作为上述的从至少一个知识库中获取的所述多个句子来分别进行本发明的方法中的后续处理。以手册为例,可将可实现相同功能的不同类型的操作说明语句分为涉及一个多分支功能的一组句子。例如,在用户输入查询“纸张”时,与其匹配的句子涉及了两个多分支功能,即“纸张选择”和“塞纸”,从而,优选的是,把涉及“纸张选择”功能的一组句子作为所述所获取的多个句子来进行后续主题挖掘处理,同时或稍后,把涉及“塞纸”功能的一组句子也作为所述所获取的多个句子来进行后续主题挖掘处理。当然,在与查询匹配的句子或与至少一个文本片段匹配的句子仅仅涉及一个多分支功能的情况下,上述的分组操作等是不需要的,与查询匹配的句子或与至少一个文本片段匹配的句子全部作为上述的从至少一个知识库中获取的所述多个句子来分别进行本发明的方法中的后续处理。例如,对于用户输入的查询“纸张选择”,检索出来的句子仅仅涉及“纸张选择”这个功能,而且可以看出这个功能具有多个分支,诸如,选择在纸盒(drawer)中的纸张、选择在多用途托盘上的纸张等。
上述的知识库可以包括如下中的至少一个:计算机可读的文本文档、以及计算机可读的领域本体(domain ontology)。如本领域技术人员能理解的,本方法可以利用的知识库不限于此。
接下来,在识别步骤320中,对于所获取的多个句子中的每个句子,识别与其关联的实体,其中所述实体指示物理物体或物理物体属性。
为了方便用户直观地进行查找,显示与指示物理物体或其属性的实体有关的主题是有利的。这是因为,物理物体是用户可以观察到的,能够更直观地表现出用户希望进行的操作。
优选地,所述识别步骤包括:提取步骤,提取与所获取的多个句子关联的语言形式的候选实体;规范化步骤,使所述语言形式的候选实体规范化(normalize),例如,将“drawers”规范化为“drawer”;以及唯一映射的实体获得步骤,通过删除与所获取的多个句子中的多于一个的句子关联的规范化的候选实体,来获得唯一映射的实体。上述规范化步骤的目的在于避免数据稀疏问题。另外,在本文中“唯一映射的实体”是指只与所获取的多个句子中的一个句子关联的实体。
更优选地,所述唯一映射的实体获得步骤包括:创建一组与所获取的多个句子关联的语言形式的用户个性化实体(custom entity);使该组语言形式的用户个性化实体规范化;识别所述规范化的候选实体和该组规范化的用户个性化实体中的相同的实体;以及删除与所获取的多个句子中的多于一个的句子关联的相同的实体。可以从日志、用户简档、操作历史等来获得用户个性化实体,该用户个性化实体可以是实体的用户个性化别名。例如,对应于“多用途托盘”的用户个性化实体可以是“MP托盘”。
更优选地,所提取的候选实体属于多个物体类别,所述物体类别包括:设备组件类别、用户日常使用品类别、设备产品类别和功能消费品类别等。相应地,所识别出的实体可以是例如“纸盒”、“多用途托盘”、“MP托盘”等。
接下来,在生成步骤330中,从与每个句子关联的实体中各提取一个实体生成一个或更多个实体组。换句话说,所生成的每个实体组由与每个句子关联的实体中的一个实体组成。所生成的实体组可以包括所有可能的这种实体组,即,例如,假设所获取的句子为s1、s2和s3,而与s1、s2和s3关联的实体分别为[e11,e12]、[e2]和[e31,e32],则所生成的实体组可以包括所有可能的实体组(e11,e2,e31)、(e12,e2,e31)、(e11,e2,e32)和(e12,e2,e32)。
在一种实施方式中,在所述所获取的多个句子涉及一个多分支功能的情况下,一般该功能的一个分支对应于一个句子,可从该一个分支的句子中识别出一个或更多个实体,而一个实体组包含每个分支的仅仅一个实体。换句话说,每个实体组是通过从每个分支的实体中抽出一个实体来构成的,并且所生成的实体组可以包括所有可能的这种实体组。例如,假设所获取的多个句子对应于一个多分支功能“纸张选择”,其具有两个分支“纸张选择1”和“纸张选择2”。每个分支对应于一个句子,而从各个句子中识别出来的关联实体分别为[“纸盒”]、以及[“多用途托盘”,“MP托盘”]。因此可生成两个实体组:(“纸盒”,“多用途托盘”)以及(“纸盒”,“MP托盘”)。
接下来,在选择步骤340中,从所述一个或更多个实体组中选择具有最大区别度的一个实体组。
在最简单的情况下,即在上述生成步骤330中仅仅生成一个实体组,那么该实体组就是具有最大区别度的一个实体组。
在生成了多于一个实体组的情况下,需要根据各个实体组的区别度来进行选择。
在一种实施方式中,计算每个实体组的区别度,并且然后选择具有最大区别度的一个实体组。
优选地,可以通过计算每个实体组中的每个实体和所获取的多个句子中与其对应的句子之间的相关度来计算每个实体组的区别度。更优选地,可以通过提取每个实体与其对应的句子之间的相关性的证据来计算相关度。例如,可以通过共同出现次数(co-occurrence)、“is-a”关系等来计算相关度。
可替代地或者额外地,可以使用一组代表实体的可观察程度的可观察特征、一组代表用户对实体的熟悉程度的熟悉度特征、以及一组距离特征中的至少一个来计算区别度。所述距离特征至少包括各对实体之间的语义距离,所述语义距离指示该对实体在某一语义源(例如,WordNet)中的距离。举例来说,在MFP领域内,实体“双面有内容纸张”和“信封”之间的距离短于实体“双面有内容纸张”和“A4”之间的距离。这是因为实体“双面有内容纸张”和“信封”均属于同一类型实体:纸张类型。
图4示出了选择具有最大区别度的一个实体组的一个示例。如图4所示,所获取的句子对应于多分支功能“预约复印任务”,其具有两个分支“预约复印任务1”和“预约复印任务2”。每个分支对应于一个句子,而从各个句子中识别出来的关联实体分别为[“多用途托盘”,“双面有内容纸张”]、以及[“信封”,“A4”]。因此生成了四个实体组:(“多用途托盘”,“信封”)、(“双面有内容纸张”,“A4”)、(“多用途托盘”,“A4”)、以及(“双面有内容纸张”,“信封”)。通过例如上述方式计算得到的区别度分别由图4中的黑点的大小来表示。因此,根据图4可以选择具有最大区别度的一个实体组,即,实体组(“双面有内容纸张”,“信封”)。
接下来,在用户可见区别性物体主题输出步骤350中,输出与所获取的多个句子对应的用户可见区别性物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一个句子及其在所选的实体组中的对应实体来表示。
在一种实施方式中,该用户可见区别性物体主题输出步骤可以包括:针对所选的实体组中的每个实体,从所述至少一个知识库中的无结构的文本片段中提取语言表达模板;通过使用所述语言表达模板来描述所选的实体组中的每个实体和所获取的多个句子中与其对应的句子,从而产生候选句子;以及基于所述至少一个知识库,利用领域知识的语义约束和语法约束来对所述候选句子排序。
上述的语言表达模板的一个示例为:
想要设置通过[实体]进行的[功能名]?
把实体及其相应的句子对应的功能名代入该模板就可以得到候选句子。例如,可以得到如下的候选句子:
“想要设置通过纸盒进行的纸张选择?”
在上述对所述候选句子排序的步骤中,通常满足语义约束和语法约束的候选句子会得到更高的分数,而可以按照分数从高到低地对候选句子排序。
在输出用户可见区别性物体主题之前,可选地,可以通过许多指标中的一个或更多个(例如,频率、语法分数、相关性分数等)来对这些主题进行排序,然后将排序后的主题输出。
图5是示出了根据本发明的第一实施例的主题挖掘设备的框图。
如图5所示,根据本发明的第一实施例的主题挖掘设备500包括:获取部件510、识别部件520、生成部件530、选择部件540、和用户可见区别性物体主题输出部件550。
更具体而言,获取部件510被配置为从至少一个知识库中获取多个句子。
识别部件520被配置为,对于所获取的多个句子中的每个句子,识别与其关联的实体,其中所述实体指示物理物体或物理物体属性。
生成部件530被配置为从与每个句子关联的实体中各提取一个实体生成一个或更多个实体组。
选择部件540被配置为从所述一个或更多个实体组中选择具有最大区别度的一个实体组。
用户可见区别性物体主题输出部件550被配置为输出与所获取的多个句子对应的用户可见区别性物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一个句子及其在所选的实体组中的对应实体来表示。
该设备500中的各个部件可以被配置为执行图3中的流程图所示出的各个步骤。
[第二实施例]
图6是例示了根据本发明的第二实施例的主题挖掘方法的流程图。
如在发明内容部分所述的,本申请的发明人发现除了用户可见区别性物体主题之外,还存在另一类数量较多的隐含主题,即前提断言对主题。
因此,为了进一步提高主题的召回率,可以在第一实施例的基础上进一步挖掘出前提断言对主题。也就是说,第二实施例与第一实施例的区别在于,除了挖掘用户可见区别性物体主题之外,还对前提断言对主题进行了挖掘。通过将用户可见区别性物体主题和前提断言对主题结合,可以进一步提高主题的召回率,从而可以进一步有效地为用户提供期望的信息。
图6中的用于产生用户可见区别性物体主题的步骤310-350与根据第一实施例的图3中的步骤310-350相同,因此在第二实施例中省略了它们的重复描述。
下面具体描述挖掘前提断言对主题的过程。
图6中的步骤620-660用于产生前提断言对主题。出于例示的目的,图6中的用于产生前提断言对主题的步骤620-660被示出为与用于产生用户可见区别性物体主题的步骤320-350并行地执行,然而其执行顺序不限于此。如本领域技术人员均能理解的,用于产生前提断言对主题的步骤620-660也可以在用于产生用户可见区别性物体主题的步骤320-350之前或之后被执行。
如前面在第一实施例中所述的,已经通过获取步骤310从至少一个知识库中获取了多个句子。
例如,在根据本实施例的主题挖掘方法被应用于查询扩展方法的情况下,可以首先接收例如用户输入的自然语言形式的查询作为输入,然后在所述至少一个知识库中检索与所述查询匹配的句子。
以MFP为例,用户输入了一个查询,例如,作为MFP的操作的“调节图像质量”。然后例如使用搜索引擎来从至少一个知识库(例如该MFP的操作手册或网络资源)中检索出例如5个相关的句子,
如下面的表1所示。
表1
在转换步骤620中,将所获取的句子中的至少一个转换为条件三元组(condition triple form)形式的第一断言声明(assertionstatement),其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属性的一个值构成。为了简单直观起见,可以如下地表示条件三元组:
多模因素(所涉及的模式),条件,多值属性(所涉及的值)。
在本文中提及的“条件三元组”表示的是多值属性的一个值可以作为实现多模因素的一个模式的条件并且表示出它们之间的具体的条件关系。
例如,表1中的第一个句子是一个明显的条件语句,即,“如果[PDF(Trace&Smooth)]为′ON′,则图像质量水平设定是无效的”。
而且从该句子中可以看出,图像质量水平设定存在多个模式(例如,
“无效”、“有效”),[PDF(Trace&Smooth)]存在多个值(例如,′ON′,′OFF′),因此,该句子可以被转换为如下所述的条件三元组:图像质量水平设定的有效性(无效),必要条件(“如果”),[PDF(Trace & Smooth)](“ON”)
当然,本领域技术人员均能理解,条件三元组中的“条件”并不限于“如果”这种条件关系,还可以包括例如“操作顺序”等。
在一种实施方式中,对于所获取的句子中的至少一个,所述转换步骤620可以具体包括如下操作:提取所获取的句子中的特定实体,所述特定实体至少包括值和模式;识别所述至少一个知识库中的与所述模式对应的多模因素和与所述值对应的多值属性;以及将所获取的句子转换为所识别出的多模因素和所识别出的多值属性的条件三元组;其中通过如下步骤来识别所述至少一个知识库中的与所述模式对应的多模因素和与所述值对应的多值属性:从所述至少一个知识库中提取与所述模式对应的因素、以及与所述值对应的属性;以及从所述至少一个知识库中识别与所述因素对应的其它模式、以及与所述属性对应的其它值,以确定多模因素和多值属性。
以表1中的句子为例来说明转换的具体操作。
首先,例如可以单独地或结合地使用功能列表和NER模块来识别句子中的功能,例如,两个类似的功能“图像质量水平设定”和“调节图像质量”。
然后,例如可以单独地或结合地使用属性列表和NER模块来识别包括所识别出的功能的句子中的属性和值。例如,从表1中的第一个句子中可以识别出1个属性和1个值,如下面的表2所示。属性是用户可以改变以用于不同功能或输出的装置,其可以是按钮、选择框、或其它。
表2
基于所识别出的属性和值之间的关系可以判断所识别出的属性中的哪些属性是多值属性。如果两个或更多个值实体与同一个属性有关,则该属性可以被识别为多值属性。如果从句子中仅仅提取出一个值实体与一个属性有关,则可以从知识库中提取信息,如果从知识库中找到另外不同的一个或更多个值与这个属性有关,则该属性可以被识别为多值属性。可以单独地或结合地使用属性列表和RE模块来进行上述识别。下面的表3示出了一个多值属性的示例:
多值属性
属性1:[PDF(Trace & Smooth)]
值:‘ON’,‘OFF’
表3
类似地,可以识别出多模因素(例如,某一功能的有效性)。可以例如额外使用一组与功能的有效性有关的关键字(诸如,“有效”、“无效”、“启用”和“禁用”等)来识别多模因素。例如,可以通过使用因素列表、NER模块、和/或该组关键字来从表1中的第一个句子中识别出1个因素和1个模式,如下面的表4所示。
表4
与上述关于多值属性所描述的类似,基于所识别出的模式和因素之间的关系可以判断所识别出的因素中的哪些因素是多模因素。或者,可以仅通过知识库中与模式相关的信息或该组关键字来判断与该模式关联的因素是否为多模因素。例如,表4中示出的模式为“无效”,而从例如该组关键字可以看出,模式“无效”自然地存在与其相对的模式,即模式“有效”,也就是说,与模式“无效”关联的因素“图像质量水平设定”自然具有两个模式,即“无效”和“有效”,如下面的表5所示。
多模因素
因素1:图像质量水平设定
模式:无效,有效
表5
然后,可以把包含多模因素和多值属性的句子转换为条件三元组。可以使用例如句法分析器基于一组模板来分析该句子中体现出的条件关系。例如,如上所述,表1中的第一个句子可以被转换为如下所述的条件三元组:
图像质量水平设定的有效性(无效),必要条件(“如果”),[PDF(Trace & Smooth)](“ON”)
接下来,在产生步骤630中,针对第一断言声明产生条件三元组形式的假设,其中所产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值属性相同,所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值。
也就是说,把第一断言声明的条件三元组中的多模因素的各个模式与多值属性的除了第一断言声明中的值以外的各个值分别形成的条件三元组列出作为产生的假设。
图7A以表格形式简单明了地示出了一个二模功能(即,功能有效性,对应于多模因素)和多值属性所能形成的所有条件三元组,包括第一断言声明的条件三元组以及所产生的假设的条件三元组。如图7A所示,图7A中的标记“√”对应于从所获取的句子中产生的关于模式(无效)和值(v1)的第一断言声明的条件三元组。由于多个模式即“有效”和“无效”是互斥的,因此,关于模式(有效)和值(v1)的条件三元组必然是不成立的,即假的(False),如图7A中的标记“×”所表示的。对于多值属性A的其它值v2、v3等,分别针对各个模式产生对应的一组假设,如第1组假设(h11,h12)、第2组假设(h21,h22)等。具体的条件三元组形式的假设被列出在下面的表6中:
第一断言声明
有效性(无效),必要条件(“如果”),[属性A](“v1”)
对应的假设
h11:有效性(有效),必要条件(“如果”),[属性A](“v2”)
h12:有效性(无效),必要条件(“如果”),[属性A](“v2”)
h21:有效性(有效),必要条件(“如果”),[属性A](“v3”)
h22:有效性(无效),必要条件(“如果”),[属性A](“v3”)
……
表6
具体以表1中的第一个句子为例,如图7B所示,标记“√”对应于第一断言声明,所产生的假设如下:
图像质量水平设定的有效性(有效),必要条件(“如果”),[PDF(Trace & Smooth)](“OFF”)图像质量水平设定的有效性(无效),必要条件(“如果”),[PDF(Trace & Smooth)](“OFF”)
接下来,在计算步骤640中,通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度,并且从所述假设中提取出一个或更多个假设作为第二断言声明,其中每个第二断言声明的置信度大于预定的第一阈值,其中该第一阈值可根据用户经验或实验测试获得。
当假设的置信度大于预定的第一阈值时,可以认为该假设是真的(True),从而把该假设作为第二断言声明。
在一个实施方式中,所述计算步骤640可以包括:从所述至少一个知识库中提取所述假设的条件三元组的证据;以及根据所提取的证据来计算与每个假设关联的置信度。
该证据可以是一组条件三元组形式的断言声明和/或一组包含多模因素和多值属性的操作序列。可替代地和/或额外地,可以使用其它结构的数据。例如,该证据可以包括如下中的至少一个:从无结构的文本片段中提取的语言模板以及指定的权重;从无结构的文本片段中提取的共同出现的频率以及指定的权重;从本体中提取的多模因素与多值属性之间的关系以及指定的权重;多模因素与多值属性的词汇元素(lexical elements)以及指定的权重。
例如,在该证据是条件三元组形式的断言声明的情况下,在该条件三元组形式的证据与假设相同时,与该假设关联的置信度被设为1,在相反时,置信度被设为-1,而在与假设没有关系时,置信度被设为0。例如,在该证据是一组操作序列的情况下,在证据与假设中的对应功能相同或者该证据包括假设中的功能时,与该假设关联的置信度被设为1,在证据中的功能与假设中的功能冲突时,置信度被设为-1,而在无法识别出两个功能之间的关系时,置信度被设为0。可以从知识库(例如,MFP手册中不同功能的说明书章节的组合)中搜索两个功能之间的关系。在该证据为其它结构的数据的情况下,可以使用其它相应的方法来计算置信度,例如使用语言模板、共同出现频率来计算置信度。在一种示例中,还可以基于各种结构的证据的置信度来计算最终的置信度。例如,可以为每种结构的证据的置信度指定一个权重,再把各个置信度加权求和来得到最终的置信度。
将上述计算得到的置信度与预定的第一阈值进行比较,在该置信度大于预定的第一阈值的情况下,表示该假设被验证为真的,因此把该假设作为第二断言声明。
以表1中的第一个句子为例,如图7C所示,相对于图7B增加的标记“√”对应于经验证为真的假设,即第二断言声明:
图像质量水平设定的有效性(有效),必要条件(“如果”),[PDF(Trace & Smooth)](“OFF”)
虽然上述示例中的多值属性的值和多模因素的模式的数量均为两个,但是本领域技术人员能理解,本发明并不限于此,而是可以应用于具有多于两个的值的多值属性和具有多于两个的模式的多模因素。
接下来,在组合步骤650中,将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素的映射,并且验证所述映射是否是满射。
在本文中的“满射”指的是,在所有断言声明之中,多模因素的每个模式都能在多值属性的多个值中找到与其对应的值。也就是说,第一断言声明和第二断言声明的组合包含了分别对应于多模因素的每个模式的断言声明。如果多值属性到多模因素的映射为满射,则意味着该多值属性为该多模因素的前提。
以表1中的第一个句子为例,如上所述,第一断言声明和第二断言声明的组合如下:
图像质量水平设定的有效性(无效),必要条件(“如果”),[PDF(Trace & Smooth)](“ON”)
图像质量水平设定的有效性(有效),必要条件(“如果”),[PDF(Trace & Smooth)](“OFF”)
从上可以看出,多模因素的每个模式(即“有效”和“无效”)都被包含于上述第一断言声明和第二断言声明的组合中,因此,该示例的从多值属性[PDF(Trace & Smooth)]到多模因素“图像质量水平设定的有效性”的映射为满射。
然而,由于在计算步骤640中通过预设的阈值来判断假设是否为真,这存在误判的可能性,因此,为了谨慎起见,在一种实施方式中,所述组合步骤650还可以计算把该映射判定为满射的风险,以便在风险较高时进行一些补救。例如,在该风险超出一定阈值时,在稍后将描述的输出步骤660中将进行一些相应操作。
为了计算该风险,所述组合步骤650还可以包括:基于所产生的假设的个数及其置信度来计算验证为是满射的映射的关联风险。例如可以利用如下的公式来计算上述的关联风险:
Risk=N2·(1-min(Ci)),或
Risk=N2·(1-avg(Ci))
上式中,“Risk”表示验证为是满射的映射的关联风险,“N”表示所产生的假设的个数,“Ci”(i=1,2,…,N)表示各个假设的置信度,“min(Ci)”表示Ci中的最小值,“avg(Ci)”表示Ci的平均值。
可替代地和/或额外地,所述组合步骤650还可以包括:基于所述第一断言声明中的多模因素的影响值来计算验证为是满射的映射的关联风险。
例如,可以通过计算与该多模因素关联的功能的影响值来计算风险。计算该功能的影响值的一种方法基于该功能在操作序列的树形分支结构上的位置。操作序列的树形分支结构是要操作的装置的所有功能及其之间的关系。该功能越接近操作序列的树形分支结构的根部,则其影响值越大。例如,如果根部功能的影响值为1,则第4级功能的影响值可以为1/4。可以从知识库中获得该功能树。计算该功能的影响值的另一种方法基于使用日志。该功能被其它用户使用得越频繁,则其影响值越大。计算该功能的影响值的又一种方法基于不同功能的说明书章节的组合与使用日志。首先从不同功能的说明书章节的组合获得与该功能冲突的功能。然后通过冲突的功能计算影响值。与该功能冲突的功能被使用得越频繁,则该功能的影响越大。
或者,可以把上述两种方式计算得到的关联风险(即,基于假设的个数及其置信度计算的风险与基于多模因素的影响值计算的风险)以指定的权重加权相加,从而得到最终的风险值。
接下来,在输出步骤660中,在从所述多值属性到所述多模因素的映射是满射的情况下,输出表示所述多值属性是所述多模因素的前提的前提断言对主题。
在一个实施方式中,在从多值属性到多模因素的映射是满射的情况下,这意味着该多值属性为该多模因素的前提,因此该输出步骤660可以输出相应的前提断言对主题。本文中提到的“前提断言对主题”指的是断言在一对多值属性和多模因素之间存在该多值属性为该多模因素的前提的关系的主题。例如,在该实施方式中,该输出步骤660可以包括:在所述至少一个知识库中存储作为满射的从所述多值属性到所述多模因素的映射;以前提断言对的形式产生对于作为满射的从所述多值属性到所述多模因素的映射的知识;以及基于所产生的知识输出前提断言对主题。所述前提断言对主题可以包括如下模板中的至少一个:多值属性是多模因素的前提;在多值属性是二值属性的情况下,改变多值属性的值以满足多模因素的一个模式;设置多值属性的值以满足多模因素的一个模式。
以表1中的第一个句子为例,如前所述,确定从多值属性[PDF(Trace & Smooth)]到多模因素“图像质量水平设定的有效性”的映射为满射。因此,在该输出步骤中,可以输出一个前提断言对主题,即,“[PDF(Trace & Smooth)]是图像质量水平设定的前提”。另外,还可以根据该输出的前提断言对主题来生成一个操作句子。例如,该操作句子可以是“将[PDF(Trace & Smooth)]变为′OFF′以满足图像质量水平设定的条件”。
在一种实施方式中,在如前所述地计算风险的情况下,所述输出步骤660可以包括:将所述映射的关联风险与预定的第二阈值进行比较,并且在所述映射的关联风险高于预定的第二阈值的情况下,为了保险起见,不把从该多值属性到该多模因素的映射当作满射,而是将与所述第一断言声明对应的原始句子输出作为所挖掘出的主题。其中该第二阈值可根据用户经验或实验测试获得。
另外,为了方便用户观看以及选择,通常在产生的用户可见区别性物体主题和前提断言对主题的总数较多(比如大于预定数量(例如,30))时,优选地,对产生的用户可见区别性物体主题和前提断言对主题的组合进行排序。即,如图6中的虚线所示的,可选地,根据第二实施例的方法还可以包括排序步骤670,其通过对产生的用户可见区别性物体主题和前提断言对主题进行排序,从而最终为用户呈现一定数量的优选的主题。
一种排序方法基于在总的候选主题中的这两种主题的比例。例如,假设总共产生了33个用户可见区别性物体主题和22个前提断言对主题,而所要求的主题总数为30个。那么,可以选择输出30*(33/55)=18个用户可见区别性物体主题以及30*(22/55)=12个前提断言对主题。然后,可以通过例如该主题在知识库中的频率对选出的这30个主题进行排序。
另外,还可以根据主题中所有词的频率之和的平均来进行排序。另外,还可以通过例如频率、语法分数、相关性分数等中的一个或更多个来对这些主题进行排序。
如上所述,根据本发明的第二实施例的方法,通过将用户可见区别性物体主题和前提断言对主题结合,可以进一步提高主题的召回率,从而可以进一步有效地为用户提供期望的信息。
[第三实施例]
图8是例示了根据本发明的第三实施例的主题挖掘方法的流程图。
第三实施例与第一实施例、第二实施例的区别在于,除了挖掘用户可见区别性物体主题(可选地,还有前提断言对主题)之外,还对语言上依存主题进行了挖掘。通过将语言上依存主题与用户可见区别性物体主题结合,或者将语言上依存主题与用户可见区别性物体主题和前提断言对主题结合,可以进一步提高主题的召回率,从而可以进一步有效地为用户提供期望的信息。
图8中的用于产生用户可见区别性物体主题的步骤310-350和可选的用于产生前提断言对主题的步骤620-660与根据第二实施例的图6中的相应步骤相同,因此在第三实施例中省略了它们的重复描述。
图8中的步骤810-820用于产生语言上依存主题,所述语言上依存主题在本文中指的是字面上可直接分析出的依存主题。出于例示的目的,图8中的用于产生语言上依存主题的步骤810-820被示出为与用于产生用户可见区别性物体主题的步骤310-350和可选的用于产生前提断言对主题的步骤620-660并行地执行,然而其执行顺序不限于此。如本领域技术人员均能理解的,用于产生语言上依存主题的步骤810-820也可以在用于产生用户可见区别性物体主题和可选的前提断言对主题的步骤之前或之后被执行。
具体而言,在步骤810中,从所述至少一个知识库中识别至少一个满足预定依存表达的句子,其中所述依存表达描述句法单元之间的依存关系。
在步骤820中,产生所识别出的至少一个句子的语言上依存主题,所述语言上依存主题由所述句法单元和表示所述依存关系的链接组成。
在一种实施方式中,可以用如下具体操作来产生语言上依存主题。首先,针对在获取步骤310中所获取的句子识别组块作为句法单元。在这里“组块”意指围绕一个中心词的词组。中心词可以是名词、动词、形容词、介词等。然后,可以识别组块类别(即,标签(tag))和组块之间的句法依存关系。例如识别诸如主语、宾语、介词修饰等之类的组块之间的句法依存关系,如图9A所示。然后,可以基于预定的句法依存关系集来对所获取的句子进行过滤,从而获得满足预定依存表达的句子。然后,通过使用依存格式来产生由组块之间的链接组成的操作句子作为语言上依存主题,如图9B所示。
另外,为了方便用户观看以及选择,通常在产生的主题的总数较多(比如大于预定数量(例如,30))时,优选地,对产生的主题的组合进行排序。即,如图8中的虚线所示的,可选地,根据第三实施例的方法还可以包括排序步骤830,其通过对所产生的主题进行排序,从而最终为用户呈现一定数量的优选的主题。
如在第二实施例中一样,一种排序方法基于在总的候选主题中的这两种或三种主题的比例。然后,可以通过例如该主题在知识库中的频率对选出的这30个主题进行排序。
另外,还可以根据主题中所有词的频率之和的平均来进行排序。另外,还可以通过例如频率、语法分数、相关性分数等中的一个或更多个来对这些主题进行排序。
如上所述,根据本发明的第三实施例的方法,通过将语言上依存主题与用户可见区别性物体主题和可选的前提断言对主题结合,可以进一步提高主题的召回率,从而可以进一步有效地为用户提供期望的信息。
如上所述,通过例如根据第一、第二和第三实施例的主题挖掘方法和设备,可以有利地挖掘出隐含的用户查询主题,从而提高召回率。
下面将详细描述应用有根据本发明的主题挖掘方法和设备的查询扩展方法和设备。
(查询扩展方法和查询扩展设备)
图10是示出了根据本发明一个实施例的查询扩展方法的流程图。
如图10所示,在步骤1010中,接收自然语言形式的用户输入的查询,例如,如上所述的查询“调节图像质量”。
在步骤1020中,在至少一个知识库中检索基于所述查询的结果。该检索步骤可以利用本领域已知的任何技术来实现。例如可以采用全文检索方法、命名实体识别(Named Entity Recognition,NER)方法或关系抽取(Relation Extraction,RE)方法来进行检索。
在步骤1030中,通过如上所述的主题挖掘方法来从所述结果中挖掘出主题。如上所述,所述主题包括用户可见区别性物体主题,可选地进一步包括前提断言对主题,和/或,语言上依存主题。
在步骤1040中,获取基于所挖掘出的主题的查询。
图11是示出了根据本发明一个实施例的查询扩展设备的框图。
如图11所示,根据本发明的示例性实施例的查询扩展设备1100包括:接收部件1101、检索部件1102、如上所述的主题挖掘设备500和获取部件1104。
更具体而言,接收部件1101被配置为接收自然语言形式的用户输入的查询。
检索部件1102被配置为在至少一个知识库中检索基于所述查询的结果。
如上所述的主题挖掘设备500被配置为从所述结果中挖掘出主题。
获取部件1104被配置为获取基于所挖掘出的主题的查询。
该查询扩展设备1100中的各个部件可以被配置为执行图10中的流程图所示出的各个步骤。
图12示意性地例示了应用有根据本发明的一个示例性实施例的查询扩展方法的对话辅助系统的用户界面。用户通过该界面输入查询“调节图像质量”,并且通过点击根据本发明的查询扩展方法输出的相关问题来获得感兴趣的操作帮助。
以上描述的部件是用于实施本公开中描述的处理的示例性和/或优选的模块。这些部件可以是硬件单元(诸如现场可编程门阵列(FPGA)、数字信号处理器或专用集成电路等)和/或软件模块(诸如计算机可读程序)。以上并未详尽地描述用于实施各个步骤的部件。然而,只要有执行某个处理的步骤,就可以有用于实施同一处理的对应的功能模块或单元(由硬件和/或软件实施)。通过所描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都被包括在本申请的公开内容中,只要它们构成的这些技术方案是完整并且可应用的。
此外,由各种部件构成的上述设备500和1100可以作为功能模块被并入到诸如计算机、移动电话、手持装置等的电子装置中,只要在该电子装置中存在对于主题挖掘和查询扩展的需要即可。除了该设备500和1100之外,该电子装置当然可以具有其它硬件或者软件部件。
可以通过许多方式来实施本发明的方法和设备。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其它方式明确说明。此外,在一些实施例中,本发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以在不脱离本发明的范围和实质的情况下被修改。本发明的范围是通过所附的权利要求限定的。

Claims (40)

1.一种主题挖掘方法,包括:
获取步骤,从至少一个知识库中获取多个句子;
识别步骤,对于所获取的多个句子中的每个句子,识别与其关联的实体,其中所述实体指示物理物体或物理物体属性;
生成步骤,从与每个句子关联的实体中各提取一个实体生成一个或更多个实体组;
选择步骤,从所述一个或更多个实体组中选择具有最大区别度的一个实体组;以及
用户可见区别性物体主题输出步骤,输出与所获取的多个句子对应的用户可见区别性物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一个句子及其在所选的实体组中的对应实体来表示。
2.根据权利要求1所述的主题挖掘方法,其中所述识别步骤包括:
提取步骤,提取与所获取的多个句子关联的语言形式的候选实体;
规范化步骤,使所述语言形式的候选实体规范化;以及
唯一映射的实体获得步骤,通过删除与所获取的多个句子中的多于一个的句子关联的规范化的候选实体,来获得唯一映射的实体。
3.根据权利要求2所述的主题挖掘方法,其中所提取的候选实体属于多个物体类别,所述物体类别包括:设备组件类别、用户日常使用品类别、设备产品类别和功能消费品类别。
4.根据权利要求2所述的主题挖掘方法,其中所述唯一映射的实体获得步骤包括:
创建一组与所获取的多个句子关联的语言形式的用户个性化实体;
使该组语言形式的用户个性化实体规范化;
识别所述规范化的候选实体和该组规范化的用户个性化实体中的相同的实体;以及
删除与所获取的多个句子中的多于一个的句子关联的相同的实体。
5.根据权利要求1所述的主题挖掘方法,其中所述选择步骤包括:
计算每个实体组的区别度;以及
选择具有最大区别度的一个实体组。
6.根据权利要求5所述的主题挖掘方法,其中所述计算每个实体组的区别度的步骤包括:
计算每个实体组中的每个实体和所获取的多个句子中与其对应的句子之间的相关度。
7.根据权利要求6所述的主题挖掘方法,其中所述计算相关度的步骤包括:
提取每个实体与其对应的句子之间的相关性的证据。
8.根据权利要求5所述的主题挖掘方法,其中所述计算每个实体组的区别度的步骤包括:
使用一组代表实体的可观察程度的可观察特征来计算区别度。
9.根据权利要求5所述的主题挖掘方法,其中所述计算每个实体组的区别度的步骤包括:
使用一组代表用户对实体的熟悉程度的熟悉度特征来计算区别度。
10.根据权利要求5所述的主题挖掘方法,其中所述计算每个实体组的区别度的步骤包括:
使用一组距离特征来计算区别度,所述距离特征至少包括各对实体之间的语义距离,所述语义距离指示该对实体在某一语义源中的距离。
11.根据权利要求1所述的主题挖掘方法,其中所述用户可见区别性物体主题输出步骤包括:
针对所选的实体组中的每个实体,从所述至少一个知识库中的无结构的文本片段中提取语言表达模板;
通过使用所述语言表达模板来描述所选的实体组中的每个实体和所获取的多个句子中与其对应的句子,从而产生候选句子;以及
基于所述至少一个知识库,利用领域知识的语义约束和语法约束来对所述候选句子排序。
12.根据权利要求1所述的主题挖掘方法,其中所述获取步骤包括:
接收自然语言形式的查询作为输入;以及
在所述至少一个知识库中检索与所述查询匹配的句子。
13.根据权利要求1所述的主题挖掘方法,其中所述获取步骤包括:
接收所述至少一个知识库作为输入;
遍历所述至少一个知识库,并且获取所述至少一个知识库中的至少一个文本片段;以及
在所述至少一个知识库中检索与所述至少一个文本片段匹配的句子。
14.根据权利要求12或13所述的主题挖掘方法,其中所述获取步骤进一步包括:
将与所述查询匹配的句子或与所述至少一个文本片段匹配的句子按可实现的功能分组;以及
将所获得的每一组句子分别作为所述所获取的多个句子。
15.根据权利要求1所述的主题挖掘方法,还包括:
转换步骤,将所获取的多个句子中的至少一个转换为条件三元组形式的第一断言声明,其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属性的一个值构成;
产生步骤,针对第一断言声明产生条件三元组形式的假设,其中所产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值属性相同,所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值;
计算步骤,通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度,并且从所述假设中提取出一个或更多个假设作为第二断言声明,其中每个第二断言声明的置信度大于预定的第一阈值;
组合步骤,将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素的映射,并且验证所述映射是否是满射;以及
前提断言对主题输出步骤,在从所述多值属性到所述多模因素的映射是满射的情况下,输出表示所述多值属性是所述多模因素的前提的前提断言对主题。
16.根据权利要求1或15中的任意一项所述的主题挖掘方法,还包括:
从所述至少一个知识库中识别至少一个满足预定依存表达的句子,其中所述依存表达描述句法单元之间的依存关系;以及
产生所识别出的至少一个句子的语言上依存主题,所述语言上依存主题由所述句法单元和表示所述依存关系的链接组成。
17.根据权利要求15所述的主题挖掘方法,还包括:
通过对产生的用户可见区别性物体主题和前提断言对主题进行排序,呈现一定数量的主题。
18.根据权利要求16所述的主题挖掘方法,还包括:
通过对产生的用户可见区别性物体主题和语言上依存主题进行排序,呈现一定数量的主题;或者
通过对产生的用户可见区别性物体主题、语言上依存主题和前提断言对主题进行排序,呈现一定数量的主题。
19.根据权利要求1所述的主题挖掘方法,其中所述知识库包括如下中的至少一个:
计算机可读的文本文档;以及
计算机可读的领域本体。
20.一种查询扩展方法,包括:
接收自然语言形式的用户输入的查询;
在至少一个知识库中检索基于所述查询的结果;
根据权利要求1-19中的任意一项所述的主题挖掘方法,从所述结果中挖掘出主题;以及
获取基于所挖掘出的主题的查询。
21.一种主题挖掘设备,包括:
获取部件,被配置为从至少一个知识库中获取多个句子;
识别部件,被配置为,对于所获取的多个句子中的每个句子,识别与其关联的实体,其中所述实体指示物理物体或物理物体属性;
生成部件,被配置为从与每个句子关联的实体中各提取一个实体生成一个或更多个实体组;
选择部件,被配置为从所述一个或更多个实体组中选择具有最大区别度的一个实体组;以及
用户可见区别性物体主题输出部件,被配置为输出与所获取的多个句子对应的用户可见区别性物体主题,其中每个用户可见区别性物体主题通过利用所获取的多个句子中的一个句子及其在所选的实体组中的对应实体来表示。
22.根据权利要求21所述的主题挖掘设备,其中所述识别部件包括:
提取部件,被配置为提取与所获取的多个句子关联的语言形式的候选实体;
规范化部件,被配置为使所述语言形式的候选实体规范化;以及
唯一映射的实体获得部件,被配置为通过删除与所获取的多个句子中的多于一个的句子关联的规范化的候选实体来获得唯一映射的实体。
23.根据权利要求22所述的主题挖掘设备,其中所提取的候选实体属于多个物体类别,所述物体类别包括:设备组件类别、用户日常使用品类别、设备产品类别和功能消费品类别。
24.根据权利要求22所述的主题挖掘设备,其中所述唯一映射的实体获得部件包括:
被配置为创建一组与所获取的多个句子关联的语言形式的用户个性化实体的部件;
被配置为使该组语言形式的用户个性化实体规范化的部件;
被配置为识别所述规范化的候选实体和该组规范化的用户个性化实体中的相同的实体的部件;以及
被配置为删除与所获取的多个句子中的多于一个的句子关联的相同的实体的部件。
25.根据权利要求21所述的主题挖掘设备,其中所述选择部件包括:
被配置为计算每个实体组的区别度的部件;以及
被配置为选择具有最大区别度的一个实体组的部件。
26.根据权利要求25所述的主题挖掘设备,其中所述被配置为计算每个实体组的区别度的部件包括:
被配置为计算每个实体组中的每个实体和所获取的多个句子中与其对应的句子之间的相关度的部件。
27.根据权利要求26所述的主题挖掘设备,其中所述被配置为计算相关度的部件包括:
被配置为提取每个实体与其对应的句子之间的相关性的证据的部件。
28.根据权利要求25所述的主题挖掘设备,其中所述被配置为计算每个实体组的区别度的部件包括:
被配置为使用一组代表实体的可观察程度的可观察特征来计算区别度的部件。
29.根据权利要求25所述的主题挖掘设备,其中所述被配置为计算每个实体组的区别度的部件包括:
被配置为使用一组代表用户对实体的熟悉程度的熟悉度特征来计算区别度的部件。
30.根据权利要求25所述的主题挖掘设备,其中所述被配置为计算每个实体组的区别度的部件包括:
被配置为使用一组距离特征来计算区别度的部件,所述距离特征至少包括各对实体之间的语义距离,所述语义距离指示该对实体在某一语义源中的距离。
31.根据权利要求21所述的主题挖掘设备,其中所述用户可见区别性物体主题输出部件包括:
被配置为,针对所选的实体组中的每个实体,从所述至少一个知识库中的无结构的文本片段中提取语言表达模板的部件;
被配置为,通过使用所述语言表达模板来描述所选的实体组中的每个实体和所获取的多个句子中与其对应的句子,从而产生候选句子的部件;以及
被配置为,基于所述至少一个知识库,利用领域知识的语义约束和语法约束来对所述候选句子排序的部件。
32.根据权利要求21所述的主题挖掘设备,其中所述获取部件包括:
被配置为接收自然语言形式的查询作为输入的部件;以及
被配置为在所述至少一个知识库中检索与所述查询匹配的句子的部件。
33.根据权利要求21所述的主题挖掘设备,其中所述获取部件包括:
被配置为接收所述至少一个知识库作为输入的部件;
被配置为遍历所述至少一个知识库并且获取所述至少一个知识库中的至少一个文本片段的部件;以及
被配置为在所述至少一个知识库中检索与所述至少一个文本片段匹配的句子的部件。
34.根据权利要求32或33所述的主题挖掘设备,其中所述获取部件进一步包括:
被配置为将与所述查询匹配的句子或与所述至少一个文本片段匹配的句子按可实现的功能分组的部件;以及
被配置为将所获得的每一组句子分别作为所述所获取的多个句子的部件。
35.根据权利要求21所述的主题挖掘设备,还包括:
转换部件,被配置为将所获取的多个句子中的至少一个转换为条件三元组形式的第一断言声明,其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属性的一个值构成;
产生部件,被配置为针对第一断言声明产生条件三元组形式的假设,其中所产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值属性相同,所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值;
计算部件,被配置为通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度,并且从所述假设中提取出一个或更多个假设作为第二断言声明,其中每个第二断言声明的置信度大于预定的第一阈值;
组合部件,被配置为将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素的映射,并且验证所述映射是否是满射;以及
前提断言对主题输出部件,被配置为在从所述多值属性到所述多模因素的映射是满射的情况下,输出表示所述多值属性是所述多模因素的前提的前提断言对主题。
36.根据权利要求21或35中的任意一项所述的主题挖掘设备,还包括:
被配置为从所述至少一个知识库中识别至少一个满足预定依存表达的句子的部件,其中所述依存表达描述句法单元之间的依存关系;以及
被配置为产生所识别出的至少一个句子的语言上依存主题的部件,所述语言上依存主题由所述句法单元和表示所述依存关系的链接组成。
37.根据权利要求35所述的主题挖掘设备,还包括:
被配置为通过对产生的用户可见区别性物体主题和前提断言对主题进行排序来呈现一定数量的主题的部件。
38.根据权利要求36所述的主题挖掘设备,还包括:
被配置为通过对产生的用户可见区别性物体主题和语言上依存主题进行排序来呈现一定数量的主题的部件;或者
被配置为通过对产生的用户可见区别性物体主题、语言上依存主题和前提断言对主题进行排序来呈现一定数量的主题的部件。
39.根据权利要求21所述的主题挖掘设备,其中所述知识库包括如下中的至少一个:
计算机可读的文本文档;以及
计算机可读的领域本体。
40.一种查询扩展设备,包括:
接收部件,被配置为接收自然语言形式的用户输入的查询;
检索部件,被配置为在至少一个知识库中检索基于所述查询的结果;
根据权利要求21-39中的任意一项所述的主题挖掘设备,被配置为从所述结果中挖掘出主题;以及
获取部件,被配置为获取基于所挖掘出的主题的查询。
CN201310303056.XA 2013-07-18 2013-07-18 主题挖掘方法和设备、以及查询扩展方法和设备 Active CN104298683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310303056.XA CN104298683B (zh) 2013-07-18 2013-07-18 主题挖掘方法和设备、以及查询扩展方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310303056.XA CN104298683B (zh) 2013-07-18 2013-07-18 主题挖掘方法和设备、以及查询扩展方法和设备

Publications (2)

Publication Number Publication Date
CN104298683A true CN104298683A (zh) 2015-01-21
CN104298683B CN104298683B (zh) 2017-11-28

Family

ID=52318411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310303056.XA Active CN104298683B (zh) 2013-07-18 2013-07-18 主题挖掘方法和设备、以及查询扩展方法和设备

Country Status (1)

Country Link
CN (1) CN104298683B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701182A (zh) * 2016-01-07 2016-06-22 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN105824872A (zh) * 2015-01-27 2016-08-03 国际商业机器公司 基于搜索的数据的检测、链接和获取的方法和系统
CN106339401A (zh) * 2015-07-16 2017-01-18 富士通株式会社 确定实体之间的关系的方法和设备
CN108345625A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN108959550A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 用户关注点挖掘方法、装置、设备及计算机可读介质
CN109271459A (zh) * 2018-09-18 2019-01-25 四川长虹电器股份有限公司 基于Lucene和文法网络的聊天机器人及其实现方法
CN109977235A (zh) * 2019-04-04 2019-07-05 吉林大学 一种触发词的确定方法和装置
CN113536947A (zh) * 2021-06-21 2021-10-22 中山市希道科技有限公司 一种人脸属性分析方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1231742A (zh) * 1996-07-19 1999-10-13 微软公司 智能用户辅助设备
US20080091408A1 (en) * 2006-10-06 2008-04-17 Xerox Corporation Navigation system for text
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
US20100076996A1 (en) * 2005-03-24 2010-03-25 The Mitre Corporation System and method for audio hot spotting
CN102368246A (zh) * 2011-09-15 2012-03-07 张德长 一种自动应答机器人系统
CN103092979A (zh) * 2013-01-31 2013-05-08 中国科学院对地观测与数字地球科学中心 遥感数据检索自然语言的处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1231742A (zh) * 1996-07-19 1999-10-13 微软公司 智能用户辅助设备
US20100076996A1 (en) * 2005-03-24 2010-03-25 The Mitre Corporation System and method for audio hot spotting
US20080091408A1 (en) * 2006-10-06 2008-04-17 Xerox Corporation Navigation system for text
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN102368246A (zh) * 2011-09-15 2012-03-07 张德长 一种自动应答机器人系统
CN103092979A (zh) * 2013-01-31 2013-05-08 中国科学院对地观测与数字地球科学中心 遥感数据检索自然语言的处理方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242046B2 (en) 2015-01-27 2019-03-26 International Business Machines Corporation Search-based detection, link, and acquisition of data
CN105824872A (zh) * 2015-01-27 2016-08-03 国际商业机器公司 基于搜索的数据的检测、链接和获取的方法和系统
US10318527B2 (en) 2015-01-27 2019-06-11 International Business Machines Corporation Search-based detection, link, and acquisition of data
CN106339401A (zh) * 2015-07-16 2017-01-18 富士通株式会社 确定实体之间的关系的方法和设备
CN105701182A (zh) * 2016-01-07 2016-06-22 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN108345625A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN108345625B (zh) * 2017-01-25 2022-09-30 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN108959550A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 用户关注点挖掘方法、装置、设备及计算机可读介质
CN108959550B (zh) * 2018-06-29 2022-03-25 北京百度网讯科技有限公司 用户关注点挖掘方法、装置、设备及计算机可读介质
CN109271459A (zh) * 2018-09-18 2019-01-25 四川长虹电器股份有限公司 基于Lucene和文法网络的聊天机器人及其实现方法
CN109977235A (zh) * 2019-04-04 2019-07-05 吉林大学 一种触发词的确定方法和装置
CN109977235B (zh) * 2019-04-04 2022-10-25 吉林大学 一种触发词的确定方法和装置
CN113536947A (zh) * 2021-06-21 2021-10-22 中山市希道科技有限公司 一种人脸属性分析方法及装置

Also Published As

Publication number Publication date
CN104298683B (zh) 2017-11-28

Similar Documents

Publication Publication Date Title
Delpeuch Opentapioca: Lightweight entity linking for wikidata
CN104298683B (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
Ghahremanlou et al. Geotagging twitter messages in crisis management
EP2410445A1 (en) A method for creating a dynamic relationship
KR102128659B1 (ko) 키워드 추출 및 요약문 생성 시스템 및 방법
CN103544242A (zh) 面向微博的情感实体搜索系统
CN106055545A (zh) 文本挖掘系统及工具
CN107679035B (zh) 一种信息意图检测方法、装置、设备和存储介质
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
KR100995861B1 (ko) 온톨로지 스키마와 결합된 개체명 사전 및 마이닝 규칙을 이용한 용어의 개체명 결정모듈 및 방법
JP2009099124A (ja) データ構築方法とシステム
Arias et al. A framework for managing requirements of software product lines
CN104462326A (zh) 人物关系分析方法、提供人物信息的方法及装置
US8140464B2 (en) Hypothesis analysis methods, hypothesis analysis devices, and articles of manufacture
Menezes et al. Building a massive corpus for named entity recognition using free open data sources
KR20160066216A (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
Rawat et al. Topic modelling of legal documents using NLP and bidirectional encoder representations from transformers
CN104298676A (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
Kumar et al. A summarization on text mining techniques for information extracting from applications and issues
CN111542815A (zh) 用于挖掘文本文档以识别开创性问题和开创性案件的系统、方法和计算机程序产品
Rusu et al. Document visualization based on semantic graphs
Xiao Towards a two-phase unsupervised system for cybersecurity concepts extraction
KR20220041337A (ko) 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
Tovar et al. Identification of Ontological Relations in Domain Corpus Using Formal Concept Analysis.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant