CN102163215A - 来自文档概述的问题概念的本体分类 - Google Patents

来自文档概述的问题概念的本体分类 Download PDF

Info

Publication number
CN102163215A
CN102163215A CN2011100632582A CN201110063258A CN102163215A CN 102163215 A CN102163215 A CN 102163215A CN 2011100632582 A CN2011100632582 A CN 2011100632582A CN 201110063258 A CN201110063258 A CN 201110063258A CN 102163215 A CN102163215 A CN 102163215A
Authority
CN
China
Prior art keywords
entity
asserting
document
relation
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100632582A
Other languages
English (en)
Other versions
CN102163215B (zh
Inventor
V·瓦德拉曼尼
A·斯里瓦斯塔瓦
T·纳杰姆
M·斯里坎斯
P·瓦达迪
A·C·萨瑞德兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102163215A publication Critical patent/CN102163215A/zh
Application granted granted Critical
Publication of CN102163215B publication Critical patent/CN102163215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明描述了一种来自文档概述的问题概念的本体分类。分析电子文档来标识断言,逆转这些断言来生成可由断言回答的问题。可以分析文档或电子文档语料库来标识文档的文本内的各实体以及各实体之间的关系。基于各实体以及各实体之间的关系来标识断言。每一断言表示关于实体的一个事实,并且一组断言表示文档或文档语料库的概述。逆转断言来生成可由这些断言回答的问题。还可以进一步分析这些问题来标识相关概念和话题并围绕这些概念和话题来对问题进行聚类。还可以生成便于在话题、概念、问题、断言、文档概述和文档之间遍历的组合图。

Description

来自文档概述的问题概念的本体分类
技术领域
本发明涉及搜索技术,尤其涉及搜索中的分类技术。
背景技术
尽管计算机系统能够存储大量信息,但用户常常难以找到特定信息或有效地探索感兴趣的特定主题。关于事件或话题的信息通常跨多个电子文档分布,这些电子文档可能被存储在不同的位置。由此,关于事件或话题的事实的断言通常跨多个文档分布,使得要聚集和形成关于该事件或话题的连贯知识单元是困难的。此外,即使在标识了关于事件或话题的事实的情况下,它们通常不被组织成有意义的聚类以形成较高水平的理解和表示。当试图清楚表达可由电子文档语料库回答的话题和问题类别时,这提出了巨大的挑战。
发明内容
提供本发明内容是为了以精简的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在用于帮助确定所要求保护的主题的范围。
本发明的各实施例涉及标识文档中的断言并逆转这些断言以生成可由文档中的断言所回答的问题。在分析文档或文档语料库时,从文本中标识各实体以及各实体之间的关系。基于所提取的实体和关系来生成关于各实体的事实的断言。逆转这些断言来生成可由这些断言回答的问题。在某些实施例中,围绕问题所涉及的概念和话题来对各问题进行分组。还可以生成便于在话题、概念、问题、断言、文档概述和文档之间遍历的组合图。
附图说明
下面参考附图详细描述本发明,附图中:
图1是适用于实现本发明的各实施例的示例性计算环境的框图;
图2是示出其中可以使用本发明各实施例的示例性系统的框图;
图3是根据本发明的一实施例的示出组合图的遍历的框图;以及
图4是根据本发明的一实施例的示出用于分析文档以标识断言和问题的总体方法的流程图。
具体实施方式
此处用细节来描述本发明的主题以满足法定要求。然而,该描述本身并非旨在限制本专利的范围。相反,发明人设想所要求保护的主题还可结合其他当前或未来技术按照其他方式来具体化,以包括不同的步骤或类似于本文中所描述的步骤的步骤组合。此外,尽管术语“步骤”和/或“框”可在此处用于指示所采用的方法的不同元素,但除非而且仅当明确描述了各个步骤的顺序时,该术语不应被解释为意味着此处公开的各个步骤之中或之间的任何特定顺序。
本发明的各实施例一般涉及从文档中提取断言并逆转断言以生成可由所提取的断言回答的相应问题。在分析文档或文档语料库时,从文档文本中提取各实体以及各实体之间的关系。另外,基于所提取的实体和关系来标识断言。每一断言表示关于实体的一个事实。有效断言的集合表示正被分析的文档或文档语料库的概述。
逆转断言来提供可由来自文档或文档语料库的断言回答的一组问题。在某些实施例中,进一步分析这些问题来标识相关概念和话题,并且这些问题可围绕概念和话题来被聚类。生成允许从多个有利点遍历节点的组合图。例如,可以从话题到概念、到问题、到断言、到概述再到文档来遍历该图。可以从任何位置按任何方向来遍历该图。
从本发明的各实施例所生成的信息可以在多个实际应用中使用。一般而言,各实施例提供了可以基于用户意图来遍历的信息的储存库。例如,在将问题提交给搜索引擎时,可以标识由逆转过程所生成的相应问题并且用这些相应问题来确定这些问题的回答以及从中导出这些回答的文档。作为另一示例,可以使用从本发明的各实施例所导出的信息来增强可用来向用户提供知识内容的知识库中的知识。
因而,在一方面,本发明的一实施例涉及存储计算机可用指令的一个或多个计算机可读介质,这些指令在由一个或多个计算设备使用时,使得该一个或多个计算设备执行一种方法。该方法包括标识包括一个或多个文档的文档语料库。该方法还包括提取一个或多个文档的文本内的各实体并基于一个或多个文档的文本来提取各实体之间的关系。该方法还包括基于从一个或多个文档的文本中提取的实体和关系来标识多个断言。该方法又包括逆转该多个断言来生成多个问题。
在另一实施例中,本发明的一方面涉及包括一个或多个处理器和一个或多个计算机存储介质的计算机系统。该计算机系统包括文档分析器、问题生成器和概念/话题引擎。文档分析器分析文档并标识文档的文本中的各实体及其之间的关系,其中文档分析器还基于从文档的文本中标识的各实体和关系来标识各断言。问题生成器逆转这些断言来生成可由这些断言回答的多个问题。概念/话题引擎标识与该多个问题相关联的概念和/或话题并围绕这些概念和/或话题来对这些问题进行聚类。
本发明的又一实施例涉及存储计算机可用指令的一个或多个计算机可读介质,这些指令在由一个或多个计算设备使用时,使得该一个或多个计算设备执行一种方法。该方法包括接收一个或多个文档,解析该一个或多个文档来标识各句子,并且分析这些句子来将句子的子集标识为指示由一个或多个文档讨论的事件或话题的重要句子。该方法还包括从重要句子的文本中标识各实体以及各实体之间的关系,并且基于所标识的各实体及关系来创建实体-关系图,其中实体-关系图中的各节点表示各实体,并且其中实体-关系图中的各节点之间的边表示各实体之间的关系。该方法还包括通过分析实体-关系图来标识多个断言。该方法还包括逆转该多个断言来生成多个问题并且基于该多个问题来生成问题图。该方法进一步包括分析问题图中的问题来标识与这些问题相关联的相关概念和/或话题,并围绕该相关概念和/或话题来对这些问题进行聚类。该方法又包括生成允许在各概念和/或话题、问题、断言以及一个或多个文档之间遍历的组合图。
在简要描述了本发明各实施方式的概览之后,以下描述其中可实现本发明的各实施方式的示例性操作环境,以便为本发明各方面提供通用上下文。首先具体参考图1,示出了用于实现本发明的各实施方式的示例性操作环境,并将其概括地指定为计算设备100。计算设备100只是合适的计算环境的一个示例,并且不旨在对本发明的使用范围或功能提出任何限制。也不应该将计算设备100解释为对所示出的任一组件或其组合有任何依赖性或要求。
本发明可以在由计算机或诸如个人数据助理或其他手持式设备之类的其他机器执行的计算机代码或机器可使用指令(包括诸如程序模块之类的计算机可执行指令)的一般上下文中描述。一般而言,包括例程、程序、对象、组件、数据结构等的程序模块指的是执行特定任务或实现特定抽象数据类型的代码。本发明可以在各种系统配置中实施,这些系统配置包括手持式设备、消费电子产品、通用计算机、专用计算设备等等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实施。
参考图1,计算设备100包括直接或间接耦合以下设备的总线110:存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出端口118、输入/输出组件120、和说明性电源122。总线110表示一条或多条总线(诸如地址总线、数据总线、或其组合)。虽然为了清楚起见利用线条示出了图1的各个框,但实际上,这些框表示逻辑组件而不一定是实际组件。例如,可以将诸如显示设备等的呈现组件认为是I/O组件。而且,处理器具有存储器。可以认识到,这是本领域的特性,并且重申,图1的图示只是例示可结合本发明的一个或多个实施方式来使用的示例性计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等分类之间没有区别,它们全部都被认为是在图1的范围之内的并且被称为“计算设备”。
计算设备100通常包括各种计算机可读介质。计算机可读介质可以是可由计算机设备100访问的任何可用介质,且包括用任何方法和技术实现以存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性介质、可移动和不可移动介质。计算机可读介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并且可由计算设备100访问的任何其它介质。上述的任意组合也应包含在计算机可读介质的范围内。
存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的、不可移动的、或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括从诸如存储器112或I/O组件120之类的各种实体读取数据的一个或多个处理器。呈现组件116向用户或其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等等。
I/O端口118允许计算设备100在逻辑上耦合至包括I/O组件120的其他设备,其中某些设备可以是内置的。说明性组件包括话筒、操纵杆、游戏垫、圆盘式卫星天线、扫描仪、打印机、无线设备等等。
如先前所指示的,本发明的各实施例涉及标识文档中的断言并逆转这些断言以生成可这些断言所回答的问题。现参考图2,提供了示出在其中可以采用本发明的各实施方式的示例性系统200的框图。应当理解,此处所描述的这一和其他安排仅作为示例来阐明。除了所示的安排和元素之外,或作为其替代,可使用其他安排和元素(例如,机器、接口、功能、次序、以及功能组等),并且可完全省略某些元素。此外,此处所描述的许多元素是可以实现为分立或分布式组件或结合其他组件来实现的、以及以任何合适的组合和在任何合适的位置的功能实体。此处被描述为由一个或多个实体执行的各种功能可由硬件、固件和/或软件来执行。例如,各种功能可由执行存储在存储器中的指令的处理器来执行。
系统200可以包括文档分析器204、问题生成器206和概念/话题引擎208,以及未示出的其他组件。图2所示的组件中的每一个都可以驻留在任何类型的计算设备上,诸如例如参考图1描述的计算设备100。各组件可以驻留在单个计算设备上或多个计算设备上,该多个计算设备可以经由分布式计算环境中的网络(未示出)来彼此通信。另外,在系统200内还可包括其他未示出的组件。
根据本发明的各实施例,系统200用于分析文档集合202中的一个或多个文档以从各文档中提取断言并基于这些断言来生成问题。来自文档语料库202的文档最初使用文档分析器204来分析。
如图2所示,文档分析器204包括实体提取组件212、关系提取组件214和断言标识组件214。实体提取组件210用于标识正被分析的文档的文本内的各实体,而关系提取组件212标识所提取的各实体之间的关系。
在某些实施例中,实体提取组件210和关系提取组件212在正被分析的文档的整个文本上操作。在其他实施例中,实体提取组件210和关系提取组件212仅在正被分析的文档的一部分上操作。例如,在一个实施例中,最初处理文档中包含的句子,并且标识指示正被讨论的事件或话题的重要句子。在这些实施例中,实体提取组件210和关系提取组件212仅从重要句子中提取各实体和关系。
在某些实施例中,可以使用来自本体存储226的一个或多个本体来便于从文档语料库202中对重要句子的选择和/或对各实体和关系的提取。每一本体可以包括定义各概念以及各概念之间的关系的词和短语的集合。本体中的概念和关系与表征对应于句子中的概念、特定类型的实体及关系的实例的出现的词汇、句法和语义模式的模型相关联。可以使用这些模型来从句子中检测和提取概念、实体和关系的出现。
断言标识组件214用于基于由实体提取组件210和关系提取组件212所提取的各实体和关系来从正被分析的文档的文本中标识断言。在某些实施例中,基于所提取的实体和关系生成实体-关系图。实体-关系图中的各节点表示所提取的各实体,而各节点之间的边表示所提取的关系。断言可以通过分析各实体之间的关系来从实体-关系图中标识。每一断言表示关于实体的一个事实。断言的集合可以被认为是正被分析的文档的概述。另外,可以使用断言的集合来生成断言图216,该图还可以标识与每一断言相关联的实体和文档。
问题生成器206进一步处理断言来从这些断言中生成问题。问题生成器206包括用于逆转断言来生成问题的断言逆转器218。可以用本发明的各实施例的范围内的多种不同的方式来逆转断言以形成问题。在某些实施例中,可以使用基于规则的变换来逆转断言。规则可以基于断言的实体和/或关系的类型来指定问题的类型(例如,基于断言的实体和/或关系的类型,指定如谁、哪里、何时、什么、为什么、怎样等问题类型)。例如,当断言的实体是一个人时,逆转可以生成一个“谁”问题。作为另一示例,当断言的实体是一个位置时,逆转可以生成一个“哪里”问题。作为又一示例,当断言的实体是一个日期时,逆转可以生成一个“何时”问题。规则还可以基于断言的主语和/或谓词来确定问题的类型。在其他实施例中,可以采用诸如例如机器学习技术之类的更复杂的算法来逆转断言以生成问题。
在各实施例中,问题生成器206提供问题图220,问题图220包括通过逆转来自断言图216的断言所生成的问题集合。问题图220随后由概念/话题引擎208来操作。概念/话题引擎208包括分析问题图220中的问题来标识与这些问题相关的概念和话题的概念/话题标识组件222。问题可以基于所标识的概念和话题来聚类。在某些实施例中,概念/话题组件222充分利用来自本体存储226的域本体来标识与问题相关的概念和话题。例如,可以按照从句子中提取概念和关系的相同的方式来检测和提取问题中的这些信息。这些概念和关系被映射到一个或多个域本体中的概念。本体中的某些概念被标识为话题概念,或者本体描述了感兴趣的特定话题中的概念。这种到域/话题概念的映射标识了给定问题中的相关概念和话题。
基于由系统200所执行的过程,生成允许从多个有利点遍历各节点的组合图224。作为说明,图3示出根据本发明的一个实施例所生成的组合图的遍历。如图3所示,图可以从话题302、到概念304、到问题306、到断言308、到文档概述310再到文档312来遍历。可以从任何位置按任何方向来遍历该图。
转向图4,提供了示出根据本发明的一个实施例的用于标识文档中的断言并从断言中生成问题的方法400的流程图。如框402所示,最初处理正被分析的文档,这可以包括解析文档来标识各个句子。
分析各个句子来标识指示该文档讨论的事件或话题的重要句子,如框404所示。重要句子可以使用根据本发明的各实施例的多种不同的方法来标识。在一个实施例中,重要句子通过分析词出现在文档中的频率来标识。出现得最频繁(在过滤掉无用词之后)的词被确定为重要的词并且被用来标识重要句子。在某些实施例中,词还可以基于它们出现在文档中的位置(例如,标题中、第一段、中间段落等等)来加权。标识重要句子的另一种方法可以包括使用包含重要概念和词的词典的本体或知识库。含有来自本体或知识库的重要概念和词的句子被标识为重要的。
可以基于诸如以上所指示的这些因素(例如,基于词的重要性、词的频率等等)来为每一句子生成分数。句子可以基于相应的分数来排序,使用这些分数来对句子排定优先级。多个句子基于分数可以被标识为重要句子并且被选择以供进一步处理。在某些实施例中,选择前N个句子以供进一步处理。在其他实施例中,选择带有满足预定阈值的分数的句子。在另一些实施例中,选择带有远高于其他句子的分数的分数的句子。任何及所有这样的组合都被构想为落在本发明的各实施例的范围内。
进一步分析重要句子来提取实体和关系,如框406所示。在一个实施例中,可以使用一个或多个本体来从句子中提取实体和关系。本体中的概念和关系与表征对应于句子中的概念、特定类型的实体及关系的实例的出现的词汇、句法和语义模式的模型相关联。可以使用这些模型来从句子中检测和提取概念、实体和关系的出现。
使用所提取的实体和关系来生成实体-关系图,如框408所示。实体-关系图中的各节点表示各实体,而各节点之间的边表示各实体之间的关系。
使用实体-关系图来标识断言,如框410所示。一般而言,断言包括关于一个或多个实体的事实。断言可以基于实体-关系图中一个实体与另一实体的关系。文档的有效断言的集合可以被认为是文档的概述。
逆转断言来创建问题,如框412所示。可以用根据本发明的各实施例的多种不同的方法来逆转断言以形成问题。在一个实施例中,逆转断言来生成问题可能涉及实体-关系图的变换。这可以包括基于规则的变换。变换中所使用的规则可以基于断言的实体和/或关系的类型来规定问题的类型(例如,基于断言的实体和/或关系的类型,来规定谁、哪里、何时、什么、为什么、怎样等问题类型)。例如,当断言的实体是一个人时,逆转可以生成一个“谁”问题。作为另一示例,当断言的实体是一个位置时,逆转可以生成一个“哪里”问题。作为又一示例,当断言的实体是一个日期时,逆转可以生成一个“何时”问题。规则还可以基于断言的主语和/或谓词来确定问题的类型。在其他实施例中,可以采用诸如例如机器学习技术之类的更复杂的算法来逆转断言以生成问题。
将通过逆转断言所生成的问题集合存储在问题图中,如框414所示。使用域本体来进一步分析问题以生成对问题的更好的理解,如框416所示。该过程包括标识问题所涉及的概念和话题。作为结果,问题可以围绕较高级的概念和话题来聚类。在各实施例中,问题中的概念和话题通过采用本体来标识。问题概念被映射到本体中的概念。随后用本体中的不同分层结构来组织概念,其中每一分层结构表示如“是一种(IS-A)”之类的本体关系(例如,‘轿车’是一种‘汽车’)。每一问题由本体中的概念的选择或子图来表示。问题概念到本体中较高阶的概念的投影对这些问题进行聚类。例如,带有概念‘轿车’、‘卡车’、‘货车’的问题被聚类在概念‘汽车’处。可以使用与问题概念和关系相关联的权重来度量聚类中成员的相关性。
在框418处生成可以从话题/概念、到问题、到断言、到文档概述再到文档来遍历的组合图。
提供以下示例来说明根据本发明的某些实施例的操作。例如,假设分析讨论了微软公司收购aQuantive公司的新闻公告。文档的分析可以从文档中标识以下句子。这些句子可以包括文档的所有句子,或者可以仅仅是来自文档的句子的子集(例如,句子被标识为来自文档的重要句子)。
·今天,微软公司宣布该公司正在收购aQuantive公司。
·aQuantive公司是在线显示广告代理和技术公司。
·Steve Ballmer,微软公司的CEO宣称对于aQuantive公司6亿美元的价码将使得微软公司成为在线显示广告行业的有力竞争者。
·作为收购的结果,微软公司将成立管理广告业务的新部门。
·Brian McAndrews,aQuantive的CEO将担任新成立的广告部门的高级广告副总裁的职位。
分析来自该新闻公告的这些句子来标识和提取各实体以及各实体之间的关系。基于所提取的实体和关系,标识多个断言。例如,以下提供了包括从在以上句子中找到的实体和关系中导出的多个断言的列表。
·微软公司正在用6亿美元收购aQuantive公司。
·Steve Ballmer是微软公司的CEO。
·Brian McAndrews是aQuantive公司的CEO。
·Brian McAndrews将出任微软公司新成立的广告部门的高级副总裁。
每一断言可以被表示为实体和关系的集合,例如如下所示:
·<公司:微软><关系:收购><公司:aQuantive><关系:收购价格><价格:6亿美元>
·<人物:Steve Ballmer><关系:是><公司:微软><关系:的><职位:CEO>
·<人物:Brian McAndrews><关系:是><公司:aQuantive><关系:的><职位:CEO>
可以逆转断言来生成多个问题。例如,以下是可以通过逆转以上断言示例中的某些来生成的问题的示例:
·什么公司收购aQuantive公司?
·aQuantive公司的收购价是多少?
·谁是微软公司的CEO?
·谁是aQuantive公司的CEO?
如上所讨论的,还可以进一步处理通过逆转断言所生成的问题来标识可用于对这些问题进行聚类的相关概念和话题。在以上示例中,所标识的相关概念和话题可以包括收购、技术和广告。问题可以围绕这些概念和话题来聚类。
如先前所理解的,本发明的各实施例提供了从文档中标识断言并逆转这些断言以生成可这些断言所回答的问题。参考各具体实施例描述了本发明,各具体实施例在所有方面都旨在是说明性的而非限制性的。在不偏离本发明范围的情况下,各替换实施例对于本发明所属领域的技术人员将变得显而易见。
从前面的描述可以看出,本发明很好地适用于实现上文所阐述的所有目的和目标,并且具有对于该系统和方法是显而易见且固有的其他优点。也可理解特定的特征和子组合是有用的,并且可以加以利用而无需参考其他特征和子组合。这由权利要求所构想的,并在权利要求的范围内。

Claims (15)

1.一个或多个存储计算机可使用指令的计算机可读介质,所述指令在由一个或多个计算设备使用时使得所述一个或多个计算设备执行一种方法,所述方法包括:
标识(202)包括一个或多个文档的文档语料库;
提取(406)所述一个或多个文档的文本内的实体;
基于所述一个或多个文档的文本来提取(406)实体之间的关系;
基于从所述一个或多个文档的文本中提取的实体和关系来标识(410)多个断言;以及
逆转(412)所述多个断言来生成多个问题。
2.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述方法还包括解析所述一个或多个文档来标识多个句子,并且分析所述多个句子来标识重要句子,其中所述实体和关系从所述重要句子中提取,其中所述重要句子通过从以下动作中选择的至少一个动作来标识:
分析词出现在所述一个或多个文档的每一句子中的频率;以及
使用重要概念和词的字典来标识含有来自所述重要概念和词的字典的重要概念和词的句子。
3.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述方法还包括使用从所述一个或多个文档的文本中提取的所述实体和关系来生成实体-关系图,其中所述实体-关系图中的节点表示实体,并且其中所述实体-关系图中的节点之间的边表示实体之间的关系,并且其中基于从所述一个或多个文档的文本中提取的所述实体和关系来标识所述多个断言包括通过分析所述实体-分析图来标识所述多个断言。
4.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述多个断言包括所述一个或多个文档的概述。
5.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述方法还包括基于所述多个断言来生成断言图。
6.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述实体和文档用所述断言图中的断言来标识。
7.如权利要求1所述的一个或多个计算机可读介质,其特征在于,逆转所述多个断言来生成所述多个问题包括使用基于规则的变换来逆转所述多个断言来生成所述多个问题,其中所述基于规则的变换是在基于断言的实体的类型来规定问题的类型的多个规则的基础上的。
8.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述方法还包括从所述多个问题中生成问题图。
9.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述方法还包括:
标识与所述多个问题相关联的话题;
围绕所述话题来对所述问题进行聚类;以及
生成允许在所述话题、所述问题、所述断言以及所述一个或多个文档之间遍历的组合图。
10.一种包括一个或多个处理器和一个或多个计算机存储介质的计算机系统,所述计算机系统包括:
分析文档并标识所述文档的文本中的实体以及实体之间的关系的文档分析器(204),其中所述文档分析器还基于从所述文档的文本中标识的所述实体和关系来标识断言;
逆转所述断言来生成可由所述断言回答的多个问题的问题生成器(206);以及
标识与所述多个问题相关联的概念和/或话题并围绕所述概念和/或话题来对问题进行聚类的概念/话题引擎(208)。
11.如权利要求10所述的计算机系统,其特征在于,所述文档分析器将来自所述文档的句子的子集标识为重要句子,并且从所述重要句子中标识所述实体和关系。
12.如权利要求10所述的计算机系统,其特征在于,所述问题生成器通过使用基于规则的变换来逆转所述多个断言来生成所述多个问题来逆转所述断言来生成所述多个问题,其中所述基于规则的变换是在基于断言的实体的类型来规定问题的类型的多个规则的基础上的。
13.如权利要求10所述的计算机系统,其特征在于,所述概念/话题引擎生成允许在所述概念和/或话题、所述问题、所述断言以及所述文档之间遍历的组合图。
14.一个或多个存储计算机可使用指令的计算机可读介质,所述指令在由一个或多个计算设备使用时使得所述一个或多个计算设备执行一种方法,所述方法包括:
接收(202)一个或多个文档;
解析(402)所述一个或多个文档来标识句子;
分析(404)所述句子来将所述句子的子集标识为指示由所述一个或多个文档讨论的事件或话题的重要句子;
从所述重要句子的文本中标识(406)实体以及实体之间的关系;
基于所标识的实体和关系来创建(408)实体-关系图,其中所述实体-关系图中的节点表示实体而所述实体-关系图中的节点之间的边表示实体之间的关系;
通过分析所述实体-关系图来标识(410)多个断言;
逆转(412)所述多个断言来生成多个问题;
基于所述多个问题来生成(414)问题图;
分析(416)所述问题图中的问题来标识与所述问题相关联的相关概念和/或话题并围绕所述相关概念和/或话题来对所述问题进行聚类;以及
生成(418)允许在所述概念和/或话题、所述问题、所述断言以及所述一个或多个文档之间遍历的组合图。
15.如权利要求14所述的一个或多个计算机可读介质,其特征在于,逆转所述多个断言来生成所述多个问题包括使用基于规则的变换来逆转所述多个断言来生成所述多个问题,其中所述基于规则的变换是在基于断言的实体的类型来规定问题的类型的多个规则的基础上的。
CN2011100632582A 2010-03-08 2011-03-07 来自文档概述的问题概念的本体分类 Active CN102163215B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/719,600 2010-03-08
US12/719,600 US8370278B2 (en) 2010-03-08 2010-03-08 Ontological categorization of question concepts from document summaries

Publications (2)

Publication Number Publication Date
CN102163215A true CN102163215A (zh) 2011-08-24
CN102163215B CN102163215B (zh) 2013-11-06

Family

ID=44464442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100632582A Active CN102163215B (zh) 2010-03-08 2011-03-07 来自文档概述的问题概念的本体分类

Country Status (2)

Country Link
US (1) US8370278B2 (zh)
CN (1) CN102163215B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104871151A (zh) * 2012-10-26 2015-08-26 惠普发展公司,有限责任合伙企业 用于概括文档的方法
CN106537372A (zh) * 2014-07-18 2017-03-22 微软技术许可有限责任公司 用于增强的文档生产率的实体识别
CN106796594A (zh) * 2014-08-26 2017-05-31 微软技术许可有限责任公司 从句子生成高级别问题
CN107688616A (zh) * 2016-08-05 2018-02-13 谷歌有限责任公司 使实体的独特事实显现
CN108885666A (zh) * 2015-09-05 2018-11-23 万事达卡技术加拿大无限责任公司 用于检测和防止伪冒的系统和方法
CN110349018A (zh) * 2018-04-06 2019-10-18 埃森哲环球解决方案有限公司 文档分析器

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831116A (zh) * 2011-06-14 2012-12-19 国际商业机器公司 用于文档聚类的方法及系统
US9697490B1 (en) 2012-03-05 2017-07-04 Reputation.Com, Inc. Industry review benchmarking
US8918312B1 (en) * 2012-06-29 2014-12-23 Reputation.Com, Inc. Assigning sentiment to themes
US20140082003A1 (en) * 2012-09-17 2014-03-20 Digital Trowel (Israel) Ltd. Document mining with relation extraction
US9230009B2 (en) 2013-06-04 2016-01-05 International Business Machines Corporation Routing of questions to appropriately trained question and answer system pipelines using clustering
US9146987B2 (en) * 2013-06-04 2015-09-29 International Business Machines Corporation Clustering based question set generation for training and testing of a question and answer system
WO2015042930A1 (zh) * 2013-09-30 2015-04-02 中国科学院自动化研究所 结合知识库的深层数据处理方法和系统
US9348900B2 (en) 2013-12-11 2016-05-24 International Business Machines Corporation Generating an answer from multiple pipelines using clustering
US10380120B2 (en) 2014-03-18 2019-08-13 International Business Machines Corporation Automatic discovery and presentation of topic summaries related to a selection of text
US9754207B2 (en) * 2014-07-28 2017-09-05 International Business Machines Corporation Corpus quality analysis
US10417338B2 (en) 2014-09-02 2019-09-17 Hewlett-Packard Development Company, L.P. External resource identification
US9720963B2 (en) 2014-11-05 2017-08-01 International Business Machines Corporation Answer category data classifying using dynamic thresholds
US11204929B2 (en) 2014-11-18 2021-12-21 International Business Machines Corporation Evidence aggregation across heterogeneous links for intelligence gathering using a question answering system
US9892362B2 (en) 2014-11-18 2018-02-13 International Business Machines Corporation Intelligence gathering and analysis using a question answering system
US10318870B2 (en) 2014-11-19 2019-06-11 International Business Machines Corporation Grading sources and managing evidence for intelligence analysis
US11244113B2 (en) 2014-11-19 2022-02-08 International Business Machines Corporation Evaluating evidential links based on corroboration for intelligence analysis
US11836211B2 (en) 2014-11-21 2023-12-05 International Business Machines Corporation Generating additional lines of questioning based on evaluation of a hypothetical link between concept entities in evidential data
US9727642B2 (en) 2014-11-21 2017-08-08 International Business Machines Corporation Question pruning for evaluating a hypothetical ontological link
US10061842B2 (en) 2014-12-09 2018-08-28 International Business Machines Corporation Displaying answers in accordance with answer classifications
US10061848B2 (en) 2015-05-22 2018-08-28 Microsoft Technology Licensing, Llc Ontology-crowd-relevance deep response generation
US10255349B2 (en) * 2015-10-27 2019-04-09 International Business Machines Corporation Requesting enrichment for document corpora
US10331659B2 (en) 2016-09-06 2019-06-25 International Business Machines Corporation Automatic detection and cleansing of erroneous concepts in an aggregated knowledge base
US10606893B2 (en) 2016-09-15 2020-03-31 International Business Machines Corporation Expanding knowledge graphs based on candidate missing edges to optimize hypothesis set adjudication
CN107943881B (zh) * 2017-11-15 2020-12-15 深圳壹账通智能科技有限公司 题库生成方法、服务器及计算机可读存储介质
CN108763445B (zh) 2018-05-25 2019-09-17 厦门智融合科技有限公司 专利知识库的构建方法、装置、计算机设备和存储介质
US11210468B2 (en) * 2018-09-28 2021-12-28 Innoplexus Ag System and method for comparing plurality of documents
US11151323B2 (en) * 2018-12-03 2021-10-19 International Business Machines Corporation Embedding natural language context in structured documents using document anatomy
US11250212B2 (en) * 2019-03-29 2022-02-15 Innoplexus Ag System and method for interpreting contextual meaning of data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004761A (zh) * 2007-01-10 2007-07-25 复旦大学 大规模文本逐次二分的层次聚类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
US7509572B1 (en) * 1999-07-16 2009-03-24 Oracle International Corporation Automatic generation of document summaries through use of structured text
US6968332B1 (en) * 2000-05-25 2005-11-22 Microsoft Corporation Facility for highlighting documents accessed through search or browsing
US8131756B2 (en) * 2006-06-21 2012-03-06 Carus Alwin B Apparatus, system and method for developing tools to process natural language text
US20080301120A1 (en) * 2007-06-04 2008-12-04 Precipia Systems Inc. Method, apparatus and computer program for managing the processing of extracted data
US8112269B2 (en) * 2008-08-25 2012-02-07 Microsoft Corporation Determining utility of a question

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004761A (zh) * 2007-01-10 2007-07-25 复旦大学 大规模文本逐次二分的层次聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
STEVEN BETHARD 等: "Semantic Integration in Learning from Text", 《AMERICAN ASSOCIATION FOR ARTIFICIAL INTELLIGENCE》, 31 December 2006 (2006-12-31) *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9727556B2 (en) 2012-10-26 2017-08-08 Entit Software Llc Summarization of a document
CN104871151A (zh) * 2012-10-26 2015-08-26 惠普发展公司,有限责任合伙企业 用于概括文档的方法
CN106537372A (zh) * 2014-07-18 2017-03-22 微软技术许可有限责任公司 用于增强的文档生产率的实体识别
US11120210B2 (en) 2014-07-18 2021-09-14 Microsoft Technology Licensing, Llc Entity recognition for enhanced document productivity
CN106796594B (zh) * 2014-08-26 2020-11-13 微软技术许可有限责任公司 从句子生成高级别问题
CN106796594A (zh) * 2014-08-26 2017-05-31 微软技术许可有限责任公司 从句子生成高级别问题
US10769958B2 (en) 2014-08-26 2020-09-08 Microsoft Technology Licensing, Llc Generating high-level questions from sentences
CN108885666A (zh) * 2015-09-05 2018-11-23 万事达卡技术加拿大无限责任公司 用于检测和防止伪冒的系统和方法
CN107688616B (zh) * 2016-08-05 2021-07-09 谷歌有限责任公司 使实体的独特事实显现
CN107688616A (zh) * 2016-08-05 2018-02-13 谷歌有限责任公司 使实体的独特事实显现
US11568274B2 (en) 2016-08-05 2023-01-31 Google Llc Surfacing unique facts for entities
CN110349018A (zh) * 2018-04-06 2019-10-18 埃森哲环球解决方案有限公司 文档分析器
CN110349018B (zh) * 2018-04-06 2022-12-20 埃森哲环球解决方案有限公司 文档分析器

Also Published As

Publication number Publication date
US8370278B2 (en) 2013-02-05
US20110218947A1 (en) 2011-09-08
CN102163215B (zh) 2013-11-06

Similar Documents

Publication Publication Date Title
CN102163215B (zh) 来自文档概述的问题概念的本体分类
Liu et al. Finding useful solutions in online knowledge communities: A theory-driven design and multilevel analysis
Malik et al. Helpfulness of product reviews as a function of discrete positive and negative emotions
Kushwaha et al. MarkBot–a language model-driven chatbot for interactive marketing in post-modern world
Abrahams et al. An integrated text analytic framework for product defect discovery
Seerat et al. Opinion Mining: Issues and Challenges(A survey)
Banerjee et al. A theoretical framework to identify authentic online reviews
Alghunaim A vector space approach for aspect-based sentiment analysis
Wang et al. A knowledge adoption model based framework for finding helpful user-generated contents in online communities
Qazi et al. Enhancing business intelligence by means of suggestive reviews
Suryadi et al. A data-driven methodology to construct customer choice sets using online data and customer reviews
Karanikolas et al. Large language models versus natural language understanding and generation
Marvi et al. Knowledge foundation in green purchase behaviour: Multidimensional scaling method
Agarwal Deep learning-based sentiment analysis: Establishing customer dimension as the lifeblood of business management
Banerjee et al. A linguistic framework to distinguish between genuine and deceptive online reviews
Cleverley et al. Enterprise search and discovery capability: the factors and generative mechanisms for user satisfaction
Skantsi et al. Analyzing the unrestricted web: The finnish corpus of online registers
Kaur et al. Mapping the field of social media engagement: a literature review using bibliometric analysis
Kinra et al. Textual data in transportation research: Techniques and opportunities
Akulick et al. Intent detection through text mining and analysis
Johari et al. Ascertain quality attributes for design and development of new improved chatbots to assess Customer Satisfaction Index (CSI): a preliminary study
Schwartz et al. Assessing objective recommendation quality through political forecasting
Fiarni et al. Implementing rule-based and naive bayes algorithm on incremental sentiment analysis system for Indonesian online transportation services review
Truong Du Chau et al. Towards a review-analytics-as-a-service (raaas) framework for smes: A case study on review fraud detection and understanding
Yao Assessing the Viability and Effectiveness of Chatgpt Applications in the Customer Service Industry: A Study on Business Models and User Experience

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150506

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150506

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.