CN104871151A

CN104871151A - 用于概括文档的方法

Info

Publication number: CN104871151A
Application number: CN201280078015.9A
Authority: CN
Inventors: L.王; 王荀; 王敏; 张彤; 白斌
Original assignee: Hewlett Packard Development Co LP
Current assignee: Antite Software Co., Ltd.
Priority date: 2012-10-26
Filing date: 2012-10-26
Publication date: 2015-08-26
Also published as: WO2014063354A1; EP2912569A1; EP2912569A4; US20150293905A1; US9727556B2

Abstract

提供了一种用于概括文档的方法。针对在文档中的每个句子检测概念。根据所检测的概念计算在句子之间的关联性测量。并且然后构造概念意识图，其中在图中的节点表示在所述文档中的句子，并且在两个节点之间的边表示在两个句子之间的关联性测量。

Description

用于概括文档的方法

背景技术

随着信息技术以及诸如因特网和内联网的网络的发展，越来越多的信息在线存在。海量的在线信息可能使想要找到他可能感兴趣的某物的用户不知所措。因此，已经付出更多的注意来过滤掉不必要的信息并且仅接收所需要的信息。对于这样的目的有用的一种方法是提供文档的概括或者概括文档，使得用户可以被允许预览概括并且决定获得并阅读全文档是否值得。

附图说明

附图图示了本公开的各种方面的各种示例。应理解，在图中的图示的元素边界（例如，框、框的组或者其他形状）表示所述边界的一个示例。应理解，在某些示例中，一个元素可以被设计为多个元素，或者多个元素可以被设计为一个元素。在某些示例中，被示出为另一元素的内部部件的元素可以被实现为外部部件，并且反之亦然。

图1是根据本公开的示例的可以概括文档的系统的框图；

图2是根据本公开的示例的概括文档的方法的处理流程图；

图3是根据本公开的示例的概括文档的方法的更详细的处理流程图；

图4是示出了根据本公开的示例的、存储用于概括文档的代码的非瞬时计算机可读介质的框图。

具体实施方式

自动概括长期以来是用于自然语言处理的重要任务。文档的良好概括应该是简明并且准确的，换言之，应该能够捕获源文档的重要信息。直至今日，已经提出了各种种类的方法。大致地，存在用于概括生成的两种方法：提取和抽象（abstraction）。提取方法关注从单个文档或多个文档选择句子，而抽象方法通过采用释义的各种技术生成新的句子。

如在本公开中使用的那样，“文档”是指自由的、未组织的或半组织的文本的任何主体。所述文本可以包括文档在其一般意义上的全部内容，诸如书、文章、论文等等，或者传统文档的一部分，诸如摘要、段落、句子或者例如标题的短语。理想地，“文档”描述相干的话题。因此，贯穿本公开，术语“文档”被广泛使用以表示文本数据的单元，其包括文档的仅一部分，诸如区段或者段落。另外，“文档”可以包含根据图像或其他图形生成的文本，以及从音频或视频格式恢复的文本。文档一般可以包括多个句子。类似地，贯穿本公开，词语“术语”被广泛使用以表示在话题上涉及文档或者文档集合的词语或者词语的分组。

在下文中，参考附图详细地描述了根据本公开的某些示例。

参考图1，图1是根据本公开的示例的可以概括文档的系统的框图。系统一般地由参考标号100表示。本领域普通技术人员将理解，在图1中示出的功能块和设备可以包括包含电路的硬件元件、包含被存储在有形的计算机可读介质上的计算机代码的软件元件或者硬件和软件元件两者的组合。附加地，系统100的功能块和设备仅仅是可以被实现在示例中的功能块和设备的一个示例。本领域普通技术人员基于针对特定电子设备的设计考虑将能够容易地定义具体的功能块。

系统100可以包括服务器102，以及一个或多个客户端计算机104，通过网络106通信。如在图1中图示的那样，服务器102可以包括一个或多个处理器108，其可以通过总线110连接到显示器112、键盘114、一个或多个输入设备116以及诸如打印机118的输出设备。输入设备116可以包括诸如鼠标或触摸屏的设备。处理器108可以包括单个核、多个核，或者在云计算架构中的核的群集。服务器102还可以通过总线110连接到网络接口卡（NIC）120。NIC 120可以将服务器102连接到网络106。

服务器102可以通过网络106和输入设备116访问各种文档。例如，用户可以通过输入设备116输入针对其将生成概括的（一个或多个）文档。或者，服务器102可以通过使用比如Google的某些搜索引擎从因特网搜索多个文档。服务器102还具有对概念库130的访问。概念库130可以是但不限于某些公众可用的概念库，诸如Wikipedia、Baidu Baike、BabelNet等等。用户还可以定义他自己的概念库。在以下描述中，Wikipedia将被用作用于说明的示例。然而，本领域技术人员将理解，Wikipedia仅充当示例，并且本发明在这点上不被限制。应注意，Wikipedia包含多于3.5亿人工编辑的概念，并且Wikipedia的概念被表示为在Wikipedia中的文章页面。

网络106可以是局域网（LAN）、广域网（WAN）或者另一网络配置。网络106可以包括路由器、交换机、调制解调器或者被用于互连的任何其他种类的接口设备。网络106可以连接到若干客户端计算机104。通过网络106，若干客户端计算机104可以连接到服务器102。可以如服务器102那样类似地组织客户端计算机104。

服务器102可以具有通过总线110可操作地耦合到处理器108的其他单元。这些单元可以包括有形的机器可读存储介质，诸如记忆装置122。记忆装置122可以包括硬盘驱动器、只读存储器（ROM）、随机访问存储器（RAM）、RAM驱动器、闪式驱动器、光驱、高速缓存存储器等等的任何组合。记忆装置122可以包括概念检测单元124、关联性计算单元126以及图构造单元128。概念检测单元124可以检测在文档的句子中的（一个或多个）概念。在句子中的概念被限定为呈现所述句子的某些语义的词语和短语。概念检测单元124可以检测在文档的每一个句子中的概念。关联性计算单元126可以根据在句子中检测到的概念计算在这些句子之间的关联性测量。图构造单元128可以基于所计算的关联性测量构造概念意识（concept-aware）的图，其中在所述概念意识图中的节点表示在所述文档中的句子，并且在两个节点之间的边表示在这两个句子之间的关联性测量。

虽然在图1中未示出，但是记忆装置122还可以包括某些其他单元，诸如预处理单元、分级（ranking）单元以及概括生成单元。预处理单元可以对目标文档执行某个预处理。例如，所述预处理可以包括从句子移除非法字符，例如在英文文章中的中文字符可能被视为非法字符并且应该被移除。预处理还可以包括从句子移除比如感叹词（interjection）的词语，因为这些词语通常不对句子的含义有贡献。当然，可以存在某些其他类型的预处理，本文将不详细描述。分级单元可以对由图构造单元128构造的概念意识图运行分级方法，并且对每个句子给出得分（即，分级）。句子的得分越高，所述句子就越重要。以这种方式，在文档中的所有句子可以根据它们的得分被排序。分级方法的示例可以包括但不限于HITS等级、Google的PageRank和manifoldrank。在由分级单元对每个句子评分之后，可以以根据它们的等级的次序选择句子。概括生成单元可以选择最高等级（top ranking）的句子作为针对文档的概括。根据本公开的示例，当选择句子时，可以将该句子与已经选择的句子比较以检查该句子是否太接近或类似于已经选择的句子中的一个。如果它们太相似，则该句子将不被选择到概括中（即，选择不相似但是重要的那些句子）。所生成的概括可以被显示在显示器112上用于由用户查看，或者被发送到打印机118以被打印。

现在参考图2，图2图示了根据本公开的示例的概括文档的方法的处理流程图。方法一般地由参考标号200表示。在框201处，针对在文档中的每个句子检测（一个或多个）概念。根据本公开的示例，基于预定义的概念库来检测在句子中的概念，所述预定义的概念库包括多个参考概念。例如，所述预定义的概念库可以是但不限于Wikipedia，并且每个Wikipedia页面是参考概念。因此，在该示例中，Wikipedia被用作本体论（ontology）以检测被用于表达原始句子的概念。根据示例，检测句子中的概念涉及两个方面。首先，通过简单匹配来获得针对在句子中的术语的概念候选。即，将术语与Wikipedia页面的文章名称比较以查看它们是否彼此匹配。如果它们匹配，则该Wikipedia页面（即，Wikipedia概念）是针对该术语的候选概念。然后，可以在那些候选概念之上执行消除歧义（disambiguation）的操作以得到针对每个术语的最相似的Wikipedia概念，因为术语可以具有多个含义并且引起歧义。例如，从“iphone是苹果公司的产品”的句子可以检测到两个概念：“iphone”和“苹果”。然而，词语“苹果”可以具有与其相关联的两种概念：水果和公司。在该情况下，可以分析词语“苹果”的上下文信息（例如，“iphone”）以进一步确定在该句子中的“苹果”表示公司。

在框202处，在检测了在每个句子中的概念之后，根据所检测的概念计算在句子之间的关联性测量。根据本公开的示例，根据对应于所检测的概念的所述概念库中的参考概念（例如，Wikipedia概念）计算在句子之间的关联性测量。在框203处，构造概念意识图，其中在所述图中的节点表示在文档中的句子，并且在两个节点之间的边表示在这两个句子之间的所计算的关联性测量。如之前描述的那样，在构造概念意识图之后，可以对所述图运行某个分级方法以对所述句子进行分级，并且然后可以执行诸如移除非常相似的句子的某些后处理操作，并且最后通过选择多个最高等级的句子来生成概括。

现在参考图3，图3图示了根据本公开的示例的概括文档的方法的更详细的处理流程图。方法一般地由参考标号300表示。方法300在框301处开始。在框302处，选择将被概括的文档。该文档可以被用户输入，或者可以来自搜索结果。在框303处，预处理所述文档。例如，从文档移除非法词语和感叹词。在框304处，基于诸如Wikipedia的预定义的概念库来检测在文档的每个句子中的（一个或多个）概念，所述诸如Wikipedia的预定义的概念库包括诸如Wikipedia页面的多个参考概念。如上文描述的那样，检测概念可以涉及获得概念候选以及消除歧义，并且本文将不详细描述。在框305处，确定当前句子是否包含任何概念。如果在句子中没有检测到概念，则将忽略这个句子，如在框306处示出的那样。在框307处，如果在句子中检测到概念，则将相应的权重分派到所检测的概念。根据本公开的示例，权重表示在所检测的概念与在概念库中的其相应的参考概念之间的相似性的程度。例如，所述权重可以是在0到1之间变化的值。

以Wikipedia作为示例。假设正在处理的句子是“On Oct. 31, 1999, a plane carrying 217 mostly Egyptian passengers crashed into the Atlantic Ocean off Massachusetts”。通过利用Wikipedia检测在该句子中的概念获得的结果可以是：

其中，“title”表示Wikipedia页面的标题，“DetectedTopic id”表示该Wikipedia页面的索引id，并且“weight”表示在句子中的所检测的概念与相应的Wikipedia页面之间的相似性的程度。

以这种方式，可以通过矢量：S_i= 表达句子S_i，其中S_i表示在文档中的第i个句子，C_ik表示在第i个句子中检测的第k个概念，其是Wikipedia概念（即，在Wikipedia中的文章ID）；并且Score_ik表示其对句子S_i的相似性值（即，权重）。那么，可以以以下形式表达上述句子：

虽然在图3中未示出，但是根据示例，可以针对权重设置阈值，并且如果被分派到所检测的概念的权重小于所述阈值，则忽略该检测的概念。在一个示例中，所述阈值可以被设置为0.6。

然后方法300从框307进行到框308，在其处，确定是否处理了所有句子。如果没有，则方法300返回到框304。如果处理了所有句子，则方法300进行到框309，在其处根据所检测的概念计算在句子之间的关联性测量。根据本公开的示例，根据在这两个句子中检测到的概念的权重与对应于所检测的概念的所述概念库中的参考概念之间的关联性测量来计算在两个句子之间的关联性测量。在一个示例中，由被这些参考概念共享的链入（linked-in）地址的数量表示在所述概念库中的两个参考概念之间的关联性测量。再次以Wikipedia作为概念库的示例。如果我们在Wikipedia中搜索两个概念“ipod”和“itouch”，那么我们将得到分别涉及这两个概念的两个Wikipedia页面，并且在这两个页面之中，将存在某些公共或共享的链入地址。例如，“苹果公司”的链入地址可以被这两个页面共享。当然，其他共享的链入地址是可能的。在该示例中，这些共享的链入地址的数量可以被用作针对在这两个Wikipedia概念（即，参考概念）之间的关联性的测量。根据示例，如果存在分别由矢量表示的两个句子S_i和S_j，诸如和，则上文描述的函数可以是以下形式：

其中，Rel(ij)表示在两个句子S_i和S_j之间的关联性测量，表示在两个Wikipedia概念C_ik和C_jl之间的关联性。假设在句子S_i中存在两个概念，并且在句子S_j中存在三个概念，则上述公式将变成：

以第二术语作为示例。Score_i2是在句子i中的第二概念c_i2的权重，score_j1是在句子j中的第一概念C_j1的权重，并且是由这两个Wikipedia概念（即，wikipedia页面）共享的链入地址的数量。虽然在该示例中使用Wikipedia，但是本领域技术人员将理解，也可以使用其他概念库，并且在两个概念之间或在两个句子之间的关联性测量可以被相应地定义而不脱离本发明的范围。

方法300然后从框309进行到框310，在其处构造概念意识图，其中在所述图中的每个节点表示在文档中的句子，并且在两个节点之间的边表示在框308中计算的、在这两个句子之间的关联性测量。在框311处，在构造概念意识图之后，可以对图运行某个分级方法以对句子进行分级。在框312处，通过选择多个最高等级的句子可以生成概括。所述方法300在框313处结束。

通过使用概念的特征，本公开的示例可以帮助捕获在句子之间的语义关系，这对于用于捕获的基于术语重叠的方法而言如果不是不可能的也是非常困难的。

现在参考图4，图4是示出了根据本公开的示例的、存储用于概括文档的代码的非瞬时计算机可读介质的框图。所述非瞬时计算机可读介质一般地由参考标号400表示。

非瞬时计算机可读介质400可以对应于存储诸如编程代码等等的计算机实现的指令的任何典型的存储设备。例如，非瞬时计算机可读介质400可以包括非易失性存储器、易失性存储器和/或一个或多个存储设备中的一个或多个。非易失性存储器的示例包括但不限于：电可擦除可编程只读存储器（EEPROM）以及只读存储器（ROM）。易失性存储器的示例包括但不限于静态随机访问存储器（SRAM）以及动态随机访问存储器（DRAM）。存储设备的示例包括但不限于硬盘、压缩盘驱动器、数字多用盘驱动器以及闪存设备。

处理器402一般取回和执行存储在非瞬时计算机可读介质400中的计算机实现的指令用于概括文档。在框404处，概念检测模块检测在所述文档的每个句子中的（一个或多个）概念。在框406处，关联性计算模块根据所检测的概念计算在句子之间的关联性测量。在框408处，图构造模块构造概念意识图，使得可以对图运行分级方法以对句子进行分级并且生成概括，其中在所述图中的节点表示在文档中的句子，并且在两个节点之间的边表示在这两个句子之间的关联性测量，如上文描述的那样。

根据本公开的另一示例，提供了一种用于概括文档的系统。所述系统包括：适于执行所存储的指令的处理器；以及存储指令的存储器设备。所述存储器设备包括处理器可执行代码，当其被所述处理器执行时，适于：针对在所述文档中的每个句子，检测在所述句子中的概念；根据所检测的概念，计算在句子之间的关联性测量；

构造概念意识图，其中在所述图中的节点表示在文档中的句子，并且在两个节点之间的边表示在这两个句子之间的关联性测量。

可以由硬件、软件或固件或者它们的组合实现上述示例。例如，本文描述的各种方法、过程和功能模块可以被处理器（术语处理器将被广泛地解释为包括CPU、处理单元、ASIC、逻辑单元或者可编程门阵列等）实现。所述过程、方法和功能模块可以全部由单个处理器执行，或者在若干处理器之间划分；在本公开或权利要求书中对“处理器”的引用因此应当被解释为意味着“一个或多个处理器”。所述过程、方法和功能模块可以被实现为机器可读指令，其可由一个或多个处理器、一个或多个处理器的硬件逻辑电路或者它们的组合执行。进一步地，本文的教导可以以软件产品的形式实现。计算机软件产品被存储在存储介质中并且包括用于使得计算机设备（其可以是个人计算机、服务器或者诸如路由器、交换机、接入点等的网络设备）实现在本公开的示例中记载的方法的多个指令。

根据实现模式的上述描述，上述示例可以由硬件、软件或固件或者它们的组合实现。例如，本文描述的各种方法、过程、模块和功能单元可以被处理器（术语处理器将被广泛地解释为包括CPU、处理单元、ASIC、逻辑单元或可编程门阵列等）实现。所述过程、方法和功能单元可以全部由单个处理器执行或者在若干处理器之间划分。它们可以被实现为可由一个或多个处理器执行的机器可读指令。进一步地，本文的教导可以以软件产品的形式实现。计算机软件产品被存储在存储介质中并且包括用于使得计算机设备（其可以是个人计算机、服务器或者网络设备等）实现在本公开的示例中记载的方法的多个指令。

所述图仅是示例的图示，其中在图中示出的模块或过程针对实现本公开未必是必要的。此外，上述示例的序号仅用于描述，并且不指示示例比另一示例更优越。

本领域技术人员可以理解，在示例中的设备中的模块可以如在示例中描述的那样被布置在示例中的设备中，或者可以替代地位于不同于在示例中的设备的一个或多个设备中。在上述示例中的模块可以被组合成一个模块，或者被进一步地分成多个子模块。

Claims

1. 一种用于概括文档的方法，其包括：

针对在所述文档中的每个句子，检测在所述句子中的概念；

根据所检测的概念，计算在句子之间的关联性测量；

构造概念意识图，其中在所述图中的节点表示在所述文档中的句子并且在两个节点之间的边表示在这两个句子之间的关联性测量。

2. 如权利要求1所述的方法，其中基于预定义的概念库来执行检测句子中的概念，所述预定义的概念库包括多个参考概念。

3. 如权利要求2所述的方法，其中计算在句子之间的关联性测量包括：根据对应于所检测的概念的所述概念库中的参考概念来计算所述关联性测量。

4. 如权利要求2所述的方法，还包括：将相应的权重指派到所检测的概念。

5. 如权利要求4所述的方法，其中所述权重表示在所检测的概念与在概念库中的它的相应的参考概念之间的相似性的程度。

6. 如权利要求4所述的方法，其中计算在句子之间的关联性测量包括：根据在所述句子中检测的概念的权重与对应于所检测的概念的所述概念库中的参考概念之间的关联性测量来计算所述关联性测量。

7. 一种用于概括文档的系统，所述系统包括：

处理器，其适于执行所存储的指令；以及

存储器设备，其存储指令，所述存储器设备包括处理器可执行代码，当其被所述处理器执行时，适于：

针对在所述文档中的每个句子，检测在所述句子中的概念；

根据所检测的概念，计算在句子之间的关联性测量；

8. 如权利要求7所述的系统，其中所述存储器存储处理器可执行代码，其适于基于预定义的概念库检测在句子中的概念，所述预定义的概念库包括多个参考概念。

9. 如权利要求8所述的系统，其中所述存储器存储处理器可执行代码，其适于通过以下内容计算在句子之间的关联性测量：根据对应于所检测的概念的所述概念库中的参考概念来计算所述关联性测量。

10. 如权利要求8所述的系统，其中所述存储器存储处理器可执行代码，其适于将相应的权重指派到所检测的概念。

11. 如权利要求10所述的系统，其中所述权重表示在所检测的概念与在概念库中的它的相应的参考概念之间的相似性的程度。

12. 如权利要求10所述的系统，其中所述存储器存储处理器可执行代码，其适于通过以下内容计算在句子之间的关联性测量：根据在所述句子中检测的概念的权重与对应于所检测的概念的所述概念库中的参考概念之间的关联性测量来计算所述关联性测量。

13. 一种非瞬时计算机可读介质，其包括代码，所述代码用以引导处理器：

针对在包括多个句子的文档中的每个句子，检测在所述句子中的概念；

根据所检测的概念，计算在句子之间的关联性测量；

基于所述关联性测量，生成针对所述文档的概括；以及

14. 如权利要求13所述的非瞬时计算机可读介质，其中所述非瞬时计算机可读介质包括用以基于预定义的概念库来检测在句子中的概念的代码，所述预定义的概念库包括多个参考概念。

15. 如权利要求14所述的非瞬时计算机可读介质，其中所述非瞬时计算机可读介质包括用以将相应的权重指派到所检测的概念的代码，其中所述权重表示在所检测的概念与在概念库中的它的相应的参考概念之间的相似性的程度。