CN103034657B

CN103034657B - 文档摘要生成方法和装置

Info

Publication number: CN103034657B
Application number: CN201110303685.3A
Authority: CN
Inventors: 刘宏建; 周泉; 邓攀; 小林义行
Original assignee: Hitachi China Research and Development Corp
Current assignee: Hitachi China Research and Development Corp
Priority date: 2011-09-29
Filing date: 2011-09-29
Publication date: 2015-12-02
Anticipated expiration: 2031-09-29
Also published as: CN103034657A

Abstract

本发明提供文档摘要生成方法和装置。该文档摘要生成方法包括：输入文档的步骤；将关联单词表存储在存储部中的步骤；从文档中提取出标题的步骤；从所提取出的标题中提取第一单词的步骤；基于关联单词表，在文档中提取出与第一单词具有关联性的多个第二单词的步骤；基于关联单词表，检测是否存在与第二单词具有关联性的第一单词以外的第三单词的步骤；在存在与第二单词具有关联性的第三单词的情况下，从多个第二单词中删除与第三单词具有关联性的第二单词的步骤；和将包含从多个第二单词中删除了与第三单词具有关联性的第二单词后的第二单词的句子，从输入的文档中提取来作为摘要的步骤。

Description

文档摘要生成方法和装置

技术领域

本发明涉及一种根据文档内容自动进行摘要提取的方法和装置。

背景技术

信息技术的发展带来收集、存储信息的能力迅速增长。数据管理技术的进步促进了商业和政府事务的信息化，产生了大量的数据，特别是Intenet兴起后，互联网上的信息更是按指数速度增长。为了管理这些数据，大型数据库正在被广泛应用于商业和科学工程领域。

虽然数据库技术的进步使信息的收集和存储变得越来越容易，但是数据规模的爆炸性增长，远远超出了人们的接受能力。特别是近年来随着数据库和计算机网络的广泛应用，数据库中存储的数据量急剧增大。海量数据的背后隐藏着许多重要的信息，人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。在此基础上，人们提出了由计算机系统自动从文档中获取反映该文档内容要点的信息的方法。以简明扼要的语句，将文档的内容提出供给用户，使用户能够有选择地获取自身需要的内容。

现有的文档摘要获取方法主要分为两类：基于句子提取(Extraction)的文档摘要获取方法和基于句子生成(Abstraction)的文档摘要获取方法。其中，基于句子提取的文档摘要获取方法所获取的文档的摘要，是由文档中所包含的已有句子组成的，不需要借助复杂的深层自然语言理解技术，与基于句子生成的文档摘要获取方法相比实现较为简单。例如，在专利文献1中，公开了一种文档集摘要获取方法，包括：提取文档集中各个文档中包含的各个句子，组成句子集合；基于文档集中的文档和句子集合中的句子之间的文本相似度，确定句子集合中各个句子的重要性权重值；根据确定的重要性权重值，按照重要性权重值由高至低的选择顺序，选择规定数目的句子组成文档集摘要。

专利文献1：CN101751425A

发明内容

然而，在专利文献1中，需要基于文档集中的文档和句子集合中的句子之间的文本相似度，确定句子集合中各个句子的重要性权重值，即需要针对所有文档的所有句子分析其重要性权重值，这将耗费相当长的时间，对处理系统的负担较大。

本发明的目的在于，提供能够简单且高精度地生成文档的摘要的方法和装置，根据文档的内容自动实现信息的整理，方便用户快速的获取文档中有效的知识。

本发明的文档摘要生成方法，包括：输入文档的步骤；将登记了由任意的单词和与该任意的单词具有关联性的单词构成的组的关联单词表存储在存储部中的步骤；从上述文档中提取出标题的步骤；从所提取出的上述标题中提取第一单词的步骤；基于上述关联单词表，在上述文档中提取出与上述第一单词具有关联性的多个第二单词的步骤；基于上述关联单词表，检测是否存在与上述第二单词具有关联性的上述第一单词以外的第三单词的步骤；在存在与上述第二单词具有关联性的上述第三单词的情况下，从上述多个第二单词中删除与上述第三单词具有关联性的第二单词的步骤；和将包含从多个上述第二单词中删除了与上述第三单词具有关联性的第二单词后的第二单词的句子，从输入的上述文档中提取来作为摘要的步骤。

此外，本发明的文档摘要生成装置，包括：文档输入部，用于输入文档；存储部，用于存储登记了由任意的单词和与该任意的单词具有关联性的单词构成的组的关联单词表；标题提取部，用于从上述文档中提取出标题；第一单词提取部，用于从所提取出的上述标题中提取第一单词；第二单词提取部，用于基于上述关联单词表，在上述文档中提取出与上述第一单词具有关联性的多个第二单词；第三单词检测部，用于基于上述关联单词表，检测是否存在与上述第二单词具有关联性的上述第一单词以外的第三单词；第二单词筛选部，用于在存在与上述第二单词具有关联性的上述第三单词的情况下，从多个上述第二单词中删除与上述第三单词具有关联性的第二单词；和摘要提取部，用于将包含从多个上述第二单词中删除与上述第三单词具有关联性的第二单词后的第二单词的句子，从输入的上述文档中提取来作为摘要。

根据本发明，如果与标题中的第一单词具有关联性的第二单词还与另外的第三单词具有关联性，则将该第二单词作为一般的单词删除。也就是说，找出不包含一般性单词的与标题相关联的单词，提取包含这些单词的文档中的句子来作为摘要。由此，提供能够简单且高精度地生成文档的摘要的方法和装置。

根据本发明的文档摘要提取装置，由于不需要像专利文献1那样针对所有文档的所有句子分析其重要性权重值，因此对处理系统的负担较小，能够快速地提取出摘要，在面对网络上大量的文档的情况下，对于想要快速获得概要信息的用户来说是有用的。此外，由于本发明的文档摘要提取装置是基于文档的标题进行提取的，而文档的标题本身具有与文档内容非常相关的信息，因此获得的摘要的精确度非常高。

附图说明

图1是本发明的第一实施方式的文档摘要提取装置的结构框图。

图2是本发明的第一实施方式的文档处理单元105的内部结构图。

图3是本发明的第一实施方式的文档处理单元105所进行的处理的流程图。

图4是图1中的关联词表处理单元102所进行的处理的流程图。

图5是本发明的第二实施方式的文档处理单元105所进行的处理的流程图。

具体实施方式

以下结合具体实施方式对本发明进行详细说明。

〔第一实施方式〕

图1表示了本发明的文档摘要提取装置的结构框图。如图1所示，本实施方式的文档摘要提取装置包括：文档输入单元104、语料数据库101、数据存储单元(DB)103、关联词表处理单元102、文档处理单元105和显示单元106。

其中，关联词表处理单元102用来对语料数据库101中的语料库进行分析处理，将分析后得到的数据——表示单词与单词之间的关联度的数据，即关联词表数据——保存到数据存储单元103中。该关联词表处理单元102所进行的处理，即关联词表的获得，将在后文中详述。此外，该关联词表处理单元102所进行的处理，也可以预先进行并将所得的关联词表预先存储在数据存储单元103中，此时，该文档摘要提取装置可以不包含语料数据库101和关联词表处理单元102。

文档输入单元104接收用户输入的想要获取摘要的各类文档。其中，文档的输入形式不限，可手动输入、也可以直接从已有文献库中输入，在手动输入等情况下，文档输入单元104可具有未图示的人机接口(例如键盘、麦克风等)，在通过电子方式导入的情况下，可以具有未图示的网络I/O、可移动存储设备接口等。

文档处理单元105用来对通过文档输入单元104获取的文档进行分析处理，并利用数据存储单元103中存储的关联词表的信息，得到最终信息提取的结果(即摘要)。

显示单元106形成为该文档摘要提取装置的输出单元，向用户输出经文档处理单元105处理后得到的结果。

接着对文档处理单元105进行详细说明。

图2是本发明的第一实施方式的文档处理单元105的内部结构框图(未示出所有的线路)，其中，204是高频词表，其中登记了自然语言中的高频词，可以通过对语料库(例如一些公知的语料库——《现代汉语词频统计语料库》等)中的单词进行简单的统计来获得。201是文档存储单元，将经由文档输入单元104输入的文档存储于其中，可以是硬盘、光盘、闪存等等。202是标题文本获取单元，对输入的文档进行相应分析，找出可能是标题的文本及其所覆盖的内容。203是标题文本分词单元，用来对从标题文本获取单元202输入的标题文本进行分词处理，并参照高频词表204，删除掉其中的高频词，得到标题中的标题单词。205是关联词提取单元，其参照数据存储单元103中存储的关联词表，并参照文档存储单元201中存储的输入文档，从输入文档中提取出在关联词表中与由关联词提取单元205提取出的标题单词存在关联的多个摘要单词。206是摘要单词筛选单元，其检测上述各个摘要单词除了与上述标题单词关联之外，是否还与其它的单词关联，在还与其它单词关联的情况下，将该摘要单词删除，最终获取筛选后的摘要单词。207是摘要提取单元，将存储在文档存储单元201中的输入文档中的包含筛选后的摘要单词的句子提取出来，作为摘要。该提取出的摘要被输出到图1中所示的显示单元106提供给用户。

下面以一段文章为例，参照图3对本发明的第一实施方式的文档处理单元105所进行的处理的流程进行说明。

ID3算法的假设空间包含所有的决策树，搜索空间也是完整的假设空间。因为每个有限离散值函数可以被表示为某个决策树，所以它避免了假设空间可能不包含目标函数的风险。

ID3算法在搜索的每一步都使用当前的所有训练样本，以信息增益的标准为基础决定怎样简化当前的假设。使用信息增益这一统计属性的一个优点是大大降低了对个别训练样本错误的敏感性，因此，通过修改算法可以很容易地扩展到处理含有噪声的训练样本。

ID3算法采用自顶向下的搜索策略，搜索全部空间的一部分，确保所作的测试次数较少，分类速度较快。算法的计算时间与样本例子个数、特征个数、节点个数三者的乘积呈线性关系。

ID3算法与最基础的决策树算法一样，非常适合处理离散值样本数据，并且利用树型结构的分层的效果，可以轻而易举地提取到容易理解的If-Then分类规则。

由于引进了信息熵的概念，ID3算法能得出节点数最少的决策树。

首先，如图3的流程图所示，在文档经由文档输入单元104输入到文档处理单元105，并存储在文档存储单元201中后，由标题文本获取单元202对输入的文档进行相应分析，找出可能是标题的文本及其所覆盖的内容。在本例中，由于“ID3算法的优点”是黑体且跟随着冒号，从而确定“ID3算法的优点”是文档中的标题句，而跟随其后的是文档的正文，将这个标题句提取出来(步骤S301)。然后，由标题文本分词单元203对从标题文本获取单元202输入的标题进行分词处理，得到“ID3算法/的/优点”(步骤S302)，接着参照高频词表204，判断标题中是否存在高频词(步骤S303)。如果有——例如本例中存在高频词“的”——则前进到步骤S304将高频词删除，得到标题单词“ID3算法”和“优点”，之后前进到步骤S305。如果没有高频词，则直接前进到步骤S305，确认获得的标题单词。在步骤S306中，由关联词提取单元205根据关联词表从输入文档中提取与上述标题单词存在关联的多个关联词作为摘要单词，关于该关联词的获得方法将在后文中详述。本例中，与“ID3算法”关联的词在文档中没有出现，与“优点”关联的词找到“优点-避免”、“优点-降低”、“优点-较快”、“优点-效果”和“优点-处理”，将“避免”、“降低”、“较快”、“效果”和“处理”作为摘要单词。

[表1]

然后，参照关联词表208，由摘要单词筛选单元206判断这些摘要单词除了与标题单词“优点”关联之外，是否还与其它的单词关联(步骤S307)，如果有关联，则将该摘要单词删除，没有则保留。本例中如上表所示，“效果”除了与“优点”关联之外，还与“影响”关联，并且“处理”除了与“优点”关联之外，还与“比较”关联，因此将这两个摘要单词删除(步骤S308)，保留“避免”、“降低”、“较快”，获得最终摘要单词(步骤S309)。最后，将文档中包含这几个最终摘要单词的句子提取出来作为摘要(步骤S310)，输出到显示单元106。本例中最终得到的摘要如下。

因为每个有限离散值函数可以被表示为某个决策树，所以它避免了假设空间可能不包含目标函数的风险。使用信息增益这一统计属性的一个优点是大大降低了对个别训练样本错误的敏感性，因此，通过修改算法可以很容易地扩展到处理含有噪声的训练样本。ID3算法采用自顶向下的搜索策略，搜索全部空间的一部分，确保所作的测试次数较少，分类速度较快。

能够看到，上述提取出的摘要虽然不能保证句子与句子之间存在良好的逻辑关系(基于句子提取的文档摘要获取方法的通病)，但由于处理简单并且充分利用了标题的信息，因此具有能够简单且高精度地生成文档的摘要的效果。此外，本例中摘要单词所在的句子不是重复的句子，在多个摘要单词处于同一句子中的情况下，当然该句子只提取一次。

下面对关联词表的生成进行具体说明。

图4是图1中的关联词表处理单元102所进行的处理的流程图。图中步骤S401～步骤S404执行与图3中步骤S301～步骤S305相似的处理(省略了高频词的判断步骤)，不过，此处所处理的对象不是用户输入的文档，而是使用已有的语料库(例如公知的一些公共语料库，如《现代汉语语料库》、《人民日报》光盘数据库等)，对其中的标题进行分析、删除高频词得到标题单词。此外，还同时进行步骤S405～步骤S407的处理，对语料库中的正文进行分析，获得正文的非高频单词。接着，在步骤S408中计算步骤S404中获得的标题单词与步骤S407中获得的正文的非高频单词的同现频率，以上述的“优点”为例，可以获得如下同现频率：优点-避免(93)，优点-降低(78)，优点-使用(92)，优点-特征(33)，优点-较快(23)，…。另外，单独计算与该“优点”存在一定同现频率的上述这些词本身的频率，得到避免(95)，降低(82)，使用(204)，特征(44)，较快(27)，…。

然后，在步骤S409中计算在正文非高频词的条件下出现标题单词的概率(条件概率)，即

P(优点|避免)＝93/95＝0.98

P(优点|降低)＝78/82＝0.95

P(优点|使用)＝92/204＝0.45

P(优点|特征)＝33/44＝0.75

P(优点|较快)＝23/27＝0.85

对上述条件概率设置阈值，例如以0.8为阈值，选取大于0.8的为关联词，即优点-避免，优点-降低，优点-较快…，将它们登记到关联词表以供使用(步骤S410)。

当然，此处所说明的关联词表的生成方法不过是一例，实际上可以对任何公知的语料库使用任意的生成方法来生成关联词表，它们所得的结果也不必完全一致。此外，还可以使用本身已反映了单词与单词之间的关系的语料库(例如中国专利申请200510093228.0中公开的语料库制作方法所生成的语料库)，这种情况下甚至可以直接使用语料库而不需要生成关联词表，此时图1和图4中当然也不再需要与关联词表的生成有关的结构和步骤。

〔第二实施方式〕

在上述第一实施方式中，如图3所示，在步骤S307中，根据关联词表208判断在步骤S306中获得的摘要单词是否还存在其它的关联词，如果存在，则在步骤S308中将这些词删除，否则就将步骤S306中获得的摘要单词作为最终摘要单词(步骤S309)，然后在步骤S310中提取包含最终摘要单词的句子作为摘要。在该第一实施方式中，所使用的上述已说明的关联词表是一种双向的、可逆的关联词表，即若某一单词A与单词B存在A→B的关联(此处的符号“→”的左边表示出现在关联单词表左边的单词，右边则表示出现在关联单词表的同一条目的右边的单词，可参见表1相应理解)，则必然存在B→A的关联，即但在现实中可能有单、双向关联同时存在的情况，即存在A→B的关联但不存在B→A的关联的情况，这种情况下步骤S307的判断则不再能够适用。

图5表示第二实施方式的文档处理单元105所进行的处理的流程图。其中，对于与图3中的步骤进行相同处理的步骤标注相同的符号并省去其说明。

该第二实施方式中，如图5所示，在步骤S306中获取了关联(此处的关联可以是单向的也可以是双向的)的摘要单词后，在步骤S507中判断是否存在摘要单词→其它单词的关联(例如摘要单词A、C存在A→B的关联和C→Y的关联)，如果存在(即“是”)则前进到步骤S508，判断是否存在该其它单词→该摘要单词的关联，如果存在(例如存在B→A的关联)则前进到步骤S508’，将该摘要单词删除(即将A删除)然后前进到步骤S309获得最终摘要单词，如果不存在(例如不存在Y→C的关联)则保留该摘要单词(C)，前进到步骤S309获得最终摘要单词。在步骤S507中若判断为不存在摘要单词→其它单词的关联，则与第一实施方式的情况相同地，直接前进到步骤S309获得最终摘要单词。

以上说明了本发明的两种实施方式，但这两个实施方式都不过是例示，并不是本发明的限定，本发明的范围由权利要求决定，任何不脱离本发明权利要求的改动均属于本发明保护的范围。

Claims

1.一种文档摘要生成方法，其特征在于，包括：

输入文档的步骤；

将登记了由任意的单词和与该任意的单词具有关联性的单词构成的组的关联单词表存储在存储部中的步骤；

从所述文档中提取出标题的步骤；

从所提取出的所述标题中删除高频词而提取第一单词的步骤；

基于所述关联单词表，在所述文档中提取出与所述第一单词具有关联性的多个第二单词的步骤；

基于所述关联单词表，检测是否存在与所述第二单词具有关联性的所述第一单词以外的第三单词的步骤；

在存在与所述第二单词具有关联性的所述第三单词的情况下，从所述多个第二单词中删除与所述第三单词具有关联性的第二单词的步骤；和

将包含从多个所述第二单词中删除了与所述第三单词具有关联性的第二单词后的第二单词的句子，从输入的所述文档中提取来作为摘要的步骤。

2.如权利要求1所述的文档摘要生成方法，其特征在于：

在所述关联词表中存在由任意的单词和与该任意的单词具有单向的关联性的单词构成的组的情况下，

所述第三单词是与多个所述第二单词具有双向的关联性的单词。

3.如权利要求1或2所述的文档摘要生成方法，其特征在于：

所述关联单词表是基于语料库预先生成的。

4.如权利要求1或2所述的文档摘要生成方法，其特征在于：

所述关联单词表是同义词词典。

5.如权利要求1或2所述的文档摘要生成方法，其特征在于：

所述标题是根据文档的样式提取的。

6.一种文档摘要生成装置，其特征在于，包括：

文档输入部，用于输入文档；

存储部，用于存储登记了由任意的单词和与该任意的单词具有关联性的单词构成的组的关联单词表；

标题提取部，用于从所述文档中提取出标题；

第一单词提取部，用于从所提取出的所述标题中删除高频词而提取第一单词；

第二单词提取部，用于基于所述关联单词表，在所述文档中提取出与所述第一单词具有关联性的多个第二单词；

第三单词检测部，用于基于所述关联单词表，检测是否存在与所述第二单词具有关联性的所述第一单词以外的第三单词；

第二单词筛选部，用于在存在与所述第二单词具有关联性的所述第三单词的情况下，从多个所述第二单词中删除与所述第三单词具有关联性的第二单词；和

摘要提取部，用于将包含从多个所述第二单词中删除与所述第三单词具有关联性的第二单词后的第二单词的句子，从输入的所述文档中提取来作为摘要。

7.如权利要求6所述的文档摘要生成装置，其特征在于：