CN104778157A

CN104778157A - 一种多文档摘要句的生成方法

Info

Publication number: CN104778157A
Application number: CN201510092922.4A
Authority: CN
Inventors: 陈健; 赖旦冉
Original assignee: South China University of Technology SCUT; Samsung Guangzhou Mobile R&D Center; Samsung Electronics Co Ltd
Current assignee: South China University of Technology SCUT; Samsung Guangzhou Mobile R&D Center; Samsung Electronics Co Ltd
Priority date: 2015-03-02
Filing date: 2015-03-02
Publication date: 2015-07-15

Abstract

本发明公开了一种多文档摘要句的生成方法，包括下述步骤：S1、以句子特征向量空间为输入，根据句子特征向量相似度对句子作聚类分析，计算得到的每一个簇记为一个子主题；S2、根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重要程度，并根据重要程度对子主题进行排序；S3、对每个子主题下的句子进行评分，并进行排序；S4、从每个子主题中抽取出重要度评分最高的句子作为摘要句，对这些句子中作为主语的指示代词进行替换，并把摘要句按句子所属子主题的重要度评分进行排序，最终生成并输出摘要。

Description

一种多文档摘要句的生成方法

技术领域

本发明涉及自动化摘要的研究领域，特别涉及一种一种多文档摘要句的生成方法。

背景技术

随着互联网的普及以及各种网络应用的飞速发展，便捷的获取方式以及齐全的种类使其成为人们获取各种信息的主要渠道。多文档摘要通过对同一主题下的多个原始文本进行处理，从大量信息中提取出主要信息，经过重新组合、润色后，生成一段能全面准确反映原始文本主要内容且简短、连贯、不含冗余信息的文字，呈现给用户阅读。摘要句抽取即从描述相关话题的类中抽取能够表达文档主题信息、内容充实的句子作为摘要句。根据主题的重要程度从中选取句子，使摘要句尽量概括主题的重要内容。常见的摘要句生成方法有以下几种:基于统计的方法、基于图的方法、基于篇章结构的方法和基于机器学习的方法。

基于统计的方法是自动文摘最早处理单文档文摘时就使用的方法，一直沿用至现在多文档文摘的研究中。该方法的核心是利用从词频或分布等特征中导出的统计信息去计算词或句子的重要性，进而对句子进行排序，抽取排在前面的几个句子形成所谓的自动文摘。这种方法需要多个特征配合使用才能取得较好的文摘结果，在特征选择和调参上存在大量的工作；另一方面，该方法无法体现更深层的语义分析，从而也无法表达精确的信息。

基于图的方法把顺序的多文档集转换为一个无向图，一般结点表示文本片段，结点间的边为片断之间的关系(如相似度，语义关系等)。通过对图的拓扑结构分析，获得文本片段在整个文档集中的重要度。这种方法的缺点在于计算复杂度较高，容易陷入局部最优。

基于篇章结构的方法不以单个句子的评分为目标，而是以最终机器文摘所需达到的各种指标为算法的直接目标。文摘既是全文的压縮，也是全文的替代，文摘句之间并非独立存在，而更应是组合成文的关系，所以全局优化的思路更贴合文摘的特性。但这种方法以机器文摘的量化指标为目的，而忽略了人在阅读时呈现的更自然的特性，如可读性、连贯性、一致性、内容含量等。

基于机器学习的方法从标准文摘中获取监督信息，通过提取一系列的句子特征，训练句子分类或排序模型，实现文摘句的提取。机器学习的方法受训练集影响较大，而自动文摘领域现有数据集的规模有限，这使得基于机器学习的方法的性能受限。同时，监督信息的获取也是一大问题。受人力所限，现有数据集中提供的标准文摘数量不多，所以能获取的监督信息数量较少；同时大部分标准文摘为理解式文摘，难以在多文档集中找到一一匹配的原句，所以如何解决模糊匹配问题、准确有效地提取监督信息也是基于机器学习的方法中的技术难点。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种多文档摘要句的生成方法。

为了达到上述目的，本发明采用以下技术方案：

一种多文档摘要句的生成方法，包括下述步骤：

S1、以句子特征向量空间为输入，根据句子特征向量相似度对句子作聚类分析，计算得到的每一个簇记为一个子主题；

S2、根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重要程度，并根据重要程度对子主题进行排序；

S3、对每个子主题下的句子进行评分，并进行排序；

S4、从每个子主题中抽取出重要度评分最高的句子作为摘要句，对这些句子中作为主语的指示代词进行替换，并把摘要句按句子所属子主题的重要度评分进行排序，最终生成并输出摘要。

优选的，步骤S2中，子主题的重要度由其覆盖的文档数和包含的句子数目共同评定，如果一个子主题所涉及的文档数越多，包含的句子数目越多，该子主题则越重要。具体为：假设子主题共覆盖了DC_i个文档，包含了SC_i个句子，则该子主题的重要度得分为：

其中，λ_D+λ_S＝1，用于调节文档覆盖度和句子包含数目在评分函数中的作用，N是所有的文档数目，M是所有的句子数目。

优选的，步骤S3中，句子的重要程度由以下两个因素决定，1)应包含尽量多的语义概念；2)作为摘要句应尽量短；具体为：假设句子包含了CC_i个语义概念，长度为L_i，则该句子的重要度得分为：

优选的，步骤S4中，为了提高可读性，如果候选摘要句中没有主语，或只有指示代词作为主语，则为其寻找主语，具体为：当确定某一句子为子主题中重要程度最后的句子，即判定为候选摘要句，识别该摘要句是否有主语，或主语是否为指示代词，如是，则在句子所属文档中向前进行搜索，寻找最近的主语非指示代词的句子，将该主语作为候选摘要句的主语，或替换候选摘要句中的指示代词。

优选的，步骤S4中，在得到摘要句的最终评分并输出最终摘要的方法为：

对每个子主题下的句子进行评分后，从每个子主题中抽取出重要度评分最高的句子作为摘要句，并把摘要句按句子所属子主题的重要度评分进行排序，最终生成并输出摘要。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明基于主题的分析方法,建立在主题的定义和表示上,通过识别文档集内的主题、判断核心主题、分析各主题之间关系等途径,获取重要的主题句作为候选文摘片段。

2、考虑到一篇摘要作为一篇自然文档，也应该具备主次分明，重点突出的特点，采用量化手段评估子主题的重要性，既考虑了子主题的覆盖性(涉及的文档数)，又考虑的子主题的普遍性(包含的句子数)。

3、本发明考虑到作为一篇摘要，既应做到信息全面丰富、逻辑顺序合理,另一方面也要尽量的简洁精炼，因此，提出量化手段评估候选摘要句的重要性，使用句子的语义概念与句子长度的比例为指标，兼顾了摘要句的信息量和长度。

4、考虑到语料来源的多样性，多文档摘要中的句子可能来源于不同的文档，为提高可读性，本发明提出了解决摘要句中无主语或主语是指示代词的方案。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，一种多文档摘要句的生成方法，包括下述步骤：

上述子主题的重要度由其覆盖的文档数和包含的句子数目共同评定，如果一个子主题所涉及的文档数越多，包含的句子数目越多，该子主题则越重要。具体为：假设子主题共覆盖了DC_i个文档，包含了SC_i个句子，则该子主题的重要度得分为：

S3、对每个子主题下的句子进行评分，并进行排序；

句子的重要程度由以下两个因素决定，1)应包含尽量多的语义概念；2)作为摘要句应尽量短。具体为：假设句子包含了CC_i个语义概念，长度为L_i，则该句子的重要度得分为：

为了提高可读性，如果候选摘要句中没有主语，或只有指示代词作为主语，则为其寻找主语。具体为：当确定某一句子为子主题中重要程度最后的句子，即判定为候选摘要句，识别该摘要句是否有主语，或主语是否为指示代词，如是，则在句子所属文档中向前进行搜索，寻找最近的主语非指示代词的句子，将该主语作为候选摘要句的主语，或替换候选摘要句中的指示代词。

本实施例中，在得到摘要句的最终评分并输出最终摘要的方法为：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种多文档摘要句的生成方法，其特征在于，包括下述步骤：

S3、对每个子主题下的句子进行评分，并进行排序；

2.根据权利要求1所述的一种多文档摘要句的生成方法，其特征在于，步骤S2中，子主题的重要度由其覆盖的文档数和包含的句子数目共同评定，如果一个子主题所涉及的文档数越多，包含的句子数目越多，该子主题则越重要。具体为：假设子主题共覆盖了DC_i个文档，包含了SC_i个句子，则该子主题的重要度得分为：

3.根据权利要求1所述的一种多文档摘要句的生成方法，其特征在于，步骤S3中，句子的重要程度由以下两个因素决定，1)应包含尽量多的语义概念；2)作为摘要句应尽量短；具体为：假设句子包含了CC_i个语义概念，长度为L_i，则该句子的重要度得分为：

4.根据权利要求1所述的一种多文档摘要句的生成方法，其特征在于，步骤S4中，为了提高可读性，如果候选摘要句中没有主语，或只有指示代词作为主语，则为其寻找主语，具体为：当确定某一句子为子主题中重要程度最后的句子，即判定为候选摘要句，识别该摘要句是否有主语，或主语是否为指示代词，如是，则在句子所属文档中向前进行搜索，寻找最近的主语非指示代词的句子，将该主语作为候选摘要句的主语，或替换候选摘要句中的指示代词。

5.根据权利要求1所述的一种多文档摘要句的生成方法，其特征在于，步骤S4中，在得到摘要句的最终评分并输出最终摘要的方法为：