CN103136359A

CN103136359A - 单文档摘要生成方法

Info

Publication number: CN103136359A
Application number: CN2013100721180A
Authority: CN
Inventors: 薛世帅; 郭成林; 彭春林; 刘红玉; 高云棋; 刘丹
Original assignee: NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2013-03-07
Filing date: 2013-03-07
Publication date: 2013-06-05
Anticipated expiration: 2033-03-07
Also published as: CN103136359B

Abstract

本发明公开了一种单文档摘要生成方法，包括步骤：对待摘要文档的段落进行聚类，每一个类别为一个语义块；计算语义块内两两句子的相似度，作为一个句子对另一个句子的打分，得分最高的句子为每个语义块中表述该部分核心内容的句子；根据核心句子的出现顺序，连接句子，生成摘要。本发明的方法将词的相似度和命名实体识别引入单文档摘要中，提高摘要的提取精度，同时利用了single-pass提高了的聚类的速度，能够准确的提取单文档摘要，对于新闻类型和公告类型的文档具有非常高的摘要准确率。

Description

单文档摘要生成方法

技术领域

本发明属于计算机应用技术领域，具体涉及单文档摘要的生成方法。

背景技术

随着电子文本数量的剧增，快速获取文本信息的需求越来越强烈。作为浓缩文本信息的技术，自动摘要可以扮演重要的角色。自动摘要的宗旨是为用户提供简短的文本表示。在保留尽可能多的原文信息的同时，形成尽可能短的摘要。对于一个理想的抽取式摘要而言，具有三个基本特征：源自文本、保留重要信息、长度短。按照摘要源自的文本个数，可分为单文本摘要和多文本摘要。按照摘要的方式，又分成生成式摘要和抽取式摘要。在抽取式摘要中，从文本中选取代表性句子是难点所在。

自动摘要研究始于1958年，由美国IBM公司的Luhn开创了自动摘要研究的先河。接着，美国马里兰州大学的Edmundson、美国俄亥俄州立大学的Rush、英国Lancaster大学的Paice等选取字词的不同特征作为提取摘要的关键。这一阶段人们只是围绕文章字词层面进行特征提取，只是简单地依赖粗糙的统计数据和不同性质的特征的简单线性叠加。

随后开始考虑文档的句法特征和语义特征，建立起以人工智能特别是计算语言学为基础的方法。美国耶鲁大学的Schank、意大利Udine大学的Fum等、美国GE研究开发中心的Rau等分别应用脚本分析、一阶谓词逻辑推理和框架等表示文档的结构和意义，从而分析和推理得到文档的摘要。

至此，自动摘要研究分为两大阵营：基于统计的机械摘要和基于意义的理解摘要。

单文档自动文摘是自然语言理解领域中的一个重要的研究方向。进入20世纪90年代，随着互联网的迅猛发展，信息的爆炸式增长满足人们对信息需求的同时，也使人们快速、准确地找到真正需要的信息变得更加困难。自动文摘是解决这一问题的一种非常有效的技术，因此目前又成为人们日益关注的研究热点。

现有的技术要么将单文档扩展为多文档利用多文档摘要的方法进行单文档摘要，要么只利用单文档进行摘要，但仍未充分利用单文档的内容，造成了摘要的提取精度不高。

发明内容

针对现有技术存在的上述问题，本发明提出了一种单文档摘要生成方法。

本发明的技术方案为：一种单文档摘要生成方法，具体包括如下步骤：

S1.对待摘要文档的段落进行聚类，每一个类别为一个语义块；

S2.计算语义块内两两句子的相似度，作为一个句子对另一个句子的打分，得分最高的句子为每个语义块中表述该部分内容的核心句子；

S3.根据核心句子的出现顺序，连接句子，生成摘要。

本发明的有益效果：本发明方法的基于段落划分生成单文档摘要，根据文章的外在特征抽取能够表达其中心意思的原文部分句子作为摘要,具体通过计算段落信息在文档中的权值，然后计算句子在段落中的权值，来评价句子中在文章中重要性。本发明的方法将词的相似度和命名实体识别引入单文档摘要中，提高摘要的提取精度，同时利用了single-pass提高了的聚类的速度，能够准确的提取单文档摘要，对于新闻类型和公告类型的文档具有非常高的摘要准确率。

附图说明

图1为本发明的单文档摘要生成方法流程示意图

图2为实施例中语义聚类算法的流程示意图。

图3为实施例中Single-pass段落聚类的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明做进一步详细说明。

本发明实施例单文档摘要方法，流程示意图如图1所示，具体包括如下步骤：

S3.根据核心句子的出现顺序，连接句子，生成摘要。

即对待摘要文档的段落进行聚类，将段落划分为语义块，然后找出每个语义块的核心语句，最后按核心语句在文档中的出现顺序连接句子，即可得到文档的主要信息摘要。本发明主要分为三个步骤：语义聚类划分、句子打分、核心语句连接。

图2为对段落进行聚类的流程示意图，设设待摘要文档T有N个自然段，即T=P₁∪P₂∪P₃…P_j…∪P_n，其中，P_j表示第j个自然段。

具体包括如下分步骤：

步骤101：对自然段P_j构建VSM模型；

步骤102：权值计算，对每个自然段P_j进行分词P_j={t₁:w₁,t₂:w₂,…，t_n:w_n}，t_i是自然段P_j分词后的词语，w_i是词语t_i的权重，计算自然段P_j中词语t_i的权值w_i的公式为

其中，tf(t_i)为词语t_i在段落P_j中出现的次数，N为文章段落总数，f_i为t_i在f_i个段落出现；

步骤103：对设待摘要文档T进行聚类，相似度用余弦相似度计算，具体如图3所示，具体过程如下：从未聚类的待摘要文档T的自然段中选取自然段P，利用步骤102得到的权值计算自然段P与其它每个已被聚类自然段的相似度；确定最大的相似度；判断最大的相似度是否大于预先设定的阈值，如果大于阈值，则将段落P放入与其具有最大相似度的自然段所在的类中，否则，新建类，将段落P放入该类中。这里的阈值可以根据实际情况进行设定。

这里的相似度具体可以为余弦相似度。

计算自然P₁、P₂相似度所用的段余弦相似度的方法描述如下：首先，统计待计算余弦相似度的段落P₁、P₂的总词语量，记为k，然后分别在P₁、P₂中添加缺少的词语，且这些词语的权值填写为0；然后利用余弦相似度公式进行相似度计算：

\cos_sim (P_{1}, P_{2}) = \frac{Σ_{i = 1}^{k} ω_{1 i} * ω_{2 i}}{\sqrt{Σ_{i = 1}^{k} {ω_{1 i}}^{2} Σ_{i = 1}^{k} {ω_{2 i}}^{2}}},

ω_1i为段落P₁中词语t_i的权值，ω_2i为段落P₂中词语t_i的权值。

在步骤S2中，句子打分排序的核心内容是句子相似度的计算，用一种表层相似度，即构建VSM模型，把词看成句子的线性序列，不对句子进行语法结构分析，只对词的词性、词频信息进行计算。通过表层相似度计算，对每一个句子进行相互打分，找出得分最高的句子为核心句子。

句子相似度主要通过两层结构计算：

第一层计算句子中的名字动词相似度。两个词的相似度主要通过liuqun、lisujian提出的知网的词的语义相似度计算，结果为sim_w(t₁,t₂)，其中，t₁、t₂为待计算的2个词语。计算句子s₁、s₂中的名字动词相似度为：

{sim}_{1} (s_{1}, s_{2}) = \frac{{&Sum;}_{i = 1}^{m} \max ({sim}_{w} (t_{1 i}, t_{21}), {sim}_{w} (t_{1 i}, t_{22}), . . ., {sim}_{w} (t_{1 i}, t_{2 j}), . . ., {sim}_{w} (t_{1 i}, t_{2 n}))}{m + n},

其中，m为句子s₁中的名词和动词数，n为句子s₂中的名词和动词数，t_1i表示句子s₁中的编号为i的名词或动词，t_2j,j=1,…,n表示s₂中的编号为j的名词或动词，sim_w(t_1i,t_2j)表示词语t_1i、t_2j的语义相似度。

第二层计算命名实体的相似度。利用中科院的ICTCLAS对句子进行词法标注，抽取标注中的命名实体，包括人名、地名、机构名、时间、日期、货币和百分比；计算命名实体相似度为

其中，A、B分别为句子s₁、s₂中命名实体的集合。

最后句子的相似度为：sim(s₁,s₂)=αsim₁(s₁,s₂)+βsim₂(s₁,s₂),其中，α、β为加权因子，且α+β=1，可以根据实际情况进行调整。

本发明首先将相同语义的段落构3建VSM模型，然后进行聚类，这样具有较高的效率并且保证了较高的准确率。然后找出每个语义类中的最重要的句子，用这些句子分别表示语义类的内容，其中还用了句子相关性进行相互打分来确定句子分值来发现表述语义类里的核心意思的句子；同时在段落聚类中用了single-pass极大提高了聚类速度，只需要一遍扫描即可完成聚类；在句子相似度的计算中，提出了通过计算代表句义的名词和动词的最大相似词的相似度来计算句子相似度。本发明的方法具有非常高的效率，并且对于新闻公告类型的文档具有极高的准确率。

Claims

1.一种单文档摘要生成方法，具体包括如下步骤：

S3.根据核心句子的出现顺序，连接句子，生成摘要。

2.根据权利要求1所述的单文档摘要生成方法，其特征在于，待摘要文档的段落进行聚类的具体过程如下：

步骤101：对自然段P_j构建VSM模型，其中，P_j表示第j个自然段，设待摘要文档T有N个自然段，即T=P₁∪P₂∪P₃…P_j…∪P_n；

其中，tf(t_i)为词语t_i在段落P_j中出现的次数，f_i为t_i在f_i个段落出现；

步骤103：对待摘要文档T进行聚类，从未聚类的待摘要文档T的自然段中选取自然段P，利用步骤102得到的权值计算自然段P与其它每个已被聚类自然段的相似度；确定最大的相似度；判断最大的相似度是否大于预先设定的阈值，如果大于阈值，则将段落P放入与其具有最大相似度的自然段所在的类中，否则，新建类，将段落P放入该类中。

3.根据权利要求2所述的单文档摘要生成方法，其特征在于，步骤103所述的相似度具体为余弦相似度。

4.根据权利要求3所述的单文档摘要生成方法，其特征在于，所述的余弦相似度的具体计算过程如下：

统计待计算余弦相似度的段落P₁、P₂的总词语量，记为k，然后分别在P₁、P₂中添加缺少的词语，并且将添加的词语的权值填写为0；然后利用余弦相似度公式得到段落P₁、P₂的相似度cos_sim(P₁,P₂)：

\cos_sim (P_{1}, P_{2}) = \frac{Σ_{i = 1}^{k} ω_{1 i} * ω_{2 i}}{\sqrt{Σ_{i = 1}^{k} {ω_{1 i}}^{2} Σ_{i = 1}^{k} {ω_{2 i}}^{2}}},

5.根据权利要求1-4任一项权利要求所述的单文档摘要生成方法，其特征在于，步骤S2所述的语义块内两两句子的相似度具体计算过程如下：

计算句子s₁、s₂的名字动词相似度，记为：

{sim}_{1} (s_{1}, s_{2}) = \frac{Σ_{i = 1}^{m} \max ({sim}_{w} (t_{1 i}, t_{21}), sim (t_{1 i}, t_{22}), . ., {sim}_{w} (t_{1 i}, t_{2 j}), . . ., {sim}_{w} (t_{1 i}, t_{2 n}))}{m + n},

其中，m为句子s₁中的名词和动词数，n为句子s₂中的名词和动词数，t_1i表示句子s₁中的编号为i的名词或动词，t_2j,j=1,…,n表示s₂中的编号为j的名词或动词；

计算命名实体相似度为

其中，A、B分别为句子s₁、s₂中命名实体的集合；

句子s₁、s₂的相似度为：sim(s₁,s₂)=αsim₁(s₁,s₂)+βsim₂(s₁,s₂)，其中，α、β为预先设定的加权因子，且α+β=1。

6.根据权利要求5所述的单文档摘要生成方法，其特征在于，所述的命名实体包括人名、地名、机构名、时间、日期、货币和百分比。