CN102945228B

CN102945228B - 一种基于文本分割技术的多文档文摘方法

Info

Publication number: CN102945228B
Application number: CN201210437340.1A
Authority: CN
Inventors: 王萌; 唐新来; 王晓荣
Original assignee: Guangxi University of Science and Technology
Current assignee: Guangxi super macro science and Technology Co., Ltd.
Priority date: 2012-10-29
Filing date: 2012-10-29
Publication date: 2016-07-06
Anticipated expiration: 2032-10-29
Also published as: CN102945228A

Abstract

本发明属于多文档文摘技术领域，提供了一种基于文本分割技术的多文档文摘方法，使用HowNet进行概念获取，建立概念向量空间模型，采用改进的DotPlotting模型和句子概念向量空间进行文本分割，利用建立的概念向量空间模型计算句子权重，根据句子权重、文本分割和相似度情况产生文摘，同时使用ROUGE-N评测方法和F_Score作为评测指标对产生的文摘进行评测，结果显示使用文本分割技术进行多文档摘要是有效的，该多文档文摘方法将把用户提供的相关文档集合形成文摘，并以适当的形式展现给用户，极大地提高了获取信息的效率，实用性强，具有较强的推广与应用价值。

Description

一种基于文本分割技术的多文档文摘方法

技术领域

本发明属于多文档文摘技术领域，尤其涉及一种基于文本分割技术的多文档文摘方法。

背景技术

在网络时代中，各类电子文本信息大量涌现，如何帮助用户在较少的时间从信息海洋中迅速准确地获得用户感兴趣的信息，日益成为自然语言理解领域的研究热点。多文档文摘是将同一主题的多个文本去除冗余信息，按照一定的压缩比有机地融合在一起的技术，该技术将把用户提供的相关文档集合形成文摘，并以适当的形式展现给用户，提高了获取信息的效率，并随着近几年连续举办的各类国际大型评测会议，相关技术有了较大突破。

多文档文摘技术的特点是将同一主题下的文档集合进行有效的压缩，而这些文档集合虽属于同一主题，但往往从多个不同的方面和角度对事件进行论述，形成了所谓的子主题或子事件。传统文本处理技术以篇章作为基本处理单元，认为一篇文章只讨论一个主题，从句子重要度出发抽取若干文摘句，该方法容易造成对次重要主题的遗漏或忽略。秦兵等人提出了基于子主题的多文档文摘方法，孔庆苹等人基于概念获取的多文档主题划分。上述方法都考虑到了多文档包含多个子主题的特点，但这些方法多通过句子聚类法将各句子划分到相应主题下，然后提取文摘句。然而在实际的文档写作过程中，作者一般都会用连续的段落来表达一个主题，基于这个情况，描述某个局部主题的段落通常都是连续的、而非离散的。因此完全按照句子作为处理颗粒度将会使得有些信息可能被忽略。

文本分割技术可以按照文档主题叙述的线性变换将文档划分成为若干个语义片段或分割单元。将文本分割技术作为多文档自动文摘的主题分析或主题划分技术，使用语义段落(文本片段)作为基本处理单元，来识别文本内部不同子主题的边界，并将其线性分割开来。

发明内容

本发明提供了一种基于文本分割技术的多文档文摘方法，旨在解决传统文本处理技术以篇章作为基本处理单元，认为一篇文章只讨论一个主题，从句子重要度出发抽取若干文摘句，容易造成对次重要主题的遗漏或忽略，以及当完全按照句子作为处理颗粒度将会使得有些信息可能被忽略的问题。

本发明的目的在于提供一种基于文本分割技术的多文档文摘方法，该多文档文摘方法包括以下步骤：

步骤一，以“知网”作为工具获取概念，并以获取的概念作为特征建立概念向量空间模型；

步骤二，使用改进的Dotpfotting算法进行文本分割，获得文本的主题划分；

步骤三，利用建立的概念向量空间模型计算句子权重，根据句子权重、主题划分、句子相似度产生文摘。

进一步，步骤一，以“知网”作为工具获取概念时，将“知网”结构中的DEF项相同的词语作为词义相同的义原，提取出来作为同一个概念不同词语的集合，具体的实现步骤为：

S11，选择多义词的DEF项

S111，利用中科院计算所的ICTCLAS平台对文本进行词语切分和词性的标注，去除对文本文摘作用不大的介词、虚词、数词词语，提取出关键的名词、形容词重要词语进行处理，得到一个切分好和带词性标注的文本；

S112，在对多义词的DEF项选取主要分两种情况进行，一种情况是有些多义词在不同语境下的词性是不同的，可根据标注好词性的特点确定这些多义词的DEF项，另外一种情况是在不同DEF项下有相同的词性，但在不同语境下需要与不同词性词语搭配使用，根据不同语境将会产生不同的语法形式确定这类多义词的DEF项；

S12，在确定多义词DEF项后，采用改进的DEF项获取其他词语概念

S121，重新定义DEF项，将DEF项扩展为包含的基本义原和该词语中的关系义原的并集，在扩展时过滤掉“知网”中含义过大、过宽泛的抽象义原；

S122，以句子为单位建立概念获取前的文档模型，表示为Sj(W1，W2，...Wn)，文档由j句话构成，每句话包含n个词语；

S123，进入建立向量空间模型的句子扫描，设目前正在扫描第j句话；

S124，扫描句中词语Wi，找到所对应的DEF项，并在该句话中扫描是否有与DEF项义原相同的词语，如果没有则标注词语Wi的概念，则扫描句子下一个词语Wi+1，转到S24，句中所有词语扫描完，进入下一个句子的扫描，转到S23；若有相同词语，转到S25；

S125，提取出词语Wk，找出Wk所对应的DEF项，若词语Wk的DEF项义原词语未包含Wi，则将词语Wi和Wk的概念以Wi的DEF项进行标注；若出现词语Wi，则通过比较两个词语在DEF项描述的义原的距离，采用离基本义原更有的那个词语的DEF项作为这两个词语的概念，进入下一个词语Wi+1的扫描，转到S24；句中所有词语扫描完，进入下一个句子的扫描，转到S23。

进一步，步骤二，使用改进的Dotpfotting算法进行文本分割，获得文本的主题划分时，改进的DotPlotting模型的修改密度函数为：

f_{D}^{'} = Σ_{j = 2}^{| P |} \frac{V_{P_{j - 1}, P_{k}} \cdot V_{P_{j}, n}}{(P_{j} - P_{j - 1}) (n - P_{j})} + Σ_{j = 1}^{| P - 1 |} \frac{V_{0, P_{j}} \cdot V_{p_{j}, P_{J + 1}}}{P_{j} (P_{J + 1} - P_{j})}

其中n为整篇文档的长度，Pj为第j个语义段落边界的位置，|P|文档中的语段数目，Vx，y为第x个词至第y个词组成的文本片段的词频向量；

DotPlotting模型中语义段落边界的确定方法为：假设B为已确定的语义边界集合，那么余下的所有边界都是候选语义边界；将余下的边界集合作为下一轮需要进行选择待选边界，它们组成候选边界集合C，对C中每个候选边界i，令P＝B∪{i}，根据改进的DotPlotting模型的修改密度函数，计算出由P分割出的总体密度，选择总体密度最小的候选边界作为下一个最佳语义段落边界，并将该边界加入集合B，具体的实现步骤如下：

S21，对给定文档W进行词语预处理和根据第二部分的概念获取方法获取词语的概念，并建立概念二维点图，给定语义段分割数目K；

S22，初始化语义边界集合B为空，以各个段落为边界，作为候选分割点，并以候选分割点为基础建立候选边界集合C，使用标识S作为记录最佳分割点的变量；

S23，将分割段落数从1到K重复(4)-(5)操作：

S24，对于集合C中的每一个边界候选点i，令P＝B∪{i}，根据改进的DotPlotting模型的修改密度函数，计算出由P分割出的总体密度d，如果dmin＞d，dmin＝d，并且记录下S＝i；

S25，将该边界作为一个目标边界记录到集合B中，即B∪{S}；同时将该边界在候选边界集合C中删除C-{S}。

进一步，改进的Dotpfotting算法的含义是语义段落边界是依次添加进来的，将文档中自然段落末尾作为候选语义段落分割点，选取新的语段边界时，考察每个候选边界，尝试将其加入边界集合B，组成新的边界集合P，并利用密度函数来评价由新的边界集合里的边界构成的分割方式，选取使得密度函数值最小的候选边界作为分割边界，并将该边界加入分割边界集合，直至边界的个数达到预先指定的数目K为止。

进一步，在整个多文档文摘生成过程中包括句子权值计算和文摘句相似度计算，具体计算方法如下：

(1)概念权重计算

建立好基于句子的概念向量空间模型后，采用传统的TF*IDF法来计算概念重要度；

(2)句子权重计算

句子权重计算是对待处理的文本建立起句子的概念向量空间模型Sj(C1，W1j；C2，W2j；....；Cn，Wnj)进行句子权重计算，从语言学结构分析和相关统计运行分析，句子的重要程度与句中包含的词语、自身在段落中的位置以及段落在整个文章中的位置等因素相关，设计句子权重的计算函数为：

W (S_{j}) = λ \frac{Σ_{i = 1}^{n} F_{ij} \times w_{i} (d_{i})}{M}

其中w_i(d_t)为概念Ti的重要度，Fij为Ci在句子Sj中出现的频度，M为句子Sj包含的所有概念个数；λ为当句子是段落的句首或者结尾时的加权值，设为1.5，在计算句子权重时除以M主要是为了单位化句子权重，使句子权重计算不因句子长短不同而有较大波动；

(3)句子相似度计算

为防止抽取出的文摘句有内容相似的语句，采用两个句子间概念重叠个数与各句子间概念个数和的2倍作为计算句子间相似度的方法，具体算法为：

R_{s} = 2 * \frac{(# overlapping words)}{(# words insentencel + # words in sentence 2)}

通过对大量语料中相似句的计算，相似度阈值设定为0.7比较合理。

进一步，该多文档文摘方法通过内部评测的方式进行验证。

本发明提出了一种基于文本分割技术的多文档文摘方法，使用HowNet进行概念获取，建立概念向量空间模型，采用改进的DotPlotting模型和句子概念向量空间进行文本分割，利用建立的概念向量空间模型计算句子权重，根据句子权重、文本分割和相似度情况产生文摘，同时使用ROUGE-N评测方法和F_Score作为评测指标对产生的文摘进行评测，结果显示使用文本分割技术进行多文档摘要是有效的，该多文档文摘方法将把用户提供的相关文档集合形成文摘，并以适当的形式展现给用户，极大地提高了获取信息的效率，实用性强，具有较强的推广与应用价值。

附图说明

图1是本发明实施例提供的基于文本分割技术的多文档文摘方法的实现流程图；

图2是本发明实施例提供的基于文本分割技术的多文档文摘方法的工作原理流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定发明。

图1示出了本发明实施例提供的基于文本分割技术的多文档文摘方法的实现流程。

该多文档文摘方法包括以下步骤：

步骤S101，以“知网”作为工具获取概念，并以获取的概念作为特征建立概念向量空间模型；

步骤S102，使用改进的Dotpfotting算法进行文本分割，获得文本的主题划分；

步骤S103，利用建立的概念向量空间模型计算句子权重，根据句子权重、主题划分、句子相似度产生文摘。

进一步，步骤S101，以“知网”作为工具获取概念时，将“知网”结构中的DEF项相同的词语作为词义相同的义原，提取出来作为同一个概念不同词语的集合，具体的实现步骤为：

S11，选择多义词的DEF项

进一步，步骤S102，使用改进的Dotpfotting算法进行文本分割，获得文本的主题划分时，改进的DotPlotting模型的修改密度函数为：

f_{D}^{'} = Σ_{j = 2}^{| P |} \frac{V_{P_{j - 1}, P_{k}} \cdot V_{P_{j}, n}}{(P_{j} - P_{j - 1}) (n - P_{j})} + Σ_{j = 1}^{| P - 1 |} \frac{V_{0, P_{j}} \cdot V_{p_{j}, P_{J + 1}}}{P_{j} (P_{J + 1} - P_{j})}

S23，将分割段落数从1到K重复(4)-(5)操作：

(1)概念权重计算

(2)句子权重计算

W (S_{j}) = λ \frac{Σ_{i = 1}^{n} F_{ij} \times w_{i} (d_{i})}{M}

(3)句子相似度计算

R_{s} = 2 * \frac{(# overlapping words)}{(# words insentencel + # words in sentence 2)}

在本发明实施例中，该多文档文摘方法通过内部评测的方式进行验证。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

概念获取：

在自动文摘中一个必要的过程是对句子进行重要度计算，而对句子的重要度计算多采用建立的向量空间模型来进行。传统的基于词频模型的向量空间在建模过程中由于未能将描述同一概念的词语进行聚类，导致所建立模型中各向量并未真正做到相互完全正交，这一现象将导致后期的文摘准确率较低，为此本发明以概念作为特征代替词频特征，建立概念向量空间模型，以避免上述情况的发生，本发明以“知网”作为概念获取的工具。

“知网”介绍：

“知网”是中文语义辞典，是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常用知识库，目前定义了1500多个义原。“知网”中的每个词条均含有NO.、W_C、G_C、E_C、DEF，其中NO.为概念编号，剩下的符号分别对应于词条的词语、词性、词语举例和词语的定义，表达了词条的语义信息，由两部分组成，如“爆炸”(NO.＝005987)的DEF为{FormChange|形变：StateFin＝{OutOfOrder|坏掉}。以冒号为界，第一部分为基本义原：{FormChange|形变}，能够在很大程度上反映DEF的含义；第二部分为关系义原：{StateFin＝{OutOfOrder|坏掉}，代表了DEF的关系结构特性。“知网”以树形组织义原，越相似的义原在义原树内的位置越接近。

基于“知网”的概念获取：

从“知网”的结构可以看出DEF项很好的表达了词语的词义，可以将DEF项相同的词语作为词义相同的义原，提取出来作为同一个概念不同词语的集合。但在实际的概念获取过程中会存在两个问题，第一个问题就是在对多义词获取词语概念的时候仅仅以DEF项相同来作为获取的原则是不够的，这样无法区分多义词实际所属的义原项而影响到概念获取准确率；另一个方面则表现为“知网”中对于词义(DEF)的区分过于严格，完全以DEF项本身进行匹配搜索将可能遗漏掉一些相关信息。

首先，解决多义词DEF项的选择问题，再采用一个改进的DEF项获取词语概念。可以先利用中科院计算所的ICTCLAS平台对文本进行词语切分和词性的标注，去除对文本文摘作用不大的介词、虚词、数词等词语，提取出关键的名词，形容词等重要词语进行处理；这样的一个切分好和带词性标注的文本。在对多义词的DEF项选取主要分两种情况进行。一种情况是有些多义词在不同语境下的词性是不同的，可以根据标注好词性的特点确定这些多义词的DEF项；另外一种情况是在不同DEF项下有相同的词性，但在不同语境下需要与不同词性词语搭配使用。例如，“知网”中编号分别为(NO.＝005987和NO.＝005990)两个词语来说，对于第一个“爆炸”义项来说，在实际使用过程中多指“核电厂发生爆炸、炸药爆炸了”，语法分析形式上多使用N+V；而对第二个“爆炸”义项来说，多指“爆炸了敌人的弹药库、准备爆炸的大楼”，语法分析形式上多使用V+N。不同语境将会产生不同的语法形式，根据这点可以确定这类多义词的DEF项。

在多义词确定其DEF项后，采用改进的DEF项获取其他词语概念，详细过程如下：

1)重新定义DEF项，将DEF项扩展为包含的基本义原和该词语中的关系义原的并集，在扩展时过滤掉“知网”中含义过大、过宽泛的抽象义原，如“属性”、“事件”、“实体”等；

2)以句子为单位建立概念获取前的文档模型，表示为Sj(W1，W2，...Wn)(文档由j句话构成，每句话包含n个词语)；

4)进入建立向量空间模型的句子扫描，设目前正在扫描第j句话；

5)扫描句中词语Wi，找到所对应的DEF项，并在该句话中扫描是否有与DEF项义原相同的词语，如果没有则标注词语Wi的概念，则扫描句子下一个词语Wi+1，转到(5)，句中所有词语扫描完，进入下一个句子的扫描，转到(4)；若有相同词语，转到(6)；

6)提取出词语Wk，找出Wk所对应的DEF项，若词语Wk的DEF项义原词语未包含Wi，则将词语Wi和Wk的概念以Wi的DEF项进行标注；若出现词语Wi，则通过比较两个词语在DEF项描述的义原的距离，采用离基本义原更有的那个词语的DEF项作为这两个词语的概念，进入下一个词语Wi+1的扫描，转到(5)；句中所有词语扫描完，进入下一个句子的扫描，转到(4)；

在完成上述工作后，可以获得所有词语的概念，这样获得到的词语概念不仅解决了多义词的消解问题，同时考虑了将同一语境中有相同关系的词语作为一个概念来对待处理，这样更能保证在以概念为基础所建立的概念向量空间模型中各个概念元素的正交关系，从而为后期生成更高质量的文本摘要打下坚实的基础。

3基于概念密度的文本分割方法

3.1传统DotPlotting模型

DotPlotting[7]是文本分割领域的著名模型，该算法是一种基于词汇聚合度和图像分析技术的方法，它通过一个反映文档词汇整体分布情况的点图来识别语义段落边界。如果某个词在文档中位置x和位置y处重复出现，则分别在图中(x，x)，(x，y)，(y，x)，(y，y)四个坐标上用一个点标出该词。利用该方法将整篇文本的所有词汇都表示在图上，就会形成一个对称的二维点图。二维点图能够明显地反映了一篇文档内部的子主题分布情况，通过建立密度评价函数来度量主题的连贯性，已达到对文本进行分割的效果。

Dotplotting模型传统的密度函数表示为：

f_{D} = Σ_{j = 2}^{| P |} \frac{V_{P_{j - 1}, P_{j}} \cdot V_{P_{j}, n}}{(P_{j} - P_{j - 1}) (n - P_{j})} - - - (1)

其中n为整篇文档的长度，Pj为第j个语义段落边界的位置，|P|文档中的语段数目，Vx，y为第x个词至第y个词组成的文本片段的词频向量。

在整个传统DotPlotting模型中，如果仅仅采用词汇作为一个基本语义单位，在整个二维点图中将存在大量的系数矩阵情况，该情况在使用密度函数进行评价时无法准确提取出一些语义段落的边界；另一方面公式(1)中，密度函数对每个候选的语义段落边界，在由它所带来的总体密度中，每个单个密度项是每个位置Pj对应的密度项计算它的前一个语义段落与它之后的所有文本之间的词汇相似度，因此位置Pj的密度由它的前一个语义段落边界Pj-1，和整篇文档的结尾位置n决定。这就存在一个密度函数不对称性问题，该问题会导致从前向后扫描文档与从后向前扫描文档得出完全不相同的文本分割结果。而现在是在一个对称的二维点图上进行一个密度函数评价来进行文本分割，因此需要解决传统Dotplotting模型密度函数不对称的问题。

3.2改进的DotPlotting模型

基于上述对传统DotPlotting模型的分析与研究，本发明采用第二部分获得概念来代替词汇，利用概念来建立对称的二维点图；同时为了弥补传统Dotplotting模型密度函数的不对称性问题，修改密度函数为：

f_{D}^{'} = Σ_{j = 2}^{| P |} \frac{V_{P_{j - 1}, P_{k}} \cdot V_{P_{j}, n}}{(P_{j} - P_{j - 1}) (n - P_{j})} + Σ_{j = 1}^{| P - 1 |} \frac{V_{0, P_{j}} \cdot V_{p_{j}, P_{J + 1}}}{P_{j} (P_{J + 1} - P_{j})} - - - (2)

公式(2)后半部分是为了使密度函数对称化而引入的“后向”密度。通过对公式(1)的修正，候选边界位置Pj的“后向”密度是由它的后一个语义段落边界Pj+1和整篇文档的起始位置0决定的。该密度函数能保证，从前向后和从后向前扫描文档将得到相同的密度函数值。

3.3文本分割算法

DotPlotting模型中语义段落边界的确定方法为：假设B为已确定的语义边界集合，那么余下的所有边界都是候选语义边界；将余下的边界集合作为下一轮需要进行选择待选边界，它们组成候选边界集合C。对C中每个候选边界i，令P＝B∪{i}，根据公式(2)的密度函数，计算出由P分割出的总体密度，选择总体密度最小的候选边界作为下一个最佳语义段落边界，并将该边界加入集合B。具体的算法描述如下：

(1)对给定文档W进行词语预处理和根据第二部分的概念获取方法获取词语的概念，并建立概念二维点图，给定语义段分割数目K；

(2)初始化语义边界集合B为空，以各个段落为边界，作为候选分割点，并以候选分割点为基础建立候选边界集合C，使用标识S作为记录最佳分割点的变量；

(3)将分割段落数从1到K重复(4)-(5)操作：

(4)对于集合C中的每一个边界候选点i，令P＝B∪{i}，根据公式(2)的密度函数，计算出由P分割出的总体密度d，如果dmin＞d，dmin＝d，并且记录下S＝i；

(5)将该边界作为一个目标边界记录到集合B中，即B∪{S}；同时将该边界在候选边界集合C中删除C-{S}。

该算法的含义是语义段落边界是依次添加进来的。将文档中自然段落末尾作为候选语义段落分割点。选取新的语段边界时，考察每个候选边界，尝试将其加入边界集合B，组成新的边界集合P。并利用密度函数来评价由新的边界集合里的边界构成的分割方式，选取使密度函数值最小的候选边界作为分割边界，并将该边界加入分割边界集合，直至边界的个数达到预先指定的数目K为止。

4基于文本分割的自动文摘

基于文本分割的多文档摘要，首先通过预处理提取出那些有意义的动词、名词，通过第二部分基于HOWNET的算法获取这些词语的概念，并建立概念向量空间模型，采用文本分割技术将文本进行分割，根据分割后的段落集合以及各段落内句子的重要度来生成摘要。整个多文档文摘产生的全过程如下图所示：

在整个多文档文摘生成过程中包括句子权值计算和文摘句相似度计算等问题，具体计算方法如下：

(1)概念权重计算

建立好基于句子的概念向量空间模型后，采用传统的TF*IDF法来计算概念重要度。

(2)句子权重计算

句子权重计算是对待处理的文本建立起句子的概念向量空间模型Sj(C1，W1j；C2，W2j；....；Cn，Wnj)进行句子权重计算。从语言学结构分析和相关统计运行分析，句子的重要程度与句中包含的词语、自身在段落中的位置以及段落在整个文章中的位置等因素相关，设计句子权重的计算函数为：

W (S_{j}) = λ \frac{Σ_{i = 1}^{n} F_{ij} \times w_{i} (d_{i})}{M} - - - (3)

其中w_i(d_t)为概念Ti的重要度，Fij为Ci在句子Sj中出现的频度，M为句子Sj包含的所有概念个数；λ为当句子是段落的句首或者结尾时的加权值，本系统设为1.5。在计算句子权重时除以M主要是为了单位化句子权重，使句子权重计算不因句子长短不同而有较大波动。

(3)句子相似度计算

为防止抽取出的文摘句有内容相似的语句，系统采用两个句子间概念重叠个数与各句子间概念个数和的2倍作为计算句子间相似度的方法，具体算法为：

R_{s} = 2 * \frac{(# overlapping words)}{(# words insentencel + # words in sentence 2)} - - - (4)

通过对大量语料中相似句的计算，系统相似度阈值设定为0.7比较合理。

5系统评估

5.1评价标准

文本摘要的评估方法大致可以分为两类：外部评测和内部评测。外部评测方式通过比较自动文摘的结果对信息检索等其他工作的影响来判断文摘的质量。内部评测是在提供参考摘要的前提下，以参考摘要为基准评价系统摘要的质量。

本系统采用内部评测的方式对所设计的方法进行验证。传统的内部评测指标主要有：召回率、准确率、F-Score；目前比较通用的内部评测方法，由LinChin-Yew等人提出的自动文摘评测方法ROUGE[8，9]，该方法从2006年开始在DUC自动文摘评测中被逐步采用。但DUC所面向的都是英文的测试语料，在对中文文本进行自动文摘测评时需要进行相应语料库的建设，在建好语料库后采用ROUGE方法对文档自动摘要进行测试。

(1)召回率、准确率以及F_Score：其中召回率指系统正确识别的比率，准确率指系统准确识别的比率。具体公式为：召回率R＝Nhm/Nh，准确率P＝Nhm/Nh，Nhm为同时被文摘系统和专家文摘抽取的句子数目，Nh为专家文摘抽取的句子数目，Nm为文摘系统抽取的句子数目，

(2)ROUGE工具是自动文摘领域著名的评价标准。ROUGE主要包括以下五种评测标准：Rouge-N、Rouge-L、Rouge-S、Rouge-W和和Rouge-Su。目前主流评测多采用Rouge-N和Rouge-Su两个指标来进行评测。Rouge-N代表的是基于N-unigram的共现统计；Rouge-S是用来统计Skip-Bigram跳跃二元串共现频率的，而Rouge-SU是Rouge-S的扩展一种扩充评测，主要为解决Rouge-S在与参考摘要没有共同skip-bigram的候选摘要将得分为0的问题。本系统使用Rouge-2和Rouge-SU4作为评测标准。

5.2评测系统

评测系统采用：1CoverageBaseline：依次取文档集合(文档数为n)中的第一个文档的第一个句子、第二个文档的第一个句子...，第N个文档的第一个句子；第一个文档的第二个句子，第二个文档的第二个句子...，第N个文档的第二个句子；第一个文档的第三个句子，...直到满足文摘目标长度。2本发明描述的文本分割系统。

5.3文摘结果实验与分析

通过如下的方法获取实验数据：从国家语委语料库中选择200篇在经济、新闻、文学等方面不同类型的文章，该文档集合包含8个不同的主题，每个主题包含有25篇文章。请中文系的学生通过人工的方式对上述文章进行人工文摘，并把每篇文章的文摘长度设置为文章长度的20％，将这样的语料作为评测语料。然后将各算法生成的摘要与评测语料进行比较，如表1和表2所示相应实验数据。

表1F_Score值等三个参数实验结果

表2Rouge-2和Rouge-SU4实验结果

系统类型	Rouge-2	Rouge-SU4
			文本分割系统	0.0733	0.1231
Baseline系统	0.0662	0.1112

从表1的实验数据分析可以发现，文本分割方法得到的文摘与文章题材的不同有一定的差异。对于文学类等语义结构复杂的文章，文摘的效果相对较差。

对于新闻报道等语义结构相对单一的文章，实验结果相对较好。文章结构的简单和复杂在一定程度上会影响文章结构分割中的效果，进而进一步影响后期的文摘的结果。

从表2的实验数据可以发现，文本分割系统与DUC2006所参赛的各类文摘系统平均分(Rouge-2为0.0736，Rouge-SU4为0.1288)还是比较接近的，虽然文本分割系统所得出的结果低于平均分一点点，但是系统所产生的文章毕竟是中文文摘，相对英文文摘由于文字本身特点会有一定的偏差，另外大部分DUC参赛系统都利用了语言工具、外部语料和人工构造的知识库等资源的帮助，以实现对文档内容的深层理解。本系统所采用的是基本统计语言学的方法，系统不依赖于任何外部资源，相对运行速度和独立性会相对更好。

从表1和表2的综合结果来看，文本分割系统在各方面的综合指标都明显优于简单Baseline系统，说明通过一些统计语言学方面的相关处理，能够以较小的运行代价来换取文本摘要质量的一个明显提高。

本发明实施例提出了一种基于文本分割技术的多文档文摘方法，使用HowNet进行概念获取，建立概念向量空间模型，采用改进的DotPlotting模型和句子概念向量空间进行文本分割，利用建立的概念向量空间模型计算句子权重，根据句子权重、文本分割和相似度情况产生文摘，同时使用ROUGE-N评测方法和F_Score作为评测指标对产生的文摘进行评测，结果显示使用文本分割技术进行多文档摘要是有效的，该多文档文摘方法将把用户提供的相关文档集合形成文摘，并以适当的形式展现给用户，极大地提高了获取信息的效率，实用性强，具有较强的推广与应用价值。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本分割技术的多文档文摘方法，其特征在于，该多文档文摘方法包括以下步骤：

步骤二，使用改进的Dotplotting算法进行文本分割，获得文本的主题划分；

步骤三，利用建立的概念向量空间模型计算句子权重，根据句子权重、主题划分、句子相似度产生文摘；

步骤一，以“知网”作为工具获取概念时，将“知网”结构中的DEF项相同的词语作为词义相同的义原，提取出来作为同一个概念不同词语的集合，具体的实现步骤为：

S11，选择多义词的DEF项

S111，利用中科院计算所的ICTCLAS平台对文本进行词语切分和词性的标注，去除对文本文摘作用不大的介词、虚词、数词词语，提取出关键的名词、形容词进行处理，得到一个切分好和带词性标注的文本；

S12，在确定多义词DEF项后，采用改进的DEF项获取其他词语概念；

S121，重新定义DEF项，将DEF项扩展为包含的基本义原和DEF项中的关系义原的并集，在扩展时过滤掉“知网”中含义过大、过宽泛的抽象义原；

S123，进入建立概念向量空间模型的句子扫描，设目前正在扫描第j句话；

S124，扫描句中词语Wi，找到所对应的DEF项，并在该句话中扫描是否有与DEF项义原相同的词语，如果没有则标注词语Wi的概念，则扫描句子下一个词语Wi+1，转到S124，句中所有词语扫描完，进入下一个句子的扫描，转到S123；若有相同词语，转到S125；

S125，提取出词语Wk，找出Wk所对应的DEF项，若词语Wk的DEF项义原未包含Wi，则将词语Wi和Wk的概念以Wi的DEF项进行标注；若出现词语Wi，则通过比较两个词语在DEF项描述的义原的距离，采用离基本义原更远的那个词语的DEF项作为这两个词语的概念，进入下一个词语Wi+1的扫描，转到S124；句中所有词语扫描完，进入下一个句子的扫描，转到S123；

步骤二，使用改进的Dotplotting算法进行文本分割，获得文本的主题划分时，改进的DotPlotting模型的修改密度函数为：

f_{D}^{'} = Σ_{j = 2}^{| P |} \frac{V_{P_{j - 1}, P_{k}} \cdot V_{P_{j}, n}}{(P_{j} - P_{j - 1}) (n - P_{j})} + Σ_{j = 1}^{| P - 1 |} \frac{V_{0, P_{j}} \cdot V_{p_{j}, P_{J + 1}}}{P_{j} (P_{J + 1} - P_{j})}

其中n为整篇文档的长度，Pj为第j个语义段落边界的位置，|P|为文档中的语段数目，Vx，y为第x个词至第y个词组成的文本片段的词频向量；

S23，将分割段落数从1到K重复S24-S25操作：

S25，将该边界作为一个目标边界记录到集合B中，即B∪{S}；同时将该边界在候选边界集合C中删除C-{S}；

改进的Dotplotting算法的含义是语义段落边界是依次添加进来的，将文档中自然段落末尾作为候选语义段落分割点，选取新的语段边界时，考察每个候选边界，尝试将其加入边界集合B，组成新的边界集合P，并利用密度函数来评价由新的边界集合里的边界构成的分割方式，选取使得密度函数值最小的候选边界作为分割边界，并将该边界加入分割边界集合，直至边界的个数达到预先指定的数目K为止；

在整个多文档文摘生成过程中包括句子权值计算和文摘句相似度计算，具体计算方法如下：

(1)概念权重计算

(2)句子权重计算

句子权重计算是对待处理的文本建立起句子的概念向量空间模型Sj(C1，W1j；C2，W2j；...；Cn，Wnj)进行句子权重计算，从语言学结构分析和相关统计运行分析，句子的重要程度与句中包含的词语、自身在段落中的位置以及段落在整个文章中的位置因素相关，设计句子权重的计算函数为：

W (S_{j}) = λ \frac{Σ_{i = 1}^{n} F_{i j} \times w_{i} (d_{t})}{M}

其中w_i(d_i)为概念Ti的重要度，Fij为Ci在句子Sj中出现的频度，M为句子Sj包含的所有概念个数；λ为当句子是段落的句首或者结尾时的加权值，设为1.5，在计算句子权重时除以M主要是为了单位化句子权重，使句子权重计算不因句子长短不同而有较大波动；

(3)句子相似度计算

为防止抽取出的文摘句有内容相似的语句，采用两个句子间概念重叠个数与各句子间概念个数之和的商的2倍作为计算句子间相似度的方法，具体算法为：

R_{s} = 2 * \frac{(# o v e r l a p p i n g w o r d s)}{(# w o r d s i n s e n t e n c e 1 + # w o r d s i n s e n t e n c e 2)}

通过对大量语料中相似句的计算，相似度阈值设定为0.7比较合理；

该多文档文摘方法通过内部评测的方式进行验证。