CN111177365A

CN111177365A - 一种基于图模型的无监督自动文摘提取方法

Info

Publication number: CN111177365A
Application number: CN201911321569.7A
Authority: CN
Inventors: 赵卫东; 陈晓露; 王铭
Original assignee: Shandong University of Science and Technology
Current assignee: Qingdao Guancheng Software Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-19
Anticipated expiration: 2039-12-20
Also published as: CN111177365B

Abstract

本发明公开了一种基于图模型的无监督自动文摘提取方法，属自然语言处理领域。本发明使用TF‑IDF模型得到样本特征词的IDF值，输入到PV‑IDF模型训练得到样本句子向量；利用关键词和句子位置等信息得到句子初始权重，生成惩罚矩阵；将句子初始权重输入图模型中初始化节点权重，句子向量相似度作为节点连线权重，迭代图模型得到句子得分并排序；将得分前n个候选文摘句利用惩罚矩阵筛选，得到文摘句；使用PV‑IDF模型训练句子向量计算相似度，初始化图模型节点权重，并使用惩罚矩阵对文摘句进行筛选，解决了现有无监督自动文摘方法语义相关度低，冗余度高的问题，在R₁和R_L指标有了显著的提高，有效提高了文摘质量。

Description

一种基于图模型的无监督自动文摘提取方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于图模型的无监督自动文摘提取方法。

背景技术

随着大数据时代的到来，如何从海量的信息中快速准确的提炼出关键信息已经成为一个亟需解决的重要问题。文本摘要在新闻信息提取、科技文献检索、商品评论分析等领域都有重要应用。随着深度学习理论和方法的快速发展，已广泛应用于文本特征提取等自然语言处理领域。自动摘要可以从很多角度进行分类，按照有无监督数据来划分，可以分为有监督和无监督自动文摘方法。有监督摘要方法需要从文件中选取主要内容作为训练数据，将文摘视为句子层面的分类问题，需要大量的注释和标签数据，会消耗大量的人力资源和时间成本。无监督的文本摘要系统不需要任何监督数据，仅通过对文档进行检索即可形成摘要。但是目前的无监督摘要没有充分挖掘和利用语义之间的关系，对文档数据利用不充分，文摘冗余度高，存在诸多局限性，为了解决无监督自动文摘方法存在的主要问题，本发明提出了一种适用于中文文本摘要的自动提取算法。

目前，有关无监督的自动文摘算法的研究有很多。其中，iTextRank算法在图模型节点构建时考虑引入标题、段落、句子位置和长度等信息，有效提高了TextRank算法文摘质量，但并未考虑文本语义信息。而DK-TextRank算法使用Doc2Vec训练句子向量，并使用K-means算法对句子向量进行聚类，该算法考虑了文章语义对文摘的影响，但首先使用K-means聚类会导致信息损失，某些文摘句在输入图模型之前就会被提前删除。杨山等人使用Word2Vec模型训练词向量，并利用句子中词向量叠加求均值作为句子的向量表示，输入TextRank图模型进行迭代，该算法考虑使用了Word2Vec求均值的方法来表示含有语义信息的句子向量，但利用该方法得到的句子向量无法准确表示句子中的语义信息，从而影响文摘质量。

发明内容

针对现有的无监督文摘技术语义相关度低、文摘句冗余度高的问题，本发明提出了一种基于图模型的无监督自动文摘提取方法，提高了现有无监督自动文摘质量。

为了实现上述目的，本发明采用如下技术方案：

一种基于图模型的无监督自动文摘提取方法，包括如下步骤：

步骤1：对测试数据以及语料库的文本进行预处理；

步骤2：使用TF-IDF(Term Frequency–Inverse Document Frequency，词频-逆文档频率指数)模型，训练得到样本特征词频率和逆文档频率；

步骤3：将预处理后的文本和特征词逆文档频率输入到PV-IDF(Inverse DocumentFrequency of Paragraph Vectors，逆文档频率段落向量模型)模型中，训练得到样本句子向量；

步骤4：利用步骤2得到的样本特征词频率，结合句子位置和标题相似度，计算得到样本句子初始权重；

步骤5：利用步骤3训练得到的样本句子向量，计算得到样本句子相似度矩阵ω，利用步骤4得到的样本句子初始权重，计算得到惩罚矩阵ω′；

步骤6：将步骤4得到的样本句子初始权重输入TextRank图模型中作为TextRank图模型节点初始权重，样本句子向量作为TextRank图模型连线权重；

步骤7：迭代TextRank图模型得到权重最高的n个句子，作为候选文摘句；

步骤8：根据步骤5得到的惩罚矩阵ω′，对候选文摘句进行筛选，得到文摘句；

步骤9：将文摘句按照原文的语序输出，并进行平滑处理。

优选地，在步骤1中，对文本进行预处理，主要包括：(1)去除文本中特殊符号、图片、表格以及计算机语言无法识别的文字；(2)文本分割：将文本中句子进行分词处理，并去除停用词，得到有关键词组成的文本句子集合和关键词集；(3)将文本句子集合中的句子进行标号，并特殊标记文章中首段前三句和首段段尾句。

优选地，在步骤4中，具体包括如下步骤：

步骤4.1：根据公式(1)、(2)，计算句子s_i基于标题的权重

其中，σ表示基于标题的初始权重，t表示文章标题，π表示句子维数，w_t表示标准化后基于标题的权重；

步骤4.2：根据公式(3)，计算句子s_i基于关键词的权重

其中，f_k表示标号为k的关键词在句子s_i中的频率，r_k表示特征词的逆文档频率，T表示特征词数量；

步骤4.3：根据公式(4)，计算句子s_i基于位置的初始权重

步骤4.4：根据公式(5)，计算样本句子综合权重：

其中，α、β、γ为比例参数，W(s_i)表示句子s_i的综合权重。

优选地，在步骤5中，具体包括如下步骤：

步骤5.1：根据公式(6)，计算样本句子相似度矩阵ω：

其中，sim_ij为文本句子集合中标号为i的词和标号为j的句子相似度；

步骤5.2：根据句子初始权重和句子相似度矩阵，以及公式(7)所示的惩罚规则，得到包含删除策略的由0和1组成的惩罚矩阵ω′；

优选地，在步骤8中，筛选策略如公式(8)所示：

本发明所带来的有益技术效果：

本发明使用PV-IDF模型训练句子向量计算相似度，初始化图模型节点权重，并使用惩罚矩阵对文摘句进行筛选，解决了现有无监督自动文摘方法语义相关度低，冗余度高的问题。实验结果表明，本发明提出的方法在R₁和R_L指标有了显著的提高，分别达到0.455和0.439，有效提高了文摘质量。

附图说明

图1为PV-IDF模型示意图。

图2为本发明方法的流程图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

一种基于图模型的无监督自动文摘提取方法，其流程如图2所示，包括如下步骤：

步骤1：对测试数据以及语料库的内容进行预处理；

对文本进行预处理，主要包括：(1)去除文本中特殊符号、图片、表格以及计算机语言无法识别的文字；(2)文本分割：将文档中句子进行分词处理，并去除停用词，得到有关键词组成的句子集合和关键词集；(3)将文本句子集合中的句子进行标号，并特殊标记文章中首段前三句和首段段尾句。

步骤2：使用TF-IDF模型，得到样本特征词频率和逆文档频率；

步骤3：将预处理后的文本和特征词逆文档频率输入到PV-IDF模型中，训练得到样本句子向量；

PV-DM(Distributed Memory Model of Paragraph Vectors，分布记忆模型)模型将文档ID与语料库中所有词共同组成定长的初始向量，为了使训练得到的向量包含更加丰富的语义信息的同时，提高句子向量训练效率，本发明申请选用PV-IDF的文档向量表示方法，以输入文档的逆文档频率(Inverse Document Frequency,IDF)作为指标，删除关键词集中与文档相关度较低的词，用以词向量的降维和高信息量聚集。

使用TF-IDF算法训练得到样本，得到文档d_j中特征词频率(Term Frequency，TF)

(F₁,F₂,…,F_T)和逆文档频率(r₁,r₂,…,r_T)。TF指的是特征词在指定文档中出现的频率，TF的计算方法如公式(9)所示：

其中，n_i,j是特征词t_i在文件d_j中出现的次数，分母∑_kn_k,j是指文档d_j中所有词汇出现的次数总和，TF_ij表示文档d_j中单词t_i出现的频率。

逆文档频率主要指一个词语普遍重要性的度量，也就是说包含某特征词的文档数越少，其IDF值就越大，则说明该关键词具有很好的类别区分能力，如公式(10)所示：

其中，|D|为语料库中的文件总数，|{j:t_i∈d_j}|表示包含特征词t_i的文件数目，IDF_ij表示文档特征词t_i的逆文档频率。

删除文档中逆文档频率低于阈值θ的关键词得到向量A，删除策略如公式(11)所示：

将删除后的词集输入到模型PV-IDF模型中用来表示文档特征S，设当前文档中第t个词为中心词，该词的上下文是c_t，

经过训练可以得到由128向量表示的文摘句子集合S{s₁,s₂,…,s_T}和文摘标题向量t。

根据图1给出的模型训练可以得到包含语义信息的文档句子向量s_t，句子向量维数为128维。

步骤4：利用步骤2得到的样本特征词频率，结合句子位置和标题相似度，计算得到样本句子初始权重W(s_i)；具体包括如下步骤：

步骤4.1：中文标题往往反映着文本的主题，文本中的一个句子与文本标题的相似度越大，被抽取的可能性就越大，本发明申请选用128维；根据公式(1)、(2)，计算句子s_i基于标题的权重

步骤4.2：关键词是通常的反映文章主题的词语，一个句子包含的关键词越多，其信息量越大，句子越重要，根据步骤2得到的关键词逆文档频率，可以得到基于关键词的句子s_i的权重计算规则，通过统计句子中关键词频率和关键词逆文档频率相乘累加得到文档句子权重，根据公式(3)，计算句子s_i基于关键词的权重

其中，f_k表示标号为k的关键词在句子s_i中的频率；

表示关键词在句子中的权重之和；

步骤4.3：统计表明，反应主题的摘要句出现在文章第一段段首和段尾的可能性较大，其中第一段段首前三句中出现文摘句的可能性最大，根据公式(4)，计算句子s_i基于位置的初始权重

步骤4.4：综合文章标题、关键词和文章句子权重，根据公式(5)，计算样本句子综合权重：

其中，α、β、γ为比例参数，W(s_i)表示句子s_i的综合权重。

通过余弦相似度算法计算两个句子之间的相似度sim(A,B)，A和B是通过PV-IDF模型训练得到的句子向量，根据步骤1和步骤2得到的文本句子向量集合和逆文档频率可以生成文本句子相似度矩阵。

具体包括如下步骤：

步骤5.1：根据公式(6)，计算样本句子相似度矩阵ω：

将文章句子作为TextRank图模型节点，构件图模型G＝(v,e)，其中v为由句子组成的节点集，由步骤1生成的文档组句子集合组成，e为边集合，利用步骤4训练得到的句子相似度矩阵算得，句子相似度大于阈值

的句子连接起来作为图模型的边，边的权值为矩阵中得到的句子相似度。将节点V_i的初始权重设置为步骤2得到的句子初始权重，建立图模型。节点V_i的得分定义如公式(12)所示：

其中，In(v_i)是指向节点i的节点集合，Out(v_j)是节点j指向的节点集合。d为阻尼系数，在文本图模型中，句子相似度小于阈值

的没有连线，通常情况下，d的取值为0.85。

根据公式(12)迭代传播各节点的权重，直至收敛，得到各个句子得分并倒序排列，抽取句子得分最高的t个句子作为候选文摘句。

由于图模型迭代得到的高分句子存在较大的冗余度，本发明申请利用步骤4得到的惩罚矩阵ω′来筛选候选文摘句中最能表达文章语义且与候选文摘句有最小冗余度的句子，筛选策略如公式(8)所示：

步骤9：将文摘句按照原文的语序输出，并进行平滑处理。

本实例是提取新闻类文本摘要，由于本发明的算法具有普适性，所以要求新闻素材选取广泛，选取500篇新闻文本作为样本。

本发明实验语言为Python3.7，在Anaconda环境下进行编程，基于TensorFlow实现PV-IDF模型训练，使用jieba分词工具对语料进行分词，并在样本预处理阶段引入外部停用词词典进行删除操作。

随机选取一篇科技类新闻检测样本β，标题为“自然语言处理的发展历程”

文本β第一段，其内容为：

“自然语言处理是计算机科学领域和人工智能领域中的一个分支，它与计算机和人类之间使用自然语言进行互动密切相关。自然语言处理的最终目标是使计算机能够像人类一样理解语言。它是虚拟助手、语音识别、情感分析、自动文本摘要、机器翻译等的驱动力。自然语言处理是计算机科学、语言学和机器学习的交叉点，它关注计算机与人类之间使用自然语言中的沟通交流。总之，自然语言处理致力于让计算机能够理解和生成人类语言。自然语言处理技术应用可以于多个领域，比如天猫精灵和Siri这样的语音助手，还有机器翻译和文本过滤等。”

如图2所示，一种无监督的自动文摘提取算法，以样本β为例，包括以下步骤：

1、对测试数据集以及语料库的内容预处理：

对文本β预处理后：

[(自然语言/处理/计算机科学/领域/人工智能/领域/分支/计算机/人类/自然语言/互动/密切相关)^f1,(自然语言/处理/最终/目标/计算机/人类/理解/语言)^f2,(虚拟助手/语音识别/情感分析/自动文本/摘要/机器翻译/驱动力)^f3,(自然语言/处理/计算机科学/语言学/机器学习/交叉点)^c4,(关注/计算机/人类/自然语言/沟通/交流)^c5,(自然语言/处理/计算机/理解/生成/人类语言)^c6,(自然语言/处理/技术/应用/领域/天猫精灵/Siri/语音助手/机器翻译/文本过滤)^e7]

其中，句子标号f1表示此句为文章第一段段首句，e7表示此句为文章第一段段尾句。

2、对于文本β，利用TF-IDF模型来计算关键词权重。其中，除“自然语言”对应的TF值为0.1272，“处理”对应的TF值为0.0909，其余特征词的TF值均较低。

文本β的部分特征词IDF值如表1：

表1

根据TF-IDF算法，并考虑句子在文章中位置和句子与标题相似度，可以得到文章句子的初始权重。

文本β第一段中各个句子初始权重如表2：

表2

如上表所示，f1的初始权重较大，主要原因是f1的包含特征词较多，句子位置处于文章第一段句首且与文章标题相似度较高，所以f1作为文摘句的可能较高；f3虽然是文章首段第三句，可是句子中包含关键词数量较少，所以权重较低；e7属于文章首段段尾句，且包含关键词，所以权重较高。

3、利用PV-IDF模型训练得到文档句子向量，该模型利用关键词的逆文档频率作为指标，去掉了句子中冗余或贡献较小的词，得到的句子向量不仅低维稠密，还包含丰富的语义信息。

输入500篇新闻样本，用于训练PV-IDF模型，得到文本β句子向量，使用余弦相似度计算两个句子向量之间的相似程度，并利用其结果与文章中其他句子向量建立相似度矩阵。

其中下标n代表着文章中句子的标号，例如：sim₄₅代表着标号为4和标号为5的句子之间的相似程度，也就是句子“(自然语言/处理/计算机科学/语言学/机器学习/交叉点)”和句子“(关注/计算机/人类/自然语言/沟通/交流)”的句义相似度。测试文档β的句子相似度矩阵ω_β如下：

经过转化后的矩阵ω′_β如下：

4、将表2得到的句子初始权重表输入到图模型中作为图模型的句子节点的初始权重，将句子相似度矩阵ω_β作为节点间连线权重，为了减少图模型连线的时间成本，只将句子相似度大于阈值

的句子连接起来。

迭代图模型，得到权重最高的n个句子，排名前5的句子标号如表3所示：

表3

5、将上表中得分最高的n个句子，按照矩阵ω′_β的规则进行删减，比如ω′_β14＝1，ω′_β41＝0，则保留标号为1的句子，删除标号为4的句子。

6、将筛选后的文摘句按照原文的语序输出，并进行平滑处理，得到输出后的文章β的摘要：

“自然语言处理是计算机科学领域和人工智能领域中的一个分支，它与计算机和人类之间使用自然语言进行互动密切相关。自然语言处理的最终目标是使计算机能够像人类一样理解语言。自然语言处理致力于让计算机能够理解和生成人类语言。随着计算机对语言的理解愈渐完美，将会产生可以处理互联网上全部信息的人工智能，继而产生强人工智能。”

在本发明申请训练所使用的样本中各个类型的新闻数量大致相等的条件下，随机选取200篇新闻样本用于验证自动文摘效果。由于ROUGE属目前自动文摘系统评价的主流方法，所以采用ROUGE中生成摘要与相应参考摘要的一元召回率(R₁)、二元召回率(R₂)和最长公共序列的召回率(R_L)作为文本摘要的评价指标。计算得到200篇新闻样本一元召回率(R₁)、二元召回率(R₂)和最长公共序列的召回率(R_L)的平均值。

本发明申请对比TextRank、LexRank和TF-IDF无监督自动文摘方法，一元召回率、二元召回率及最长公共序列的召回率，如表4所示：

表4

对于IDF值较低的特征词，对于文章语义表示关联度较低，本发明采用PV-IDF句子向量表示模型，去掉了冗余或贡献较小的词，利用IDF值较高的关键词来训练句子向量，得到高质量的包含语义信息的句子向量表示。并利用图模型和句子相似度矩阵得到得分较高的句子并通过惩罚矩阵进行筛选。由表4的实验结果表明，本发明申请提出的方法在R₁和R_L指标有了显著的提高，分别达到0.455和0.439，有效提高了文摘质量。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于图模型的无监督自动文摘提取方法，其特征在于：包括如下步骤：

步骤1：对测试数据以及语料库的文本进行预处理；

步骤2：使用TF-IDF模型，训练得到样本特征词频率和逆文档频率；

步骤9：将文摘句按照原文的语序输出，并进行平滑处理。

2.根据权利要求1所述的基于图模型的无监督自动文摘提取方法，其特征在于：在步骤1中，对文本进行预处理，主要包括：(1)去除文本中特殊符号、图片、表格以及计算机语言无法识别的文字；(2)文本分割：将文本中句子进行分词处理，并去除停用词，得到有关键词组成的文本句子集合和关键词集；(3)将文本句子集合中的句子进行标号，并特殊标记文章中首段前三句和首段段尾句。

3.根据权利要求1所述的基于图模型的无监督自动文摘提取方法，其特征在于：在步骤4中，具体包括如下步骤：

步骤4.1：根据公式(1)、(2)，计算句子s_i基于标题的权重