CN114996444A

CN114996444A - 一种新闻自动摘要方法及系统

Info

Publication number: CN114996444A
Application number: CN202210744348.6A
Authority: CN
Inventors: 刘军; 徐飞; 彭佳佳; 陈芾珩; 贠曼
Original assignee: 63768 Troops Of People's Liberation Army Of China; Xian Technological University
Current assignee: 63768 Troops Of People's Liberation Army Of China; Xian Technological University
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-02

Abstract

本发明公开了一种新闻自动摘要方法及系统，基于MF‑TextRank算法生成自动文本摘要模型为抽取式摘要，引入Word2vec模型进行文本语义表示，解决了矩阵稀疏和维数爆炸的问题，同时提高了语义表达程度；计算句子与标题的相似度，根据IF‑IDF算法获得新闻关键词，计算句子中心性；结合标题特征，中心性特征以及句间相似度，通过实验调整权重因子，迭代计算直至收敛，选取句子节点权重靠前的进行新闻摘要抽取；本文给出的方法更好的挖掘文本信息，不遗漏关键信息，充分利用领域信息，得到一个面向领域的冗余度低、可读性较高的新闻摘要。

Description

一种新闻自动摘要方法及系统

技术领域

本发明属于自然语言处理技术领域，具体涉及一种新闻自动摘要方法及系统。

背景技术

随着移动互联网的迅速发展，信息呈现爆炸式的增长。但新闻网页数量巨大、内容繁杂，需要大量的时间去阅读和整理，相关业务部门如何高效的从新闻中获取所需要的相关信息，成为目前急需解决的问题。

摘要概括了原文的核心观点和主要内容。在很大程度上可以代替原始文本。为了有效提高相关业务部门阅读新闻的效率，所以摘要生成成为必不可少的环节。然而传统的摘要是通过人工总结，即消耗时间又消耗了人力资源。随着计算机科学的发展，自动文本摘要的提出不仅能够快速批量的生成摘要，同时也能高质量的捕获原文的核心思想，提取有效信息。

目前文本自动摘要技术分为两种，一种是抽取式的摘要，基于文本中的句子、词语的统计特征和浅层次的语义理解，对文本中原始句子进行抽取，不进行修改，按照一定的规则形成摘要。该技术不需要训练，摘要抽取速度快、效率比较高，在缺少高质量数据集的情况下也会取得较好的效果，但应用场景比较单一，不能满足在多场景情况下用户对高质量摘要的需求。另一种是生成式摘要，基于深度学习对文本进行理解和概括，进行再提炼生成摘要。虽然这种方法是通过理解文本内容，生成原文中不存在的词汇，更加接近摘要的本质。但是需要大量的训练数据调整参数优化模型，训练数据决定了摘要生成的好坏，同时训练时间较长。

基于图模型的文本自动摘要是将文本中的句子作为图的顶点，两个相似的顶点用边连接起来，构成拓扑排序图，通过迭代计算，对句子进行评分，抽取摘要句。TextRank算法作为一种经典的图排序算法，它利用文本本身的信息和结构特征来实现文本摘要的自动提取。汪旭阳等人认为传统的TextRank算法未考虑到词语的语义以及文本的全局信息，基于此提出了一种改进的TextRank算法。针对传统的图模型只考虑到文章浅层语义特征，罗芳等人提出了融合主题特征后的多维度的文本自动摘要方法MDSR，有效的提高了摘要抽取的准确性。朱玉佳等人在传统的Text Rank算法上提出一个无监督的抽取式联合打分，从两方面将抽取到的摘要去除冗余，结果表明该算法有更好的梗概性和多样性。余珊珊等人结合中文文本的结构特点，提出一种改进的iTextRank算法，通过将标题、段落、特殊句子等信息因为图模型中给出相应的改进方法，提高了摘要抽取的准确率与更低的召回率。曹宁认为图模型中句子权重和句子相似度计算仍有很大的改进空间，因此他针对这两部分进行了改进。刘志明等人为了解决不同文档以及内容特征等问题对摘要的影响，通过引入LDA模型获得文本主题，然后进行句子主题分组，提出SE-TextRank算法。Fang等人提出将句子-词汇与传统的基于图的无监督排序将结合。针对新闻文本的的自动摘要，李峰等人提出使用关键词扩展的新闻文本自动摘要的方法，强化关键词对于文摘句的指示作用，该方法在ROUGE测评中取得了较好的评分。程琨等人提出了基于最大边缘相关得新闻摘要方法以及支持向量机和MMR相结合的新闻摘要方法，该模型更适用于生成对文本内容覆盖相对全面的文摘。针对不同领域的文本摘要，可以通过分析原文的特征提高抽取式摘要的效果。

目前的抽取式摘要的研究通过图模型和特征提取等方法，许多学者们也尝试将这两种方式结合起来进行摘要抽取。而面向新闻领域，大多数都忽略了领域知识以及新闻体裁的结构特征，容易遗漏一些重要信息，在摘要的覆盖率和可读性等方面都表现得不好，因此基于特定领域的抽取式摘要研究仍有很重要的意义。

发明内容

本发明的目的在于提供一种新闻自动摘要方法及系统，以克服现有技术的不足。

一种新闻自动摘要方法，包括以下步骤：

S1，对新闻文本进行预处理，首先进行分句处理，根据分句结果进行分词，去停用词；

S2，计算分词处理后的新闻文本中句子与标题的相似度；

S3，利用IF-IDF模型获取新闻文本中的关键词，通过爬取新闻相关领域词，构建领域词典，结合关键词和领域词计算句子中心性；

S4，将文本预处理后的句子进行特征向量表示，计算句子间的相似度；

S5，根据句子与标题的相似度、句子中心性和句子间的相似度迭代计算调整后的句子相似度矩阵直至收敛，根据句子权重大小进行排序，得到相应的句子排序，选取句子权重排序靠前的句子作为最终摘要。

进一步的，按照标点符号进行分句处理，对分句处理后小于七个字的短句进行删除。

进一步的，对标题进行分词并去停用词，然后对标题中的关键词赋权重，根据关键词权重计算句子权重，作为句子与标题的相似度：

进一步的，句子的中心性得分计算公式如下：

其中W_c,k表示新闻中第k个句子的重要性得分，kw＝ks∩kos，KW＝ks∪kos，ks表示第k个句子中包含的关键词，kos表示除第k个句子外，其他句子中包含的关键词，w表示关键词词的权重。

进一步的，领域词的权重为0.5。

进一步的，通过词向量将单词转换为1*100维的向量，所有词向量相加求平均值，则句子可以表示为：

其中s_i表示新闻中的第i个句子，w′_i表示sent_i中的第i个单词的词向量，则两句子相似度的计算公式表示为：

其中，cos(s_i,s_j)为句子s_i，s_j的相似度，n为词向量的维数；s_ik为s_i向量第k维的值，s_jk为s_j向量第k维的值。

进一步的，综合考虑各部分权重影响因子，构建句子权重计算公式：

W_T＝λ_tW_t+λ_cW_c+λ_fW_f

其中λ为影响各部分权重的影响因子，W_f为句间相似度，W_T为最终的句子权重。

进一步的，λ是根据实验分析调优后的加权系数，取值范围为0～1，且λ_t+λ_c+λ_f＝1。

进一步的，λ_t＝0.2，λ_c＝0.1，λ_f＝0.7。

一种新闻自动摘要系统，包括预处理模块，特征计算模块和摘要生成模块：

预处理模块用于对新闻文本进行预处理，首先进行分句处理，根据分句结果进行分词，去停用词；

特征计算模块用于计算分词处理后的新闻文本中句子与标题的相似度；利用IF-IDF模型获取新闻文本中的关键词，通过爬取新闻相关领域词，构建领域词典，结合关键词和领域词计算句子中心性；将文本预处理后的句子进行特征向量表示，计算句子间的相似度；

摘要生成模块用于根据句子与标题的相似度、句子中心性和句子间的相似度迭代计算调整后的句子相似度矩阵直至收敛，根据句子权重大小进行排序，得到相应的句子排序，选取句子权重排序靠前的句子作为最终摘要。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种新闻自动摘要方法，基于MF-TextRank算法生成自动文本摘要模型为抽取式摘要，引入Word2vec模型进行文本语义表示，解决了矩阵稀疏和维数爆炸的问题，同时提高了语义表达程度；计算句子与标题的相似度，根据IF-IDF算法获得新闻关键词，计算句子中心性；结合标题特征，中心性特征以及句间相似度，通过实验调整权重因子，迭代计算直至收敛，选取句子节点权重靠前的进行新闻摘要抽取；本文给出的方法更好的挖掘文本信息，不遗漏关键信息，充分利用领域信息，得到一个面向领域的冗余度低、可读性较高的新闻摘要。

本申请使用工具包pyrouge计算模型的ROUGE分数，根据新闻的行文特征以及领域知识，结合句子的标题特征和句子的中心性，改进图模型结点权重的度量方式，可以明显的提高摘要抽取的准确性，具有一定的可行性和有效性。

附图说明

图1为本发明实施例中方法流程示意图。

图2为本发明实施例中参数对比实验图。

图3为本发明实施例中融入不同特征的Rouge-1得分示意图。

图4为本发明实施例中融入不同特征的Rouge-2得分示意图。

图5为本发明实施例中融入不同特征的Rouge-3得分示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，一种新闻自动摘要方法，包括以下步骤：

对新闻文本进行预处理：

文本的分句处理：互联网上的新闻都是以篇章的形式进行展示，所以将文本进行分句处理是最基础的操作，将从互联网上爬取的新闻文本按照标点符号进行分句处理。比如“，、。、！、？”，对文本进行分句后会存在一些无意义的短句，本文将小于七个字的短句进行删除，保证文本不会损失信息，同时去除冗余。

文本的分词处理：自然语言处理的模型是建立在词的基础上的，因为词是表达语义的最小单位，在西方语言中，词与词之间有明显的分隔符。但是对于中文来说，词之间划分不明显。所以要将切分好的句子进行分词才能做进一步的自然语言处理。本文利用中文开源分词包Jieba(结巴)进行分词，Jieba分词具有高性能、准确率、可扩展性的特点。

本文主要面向于新闻，为了提高分词的精确度，在分词时导入领域词典，部分如下表1。

表1 领域词表

为了节省存储空间，提高搜索效率，在处理文本之前需要过滤掉没有意义的词或者字，这些词被称为停用词，本文导入停用词表，用于去掉文本中没有实际含义的词语；部分词表如下：

表2 停用词表

word2vec词向量：自然语言不会被计算机直接理解，对自然语言进行建模时，必须运用特定的手段和对其进行分析或者预处理，将其转换为词向量，本文采用word2vec模型。具体的，本文采取skip-gram模型进行语义表示，将词汇转化为固定维度的向量。

句子标题特征计算，即计算句子与标题的相似度：在新闻结构性文章中，新闻的标题往往涵盖了新闻的主要内容；因此将新闻主体分解为句子的集合，句子与标题相似度越高则表示该句子更有可能接近新闻的主题，表示该句子更重要并且在文章中的权重越高。为了更好的挖掘标题的潜在语义同时提高运算效率，对标题进行分词并去停用词，定义标题为T＝[t₁,t₂...t_n]，通过word2vec模型将t_i转换为1*100维词向量，所以标题可以表示为T＝[t₁',t'₂,...,t'_n]，为了方便计算标题与句子的重要性同时增强语义，对均值法进行优化，提出加权均值法，即对标题中的关键词赋权重，标题句可以表示为：

其中n表示分词的个数，t′_i表示T中的一个单词的词向量，w为关键词的权重；T是一个1*100维的向量。同理，新闻文本中句子可以表示为如下公式，其中sent_i表示新闻中的第i个句子，w′_i表示sent_i中的第i个单词的词向量：

标题与句子越相似则认为该句子权重越大，考虑到新闻文本质量不同，为了防止标题特征得分占比过高，本文提出句子权重表达式为：

句子中心性特征计算：本文是面向新闻领域的自动文本摘要研究，领域词和新闻关键词作为关键词对于提取摘要来说是必不可少的。领域词库引用搜狗细胞词库领域词典。针对特定的一篇新闻,可以通过萨尔顿提出的词频-逆向文件频率(TF-IDF)获得该文章的关键词以及关键词的权重。

TF表示词频，即关键字在新闻中出现的频率。词频的计算公式为：

其中n_ij是该词在文件d_j中出现的次数，∑_kn_kj是文件d_j中所有词汇出现的次数总和。

逆向文件频率(IDF)，对于某一个特定的词，如果包含该词的文档越少，IDF越大，说明该词有很好的类别区分能力。IDF的计算公式为：

D是语料库中的文件总数，|{j:t_i∈d_j}|表示包含词语t_i的文件数目。

一个文件内的高词频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF：

TF-IDF＝TF×IDF

句子的中心性是文档中句子与其他句子的词汇重叠，对于新闻中某一个句子，如果它所包含的关键词与新闻中其他句子所包含的关键词重叠度越高，则说明这个句子越能包含该新闻的主要内容，重要性越高。为了更加准确的计算关键词对句子中心性的影响，优化句子权重，本文提出依据上述的领域词和IF-IDf生成关键词典；句子的中心性得分计算公式如下：

其中W_c,k表示新闻中第k个句子的重要性得分，kw＝ks∩kos，KW＝ks∪kos，ks表示第k个句子中包含的关键词(关键词包括领域词和某新闻关键词)，kos表示除第k个句子外，其他句子中包含的关键词。w表示关键词词的权重，本文设置领域词的权重为0.5，新闻关键词权重由IF-IDF算法计算得出。

2.3 MF-TextRank算法

TextRank算法文本排序算法，将新闻文本按照句子切分，以句子作为图模型的结点，两个相似的节点用边进行连接，根据相似程度确定两个节点的关联程度，即为句子间的相似度。

TextRank模型可以表示为一个有权图G＝(V，E)，图中元素有句子节点集合V，边节点E，E是一个V×V的子集。

有权图G中句子节点V_i与V_j之间边的权重为句子节点S_i与S_j之间的相似度：

w_k表示句子中的单词，如果S_i与S_j之间的相似度大于一定的阈值则认为两个句子语义相关，将两节点连接起来边的权重为：

w_ij＝sim(s_i,s_j)

对句子节点V_i进行重要性得分，In(V_i)表示指向该节点的句子的集合，Out(V_i)表示该节点指向的节点的集合，其中d为阻尼系数，取值范围为0～1，本文取值为0.85。公式中第一个求和公式表示该句子在文本中占据重要程度，分母表示目标句子指向句子的权重信息之和，Score(V_j)表示上次句子的权重信息。设置节点初始值，通过计算迭代可以得到任意一个节点的重要性得分，公式如下：

由于TextRank算法度量句子的相似度只是简单的通过词频统计而忽略了句子中包含的语义信息，句子重要性得分也只考虑到该句与其它句子的关联程度，因此本文提出MF-TextRank算法：

(1)节点之间的权重不再以词共现公式计算，而是通过语义相似度来表示。

为了有效的解决矩阵稀疏问题，结合上下文语义信息提高句子相似度的准确性，本文采用word2vec模型进行语义表示，该模型从大规模的新闻语料库中挖掘了词语之间的语义关系，生成固定长度的词向量。

本文将句子进行分词，通过词向量将单词转换为1*100维的向量，所有词向量相加求平均值，则句子可以表示为：

(2)句子顶点的权重融入句子标题特征和句子中心性特征：

传统的Text Rank算法在针对句子权重计算时只考虑到两个句子的相似性，并未考虑到句子本身的特征。为了优化图模型中句子的权重，捕获新闻报道的重要内容，本文提出在句子顶点权重中融入句子标题特征和句子中心性特征；

综合考虑各部分权重影响因子，从而构建新的句子权重计算公式：

W_T＝λ_tW_t+λ_cW_c+λ_fW_f

通过计算迭代可以得到任意一个节点的重要性得分，其中λ为影响各部分权重的影响因子，W_f为句间相似度，W_T为最终的句子权重。权重因子用来衡量各部分的权重大小，权重系数越大则影响力越大，反之亦然。λ是根据实验分析，调优后的加权系数，取值范围为0～1，且λ_t+λ_c+λ_f＝1。

本文采用的是数据源是搜狗新闻数据集，该新闻集来自2012年6-7月间搜狐新闻网上国际、体育、社会、、娱乐频道的新闻数据。为了确保模型的科学性和准确性，本文选取新闻类别，剔除一些没有标题，没有内容的脏数据共1000条，参与此次自动摘要抽取实验。

本文采用的评价体系采用Lin提出的ROUGE评价方法，其将模型产生的系统摘要何参考摘要进行对比，计算它们之间重叠的基本单元内数目来评价系统摘要的质量。常用的评价指标为Rouge-1,Rouge-2,Rouge-L,其中1，2，L分别表示基于一元词、二元词和最长子字串。本文使用工具包pyrouge计算模型的ROUGE分数。由于新闻原文本的质量不同，为了直观的观察实验结果，本文rouge得分取均值。

基于word2vec的skip-gram模型对上述新闻进行训练，得到实验所需要的词向量模型，其中维度大小设置为100。从清洗过的数据集中选取1000条新闻，使用jieba分词对文本进行分词，进一步进行试验。

首先计算影响各部分权重的影响因子λ_t、λ_c、λ_f，设置不同的系数组合进行大量实验。本文选取了8组参数组合如图2所示，针对每一种组合计算其生成文本摘要的ROUGE得分。

表3：不同加权系数组合

从图2可看出随着λ_f的增大ROUGE评分先增大后减小，当λ_f＝0.7时达到局部最优，说明在多特征融合时，句间相似度对句子的权重影响最大，即在全文中与某句语义相关的句子越多，则该句子包含原文的信息越多。λ_f相同时λ_t越大Rouge评分越高，说明相对于句子的中心性特征，句子与标题的相似性对句子权重影响更大。综上所述，当λ_t＝0.2，λ_c＝0.1，λ_f＝0.7时，生成的摘要ROUGE评分最高，即摘要质量最好。所以在后面的算法对比实验中各部分的权重因子取值为0.2、0.1、0.7。

原始TextRank模型融入单特征，分别为句子标题特征，句子中心性特征。更新句子的权重公式为：W_T＝λ_tW_t+λ_fW_f，W_T＝λ_cW_c+λ_fW_f。根据实验1结论，λ_f设置为0.7，则λ_t、λ_c为0.3。针对不同组合进行实验，计算ROUGE得分。

T-TextRank、C-TextRank、MF-TextRank分别表示给原始TextRank模型融入标题特征、中子中心性特征、标题特征和中子中心性特征。如图3-5所示，不同的特征对摘要质量影响不同。相对于句子的中心性特征，句子的标题特征对句子的权重影响更大，Rouge-1、Rouge-2、Rouge-3得分分别为0.561，0.471，0.310。说明句子与标题越相似，则该句子包含新闻的关键信息越多。本文提出的MF-TextRank算法，同时融入了句子的中心性特征以及句子的标题特征，相对于单特征融合在Rouge得分上有明显的提升，分别为0.572，0.481，0.322。综上所述，本文提出的多特征在不同程度优化了原始的TextRank模型，具有一定的有效性。

在算法对比实验中，首先通过Text Rank算法、IF-IDF算法以及本文提出的MF-TextRank算法自动生成测试摘要，然后与标准摘要进行对比，计算Rouge-1，Rouge-2，Rouge-L的值。

表4 算法实验对比

由表4数据可以看出，本文提出MF-TextRank算法相较IF-IDF算法、传统的TextRank算法在ROUGE得分上有明显的提升，IF-IDF在抽取摘要方面表现最差，TextRank算法比IF-IDF算法在ROUGE得分上有一定的提升，但由于Text Rank算法本身只考虑了句子之间的相似性，而传统的相似性只是简单的通过词频统计，未从语义方面进行探究，抽取的摘要质量仍有待提高。MF-TextRank算法在整体上明显优于其他两种算法。根据实验结果可知，根据新闻的行文特征以及领域知识，结合句子的标题特征和句子的中心性，改进图模型结点权重的度量方式，可以明显的提高摘要抽取的准确性，具有一定的可行性和有效性。

Claims

1.一种新闻自动摘要方法，其特征在于，包括以下步骤：

S2，计算分词处理后的新闻文本中句子与标题的相似度；

2.根据权利要求1所述的一种新闻自动摘要方法，其特征在于，按照标点符号进行分句处理，对分句处理后小于七个字的短句进行删除。

3.根据权利要求1所述的一种新闻自动摘要方法，其特征在于，对标题进行分词并去停用词，然后对标题中的关键词赋权重，根据关键词权重计算句子权重，作为句子与标题的相似度：

4.根据权利要求1所述的一种新闻自动摘要方法，其特征在于，句子的中心性得分计算公式如下：

5.根据权利要求4所述的一种新闻自动摘要方法，其特征在于，领域词的权重为0.5。

6.根据权利要求1所述的一种新闻自动摘要方法，其特征在于，通过词向量将单词转换为1*100维的向量，所有词向量相加求平均值，则句子可以表示为：

7.根据权利要求1所述的一种新闻自动摘要方法，其特征在于，综合考虑各部分权重影响因子，构建句子权重计算公式：

W_T＝λ_tW_t+λ_cW_c+λ_fW_f

8.根据权利要求7所述的一种新闻自动摘要方法，其特征在于，λ是根据实验分析调优后的加权系数，取值范围为0～1，且λ_t+λ_c+λ_f＝1。

9.根据权利要求8所述的一种新闻自动摘要方法，其特征在于，λ_t＝0.2，λ_c＝0.1，λ_f＝0.7。

10.一种新闻自动摘要系统，其特征在于，包括预处理模块，特征计算模块和摘要生成模块：