CN109255022A

CN109255022A - 一种用于网络文章的摘要自动提取方法

Info

Publication number: CN109255022A
Application number: CN201810894746.XA
Authority: CN
Inventors: 鄢军; 袁传义; 徐光杰; 林建波
Original assignee: Pu Xin Heng Ye Technology Development (beijing) Co Ltd; Pleasant Sunny Technology Development (beijing) Co Ltd
Current assignee: Pu Xin Heng Ye Technology Development (beijing) Co Ltd; Pleasant Sunny Technology Development (beijing) Co Ltd
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2019-01-22
Anticipated expiration: 2038-08-08
Also published as: CN109255022B

Abstract

本发明记载了一种用于网络文章的摘要自动提取方法，包括：获取文章；设置摘要长度；提取关键词，并获取关键词的权重和词性；对获得的关键词进行汉语词性标注；获取关键词列表Tags；获取标题关键词列表和正文关键词列表；获取相同的关键词列表；加权平均；分段处理；获取词的命中个数和权重累计值；得到最终的摘要等步骤。由于采用了上述步骤，本发明可以将网络抓取的文章自动获取摘要后存储在数据库中，为后面的检索和显示提供了基本的保证，并具备了思路简单有效、实现方式简单等有益效果，最终在确保提取准确率的同时实现了简洁高效，从而可以在有限的时间里高效、高质量处理海量网络文章。

Description

一种用于网络文章的摘要自动提取方法

技术领域

本发明涉及数据处理领域，尤其涉及一种可以高效、高质量处理海量网络文章的摘要自动提取方法。

背景技术

摘要又称概要、内容提要等。摘要是以提供文章内容梗概为目的，不加评论和补充解释，简明，确切表达文章重要内容的短文。

随着网络技术的发展和普及，目前网络中每天产生的新文章已经达到了百万级别，从而对文章的检索带来了新的挑战。

同时，由于网络中文章的质量良莠不齐，且绝大部分文章并没有摘要内容，所以如何自动生成新的文章摘要成了一个新的课题。

目前，现有的自动生成摘要的方法主要包括两种，分别为：

1.通过词频的方式。对由文章数据表示的文章中的多个单词，基于该文章数据统计各单词的词频，当文章中的单词具有多个词义时，按照每个词义作为不同的副单词处理，统计与各副单词对应的词频统计；基于文章数据和表示文章中的单词和副单词中词频最高者的数据来选择文章中的多个句子，从而生成摘要数据的句子。

2.通过机器学习方式。首先进行分词和原始词向量的形成，词汇理解模块、句子理解模块和段落理解模块分别用于采用双向长短记忆神经网络来对词汇、句子和段落进行深度理解，摘要自动生成模块用于根据词汇理解模块、句子理解模块、段落理解模块理解后的词向量、句子向量和段落向量采用seg2seq生成摘要。

虽然上述方法可以在一定程度上反映热门的新闻事件，但是无法确保高质量的文章。而且现有方法还至少存在以下两个问题：

1.基于词频的方式有一个重要问题是，在一篇文章中，词频高的词并不一定是权重很高的关键词，比如“中国”，这个词是一个非常普通的词，该词在很多情况下并不具有很好的类别区别能力。所以，如果通过词频的方式，某些情况下生成的摘要并不一定是最贴近文章梗概的内容。

2.通过机器学习算法理解文章的方式来自动生成摘要，这种方式严重依赖机器学习算法的准确性，以及NLP算法精确性，而二者的准确性也取决于前期训练样本的数量和模型的调优，所以该方法的具体实施较为困难，准确度较难把握，并且后期还要有持续学习等复杂操作。

此外，虽然现有方法也涉及一些词频、关键词的算法，但是仍然无法彻底摆脱人工的方式接入，并不能达到全自动化的方式来获取文章的摘要。

发明内容

为了解决上述的摘要提取准确率低、实施困难、操作复杂等问题，本发明提供一种用于网络文章的摘要自动提取方法，可以在确保提取准确率的同时实现简洁高效，从而可以在有限的时间里高效、高质量处理海量网络文章。

上述的一种用于网络文章的摘要自动提取方法，包括以下步骤：

S1.获取文章；

S2.设置摘要长度为R＝[100,200]；

S3.提取关键词，并获取关键词的权重和词性；

S4.对步骤3中获得的关键词进行汉语词性标注；

S5.通过TF-IDF算法，获取关键词列表Tags：

{(word₁，weight₁，POS₁)，(word₂，weight₂，POS₁)，...(word_N，weight_N，POS_N)}

其中，word表示单词，weight表示权重值，POS表示词性名称；

S6.获取标题关键词列表Tags_Title：

{Tags_Title＝(word₁，weight₁)，(word₂，weight₂)，...(word_N，weight_N)}

以及获取正文关键词列表Tags_Content：

Tags_Content＝{(wowd₁，weight₁)，(word₂，weight₂)，...(word_N，weight_N)}

S7.获取标题关键词列表Tags_Title与正文关键词列表Tags_Content中相同的关键词列表Tags_Merged：

Tags_Merged＝{(wowd₁，weight_{1_1}，weihht_{1_2})，(word₂，weight_{2_1}，weight_{2_2})...}

其中，weight_{i_1}为标题中的权重值，weight_{i_2}为正文中的权重值；

S8.进行加权平均，并得到最终的逆序关键词列表：

Tags＝{(Word₁，Weight₁，)，(Word₂，Weight₂)...(Word_N，Weight_N)}

S9.对文章进行分段处理，并得到

Paragraph＝{P₁，P₂，..，P_N}

S10.对步骤S9得到的Paragraph中的每段进行关键词评估，包括获取词的命中个数和权重累计值；具体包括：

对段落P_i经过分词并得到

P_i＝{w₁，w₂，...，w_N}

对Tags和P_i取相同的关键词，得到

Tags_P_i＝{w₁，w₂，...，w_N}

得到Tags_P_i的累积权重值Tags_Weight_P_i，同时对所有段落做相同的处理，得到

TWP＝{Tags_Weight_P₁，Tags_Weight_P₂，，Tags_Weight_P_N，}

对TWP做逆序排序，选取累积权重值最大的段落作为目标段落，并判断目标段落的长度LP_i是否不小于100且不大于200，如是则跳至步骤S14，否则进入步骤S11；

S11.判断积累权重值最高的段落的长度LP_i，

如LP_i＜100，则跳至步骤S14；

如LP_i≥200，则进入步骤S12；

S12.重新在该段落中选取合适连续的句子组成摘要，包括：

将段落分句：依据标点符号句号、问号以及叹号进行分句，并得到分句结果

P＝{s₁，s₂，...，s_N}

将每个分句s_i做分词处理，然后和Tags做交集，获得相同的关键词集合，并获取累积权重值sw_i，最后得到如下

SW＝{sw₁，sw₂，...，sw_N}

取sw最大值所对应的句子作为目标句子，设第i个句子s_i的累积权重值 sw_i最大，获得并判断该摘要的长度LS_i，

如100≤LS_i≤200，则跳至步骤S14；

如LS_i≥200，则跳至步骤S14；

如LS_i＜100，则进入步骤S13；

S13.对摘要内容进行补足处理，待长度满足100≤LS_i≤200之后进入步骤 S14；

S14.将该段落作为最终摘要。

上述方法中，所述步骤S1还包括对杂质与广告进行清洗的步骤。

上述方法中，所述步骤S3中，关键词通过TF-IDF方法进行提取。

上述方法中，所述步骤S4中，汉语词性的标注包括保留关键词中的实词且去除关键词中的虚词。

上述方法中，所述步骤S8包括：

对正文的关键词列表权重

FC＝0.6

对标题的关键词列表权重

FT＝0.4

通过

word_i＝weight_{i_1}×FT+weight_{i_2}×FC

得到最终的逆序关键词列表Tags。

上述方法中，所述步骤S9中的分段方法是依据HTML的标签进行分段处理。

上述方法中，所述HTML的标签包括和 。

上述方法中，所述步骤S13中的补全处理包括步骤：

S131.找到目标句子s_i在同一段落中的下一相邻句子s_i+1，连接成一个大的句子后，判断其长度，如果长度在区间R范围之内，则进入步骤S14，否则重复步骤S131直到该段落的结束位置。

上述方法中，所述步骤S13中的补全处理还包括步骤：

S132.如果步骤S131中得到句子的长度仍不在区间R范围之内，那么找到目标句子s_i在同一段落中的上一相邻句子s_i-1，连接成一个大的句子后，判断其长度，如果长度在区间R范围之内，则进入步骤S14，否则重复步骤S132直到该段落的起始位置。

本发明的优点和有益效果在于：

本发明提供了一种用于网络文章的摘要自动提取方法，可以将网络抓取的文章自动获取摘要后存储在数据库中，为后面的检索和显示提供了基本的保证，并具备了以下优势：

1.该方法思路简单有效，将TF-IDF获取的关键词权重值运用到段落(句子) 筛选中来，为准确性提供了理论基础；

2.该方法的实现方式比较简单，几乎现有主流编程语言都可以完成。其中分词算法有众多的开源实现，其他部分不需要依赖任何框架。该方法可以封装成一个类(class)或者一个REST API接口即可，即使换做用其他编程语言来实现，也是非常简单的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的用于网络文章的摘要自动提取方法的流程示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明记载了一种用于网络文章的摘要自动提取方法，主要包括以下步骤：

S1.获取文章，并进行杂质、广告清洗；

S2.设置摘要长度。通过对有摘要的文章速记抽取统计发现，绝大部分的摘要字符数在R＝[100,200]这个区间。实际上，如果字数太少，重要信息的表达可能不充分；字数太多，又达不到内容的一个梗概的效果，所以本发明中生成的摘要字数也会在这个区间。

S3.提取关键词(Tag)，并获取关键词的权重和词性。关键词的提取方法采用TF-IDF算法。TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

S4.对步骤3中获得的关键词Tag进行汉语词性标注。现代汉语的词可以分为12类，包括：

实词：名词、动词、形容词、数词、量词和代词。

虚词：副词、介词、连词、助词、叹词、拟声词。

其中，虚词泛指没有完整意义的词汇，但有语法意义或功能的词。具有必须依附于实词或语句，表示语法意义、不能单独成句，不能单独作语法成分、不能重叠的特点。所以本发明中的方法会去掉Tags中的虚词。

S5.如前面所述，在重要程度的表达上，关键词比词频本身有更高的准确性。所以本步骤通过TF-IDF算法，获取关键词列表Tags：

其中，word表示单词，weight表示权重值，POS表示词性名称；

S6.获取标题关键词列表Tags_Title：

以及正文关键词列表Tags_Content：

Tags_Content＝{(word₁，weight₁)，(word₂，weight₂)，...(word_N，weight_N)}

Tags_Merged＝{(word₁，weight_{1_1}，weight_{1_2})，(word₂，weight_{2_1}，weight_{2_2})...}

S8.进行加权平均，并得到最终的逆序关键词列表。例如，对正文的关键词列表权重

FC＝0.6

标题的关键词列表权重

FT＝0.4

比如对此(word_i,weight_{i_1},weight_{i_2})，得到：

word_i＝weight_{i_1}×FT+weight_{i_2}×FC

从而得到一个最终的逆序的关键词列表Tags：

Tags＝{(Word₁，Weight₁，)，(Word₂，Weight₂)...(Word_N，Weight_N)}

S9.对文章进行分段处理。根据HTML标签定义，和 是用来分段的，同时由于文章内部保留了HTML标签，所以可以利用和 来进行分段处理，处理后得到

Paragraph＝{P₁，P₂，..，P_N}

对段落P_i经过分词并得到

P_i＝{w₁，w₂，...，w_N}

对Tags和P_i取相同的关键词，得到

Tags_P_i＝{w₁，w₂，...，w_N}

TWP＝{Tags_Weight_P₁，Tags_Weight_P₂，，Tags_Weight_P_N，}

对TWP做逆序排序，选取累积权重值最大的段落作为目标段落，并判断目标段落的长度LP_i是否不小于100且不大于200，即是否位于

100≤LP_i≤200

这一区间内，如是则跳至步骤S14，否则进入步骤S11；

S11.判断积累权重值最高的段落的长度LP_i，

如LP_i＜100，则跳至步骤S14；

如LP_i≥200，则进入步骤S12；

S12.重新在该段落中选取合适连续的句子组成摘要，包括：

P＝{s₁，s₂，...，s_N}

SW＝{sw₁，sw₂，...，sw_N}

取sw最大值所对应的句子作为目标句子，设第i个句子s_i的累积权重值sw_i最大，获得并判断该摘要的长度LS_i，

如100≤LS_i≤200，则跳至步骤S14；

如LS_i≥200，则跳至步骤S14；

如LS_i＜100，则进入步骤S13；

S13.对摘要内容进行补足处理，待长度满足100≤LS_i≤200之后进入步骤 S14；本步骤中的补全处理包括：

S131.找到目标句子s_i在同一段落中的下一相邻句子s_i+1，连接成一个大的句子后，判断其长度，如果长度在区间R范围之内，则进入步骤S14，否则重复步骤S131直到该段落的结束位置；

关于S131和S132涉及的补足处理，例如：

将某一自然段落分割为8个句子，具体如下表所示：

假设S4是目标句子，但是长度小于100，那么S5、S6、S7以及S8会陆续被连接起来并组成复合句子，直到长度在R范围内。

假设S8是目标句子，并且长度小于100，那么S7、S6、S5…S1都会陆续被连接起来组成复合句子，直到长度在R范围内。

S14.将该段落作为最终摘要。

通过采用上述步骤，本发明实施例中用于网络文章的摘要自动提取方法获得了以下技术效果：

1.利用TF-IDF方式获取分词的权重，并且将权重值引入到段落的评估当中，并最终选出摘要内容。通过采用该种方式，使其相较于单纯的基于词频的方式在一些情况下更加准确。

2.不仅对文档内容进行关键词权重获取，同时对标题也做相同处理，并且对二者进行加权平均获取，能够更好地将重要关键词突显出来，进而提高摘要提取的准确性。

3.摘要长度更加合理化。根据随机抽样带有摘要的文章发现，多数文章摘要的平均长度都会落在区间[100,200]之内，所以本发明也将提取的摘要长度控制在这一区间内。

对于评估选取段落长度大于200字符的，采用分句、评估，找到权重最高的句子，如果该句子长度不在区间R范围之内，则整合其后面、前面的句子，使其长度达到合理范围(即区间R)。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于网络文章的摘要自动提取方法，其特征在于，包括以下步骤：

S1.获取文章；

S2.设置摘要长度为R＝[100，200]；

S3.提取关键词，并获取关键词的权重和词性；

S4.对步骤3中获得的关键词进行汉语词性标注；

S5.通过TF-IDF算法，获取关键词列表Tags：

其中，word表示单词，weight表示权重值，POS表示词性名称；

S6.获取标题关键词列表Tags_Title：

以及获取正文关键词列表Tags_Content：

S8.进行加权平均，并得到最终的逆序关键词列表：

Tags＝{(Word₁，Weight₁，)，(Word₂，Weight₂)...(Word_N，Weight_N)}

S9.对文章进行分段处理，并得到

Paragraph＝{P₁，P₂，..，P_N}

对段落P_i经过分词并得到

P_i＝{w₁，w₂，...，w_N}

对Tags和P_i取相同的关键词，得到

Tags_P_i＝{w₁，w₂，...，w_N}

TWP＝{Tags_Weight_P₁，Tags_Weight_P₂，，Tags_Weight_P_N，}

S11.判断积累权重值最高的段落的长度LP_i，

如LP_i＜100，则跳至步骤S14；

如LP_i≥200，则进入步骤S12；

S12.重新在该段落中选取合适连续的句子组成摘要，包括：

P＝{s₁，s₂，...，s_N}

SW＝{sw₁，sw₂，...，sw_N}

如100≤LS_i≤200，则跳至步骤S14；

如LS_i≥200，则跳至步骤S14；

如LS_i＜100，则进入步骤S13；

S13.对摘要内容进行补足处理，待长度满足100≤LS_i≤200之后进入步骤S14：

S14.将该段落作为最终摘要。

2.根据权利要求1所述的摘要自动提取方法，其特征在于，所述步骤S1还包括对杂质与广告进行清洗的步骤。

3.根据权利要求1所述的摘要自动提取方法，其特征在于，所述步骤S3中，关键词通过TF-IDF方法进行提取。

4.根据权利要求1所述的摘要自动提取方法，其特征在于，所述步骤S4中，汉语词性的标注包括保留关键词中的实词且去除关键词中的虚词。

5.根据权利要求1所述的摘要自动提取方法，其特征在于，所述步骤S8包括：

对正文的关键词列表权重

FC＝0.6

对标题的关键词列表权重

FT＝0.4

通过

word_i＝weight_{i_1}×FT+weight_{i_2}×FC

得到最终的逆序关键词列表Tags。

6.根据权利要求1所述的摘要自动提取方法，其特征在于，所述步骤S9中的分段方法是依据HTML的标签进行分段处理。

7.根据权利要求6所述的摘要自动提取方法，其特征在于，所述HTML的标签包括和 。

8.根据权利要求1所述的摘要自动提取方法，其特征在于，所述步骤S13中的补全处理包括步骤：

9.根据权利要求8所述的摘要自动提取方法，其特征在于，所述步骤S13中的补全处理还包括步骤：