CN110362674B

CN110362674B - 一种基于卷积神经网络的微博新闻摘要抽取式生成方法

Info

Publication number: CN110362674B
Application number: CN201910650915.XA
Authority: CN
Inventors: 滕辉; 刘肖萌; 龙飞
Original assignee: Chinaso Information Technology Co ltd
Current assignee: Chinaso Information Technology Co ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2020-08-04
Anticipated expiration: 2039-07-18
Also published as: CN110362674A

Abstract

本发明公开了一种基于卷积神经网络的微博新闻摘要抽取式生成方法，涉及自然语言处理领域，包括以下步骤：利用数据采集模块抓取微博网站内容作为初始新闻数据集Q；对新闻数据集Q进行处理，得到数据集Q′；构建卷积神经网络对处理后的新闻数据集Q′进行事件元素抽取，得到摘要内容S；利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理，得到抽取后的摘要文本summary。该方法可以方便新闻工作人员等利用生成的摘要内容进一步快速分析、检索，采用了文本相似度算法去除语义重复内容，并采用了最大边缘相关模型，用以权衡抽取内容的相关性和多样性，得到更加全面、准确的内容摘要。

Description

一种基于卷积神经网络的微博新闻摘要抽取式生成方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于卷积神经网络的微博新闻摘要抽取式生成方法。

背景技术

文本自动生成是自然语言处理领域的一个重要研究方向。文本自动生成技术也有着广泛的应用前景，可应用于智能问答、机器翻译等人机交互操作中；另外，文本自动生成系统也可用于实现新闻稿件的自动撰写、图书馆的检索等。

在自然语言处理和人工智能领域，文本自动生成技术已经有了若干有影响力的成果和应用，例如美联社自2014年7月开始已采用新闻写作软件自动撰写新闻稿件来报道公司业绩，这大大减少了记者的工作量。

文本自动生成技术中关键的技术便是文本摘要生成，通过自动分析给定的文档或文档集，摘取其中的要点信息，最终输出一篇短小的摘要。目前的文本摘要方法主要分为两种方法：生成式和抽取式。抽取式主要基于句子抽取，也就是以原文中的句子作为单位进行评估与抽取。第二种是生成式，生成式方法通常需要利用自然语言理解技术对文本进行语法、语义分析，对信息进行融合，利用自然语言生成技术生成新的摘要句子。

现有的技术文献中，发明专利CN201610232659.9提出的基于深度神经网络的摘要生成系统，以及发明专利CN 201811416029.2中提出的基于深度学习和注意力机制的摘要生成系统，均属于生成式。这种生成式的摘要生成方法由于自然语言理解与自然语言生成本身都没有得到很好的解决，生成的摘要中包含了部分关键字，往往无法组成正确的语序，其性能还尽如人意。

发明内容

本发明的目的在于提供一种基于卷积神经网络的微博新闻摘要抽取式生成方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于卷积神经网络的微博新闻摘要抽取式生成方法，包括以下步骤：

S1，利用数据采集模块抓取微博网站内容作为初始新闻数据集Q；

S2，对新闻数据集Q进行处理，得到数据集Q′；

S3，构建卷积神经网络对处理后的新闻数据集Q′进行事件元素抽取，得到摘要内容S；

S4，利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理，得到抽取后的摘要文本summary。

优选地，步骤S2中对新闻数据集Q进行处理的方式为过滤、同类合并去重，具体包括：

S21，遍历新闻数据集Q的所有样本，去除图片、视频、html标签，得到新闻数据集Q_tmp；

S22，遍历步骤S21中新闻数据集Q_tmp的所有样本，提取样本的时间、地点，记为时间地点标记矩阵

t为时间值，loc为地点值，i＝1,2,...,N，N为新闻数据集Q_tmp样本总数；

S23，遍历上述步骤S22中得到的标记矩阵

将新闻数据集Q_tmp中对应的具有相同标记向量的样本合并，得到新闻数据集Q'＝{q'₁,q'₂,...,q'_M}，M为样本总数。

优选地，步骤S3具体包括：

S31，遍历新闻数据集Q'的所有样本，对样本进行单句切分、人工标注，得到模型数据集

其中l_j为样本切分后的文本单句c_j的标签，l_j∈{时间，地点，事件描述，起因，经过，结果}，j＝1,2,...,K，K为模型数据集单句总数；

S32，提取模型数据集

中的文本单句的特征向量，得到新闻数据集特征矩阵

S33，构建一个卷积神经网络，记为TextCNN，其中TextCNN网络结构为卷积层、最大池化层、2个全连接层、softmax层；

S34，将上述模型数据集特征

按照比例4:2:1随机划分为训练集、测试集、验证集；

S35，利用步骤S34中划分好的训练集和验证集对步骤S33中得到的卷积神经网络TextCNN进行训练，得到训练好的网络模型Model；

S36，利用上述步骤S35得到模型Model对步骤S34中的测试集进行摘要抽取，得到仅包括时间、地点、事件描述、经过、起因、结果的文本单句集合，记为摘要内容S。

优选地，步骤S32具体包括：

1).提取模型数据集

中的文本单句c₁的TF-IDF特征，得到权值矩阵δ₁，

其中，δ_i为文本单句c₁的TF-IDF特征值，TF-IDF特征值对应的词汇表为

n为文本单句c₁的词汇总数；

2).提取词汇表V的Word2Vec特征，得到文本单句c₁特征矩阵F_n×m：

其中f_i为词汇表V₁中第i个词的Word2Vec特征向量，m为特征向量维数，m取值为300；

3).利用步骤1)中得到的权值矩阵δ₁和步骤2)得到的特征矩阵F_n×m，得到文本单句c₁特征矩阵F'：

4).对上述步骤得到的特征矩阵F'按行进行归一化，得到归一化后的特征矩阵

5).遍历模型数据集

中的所有文本单句，重复上述步骤(1)～(4)，得到模型数据集特征

l_i为模型数据集

中第i个标签，K为模型数据集单句总数。

优选地，步骤S4具体包括：

S41，遍历摘要内容S中的所有文本单句，计算文本单句之间的余弦相似度值

S42，过滤掉摘要内容S中余弦相似度值

的句子，得到无重复的摘要内容

S43，利用最大边缘相关模型对摘要内容

进行处理，得到抽取后的摘要文本。

优选地，步骤S43具体包括：

(1).遍历摘要内容

中的文本单句，采用公式得到候选摘要文本s：

(2).将上述步骤得到的候选摘要文本s添加到候选摘要集合summary中；

(3).重复步骤(1)～(2)C次，得到候选摘要集合summary，即为抽取后的摘要文本，其中，C为正整数且

中句子总数。

优选地，步骤(1)中采用的公式为：

其中，λ取值为0.9，

表示摘要内容

第i句与整个摘要内容

的余弦相似度；

表示为摘要内容

第i句与已经成为候选摘要集合summary的余弦相似度，设summary初始值设为空。

优选地，步骤S1中的数据采集模块为实时爬虫模块。

本发明的有益效果是：

本发明提出的基于卷积神经网络的微博新闻摘要抽取式生成方法，具有以下优点：

1、本发明提出的基于卷积神经网络的微博新闻摘要抽取式生成方法，对微博新闻内容进行摘要抽取，摘要句子具有更好的可读性，方便新闻工作人员等利用生成的摘要内容进一步快速分析、检索。

2、本发明中的摘要抽取方法，采用了TF-IDF加权的Word2Vec词向量，进一步利用卷积神经网络综合考虑句子的多种特征进行句子重要性的分类，完成对包含新闻六大元素的内容的提取，包括时间、地点、事件描述、经过、起因、结果等六大元素，并进一步完成摘要生成。

3、本发明采用了文本相似度算法去除语义重复内容，并采用了最大边缘相关模型，用以权衡抽取内容的相关性和多样性，得到更加全面、准确的内容摘要。

附图说明

图1是本发明实施例1中摘要抽取式生成方法流程图；

图2是本发明实施例1中卷积神经网络示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例提供一种基于卷积神经网络的微博新闻摘要抽取式生成方法，如图1所示，包括以下步骤：

S1，利用实时爬虫模块抓取微博网站内容作为初始新闻数据集，记为新闻数据集Q＝{q₁,q₂,...,q_N}，其中，q_i为新闻数据集中第i个样本，i＝1,2,...,N，N为新闻数据集样本总数；

S2，对新闻数据集Q进行过滤、同类合并去重，得到数据集Q′，具体的步骤为：

S23，遍历上述步骤S22中得到的标记矩阵

S3，构建卷积神经网络对处理后的新闻数据集Q′进行事件元素抽取，得到摘要内容S，具体步骤如下：

S32，提取模型数据集

中的文本单句的特征向量，得到新闻数据集特征矩阵

1).提取模型数据集

中的文本单句c₁的TF-IDF特征，得到权值矩阵δ₁，

n为文本单句c₁的词汇总数；

5).遍历模型数据集

l_i为模型数据集

中第i个标签，K为模型数据集单句总数。

S33，构建一个卷积神经网络，如图2所示，记为TextCNN，其中TextCNN网络结构为卷积层、最大池化层、2个全连接层、softmax层；

本实施例中的卷积层中卷积核共256个，卷积核尺寸为5，激活函数为Relu函数，全连接层神经元为128个，学习率0.001，随机失活率为0.5；

S34，将上述模型数据集特征

按照比例4:2:1随机划分为训练集、测试集、验证集；

S4，利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理，得到抽取后的摘要文本summary，步骤S4具体包括：

S42，过滤掉摘要内容S中余弦相似度值

的句子，得到无重复的摘要内容

S43，利用最大边缘相关模型对上述步骤得到的摘要内容

进行处理，得到抽取后的摘要文本。

步骤S43具体包括：

(1).遍历摘要内容

中的文本单句，采用如下公式得到候选摘要文本s；

其中，λ取值为0.9，

表示摘要内容

第i句与整个摘要内容

的余弦相似度；

表示为摘要内容

中句子总数。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

2、本发明中的摘要抽取方法，采用了TF-IDF加权的Word2Vec词向量，进一步利用卷积神经网络综合考虑句子的多种特征进行句子重要性的分类，完成对包含新闻六大元素的内容的提取，包括时间、地点、事件描述、经过、起因、结果六大元素，并进一步完成摘要生成。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于卷积神经网络的微博新闻摘要抽取式生成方法，其特征在于，包括以下步骤：

S2，对新闻数据集Q进行处理，得到数据集Q′；

S4，利用文本相似度算法和最大边缘相关模型对摘要内容S进一步处理，得到抽取后的摘要文本summary；

步骤S2中对新闻数据集Q进行处理的方式为过滤、同类合并去重，具体包括：

S23，遍历上述步骤S22中得到的标记矩阵

将新闻数据集Q_tmp中对应的具有相同标记向量的样本合并，得到新闻数据集Q'＝{q′₁,q'₂,...,q'_M}，M为样本总数；

步骤S3具体包括：

S32，提取模型数据集

中的文本单句的特征向量，得到新闻数据集特征矩阵

S34，将上述模型数据集特征

按照比例4:2:1随机划分为训练集、测试集、验证集；

S36，利用上述步骤S35得到模型Model对步骤S34中的测试集进行摘要抽取，得到仅包括时间、地点、事件描述、经过、起因、结果的文本单句集合，记为摘要内容S；

步骤S32具体包括：

1).提取模型数据集

中的文本单句c₁的TF-IDF特征，得到权值矩阵δ₁，

n为文本单句c₁的词汇总数；

5).遍历模型数据集

中的所有文本单句，重复上述步骤1)～4)，得到模型数据集特征

l_i为模型数据集

中第i个标签，K为模型数据集单句总数；

步骤S4具体包括：

S42，过滤掉摘要内容S中余弦相似度值

的句子，得到无重复的摘要内容

S43，利用最大边缘相关模型对摘要内容

进行处理，得到抽取后的摘要文本；

步骤S43具体包括：

(1).遍历摘要内容

中的文本单句，采用公式得到候选摘要文本s：

中句子总数；

步骤(1)中采用的公式为：

其中，λ取值为0.9，

表示摘要内容

第i句与整个摘要内容

的余弦相似度；

表示为摘要内容

2.根据权利要求1所述的基于卷积神经网络的微博新闻摘要抽取式生成方法，其特征在于，步骤S1中的数据采集模块为实时爬虫模块。