CN110990385A

CN110990385A - 一套基于Sequence2Sequence的自动生成新闻标题的软件

Info

Publication number: CN110990385A
Application number: CN201911176058.0A
Authority: CN
Inventors: 何正方; 欧阳欣
Original assignee: Kunming Information Port Media Co Ltd
Current assignee: Kunming Information Port Media Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-04-10

Abstract

本发明专利公开了一套基于Sequence2Sequence的自动生成新闻标题的软件。软件包括模型训练和模型使用两部分。总体而言无论是模型训练还是模型使用，都需要数据清洗和分类。每个分类单独训练，并且每个分类训练好的模型需要单独保存，在新闻标题推理的过程中，首先需要将新闻分类，然后用对应的模型进行推理。简单来说Sequence2Sequence的基本结构主要由编码器(Encoder)和解码器(Decoder)组成，编码和解码都由神经网络实现。编码器负责将输入的原文本编码成一个向量(context)，该向量是原文本的一个表征，包含了文本背景。而解码器负责从这个向量提取重要信息、加工剪辑，生成新闻标题。传统的Seq2Seq模型对输入序列X缺乏区分度，因此，本发明专利引入了Attention Mechanism来解决这个问题。

Description

一套基于Sequence2Sequence的自动生成新闻标题的软件

技术领域

本发明专利属于自然语言处理领域，具体是一套基于Sequence2Sequence的自动生成新闻标题的软件。

背景技术

随着近几年文本信息的爆发式增长，人们每天能接触到海量的文本信息，如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容，已成为我们的一个迫切需求，而自动生成新闻标题则提供了一个高效的解决方案。

尽管对自动生成新闻标题有庞大的需求，这个领域的发展却比较缓慢。对计算机而言，生成新闻标题是一件很有挑战性的任务。从一篇新闻生成一份合格摘要，要求计算机在阅读新闻后理解其内容，并根据轻重缓急对内容进行取舍，裁剪和拼接内容，最后生成流畅的标题。因此，自动生成新闻标题需要依靠自然语言处理/理解的相关理论，是近几年来的重要研究方向之一。

自动生成新闻标题通常可分为两类，分别是抽取式和生成式。抽取式新闻标题判断原文本中重要的句子，抽取这些句子成为一个标题。而生成式方法则应用先进的自然语言处理的算法，通过转述、同义替换、句子缩写等技术，生成更凝练简洁的新闻标题。比起抽取式，生成式更接近人归纳新闻标题的过程。历史上，抽取式的效果通常优于生成式。伴随深度神经网络的兴起和研究，基于神经网络的生成式新闻标题得到快速发展，并取得了不错的成绩。

总的来说，本发明专利提供了一套基于神经网络的生成时新闻标题的软件，具体来说是Sequence2Sequence模型。包括：数据收集、清洗，模型构建、训练，部署上线。

发明内容

本发明专利的目的在于提供一套基于Sequence2Sequence的自动生成新闻标题的软件。

软件包括模型训练和模型使用两部分。总体而言无论是模型训练还是模型使用，都需要数据清洗和分类。每个分类单独训练，并且每个分类训练好的模型需要单独保存，在新闻标题推理的过程中，首先需要将新闻分类，然后用对应的模型进行推理。

简单来说Sequence2Sequence的基本结构主要由编码器(Encoder)和解码器(Decoder)组成，编码和解码都由神经网络实现。编码器负责将输入的原文本编码成一个向量(Context)，该向量是原文本的一个表征，包含了文本背景。而解码器负责从这个向量提取重要信息、加工剪辑，生成新闻标题。传统的 Sequence2Sequence模型对输入序列X缺乏区分度，因此，本发明专利引入了 AttentionMechanism来解决这个问题。

在整个输入编码和解码的过程中，使用梯度优化算法以及最大似然条件概率为损失函数去进行模型的训练和优化，模型训练引入词嵌入、桶和填充。标题推理采用BeamSearch(束搜索)解码。

附图说明

图1软件架构图；

图2总体模型；

图3循环神经网络；

图4Sequence2Sequence模型；

图5Attention Mechanism；

图中：1-新闻和标题数据收集，2-数据清洗，3-新闻分类，4-构建模型，5- 训练模型，6-保存模型，7-部署模型，8-生成模型。

具体实施方式

下面结合附图对本发明专利作进一步的说明，但不以任何方式对本发明专利加以限制，基于本发明专利教导所作的任何变换或替换，均属于本发明专利的保护范围。

软件架构如附图1所示，总体而言软件分为模型训练和模型使用两部分组成。首先需要说明的是无论是那部分都需要数据清洗和分类，下面对这两部分做详细说明。

在模型训练部分，首先就是数据收集，为了能够将生成的新闻标题错误率减到最低，我们对如何收集数据做以下约定：

①、数据需要按新闻细类别收集，每个类别数据量约5-10万条；

②、数据可以人工收集或者采用爬虫从物联网上的主流媒体爬取数据。

收集的数据的格式如下：

当数据收集完成后，为了减少无效字符，提高训练的效率，本专利按照如下两点对数据进行清洗。

①、为了减少词典的长度，所以需要去掉无效字符：

去掉括号内的表情，如【微笑】、【笑哭】

替换日期为DATE，如****年**月**日、****年**月、**月**日

替换链接为URL

替换数字为#

②、为了减少无效填充，需要限制长度：

Length_text∈(25,250)

Length_label∈(8,35)

正文的长度规定为25到250字，标题长度规定为8到35字

接下来按照附图2构建模型，生成式神经网络模型的基本结构主要由编码器(Encoder)和解码器(Decoder)组成，编码和解码都由神经网络实现。

编码器负责将输入的原文本编码成一个向量(Context)，该向量是原文本的一个表征，包含了文本背景。而解码器负责从这个向量提取重要信息、加工剪辑，生成新闻标题。这套架构称作Sequence-to-Sequence(以下简称Seq2Seq)，被广泛应用于存在输入序列和输出序列的场景。

Seq2Seq架构中的编码器和解码器通常由循环神经网络(RNN)实现，RNN 如附图3所示。RNN被称为循环神经网络，是因为它的输出不仅依赖于输入，还依赖上一时刻输出。

如附图3所示，t时刻的输出h不仅依赖t时刻的输入x，还依赖t-1时刻的输出，而t-1的输出又依赖t-1的输入和t-2输出，如此循环，时序上的依赖使 RNN在理论上能在某时刻输出时，考虑到所有过去时刻的输入信息，特别适合时序数据，如文本、语音等。因此，基于RNN实现Seq2Seq架构处理文本任务是一个自然的想法。

典型的基于RNN的Seq2Seq架构如附图4所示，图中展示的是一个用于自动对话的模型，它的编码器和解码器分别由两个RNN组成。图中的向量z编码了输入文本信息(Howare you？)，解码器获得这个向量依次解码生成目标文本 (I am fine？)。上述模型也可以自然地用于自动新闻标题任务，这时的输入为新闻文本，输出为新闻标题。

传统的Seq2Seq模型对输入序列X缺乏区分度，因此，本发明专利引入了AttentionMechanism来解决这个问题，模型结构如附图5所示。

在该模型中，定义了一个条件概率：

P(y_i|y₁，...，y_i-1，x)＝g(y_i-1，s_i，c_i)

其中，s_i是Decoder中RNN在i时刻的隐状态，如图所示，其计算公式为：

s_i＝f(s_i-1，y_i-1，c_i)

这里的背景向量c_i的计算方式，与传统的Seq2Seq模型直接累加的计算方式不一样，这里的c_i是一个权重化(Weighted)之后的值，其表达式如下所示：

其中，i表示Encoder端的第i个词，h_j表示Encoder端的第j和词的隐向量， ai_j表示Encoder端的第j个词与Decoder端的第i个词之间的权值，表示源端第 j个词对目标端第i个词的影响程度，a_ij的计算公式如下公式所示：

e_ij＝a(s_i-1，h_j)

在公式中，a_ij是一个Softmax模型输出，概率值的和为1。e_ij表示一个对齐模型，用于衡量Encoder端的位置j个词，对于Decoder端的位置i个词的对齐程度(影响程度)，换句话说：Decoder端生成位置i的词时，有多少程度受Encoder 端的位置j的词影响。对齐模型e_ij的计算方式有很多种，不同的计算方式，代表不同的Attention模型，最简单且最常用的的对齐模型是DotProduct乘积矩阵，即把Target端的输出隐状态h_t与Source端的输出隐状态进行矩阵乘。常见的对齐计算方式如下：

其中，score得分表示源端与目标单单词对齐程度。常见的对齐关系计算方式有Dot Product、General和Concat三种方式。

当模型构建好后，本专利按照如下的约定训练训练模型。

①、词嵌入

本专利引入词嵌入解决矩阵稀疏性问题，将输入文本映射为300维的向量。首先根据词频统计选取出现频率最高的词汇为ENCODER和DECODER各定义一个词汇表，在本文中设置为60000，没在词汇表中的词都转换成一个“Unknown”字符，然后在训练期间学习词嵌入的权重。

②、桶和填充

本专利应用桶Bucket机制，核心的思想是把输入序列的句子按照长度的相似程度分到不同的固定长度的Bucket里面，长度不够的都添加PAD字符。我们在TensorFlow中使用Bucket的原因主要是为了工程实现的效率，在本文中设置为Bucket：

Buckets＝[(20,10),(50,20),(70,20),(100,20),(200,30)]

③、将新闻和标题同时输入到Seq2Seq模型中，其中新闻对应Encoder，标题对应Decoder。整个输入编码和解码的过程中，使用梯度优化算法以及最大似然条件概率为损失函数去进行模型的训练和优化：

其中θ为模型的参数，N为训练集的样本个数，(y_n,x_n)是相应的输出和输入的序列。

在训练模型时(以及已经训练完时)，可以得到之前模型没见过的源文章的摘要。这个过程称为推理。在推理时，我们只能访问源句子，执行解码有很多种方法。本专利采用Beam Search(束搜索)解码，Beam Search在做摘要时总是将一小部分顶级候选词留在周围，从而在搜索空间更好地探索所有可能的词汇。Beam的大小称为宽度，在本文中设置为12。

接下来就需要编写脚本，将保存好的模型部署到线上，通过HTTP的POST 方式，将新闻文本发送到服务器，然后通过推理生成新闻标题，并将生成的标题返回。

Claims

1.一套基于Sequence2Sequence的自动生成新闻标题的软件特征在于：软件包括模型训练和模型使用两部分。

2.无论是模型训练还是模型使用，都需要数据清洗和分类。每个分类单独训练，并且每个分类训练好的模型需要单独保存，在新闻标题推理的过程中，首先需要将新闻分类，然后用对应的模型进行推理。

3.数据需要按新闻细类别收集，每个类别数据量约5-10万条，数据包括新闻内容和新闻标题。只要数据具有内容和摘要的数据收集，无论数量多少都在本专利的保护范畴。

4.数据清洗包括去掉无效字符，替换如期、链接、数字为指定字符，同时需要将新闻内容和标题做长度限制，标题的长度小于内容的长度，无论长度的限制的多少都在本专利的保护范畴。

5.模型为Sequence2Sequence和Attention Mechanism。Sequence2Sequence的基本结构主要由编码器(Encoder)和解码器(Decoder)组成，编码和解码都由神经网络实现。编码器负责将输入的原文本编码成一个向量(context)，该向量是原文本的一个表征，包含了文本背景。而解码器负责从这个向量提取重要信息、加工剪辑，生成新闻标题。同时，本发明专利引入了Attention Mechanism来提高对输入序列X缺乏区分度。

6.模型训练引入词嵌入、桶和填充，无论词嵌入的维度为多少都在本专利的保护范畴。

7.标题推理采用Beam Search(束搜索)解码，无论Beam的宽度设置为多少都在本专利的保护范畴。