CN108170657A

CN108170657A - 一种自然语言长文本生成方法

Info

Publication number: CN108170657A
Application number: CN201810006935.9A
Authority: CN
Inventors: 陆丽娜
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2018-06-15

Abstract

本发明公开了一种自然语言长文本生成方法，包括如下步骤：首先，将语言看做一种数据，对文本内容作自然语言处理建立大数据体系；其次，运用文本摘要模型，通过算法解决文本主题归纳问题；通过分布式爬虫实时更新语料，并传递给算法，实现长文本生成。本发明解决使用RNN模型下的文本漂移问题，摆脱了之前文本复述领域对训练数据的极高要求，更加贴近人类复述能力，通过分布式爬虫实时更新语料，并传递给算法，实现了秒级的长文本生成能力，并且我们的模块化处理成本更低效果也令人满意。

Description

一种自然语言长文本生成方法

技术领域

本发明涉及一种方法，具体是一种自然语言长文本生成方法。

背景技术

现有的自然语言长文本生成方法，在使用RNN模型下存在文本漂移问题，从char-rnn及其衍生的word-rnn运行文本生成的效果发现，由于rnn只关注了输入之间的概率关系，缺乏对文本主题的建模。这个情况到seq2seq模型仍然存在，即算法无法像人类那样关注整体的同时也关注细节。

发明内容

本发明的目的在于提供一种自然语言长文本生成方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种自然语言长文本生成方法，包括如下步骤：首先，将语言看做一种数据，对文本内容作自然语言处理建立大数据体系；其次，运用文本摘要模型，通过算法解决文本主题归纳问题；通过分布式爬虫实时更新语料，并传递给算法，实现长文本生成；引入注意力机制，包括：第一步打分score，通过非线性函数tanh扭曲h_t和h_s；第二步是做score的softmax将值域压缩为权重a_t；第三步是将权重a_t分配给h_s'形成context即c_t；第四步是将c_t和h_t作非线性变换生成h_t～。

作为本发明进一步的方案：所述分布式爬虫用于抓取即时的上市公司财务报告，并且设定了定时运行功能，在全自动全天候实现自动下载财经信息到本地服务器。

作为本发明进一步的方案：还包括使用mongo数据库进行实时的插入，更新与查询。

作为本发明再进一步的方案：还包括在所述注意力机制中引入文风修饰模块和文本摘要算法，使长文本生成的内容更加个性化，以及具有文本的再加工能力。

与现有技术相比，本发明的有益效果是：本发明解决使用RNN模型下的文本漂移问题，摆脱了之前文本复述领域对训练数据的极高要求，更加贴近人类复述能力，通过分布式爬虫实时更新语料，并传递给算法，实现了秒级的长文本生成能力，并且我们的模块化处理成本更低效果也令人满意。

附图说明

图1为自然语言长文本生成方法的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中，一种自然语言长文本生成方法，包括如下步骤：首先，将语言看做一种数据，对文本内容作自然语言处理建立大数据体系；其次，运用文本摘要模型，通过算法解决文本主题归纳问题；通过分布式爬虫实时更新语料，并传递给算法，实现长文本生成；引入注意力机制，包括：第一步打分score，通过非线性函数tanh扭曲h_t和h_s；第二步是做score的softmax将值域压缩为权重a_t；第三步是将权重a_t分配给h_s'形成context即c_t；第四步是将c_t和h_t作非线性变换生成h_t～。

所述分布式爬虫用于抓取即时的上市公司财务报告，并且设定了定时运行功能，在全自动全天候实现自动下载财经信息到本地服务器。

还包括使用mongo数据库进行实时的插入，更新与查询。

还包括在所述注意力机制中引入文风修饰模块和文本摘要算法，使长文本生成的内容更加个性化，以及具有文本的再加工能力。

自然语言长文本生成模型：

本发明的贡献在于设计了一种长文本生成机制，解决使用RNN模型下的文本漂移问题。首先，将语言看做一种数据，对文本内容作自然语言处理建立大数据体系。其次，运用自主开发的文本摘要模型，可以通过算法解决文本主题归纳问题；运用自我研发的文本修饰模型，摆脱了之前文本复述领域对训练数据的极高要求，更加贴近人类复述能力。我们通过分布式爬虫实时更新语料，并传递给算法，实现了秒级的长文本生成能力。并且我们的模块化处理成本更低效果也令人满意。

从char-rnn及其衍生的word-rnn运行文本生成的效果发现，由于rnn只关注了输入之间的概率关系，缺乏对文本主题的建模。这个情况到seq2seq模型仍然存在，即算法无法像人类那样关注整体的同时也关注细节。因此我们认为先在固定主题模板的基础上进行长文本生成在现有技术上是可行的，也获得了实验成功，今后将会在此模板基础上不断拓展算法。模板来源于自建的数据库语料(超过一万篇股票研究报告)，通过代码阅读金融文档并提取有效文本入库。

爬虫技术：

爬虫是能够自动获取网页内容并可以按照指定规则提取相应内容的程序。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；所以一个完整的爬虫一般会包含如下三个模块：网络请求模块、爬取流程控制模块、内容分析提取模块。

我们自主开发的爬虫主要用于抓取即时的上市公司财务报告，并且设定了定时运行功能，即在全自动全天候实现自动下载财经信息到本地服务器的效果。

自然语意理解技术：

(主体是序列到序列算法)

循环神经网络(RNN)通过隐状态保留了大多数信息，长短期记忆模型在基线RNN上引入核心元素Cell，在RNN的单一控制层上增加新的控制层，用四个门开关来选择增加或者删除信息。第一步是忘记门，该门会读取h_t-1和x_t，输出一个在0到1之间的数值给每个在细胞状态c_t中的数字。1表示“完全保留”，0表示“完全舍弃”。第二步是输入门，决定将要更新的值，并通过一个tanh函数创建新的候选值向量加入到状态中。第三步进行cell更新，将c_t-1与f_t相乘，再加上得到新的候选值c_t。第四步是输出门，通过sigmoid函数来确定细胞状态的哪个部分将输出出去，再通过tanh非线性将cell状态挤压到-1到1，然后和sigmoid门的输出相乘，最后得到确定输出的部分。

尽管LSTM有效解决了RNN模型中的长短期记忆问题，但是从仍然存在提升空间，即平均分支系数PPX还可以继续下降。从实际效果来看，注意力(Attention)机制可以更好地优化LSTM语言模型，这是因为Attention机制和人脑类似的工作原理，给予输入信息不同的权重比例加以区分，并且减少了反向传播的计算路径长度。Attention的实现主要分成四步。第一步是打分score，通过非线性函数tanh扭曲h_t和h_s；第二步是做score的softmax将值域压缩为权重a_t；第三步是将权重a_t分配给h_s'形成context即c_t；第四步是将c_t和h_t作非线性变换生成h_t～。生成的h_t～就包含了经过注意力机制快速传递的输入信息。Attention的a_t可以用输入的全局权重，也可以用局部权重，本发明使用的是更高效的全局权重。

在解码阶段的任意时间步t，两种方法均首先把位于长短期记忆模型顶层的隐藏态h_t作为输入，其目的是得到能够捕捉相关端源信息的语境向量c_t，这将有助于预测当前的目标词y_t；

全局注意力模型-在每个时间步t，模型根据当前的目标状态h_t和所有源状态h_s推导出一个对齐的权重向量a_t。再根据a_t将所有的源状态作加权平均，得到全局的语境向量c_t。

以全局注意力模型为例，在获取语境向量c_t时，这一模型考虑编码器所有的隐藏态。向量a_t由当前目标态h_t和每个源状态h_s分别比较得到，其大小等于源端的时间步长数。

全局注意力模型包括四个主要部分：

第一，考虑三种不同的情况，计算基于内容的分数函数：

然后根据目标状态h_t计算对齐分数，将得到的对齐分数向量作为权重向量，将所有的源状态h_s作加权平均得到语境向量c_t。

a_t＝softmax(W_ah_t)locntion

特别的，给定目标状态h_t和端源语境向量c_t，用一个简单的串联层联合来自这两个向量的信息，从而产生一个注意力隐藏态。

数据库技术：

使用mongo数据库，MongoDB是一个高性能，开源，无模式的文档型数据库，是当前NoSql数据库中比较热门的一种。我们选择mongodb数据库而不是其他数据库，是因为mongodb更加开放，提供的接口更加便于管理。并且mongo和深度学习最通用的python语言相互的支持非常好，因此我们目前在自然语言处理的技术中首选mongodb数据库。Mongo非常适合实时的插入，更新与查询，并具备网站实时数据存储所需的复制及高度伸缩性。由于性能很高，Mongo也适合作为信息基础设施的缓存层。

文本摘要算法：

我们在序列到序列模型基础上，引入文风修饰模块和文本摘要算法，使得长文本生成的内容更加个性化，以及具有文本的再加工能力。文本摘要有很多方式，我们采用Abstractive摘要算法，用LSTM RNN作为encoder-decoder框架的模型，并且使用了attention模型来生成文章的标题。encoder使用文章内容作为输入，一个时间点表示一个单词，每个单词先通过embedding层将词转换为一个分布式向量(word embedding)。每个词向量都由前一个词向量生成，第一个词定义为0向量。decoder将encoder中最后一个词向量作为输入，decoder本质是一个rnnlm，使用softmax和attention mechanism来生成每个词。

注意力机制可以用来帮助神经网络更好地理解输入数据，尤其是一些专有名词和数字。attention在decoder阶段起作用，通过将输出与所有输入的词建立一个权重关系来让decoder决定当前输出的词与哪个输入词的关系更大(即应该将注意力放到哪个词上)。

在此基础上，我们研发了一种“文风修饰算法”，通过隐藏层输出文本的位置信息，通过中文文风模块调整写作文风，达到个性化长文本生成的效果。

股票研究报告文本数据：

我们获得了超过10000篇上市公司的股票研究报告，通过自己编写的文字处理技术将其整理成文本大数据，存入数据库调用。我们之所以选择股票研究报告作为大数据来源，是因为这些报告是较高级的文本内容，不仅语言精炼，行文规范，而且文本内容以分析和专业知识为主，比一般的新闻文本更具有研究价值。

上市公司财务报告数据：

通过爬虫技术，我们可以第一时间获得上市公司发布的财务报告，从而应用自然语言长文本生成模型，在短短几分钟内(不超过5分钟)生成股票研究报告。实际上，模型的文本生成时间只在几秒钟，最后取决于网络速度，以邮件形式发送到阅读终端的时间在分钟级水平。随着网络宽带建设的加快发展，预计今后这一技术的实现速度将进一步提升。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种自然语言长文本生成方法，其特征在于，包括如下步骤：首先，将语言看做一种数据，对文本内容作自然语言处理建立大数据体系；其次，运用文本摘要模型，通过算法解决文本主题归纳问题；通过分布式爬虫实时更新语料，并传递给算法，实现长文本生成；引入注意力机制，包括：第一步打分score，通过非线性函数tanh扭曲和；第二步是做score的softmax将值域压缩为权重；第三步是将权重分配给'形成context即；第四步是将和作非线性变换生成。

2.根据权利要求1所述的自然语言长文本生成方法，其特征在于，所述分布式爬虫用于抓取即时的上市公司财务报告，并且设定了定时运行功能，在全自动全天候实现自动下载财经信息到本地服务器。

3.根据权利要求1所述的自然语言长文本生成方法，其特征在于，还包括使用mongo数据库进行实时的插入，更新与查询。

4.根据权利要求1所述的自然语言长文本生成方法，其特征在于，还包括在所述注意力机制中引入文风修饰模块和文本摘要算法，使长文本生成的内容更加个性化，以及具有文本的再加工能力。