CN108197294A

CN108197294A - 一种基于深度学习的文本自动生成方法

Info

Publication number: CN108197294A
Application number: CN201810058680.0A
Authority: CN
Inventors: 黄文明; 卫万成; 邓珍荣
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2018-06-22
Anticipated expiration: 2038-01-22
Also published as: CN108197294B

Abstract

本发明公开了一种基于深度学习的文本自动生成方法，包括获得文本生成模型和调用文本生成模型两个阶段。第一阶段包括数据预处理；深度学习算法模型构建；训练深度学习模型；获得文本生成模型。第二阶段包括：接受用户输入的文本；提取用户输入文本的特征信息；调用文本生成模型；生成与用户输入文本的特征信息相匹配的文本。第一阶段采用深度学习算法模型，使得训练过程更加自动化，免去了过多的人工干预，训练过程采用一系列训练策略，使得文本生成模型生成的文本可读性更强。第二阶段，对用户输入信息进行分类，识别用户意图，跟据用户的意图生成出用户想要的文本。本发明方法实现相对简单，应用性强，尤其在文章生成方面将会有很大的应用。

Description

一种基于深度学习的文本自动生成方法

技术领域

本发明属于计算机自然语言处理技术领域，具体涉及一种基于深度学习的文本自动生成方法。

背景技术

深度学习使近期人工智能研究取得了突破性的进展，它结束了人工智能长达十年未能有突破的局面，并迅速在工业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能系统(面向特定任务的功能模拟)，作为通用的人工智能技术，可以应对各种情况和问题，已在计算机视觉、语音识别等领域得到极其成果的应用，在自然语言处理领域也取得了一定的成效。深度学习是实现人工智能最有效，也是取得成效最大的实施方法。

文本自动生成技术是自然语言处理的核心技术，在自然语言处理研究中文本生成技术尤为重要。目前人工智能领域中研究最火的机器写作、机器翻译、对话系统、图像描述等都包含文本生成。文本自动生成被认为是当代机器智能的重要标志，因为人们在创作文字的时候需要极强的想象力，机器必须能够“学习”文章的行文方式并“模拟”人脑的创作能力，因此极为困难。传统的文本生成有两种方式，包括统计机器翻译概率模型(StatisticalMachine Translation,SMT)和神经网络模型(Neural Networks，NN)。

统计机器翻译概率模型SMT是利用机器对用户输入的待翻译语句进行翻译得到目标语句的技术。机器翻译是基于以下原理：将源语句到目标语句的翻译视为一个概率问题，任何一个目标语言句子都有可能是任何一个源语言句子的译文，机器翻译的任务为查找出概率最大的目标语句作为源语句的翻译结果。换句话说，SMT的首要任务是为语言的产生构造某种合理的统计模型，并在此统计的基础上，当数据与数据之间的关系难以用统计来描述时就无能为力了，此时可以利用神经网络模型NN来解决这一问题。

神经网络模型NN是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。NN具有如下优点：1)并行分布处理；2)高度鲁棒性和容错能力；3)分布存储及学习能力；4)能充分逼近复杂的非线性关系。正是由于上述优点，NN在各个邻域得到广泛应用。

然而，在文本自动生成过程中，SMT和传统的NN均具有无法克服的缺陷。

在文本自动生成过程中，SMT是将文本生成看作由后一句对前一句的翻译过程，并逐步生成全部文本。该SMT机器学习方法具有如下缺点：1)下一句的生成只依赖于前一句的信息，无法保证生成文本的完整性，即高度依赖于文本中的局部信息，对输入的语句的全局信息考虑不周全；2)其是字词之间的映射概率，在语义的方面建模能力较差，且往往只被应用在语义信息相等或近似的情况下，即其仅仅考虑了字词的信息，在语义上考虑十分不全，导致生成的文本语义混乱且不一致。

在文本创作过程中，传统的NN是将用户所给的信息通过神经网络压缩成信息向量，将该信息向量作为初始状态，通过神经网络逐句生成整个文本。该传统的NN具有如下缺点：1)在传统的NN模型训练过程中过于注重语义信息；2)生成的每一个字都只考虑同样的全局信息。由此导致生成的文本单一且较易偏向错误的方向，即不能够根据已生成的信息进行调整使得主题容易产生偏差。

发明内容

在人工智能飞速发展的今天，本发明针对现有文本自动生成方法的缺陷，提供了一种基于深度学习的文本自动生成方法，其可以根据设计者需要训练出不同类别的文本生成模型，然后根据用户输入的需求调用文本生成模型生成出用户想要的文本。

为实现上述目的，本发明一种基于深度学习的文本自动生成方法，包括两个阶段：

阶段1：获得文本生成模型；

阶段2：调用文本生成模型。

阶段1所述获得文本生成模型，包括以下步骤：

步骤1.1：数据预处理；

步骤1.2：深度学习模型构建；

步骤1.3：训练深度学习模型；

步骤1.4：获得文本生成模型。

阶段2所述调用文本生成模型，包括以下步骤：

步骤2.1：接受用户输入的文本；

步骤2.2：提取用户输入文本的特征信息；

步骤2.3：调用文本生成模型；

步骤2.4：生成与用户输入文本的特征信息相匹配的文本。

本发明方法，阶段1步骤1.1所述数据预处理，包括四个过程，爬虫获取文本训练数据；读取文本并去噪处理；字符和数字之间进行映射；文本转码；分批处理。

本发明方法，阶段1步骤1.2所述深度学习模型构建，包括五个单元：输入单元、记忆单元、优化单元、输出单元。

所述输入单元，包括对汉字或者词语或者单词或者字符或者句子的向量化处理，包括将向量化的数据乘上一个参数(权重)输入到记忆单元；

所述记忆单元，包括利用循环神经网络(RNN)或长短时记忆网络(LSTM)或门循环单元(GRU)或双向循环神经网络(biRNN)或双向长短时记忆网络(biLSTM)构建单层或多层神经网络用于对输入信息的处理；

所述输出单元，包括使用softmax层对记忆单元的输出进行处理，softmax公式如下：

其中，z_i为softmax层输入值，y_i为经过softmax层的输出值，其中，0<y_i<1，还包括使用交叉熵公式算出输出的数据分布与真实数据分布之间的差距，作为优化单元中的损失，因为文本数据是离散的，所以采用离散变量的交叉熵公式，公式如下：

其中，p(i)是真实数据的分布，q(i)为输出的数据分布，结果L(p,q)就是p(i)和q(i)分布之间的差值，也就是损失。

所述优化单元，包括使用梯度下降法对模型进行优化，梯度下降法公式如下：

其中，θ是神经网络(输入单元、记忆单元和输出单元)的参数，a是学习率是一个常数参数，为偏导数，J(θ)为损失函数，即对输出单元中的损失求平均构成的函数，学习率由经验给出一个小于1的值，通过梯度下降公式在每轮迭代的时候对神经网络的参数进行更新，直到损失达到最小，参数达到最优。

本发明方法，阶段1步骤1.3所述训练深度学习模型，包括根据经验设置合适的超参数，对模型进行多次迭代训练。

本发明方法，阶段1步骤1.4所述获得文本生成模型，包括将训练好的模型以文件的形式保存在计算机中，并通过改变模型训练数据，以获得多类型的文本生成模型。

本发明方法，阶段2步骤2.2所述提取所述文本的文本特征信息，包括对句子进行分词，然后分类处理并提取文本特征。

本发明方法，阶段2步骤2.3所述调用文本生成模型，包括调用阶段1的步骤1.4所述获得文本生成模型。

本发明方法的执行过程是先执行阶段1再执行阶段2，分阶段进行文本生成，使得方法实现相对简单，过程清晰明了、不冗余。在获得文本生成模型阶段采用先进的深度学习算法模型，模型训练过程更加自动化，免去了过多的人工干预，使得文本生成更加自动化，训练过程采用一系列训练策略，使得文本生成模型生成的文本可读性更强；在调用文本生成模型阶段，采用对用户输入信息进行分类，识别用户意图，调用不同类别的文本生成模型，根据用户的意图生成用户想要类别的文本，使得文本生成更加多样化。本发明提供的一种基于深度学习的文本自动生成方法能够自动生成用户所需要的文本，方法实现相对简单，不需要人为过多干预，应用性强，尤其在文章生成方面将会有很大的应用。

附图说明

图1是本发明一种基于深度学习的文本自动生成方法整体流程示意图；

图2是本发明数据预处理的流程示意图；

图3是本发明深度学习模型构建与模型训练框架示意图；

图4是本发明门循环单元单层结构简图；

图5是本发明调用文本生成模型整体功能示意图；

图6是本发明生成游记文章的流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明一种基于深度学习的文本自动生成方法整体流程示意图，包括两个阶段：

阶段1：获得文本生成模型；

阶段2：调用文本生成模型。

先进行阶段1的文本生成模型的训练，然后再进行阶段2调用文本生成模型。

其中阶段1获得文本生成模型阶段包括以下四个步骤：

步骤1.1：数据预处理；

步骤1.2：深度学习模型构建；

步骤1.3：训练深度学习模型；

步骤1.4：获得文本生成模型。

其中阶段2调用文本生成模型阶段包括以下四个步骤：

步骤2.1：接受用户输入的文本；

步骤2.2：提取用户输入文本的特征信息；

步骤2.3：调用文本生成模型；

步骤2.4：生成与用户输入文本的特征信息相匹配的文本。

如图2所示，为本发明阶段1步骤1.1所述数据预处理的流程示意图。数据预处理包括四个过程：利用网络爬虫获取文本训练数据；读取文本利用数据去噪技术对文本训练数据进行去噪处理；采用最基本的字符和数字之间进行映射；对文本训练数据进行文本转码数字化处理；最后对数字化后的文本训练数据进行分批处理。

爬虫获取文本训练数据过程是利用爬虫技术从网页中获取最原始的文本训练数据，爬取下来的数据一般是带有格式的，含有特殊字符的，不规整的文本数据，如小说、唐诗、宋词、游记、歌词等数据。

读取文本并去噪处理过程是读取爬取下来的最原始的文本数据，对其去噪处理，去除格式、特殊字符等，将原始文本处理成便于训练的规整的纯文本形式。

字符和数字之间进行映射过程是将文本中的所有不重复字符(一个字也叫一个字符)读取出来，每个字符打上数字标签，形成字符与数据的一一映射关系，如数字“1”代表“我”，数字“2”代表“你”。

文本转码过程是将经过去噪处理后的文本用数字表示。

分批处理是将文本转码后的数据进行分割，分割成许多批次，输入到模型中进行训练，模型每次训练执行一批数据。

如图3所示，为本发明深度学习模型构建与模型训练框架示意图。深度学习模型构建包括五个单元：输入单元、记忆单元、输出单元、优化单元。如图模型训练过程是A经过输入单元的处理，再经过记忆单元处理，再经过输出单元处理，输出单元通过比较生成的数据与真实数据分布的差距产生“损失”，将“损失”经过优化单元处理，通过反馈调节更新输入单元、记忆单元、输出单元的参数。如此重复，经过多轮迭代，使得“损失”最小，输入单元、记忆单元、输出单元的参数达到最优，记录下最优的参数，即完成了模型的训练过程，其中A为经过转码后的文本。模型训练完成后，再次调用模型自动生成文本数据时，即只需给定与A类似的数据，然后经过使用了最优参数的输入单元、记忆单元、输出单元的处理就可以直接生成与训练数据分布类似的文本信息，过程不再需要优化单元的处理，其中输出的B为生成的数据，此时B还是转码后的文本数据，将B转成可读的文本还需要解码然后进行采样调用词表生成可读文本。模型构建的五个单元输入单元、记忆单元、输出单元、优化单元，其中输入单元包括对输入的A进行单个字符向量化处理，再将向量化的数据乘上一个参数(权重)输入到记忆单元。其中记忆单元利用门循环单元(GRU)构建单层或多层神经网络用于对字符向量处理。其中输出单元包括使用softmax层对记忆单元的输出进行处理，softmax公式如下：

其中优化单元包括使用梯度下降法对模型进行优化，梯度下降法公式如下：

为进一步说明模型构建与模型训练中的记忆单元，本发明实施例给出了图4本发明深度学习模型结构简图。图中展现了门循环单元(GRU)构建的部分单层神经网络，每层神经网络由多个记忆细胞组成，每个记忆细胞有三层组织结构，输入层，隐藏层，输出层，记忆细胞与记忆细胞之间通过隐藏层之间的信息传递实现记忆功能，每个记忆细胞输入一个字符，目标输出是这个字符的下一个字符。

阶段1中，可以改变训练数据的类别，通过重复模型构建和模型训练过程，可获得多种类别的文本生成模型，用来生成不同类别的文本。

如图5所示，为本发明调用文本生成模型整体功能示意图。本发明的功能是根据用户输入信息，生成出用户想要的文本，图5展示了此过程。在图5中被调用的模型，需要事先训练好，以文件的形式保存，模型的数量是N个，N≥1，每个模型对应于一个词表，词表中保存着能够组成训练数据的所有字符集合，词表具有多个类别，训练数据也具有多个类别，一个类别的训练数据只能训练一个类别的模型，一个类别的词表对应于一个类别的模型，图5中显示了三个类别的模型，模型1为游记类别，模型2为诗歌类别，模型3为小说类别，调用不同类别的模型，可以生成出对应类别的文本。如图5文本具体生成过程如下：首先用户输入信息，然后对用户输入信息进行分类并提取特征，在N个模型类别中匹配出对应的模型，然后调用此模型，根据特征和词表中的字符，生成出对应的文本。

为进一步说明根据用户信息生成对应文本的过程，本发明实施例给出图6本发明生成游记文章的流程图。游记类别仅为图5中N个类别中的一个。用户输入：生成关于“桂林山水”的5000字游记，然后对用户输入信息分词，提取出关键的类别信息和特征信息，类别信息为游记，特征信息包括内容为桂林山水，字数为5000字。然后调用对应游记类别的模型，将内容信息和字数信息输入到模型中，最后生成出关于“桂林山水”的5000字游记内容。

Claims

1.一种基于深度学习的文本自动生成方法，其方法包括两个阶段：

阶段1：获得文本生成模型；

阶段2：调用文本生成模型。

2.如权利要求1一种基于深度学习的文本自动生成方法，其特征在于：阶段1所述获得文本生成模型，包括以下步骤：

步骤1.1：数据预处理；

步骤1.2：深度学习模型构建；

步骤1.3：训练深度学习模型；

步骤1.4：获得文本生成模型。

3.如权利要求1一种基于深度学习的文本自动生成方法，其特征在于：阶段2所述调用文本生成模型，包括以下步骤：

步骤2.1：接受用户输入的文本；

步骤2.2：提取用户输入文本的特征信息；

步骤2.3：调用文本生成模型；

步骤2.4：生成与用户输入文本的特征信息相匹配的文本。

4.如权利要求2一种基于深度学习的文本自动生成方法，其特征在于：步骤1.1所述数据预处理，包括四个过程，爬虫获取文本训练数据；读取文本并去噪处理；字符和数字之间进行映射；文本转码；分批处理。

5.如权利要求2一种基于深度学习的文本自动生成方法，其特征在于：步骤1.2所述深度学习模型构建，包括五个单元：输入单元、记忆单元、输出单元、优化单元；

所述输入单元，包括对汉字或者词语或者单词或者字符或者句子的向量化处理，包括将向量化的数据乘上一个参数输入到记忆单元；

其中，p(i)是真实数据的分布，q(i)为输出单元输出的数据分布，结果L(p,q)就是p(i)和q(i)分布之间的差值，也就是损失；

其中，θ是神经网络的参数，a是学习率是一个常数参数，为偏导数，J(θ)为损失函数，即对输出单元中的损失求平均构成的函数，学习率由经验给出一个小于1的值，通过梯度下降公式在每轮迭代的时候对神经网络的参数进行更新，直到损失达到最小，参数达到最优。

6.如权利要求2一种基于深度学习的文本自动生成方法，其特征在于：步骤1.3所述训练深度学习模型，包括根据经验设置合适的超参数，对模型进行多次迭代训练。

7.如权利要求2一种基于深度学习的文本自动生成方法，其特征在于：步骤1.4所述获得文本生成模型，包括将训练好的模型以文件的形式保存在计算机中，并通过改变模型训练数据，以获得多类型的文本生成模型。

8.如权利要求3一种基于深度学习的文本自动生成方法，其特征在于：步骤2.2所述提取所述文本的文本特征信息，包括对句子进行分词，然后分类处理并提取文本特征。

9.如权利要求3一种基于深度学习的文本自动生成方法，其特征在于：步骤2.3所述调用文本生成模型，包括调用步骤1.4所述获得文本生成模型。