CN106776540A

CN106776540A - 一种自由化文本生成方法

Info

Publication number: CN106776540A
Application number: CN201611036777.9A
Authority: CN
Inventors: 王琪鑫; 王东; 游世学; 骆天; 骆天一; 邢超; 杜新凯
Original assignee: Beijing Zhongke Huilian Technology Co Ltd; Tsinghua University
Current assignee: Beijing Zhongke Huilian Technology Co Ltd; Tsinghua University
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2017-05-31

Abstract

本发明公开了一种自由化文本生成方法，包括以下步骤：S1、将用户输入的关键词组合成字符串；S2、第一循环神经网络将所述字符串编码成一组维度为i的词向量，并根据词向量生成隐向量；S3、第二循环神经网络根据所述词向量和隐向量生成第t个字的候选集，并预测第t个字的候选集的概率分布向量，其中t≥1；S4、按照文本格式要求将候选集中概率分布最大维的字作为预测字Yt进行输出，通过循环迭代生成全部文本。本发明的文本生成方法实现同时训练字词的映射信息和字词的语义信息，可以利用多种格式的文本进行学习，解决了数据稀疏问题，且该方法可以生成任意长度、任意句子的文本。

Description

一种自由化文本生成方法

技术领域

本发明涉及计算机人工智能领域，尤其涉及一种自由化文本生成方法。

背景技术

文本自动生成被认为是当代机器智能的重要标志，因为人们在创作文字的时候需要极强的想象力，机器必须能够"学习”文章的行文方式并“模拟”人脑的创作能力，因此极为困难。传统的文本生成有两种方式，包括统计机器翻译概率模型（Statistical MachineTranslation, SMT）和神经网络模型（Neural Networks, NN）。

统计机器翻译概率模型SMT是利用机器对用户输入的待翻译语句进行翻译得到目标语句的技术。机器翻译是基于以下原理：将源语句到目标语句的翻译视为一个概率问题，任何一个目标语言句子都有可能是任何一个源语言句子的译文，机器翻译的任务为查找出概率最大的目标语句作为源语句的翻译结果。换句话说，SMT的首要任务是为语言的产生构造某种合理的统计模型，并在此统计模型基础上，定义要估计的模型参数，并设计参数估计算法。然而，SMT的机器学习方法是建立在统计的基础上，当数据与数据之间的关系难以用统计来描述时其就无能为力了，此时可以利用神经网络模型NN来解决这一问题。

神经网络模型NN是由大量的、简单的处理单元（称为神经元）广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。NN具有如下优点：1）并行分布处理；2）高度鲁棒性和容错能力；3）分布存储及学习能力；4）能充分逼近复杂的非线性关系。正是由于上述优点，NN在各个领域得到广泛应用。

然而，在文本创作过程中，SMT和传统的NN均具有无法克服的缺陷：

在文本创作过程中，SMT是将文本创作看作由后一句对前一句的翻译过程，并逐步生成全部文本。该SMT机器学习方法具有如下缺点：1）下一句话的生成只依赖于前一句的信息，无法保证生成文本的完整性，即高度依赖于文本中的局部信息，对输入语句的全局信息考虑不周全；2）其是字词之间的映射概率，在语义的方面建模能力较差，且往往只被应用在语义信息相等或近似的情况下，即其仅仅考虑了字词的信息，在语义信息上考虑十分不全，导致生成的文本语义混乱且不一致。

在文本创作过程中，传统的NN是将用户所给的信息通过神经网络压缩成信息向量，将该信息向量作为初始状态，通过神经网络逐句生成整个文本。该传统的NN具有如下缺点：1）在传统的NN模型训练过程中过于注重语义信息；2）生成的每一个字都只考虑同样的全局信息。由此导致生成的文本单一且较易偏向错误的方向，即不能够根据已生成的信息进行调整使得主题容易产生偏差。

发明内容

本发明所要解决的技术问题在于如何克服现有技术中的文本生成模型无法结合SMT和传统NN两者的优势，即无法实现在训练NN的同时训练字词的映射信息和字词的语义信息的缺陷。

为了解决上述技术问题，本发明提供了一种自由化文本生成方法，包括以下步骤：

S1、将用户输入的关键词组合成字符串；

S2、第一循环神经网络将所述字符串编码成一组维度为i的词向量，并根据词向量生成隐向量；

S3、第二循环神经网络根据所述词向量和隐向量生成第t个字的候选集，并预测第t个字的候选集的概率分布向量，其中t≥1；

S4、按照文本格式要求将候选集中概率分布最大维的字作为预测字Y_t进行输出，通过循环迭代生成全部文本。

进一步地，所述步骤S2中一组词向量包含n个词向量，一个词向量对应一个隐向量，其中，n为大于等于1的整数。

进一步地，所述步骤S2中根据词向量生成隐向量，包括以下步骤：

S21、定义一个维度为j的初始隐向量h₀和一个函数；

S22、根据函数公式进行循环迭代生成n个隐向量，所述函数公式为：

，

其中，为n个词向量中第k个词向量对应的隐向量，为n个词向量中第k个词向量，A为j*i的矩阵，B为j*j的矩阵，1≤k≤n。

进一步地，所述步骤S3中第二循环神经网络根据词向量和隐向量生成第t个字的候选集之前还包括第二循环神经网络生成第t-1个字的隐层向量。

进一步地，所述步骤S3中预测第t个字的候选集的概率分布，包括以下步骤：

S31、根据第二循环神经网络的第t-1个字的隐层向量S_t-1和第一循环神经网络生成的n个隐向量计算得到向量C_t，所述向量C_t为用于表示用户意图的向量；

S32、在第二循环神经网络中分别输入C_t、S_t-1和Y_t-1；

S33、将C_t、S_t-1和Y_t-1分别与权重矩阵D相乘得到S_t，函数式为：

S34、将S_t与矩阵E相乘得到第t个字的概率分布向量，函数式为：

。

进一步地，所述步骤S31具体包括：

S311、利用第t-1个字的隐层向量S_t-1和第一循环神经网络生成的n个隐向量分别进行计算，得到n个权重系数，函数公式为：

其中，、和为大小不同的神经网络权值矩阵，若隐层向量的维度为p，则的大小为m*1，m*p，的大小为m*p，为的转置矩阵，为权重系数；

S312、将每个隐向量与相应的权重系数相乘，再求和得到向量C_t，函数公式为：

其中，为输入的信息的长度。

进一步地，所述步骤S4中的文本格式要求包括强制加入的断句符号、符合平仄和押韵的规则。

进一步地，所述第一循环神经网络为双向循环神经网络，所述第二循环神经网络为单向循环神经网络。

进一步地，所述步骤S1中的关键词具有若干个，其中，一个关键词对应一个词向量；

所述步骤S4中，当将预测字Y_t输出后进行迭代生成下一个字的预测字Y_t之前，还包括计算当前的预测字Y_t是由若干个所述关键词中的哪个关键词生成的，以便进行修正，修正的步骤为重复执行步骤S2至S4。

进一步地，所述步骤S1还包括对用户输入的关键词进行扩充和乱序，扩充是指加入更多的关键词，所述乱序是指将用户输入的关键词进行小概率的顺序打乱。

本发明的自由化文本生成方法，具有如下有益效果：

1、本发明的文本生成方法可以利用多种格式的文本进行学习，解决了数据稀疏问题，且该方法可以生成任意长度、任意句子的文本。

2、本发明方法在生成文本时，对用户意图向量进行查看，找到与当前生成状态最相关的用户意图进行下一字的生成，每一句话语前面所有已经生成的句子相关联，保持整个文本的一致性，且保证了生成的信息紧紧围绕用户的意图展开。

3、本发明方法在生成文本的过程中不断进行修正，保证了生成效果的鲁棒性。

4、本发明方法在生成过程中，强制加入断句、押韵、平仄等限制条件，保证字串能最大程度地符合语法和语义规则。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明的自由化文本生成方法的流程图；

图2是本发明的基于RNN的文本生成模型；

图3是本发明的基于RNN的文本生成模型生成的多种文本形式；

图4是对关键词扩充之后文本生成模型生成的不同文本。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种自由化文本生成方法，包括以下步骤：

S1、将用户输入的关键词组合成字符串，关键词具有若干个，其中，一个关键词对应一个词向量；

本实施例所提到的神经网络为循环神经网络（Recurrent Neural Networks, RNN）中的高级循环神经网络GRU （Gated Recurrent Unit），在之后的表述中均以RNN表示。假设用户训练RNN，用于生成七言诗，如图2所示，为利用本发明方法建立的基于RNN的文本生成模型，例如用户输入的信息为春花秋月何时了，则将其组合成字符串“春花秋月何时了”。

第一循环神经网络为双向神经网络，使用双向循环神经网络的原因是：在编码用户意图的向量时，由于已知了所有的用户意图，正向编码考虑了前面的字对后面的字的信息补充，但是后面的字其实对前面的字也有信息补充，比如“春花”，如果看到了“春”，那么后面很可能是“花”，但是若先看到了“花”，前一个字也很可能是“春”，所以编码用户意图向量是代表了一种信息的累加，可以正向，也可以反向。

其中，一组词向量包含n个词向量，一个词向量对应一个隐向量，其中，n为大于等于1的整数，根据词向量生成隐向量，包括以下步骤：

S21、定义一个维度为j的初始隐向量h₀和一个函数；

，

其中，为n个词向量中第k个词向量对应的隐向量，为n个词向量中第k个词向量，A为j*i的矩阵，B为j*j的矩阵，1≤k≤n；

在本实施例中，假设i为200维，j为300维，则A为300*200的矩阵，B为300*300的矩阵，通过S22中的函数公式计算各个词向量对应的隐向量h_k；

当k=1时，h₁=A*W₁+B*h₀；

当K=2时，h₂=A*W₂+B*h₁；

当K=3时，h₃=A*W₃+B*h₂；

当K=4时，h₄=A*W₄+B*h₃；

当K=5时，h₅=A*W₅+B*h₄；

当K=6时，h₆=A*W₆+B*h₅；

当K=7时，h₇=A*W₇+B*h₆。

S3、第二循环神经网络生成第t-1个字的隐层向量，第二循环神经网络根据所述词向量和隐向量生成第t个字的候选集，并预测第t个字的候选集的概率分布向量，其中t≥1；

第二循环神经网络是单相循环网络，其生成过程是不可逆的，是根据前面的字生成后面的字。

其中，预测第t个字的候选集的概率分布，包括以下步骤：

S31、根据第二循环神经网络的第t-1个字的隐层向量S_t-1和第一循环神经网络生成的n个隐向量计算得到向量C_t，所述向量C_t为用于表示用户意图的向量，表示了在预测当前字的时候，第一循环神经网络的哪个隐向量是被影响最大的，具体步骤包括：

其中，为输入的信息的长度。

则C_t= a_t,1h₁+ a_t,2h₂+ a_t,3h₃+ a_t,4h₄+ a_t,5h₅+ a_t,6h₆+ a_t,7h₇；

S32、在第二循环神经网络中分别输入C_t、S_t-1和Y_t-1，其中Y_t-1代表了局部的上文信息；

。

其中，文本格式要求包括强制加入的断句符号、符合平仄和押韵的规则。在生成七言诗、五言诗或其他文本时，会有很多候选集，则挑选符合平仄、押韵等规则的候选集，排除掉那些不符合押韵、平仄等规则的句子，然后每生成一句时，强制加入断句符号，继续下一行的生成。本申请的基于RNN文本生成模型可以生成任意一种格式的文本，只要改变生成过程中的结构限制即可。如当限制为每句5个字后必须有一个断句符时，即是五言诗，当限制为每句7个字后必须有一个断句符时，即是七言诗。只要不停止，可以生成任意多句文本格式，而且所有句字都围绕用户意图生成，不会发生主题发散。

又如，用户输入的关键词为五言绝句的第一句“春眠不觉晓”，那么在第二循环神经网络进行预测的时候，预测第一句第一个字的时候可能会预测成“夏”，那么正确答案是“春”，然后就用一个维度为全部词表的列向量，对应“夜”那一维为1，其它维全部为0的向量表示正确答案，上面预测出的概率分布为预测答案，将预测答案和正确答案计算出交叉熵（通俗地理解为正确答案和预测答案差距的一个度量），用这个交叉熵进行BP（BackPropagation），然后对步骤S32中的所有输入值乘以的矩阵进行更新，以让下次预测的结果生成的字是“春”，迭代多次之后，直到我们的神经网络预测的结果均为正确答案，训练结束。

基于本发明模型的通用性，可以对该模型用任何语料进行学习，从而得到不同语言风格的文字模型。如图3所示，训练模型所用的语料可以采用现代文，而规定的规则是古文结构，可以生成具有现代风格的古文，这样就实现了大数据的充分利用和语言风格的学习。

传统方法随机生成文本时一般通过取次优候选句的方式，生成的文本质量下降。基于本发明提出的模型，通过对用户输入信息进行随机化以产生不同的生成信息，在生成时，模型反复从输入信息中筛选重要的信息。这一方法既保证了随机和多样性，同时不影响生成文本信息的综合打分。

在另一实施例中，在步骤S4中当将预测字Y_t输出后进行迭代生成下一个字的预测字Y_t之前，还包括计算当前的预测字Y_t是由若干个所述关键词中的哪个关键词生成的，以便进行修正，修正的步骤为重复执行步骤S2至S4。在生成过程中，每生成一个字，都会重新计算一下到底会由用户意图的哪一个关键字进行生成，保证了生成的动态调整，避免了如果生成每个字的时候都用全部的关键词的信息进行生成，那么可能生成结果会偏离到一个不好的方向

在另一实施例中，所述步骤S1还包括对用户输入的关键词进行扩充和乱序，扩充是指加入更多的关键词，所述乱序是指将用户输入的关键词进行小概率的顺序打乱。扩充指的是加入更多的关键词，乱序指的是关键词调换顺序，通过这样的操作，会产生不同的生成效果。这两种方法可以让生成结果具有随机性和多样性。从技术上来说，乱序就是把用户输入的信息进行小概率的顺序打乱，而扩充指的是寻找用户输入中的关键词，然后在字典中找到关键词的近义词加入用户输入的信息。在用户输入后加入若干和用户输入相关或相似的词，使得生成的文本在紧扣用户所给的主题的同时，生成不同的文本。

本发明的自由化文本生成方法，具有如下有益效果：

3、本发明方法在生成文本的过程中不断进行修正，保证了生成效果的鲁棒性，本发明可在不降低性能的前提下，生成多种与主题紧密相关的文本。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种自由化文本生成方法，其特征在于，包括以下步骤：

S1、将用户输入的关键词组合成字符串；

2.根据权利要求1所述的自由化文本生成方法，其特征在于，所述步骤S2中一组词向量包含n个词向量，一个词向量对应一个隐向量，其中，n为大于等于1的整数。

3.根据权利要求2所述的自由化文本生成方法，其特征在于，所述步骤S2中根据词向量生成隐向量，包括以下步骤：

S21、定义一个维度为j的初始隐向量h₀和一个函数；

，

4.根据权利要求3所述的自由化文本生成方法，其特征在于，所述步骤S3中第二循环神经网络根据词向量和隐向量生成第t个字的候选集之前还包括第二循环神经网络生成第t-1个字的隐层向量。

5.根据权利要求4所述的自由化文本生成方法，其特征在于，所述步骤S3中预测第t个字的候选集的概率分布，包括以下步骤：

S32、在第二循环神经网络中分别输入C_t、S_t-1和Y_t-1；

。

6.根据权利要求5所述的自由化文本生成方法，其特征在于，所述步骤S31具体包括：

其中，为输入的信息的长度。

7.根据权利要求1-6任意一项所述的自由化文本生成方法，其特征在于，所述步骤S4中的文本格式要求包括强制加入的断句符号、符合平仄和押韵的规则。

8.根据权利要求7所述的自由化文本生成方法，其特征在于，所述第一循环神经网络为双向循环神经网络，所述第二循环神经网络为单向循环神经网络。

9.根据权利要求8所述的自由化文本生成方法，其特征在于，所述步骤S1中的关键词具有若干个，其中，一个关键词对应一个词向量；

10.根据权利要求8或9所述的自由化文本生成方法，其特征在于，所述步骤S1还包括对用户输入的关键词进行扩充和乱序，扩充是指加入更多的关键词，所述乱序是指将用户输入的关键词进行小概率的顺序打乱。