CN109918630A

CN109918630A - 文本生成方法、装置、计算机设备及存储介质

Info

Publication number: CN109918630A
Application number: CN201910064116.4A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-06-21
Anticipated expiration: 2039-01-23
Also published as: CN109918630B; WO2020151175A1

Abstract

本申请实施例提供了一种文本生成方法、装置、计算机设备及计算机可读存储介质，属于文本生成技术领域。本申请实施例在实现文本生成时，通过获取进行文本生成的初始文本和预设预测词汇，将初始文本和预设预测词汇分别进行词嵌入以将初始文本转化为第一词向量和将预设预测词汇转化为第二词向量，将第一词向量和第二词向量分别通过对应的卷积神经网络获得第一词向量的第一注意力矩阵和第二词向量的第二注意力矩阵，将第一注意力矩阵和第二注意力矩阵相乘以得到第三注意力矩阵，将第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本，本申请实施例中由于卷积神经网络的并行计算特性，建立的文本生成模型具有较高的训练效率。

Description

文本生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及文本生成技术领域，尤其涉及一种文本生成方法、装置、计算机设备及计算机可读存储介质。

背景技术

文本生成是指在给定语言模型参数和文本片段的情况下，产生新的字符文本。传统文本生成模型基于循环神经网络，其中，循环神经网络(Recurrent Neural Network,RNN)是一类以序列(Sequence)数据为输入，在序列的演进方向进行递归(Recursion)且所有节点(循环单元)按链式连接形成闭合回路的递归神经网络(Recursive NeuralNetwork)，由于循环神经网络模型是以序列采取递归方式进行文本生成，在文本生成模型训练时的训练效率较低。

发明内容

本申请实施例提供了一种文本生成方法、装置、计算机设备及计算机可读存储介质，能够解决传统技术中文本生成模型训练时训练效率比较低的问题。

第一方面，本申请实施例提供了一种文本生成方法，所述方法包括：获取进行文本生成的初始文本和预设预测词汇；将所述初始文本和所述预设预测词汇分别进行词嵌入以将所述初始文本转化为第一词向量和将所述预设预测词汇转化为第二词向量；将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵；将所述第一注意力矩阵和所述第二注意力矩阵相乘以得到第三注意力矩阵；将所述第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本。

第二方面，本申请实施例还提供了一种文本生成装置，包括：获取单元，用于获取进行文本生成的初始文本和预设预测词汇；转化单元，用于将所述初始文本和所述预设预测词汇分别进行词嵌入以将所述初始文本转化为第一词向量和将所述预设预测词汇转化为第二词向量；卷积单元，用于将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵；得到单元，用于将所述第一注意力矩阵和所述第二注意力矩阵相乘以得到第三注意力矩阵；匹配单元，用于将所述第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本。

第三方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现所述文本生成方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行所述文本生成方法。

本申请实施例提供了一种文本生成方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于文本生成技术领域，本申请实施例在实现文本生成时，通过获取进行文本生成的初始文本和预设预测词汇，将所述初始文本和所述预设预测词汇分别进行词嵌入以将所述初始文本转化为第一词向量和将所述预设预测词汇转化为第二词向量，将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵，将所述第一注意力矩阵和所述第二注意力矩阵相乘以得到第三注意力矩阵，将所述第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本，从而根据输入文本，通过卷积神经网络进行信息提炼，在预设预测词汇范围内生成具有较强关联属性的预测文本，相比于传统技术中的循环神经网络，本申请实施例中由于采取多尺度的卷积神经网络的并行计算特性，建立的文本生成模型具有较高的训练效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的文本生成方法的应用场景示意图；

图2为本申请实施例提供的文本生成方法的流程示意图；

图3为本申请实施例提供的文本生成方法中词向量示意图；

图4为本申请实施例提供的文本生成方法中一个对应的模型示意图；

图5为本申请实施例提供的文本生成方法中一个子流程示意图；

图6为本申请实施例提供的文本生成装置的示意性框图；

图7为本申请实施例提供的文本生成装置的另一个示意性框图；以及

图8为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本申请实施例提供的文本生成方法的应用场景示意图。所述应用场景包括：

(1)终端。图1所示终端上安装有应用程序，研发人员通过终端实现执行文本生成方法的步骤，所述终端可以为笔记本电脑、平板电脑或者台式电脑等电子设备，图1中所示的终端应用环境也可以更换为服务器等计算机设备。若图1中的应用环境为服务器，服务器可以为服务器集群或者云服务器。服务器集群又可以采用分布式系统，分布式系统的服务器又可以包括主服务器和从服务器，以使主服务器使用获得的初始文本执行文本生成方法的步骤，从服务器可以用于存储生成的大量数据。

图1中的各个主体工作过程如下：终端获取进行文本生成的初始文本和预设预测词汇；将所述初始文本和所述预设预测词汇分别进行词嵌入以将所述初始文本转化为第一词向量和将所述预设预测词汇转化为第二词向量；将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵；将所述第一注意力矩阵和所述第二注意力矩阵相乘以得到第三注意力矩阵；将所述第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本。

需要说明的是，图1中仅仅示意出台式电脑作为终端，在实际操作过程中，终端的类型不限于图1中所示，所述终端还可以为手机、笔记本电脑或者平板电脑等电子设备，上述文本生成方法的应用场景仅仅用于说明本申请技术方案，并不用于限定本申请技术方案。

图2为本申请实施例提供的文本生成方法的示意性流程图。该文本生成方法应用于图1中的终端中以完成文本生成方法的全部或者部分功能。

请参阅图2至图4，图2是本申请实施例提供的文本生成方法的流程示意图，图3为本申请实施例提供的文本生成方法中词向量示意图；图4为本申请实施例提供的文本生成方法中一个对应的模型示意图。如图2所示，该方法包括以下步骤S210-S250：

S210、获取进行文本生成的初始文本和预设预测词汇。

其中，初始文本是指用户通过输入设备输入的文本。，比如，用户通过智能设备的触摸屏输入的内容，进而根据用户输入的内容对用户接下来输入的内容进行预测以生成与输入的初始文本搭配的推荐文本内容，进而提高用户的文本输入效率。

预设预测词汇是指预先设置的用于生成预测文本的词汇选择的范围。所述预设预测词汇可以根据用户输入的内容进行更新，通过记录并存储用户的常用语言更新预设预测词汇以提高预测的准确性，进而提高文本生成的效率。

具体地，本申请实施例是基于多尺度并行性的卷积神经网络的文本生成模型，也就是利用卷积神经网络分别分析输入的初始文本词汇获得初始文本的文本信息，并分析预设预测词汇之间的关联性，通过将初始文本的词向量卷积后进行归一化然后获得第一注意力矩阵和预设预测词汇进行卷积后进行归一化以获得第二注意力矩阵，将所述第一注意力矩阵与第二注意力矩阵相乘进而得到预测文本的词向量，再将预测文本的词向量进行归一化和预设预测词汇进行匹配以生成预测文本。终端获取进行文本生成的初始文本，比如，用户通过输入设备输入的文本，文本生成模型通过卷积神经网络根据输入文本从预设预测词汇中预测与输入文本相关联的预测文本，所述预测文本可以为预测词汇，也可以为预测的一句话或者一段话等，输出即为文本生成结果。

S220、将所述初始文本和所述预设预测词汇分别进行词嵌入以将所述初始文本转化为第一词向量和将所述预设预测词汇转化为第二词向量。

其中，词嵌入，英文为Word Embedding，是一种词的类型表示，具有相似意义的词具有相似的表示，是将词汇映射到实数向量的方法总称，词嵌入所在的结构层称为词嵌入层，或者简称为嵌入层，英文为Embedding layer。词嵌入是一类技术，是指单个词在预定义的向量空间中被表示为实数向量，每个单词都映射到一个向量。请参阅图3，图3为本申请实施例提供的文本生成方法中词向量示意图。如图3所示，假如在一个文本中包含“猫”“狗”及“爱情”等若干单词，而这若干单词映射到向量空间中，“猫”对应的向量为(0.1，0.2，0.3)，“狗”对应的向量为(0.2，0.2，0.4)，“爱情”对应的映射为(-0.4，-0.5，-0.2)(本数据仅为示意)。像这种将文本X{x1,x2,x3,x4,x5……xn}映射到多维向量空间Y{y1,y2,y3,y4,y5……yn}，这个映射过程就叫做词嵌入。之所以希望把每个单词都变成一个向量，目的还是为了方便计算，比如“猫”，“狗”，“爱情”三个词。对于我们人而言，可以知道“猫”和“狗”表示的都是动物，而“爱情”是表示的一种情感，但是对于机器而言，这三个词都是用0和1表示成二进制的字符串而已，无法对其进行计算。而通过词嵌入这种方式将单词转变为词向量，机器便可对单词进行计算，通过计算不同词向量之间夹角余弦值cos而得出单词之间的相似性，比如，在图3中，由于cosα＜cosβ，可“猫”与“狗”更相似，猫与“爱情”差异较大。

具体地，终端通过文本生成模型中的词嵌入层将初始文本和预设预测词汇分别转化为对应的词向量，也就是将输入的自然语言编码成词向量，在本申请实施例中，是将所述初始文本转化为第一词向量，将所述预设预测词汇转化为第二词向量，为文本生成做准备。具体实施时，可以使用预训练好的词向量，也可以直接在训练文本生成的过程中训练出一套词向量，不过使用预训练好的词向量比在训练文本生成的过程中训练出一套词向量快100倍不止。如果使用预训练好的词向量，又分为Static方法和No-static方法，Static方法是指在训练文本生成过程中不再调节词向量的参数，No-static方法在文本生成模型的训练过程中调节词向量的参数，所以No-static方法的结果比Static方法的结果要好。

进一步地，还可以不在每一个Batch(批)中都调节Embedding层(嵌入层)，而是每100个Batch调节一次，这样可以减少训练的时间，又可以微调词向量。

更进一步地，可以使用训练好的预设词向量字典将所述初始文本进行词嵌入以将所述初始文本转化为词向量。比如，词向量可以采用Word2Vec预训练词向量，即每个词汇都有对应的向量表示，此类向量表示能够以数据形式表达词汇信息，词向量维度可以为300。其中，Word2vec，英文为Word to vector，是一款用于训练词向量的软件工具，用来产生词向量的相关模型，词向量的自动训练可以通过Python中的Gensim库实现。

S230、将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵。

其中，卷积神经网络，英文为Convolutional Neural Networks，简称为CNN，是一类包含卷积或者相关计算且具有深度结构的前馈神经网络(Feedforward NeuralNetworks)，是深度学习(Deep Learning)的代表算法之一。由于卷积神经网络能够进行平移不变分类(英文为Shift-Invariant Classification)，因此也被称为“平移不变人工神经网络(英文为Shift-Invariant Artificial Neural Networks，简称为SIANN)。

注意力，又称为注意力机制，或者注意力模型，或者注意力结构，英文为AttentionModel。自然语言处理中的注意力模型，借鉴了人类的注意力概念，一般来说，视觉注意力是人类视觉所特有的大脑信号处理机制，人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息，人类视觉注意力极大地提高了视觉信息处理的效率与准确性，本申请实施例中的注意力从本质上讲和人类的选择性视觉注意力类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。

进一步地，注意力模型可以表现为一种函数，比如y＝f(x)，y＝f(x)可以为线性关系，比如，y＝wx+b，其中，y表示输出，x表示输入，w和b分别表示x和y线性关系的参数，w和b可以分别在训练过程中得到调整。

注意力矩阵是指权重在矩阵中分配后的矩阵。在卷积神经网络中，卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差，是以矩阵形式进行卷积，因此经过卷积并且分配权重后生成注意力矩阵。

具体地，请参阅图4，终端接收用户输入的初始文本后，通过词嵌入层将所述初始文本进行词嵌入以获得第一词向量，然后终端通过卷积层中的第一卷积层对所述词向量进行卷积，也就是通过第一卷积神经网络对所述第一词向量进行卷积并经Softmax函数归一化后以得到所述第一词向量的第一词向量概率，同时通过第一卷积层中的第一卷积神经网络对所述第一词向量进行卷积以得到卷积第一词向量，将所述第一词向量概率和所述卷积第一词向量相乘以得到第一注意力矩阵。

类似地、终端接收预设预测词汇后，通过词嵌入层将所述预设预测词汇进行词嵌入以获得第二词向量，然后终端通过卷积层中的第二卷积层对所述第二词向量进行卷积，也就是通过第二卷积神经网络对所述第二词向量进行卷积并经Softmax函数归一化后以得到所述第二词向量的第二词向量概率，同时通过第二卷积层中的第二卷积神经网络对所述第二词向量进行卷积以得到卷积第二词向量，将所述第二词向量概率和所述卷积第二词向量相乘以得到第二注意力矩阵。

S240、将所述第一注意力矩阵和所述第二注意力矩阵相乘以得到第三注意力矩阵。

其中，矩阵相乘是指矩阵乘法，英文为Matrix multiplication，指一般矩阵乘积。

具体地，将所述第一注意力矩阵和所述第二注意力矩阵相乘以得到第三注意力矩阵。比如，假若有A和B两矩阵，设A为m×p的矩阵，B为p×n的矩阵，那么称m×n的矩阵C为矩阵A与B的乘积，记作C＝AB，其中矩阵C中的第i行第j列元素可以表示为：

比如，

S250、将所述第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本。

其中，归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量，英文为Normalization。归一化方法有两种形式，一种是把数变为(0，1)之间的小数，一种是把有量纲表达式变为无量纲表达式。主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。常用的归一化函数包括Softmax函数。其中，Softmax函数，或称归一化指数函数，是逻辑函数的一种推广，它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0，1)之间，并且所有元素的和为1，Softmax函数实际上是有限项离散概率分布的梯度对数归一化。

具体地，将所述第三注意力矩阵经归一化后，获取第三注意力矩阵中各个向量的权重，或者称为各个向量的概率，如图4所示，将所述第三注意力矩阵经Softmax函数归一化后得到第三词向量，然后将第三词向量与预设预测词汇的各个向量进行匹配，从而将第三注意力矩阵中各个向量转化为预设预测词汇中的各个自然语言的词汇以生成预测文本。进一步地，生成预测文本的输出由文本生成模型中的注意力机制完成处理，输出即为所生成的文本内容，信息完成提炼后，文本生成模型通过卷积层、第一注意力层以及第二注意力层组建输出内容，其中，第二注意力层为全连接网络结构，输出函数为Softmax，用于限制注意力范围以实现通过注意力权重调整后的数据将输入卷积层，得到预测对象的词向量，并将词向量与预设预测词汇组成的字典进行匹配，以确定所要输出的预测文本。

更进一步地，文本生成模型中的卷积神经网络构建完毕后，首先要进行文本生成模型的训练，其中，文本生成模型的损失函数为交叉熵，训练方法为ADAM学习率为0.001，其中，ADAM，英文为Adaptive Moment Estimation，是自适应矩估计。同时，在训练神经网络时，需要设置学习率控制参数更新的速度，其中，学习率，英文为Learing rate，又称为学习速率，用于控制模型的学习进度。神经网络的训练通过Python中的Tensorflow库实现。训练完毕的文本生成模型，才可用于用户输入词语预测。

本申请实施例在实现文本生成时，通过获取进行文本生成的初始文本，将所述初始文本进行词嵌入以将所述初始文本转化为词向量，通过卷积神经网络捕捉所述词向量的信息以得到所述词向量之间的词向量关系，根据所述词向量关系通过第一预设规则筛选出预测文本的词向量，将所述预测文本的词向量与预设预测词汇进行匹配以生成预测文本，从而根据用户输入的初始文本，通过卷积神经网络进行信息提炼，并基于已有的预设预测词汇生成具有关联属性的预测文本的词向量，相比于传统技术中的循环神经网络，本申请实施例中的卷积神经网络由于其并行计算的特性，所建立的文本生成模型具有较高的训练效率。

请参阅图5，如图5所示，在该实施例中，所述将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵的步骤包括：

S510、通过第一卷积神经网络对所述第一词向量进行卷积并经归一化后得到所述第一词向量的第一词向量概率；

S520、通过所述第一卷积神经网络对所述第一词向量进行卷积以得到卷积第一词向量；

S530、将所述第一词向量概率和所述卷积第一词向量相乘以得到第一注意力矩阵；

S540、通过第二卷积神经网络对所述第二词向量进行卷积并经归一化后得到所述第二词向量的第二词向量概率；

S550、通过所述第二卷积神经网络对所述第二词向量进行卷积以得到卷积第二词向量；

S560、将所述第二词向量概率和所述卷积第二词向量相乘以得到第二注意力矩阵。

具体地，终端需要首先建立第一卷积神经网络和第二卷积神经网络以实现通过卷积神经网络捕捉所述词向量的信息以得到所述词向量之间的词向量关系。

由于本申请实施例的应用场景是输入文本预测以进行文本生成，因此文本生成模型需要根据用户已经输入的内容，进行下一步的输入预测。由于输入预测可能取决于已输入的一个或多个词，因此文本生成模型设立了多维度的卷积核以捕捉输入文本的局部信息。

请继续参阅图4，该文本生成模型包括第一卷积层和第二卷积层两并行卷积层，也就是第一卷积神经网络所属的卷积层和第二卷积神经网络所属的卷积层，第一卷积层和第二卷积层中每层卷积层又分别包括两部分并行子卷积层，其中，每一卷积层中的一子卷积层通过Softmax函数映射后与另一子卷积层相乘，每一卷积层通过建立两部分子卷积核进行点乘，以实现信息提炼。其中，点乘，也叫向量的内积、数量积，点乘的结果是一个数，比如，向量a·向量b＝|a||b|cos<a,b>，cos<a,b>表示向量a和向量b夹角的余弦值，将向量用坐标表示(三维向量)，若向量a＝(a1,b1,c1)，向量b＝(a2,b2,c2)，则向量a·向量b＝a1a2+b1b2+c1c2。另一方面，该文本生成模型已预先设置有预设预测词汇，比如，已建立了1000个词语作为可选预测词语，对该预设预测词语在嵌入层进行词向量转换以转化为第二词向量，并接入第二卷积程中比如高度为1的一维卷积层进行卷积运算输出。

请继续参阅图4，在第一卷积层中，文本生成模型通过词嵌入层实现文本与词向量的转化，并输入第一卷积神经网络所属的第一卷积层，通过第一卷积神经网络对所述第一词向量进行卷积并经Softmax函数归一化后以得到所述第一词向量的第一词向量概率，通过所述第一卷积神经网络对所述第一词向量进行卷积以得到卷积第一词向量，将所述第一词向量概率和所述卷积第一词向量相乘以得到第一注意力矩阵。其中，该第一卷积层的高度可以包括有1维度与3维度的卷积神经网络两类，每类卷积神经网络各128通道。第一卷积层中Softmax函数归一化之前的第一卷积神经网络和第一卷积层中获得卷积第一词向量的第一卷积神经网络可以相同也可以不同。若第一卷积层中Softmax函数归一化之前的第一卷积神经网络和第一卷积层中获得卷积第一词向量的第一卷积神经网络相同，第一卷积层中Softmax函数归一化之前的第一卷积神经网络和第一卷积层中获得卷积第一词向量的第一卷积神经网络可以均为1维度的卷积神经网络或者均为3维度的卷积神经网络。若第一卷积层中Softmax函数归一化之前的第一卷积神经网络和第一卷积层中获得卷积第一词向量的第一卷积神经网络不相同，比如，第一卷积层中Softmax函数归一化之前的第一卷积神经网络为3维度的卷积神经网络，第一卷积层中获得卷积第一词向量的卷积神经网络为1维度的卷积神经网络。

与第一注意力矩阵获得的方式类似，请继续参阅图4，终端接收预设预测词汇后，通过词嵌入层将所述预设预测词汇进行词嵌入以获得第二词向量，然后终端通过卷积层中的第二卷积层对所述第二词向量进行卷积，也就是通过第二卷积神经网络对所述第二词向量进行卷积并经Softmax函数归一化后以得到所述第二词向量的第二词向量概率，同时通过第二卷积层中的第二卷积神经网络对所述第二词向量进行卷积以得到卷积第二词向量，将所述第二词向量概率和所述卷积第二词向量相乘以得到第二注意力矩阵。

最后，本申请实施例的目标是输入词语预测，由于文本生成模型输入的初始文本具有不定长的特点，该文本生成模型通过不定长训练文本，以及可选的预设预测词语，输出了两部分矩阵，也就是第一注意力矩阵和第二注意力矩阵，并将此两部分矩阵相乘得到第三注意力矩阵，并将第三注意力矩阵进行Softmax函数映射，将第三注意力矩阵中的向量按照概率由高到低的顺序输出概率靠前的词语作为预测词语以生成预测文本，以增大文本输出准确性的概率，提高用户输入的效率。

进一步地，所述通过第一卷积神经网络对所述第一词向量进行卷积并经归一化后得到所述第一词向量的第一词向量概率的步骤包括：

通过第一卷积神经网络对所述第一词向量进行卷积并经归一化后捕捉所述第一词向量的短期信息与长期信息以得到第一词向量概率；

所述通过第二卷积神经网络对所述第二词向量进行卷积并经归一化后得到所述第二词向量的第二词向量概率的步骤包括：

通过第二卷积神经网络对所述第二词向量进行卷积并经归一化后捕捉所述第二词向量的短期信息与长期信息以得到第二词向量概率。

具体地，由于文本生成模型设立了多维度的卷积核以捕捉输入文本的局部信息，所述局部信息是指词向量的信息，词向量的信息是指输入文本中包括的词汇序列之间的关联信息，也可以理解为输入文本的序列信息，用来描述输入文本的语境关系，词汇之间的搭配以形成特定含义。比如，对于上述“猫”和“狗”搭配的概率就比“猫”与“爱情”搭配的几率大，再比如，对于中文中的固定成语就体现了对应的语境关系和序列信息，比如，一提到“千里之行”，一般都会搭配“始于足下”这样的文本内容。

在本申请实施例中，词向量的信息包括短期信息与长期信息，短期信息是指预设数量词汇以下的序列信息，短期信息又可以称为短期序列信息，长期信息是指预设数量及预设数量以上词汇之间的序列信息，长期信息有可以称为长期序列信息。比如，短期信息为1个词或者两个词的词汇所体现的文本中的信息，长期信息为3个词、4个词及4个词的词汇体现的文本中的序列信息。通过第一卷积神经网络对所述第一词向量进行卷积并经归一化后捕捉所述第一词向量的短期信息与长期信息以得到第一词向量概率，通过第二卷积神经网络对所述第二词向量进行卷积并经归一化后捕捉所述第二词向量的短期信息与长期信息以得到第二词向量概率，通过卷积神经网络对短息信息与长期信息的捕捉，可以分别充分获取的初始文本与预设预测词汇各自的内部关联性，从而提高预测文本的准确性。

在一个实施例中，所述将所述第三注意力矩阵经归一化后得到第三词向量的步骤之后，还包括：

按照所述第三词向量的概率由高到低筛选出预设数量的第三词向量；

所述将所述第三词向量与预设预测词汇进行匹配以生成预测文本的步骤包括：

将筛选出的所述预设数量的第三词向量与预设预测词汇进行匹配以生成预设数量的预测文本。

具体地，按照预先设置要显示的预测生成文本的数量按照所述第三词向量的概率由高到低筛选出预设数量的第三词向量，然后将筛选出的所述预设数量的第三词向量与预设预测词汇进行匹配以生成预设数量的预测文本。比如，预先设置要生成5个预测词汇，按照所述第三词向量的概率由高到低筛选出5个第三词向量，然后将筛选出的5个第三词向量与预设预测词汇进行匹配以生成5个词汇的预测文本，并将5个预测词汇组成的生成文本进行输出，从而不需要将预测的所有文本全部匹配并输出，减少了数据处理量，提高了文本预测的效率。

在一个实施例中，所述将筛选出的所述预设数量的第三词向量与预设预测词汇进行匹配以生成预设数量的预测文本的步骤之后，还包括：

按照预设方式显示所述预设数量的所述预测文本。

具体地，将生成的预测文本按照对应第三词向量的概率由高到低以横排或者竖排的方式显示。比如，预先设置要生成5个预测词汇，按照所述第三词向量的概率由高到低筛选出5个第三词向量，然后将筛选出的5个第三词向量与预设预测词汇进行匹配以生成5个词汇的预测文本，并将5个预测词汇组成的生成文本进行输出，将生成的5个词汇的预测文本按照对应第三词向量的概率由高到低以横排或者竖排的方式显示。

需要说明的是，上述各个实施例所述的文本生成方法，可以根据需要将不同实施例中包含的技术特征重新进行组合，以获取组合后的实施方案，但都在本申请要求的保护范围之内。

请参阅图6，图6为本申请实施例提供的文本生成装置的示意性框图。对应于上述文本生成方法，本申请实施例还提供一种文本生成装置。如图6所示，该文本生成装置包括用于执行上述文本生成方法的单元，该装置可以被配置于终端或者服务器等计算机设备中。具体地，请参阅图6，该文本生成装置600包括获取单元601、转化单元602、卷积单元603、得到单元604及匹配单元605。

其中，获取单元601，用于获取进行文本生成的初始文本和预设预测词汇；

转化单元602，用于将所述初始文本和所述预设预测词汇分别进行词嵌入以将所述初始文本转化为第一词向量和将所述预设预测词汇转化为第二词向量；

卷积单元603，用于将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵；

得到单元604，用于将所述第一注意力矩阵和所述第二注意力矩阵相乘以得到第三注意力矩阵；

匹配单元605，用于将所述第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本。

请参阅图7，图7为本申请实施例提供的文本生成装置的另一个示意性框图。如图7所示，在该实施例中，所述卷积单元603包括：

第一卷积子单元6031，用于通过第一卷积神经网络对所述第一词向量进行卷积并经归一化后得到所述第一词向量的第一词向量概率；

第二卷积子单元6032，用于通过所述第一卷积神经网络对所述第一词向量进行卷积以得到卷积第一词向量；

第一相乘子单元6033，用于将所述第一词向量概率和所述卷积第一词向量相乘以得到第一注意力矩阵；

第三卷积子单元6034，用于通过第二卷积神经网络对所述第二词向量进行卷积并经归一化后得到所述第二词向量的第二词向量概率；

第一四卷积子单元6035，用于通过所述第二卷积神经网络对所述第二词向量进行卷积以得到卷积第二词向量；

第一相乘子单元6036，用于将所述第二词向量概率和所述卷积第二词向量相乘以得到第二注意力矩阵。

在一个实施例中，所述第一卷积子单元6031，用于通过第一卷积神经网络对所述第一词向量进行卷积并经归一化后捕捉所述第一词向量的短期信息与长期信息以得到第一词向量概率；

第三卷积子单元6034，用于通过第二卷积神经网络对所述第二词向量进行卷积并经归一化后捕捉所述第二词向量的短期信息与长期信息以得到第二词向量概率。

请继续参阅图7，如图7所示，所述匹配单元605包括：

归一化子单元6051，用于将所述第三注意力矩阵经归一化后得到第三词向量；

匹配子单元6053，用于将所述第三词向量与预设预测词汇进行匹配以生成预测文本。

请继续参阅图7，如图7所示，所述匹配单元605还包括：

筛选子单元6052，用于按照所述第三词向量的概率由高到低筛选出预设数量的第三词向量；

所述匹配子单元6053，用于将筛选出的所述预设数量的第三词向量与预设预测词汇进行匹配以生成预设数量的预测文本。

在一个实施例中，所述归一化子单元6051，用于将所述第三注意力矩阵经Softmax函数归一化后得到第三词向量。

请继续参阅图7，如图7所示，所述文本生成装置600还包括：

显示单元606，用于按照预设方式显示所述预设数量的所述预测文本。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述文本生成装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述文本生成装置中各个单元的划分和连接方式仅用于举例说明，在其他实施例中，可将文本生成装置按照需要划分为不同的单元，也可将文本生成装置中各单元采取不同的连接顺序和方式，以完成上述文本生成装置的全部或部分功能。

上述文本生成装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备800可以是台式机电脑或者服务器等计算机设备，也可以是其他设备中的组件或者部件。

参阅图8，该计算机设备800包括通过系统总线801连接的处理器802、存储器和网络接口805，其中，存储器可以包括非易失性存储介质803和内存储器804。

该非易失性存储介质803可存储操作系统8031和计算机程序8032。该计算机程序8032被执行时，可使得处理器802执行一种上述文本生成方法。

该处理器802用于提供计算和控制能力，以支撑整个计算机设备800的运行。

该内存储器804为非易失性存储介质803中的计算机程序8032的运行提供环境，该计算机程序8032被处理器802执行时，可使得处理器802执行一种上述文本生成方法。

该网络接口805用于与其它设备进行网络通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备800的限定，具体的计算机设备800可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图8所示实施例一致，在此不再赘述。

其中，所述处理器802用于运行存储在存储器中的计算机程序8032，以实现如下步骤：获取进行文本生成的初始文本和预设预测词汇；将所述初始文本和所述预设预测词汇分别进行词嵌入以将所述初始文本转化为第一词向量和将所述预设预测词汇转化为第二词向量；将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵；将所述第一注意力矩阵和所述第二注意力矩阵相乘以得到第三注意力矩阵；将所述第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本。

在一实施例中，所述处理器802在实现所述将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵的步骤时，具体实现以下步骤：

通过第一卷积神经网络对所述第一词向量进行卷积并经归一化后得到所述第一词向量的第一词向量概率；

通过所述第一卷积神经网络对所述第一词向量进行卷积以得到卷积第一词向量；

将所述第一词向量概率和所述卷积第一词向量相乘以得到第一注意力矩阵；

通过第二卷积神经网络对所述第二词向量进行卷积并经归一化后得到所述第二词向量的第二词向量概率；

通过所述第二卷积神经网络对所述第二词向量进行卷积以得到卷积第二词向量；

将所述第二词向量概率和所述卷积第二词向量相乘以得到第二注意力矩阵。

在一实施例中，所述处理器802在实现所述通过第一卷积神经网络对所述第一词向量进行卷积并经归一化后得到所述第一词向量的第一词向量概率的步骤时，具体实现以下步骤：

所述处理器802在实现所述通过第二卷积神经网络对所述第二词向量进行卷积并经归一化后得到所述第二词向量的第二词向量概率的步骤时，具体实现以下步骤：

在一实施例中，所述处理器802在实现所述将所述第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本的步骤时，具体实现以下步骤：

将所述第三注意力矩阵经归一化后得到第三词向量；

将所述第三词向量与预设预测词汇进行匹配以生成预测文本。

在一实施例中，所述处理器802在实现所述将所述第三注意力矩阵经归一化后得到第三词向量的步骤之后，还实现以下步骤：

所述处理器802在实现将所述第三词向量与预设预测词汇进行匹配以生成预测文本的步骤时，具体实现以下步骤：

在一实施例中，所述处理器802在实现所述将所述第三注意力矩阵经归一化后得到第三词向量步骤时，具体实现以下步骤：

将所述第三注意力矩阵经Softmax函数归一化后得到第三词向量。

在一实施例中，所述处理器802在实现所述将筛选出的所述预设数量的第三词向量与预设预测词汇进行匹配以生成预设数量的预测文本的步骤之后，还实现以下步骤：

按照预设方式显示所述预设数量的所述预测文本。

应当理解，在本申请实施例中，处理器802可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器802还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来完成，该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行如下步骤：

一种计算机程序产品，当其在计算机上运行时，使得计算机执行以上各实施例中所描述的文本生成方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本生成方法，其特征在于，所述方法包括：

获取进行文本生成的初始文本和预设预测词汇；

将所述初始文本和所述预设预测词汇分别进行词嵌入以将所述初始文本转化为第一词向量和将所述预设预测词汇转化为第二词向量；

将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵；

将所述第一注意力矩阵和所述第二注意力矩阵相乘以得到第三注意力矩阵；

将所述第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本。

2.根据权利要求1所述文本生成方法，其特征在于，所述将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵的步骤包括：

3.根据权利要求2所述文本生成方法，其特征在于，所述通过第一卷积神经网络对所述第一词向量进行卷积并经归一化后得到所述第一词向量的第一词向量概率的步骤包括：

4.根据权利要求1-3任一项所述文本生成方法，其特征在于，所述将所述第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本的步骤包括：

将所述第三注意力矩阵经归一化后得到第三词向量；

5.根据权利要求4所述文本生成方法，其特征在于，所述将所述第三注意力矩阵经归一化后得到第三词向量的步骤之后，还包括：

6.根据权利要求4所述文本生成方法，其特征在于，所述将所述第三注意力矩阵经归一化后得到第三词向量的步骤包括：

7.根据权利要求5所述文本生成方法，其特征在于，所述将筛选出的所述预设数量的第三词向量与预设预测词汇进行匹配以生成预设数量的预测文本的步骤之后，还包括：

按照预设方式显示所述预设数量的所述预测文本。

8.一种文本生成装置，其特征在于，包括：

获取单元，用于获取进行文本生成的初始文本和预设预测词汇；

转化单元，用于将所述初始文本和所述预设预测词汇分别进行词嵌入以将所述初始文本转化为第一词向量和将所述预设预测词汇转化为第二词向量；

卷积单元，用于将所述第一词向量和所述第二词向量分别通过对应的卷积神经网络获得所述第一词向量的第一注意力矩阵和所述第二词向量的第二注意力矩阵；

得到单元，用于将所述第一注意力矩阵和所述第二注意力矩阵相乘以得到第三注意力矩阵；

匹配单元，用于将所述第三注意力矩阵经归一化后与预设预测词汇进行匹配以生成预测文本。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器以及与所述存储器相连的处理器；所述存储器用于存储计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如权利要求1-7任一项所述文本生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7中任一项所述文本生成方法的步骤。