CN111241789A - 一种文本生成的方法及装置 - Google Patents
一种文本生成的方法及装置 Download PDFInfo
- Publication number
- CN111241789A CN111241789A CN202010038172.3A CN202010038172A CN111241789A CN 111241789 A CN111241789 A CN 111241789A CN 202010038172 A CN202010038172 A CN 202010038172A CN 111241789 A CN111241789 A CN 111241789A
- Authority
- CN
- China
- Prior art keywords
- initial
- text data
- hidden
- hidden space
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本生成的方法及装置,涉及数据处理技术领域,为解决现有技术中根据已有模型生成的目标文本不准确的问题而发明。该方法主要包括:获取初始文本数据;根据预置BERT语言模型,计算所述初始文本数据的变分自编码器的隐藏空间参数;以所述初始文本数据、所述隐藏空间参数和初始控制条件为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器;以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的目标语句。本发明主要应用于相似文本扩展的过程中。
Description
技术领域
本发明涉及一种数据处理技术领域,特别是涉及一种文本生成的方法及装置。
背景技术
生成文本是结构化过程中的文本,结构化表现出来的形式即现象文本,通常以可读性和可控性判断生成文本的质量。其中,可读性是指生成文本具有符合人类自然语言规范的句子并且句子的意思清晰,可控性是指能够根据事先设定的参数生成想要的目标句子能够根据参数的调节来改变句子的语义。
现有的文本生成方案通常分成基于规则的文本生成和基于神经网络的文本生成。基于规则的生成方式通常是通过人工指定一些规则通过同义词替换、词性分析等方法,这样生成的文本可控性比较好但是可读性比较差且扩展性弱,需要大量的人工特征工程。基于神经网络的方式主要分为使用GAN和使用VAE的文本生成,由于文本是离散字符组成,因此是不可导的如果使用GAN常用的方法是使用强化学习来实现反向传播但是这样的问题是方差比较大影响效果,而另一种基于VAE的方法被认为在文本生成方面更友好。
VAE(Variational Auto-Encoder)和GAN(Ganerative Adversarial Networks)都是生成模型(Generative model)。所谓生成模型,即能生成样本的模型。将训练集中的数据点看作是某个随机分布抽样出来的样本,比如:MNIST手写体样本,可以将每一幅图像看作是随机分布p(x)p(x)的抽样。如果能够得到类似的随机模型,那么能够无限制地生成样本。但随机分布p(x)p(x),需要通过对训练集的学习来得到它,或者逼近它。要逼近一个随机分布,其基本思想是:将一个已知的,可控的随机分布q(z)q(z)映射到目标随机分布p(x)p(x)上。变分自编码器是深度学习领域中典型的生成模型,属于Encoder-Decoder模型结构。
现有技术中,采用根据文本应用场景获取文本语料,生成文本语料集,然后从文本语料中获取对齐语料,将对齐语料作为seq2seq模型的训练语料,对齐语料为表达内容相同但是标识不同情感的文本语料,再将训练语料输入seq2seq模型,以对seq2seq模型进行情感风格转换训练,再根据应用场景获取目标文本,将目标文本输入已训练的seq2seq模型,得到相应情感风格的转换语料。其中seq2seq模型是Encoder-Decoder模型结构。
现有技术中直接将应用场景获取的文本语料获取文本语料集做为训练语料,在实际应用中训练语料数据具有局限性,不能据此训练出具有一般意义的seq2seq模型,导致在转换情感风格时转换语料不能准确反映应用场景下的方案,也就是根据已有模型生成的目标文本不准确,与应用场景实际对应的情感风格差距较大。
发明内容
有鉴于此,本发明提供一种文本生成的方法及装置,主要目的在于解决现有技术中根据已有模型生成的目标文本不准确的问题。
依据本发明一个方面,提供了一种文本生成的方法,包括:
获取初始文本数据;
根据预置BERT语言模型,计算所述初始文本数据的变分自编码器的隐藏空间参数;
以所述初始文本数据、所述隐藏空间参数和初始控制条件为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器;
以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的目标语句。
依据本发明另一个方面,提供了一种文本生成的装置,包括:
获取模块,用于获取初始文本数据;
计算模块,用于根据预置BERT语言模型,计算所述初始文本数据的变分自编码器的隐藏空间参数;
训练模块,用于以所述初始文本数据、所述隐藏空间参数和初始控制条件为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器;
生成模块,用于以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的目标语句。
根据本发明的又一方面,提供了一种计算机存储介质,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述文本生成的方法对应的操作。
根据本发明的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文本生成的方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供了一种文本生成的方法及装置,首先获取初始文本数据,然后根据预置BERT语言模型,计算初始文本数据的变分自编码器的隐藏空间参数,再以初始文本数据、隐藏空间参数和初始控制条件为输入数据,以在初始控制条件下与初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练LSTM解码器,最后以待测语句和目标控制条件为LSTM解码器的输入数据,生成所述待测语句的目标语句。与现有技术相比,本发明实施例通过利用预置BERT语音模型抓取初始文本数据中的句子的语法特征和语义特征,以获取丰富的句子表征信息,将句子表征信息通过变分自编码器获取隐藏空间参数,并通过控制条件的方式生成待测语句的目标语句,目标语句具备较好的文本表示并具有可控制性,能准确以控制条件表达所需的情感风格、相似语义、相似句式等应用场景。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本生成的方法流程图;
图2示出了本发明实施例提供的另一种文本生成的方法流程图;
图3示出了本发明实施例提供的一种文本生成的装置组成框图;
图4示出了本发明实施例提供的另一种文本生成的装置组成框图;
图5示出了本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的目的在于,以意图作为控制条件,生成给定意图的语句,可以用于扩展智能问答知识库的数据。本发明实施例提供了一种文本生成的方法,如图1所示,该方法包括:
101、获取初始文本数据。
102、根据预置BERT语言模型,计算所述初始文本数据的变分自编码器的隐藏空间参数。
变分自编码器,是一种非监督式学习的神经网络模型,采用原始数据作为输入和输出,含有一个数量小于输入输出的隐藏层,使用seq2seq结构,将文本句子编码到隐藏空间,在编码完成后能通过解码器解出文本句子。从初始文本数据到隐藏层,在神经网络模型中神经元数量下降,该过程为编码过程。隐藏层的目的是实现提取初始文本数据的主要成分,隐藏空间参数是指初始文本数据的特征参数。
在计算初始文本数据的隐藏空间参数之前,通过预置BERT语言模型将初始文本数据通过变分自编码器映射到隐藏空间,其映射过程为预置BERT语言模型的pooled_output连接两个全连接层分别学习隐藏空间的参数均值和标准差。在映射过程,可以设置较低的学习率,例如5E-5。
103、以所述初始文本数据、所述隐藏空间参数和初始控制条件为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器。
从隐藏层到输出层,神经元的数量上升,被称为解码器,也就是生成模型。在本发明实施例中生成模型是LSTM解码器,LSTM解码器是为处理自然语言处理问题而开发的。为了后续使用LSTM解码器,需要通过初始文本数据、隐藏空间参数、初始控制条件,以及在初始控制条件在初始文本数据生成的实际语句,训练LSTM解码器。在编码部分由于隐藏层数量小于输入,所以会对数据进行压缩,之后在解码部分输出神经元数量大于隐藏层,压缩后的隐藏层相互组合重现原始输出。在训练LSTM解码器的过程中,为了最小化训练误差,采用时序性倒传递算法,依据错误修改训练权重,以使得以初始文本数据、隐藏空间参数和初始控制条件通过LSTM解码器,能够生成在初始控制条件下雨初始文本数据相对应的控制语句。
控制条件是指通过设定标注文本的类别信息与变分后的特征控制文本生成的语义和风格,控制条件是指计算机能够识别的用数字化表达的意图。意图是指实际应用场景中的使用目的,比如办理业务、咨询业务、投诉业务等等。为了训练LSTM解码器,针对初始文本数据,可以认为的设置初始控制条件以及初始控制条件对应的实际语句,以使得LSTM解码器能够生成可控性较高的文本。
104、以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的目标语句。
在生成待测语句的目标语句的过程中,不设置隐藏空间参数,减少对目标语句的限定,使得目标语句更符合待测语句和控制条件的目标要求。目标控制条件,可以为在实际应用场景的使用目的,比如办理业务。目标控制条件是指计算机能够识别的用数字化表达的意图。
通过LSTM解码器,可以生成“12|月|份|推|荐|好|友|的|30|元|为|什|么|一|直|没|到|账”、“181|天|的|定|期|什|么|时|间|发|售”、“155|##64|##93|##15|##91|注|册|的|推|荐|人|手|机|尾|号|是|250|##1|吗”,通过生成例子可以看出本方案可以得到比较通顺的句子,通过对控制条件的训练可以在解码过程中,根据目标控制条件生成相应风格的句子。
本发明提供了一种文本生成的方法,首先获取初始文本数据,然后根据预置BERT语言模型,计算初始文本数据的变分自编码器的隐藏空间参数,再以初始文本数据、隐藏空间参数和初始控制条件为输入数据,以在初始控制条件下与初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练LSTM解码器,最后以待测语句和目标控制条件为LSTM解码器的输入数据,生成所述待测语句的目标语句。与现有技术相比,本发明实施例通过利用预置BERT语音模型抓取初始文本数据中的句子的语法特征和语义特征,以获取丰富的句子表征信息,将句子表征信息通过变分自编码器获取隐藏空间参数,并通过控制条件的方式生成待测语句的目标语句,目标语句具备较好的文本表示并具有可控制性,能准确以控制条件表达所需的情感风格、相似语义、相似句式等应用场景。
本发明实施例提供了另一种文本生成的方法,如图2所示,该方法包括:
201、获取初始文本数据。
初始文本数据可以是随机获取的文本数据,也可以是与应用场景相关的文本数据,还可以是特定应用场景下的用户录入的文本数据,在本发明实施例中对初始文本数据的来源不做限定。示例性的,初始文本数据可以是智能问答知识库数据中的句子。初始文本数据中的句子数量不做限定,在每个句子中可能包括汉字、英文字母、拼音符号、或阿拉伯数字。
202、根据预置BERT语言模型,将所述初始文本数据通过所述变分自编码器映射到隐藏空间,获取所述隐藏空间的隐藏空间参数。
变分自编码器,是一种非监督式学习的神经网络模型,采用原始数据作为输入和输出,含有一个数量小于输入输出的隐藏层,使用seq2seq结构,将文本句子编码到隐藏空间,在编码完成后能通过解码器解出文本句子。获取隐藏空间参数,具体包括:以所述初始文本数据为所述预置BERT语言模型的输入,获取所述初始文本数据中各个句子的句向量,所述句向量包括字向量和位置向量;以所述句向量为变分自编码器的学习参数,将所述初始文本数据映射到隐藏空间,所述隐藏空间是正态分布空间;查找所述隐藏空间的隐藏空间参数,所述隐藏空间参数包括所述初始文本数据的参数均值和标准差。在获取初始文本数据中各个句子的句向量时,采用预置BERT语言模型中的字向量表。
变分自编码器采用神经网络结构,所以在使用之前,还需要对其进行训练,在本发明实施例中对其训练过程不再赘述。在映射过程,可以设置较低的学习率,例如5E-5。
203、在所述隐藏空间进行高斯重采样,重构所述隐藏空间参数。
重构隐藏空间参数,本质上就是在变分自编码器的基础上,对输出的隐藏空间参数加上“高斯噪声”,使得解码时能够增加对噪声的鲁棒性。在隐藏空间进行高斯重采样,重新获取隐藏空间参数,新的隐藏空间参数是后续训练LSTM解码器的输入数据。
204、获取所述隐藏空间的空间维度。
空间维度是指表征隐藏空间的数据种类,示例性的,用均值和标准差两种数据表示隐藏空间,那么其空间维度的数量就是2。
205、按照所述空间维度,拼接所述隐藏空间参数和所述初始控制条件,生成所述LSTM解码器的隐藏初始输入。
为了更好的训练LSTM解码器,在训练之前对部分训练数据进行特定处理,拼接隐藏空间参数和初始控制条件生成隐藏初始输入。生成隐藏初始输入具体包括:将所述隐藏空间参数,映射到隐藏张量;将所述初始控制条件转换为意图张量,所述意图张量的意图维度与所述隐藏张量的维度相同;拼接所述隐藏张量和所述意图张量,生成所述LSTM解码器的隐藏初始输入。
示例性的,隐藏空间的空间维度为H,初始文本数据中的句子数量为M,初始控制条件中的意图为N,随机定义一个大小为[N,H]的张量,其中每个意图对于一个H张量,将该意图的张罗和重构后的隐藏空间参数的H张量进行拼接,得到LSTM解码器的隐藏初始输入。
206、以所述隐藏初始输入和所述初始文本数据为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器。
在训练LSTM解码器的过程中,为了最小化训练误差,采用时序性倒传递算法,依据错误修改训练权重,以使得以初始文本数据、隐藏空间参数和初始控制条件通过LSTM解码器,能够生成在初始控制条件下雨初始文本数据相对应的控制语句。
为了保证编码和解码的结果处于相同的空间,在LSTM解码器中采用的字向量表,与变分自编码器中采用的字向量表相同。为了是编码和解码过程取得同步,对解码过程设置较大的学习率,以保证编码部分的尽可能存在较小的改动,与编码过程设置较低的5E-5学习率相对应,在训练LSTM解码器的过程中学习率可为0.01。
由于解码过程中设置较小的学习率,采用将KL误差系数关联到训练过程中的全局步骤中,随着全局步骤数量的增大,KL误差系数逐渐增加到1之后不再增加,以防止减小KL误差系数降低带来的KL散度下降过快,导致LSTM解码器与隐藏空间脱钩不受控制。
207、以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的目标语句。
在生成待测语句的目标语句的过程中,不设置隐藏空间参数,减少对目标语句的限定,使得目标语句更符合待测语句和控制条件的目标要求。目标控制条件,可以为在实际应用场景的使用目的,比如办理业务。目标控制条件是指计算机能够识别的用数字化表达的意图。
当目标控制条件为待测语句的控制条件时,以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的相似语句,所述目标控制条件为所述待测语句的控制条件。
本发明提供了一种文本生成的方法,首先获取初始文本数据,然后根据预置BERT语言模型,计算初始文本数据的变分自编码器的隐藏空间参数,再以初始文本数据、隐藏空间参数和初始控制条件为输入数据,以在初始控制条件下与初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练LSTM解码器,最后以待测语句和目标控制条件为LSTM解码器的输入数据,生成所述待测语句的目标语句。与现有技术相比,本发明实施例通过利用预置BERT语音模型抓取初始文本数据中的句子的语法特征和语义特征,以获取丰富的句子表征信息,将句子表征信息通过变分自编码器获取隐藏空间参数,并通过控制条件的方式生成待测语句的目标语句,目标语句具备较好的文本表示并具有可控制性,能准确以控制条件表达所需的情感风格、相似语义、相似句式等应用场景。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种文本生成的装置,如图3所示,该装置包括:
获取模块31,用于获取初始文本数据;
计算模块32,用于根据预置BERT语言模型,计算所述初始文本数据的变分自编码器变分自编码器的隐藏空间参数;
训练模块33,用于以所述初始文本数据、所述隐藏空间参数和初始控制条件为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器;
生成模块34,用于以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的目标语句。
本发明提供了一种文本生成的装置,首先获取初始文本数据,然后根据预置BERT语言模型,计算初始文本数据的变分自编码器的隐藏空间参数,再以初始文本数据、隐藏空间参数和初始控制条件为输入数据,以在初始控制条件下与初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练LSTM解码器,最后以待测语句和目标控制条件为LSTM解码器的输入数据,生成所述待测语句的目标语句。与现有技术相比,本发明实施例通过利用预置BERT语音模型抓取初始文本数据中的句子的语法特征和语义特征,以获取丰富的句子表征信息,将句子表征信息通过变分自编码器获取隐藏空间参数,并通过控制条件的方式生成待测语句的目标语句,目标语句具备较好的文本表示并具有可控制性,能准确以控制条件表达所需的情感风格、相似语义、相似句式等应用场景。
进一步的,作为对上述图2所示方法的实现,本发明实施例提供了另一种文本生成的装置,如图4所示,该装置包括:
获取模块41,用于获取初始文本数据;
计算模块42,用于根据预置BERT语言模型,计算所述初始文本数据的变分自编码器变分自编码器的隐藏空间参数;
训练模块43,用于以所述初始文本数据、所述隐藏空间参数和初始控制条件为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器;
生成模块44,用于以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的目标语句。
进一步地,所述计算模块42,包括:
获取单元421,用于根据预置BERT语言模型,将所述初始文本数据通过所述变分自编码器映射到隐藏空间,获取所述隐藏空间的隐藏空间参数;
重构单元422,用于在所述隐藏空间进行高斯重采样,重构所述隐藏空间参数。
进一步地,所述获取单元421,包括:
获取子单元4211,用于以所述初始文本数据为所述预置BERT语言模型的输入,获取所述初始文本数据中各个句子的句向量,所述句向量包括字向量和位置向量;
映射子单元4212,用于以所述句向量为变分自编码器的学习参数,将所述初始文本数据映射到隐藏空间,所述隐藏空间是正态分布空间;
查找子单元4213,用于查找所述隐藏空间的隐藏空间参数,所述隐藏空间参数包括所述初始文本数据的参数均值和标准差。
进一步地,所述训练模块43,包括:
获取单元431,用于获取所述隐藏空间的空间维度;
拼接单元432,用于按照所述空间维度,拼接所述隐藏空间参数和所述初始控制条件,生成所述LSTM解码器的隐藏初始输入;
训练单元433,用于以所述隐藏初始输入和所述初始文本数据为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器。
进一步地,所述拼接单元432,包括:
映射子单元4321,用于将所述隐藏空间参数,映射到隐藏张量;
转换子单元4322,用于将所述初始控制条件转换为意图张量,所述意图张量的意图维度与所述隐藏张量的维度相同;
拼接子单元4323,用于拼接所述隐藏张量和所述意图张量,生成所述LSTM解码器的隐藏初始输入。
进一步地,生成模块44,用于:
以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的相似语句,所述目标控制条件为所述待测语句的控制条件。
进一步地,所述变分自编码器和所述LSTM解码器采用相同的字向量表。
本发明提供了一种文本生成的装置,首先获取初始文本数据,然后根据预置BERT语言模型,计算初始文本数据的变分自编码器的隐藏空间参数,再以初始文本数据、隐藏空间参数和初始控制条件为输入数据,以在初始控制条件下与初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练LSTM解码器,最后以待测语句和目标控制条件为LSTM解码器的输入数据,生成所述待测语句的目标语句。与现有技术相比,本发明实施例通过利用预置BERT语音模型抓取初始文本数据中的句子的语法特征和语义特征,以获取丰富的句子表征信息,将句子表征信息通过变分自编码器获取隐藏空间参数,并通过控制条件的方式生成待测语句的目标语句,目标语句具备较好的文本表示并具有可控制性,能准确以控制条件表达所需的情感风格、相似语义、相似句式等应用场景。
根据本发明一个实施例提供了一种计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本生成的方法。计算机存储介质包括但不限于NandFlash、NorFlash、非易失性存储器(ROM、Flashmemory)、寄存器、缓存和内存。
图5示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图5所示,该计算机设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述文本生成的方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
获取初始文本数据;
根据预置BERT语言模型,计算所述初始文本数据的变分自编码器的隐藏空间参数;
以所述初始文本数据、所述隐藏空间参数和初始控制条件为训练数据,训练长短期记忆网络LSTM解码器;
以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的目标语句。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种文本生成的方法,其特征在于,包括:
获取初始文本数据;
根据预置BERT语言模型,计算所述初始文本数据的变分自编码器的隐藏空间参数;
以所述初始文本数据、所述隐藏空间参数和初始控制条件为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器;
以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的目标语句。
2.如权利要求1所述的方法,其特征在于,所述根据预置BERT语言模型,计算所述初始文本数据的变分自编码器的隐藏空间参数,包括:
根据预置BERT语言模型,将所述初始文本数据通过所述变分自编码器映射到隐藏空间,获取所述隐藏空间的隐藏空间参数;
在所述隐藏空间进行高斯重采样,重构所述隐藏空间参数。
3.如权利要求2所述的方法,其特征在于,所述根据预置BERT语言模型,将所述初始文本数据通过所述变分自编码器映射到隐藏空间,获取所述隐藏空间的隐藏空间参数,包括:
以所述初始文本数据为所述预置BERT语言模型的输入,获取所述初始文本数据中各个句子的句向量,所述句向量包括字向量和位置向量;
以所述句向量为变分自编码器的学习参数,将所述初始文本数据映射到隐藏空间,所述隐藏空间是正态分布空间;
查找所述隐藏空间的隐藏空间参数,所述隐藏空间参数包括所述初始文本数据的参数均值和标准差。
4.如权利要求2所述的方法,其特征在于,所述以所述初始文本数据、所述隐藏空间参数和初始控制条件为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器,包括:
获取所述隐藏空间的空间维度;
按照所述空间维度,拼接所述隐藏空间参数和所述初始控制条件,生成所述LSTM解码器的隐藏初始输入;
以所述隐藏初始输入和所述初始文本数据为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器。
5.如权利要求4所述的方法,其特征在于,所述按照所述空间维度,拼接所述隐藏空间参数和所述初始控制条件,生成所述LSTM解码器的隐藏初始输入,包括:
将所述隐藏空间参数,映射到隐藏张量;
将所述初始控制条件转换为意图张量,所述意图张量的意图维度与所述隐藏张量的维度相同;
拼接所述隐藏张量和所述意图张量,生成所述LSTM解码器的隐藏初始输入。
6.如权利要求1所述的方法,其特征在于,以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的目标语句,包括:
以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的相似语句,所述目标控制条件为所述待测语句的控制条件。
7.如权利要求1-6任一项所述的方法,其特征在于,所述变分自编码器和所述LSTM解码器采用相同的字向量表。
8.一种文本生成的装置,其特征在于,包括:
获取模块,用于获取初始文本数据;
计算模块,用于根据预置BERT语言模型,计算所述初始文本数据的变分自编码器的隐藏空间参数;
训练模块,用于以所述初始文本数据、所述隐藏空间参数和初始控制条件为输入数据,以在所述初始控制条件下与所述初始文本数据相对应的控制语句为输出数据,采用时序性倒传递算法,修正训练长短期记忆网络LSTM解码器的权重,以训练所述LSTM解码器;
生成模块,用于以待测语句和目标控制条件为所述LSTM解码器的输入数据,生成所述待测语句的目标语句。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的文本生成的方法对应的操作。
10.一种计算机设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的文本生成的方法对应的操作。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038172.3A CN111241789A (zh) | 2020-01-14 | 2020-01-14 | 一种文本生成的方法及装置 |
PCT/CN2020/093450 WO2021143022A1 (zh) | 2020-01-14 | 2020-05-29 | 一种文本生成的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038172.3A CN111241789A (zh) | 2020-01-14 | 2020-01-14 | 一种文本生成的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111241789A true CN111241789A (zh) | 2020-06-05 |
Family
ID=70874506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010038172.3A Withdrawn CN111241789A (zh) | 2020-01-14 | 2020-01-14 | 一种文本生成的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111241789A (zh) |
WO (1) | WO2021143022A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287641A (zh) * | 2020-12-25 | 2021-01-29 | 上海旻浦科技有限公司 | 一种同义句生成方法、系统、终端及存储介质 |
CN113420129A (zh) * | 2021-05-08 | 2021-09-21 | 天津大学 | 一种基于大型通用预训练模型控制对话生成的方法 |
CN113656573A (zh) * | 2021-08-27 | 2021-11-16 | 北京大数医达科技有限公司 | 文本信息生成方法、装置、终端设备 |
CN115811630A (zh) * | 2023-02-09 | 2023-03-17 | 成都航空职业技术学院 | 一种基于人工智能的教育信息化方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569016B (zh) * | 2021-09-27 | 2022-01-25 | 北京语言大学 | 一种基于Bert模型的专业术语提取方法及装置 |
CN113704480B (zh) * | 2021-11-01 | 2022-01-25 | 成都我行我数科技有限公司 | 一种智能最小库存量单位匹配方法 |
CN116432663B (zh) * | 2023-06-12 | 2023-10-13 | 山东山大鸥玛软件股份有限公司 | 基于要素简图的可控多样性专业文本生成方法及系统 |
CN116597049B (zh) * | 2023-07-17 | 2023-10-31 | 北京奇虎科技有限公司 | 文本生成方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959256A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 短文本的生成方法、装置、存储介质和终端设备 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN109582952A (zh) * | 2018-10-31 | 2019-04-05 | 腾讯科技(深圳)有限公司 | 诗歌生成方法、装置、计算机设备和介质 |
CN110427490A (zh) * | 2019-07-03 | 2019-11-08 | 华中科技大学 | 一种基于自注意力机制的情感对话生成方法与装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885111B2 (en) * | 2018-04-16 | 2021-01-05 | International Business Machines Corporation | Generating cross-domain data using variational mapping between embedding spaces |
CN109271629B (zh) * | 2018-09-07 | 2023-07-14 | 中山大学 | 基于强化学习的生成式文本摘要方法 |
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
CN110210032B (zh) * | 2019-05-31 | 2023-10-31 | 鼎富智能科技有限公司 | 文本处理方法及装置 |
CN110188331B (zh) * | 2019-06-03 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 模型训练方法、对话系统评价方法、装置、设备及存储介质 |
-
2020
- 2020-01-14 CN CN202010038172.3A patent/CN111241789A/zh not_active Withdrawn
- 2020-05-29 WO PCT/CN2020/093450 patent/WO2021143022A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959256A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 短文本的生成方法、装置、存储介质和终端设备 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN109582952A (zh) * | 2018-10-31 | 2019-04-05 | 腾讯科技(深圳)有限公司 | 诗歌生成方法、装置、计算机设备和介质 |
CN110427490A (zh) * | 2019-07-03 | 2019-11-08 | 华中科技大学 | 一种基于自注意力机制的情感对话生成方法与装置 |
Non-Patent Citations (1)
Title |
---|
彭叶红: "基于主题模型与变分自编码的情感对话生成技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287641A (zh) * | 2020-12-25 | 2021-01-29 | 上海旻浦科技有限公司 | 一种同义句生成方法、系统、终端及存储介质 |
CN113420129A (zh) * | 2021-05-08 | 2021-09-21 | 天津大学 | 一种基于大型通用预训练模型控制对话生成的方法 |
CN113656573A (zh) * | 2021-08-27 | 2021-11-16 | 北京大数医达科技有限公司 | 文本信息生成方法、装置、终端设备 |
CN113656573B (zh) * | 2021-08-27 | 2024-02-06 | 北京大数医达科技有限公司 | 文本信息生成方法、装置、终端设备 |
CN115811630A (zh) * | 2023-02-09 | 2023-03-17 | 成都航空职业技术学院 | 一种基于人工智能的教育信息化方法 |
CN115811630B (zh) * | 2023-02-09 | 2023-05-02 | 成都航空职业技术学院 | 一种基于人工智能的教育信息化方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021143022A1 (zh) | 2021-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241789A (zh) | 一种文本生成的方法及装置 | |
US11386271B2 (en) | Mathematical processing method, apparatus and device for text problem, and storage medium | |
CN111143540B (zh) | 智能问答方法、装置、设备及存储介质 | |
CN110134968B (zh) | 基于深度学习的诗歌生成方法、装置、设备及存储介质 | |
Kreyssig et al. | Neural user simulation for corpus-based policy optimisation for spoken dialogue systems | |
CN110428820B (zh) | 一种中英文混合语音识别方法及装置 | |
CN111161740A (zh) | 意图识别模型训练方法、意图识别方法以及相关装置 | |
CN112463942B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
US11636272B2 (en) | Hybrid natural language understanding | |
JP2021033995A (ja) | テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体 | |
US11481609B2 (en) | Computationally efficient expressive output layers for neural networks | |
CN114445832A (zh) | 基于全局语义的文字图像识别方法、装置及计算机设备 | |
CN115906815A (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
Mathur et al. | A scaled‐down neural conversational model for chatbots | |
CN113822044B (zh) | 语法纠错数据生成方法、装置、计算机设备及存储介质 | |
CN111125323A (zh) | 一种聊天语料标注方法、装置、电子设备及存储介质 | |
CN112417118B (zh) | 一种基于标记文本和神经网络的对话生成方法 | |
CN117746186A (zh) | 低秩自适应模型的训练方法、文本生成图像方法、系统 | |
CN111048065A (zh) | 文本纠错数据生成方法及相关装置 | |
CN115238052A (zh) | 模型生成方法、对话生成方法、装置以及电子设备 | |
CN110442706B (zh) | 一种文本摘要生成的方法、系统、设备及存储介质 | |
CN110909142B (zh) | 一种问答模型的问题语句处理方法、装置、电子设备及存储介质 | |
CN113553837A (zh) | 阅读理解模型的训练方法和装置、文本分析的方法和装置 | |
CN112685543A (zh) | 一种基于文本回答问题的方法及装置 | |
Nie et al. | Graph neural net-based user simulator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200605 |
|
WW01 | Invention patent application withdrawn after publication |