CN112163404A

CN112163404A - 一种文本生成方法、装置、电子设备及存储介质

Info

Publication number: CN112163404A
Application number: CN202010865407.6A
Authority: CN
Inventors: 孙海峰; 熊永平; 尚学军; 戚艳; 谈元鹏
Original assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; State Grid Tianjin Electric Power Co Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2021-01-01
Anticipated expiration: 2040-08-25
Also published as: CN112163404B

Abstract

本说明书一个或多个实施例提供一种基于关键词生成文本的语言生成方法。本方法从关键词生成文本包括以下步骤：收集句子并将句子进行分词和关键词提取，形成训练语料；基于收集的语料数据，使用传统的seq2seq模型进行训练获得由关键词生成粗粒度文本的模型；对粗粒度文本进行改写，改写时首先将文本中遗漏的关键词添加到文本中得到第一重构文本，然后通过插入操作或删除操作对第一重构文本进行处理得到第二重构文本，并利用语言模型对第二重构文本评价是否合理通顺；选择语句最通顺的第二重构文本作为与细粒度文本，从而保证生成的细粒度文本为最优文本，其中，生成的细粒度文本不仅文本流畅度高，而且表达内容精确。

Description

一种文本生成方法、装置、电子设备及存储介质

技术领域

本说明书一个或多个实施例涉及自然语言生成方法技术领域，尤其涉及一种文本生成方法、装置、电子设备及存储介质。

背景技术

文本生成，也可以称为文本自动生成，指计算机自动生成类似自然语言的文本。主流的方法要么依赖人工定义的模板、要么基于深度学习中神经翻译模型实现。前者需要耗费大量的人力对模版进行定义，而后者往往不能对保证生成的结果质量，均无法在广泛进行推广。本发明旨在现有技术的基础上，依据深度学习技术实现一种对生成内容质量有保障的通用技术，该技术不需要针对领域知识图谱进行训练，所生成的文本不仅考虑文本流畅度，同时考虑文本内容是否覆盖所需表达的内容。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种文本生成方法，以解决文本生成内容不准确、文本不流畅的问题。

基于上述目的，本申请中一个或多个实施例提供了一种文本生成方法，包括：

获取若干关键词，将若干所述关键词输入预先训练的粗粒度文本生成模型，得到若干所述关键词对应的粗粒度文本；

确定未出现在粗粒度文本中的至少一个所述关键词；

根据所述粗粒度文本和至少一个所述关键词，得到若干第一重构文本；

对于每个所述第一重构文本均进行改写处理，以得到若干第二重构文本；

对于每个所述第一重构文本均执行改写处理，以得到若干第二重构文本；将若干所述第二重构文本输入预先训练的评估模型，得到若干所述第二重构文本分别对应的合理性数值，并将合理性数值最高的所述第二重构文本作为与所述遗漏关键词对应的细粒度文本。

作为一种可选的实施方式，根据所述粗粒度文本和至少一个所述关键词，得到若干第一重构文本，具体包括：

根据所述粗粒度文本，确定若干插入位置；

将至少一个所述遗漏关键词分别插入每个所述插入位置，以得到若干所述第一重构文本。

作为一种可选的实施方式，将至少一个所述遗漏关键词分别插入每个所述插入位置，以得到若干所述第一重构文本，具体包括：

将所述遗漏关键词分别添加到所述粗粒度文本的所有位置，其中，所述遗漏关键词的个数为M，所述粗粒度文本的长度为N；

所述将至少一个所述遗漏关键词分别插入每个所述插入位置，以得到若干所述第一重构文本，具体包括：

将所述粗粒度文本的句首、句尾以及每两个词间的位置，确定为所述插入位置，以得到N+1个所述插入位置；

选择一个所述遗漏关键词分别添加到所有所述插入位置，得到N+1个添加结果；对于每个所述添加结果均执行确定所述插入位置，以及将另一所述遗漏关键词分别添加到所有所述插入位置的步骤；

重复执行上述步骤，直至全部所述遗漏关键词均添加到所述粗粒度句子中，并得到

个第一重构文本。

作为一种可选的实施方式，对于每个所述第一重构文本均执行改写处理，以得到若干所述第二重构文本，具体包括：

对每个所述第一重构文本均执行插入操作或删除操作；其中，

所述插入操作，随机选取所述第一重构文本的插入位置，根据条件概率公式在所有备选词汇中抽取一个概率最大的词，插入到所述位置，以得到一个所述第二重构文本；

所述删除操作，对生成的每一个所述第一重构文本执行随机采样位置执行删除，以得到一个所述第二重构文本。

可选的，对生成的每一个所述第一重构文本执行随机采样删除，包括：

所述删除操作执行时不删除所述关键词所在位置的词。

其中，删除操作，还包括：

若执行所述删除操作后得到的所述第二重构文本，与已经得到的任一所述第二重构文本相同，则对所述第二重构文本重新执行所述删除操作。

将合理性数值最高的所述第二重构文本作为与所述遗漏关键词对应的细粒度文本，还包括：

所有所述遗漏关键词按照先后顺序同时出现的概率，称为所述合理性数值，其中所述概率越高，所述合理性数值越高。基于同一发明构思，本申请中一个或多个实施例还提出了一种文本生成装置，包括：

第一生成模块，被配置为获取若干关键词，将若干所述关键词输入预先训练的粗粒度文本生成模型，得到若干所述关键词对应的所述粗粒度文本；

确定模块，被配置为确定未出现在粗粒度文本中的至少一个所述关键词，作为遗漏关键词；

第二生成模块，被配置为根据所述粗粒度文本和至少一个所述遗漏关键词，得到若干第一重构文本；

第三生成模块，被配置为对于每个所述第一重构文本均执行改写处理，以得到若干第二重构文本；

第四生成模块，被配置为将若干所述第二重构文本输入预先训练的评估模型，得到若干所述第二重构文本分别对应的合理性数值，并将合理性数值最高的所述第二重构文本作为与所述关键词对应的细粒度文本。

基于同一发明构思，本申请中一个或多个实施例还提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一种所述的方法。

基于同一发明构思，本申请中一个或多个实施例还提出了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任意一种所述的方法。

从上面所述可以看出，本申请中一个或多个实施例提供的用于文本生成的方法、装置、电子设备及存储介质，包括，通过利用神经机器翻译模型实现若干粗粒度文本的生成，再对若干粗粒度文本进行关键字的检索判别是否进行关键词的添加，新生成的文本称为第一重构文本；对第一重构文本进行插入或删除的处理生成第二重构文本，使用预先设置好的语言评估模型对第二重构文本进行合理性评估，将合理性最高的文本作为最终的细粒度文本输出，生成的细粒度文本不仅文本流畅度高，而且表达内容精确。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请中一个或多个实施例中一种文本生成方法流程图；

图2为本申请中一个或多个实施例中一种文本生成装置结构示意图；

图3位本申请中一个或多个实施例的电子设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。本说明书中的实施例及实施例中的特征可以相互结合，下面将参考附图并结合实施例来详细说明本发明。

如背景技术部分所述，目前的文本生成方法中，要么依赖人工定义的模板、要么基于深度学习中神经翻译模型实现。既需要耗费大量的人力对模版进行定义，又不能对生成的结果质量进行保证，均无法在广泛进行推广。本发明旨在现有技术的基础上，依据深度学习技术实现一种对生成内容质量有保障的通用技术，该技术不需要针对领域知识图谱进行训练，所生成的文本不仅保证文本流畅度而且保证表达内容的准确性。

以下通过具体的实施例来详细说明本说明书一个或多个实施例的文本生成方案。

本说明书一个或多个实施例提供了一种文本生成方法。参考图1，所述的文本生成方法，包括以下步骤：

步骤S1、获取若干关键词，将若干关键词输入预先训练的粗粒度文本生成模型，得到若干关键词对应的粗粒度文本；

步骤S2、确定未出现在粗粒度文本中的至少一个所述关键词，作为遗漏关键词；

步骤S3、根据所述粗粒度文本和至少一个所述遗漏关键词，得到若干第一重构文本；

步骤S4、对于每个所述第一重构文本均执行改写处理，以得到若干第二重构文本；

步骤S5、将若干所述第二重构文本输入预先训练的评估模型，得到若干所述第二重构文本分别对应的合理性数值，并将合理性数值最高的所述第二重构文本作为与所述遗漏关键词对应的细粒度文本。

如图1所示，步骤S1中，本文本生成方法中的训练数据集建立的过程。具体内容是，可利用爬虫或者已有整理好的数据，这一步的目的是为了获得大量语料，用来训练相应模型。在爬取数据后，将这些文本利用分词和关键词提取技术进行分词，并获取文本中的关键词，形成训练数据。

本实施例中，参考表1为生成模型训练数据举例：

其中将爬取到的大量文本进行分解，将关键词提取出来，用于对生成模型进行训练，大量关键词的训练保证了用于使用的生成模型生成的文本准确、流畅。

表1生成模型训练数据举例

本实施例中，步骤S2，将若干关键词输入预先训练的粗粒度文本生成模型，得到若干关键词对应的粗粒度文本。具体内容为：利用神经及其翻译模型seq2seq模型实现由关键词到粗粒度文本的映射。在由关键词序列进行编码过程中使用循环神经网络GRU实现。编码器GRU将输入的关键词序列x＝(x₁，x₂，...，x_n)转换为隐藏向量

它的计算方式为:

h_t＝GRU(h_t-1，x_t)

获得状态向量h_t后，令解码器的状态向量c₀＝h_t，并依据该状态生成粗粒度文本。解码器同样使用GRU模型实现，每个词的生成都依赖前面已生成和GRU模型的隐藏状态向量c_t-1进行，计算得到的词出现概率分布o_t，并采样来生成第t个词y_t，公式表示如下：

y_t～o_t＝GRU(c_t-1,y_t-1)

其中，当t＝1时，y₀为空字符null。文本生成结束后获得文本的词序列y＝(y₁，y₂，...，y_m)，将词按顺序相接形成粗粒度文本。

本实施例中，seq2seq模型是一种循环神经网络的变种，包括编码器(Encoder)和解码器(Decoder)两部分，也称为Encoder-Decoder模型，可以理解为一种N*M的模型。Encoder用于编码序列的信息，将任意长度的序列编码到一个向量c里；Decoder是解码器，解码器得到上下文信息向量c之后可以将信息解码，并输出为序列。seq2seq模型是自然语言处理的一种重要模型，可以用于机器翻译、对话系统、自动文摘。

本实施例中，对于粗粒度文本生成模型的训练过程。具体内容为：从训练数据集中获取文本内容和对应的关键词序列，将关键词序列作为编码器GRU的输入序列x，将文本的词序列作为解码器序列最终生成的词序列y的监督信息。

作为一个可选的实施例，粗粒度文本生成模型的训练过程，利用深度学习中RMSprop优化算法，以learning rate＝0.001，rho＝0.9，momentum＝0.0的设置为粗粒度文本生成模型进行训练。训练的目标为最小化生成的词序列y与真实的文本间的交叉熵误差为判断依据，当该差异不再变小，也就是趋于稳定时，模型训练结束。

本实施例中，使用交叉熵误差为判断依据，其中，交叉熵(Cross Entropy)主要用于度量两个概率分布间的差异性信息。交叉熵的引入就是为了消除歧义，并且该方法简洁有效，易于计算机自适应实现。

本实施例中，粗粒度文本生成后，首先对粗粒度文本进行判断，判断是否有关键词遗漏；

在一些实施例中，若没有关键词遗漏，则不再进行其他操作，所有流程结束，该粗粒度文本即为细粒度文本；若关键词没有全部出现，则对粗粒度文本进行关键词的添加；

在一些实施例中，若出现关键词遗漏现象，则对粗粒度文本进行关键词的添加，由粗粒度文本和至少一个遗漏关键词得到若干第一重构文本；遗漏关键词的个数为M，粗粒度文本的长度为N。将至少一个遗漏关键词分别插入每个插入位置，以得到若干第一重构文本。

在本实施例中，具体包括：

将粗粒度文本的句首、句尾以及每两个词间的位置，确定为插入位置，以得到N+1个插入位置；

选择一个遗漏关键词分别添加到所有插入位置，得到N+1个添加结果；对于每个添加结果均执行确定插入位置，以及将另一遗漏关键词分别添加到所有插入位置的步骤；

重复执行上述步骤，直至全部所述遗漏关键词均添加到粗粒度句子中，并得到

个第一重构文本。

在本实施例中，

中，i表示序数。

本实施例中，利用细粒度文本语言模型修改添加后的文本，具体为：有插入和删除两种操作，利用细粒度文本语言模型对第一重构句子进行改写，改写过程中，在每一步中，对其随机执行插入和删除操作中的其中一个，并且对改写次数做次数限制。

在一些实施例中，利用细粒度文本语言模型对第一重构句子进行改写，改写过程中，文本的改写次数一般最多设置为10次。

在本实施例中，插入和删除的概率分别为1/3和2/3。

在本实施例中的插入操作中，设当前步骤的文本为：

x＝[w₁，...，w_m-1，w_m，w_m+1，...，w_n]

其中n是文本长度。任务是在位置m(第m个单词w_m前)插入一个新词。根据条件概率公式可以在所有词汇中抽取一概率最大的词插入，该公式为：

p(w)＝min(π(w₁，...，w_m-1，w)，π(w，w_m，...，w_n))

其中概率函数π用来评估多个词组合一起出现的概率，使用语言模型来计算。

在本实施例中的删除操作中，设当前步骤的文本为如下公式所示：

x＝[w₁，...，w_m-1，w_m，w_m+1，...，w_n]

在当前文本中随机采样一个位置，若选择m，则删除词w_m，那么可以得到如下公式：

x′＝[w₁，...，w_m-1，w_m+1，...，w_n]

将生成的x′与若干第一重构文本进行对比，如果x′与其它文本相同，则重新采样删除的位置，例如：文本A：今天天气很晴朗。若干第一重构文本中有文本为：今天很晴朗。将文本A中的“天气”一词删除就会与“今天很晴朗重复”。若出现此种情况则需要重新随机采样删除的位置，直到不再与其它第一重构文本相同，生成的句子称为第二重构句子，生成的第二重构句子继续执行下一步骤操作。

在本实施例中，对改写生成的第二重构句子进行评估，其中对生成的所有第二重构句子进行评估其合理性，使用语言模型进行合理性的评估，评估模型如下所示：

p＝π(w₁，w₂，...，w_n)

其中p表示所有词按照先后顺序同时出现的概率，其中概率越高，合理性越高。

本实施例中，依据语言模型选择合理性最高的细粒度文本最为最终细粒度文本输出。

由上述实施例可见，使用此文本生成方法生成的细粒度文本，不仅文本流畅度高，而且表达内容精确。

基于同一发明构思，本申请中一个或多个实施例还提出了一种文本生成装置，包括：第一生成模块、确定模块、第二生成模块、第三生成模块和第四生成模块。

参考图2，本装置中包括：

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，本申请中一个或多个实施例还提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，，所述处理器执行所述程序时实现如上任意一种所述的方法。

图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器301、存储器302、输入/输出接口303、通信接口304和总线305。其中处理器301、存储器302、输入/输出接口303和通信接口304通过总线305实现彼此之间在设备内部的通信连接。

处理器301可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案。

存储器302可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器302可以存储操作系统和其他应用程序，在通过软件或者固件来实现本发明实施例所提供的技术方案时，相关的程序代码保存在存储器302中，并由处理器301来调用执行。

输入/输出接口303用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口304用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线305包括一通路，在设备的各个组件(例如处理器301、存储器302、输入/输出接口303和通信接口304)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器301、存储器302、输入/输出接口303、通信接口304以及总线305，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明实施例方案所必需的组件，而不必包含图中所示的全部组件。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请中一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种文本生成方法，其特征在于，包括：

获取若干关键词，将若干所述关键词输入预先训练的粗粒度文本生成模型，得到若干所述关键词对应的所述粗粒度文本；

确定未出现在粗粒度文本中的至少一个所述关键词，作为遗漏关键词；

根据所述粗粒度文本和至少一个所述遗漏关键词，得到若干第一重构文本；

对于每个所述第一重构文本均执行改写处理，以得到若干第二重构文本；

将若干所述第二重构文本输入预先训练的评估模型，得到若干所述第二重构文本分别对应的合理性数值，并将合理性数值最高的所述第二重构文本作为与所述遗漏关键词对应的细粒度文本。

2.根据权利要求1所述的文本生成方法，其特征在于，所述根据所述粗粒度文本和至少一个所述关键词，得到若干第一重构文本，具体包括：

根据所述粗粒度文本，确定若干插入位置；

3.根据权利要求2所述的文本生成方法，其特征在于，所述遗漏关键词的个数为M，所述粗粒度文本的长度为N；

个第一重构文本。

4.根据权利要求1所述的文本生成方法，其特征在于，所述对于每个所述第一重构文本均执行改写处理，以得到若干所述第二重构文本，具体包括：

所述插入操作，包括：随机选取所述第一重构文本的插入位置，根据条件概率公式在所有备选词汇中抽取一个概率最大的词，插入到所述位置，以得到一个所述第二重构文本；

所述删除操作，包括：对生成的每一个所述第一重构文本执行随机采样位置执行删除，以得到一个所述第二重构文本。

5.根据权利要求4所述的文本生成方法，其特征在于，所述对生成的每一个所述第一重构文本执行随机采样删除，包括：

所述删除操作执行时不删除所述关键词所在位置的词。

6.根据权利要求4所述的文本生成方法，其特征在于，所述删除操作，还包括：

7.根据权利要求1所述的文本生成方法，其特征在于，所述将合理性数值最高的所述第二重构文本作为与所述遗漏关键词对应的细粒度文本，还包括：

所有所述遗漏关键词按照先后顺序同时出现的概率，称为所述合理性数值，其中所述概率越高，所述合理性数值越高。

8.一种文本生成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至7任一所述方法。