CN112069809B

CN112069809B - 一种缺失文本生成方法及系统

Info

Publication number: CN112069809B
Application number: CN202010800708.0A
Authority: CN
Inventors: 蔡晓东; 郑淑婷
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2022-05-24
Anticipated expiration: 2040-08-11
Also published as: CN112069809A

Abstract

本发明提供一种缺失文本生成方法及系统，方法包括：对输入样本的预处理得到缺失样本；通过embedding词嵌入算法分别对输入样本和缺失样本的词向量化处理得到输入样本句向量和缺失样本句向量；分别对输入样本和缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量；根据输入样本句向量对缺失样本句向量、输入样本位置向量和缺失样本位置向量的增强句向量处理得到输入样本向量和缺失样本向量；对输入样本向量和缺失样本向量的模型训练得到完整文本。本发明网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量。

Description

一种缺失文本生成方法及系统

技术领域

本发明主要涉及语言处理技术领域，具体涉及一种缺失文本生成方法及系统。

背景技术

缺失文本生成旨在填充缺失的文本片段，适用于许多现实的自然语言生成场景，以往对缺失文本生成任务的研究一般限制在特定环境中，目前的缺失文本生成模型主要基于循环神经网络，它的序列特性很适合学习长距离文本上下文信息，但也排除了实例内的并行化，使训练和推理都很慢，对实时应用的部署带来很大挑战。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种缺失文本生成方法及系统。

本发明解决上述技术问题的技术方案如下：一种缺失文本生成方法，包括如下步骤：

对输入样本进行预处理，得到缺失样本；

通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理，得到输入样本句向量和缺失样本句向量；

分别对所述输入样本和所述缺失样本进行位置编码处理，得到输入样本位置向量和缺失样本位置向量；

根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理，得到输入样本向量和缺失样本向量；

对所述输入样本向量和所述缺失样本向量进行模型训练，得到完整文本。

本发明解决上述技术问题的另一技术方案如下：一种文本填充系统，包括：

输入样本处理模块，用于对输入样本进行预处理，得到缺失样本；

词向量化处理处理模块，用于通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理，得到输入样本句向量和缺失样本句向量；

位置编码处理模块，用于分别对所述输入样本和所述缺失样本进行位置编码处理，得到输入样本位置向量和缺失样本位置向量；

向量处理模块，用于根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理，得到输入样本向量和缺失样本向量；

完整文本生成模块，用于对所述输入样本向量和所述缺失样本向量进行模型训练，得到完整文本。

本发明的有益效果是：通过对输入样本的预处理得到缺失样本，并通过embedding词嵌入算法分别对输入样本和缺失样本的词向量化处理得到输入样本句向量和缺失样本句向量，能够转化为网络能够识别的数据信息句向量，分别对输入样本和缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量，准确地定位了缺失空白的位置，根据输入样本句向量对缺失样本句向量、输入样本位置向量和缺失样本位置向量的增强句向量处理得到输入样本向量和缺失样本向量，对输入样本向量和缺失样本向量的模型训练得到完整文本，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量，且网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题。

附图说明

图1为本发明一实施例提供的缺失文本生成方法的流程示意图；

图2为本发明一实施例提供的缺失文本生成系统的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明一实施例提供的缺失文本生成方法的流程示意图。

如图1所示，一种缺失文本生成方法，包括如下步骤：

对输入样本进行预处理，得到缺失样本；

应理解地，采用embedding词嵌入算法对所述输入样本和所述缺失样本进行词向量化表示，转化为网络能够识别的数据信息句向量。

上述实施例中，通过对输入样本的预处理得到缺失样本，并通过embedding词嵌入算法分别对输入样本和缺失样本的词向量化处理得到输入样本句向量和缺失样本句向量，能够转化为网络能够识别的数据信息句向量，分别对输入样本和缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量，准确地定位了缺失空白的位置，根据输入样本句向量对缺失样本句向量、输入样本位置向量和缺失样本位置向量的增强句向量处理得到输入样本向量和缺失样本向量，对输入样本向量和缺失样本向量的模型训练得到完整文本，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量，且网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题。

可选地，作为本发明的一个实施例，所述对输入样本进行预处理，得到缺失样本的过程包括：

利用随机屏蔽算法对所述输入样本进行预处理，得到缺失样本，具体为：

通过预设第一占位符随机对所述输入样本中的词进行替换，得到第一缺失样本；

将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头，得到第二缺失样本；

将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾，得到第三缺失样本；

将预设第四占位符添加至所述第三缺失样本的开头，得到第四缺失样本；

将预设第五占位符添加至所述第四缺失样本的结尾，得到缺失样本。

优选地，所述预设第一占位符可以为_m_占位符，所述预设第二占位符可以为<boa>，所述预设第三占位符可以为<eoa>，所述预设第四占位符可以为<EOS>，所述预设第五占位符可以为<BOS>。

应理解地，所述预设第一占位符、所述预设第二占位符和所述预设第三占位符均为多个。

具体地，采用随机屏蔽的方式，用_m_占位符表示空白，并随机替换所述输入样本中的词，其中每个空白缺失的词数是任意的，同时用<boa>和<eoa>分别表示每个空白的开头和结尾，用<EOS>和<BOS>分别作为每个缺失样本的开头和结尾，从而得到所述缺失样本。

应理解地，所述随机指的是随机替换所述输入样本中的词。

上述实施例中，利用预设的占位符对输入样本进行预处理，为之后的处理提供素材，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量，且网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题。

可选地，作为本发明的一个实施例，所述分别对所述输入样本和所述缺失样本进行位置编码处理，得到输入样本位置向量和缺失样本位置向量的过程包括：

通过相对位置编码算法分别对所述输入样本和所述缺失样本进行位置编码处理，得到输入样本位置向量和缺失样本位置向量，具体为：

通过第一式分别对所述输入样本和所述缺失样本进行计算，得到输入样本偶数位置向量和缺失样本偶数位置向量，所述第一式为：

其中，PE为二维矩阵，行为词语，列为词向量，pos为词语在句子中的位置；d_model为词向量的维度；i为词向量的位置；

通过第二式分别对所述输入样本和所述缺失样本进行计算，得到输入样本奇数位置向量和缺失样本奇数位置向量，所述第二式为：

根据所述输入样本偶数位置向量和所述输入样本奇数位置向量得到输入样本位置向量；

根据所述缺失样本偶数位置向量和所述缺失样本奇数位置向量得到缺失样本位置向量。

应理解地，在训练过程中，为了准确定位缺失空白的位置引入相对位置编码技术。

具体地，采用相对位置编码技术获取输入样本和缺失样本的位置向量；

其中，PE为二维矩阵，大小跟输入embedding的维度一样，行表示词语，列表示词向量；pos表示词语在句子中的位置；d_model表示词向量的维度；i表示词向量的位置。因此，上述公式表示在每个词语的词向量的偶数位置添加sin变量，奇数位置添加cos变量，以此来填满整个PE矩阵。

上述实施例中，通过相对位置编码算法分别对所述输入样本和所述缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量，为后续处理提供基础，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量，且网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题。

可选地，作为本发明的一个实施例，所述根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理，得到输入样本向量和缺失样本向量的过程包括：

将所述输入样本句向量输入至预先构建的双向LSTM网络中提取隐藏信息处理，得到输入样本隐藏信息；

将所述输入样本句向量和所述样本隐藏信息输入至预先构建的信息增强网络中提取特征向量处理，得到输入样本特征向量；

将所述输入样本特征向量和所述输入样本位置向量进行相加计算，得到输入样本向量；

将所述缺失样本句向量和所述缺失样本位置向量进行相加计算，得到缺失样本向量。

应理解地，提取关键上下文语义信息，采用信息增强机制增强输入样本句向量上下文语义表示。

上述实施例中，将所述输入样本句向量输入至预先构建的双向LSTM网络中提取隐藏信息处理得到输入样本隐藏信息；将所述输入样本句向量和所述样本隐藏信息输入至预先构建的信息增强网络中提取特征向量处理得到输入样本特征向量；将所述输入样本特征向量和所述输入样本位置向量的相加计算得到输入样本向量；将所述缺失样本句向量和所述缺失样本位置向量的相加计算得到缺失样本向量，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量，且网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题。

可选地，作为本发明的一个实施例，所述将所述输入样本句向量输入至预先构建的双向LSTM网络中提取隐藏信息处理，得到输入样本隐藏信息的过程包括：

通过第三式对所述输入样本句向量进行隐藏信息提取计算，得到输入样本隐藏信息，所述第三式为：

其中，

其中，

为前向LSTM网络，

为后向LSTM网络，x_i为前向LSTM网络输入的样本词向量，

为前一时刻的隐层信息，x_i为后向LSTM网络输入的样本词向量，

为后一时刻的隐层信息，h_i为输入样本隐藏信息。

上述实施例中，通过第三式对所述输入样本句向量的隐藏信息提取计算得到输入样本隐藏信息，为后续处理提供基础，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量，且网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题。

可选地，作为本发明的一个实施例，所述将所述输入样本句向量和所述样本隐藏信息输入至预先构建的信息增强网络中提取特征向量处理，得到输入样本特征向量的过程包括：

通过第四式对所述输入样本句向量和所述样本隐藏信息进行特征向量计算，得到输入样本特征向量，所述第四式为：

其中，rGate_i＝σ(W_sE+U_sh_i+b)，

其中，W_s为权重矩阵，U_s为权重矩阵，b为偏置向量，σ为激活函数sigmoid，

为元素之间的点乘,E′_i为输入样本特征向量，rGate_i为信息增强系数，E为输入样本句向量，h_i为样本隐藏信息。

应理解地，将所述输入样本句向量E和所述样本隐藏信息h_i作为输入，计算所述信息增强系数rGate_i，通过信息增强网络捕获关键的上下文语义信息，从而得到符合语义的输入句向量特征表示，如下式所示：

rGate_i＝σ(W_sE+U_sh_i+b)，

式中，W_s和U_s分别为权重矩阵，b为偏置向量，σ激活函数sigmoid，

为元素之间的点乘,E′_i表示为增加了关键上下文语义信息的输入样本s的特征向量。

上述实施例中，通过第四式对所述输入样本句向量和所述样本隐藏信息的特征向量计算得到输入样本特征向量，为后续处理提供基础，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量，且网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题。

可选地，作为本发明的一个实施例，所述将所述输入样本特征向量和所述输入样本位置向量进行相加计算，得到输入样本向量的过程包括：

通过第五式对所述输入样本特征向量和所述输入样本位置向量进行相加计算，得到输入样本向量，所述第五式为：

S_emb＝E′_i+E_pos，

其中，S_emb为输入样本向量，E′_i为输入样本特征向量，E_pos为输入样本位置向量。

上述实施例中，通过第五式对所述输入样本特征向量和所述输入样本位置向量的相加计算得到输入样本向量，为后续处理提供基础，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量，且网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题。

可选地，作为本发明的一个实施例，所述将所述缺失样本句向量和所述缺失样本位置向量进行相加计算，得到缺失样本向量的过程包括：

通过第六式对所述缺失样本句向量和所述缺失样本位置向量进行相加计算，得到缺失样本向量，所述第六式为：

S′_emb＝H+E′_pos，

其中，S′_emb为缺失样本向量，H为缺失样本句向量，E′_pos为缺失样本位置向量。

上述实施例中，通过第六式对所述缺失样本句向量和所述缺失样本位置向量的相加计算得到缺失样本向量，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量，且网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题。

可选地，作为本发明的一个实施例，所述对所述输入样本向量和所述缺失样本向量进行模型训练，得到完整文本的过程包括：

将所述输入样本向量和所述缺失样本向量输入预先构建的transformer模型进行训练，得到完整文本。

应理解地，将所述输入样本向量s_emb和所述缺失样本向量s'_emb作为一组输入对被传入多头注意力模型中用来训练模型。

具体地，将所述输入样本向量s_emb和所述缺失样本向量s'_emb作为一组输入对被传入多头注意力模型中用来训练模型，如下式所示：

S_emb＝E′_i+E_pos

S′_emb＝H+E′_pos

其中，E′_i、H分别为增加了关键上下文语义信息的输入样本s的特征向量和缺失样本s_templete的句向量，E_pos、E'_pos分别为输入样本s的位置编码和缺失样本s_templete的位置编码；

在填充过程中，解码器会逐一填补空白，对于每个片段的填充，解码器自动回归地填充缺失的标记，对s_templete和s_templete中已填充的内容进行调整更新，为了填充seg_id＝i的空白，目标是最小化第七式的交叉熵损失，所述第七式为：

每个填充语句的损失L是每个填充空白的交叉熵损失的总和，如第八式所示，所述第八式为：

L＝∑L_a，a∈m，

上述实施例中，将所述输入样本向量和所述缺失样本向量输入预先构建的transformer模型的训练得到完整文本，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量，且网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题。

图2为本发明一实施例提供的文本填充系统的模块框图。

可选地，作为本发明的另一个实施例，如图2所示，一种缺失文本生成系统，包括：

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。用于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。