CN112069809A - 一种缺失文本生成方法及系统 - Google Patents

一种缺失文本生成方法及系统 Download PDF

Info

Publication number
CN112069809A
CN112069809A CN202010800708.0A CN202010800708A CN112069809A CN 112069809 A CN112069809 A CN 112069809A CN 202010800708 A CN202010800708 A CN 202010800708A CN 112069809 A CN112069809 A CN 112069809A
Authority
CN
China
Prior art keywords
vector
sample
missing
input sample
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010800708.0A
Other languages
English (en)
Other versions
CN112069809B (zh
Inventor
蔡晓东
郑淑婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010800708.0A priority Critical patent/CN112069809B/zh
Publication of CN112069809A publication Critical patent/CN112069809A/zh
Application granted granted Critical
Publication of CN112069809B publication Critical patent/CN112069809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种缺失文本生成方法及系统,方法包括:对输入样本的预处理得到缺失样本;通过embedding词嵌入算法分别对输入样本和缺失样本的词向量化处理得到输入样本句向量和缺失样本句向量;分别对输入样本和缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量;根据输入样本句向量对缺失样本句向量、输入样本位置向量和缺失样本位置向量的增强句向量处理得到输入样本向量和缺失样本向量;对输入样本向量和缺失样本向量的模型训练得到完整文本。本发明网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量。

Description

一种缺失文本生成方法及系统
技术领域
本发明主要涉及语言处理技术领域,具体涉及一种缺失文本生成方法及系统。
背景技术
缺失文本生成旨在填充缺失的文本片段,适用于许多现实的自然语言生成场景,以往对缺失文本生成任务的研究一般限制在特定环境中,目前的缺失文本生成模型主要基于循环神经网络,它的序列特性很适合学习长距离文本上下文信息,但也排除了实例内的并行化,使训练和推理都很慢,对实时应用的部署带来很大挑战。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种缺失文本生成方法及系统。
本发明解决上述技术问题的技术方案如下:一种缺失文本生成方法,包括如下步骤:
对输入样本进行预处理,得到缺失样本;
通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理,得到输入样本句向量和缺失样本句向量;
分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量;
根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量;
对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本。
本发明解决上述技术问题的另一技术方案如下:一种文本填充系统,包括:
输入样本处理模块,用于对输入样本进行预处理,得到缺失样本;
词向量化处理处理模块,用于通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理,得到输入样本句向量和缺失样本句向量;
位置编码处理模块,用于分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量;
向量处理模块,用于根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量;
完整文本生成模块,用于对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本。
本发明的有益效果是:通过对输入样本的预处理得到缺失样本,并通过embedding词嵌入算法分别对输入样本和缺失样本的词向量化处理得到输入样本句向量和缺失样本句向量,能够转化为网络能够识别的数据信息句向量,分别对输入样本和缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量,准确地定位了缺失空白的位置,根据输入样本句向量对缺失样本句向量、输入样本位置向量和缺失样本位置向量的增强句向量处理得到输入样本向量和缺失样本向量,对输入样本向量和缺失样本向量的模型训练得到完整文本,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。
附图说明
图1为本发明一实施例提供的缺失文本生成方法的流程示意图;
图2为本发明一实施例提供的缺失文本生成系统的模块框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明一实施例提供的缺失文本生成方法的流程示意图。
如图1所示,一种缺失文本生成方法,包括如下步骤:
对输入样本进行预处理,得到缺失样本;
通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理,得到输入样本句向量和缺失样本句向量;
分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量;
根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量;
对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本。
应理解地,采用embedding词嵌入算法对所述输入样本和所述缺失样本进行词向量化表示,转化为网络能够识别的数据信息句向量。
上述实施例中,通过对输入样本的预处理得到缺失样本,并通过embedding词嵌入算法分别对输入样本和缺失样本的词向量化处理得到输入样本句向量和缺失样本句向量,能够转化为网络能够识别的数据信息句向量,分别对输入样本和缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量,准确地定位了缺失空白的位置,根据输入样本句向量对缺失样本句向量、输入样本位置向量和缺失样本位置向量的增强句向量处理得到输入样本向量和缺失样本向量,对输入样本向量和缺失样本向量的模型训练得到完整文本,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。
可选地,作为本发明的一个实施例,所述对输入样本进行预处理,得到缺失样本的过程包括:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。
优选地,所述预设第一占位符可以为_m_占位符,所述预设第二占位符可以为<boa>,所述预设第三占位符可以为<eoa>,所述预设第四占位符可以为<EOS>,所述预设第五占位符可以为<BOS>。
应理解地,所述预设第一占位符、所述预设第二占位符和所述预设第三占位符均为多个。
具体地,采用随机屏蔽的方式,用_m_占位符表示空白,并随机替换所述输入样本中的词,其中每个空白缺失的词数是任意的,同时用<boa>和<eoa>分别表示每个空白的开头和结尾,用<EOS>和<BOS>分别作为每个缺失样本的开头和结尾,从而得到所述缺失样本。
应理解地,所述随机指的是随机替换所述输入样本中的词。
上述实施例中,利用预设的占位符对输入样本进行预处理,为之后的处理提供素材,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。
可选地,作为本发明的一个实施例,所述分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量的过程包括:
通过相对位置编码算法分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量,具体为:
通过第一式分别对所述输入样本和所述缺失样本进行计算,得到输入样本偶数位置向量和缺失样本偶数位置向量,所述第一式为:
Figure BDA0002627269080000051
其中,PE为二维矩阵,行为词语,列为词向量,pos为词语在句子中的位置;dmodel为词向量的维度;i为词向量的位置;
通过第二式分别对所述输入样本和所述缺失样本进行计算,得到输入样本奇数位置向量和缺失样本奇数位置向量,所述第二式为:
Figure BDA0002627269080000052
其中,PE为二维矩阵,行为词语,列为词向量,pos为词语在句子中的位置;dmodel为词向量的维度;i为词向量的位置;
根据所述输入样本偶数位置向量和所述输入样本奇数位置向量得到输入样本位置向量;
根据所述缺失样本偶数位置向量和所述缺失样本奇数位置向量得到缺失样本位置向量。
应理解地,在训练过程中,为了准确定位缺失空白的位置引入相对位置编码技术。
具体地,采用相对位置编码技术获取输入样本和缺失样本的位置向量;
Figure BDA0002627269080000061
Figure BDA0002627269080000062
其中,PE为二维矩阵,大小跟输入embedding的维度一样,行表示词语,列表示词向量;pos表示词语在句子中的位置;dmodel表示词向量的维度;i表示词向量的位置。因此,上述公式表示在每个词语的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此来填满整个PE矩阵。
上述实施例中,通过相对位置编码算法分别对所述输入样本和所述缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量,为后续处理提供基础,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。
可选地,作为本发明的一个实施例,所述根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量的过程包括:
将所述输入样本句向量输入至预先构建的双向LSTM网络中提取隐藏信息处理,得到输入样本隐藏信息;
将所述输入样本句向量和所述样本隐藏信息输入至预先构建的信息增强网络中提取特征向量处理,得到输入样本特征向量;
将所述输入样本特征向量和所述输入样本位置向量进行相加计算,得到输入样本向量;
将所述缺失样本句向量和所述缺失样本位置向量进行相加计算,得到缺失样本向量。
应理解地,提取关键上下文语义信息,采用信息增强机制增强输入样本句向量上下文语义表示。
上述实施例中,将所述输入样本句向量输入至预先构建的双向LSTM网络中提取隐藏信息处理得到输入样本隐藏信息;将所述输入样本句向量和所述样本隐藏信息输入至预先构建的信息增强网络中提取特征向量处理得到输入样本特征向量;将所述输入样本特征向量和所述输入样本位置向量的相加计算得到输入样本向量;将所述缺失样本句向量和所述缺失样本位置向量的相加计算得到缺失样本向量,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。
可选地,作为本发明的一个实施例,所述将所述输入样本句向量输入至预先构建的双向LSTM网络中提取隐藏信息处理,得到输入样本隐藏信息的过程包括:
通过第三式对所述输入样本句向量进行隐藏信息提取计算,得到输入样本隐藏信息,所述第三式为:
Figure BDA0002627269080000071
其中,
Figure BDA0002627269080000072
其中,
Figure BDA0002627269080000073
为前向LSTM网络,
Figure BDA0002627269080000074
为后向LSTM网络,xi为前向LSTM网络输入的样本词向量,
Figure BDA0002627269080000075
为前一时刻的隐层信息,xi为后向LSTM网络输入的样本词向量,
Figure BDA0002627269080000076
为后一时刻的隐层信息,hi为输入样本隐藏信息。
上述实施例中,通过第三式对所述输入样本句向量的隐藏信息提取计算得到输入样本隐藏信息,为后续处理提供基础,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。
可选地,作为本发明的一个实施例,所述将所述输入样本句向量和所述样本隐藏信息输入至预先构建的信息增强网络中提取特征向量处理,得到输入样本特征向量的过程包括:
通过第四式对所述输入样本句向量和所述样本隐藏信息进行特征向量计算,得到输入样本特征向量,所述第四式为:
Figure BDA0002627269080000081
其中,rGatei=σ(WsE+Ushi+b),
其中,Ws为权重矩阵,Us为权重矩阵,b为偏置向量,σ为激活函数sigmoid,
Figure BDA0002627269080000082
为元素之间的点乘,E′i为输入样本特征向量,rGatei为信息增强系数,E为输入样本句向量,hi为样本隐藏信息。
应理解地,将所述输入样本句向量E和所述样本隐藏信息hi作为输入,计算所述信息增强系数rGatei,通过信息增强网络捕获关键的上下文语义信息,从而得到符合语义的输入句向量特征表示,如下式所示:
rGatei=σ(WsE+Ushi+b),
Figure BDA0002627269080000083
式中,Ws和Us分别为权重矩阵,b为偏置向量,σ激活函数sigmoid,
Figure BDA0002627269080000084
为元素之间的点乘,E′i表示为增加了关键上下文语义信息的输入样本s的特征向量。
上述实施例中,通过第四式对所述输入样本句向量和所述样本隐藏信息的特征向量计算得到输入样本特征向量,为后续处理提供基础,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。
可选地,作为本发明的一个实施例,所述将所述输入样本特征向量和所述输入样本位置向量进行相加计算,得到输入样本向量的过程包括:
通过第五式对所述输入样本特征向量和所述输入样本位置向量进行相加计算,得到输入样本向量,所述第五式为:
Semb=E′i+Epos
其中,Semb为输入样本向量,E′i为输入样本特征向量,Epos为输入样本位置向量。
上述实施例中,通过第五式对所述输入样本特征向量和所述输入样本位置向量的相加计算得到输入样本向量,为后续处理提供基础,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。
可选地,作为本发明的一个实施例,所述将所述缺失样本句向量和所述缺失样本位置向量进行相加计算,得到缺失样本向量的过程包括:
通过第六式对所述缺失样本句向量和所述缺失样本位置向量进行相加计算,得到缺失样本向量,所述第六式为:
S′emb=H+E′pos
其中,S′emb为缺失样本向量,H为缺失样本句向量,E′pos为缺失样本位置向量。
上述实施例中,通过第六式对所述缺失样本句向量和所述缺失样本位置向量的相加计算得到缺失样本向量,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。
可选地,作为本发明的一个实施例,所述对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本的过程包括:
将所述输入样本向量和所述缺失样本向量输入预先构建的transformer模型进行训练,得到完整文本。
应理解地,将所述输入样本向量semb和所述缺失样本向量s'emb作为一组输入对被传入多头注意力模型中用来训练模型。
具体地,将所述输入样本向量semb和所述缺失样本向量s'emb作为一组输入对被传入多头注意力模型中用来训练模型,如下式所示:
Semb=E′i+Epos
S′emb=H+E′pos
其中,E′i、H分别为增加了关键上下文语义信息的输入样本s的特征向量和缺失样本stemplete的句向量,Epos、E'pos分别为输入样本s的位置编码和缺失样本stemplete的位置编码;
在填充过程中,解码器会逐一填补空白,对于每个片段的填充,解码器自动回归地填充缺失的标记,对stemplete和stemplete中已填充的内容进行调整更新,为了填充seg_id=i的空白,目标是最小化第七式的交叉熵损失,所述第七式为:
Figure BDA0002627269080000101
每个填充语句的损失L是每个填充空白的交叉熵损失的总和,如第八式所示,所述第八式为:
L=∑La,a∈m,
上述实施例中,将所述输入样本向量和所述缺失样本向量输入预先构建的transformer模型的训练得到完整文本,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。
图2为本发明一实施例提供的文本填充系统的模块框图。
可选地,作为本发明的另一个实施例,如图2所示,一种缺失文本生成系统,包括:
输入样本处理模块,用于对输入样本进行预处理,得到缺失样本;
词向量化处理处理模块,用于通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理,得到输入样本句向量和缺失样本句向量;
位置编码处理模块,用于分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量;
向量处理模块,用于根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量;
完整文本生成模块,用于对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。用于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种缺失文本生成方法,其特征在于,包括如下步骤:
对输入样本进行预处理,得到缺失样本;
通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理,得到输入样本句向量和缺失样本句向量;
分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量;
根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量;
对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本。
2.根据权利要求1所述的缺失文本生成方法,其特征在于,所述对输入样本进行预处理,得到缺失样本的过程包括:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。
3.根据权利要求2所述的缺失文本生成方法,其特征在于,所述分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量的过程包括:
通过相对位置编码算法分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量,具体为:
通过第一式分别对所述输入样本和所述缺失样本进行计算,得到输入样本偶数位置向量和缺失样本偶数位置向量,所述第一式为:
Figure FDA0002627269070000021
其中,PE为二维矩阵,行为词语,列为词向量,pos为词语在句子中的位置;dmodel为词向量的维度;i为词向量的位置;
通过第二式分别对所述输入样本和所述缺失样本进行计算,得到输入样本奇数位置向量和缺失样本奇数位置向量,所述第二式为:
Figure FDA0002627269070000022
其中,PE为二维矩阵,行为词语,列为词向量,pos为词语在句子中的位置;dmodel为词向量的维度;i为词向量的位置;
根据所述输入样本偶数位置向量和所述输入样本奇数位置向量得到输入样本位置向量;
根据所述缺失样本偶数位置向量和所述缺失样本奇数位置向量得到缺失样本位置向量。
4.根据权利要求1或3所述的缺失文本生成方法,其特征在于,所述根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量的过程包括:
将所述输入样本句向量输入至预先构建的双向LSTM网络中提取隐藏信息处理,得到输入样本隐藏信息;
将所述输入样本句向量和所述样本隐藏信息输入至预先构建的信息增强网络中提取特征向量处理,得到输入样本特征向量;
将所述输入样本特征向量和所述输入样本位置向量进行相加计算,得到输入样本向量;
将所述缺失样本句向量和所述缺失样本位置向量进行相加计算,得到缺失样本向量。
5.根据权利要求4所述的缺失文本生成方法,其特征在于,所述将所述输入样本句向量输入至预先构建的双向LSTM网络中提取隐藏信息处理,得到输入样本隐藏信息的过程包括:
通过第三式对所述输入样本句向量进行隐藏信息提取计算,得到输入样本隐藏信息,所述第三式为:
Figure FDA0002627269070000031
其中,
Figure FDA0002627269070000032
其中,
Figure FDA0002627269070000033
为前向LSTM网络,
Figure FDA0002627269070000034
为后向LSTM网络,xi为前向LSTM网络输入的样本词向量,
Figure FDA0002627269070000035
为前一时刻的隐层信息,xi为后向LSTM网络输入的样本词向量,
Figure FDA0002627269070000036
为后一时刻的隐层信息,hi为输入样本隐藏信息。
6.根据权利要求5所述的缺失文本生成方法,其特征在于,所述将所述输入样本句向量和所述样本隐藏信息输入至预先构建的信息增强网络中提取特征向量处理,得到输入样本特征向量的过程包括:
通过第四式对所述输入样本句向量和所述样本隐藏信息进行特征向量计算,得到输入样本特征向量,所述第四式为:
Figure FDA0002627269070000037
其中,rGatei=σ(WsE+Ushi+b),
其中,Ws为权重矩阵,Us为权重矩阵,b为偏置向量,σ为激活函数sigmoid,
Figure FDA0002627269070000038
为元素之间的点乘,E′i为输入样本特征向量,rGatei为信息增强系数,E为输入样本句向量,hi为样本隐藏信息。
7.根据权利要求4或6所述的缺失文本生成方法,其特征在于,所述将所述输入样本特征向量和所述输入样本位置向量进行相加计算,得到输入样本向量的过程包括:
通过第五式对所述输入样本特征向量和所述输入样本位置向量进行相加计算,得到输入样本向量,所述第五式为:
Semb=E′i+Epos
其中,Semb为输入样本向量,E′i为输入样本特征向量,Epos为输入样本位置向量。
8.根据权利要求4所述的缺失文本生成方法,其特征在于,所述将所述缺失样本句向量和所述缺失样本位置向量进行相加计算,得到缺失样本向量的过程包括:
通过第六式对所述缺失样本句向量和所述缺失样本位置向量进行相加计算,得到缺失样本向量,所述第六式为:
S′emb=H+E′pos
其中,S′emb为缺失样本向量,H为缺失样本句向量,E′pos为缺失样本位置向量。
9.根据权利要求1至8任一项所述的缺失文本生成方法,其特征在于,所述对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本的过程包括:
将所述输入样本向量和所述缺失样本向量输入预先构建的transformer模型进行训练,得到完整文本。
10.一种缺失文本生成系统,其特征在于,包括:
输入样本处理模块,用于对输入样本进行预处理,得到缺失样本;
词向量化处理处理模块,用于通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理,得到输入样本句向量和缺失样本句向量;
位置编码处理模块,用于分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量;
向量处理模块,用于根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量;
完整文本生成模块,用于对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本。
CN202010800708.0A 2020-08-11 2020-08-11 一种缺失文本生成方法及系统 Active CN112069809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010800708.0A CN112069809B (zh) 2020-08-11 2020-08-11 一种缺失文本生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010800708.0A CN112069809B (zh) 2020-08-11 2020-08-11 一种缺失文本生成方法及系统

Publications (2)

Publication Number Publication Date
CN112069809A true CN112069809A (zh) 2020-12-11
CN112069809B CN112069809B (zh) 2022-05-24

Family

ID=73662725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010800708.0A Active CN112069809B (zh) 2020-08-11 2020-08-11 一种缺失文本生成方法及系统

Country Status (1)

Country Link
CN (1) CN112069809B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118637A (zh) * 2022-01-28 2022-03-01 树根互联股份有限公司 一种配件需求的预测模型构建方法、装置及计算机设备
CN115471840A (zh) * 2022-11-03 2022-12-13 北京百度网讯科技有限公司 生成、模型的训练、识别方法、装置、电子设备及介质
CN115618863A (zh) * 2022-12-20 2023-01-17 中国科学院自动化研究所 文本事件序列生成方法、装置、设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2785189A (en) * 1987-11-16 1989-06-14 Intel Corporation Memory controller as for a video signal processor
KR20190019683A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법
CN109460466A (zh) * 2018-09-20 2019-03-12 电子科技大学 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法
CN109492223A (zh) * 2018-11-06 2019-03-19 北京邮电大学 一种基于神经网络推理的中文缺失代词补全方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110110338A (zh) * 2019-05-13 2019-08-09 哈尔滨理工大学 一种基于lstm与槽填充的对话管理模型使用方法
CN110286778A (zh) * 2019-06-27 2019-09-27 北京金山安全软件有限公司 一种中文深度学习输入法、装置及电子设备
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110765966A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN110795535A (zh) * 2019-10-28 2020-02-14 桂林电子科技大学 一种深度可分离卷积残差块的阅读理解方法
CN111028884A (zh) * 2019-11-22 2020-04-17 中国科学院深圳先进技术研究院 基因型数据缺失的填充方法、装置及服务器

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2785189A (en) * 1987-11-16 1989-06-14 Intel Corporation Memory controller as for a video signal processor
KR20190019683A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법
CN109460466A (zh) * 2018-09-20 2019-03-12 电子科技大学 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法
CN109492223A (zh) * 2018-11-06 2019-03-19 北京邮电大学 一种基于神经网络推理的中文缺失代词补全方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110110338A (zh) * 2019-05-13 2019-08-09 哈尔滨理工大学 一种基于lstm与槽填充的对话管理模型使用方法
CN110286778A (zh) * 2019-06-27 2019-09-27 北京金山安全软件有限公司 一种中文深度学习输入法、装置及电子设备
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110795535A (zh) * 2019-10-28 2020-02-14 桂林电子科技大学 一种深度可分离卷积残差块的阅读理解方法
CN110765966A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN111028884A (zh) * 2019-11-22 2020-04-17 中国科学院深圳先进技术研究院 基因型数据缺失的填充方法、装置及服务器

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CAI XIAOFENG 等: "Bidirectional LSTM-CRF Model and POS for Article Title Summarization", 《2018 INTERNATIONAL CONFERENCE ON NETWORK, COMMUNICATION, COMPUTER ENGINEERING (NCCE 2018)》 *
SHENG F. 等: "NRTR: A No-Recurrence Sequence-to-Sequence Model For Scene Text Recognition", 《2019 INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR)》 *
SUN Q. 等: "Bidirectional beam search: Forward-backward inference in neural sequence models for fill-in-the-Blank image captioning", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
刘玉明: "基于弱监督与表示学习的关系抽取算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
田宏: "不完备信息系统的数据挖掘研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *
黄利 等: "基于Sigmoid惯性权重自适应调整的粒子群优化算法", 《计算机应用研究》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118637A (zh) * 2022-01-28 2022-03-01 树根互联股份有限公司 一种配件需求的预测模型构建方法、装置及计算机设备
CN115471840A (zh) * 2022-11-03 2022-12-13 北京百度网讯科技有限公司 生成、模型的训练、识别方法、装置、电子设备及介质
CN115618863A (zh) * 2022-12-20 2023-01-17 中国科学院自动化研究所 文本事件序列生成方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN112069809B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN112069809B (zh) 一种缺失文本生成方法及系统
CN112348911B (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN110795556A (zh) 一种基于细粒度插入式解码的摘要生成方法
CN110570845B (zh) 一种基于域不变特征的语音识别方法
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN109740158B (zh) 一种文本语义解析方法及装置
CN111581374A (zh) 文本的摘要获取方法、装置及电子设备
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN109829959A (zh) 基于人脸解析的表情编辑方法及装置
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN114861601B (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN113283336A (zh) 一种文本识别方法与系统
CN111814479B (zh) 一种企业简称生成及其模型的训练方法及装置
Kišš et al. AT-ST: self-training adaptation strategy for OCR in domains with limited transcriptions
CN115908641A (zh) 一种基于特征的文本到图像生成方法、装置及介质
CN114445832A (zh) 基于全局语义的文字图像识别方法、装置及计算机设备
CN117788629B (zh) 一种具有风格个性化的图像生成方法、装置及存储介质
CN111310411A (zh) 一种基于多样性模型的文本相关性判定方法、装置和设备
Li et al. Is synthetic data from diffusion models ready for knowledge distillation?
CN112069810A (zh) 一种文本填充方法及装置
CN116663501A (zh) 一种基于多模态共享权重的中文变体文本转换方法
CN112949284A (zh) 一种基于Transformer模型的文本语义相似度预测方法
CN116090010A (zh) 基于上下文语境联系的文本生成式隐写方法
Kasi et al. A deep learning based cross model text to image generation using DC-GAN
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant