CN112069810A - 一种文本填充方法及装置 - Google Patents

一种文本填充方法及装置 Download PDF

Info

Publication number
CN112069810A
CN112069810A CN202010801195.5A CN202010801195A CN112069810A CN 112069810 A CN112069810 A CN 112069810A CN 202010801195 A CN202010801195 A CN 202010801195A CN 112069810 A CN112069810 A CN 112069810A
Authority
CN
China
Prior art keywords
filling
formula
text
sample
semantic vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010801195.5A
Other languages
English (en)
Inventor
蔡晓东
田文靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010801195.5A priority Critical patent/CN112069810A/zh
Publication of CN112069810A publication Critical patent/CN112069810A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本填充方法及装置,方法包括:对输入样本进行预处理,得到带有多个空白位置的缺失样本;对所述缺失样本进行编码,得到编码层语义向量;基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。本发明迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。

Description

一种文本填充方法及装置
技术领域
本发明主要涉及语言处理技术领域,具体涉及一种文本填充方法及装置。
背景技术
文本填充,即自动填充文本缺失部分,文本填充的目的是利用缺失部分的上下文信息来填充句子或段落的缺失部分,可以用于许多现实世界中的自然语言生成场景,例如填充空白图像,词汇约束句子生成,古代文本恢复,藏头诗生成。目前的文本填充主要基于循环神经网络,但现有的方法存在填充后的文本缺乏语义连贯性和流畅性较差的问题。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种文本填充方法及装置。
本发明解决上述技术问题的技术方案如下:一种文本填充方法,包括如下步骤:
S1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;
S2:对所述缺失样本进行编码,得到编码层语义向量;
S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
本发明解决上述技术问题的另一技术方案如下:一种文本填充装置,包括:
样本处理模块,用于对输入样本进行预处理,得到带有多个空白位置的缺失样本;
缺失样本编码模块,用于对所述缺失样本进行编码,得到编码层语义向量;
向量处理模块,用于基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
填充文本获得模块,用于根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
本发明的有益效果是:通过对输入样本的预处理得到带有多个空白位置的缺失样本,对缺失样本的编码得到编码层语义向量,基于注意力机制算法对编码层语义向量中的多个空白位置的填充得到预测层语义向量和多个用于填充空白位置的填充词,并分别对各个填充至空白位置词的标记得到多个标记填充词,根据多个标记填充词对编码层语义向量和预测层语义向量的损失分析得到填充文本,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
附图说明
图1为本发明一实施例提供的文本填充方法的流程示意图;
图2为本发明一实施例提供的文本填充装置的模块框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明一实施例提供的文本填充方法的流程示意图。
如图1所示,一种文本填充方法,包括如下步骤:
S1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;
S2:对所述缺失样本进行编码,得到编码层语义向量;
S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
应理解地,所述填充词的数量与所述空白位置的数量相同。
具体地,解码端利用注意力机制算法捕获所述编码层语义向量并逐一填充缺失空白部分,在填充过程中,解码器会逐一填补空白;对于每个片段的填充,解码器自动回归地填充缺失的标记,对stemplete中已填充的内容进行调整更新。
上述实施例中,通过对输入样本的预处理得到带有多个空白位置的缺失样本,对缺失样本的编码得到编码层语义向量,基于注意力机制算法对编码层语义向量中的多个空白位置的填充得到预测层语义向量和多个用于填充空白位置的填充词,并分别对各个填充至空白位置词的标记得到多个标记填充词,根据多个标记填充词对编码层语义向量和预测层语义向量的损失分析得到填充文本,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S1的过程包括:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
S11:通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
S12:将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
S13:将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
S14:将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
S15:将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。
优选地,所述预设第一占位符可以为_m_占位符,所述预设第二占位符可以为<boa>,所述预设第三占位符可以为<eoa>,所述预设第四占位符可以为<EOS>,所述预设第五占位符可以为<BOS>。
应理解地,所述预设第一占位符、所述预设第二占位符和所述预设第三占位符均为多个。
具体地,采用随机屏蔽的方式,用_m_占位符表示空白,并随机替换所述输入样本中的词,其中每个空白缺失的词数是任意的,同时用<boa>和<eoa>分别表示每个空白的开头和结尾,用<EOS>和<BOS>分别作为每个缺失样本的开头和结尾,从而得到所述缺失样本。
应理解地,所述随机指的是随机替换所述输入样本中的词。
上述实施例中,利用预设的占位符对输入样本进行预处理,为之后的处理提供素材,实现了捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S2的过程包括:
S21:利用词嵌入算法对所述缺失样本进行词向量化处理,得到词向量矩阵;
S22:将所述词向量矩阵输入至双向LSTM网络中,得到编码层语义向量。
上述实施例中,利用词嵌入算法对所述缺失样本的词向量化处理得到词向量矩阵;并将所述词向量矩阵输入至双向LSTM网络中得到编码层语义向量,为后续处理提供重要的参数,实现了捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S22的过程包括:
通过第一方程组对所述词向量矩阵进行计算,得到编码层语义向量,所述第一方程组包括第一式、第二式、第三式、第四式、第五式和第六式;
其中,通过第一式得到遗忘门输出,所述第一式为:
ft=σ(Wfwt+Ufht-1+bf),
通过第二式得到输入门输出,所述第二式为:
it=σ(Wiwt+Uiht-1+bi),
通过第三式得到输出门输出,所述第三式为:
ot=σ(Wowt+Uoht-1+bo),
通过第四式得到新的记忆信息,所述第四式为:
Figure BDA0002627461040000051
通过第五式得到更新的LSTM网络单元的记忆信息,所述第五式为:
ct=ft⊙ct-1+it⊙ct
通过第六式得到编码层语义向量,所述第六式为:
ht=ottanh(ct),
其中,ft为遗忘门输出,it为输入门输出,ot为输出门输出,Wf为遗忘门权重矩阵,Wi为输入门权重矩阵,Wo为输出门权重矩阵,Wc为选择门权重矩阵,bf为遗忘门偏置向量,bi为输入门偏置向量,bo为输出门偏置向量,bc为选择门偏置向量,Uf为遗忘门权重矩阵,Ui为输入门权重矩阵,Uo为输出门权重矩阵,Uc为选择门权重矩阵,
Figure BDA0002627461040000061
为新的记忆信息,ct为更新的LSTM网络单元的记忆信息,ct-1为上一时刻的LSTM网络单元的记忆信息,tanh()为双曲正切函数,σ为sigmoid激活函数,⊙为元素乘积,ht-1为t-1时刻的隐藏层输出,wt为t时刻的输入信息,ht为编码层语义向量。
具体地,模型使用双向的LSTM网络作为编码器提取文本的语义特征,该网络能够捕获文本的长距离依赖关系。LSTM网络由遗忘门、输入门、选择门和输出门四个相互交互的门单元组成,如下式:
ft=σ(Wfwt+Ufht-1+bf)
it=σ(Wiwt+Uiht-1+bi)
ot=σ(Wowt+Uoht-1+bo)
Figure BDA0002627461040000062
ct=ft⊙ct-1+it⊙ct1
ht=ottanh(ct)
上式中,ft、it和ot分别为遗忘门输出、输入门输出和输出门输出;Wf、Wi、Wo、Wc、bf、bi、bo、bc为遗忘门、输入门、输出门、选择门的权重矩阵和偏置向量;Uf为遗忘门权重矩阵,Ui为输入门权重矩阵,Uo为输出门权重矩阵,Uc为选择门权重矩阵,ct-1为上一时刻的LSTM网络单元的记忆信息,
Figure BDA0002627461040000063
为新的记忆信息;ct为更新的LSTM网络单元的记忆信息;σ为sigmoid激活函数;⊙为元素乘积;ht-1为t-1时刻的隐藏层输出,wt为t时刻的输入信息。
通过双向的LSTM网络编码处理,得到x语句上下文隐藏向量表达式矩阵
Figure BDA0002627461040000064
其中,
Figure BDA0002627461040000065
为前向LSTM网络的隐藏层向量,
Figure BDA0002627461040000066
为反向LSTM网络的隐藏层向量。
上述实施例中,通过第一方程组对所述词向量矩阵的计算得到编码层语义向量,为后续处理提供重要的参数,实现了捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S4过程包括:
S41:对多个所述标记填充词进行计算,得到交叉熵总损失;
S42:根据所述编码层语义向量对所述预测层语义向量进行计算,得到相似度损失;
S43:根据所述交叉熵总损失对所述相似度损失进行计算,得到网络总损失;
S44:判断所述网络总损失是否有变化,若有变化,则返回步骤S3;若无变化,则将对应的文本作为填充文本。
上述实施例中,对多个所述标记填充词的计算得到交叉熵总损失;根据所述编码层语义向量对所述预测层语义向量的计算得到相似度损失;根据所述交叉熵总损失对所述相似度损失的计算得到网络总损失;通过判断所述网络总损失是否有变化得到填充文本,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S41的过程包括:
S411:通过第七式分别对多个所述标记填充词进行计算,得到多个交叉熵损失,所述第七式为:
Figure BDA0002627461040000071
其中,a∈m,m为标记填充词数目,x′(i,0)为第一个标记填充词,x′(i,oi)为最后一个标记填充词,s′i为一句话缺失的部分;
S412:通过第八式对多个所述交叉熵损失进行计算,得到交叉熵总损失,所述第八式为:
Le=∑La
其中,a∈m,La为交叉熵损失,Le为交叉熵总损失。
上述实施例中,通过第七式分别对多个所述标记填充词的计算得到多个交叉熵损失,通过第八式对多个所述交叉熵损失的计算得到交叉熵总损失,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S42的过程包括:
通过第九式对所述编码层语义向量对所述预测层语义向量进行计算,得到相似度损失,所述第九式为:
Lc=λcos(Vs,Vt),
其中,
Figure BDA0002627461040000081
其中,Lc为相似度损失,Vs为编码层语义向量,Vt为预测层语义向量,λ为相似度损失函数参数。
应理解地,计算所述编码层语义向量和所述预测层语义向量之间的距离,将其与交叉熵损失函数共同反馈调节预测网络,进而迭代减小语义损失。
上述实施例中,通过第九式对所述编码层语义向量对所述预测层语义向量的计算得到相似度损失,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
可选地,作为本发明的一个实施例,所述步骤S43的过程包括:
通过第十式对所述交叉熵总损失和所述相似度损失进行计算,得到网络总损失,所述第十式为:
L=Le+λLc
其中,L为网络总损失,Le为交叉熵总损失,Lc为相似度损失,λ为相似度损失函数参数。
上述实施例中,通过第十式对所述交叉熵总损失和所述相似度损失的计算得到网络总损失,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。
图2为本发明一实施例提供的文本填充装置的模块框图。
可选地,作为本发明的另一个实施例,如图2所示,一种文本填充装置,包括:
样本处理模块,用于对输入样本进行预处理,得到带有多个空白位置的缺失样本;
缺失样本编码模块,用于对所述缺失样本进行编码,得到编码层语义向量;
向量处理模块,用于基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
填充文本获得模块,用于根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
可选地,作为本发明的一个实施例,所述样本处理模块具体用于:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。用于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本填充方法,其特征在于,包括如下步骤:
S1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;
S2:对所述缺失样本进行编码,得到编码层语义向量;
S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
2.根据权利要求1所述的文本填充方法,其特征在于,所述步骤S1的过程包括:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
S11:通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
S12:将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
S13:将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
S14:将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
S15:将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。
3.根据权利要求2所述的文本填充方法,其特征在于,所述步骤S2的过程包括:
S21:利用词嵌入算法对所述缺失样本进行词向量化处理,得到词向量矩阵;
S22:将所述词向量矩阵输入至双向LSTM网络中,得到编码层语义向量。
4.根据权利要求3所述的文本填充方法,其特征在于,所述步骤S22的过程包括:
通过第一方程组对所述词向量矩阵进行计算,得到编码层语义向量,所述第一方程组包括第一式、第二式、第三式、第四式、第五式和第六式;
其中,通过第一式得到遗忘门输出,所述第一式为:
ft=σ(Wfwt+Ufht-1+bf),
通过第二式得到输入门输出,所述第二式为:
it=σ(Wiwt+Uiht-1+bi),
通过第三式得到输出门输出,所述第三式为:
ot=σ(Wowt+Uoht-1+bo),
通过第四式得到新的记忆信息,所述第四式为:
Figure FDA0002627461030000021
通过第五式得到更新的LSTM网络单元的记忆信息,所述第五式为:
ct=ft⊙ct-1+it⊙ct
通过第六式得到编码层语义向量,所述第六式为:
ht=ottanh(ct),
其中,ft为遗忘门输出,it为输入门输出,ot为输出门输出,Wf为遗忘门权重矩阵,Wi为输入门权重矩阵,Wo为输出门权重矩阵,Wc为选择门权重矩阵,bf为遗忘门偏置向量,bi为输入门偏置向量,bo为输出门偏置向量,bc为选择门偏置向量,Uf为遗忘门权重矩阵,Ui为输入门权重矩阵,Uo为输出门权重矩阵,Uc为选择门权重矩阵,
Figure FDA0002627461030000022
为新的记忆信息,ct为更新的LSTM网络单元的记忆信息,ct-1为上一时刻的LSTM网络单元的记忆信息,tanh()为双曲正切函数,σ为sigmoid激活函数,⊙为元素乘积,ht-1为t-1时刻的隐藏层输出,wt为t时刻的输入信息,ht为编码层语义向量。
5.根据权利要求1至4任一项所述的文本填充方法,其特征在于,所述步骤S4过程包括:
S41:对多个所述标记填充词进行计算,得到交叉熵总损失;
S42:根据所述编码层语义向量对所述预测层语义向量进行计算,得到相似度损失;
S43:根据所述交叉熵总损失对所述相似度损失进行计算,得到网络总损失;
S44:判断所述网络总损失是否有变化,若有变化,则返回步骤S3;若无变化,则将对应的文本作为填充文本。
6.根据权利要求5所述的文本填充方法,其特征在于,所述步骤S41的过程包括:
S411:通过第七式分别对多个所述标记填充词进行计算,得到多个交叉熵损失,所述第七式为:
Figure FDA0002627461030000031
其中,a∈m,m为标记填充词数目,x′(i,0)为第一个标记填充词,
Figure FDA0002627461030000032
为最后一个标记填充词,s′i为一句话缺失的部分;
S412:通过第八式对多个所述交叉熵损失进行计算,得到交叉熵总损失,所述第八式为:
Le=∑La
其中,a∈m,La为交叉熵损失,Le为交叉熵总损失。
7.根据权利要求6所述的文本填充方法,其特征在于,所述步骤S42的过程包括:
通过第九式对所述编码层语义向量对所述预测层语义向量进行计算,得到相似度损失,所述第九式为:
Lc=λcos(Vs,Vt),
其中,
Figure FDA0002627461030000041
其中,Lc为相似度损失,Vs为编码层语义向量,Vt为预测层语义向量,λ为相似度损失函数参数。
8.根据权利要求7所述的文本填充方法,其特征在于,所述步骤S43的过程包括:
通过第十式对所述交叉熵总损失和所述相似度损失进行计算,得到网络总损失,所述第十式为:
L=Le+λLc
其中,L为网络总损失,Le为交叉熵总损失,Lc为相似度损失,λ为相似度损失函数参数。
9.一种文本填充装置,其特征在于,包括:
样本处理模块,用于对输入样本进行预处理,得到带有多个空白位置的缺失样本;
缺失样本编码模块,用于对所述缺失样本进行编码,得到编码层语义向量;
向量处理模块,用于基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
填充文本获得模块,用于根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
10.根据权利要求9所述的文本填充装置,其特征在于,所述样本处理模块具体用于:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。
CN202010801195.5A 2020-08-11 2020-08-11 一种文本填充方法及装置 Pending CN112069810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010801195.5A CN112069810A (zh) 2020-08-11 2020-08-11 一种文本填充方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010801195.5A CN112069810A (zh) 2020-08-11 2020-08-11 一种文本填充方法及装置

Publications (1)

Publication Number Publication Date
CN112069810A true CN112069810A (zh) 2020-12-11

Family

ID=73662639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010801195.5A Pending CN112069810A (zh) 2020-08-11 2020-08-11 一种文本填充方法及装置

Country Status (1)

Country Link
CN (1) CN112069810A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613282A (zh) * 2020-12-31 2021-04-06 桂林电子科技大学 一种文本生成方法、装置及存储介质
CN112818098A (zh) * 2021-01-29 2021-05-18 平安国际智慧城市科技股份有限公司 基于知识库的对话生成方法、装置、终端及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826338A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826338A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUMING MA 等: "Improving Semantic Relevance for Sequence-to-Sequence Learning of Chinese Social Media Text Summarization", 《ARXIV:1706.02459V1》 *
WANRONG ZHU 等: "Text Infilling", 《ARXIV:1901.00158V2》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613282A (zh) * 2020-12-31 2021-04-06 桂林电子科技大学 一种文本生成方法、装置及存储介质
CN112818098A (zh) * 2021-01-29 2021-05-18 平安国际智慧城市科技股份有限公司 基于知识库的对话生成方法、装置、终端及存储介质
CN112818098B (zh) * 2021-01-29 2023-11-24 深圳平安智慧医健科技有限公司 基于知识库的对话生成方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
Lopes et al. A learned representation for scalable vector graphics
CN110795556A (zh) 一种基于细粒度插入式解码的摘要生成方法
CN109271646A (zh) 文本翻译方法、装置、可读存储介质和计算机设备
CN111401375A (zh) 文本识别模型训练方法、文本识别方法、装置及设备
CN111161740A (zh) 意图识别模型训练方法、意图识别方法以及相关装置
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN113435594B (zh) 安防检测模型训练方法、装置、设备及存储介质
CN112069810A (zh) 一种文本填充方法及装置
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN112069809B (zh) 一种缺失文本生成方法及系统
Mattick et al. SmartPatch: improving handwritten word imitation with patch discriminators
CN112347245A (zh) 面向投融资领域机构的观点挖掘方法、装置和电子设备
Li et al. Research into an image inpainting algorithm via multilevel attention progression mechanism
CN116993864A (zh) 一种图像生成方法、装置、电子设备及存储介质
CN114861601A (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN112926344B (zh) 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN112749639B (zh) 模型训练方法、装置、计算机设备和存储介质
Campana et al. Variable-hyperparameter visual transformer for efficient image inpainting
CN112256953B (zh) 查询改写方法、装置、计算机设备和存储介质
CN114091475A (zh) 对话文本生成方法、装置、电子设备及存储介质
CN110109994B (zh) 包含结构化和非结构化数据的汽车金融风控系统
Zheng et al. General framework for reversible data hiding in texts based on masked language modeling
Yang et al. Self-Supervised Cross-Language Scene Text Editing
CN110895660A (zh) 一种基于句法依存关系动态编码的语句处理方法及装置
CN111815631B (zh) 模型生成方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201211