CN110795912B - 基于神经网络对文本编码的方法、装置、设备及存储介质 - Google Patents

基于神经网络对文本编码的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110795912B
CN110795912B CN201910884713.1A CN201910884713A CN110795912B CN 110795912 B CN110795912 B CN 110795912B CN 201910884713 A CN201910884713 A CN 201910884713A CN 110795912 B CN110795912 B CN 110795912B
Authority
CN
China
Prior art keywords
coding
hidden state
target
source sentence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910884713.1A
Other languages
English (en)
Other versions
CN110795912A (zh
Inventor
陈霖捷
黄章成
孔令炜
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910884713.1A priority Critical patent/CN110795912B/zh
Priority to PCT/CN2019/118253 priority patent/WO2021051595A1/zh
Publication of CN110795912A publication Critical patent/CN110795912A/zh
Application granted granted Critical
Publication of CN110795912B publication Critical patent/CN110795912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及神经网络领域,提供基于神经网络对文本编码的方法、装置、设备及存储介质,方法包括:编码器将训练文本转换为文本序列,根据目标词的左右相邻熵增加与目标词关联的关联词的权重;编码改进器根据各关联词的权重监控权重高于预设权重的目标关联词、监控与目标关联词关联的目标词;根据解码器的第一隐藏状态和第二隐藏状态更新编码质量判断条件;若编码结果的编码质量符合编码质量判断条件,则解码器对目标语言序列进行解码;若不符合则调整各源句子的向量表示,重复执行上述操作直至编码质量符合编码质量判断条件后,对目标语言序列进行解码。本方案使得源语言序列的向量表示持续向目标端表达的方向改善,进而改善翻译模型的效果。

Description

基于神经网络对文本编码的方法、装置、设备及存储介质
技术领域
本申请涉及神经网络技术领域,尤其涉及一种基于神经网络对文本编码 的方法、装置、设备及存储介质。
背景技术
在机器翻译领域中,一般采用Transformer神经网络机器翻译模型实现多 语种翻译。Transformer神经网络机器翻译模型使用一个解码器-编码器的结构 来模拟整个翻译过程。编码器将输入Transformer神经网络机器翻译模型的文 本分解为词汇量级的表达,并根据词频统计和双向编码原理将词汇表示为数 字集合的形式,即词向量形式,编码器输出的向量能够精炼文本中各句子的 内容。
但是,如果输入的文本质量不高或者语义较难理解,那么在编码器编码 时可能出现问题。在人工翻译一段文本时,人们通常会对源句子有一个初始 化的理解,再根据语义逐渐改善语义理解,并向目标语言逐渐靠拢。在传统 的Transformer神经网络机器翻译模型中,编码器只对源句子进行一次初始化 编码,相较于人工翻译过程中对源句子的初始理解时编码器只对源句子进行 一次初始化编码的情况,当源句子为长难句或者语义关系复杂的句子时,则 会导致编码端的输出结果不理想,进而影响后续对Transformer神经网络机器 翻译模型的训练,以及目标句的输出效果。
发明内容
本申请提供了一种基于神经网络对文本编码的方法、装置、设备及存储 介质,能够解决现有技术中机器翻译长难句或者语义关系复杂的句子时,编 码端的输出结果不理想的问题。
第一方面,本申请提供一种基于神经网络对文本编码的方法,所述方法 应用于机器翻译装置,所述机器翻译装置中部署机器翻译模型,所述机器翻 译模型用于模拟整个翻译过程,所述机器翻译模型包括编码器、解码器和编 码改进器;所述方法包括:
所述编码器获取训练文本,将所述训练文本转换为文本序列,所述文本 序列按照先后顺序依次输入编码器,根据多注意力模型对所述文本序列进行 双向编码,得到编码结果,以及关注各目标词的左右相邻熵;
所述编码器计算各目标词的左右相邻熵,根据目标词的左右相邻熵增加 与目标词关联的关联词的权重,以及将所述文本序列中的各源句子分别初始 化为向量表示;
所述编码改进器根据各关联词的权重监控权重高于预设权重的目标关联 词、以及监控与目标关联词关联的目标词;
所述编码改进器从所述解码器接收解码器的第一隐藏状态和第二隐藏状 态,根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件;
所述编码改进器根据更新后的所述编码质量判断条件判断所述编码结果 是否符合所述编码质量判断条件;
若所述编码结果的编码质量符合所述编码质量判断条件,则所述解码器 对所述目标语言序列进行解码;
若所述编码结果的编码质量不符合所述编码质量判断条件,则所述解码 器调整所述文本序列中的各源句子的向量表示,并重复执行从所述解码器接 收解码器的第一隐藏状态和第二隐藏状态,根据所述第一隐藏状态和所述第 二隐藏状态更新编码质量判断条件,以及根据更新后的所述编码质量判断条 件判断所述编码结果是否符合所述编码质量判断条件的操作,直至编码质量 符合所述编码质量判断条件后,对所述目标语言序列进行解码;所述第一隐 藏状态为解码器当前的隐藏状态,所述第二隐藏状态为所述解码器上一次的 隐藏状态。
一种可能的设计中,所述根据多注意力模型对所述文本序列进行双向编 码,得到编码结果,以及关注目标词的左右相邻熵,包括:
所述编码器将所述源句子中的构成元素作为由一系列的<Key,Value>数据 对构成;从所述源句子中选择一个目标词的某个元素Query,计算所述Query 和各个Key的相似性(或者相关性),得到每个Key对应Value值的权重系数;
所述编码器对Value进行加权求和,得到所述源句子对应的注意Attention 值;
所述编码器根据各源句子对应的注意Attention值对各源句子中的目标词 进行双向编码,以及关注各目标词的左右相邻熵;
其中,权重系数的一种计算公式如下:
Figure BDA0002206948740000031
Attention值的一种计算公式如下:
Figure BDA0002206948740000032
其中,ai为权重系数,Lx=||Source||代表源句子的长度。由于在计算 Attention值的过程中,源句子中的Key和Value合二为一且指向的是同一个 对象,所以向多关注模型中输入源句子中每个单词对应的语义编码。
一种可能的设计中,所述计算各目标词的左右相邻熵,根据目标词的左 右相邻熵增加与目标词关联的关联词的权重,将所述文本序列中的各源句子 分别初始化为向量表示,包括:
所述编码器分别计算目标词的左熵和右熵;计算目标词的左熵和右熵之 间的最小值;
若目标词的左熵和右熵之间的最小值高于预设阈值,则所述编码器确定 所述目标词与关联词之间存在相关性,并分别按照目标词的左熵和右熵增加 与目标词关联的各关联词的权重。
一种可能的设计中,所述编码质量判断条件包括多个文本控制门,所述 文本控制门用于从所述文本序列中查找最优的隐藏状态序列。文本控制门还 可以用于判断所述文本序列中各源句子的语法是否正确,判断源句子的行数 是否超出预设行数,用于判断所述文本序列中各源句子的字数是否超出预设 次数,以及用于判断所述文本序列中各源句子的大小写是否正确。
一种可能的设计中,所述编码器从所述解码器获取解码器的第一隐藏状 态和第二隐藏状态,包括:
所述编码器根据第一方程组对源句子序列的局部状态进行初始化,所述 第一方程组为:
δ1(i)=πibi(o1)
Ψ1(i)=0
其中,i=1,2...N;
根据第二方程组分别对所述源句子序列进行动态规划并递推隐藏状态Ψt (i)在时刻t=2,3,...T时的局部状态:所述第二方程组为:
δt(i)=max[δt-1(j)aji]bi(0t)
Ψt(i)=argmax[δt-1(j)aji]
其中,1≤j≤N。
所述编码器根据第三方程组计算时刻T最大的概率δT(i),δT(i)为计算最 可能隐藏状态序列出现的概率P*,以及计算时刻T最大的隐藏状态Ψt(i),Ψt (i)为时刻T最可能的隐藏状态;所述第三方程组为:
P*=maxδT(i)
i*T=argmax[δT(i)]
所述编码器根据第四方程组和利用局部状态Ψ(i)开始回溯,对于t=T-1,T -2,...,1时:所述第四方程组为i*t=Ψt+1(i*t+1);
所述编码器根据局部状态Ψ(i)从时刻0一直递推到时刻T,利用Ψt(i)记 录的前一个最可能的状态节点回溯,直到找到最有可能的隐藏状态序列I*={i *1,i*2,...i*T}。
一种可能的设计中,所述根据更新后的所述编码质量判断条件判断所述 编码结果是否符合所述编码质量判断条件,包括:
根据sigmoid激活函数、第一权重矩阵、第二权重矩阵、所述第一隐藏状 态和所述第二隐藏状态计算每个文本控制门的向量;其中,计算每个文本控 制门的向量的公式如下:
Figure BDA0002206948740000041
其中,
Figure BDA0002206948740000042
为文本控制门的向量,σ(W*hi+U*si-1+bz)是sigmoid激活函数, W和U为权重矩阵,hi是指解码器的第一隐藏状态,si-1是指编码器的第二隐 藏状态,bz是偏置向量;
根据各文本控制门的向量判断各源句子的向量表示的差值是否小于偏置 向量;
若是,则确定所述编码结果的编码质量符合所述编码质量判断条件。
一种可能的设计中,所述解码器调整所述文本序列中的各源句子的向量 表示之前,所述方法还包括:
所述编码改进器将不符合所述编码质量条件的源句子的向量表示输入编 码改进器。
所述编码改进器采用第一编码公式对所述第一隐藏状态进行改进调整:
所述第一编码公式为
Figure BDA0002206948740000051
其中,/>
Figure BDA0002206948740000052
是指编码改进器对所述第一隐藏 状态进行改进后的隐藏状态;
所述编码改进器根据改进后的所述第一隐藏状态
Figure BDA0002206948740000053
对所述源语言序列进 行重新编码,得到目标隐藏状态,得到所述目标隐藏状态的第二编码公式为:
Figure BDA0002206948740000054
其中,encoderre为编码改进器使用的编码函数,
Figure BDA0002206948740000055
分别为所述源语 言序列在1、2、…j..,J时刻的隐藏状态。
第二方面,本申请提供一种机器翻译装置,具有实现对应于上述第一方 面提供的基于神经网络对文本编码的方法的功能。所述功能可以通过硬件实 现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上 述功能相对应的模块,所述模块可以是软件和/或硬件。
一种可能的设计中,所述机器翻译装置中部署机器翻译模型,所述机器 翻译模型用于模拟整个翻译过程,所述机器翻译装置包括:
编码器,用于获取训练文本,将所述训练文本转换为文本序列,所述文 本序列按照先后顺序依次输入编码器,根据多注意力模型对所述文本序列进 行双向编码,得到编码结果,以及关注各目标词的左右相邻熵;以及计算各 目标词的左右相邻熵,根据目标词的左右相邻熵增加与目标词关联的关联词 的权重,以及将所述文本序列中的各源句子分别初始化为向量表示;
编码改进器,用于根据各关联词的权重监控权重高于预设权重的目标关 联词、以及监控与目标关联词关联的目标词;从所述解码器接收解码器的第 一隐藏状态和第二隐藏状态,根据所述第一隐藏状态和所述第二隐藏状态更 新编码质量判断条件;根据更新后的所述编码质量判断条件判断所述编码结 果是否符合所述编码质量判断条件;所述第一隐藏状态为解码器当前的隐藏 状态,所述第二隐藏状态为所述解码器上一次的隐藏状态;
解码器,用于若所述编码结果的编码质量符合所述编码质量判断条件, 则对所述目标语言序列进行解码;
所述编码改进器还用于若所述编码结果的编码质量不符合所述编码质量 判断条件,则调整所述文本序列中的各源句子的向量表示,并重复执行从所 述解码器接收解码器的第一隐藏状态和第二隐藏状态,根据所述第一隐藏状 态和所述第二隐藏状态更新编码质量判断条件,以及根据更新后的所述编码 质量判断条件判断所述编码结果是否符合所述编码质量判断条件的操作,直 至编码质量符合所述编码质量判断条件后,对所述目标语言序列进行解码。
一种可能的设计中,所述编码器具体用于:
将所述源句子中的构成元素作为由一系列的<Key,Value>数据对构成;
从所述源句子中选择一个目标词的某个元素Query,计算所述Query和各 个Key的相似性(或者相关性),得到每个Key对应Value值的权重系数;
对Value进行加权求和,得到所述源句子对应的注意Attention值;
根据各源句子对应的注意Attention值对各源句子中的目标词进行双向编 码,以及关注各目标词的左右相邻熵;
其中,权重系数的一种计算公式如下:
Figure BDA0002206948740000061
Attention值的一种计算公式如下:
Figure BDA0002206948740000062
其中,ai为权重系数,Lx=||Source||代表源句子的长度。由于在计算 Attention值的过程中,源句子中的Key和Value合二为一且指向的是同一个 对象,所以向多关注模型中输入源句子中每个单词对应的语义编码。
一种可能的设计中,所述编码器具体用于:
分别计算目标词的左熵和右熵;
计算目标词的左熵和右熵之间的最小值;
若目标词的左熵和右熵之间的最小值高于预设阈值,则确定所述目标词 与关联词之间存在相关性,则分别按照目标词的左熵和右熵增加与目标词关 联的各关联词的权重。
一种可能的设计中,所述编码质量判断条件包括多个文本控制门,所述 文本控制门用于从所述文本序列中查找最优的隐藏状态序列。文本控制门还 可以用于判断所述文本序列中各源句子的语法是否正确,判断源句子的行数 是否超出预设行数,用于判断所述文本序列中各源句子的字数是否超出预设 次数,以及用于判断所述文本序列中各源句子的大小写是否正确。
一种可能的设计中,所述编码器具体用于:
根据第一方程组对源句子序列的局部状态进行初始化,所述第一方程组 为:
δ1(i)=πibi(o1)
Ψ1(i)=0
其中,i=1,2...N;
根据第二方程组分别对所述源句子序列进行动态规划并递推隐藏状态Ψt (i)在时刻t=2,3,...T时的局部状态:所述第二方程组为:
δt(i)=max[δt-1(j)aji]bi(0t)
Ψt(i)=argmax[δt-1(j)aji]
其中,1≤j≤N。
根据第三方程组计算时刻T最大的概率δT(i),δT(i)为计算最可能隐藏状 态序列出现的概率P*,以及计算时刻T最大的隐藏状态Ψt(i),Ψt(i)为时刻T 最可能的隐藏状态;所述第三方程组为:
P*=maxδT(i)
i*T=argmax[δT(i)]
根据第四方程组和利用局部状态Ψ(i)开始回溯,对于t=T-1,T-2,...,1时: 所述第四方程组为i*t=Ψt+1(i*t+1);
根据局部状态Ψ(i)从时刻0一直递推到时刻T,利用Ψt(i)记录的前一个 最可能的状态节点回溯,直到找到最有可能的隐藏状态序列I*={i*1,i*2,...i*T}。
一种可能的设计中,所述编码器具体用于:
根据sigmoid激活函数、第一权重矩阵、第二权重矩阵、所述第一隐藏状 态和所述第二隐藏状态计算每个文本控制门的向量;其中,计算每个文本控 制门的向量的公式如下:
Figure BDA0002206948740000071
其中,
Figure BDA0002206948740000072
为文本控制门的向量,σ(W*hi+U*si-1+bz)是sigmoid激活函数, W和U为权重矩阵,hi是指解码器的第一隐藏状态,si-1是指编码器的第二隐 藏状态,bz是偏置向量;
根据各文本控制门的向量判断各源句子的向量表示的差值是否小于偏置 向量;
若是,则确定所述编码结果的编码质量符合所述编码质量判断条件。
一种可能的设计中,所述解码器在调整所述文本序列中的各源句子的向 量表示之前,还用于:
将不符合所述编码质量条件的源句子的向量表示输入编码改进器。
所述编码改进器采用第一编码公式对所述第一隐藏状态进行改进调整:
h-_j^i=z_j^i·h_j,其中,h-_j^i是指编码改进器对所述第一隐藏状态进行改进后的隐藏状态;
根据改进后的所述第一隐藏状态h-_j^i对所述源语言序列进行重新编码, 得到目标隐藏状态,得到所述目标隐藏状态的第二编码公式为:
Figure BDA0002206948740000081
其中,encoderre为编码改进器使用的编码函数,
Figure BDA0002206948740000082
分别为所述源语 言序列在1、2、…j..,J时刻的隐藏状态。
本申请又一方面提供了一种计算机设备,其包括至少一个连接的处理器、 存储器、编码器、编码改进器和解码器,其中,所述存储器用于存储程序代 码,所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述 的方法。
本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算 机上运行时,使得计算机执行上述第一方面所述的方法。
相较于现有技术,本申请提供的方案中,编码器将训练文本转换为文本 序列,根据目标词的左右相邻熵增加与目标词关联的关联词的权重;编码改 进器根据各关联词的权重监控权重高于预设权重的目标关联词、监控与目标 关联词关联的目标词;根据解码器的第一隐藏状态和第二隐藏状态更新编码 质量判断条件;若编码结果的编码质量符合编码质量判断条件,则解码器对 目标语言序列进行解码;若不符合则调整各源句子的向量表示,重复执行上 述操作直至编码质量符合编码质量判断条件后,对目标语言序列进行解码。 本方案使得源语言序列的向量表示持续向目标端表达的方向改善,进而改善 翻译模型的效果。
附图说明
图1为本申请实施例中基于神经网络对文本编码的方法的一种流程示意 图;
图2为本申请实施例中机器翻译装置的一种结构示意图;
图3为本申请实施例机器翻译装置的一种结构示意图;
图4为本申请实施例中计算机设备的一种结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定 本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二” 等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理 解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除 了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有” 以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步 骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤 或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备 固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上 的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合 成或集成在另一个系统中,或一些特征可以忽略,或不执行。
本申请提供一种基于神经网络对文本编码的方法、装置、设备及存储介 质,可用于模拟整个机器翻译过程。
为解决上述技术问题,本申请主要提供以下技术方案:
通过模仿人工翻译的思路,首先在编码器端的对输入序列进行初次编码, 其次通过判断编码质量条件是否符合要求,根据目标文本的效果动态更新编 码质量判断条件,将不符合编码质量条件的编码结果输入编码改进器,并对 不符合编码质量条件的编码结果进行调整,使得源语言序列的向量表示会持 续向目标端表达的方向改善,进而改善编码器-解码器翻译模型的效果。
参照图1,以下介绍本申请实施例中的一种基于神经网络对文本编码的方 法,本方案由机器翻译装置执行,该机器翻译装置中部署机器翻译模型,该 机器翻译模型用于模拟整个翻译过程,所述机器翻译模型包括编码器、解码 器和编码改进器。所述方法包括:
101、所述编码器获取训练文本,将所述训练文本转换为文本序列。
所述训练文本为源语言文本,所述训练文本包括多个源句子,至少一个 所述源句子中包括至少一个目标词,目标词是指待重点关注的单词。
102、所述编码器将所述文本序列按照先后顺序依次输入编码器,根据多 注意力模型对所述文本序列进行双向编码,得到编码结果,以及关注各目标 词的左右相邻熵。
其中,所述多注意力模型是指利用多个查询来平行地计算从输入信息中 选取多个信息,每个注意力关注输入信息的不同部分。所述多注意力模型可 以使得神经网络具备专注于其输入(或特征)子集的能力,即有选择性的关 注机器视觉区域中的特定部分。
一些实施方式中,所述根据多注意力模型对所述文本序列进行双向编码, 得到编码结果,以及关注目标词的左右相邻熵,包括:
将所述源句子中的构成元素看作由一系列的<Key,Value>数据对构成;
从所述源句子中选择一个目标词的某个元素Query,计算所述Query和各 个Key的相似性(或者相关性),得到每个Key对应Value值的权重系数;
对Value进行加权求和,得到所述源句子对应的注意Attention值;
根据各源句子对应的注意Attention值对各源句子中的目标词进行双向编 码,以及关注各目标词的左右相邻熵。
可见,所述多注意力模型是对源句子中元素的Value值进行加权求和, Query和Key用于计算对应Value值的权重系数。其中,权重系数的一种计算 公式如下:
Figure BDA0002206948740000111
Attention值的一种计算公式如下:
Figure BDA0002206948740000112
其中,ai为权重系数,Lx=||Source||代表源句子的长度。由于在计算 Attention值的过程中,源句子中的Key和Value合二为一且指向的是同一个 对象,所以向多关注模型中输入源句子中每个单词对应的语义编码。如图2 为在编码器中引入注意力模型后的一种框架示意图:
由图2可见,通过在编码器中加入多注意力模型,能够明显改善编码器 的输出效果,多注意力模型起到了类似人类视觉选择性注意的作用,在输出 某个实体(即目标词)时会将注意力焦点聚焦在文本序列中相应的位置上。
引入多注意力模型,将源句子中每个词的位置信息都保存下来。这样, 在解码过程中生成每一个目标语言的单词时,通过多注意力模型即可直接从 保存的源句子中每个词的位置信息中选择相关的信息作为辅助,在解码的每 一步都可以直接访问源句子中每个词的所有位置信息上的信息。此外,源句 子中每个词的位置信息可以直接传递到解码过程中的每一步,能够缩短信息 传递的距离。
103、所述编码器计算各目标词的左右相邻熵,根据目标词的左右相邻熵 增加与目标词关联的关联词的权重,以及将所述文本序列中的各源句子分别 初始化为向量表示。
其中,所述与目标词关联的关联词的权重是指关联词在所述文本序列中 的重要性。
一些实施方式中,所述计算各目标词的左右相邻熵,根据目标词的左右 相邻熵增加与目标词关联的关联词的权重,将所述文本序列中的各源句子分 别初始化为向量表示,包括:
分别计算目标词的左熵和右熵;
计算目标词的左熵和右熵之间的最小值;
若目标词的左熵和右熵之间的最小值高于预设阈值,则确定所述目标词 与关联词之间存在相关性,则分别按照目标词的左熵和右熵增加与目标词关 联的各关联词的权重。
通过增加重要关联词的权重,能够使得源语言序列在向量表达的初始化 时就获得一个较好的效果,减少训练时间成本。
104、所述编码改进器根据各关联词的权重监控权重高于预设权重的目标 关联词、以及监控与目标关联词关联的目标词。
在设置各目标词关联的关联词的权重后,对这些关联词和目标词进行特 征监控,以防止这些重要的词的质量下降,进而影响机器翻译模型的翻译效 果。
105、所述编码改进器从所述解码器接收解码器的第一隐藏状态和第二隐 藏状态,根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件。
其中,所述第一隐藏状态为解码器当前的隐藏状态,所述第二隐藏状态 为所述解码器上一次的隐藏状态。所述第一隐藏状态和所述第二隐藏状态均 可用序列表示,隐藏状态也可称为隐藏状态序列,本申请不对此作限定。
一些实施方式中,所述编码质量判断条件包括多个文本控制门,文本控 制门用于从所述文本序列中查找最优的隐藏状态序列。文本控制门还可以用 于判断所述文本序列中各源句子的语法是否正确,判断源句子的行数是否超 出预设行数,用于判断所述文本序列中各源句子的字数是否超出预设次数, 以及用于判断所述文本序列中各源句子的大小写是否正确。文本控制门也可 以称为文本控制器,本申请不对次作限定。
一些实施方式中,所述编码器从所述解码器获取解码器的第一隐藏状态 和第二隐藏状态,根据所述第一隐藏状态和所述第二隐藏状态更新编码质量 判断条件,包括:
基于维特比算法对HMM进行解码,解码得到所述HMM模型中最可能 隐藏状态序列。
其中,所述维特比算法是指基于动态规划的求序列最短路径的方法。找 到合适的局部状态,以及局部状态的递推公式。在HMM模型中,维特比算 法定义了两个局部状态用于递推。
下面介绍基于维特比算法进行文本挖掘的流程:
HMM模型的输入:HMM模型λ=(A,B,Π),源句子序列O=(o1,o2,...oT)。
HMM模型的输出:HMM模型中最有可能的隐藏状态序列I*={i*1,i*2,...i *T}。
一、根据第一方程组对源句子序列的局部状态进行初始化,所述第一方 程组为:
δ1(i)=πibi(o1)
Ψ1(i)=0
其中,i=1,2...N。
二、根据第二方程组分别对所述源句子序列进行动态规划并递推隐藏状 态Ψt(i)在时刻t=2,3,...T时的局部状态,所述第二方程组为:
δt(i)=max[δt-1(j)aji]bi(0t)
Ψt(i)=argmax[δt-1(j)aji]
其中,1≤j≤N。
三、根据所述第三方程组计算时刻T最大的概率δT(i),δT(i)为计算最可 能隐藏状态序列出现的概率P*,以及计算时刻T最大的隐藏状态Ψt(i),Ψt(i) 为时刻T最可能的隐藏状态。所述第三方程组为:
P*=maxδT(i)
i*T=argmax[δT(i)]
四、根据第四方程组利用局部状态Ψ(i)开始回溯。
对于t=T-1,T-2,...,1时,所述第四方程组为:
i*t=Ψt+1(i*t+1)
根据局部状态Ψ(i)从时刻0一直递推到时刻T,然后利用Ψt(i)记录的前 一个最可能的状态节点回溯,直到找到最优的隐藏状态序列,即最终得到最 有可能的隐藏状态序列I*={i*1,i*2,...i*T}。
可见,通过更新所述编码质量判断条件,以初始编码改善编码效果,动 态更新源语言序列的向量表达。
106、所述编码改进器根据更新后的所述编码质量判断条件判断所述编码 结果是否符合所述编码质量判断条件。
一些实施方式中,所述根据更新后的所述编码质量判断条件判断所述编 码结果是否符合所述编码质量判断条件,包括:
(1)分别计算每个文本控制门的向量。
一些实施方式中,所述计算每个文本控制门的向量,包括:
根据sigmoid激活函数、第一权重矩阵、第二权重矩阵、所述第一隐藏状 态和所述第二隐藏状态计算每个文本控制门的向量;
可选的,可通过下述公式分别计算每个文本控制门的向量:
Figure BDA0002206948740000141
其中,
Figure BDA0002206948740000142
为文本控制门的向量,σ(W*hi+U*si-1+bz)是sigmoid激活函数, W和U为权重矩阵,hi是指解码器的第一隐藏状态,si-1是指编码器的第二隐 藏状态,bz是偏置向量。
(2)根据各文本控制门的向量判断编码是否符合所述编码质量判断条件。
一些实施方式中,所述根据各文本控制门的向量判断所述编码结果的编 码质量是否符合所述编码质量判断条件,包括:
根据各文本控制门的向量判断各源句子的向量表示的差值是否小于偏置 向量;
若是,则确定所述编码结果的编码质量符合所述编码质量判断条件。
107-1、若所述编码结果的编码质量符合所述编码质量判断条件,则所述 解码器对所述目标语言序列进行解码。
一些实施方式中,所述对所述目标语言序列进行解码,包括:
以所述编码改进器的最终输出的所述目标隐藏状态
Figure BDA0002206948740000143
以及所述多注意力 模型的权重表达/>
Figure BDA0002206948740000144
作为解码参考,将输出到向量空间的值转化为目标语句,以 对所述目标语言序列进行解码。
107-2、若所述编码结果的编码质量不符合所述编码质量判断条件,则所 述编码改进器调整所述文本序列中的各源句子的向量表示,并重复执行步骤 105和步骤106,直至编码质量符合所述编码质量判断条件后,对所述目标语 言序列进行解码。
一些实施方式中,为使得源句子(也可称为源语言序列)的向量表示会 持续向目标端表达的方向改善,所述步骤105之后,所述步骤107-2之前,还 可以对不符合所述编码质量条件的编码结果进行改进处理。具体来说,所述 方法还包括:
(1)将不符合所述编码质量条件的源句子的向量表示输入编码改进器。
(2)对不符合所述编码质量条件的源句子的向量表示进行改进调整,从 而使得源句子的向量表示持续向目标端表达的方向改善。
一些实施方式中,所述对不符合编码质量条件的源句子的向量表示进行 改进调整,包括:
a、编码改进器采用如下公式对所述第一隐藏状态进行改进调整:
Figure BDA0002206948740000151
其中,
Figure BDA0002206948740000152
是指编码改进器对所述第一隐藏状态进行改进后的隐藏状态。
由于各每个文本控制门的向量是根据sigmoid激活函数、第一权重矩阵、 第二权重矩阵、所述第一隐藏状态和所述第二隐藏状态计算得到,因此,根 据各每个文本控制门的向量对所述第一隐藏状态改进时,能够改善源语言序 列的表达,从而提升翻译效果。
b、根据改进后的所述第一隐藏状态
Figure BDA0002206948740000153
对所述源语言序列进行重新编码, 得到目标隐藏状态。
一些实施方式中,可采用如下公式对所述源语言序列进行重新编码,以 得到目标隐藏状态:
Figure BDA0002206948740000154
其中,encoderre为编码改进器使用的编码函数,
Figure BDA0002206948740000155
分别为所述源语 言序列在1、2、…j..,J时刻的隐藏状态。
与现有机制相比,本申请实施例中,编码器将训练文本转换为文本序列, 根据目标词的左右相邻熵增加与目标词关联的关联词的权重;编码改进器根 据各关联词的权重监控权重高于预设权重的目标关联词、监控与目标关联词 关联的目标词;根据解码器的第一隐藏状态和第二隐藏状态更新编码质量判 断条件;若编码结果的编码质量符合编码质量判断条件,则解码器对目标语 言序列进行解码;若不符合则调整各源句子的向量表示,重复执行上述操作 直至编码质量符合编码质量判断条件后,对目标语言序列进行解码。本方案 使得源语言序列的向量表示持续向目标端表达的方向改善,进而改善翻译模 型的效果。
上述图1或图2对应的实施例或实施方式中所提及的技术特征也同样适 用于本申请中的图3和图4所对应的实施例,后续类似之处不再赘述。
以上对本申请中一种基于神经网络对文本编码的方法进行说明,以下对 执行上述基于神经网络对文本编码的方法的机器翻译装置进行描述。
如图3所示的一种机器翻译装置30的结构示意图,其可应用于模拟整个 机器翻译过程。本申请实施例中的机器翻译装置能够实现对应于上述图1所 对应的实施例中所执行的基于神经网络对文本编码的方法的步骤。机器翻译 装置30实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。 硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件 和/或硬件。
一些实施方式中,所述机器翻译装置中部署机器翻译模型,所述机器翻 译模型用于模拟整个翻译过程,所述机器翻译装置包括:
编码器,用于获取训练文本,将所述训练文本转换为文本序列,所述文 本序列按照先后顺序依次输入编码器,根据多注意力模型对所述文本序列进 行双向编码,得到编码结果,以及关注各目标词的左右相邻熵;以及计算各 目标词的左右相邻熵,根据目标词的左右相邻熵增加与目标词关联的关联词 的权重,以及将所述文本序列中的各源句子分别初始化为向量表示;
编码改进器,用于根据各关联词的权重监控权重高于预设权重的目标关 联词、以及监控与目标关联词关联的目标词;从所述解码器接收解码器的第 一隐藏状态和第二隐藏状态,根据所述第一隐藏状态和所述第二隐藏状态更 新编码质量判断条件;根据更新后的所述编码质量判断条件判断所述编码结 果是否符合所述编码质量判断条件;所述第一隐藏状态为解码器当前的隐藏 状态,所述第二隐藏状态为所述解码器上一次的隐藏状态;
解码器,用于若所述编码结果的编码质量符合所述编码质量判断条件, 则对所述目标语言序列进行解码;
所述编码改进器还用于若所述编码结果的编码质量不符合所述编码质量 判断条件,则调整所述文本序列中的各源句子的向量表示,并重复执行从所 述解码器接收解码器的第一隐藏状态和第二隐藏状态,根据所述第一隐藏状 态和所述第二隐藏状态更新编码质量判断条件,以及根据更新后的所述编码 质量判断条件判断所述编码结果是否符合所述编码质量判断条件的操作,直 至编码质量符合所述编码质量判断条件后,对所述目标语言序列进行解码。
在本申请中,编码改进器也可以是集成在编码器中,或者与编码器分别 为单独部署的器件,本申请不对编码器和编码器的功能作区分,二者可等同。
一些实施方式中,所述编码器具体用于:
将所述源句子中的构成元素作为由一系列的<Key,Value>数据对构成;
从所述源句子中选择一个目标词的某个元素Query,计算所述Query和各 个Key的相似性(或者相关性),得到每个Key对应Value值的权重系数;
对Value进行加权求和,得到所述源句子对应的注意Attention值;
根据各源句子对应的注意Attention值对各源句子中的目标词进行双向编 码,以及关注各目标词的左右相邻熵;
其中,权重系数的一种计算公式如下:
Figure BDA0002206948740000171
Attention值的一种计算公式如下:
Figure BDA0002206948740000172
其中,ai为权重系数,Lx=||Source||代表源句子的长度。由于在计算 Attention值的过程中,源句子中的Key和Value合二为一且指向的是同一个 对象,所以向多关注模型中输入源句子中每个单词对应的语义编码。
一些实施方式中,所述编码器具体用于:
分别计算目标词的左熵和右熵;
计算目标词的左熵和右熵之间的最小值;
若目标词的左熵和右熵之间的最小值高于预设阈值,则确定所述目标词 与关联词之间存在相关性,则分别按照目标词的左熵和右熵增加与目标词关 联的各关联词的权重。
一些实施方式中,所述编码质量判断条件包括多个文本控制门,所述文 本控制门用于从所述文本序列中查找最优的隐藏状态序列。文本控制门还可 以用于判断所述文本序列中各源句子的语法是否正确,判断源句子的行数是 否超出预设行数,用于判断所述文本序列中各源句子的字数是否超出预设次 数,以及用于判断所述文本序列中各源句子的大小写是否正确。
一些实施方式中,所述编码器具体用于:
根据第一方程组对源句子序列的局部状态进行初始化,所述第一方程组 为:
δ1(i)=πibi(o1)
Ψ1(i)=0
其中,i=1,2...N;
根据第二方程组分别对所述源句子序列进行动态规划并递推隐藏状态Ψt (i)在时刻t=2,3,...T时的局部状态:所述第二方程组为:
δt(i)=max[δt-1(j)aji]bi(0t)
Ψt(i)=argmax[δt-1(j)aji]
其中,1≤j≤N。
根据第三方程组计算时刻T最大的概率δT(i),δT(i)为计算最可能隐藏状 态序列出现的概率P*,以及计算时刻T最大的隐藏状态Ψt(i),Ψt(i)为时刻T 最可能的隐藏状态;所述第三方程组为:
P*=maxδT(i)
i*T=argmax[δT(i)]
根据第四方程组和利用局部状态Ψ(i)开始回溯,对于t=T-1,T-2,...,1时: 所述第四方程组为i*t=Ψt+1(i*t+1);
根据局部状态Ψ(i)从时刻0一直递推到时刻T,利用Ψt(i)记录的前一个 最可能的状态节点回溯,直到找到最有可能的隐藏状态序列I*={i*1,i*2,...i*T}。
一些实施方式中,所述编码器具体用于:
根据sigmoid激活函数、第一权重矩阵、第二权重矩阵、所述第一隐藏状 态和所述第二隐藏状态计算每个文本控制门的向量;其中,计算每个文本控 制门的向量的公式如下:
Figure BDA0002206948740000181
其中,
Figure BDA0002206948740000182
为文本控制门的向量,σ(W*hi+U*si-1+bz)是sigmoid激活函数, W和U为权重矩阵,hi是指解码器的第一隐藏状态,si-1是指编码器的第二隐 藏状态,bz是偏置向量;
根据各文本控制门的向量判断各源句子的向量表示的差值是否小于偏置 向量;
若是,则确定所述编码结果的编码质量符合所述编码质量判断条件。
一些实施方式中,所述解码器在调整所述文本序列中的各源句子的向量 表示之前,还用于:
将不符合所述编码质量条件的源句子的向量表示输入编码改进器。
所述编码改进器采用第一编码公式对所述第一隐藏状态进行改进调整:
Figure BDA0002206948740000191
其中,
Figure BDA0002206948740000192
是指编码改进器对所述第一隐藏状态进行改进后的隐藏状态;
根据改进后的所述第一隐藏状态
Figure BDA0002206948740000193
对所述源语言序列进行重新编码,得到 目标隐藏状态,得到所述目标隐藏状态的第二编码公式为:
Figure BDA0002206948740000194
其中,encoderre为编码改进器使用的编码函数,
Figure BDA0002206948740000195
分别为所述源语 言序列在1、2、…j..,J时刻的隐藏状态。
上面从模块化功能实体的角度分别介绍了本申请实施例中的机器翻译装 置,以下从硬件角度介绍一种计算机设备,如图4所示,其包括:处理器、 存储器、编码器、编码改进器和解码器以及存储在所述存储器中并可在所述 处理器上运行的计算机程序。例如,该计算机程序可以为图1所对应的实施 例中基于神经网络对文本编码的方法对应的程序。例如,当计算机设备实现 如图3所示的机器翻译装置30的功能时,所述处理器执行所述计算机程序时 实现上述图3所对应的实施例中由机器翻译装置30执行的基于神经网络对文 本编码的方法中的各步骤;或者,所述处理器执行所述计算机程序时实现上 述图3所对应的实施例的机器翻译装置30中各模块的功能。又例如,该计算 机程序可以为图1所对应的实施例中基于神经网络对文本编码的方法对应的 程序。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以 是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集 成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或 者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处 理器也可以是任何常规的处理器等,所述处理器是所述计算机设备的控制中 心,利用各种接口和线路连接整个计算机设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行 或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器 内的数据,实现所述计算机设备的各种功能。所述存储器可主要包括存储程 序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需 的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储 根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存 储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、 或其他易失性固态存储器件。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括 若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等) 执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上 述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的, 本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求 所保护的范围情况下,还可做出很多形式,凡是利用本申请说明书及附图内 容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领 域,这些均属于本申请的保护之内。

Claims (9)

1.一种基于神经网络对文本编码的方法,其特征在于,所述方法应用于机器翻译装置,所述机器翻译装置中部署机器翻译模型,所述机器翻译模型用于模拟整个翻译过程,所述机器翻译模型包括编码器、解码器和编码改进器;所述方法包括:
所述编码器获取训练文本,将所述训练文本转换为文本序列,所述文本序列按照先后顺序依次输入编码器,根据多注意力模型对所述文本序列进行双向编码,得到编码结果,以及关注各目标词的左右相邻熵;
所述编码器计算各目标词的左右相邻熵,根据目标词的左右相邻熵增加与目标词关联的关联词的权重,以及将所述文本序列中的各源句子分别初始化为向量表示;
所述编码改进器根据各关联词的权重监控权重高于预设权重的目标关联词、以及监控与目标关联词关联的目标词;
所述编码改进器从所述解码器接收解码器的第一隐藏状态和第二隐藏状态,根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件;
所述编码改进器根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件;
若所述编码结果的编码质量符合所述编码质量判断条件,则所述解码器对目标语言序列进行解码;
若所述编码结果的编码质量不符合所述编码质量判断条件,则所述解码器调整所述文本序列中的各源句子的向量表示,并重复执行从所述解码器接收解码器的第一隐藏状态和第二隐藏状态,根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件,以及根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件的操作,直至编码质量符合所述编码质量判断条件后,对所述目标语言序列进行解码;所述第一隐藏状态为解码器当前的隐藏状态,所述第二隐藏状态为所述解码器上一次的隐藏状态;
所述根据多注意力模型对所述文本序列进行双向编码,得到编码结果,以及关注目标词的左右相邻熵,包括:
所述编码器将所述源句子中的构成元素作为由一系列的<Key,Value>数据对构成;
所述编码器从所述源句子中选择一个目标词的某个元素Query,计算所述Query和各个Key的相似性或者相关性,得到每个Key对应Value值的权重系数;
所述编码器对Value进行加权求和,得到所述源句子对应的注意Attention值;
所述编码器根据各源句子对应的注意Attention值对各源句子中的目标词进行双向编码,以及关注各目标词的左右相邻熵;
其中,权重系数的一种计算公式如下:
Figure QLYQS_1
Attention值的一种计算公式如下:
Figure QLYQS_2
其中,ai为权重系数,Lx=||Source||代表源句子的长度,由于在计算Attention值的过程中,源句子中的Key和Value合二为一且指向的是同一个对象,所以向多关注模型中输入源句子中每个单词对应的语义编码。
2.根据权利要求1所述的方法,其特征在于,所述计算各目标词的左右相邻熵,根据目标词的左右相邻熵增加与目标词关联的关联词的权重,将所述文本序列中的各源句子分别初始化为向量表示,包括:
所述编码器分别计算目标词的左熵和右熵;计算目标词的左熵和右熵之间的最小值;
若目标词的左熵和右熵之间的最小值高于预设阈值,则所述编码器确定所述目标词与关联词之间存在相关性,并分别按照目标词的左熵和右熵增加与目标词关联的各关联词的权重。
3.根据权利要求1-2中任一项所述的方法,其特征在于,所述编码质量判断条件包括多个文本控制门,所述文本控制门用于从所述文本序列中查找最优的隐藏状态序列,文本控制门还可以用于判断所述文本序列中各源句子的语法是否正确,判断源句子的行数是否超出预设行数,用于判断所述文本序列中各源句子的字数是否超出预设次数,以及用于判断所述文本序列中各源句子的大小写是否正确。
4.根据权利要求3所述的方法,其特征在于,所述编码器从所述解码器获取解码器的第一隐藏状态和第二隐藏状态,包括:
所述编码器根据第一方程组对源句子序列的局部状态进行初始化,所述第一方程组为:
δ1(i)=πibi(o1)
Ψ1(i)=0
其中,i=1,2...N;
所述编码器根据第二方程组分别对所述源句子序列进行动态规划并递推隐藏状态Ψt(i)在时刻t=2,3,...T时的局部状态:所述第二方程组为:
δt(i)=max[δt-1(j)aji]bi(0t)
Ψt(i)=argmax[δt-1(j)aji]
其中,1≤j≤N,
所述编码器根据第三方程组计算时刻T最大的概率δT(i),δT(i)为计算最可能隐藏状态序列出现的概率P*,以及计算时刻T最大的隐藏状态Ψt(i),Ψt(i)为时刻T最可能的隐藏状态;所述第三方程组为:
P*=maxδT(i)
i*T=argmax[δT(i)]
所述编码器根据第四方程组和利用局部状态Ψ(i)开始回溯,对于t=T-1,T-2,...,1时,所述第四方程组为i*t=Ψt+1(i*t+1);
所述编码器根据局部状态Ψ(i)从时刻0一直递推到时刻T,利用Ψt(i)记录的前一个最可能的状态节点回溯,直到找到最有可能的隐藏状态序列I*={i*1,i*2,...i*T}。
5.根据权利要求4所述的方法,其特征在于,所述根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件,包括:
所述编码改进器根据sigmoid激活函数、第一权重矩阵、第二权重矩阵、所述第一隐藏状态和所述第二隐藏状态计算每个文本控制门的向量;其中,计算每个文本控制门的向量的公式如下:
Figure QLYQS_3
其中,
Figure QLYQS_4
为文本控制门的向量,σ(W*hi+U*si-1+bz)是sigmoid激活函数,W和U为权重矩阵,hi是指解码器的第一隐藏状态,si-1是指编码器的第二隐藏状态,bz是偏置向量;
所述编码改进器根据各文本控制门的向量判断各源句子的向量表示的差值是否小于偏置向量;
若是,则确定所述编码结果的编码质量符合所述编码质量判断条件。
6.根据权利要求5所述的方法,其特征在于,所述解码器调整所述文本序列中的各源句子的向量表示之前,所述方法还包括:
所述编码改进器将不符合所述编码质量条件的源句子的向量表示输入编码改进器,
所述编码改进器采用第一编码公式对所述第一隐藏状态进行改进调整:
所述第一编码公式为
Figure QLYQS_5
其中,/>
Figure QLYQS_6
是指编码改进器对所述第一隐藏状态进行改进后的隐藏状态;
所述编码改进器根据改进后的所述第一隐藏状态
Figure QLYQS_7
对源语言序列进行重新编码,得到目标隐藏状态,得到所述目标隐藏状态的第二编码公式为:/>
Figure QLYQS_8
其中,encoderre为编码改进器使用的编码函数,/>
Figure QLYQS_9
分别为所述源语言序列在1、2、…j..,J时刻的隐藏状态。
7.一种机器翻译装置,其特征在于,所述机器翻译装置中部署机器翻译模型,所述机器翻译模型用于模拟整个翻译过程,所述机器翻译装置包括:
编码器,用于获取训练文本,将所述训练文本转换为文本序列,所述文本序列按照先后顺序依次输入编码器,根据多注意力模型对所述文本序列进行双向编码,得到编码结果,以及关注各目标词的左右相邻熵;以及计算各目标词的左右相邻熵,根据目标词的左右相邻熵增加与目标词关联的关联词的权重,以及将所述文本序列中的各源句子分别初始化为向量表示;
编码改进器,用于根据各关联词的权重监控权重高于预设权重的目标关联词、以及监控与目标关联词关联的目标词;从解码器接收所述解码器的第一隐藏状态和第二隐藏状态,根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件;根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件;所述第一隐藏状态为所述解码器当前的隐藏状态,所述第二隐藏状态为所述解码器上一次的隐藏状态;
所述解码器,用于若所述编码结果的编码质量符合所述编码质量判断条件,则对目标语言序列进行解码;
所述编码改进器还用于若所述编码结果的编码质量不符合所述编码质量判断条件,则调整所述文本序列中的各源句子的向量表示,并重复执行从所述解码器接收解码器的第一隐藏状态和第二隐藏状态,根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件,以及根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件的操作,直至编码质量符合所述编码质量判断条件后,对所述目标语言序列进行解码;
所述编码器具体用于:
将所述源句子中的构成元素作为由一系列的<Key,Value>数据对构成;
从所述源句子中选择一个目标词的某个元素Query,计算所述Query和各个Key的相似性或者相关性,得到每个Key对应Value值的权重系数;
对Value进行加权求和,得到所述源句子对应的注意Attention值;
根据各源句子对应的注意Attention值对各源句子中的目标词进行双向编码,以及关注各目标词的左右相邻熵;
其中,权重系数的一种计算公式如下:
Figure QLYQS_10
Attention值的一种计算公式如下:
Figure QLYQS_11
其中,ai为权重系数,Lx=||Source||代表源句子的长度,由于在计算Attention值的过程中,源句子中的Key和Value合二为一且指向的是同一个对象,所以向多关注模型中输入源句子中每个单词对应的语义编码。
8.一种计算机设备,其特征在于,所述设备包括:
至少一个处理器、存储器、编码器、编码改进器和解码器;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-6中任一项所述的方法。
9.一种计算机存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6中任一项所述的方法。
CN201910884713.1A 2019-09-19 2019-09-19 基于神经网络对文本编码的方法、装置、设备及存储介质 Active CN110795912B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910884713.1A CN110795912B (zh) 2019-09-19 2019-09-19 基于神经网络对文本编码的方法、装置、设备及存储介质
PCT/CN2019/118253 WO2021051595A1 (zh) 2019-09-19 2019-11-14 基于神经网络对文本编码的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910884713.1A CN110795912B (zh) 2019-09-19 2019-09-19 基于神经网络对文本编码的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110795912A CN110795912A (zh) 2020-02-14
CN110795912B true CN110795912B (zh) 2023-06-20

Family

ID=69427340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910884713.1A Active CN110795912B (zh) 2019-09-19 2019-09-19 基于神经网络对文本编码的方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110795912B (zh)
WO (1) WO2021051595A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428519B (zh) * 2020-03-06 2022-03-29 中国科学院计算技术研究所 一种基于熵的神经机器翻译动态解码方法及系统
IT202100021128A1 (it) 2021-08-04 2023-02-04 Genioma S R L Metodo per le segnalazioni durante un evento motoristico.
CN117067042B (zh) * 2023-10-17 2024-01-30 杭州泓芯微半导体有限公司 一种研磨机及其控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN108874785A (zh) * 2018-06-01 2018-11-23 清华大学 一种翻译处理方法及系统
CN109508462A (zh) * 2018-10-25 2019-03-22 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228556A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 关键短语提取方法及装置
US10839790B2 (en) * 2017-02-06 2020-11-17 Facebook, Inc. Sequence-to-sequence convolutional architecture
CN109919316B (zh) * 2019-03-04 2021-03-12 腾讯科技(深圳)有限公司 获取网络表示学习向量的方法、装置和设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN108874785A (zh) * 2018-06-01 2018-11-23 清华大学 一种翻译处理方法及系统
CN109508462A (zh) * 2018-10-25 2019-03-22 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法

Also Published As

Publication number Publication date
WO2021051595A1 (zh) 2021-03-25
CN110795912A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN106469552B (zh) 语音识别设备和方法
KR102382499B1 (ko) 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
CN108417210B (zh) 一种词嵌入语言模型训练方法、词语识别方法及系统
JP7407968B2 (ja) 音声認識方法、装置、設備及び記憶媒体
CN110795912B (zh) 基于神经网络对文本编码的方法、装置、设备及存储介质
CN110347799B (zh) 语言模型训练方法、装置和计算机设备
US20200304796A1 (en) Video processing method and apparatus, video retrieval method and apparatus, storage medium, and server
CN109346064B (zh) 用于端到端语音识别模型的训练方法及系统
GB2572020A (en) A speech processing system and a method of processing a speech signal
JP2018026127A (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
US11657225B2 (en) Generating summary content tuned to a target characteristic using a word generation model
US20200312306A1 (en) System and Method for End-to-End Speech Recognition with Triggered Attention
CN110706692A (zh) 儿童语音识别模型的训练方法及系统
CN112967713B (zh) 一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
Deena et al. Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment
CN108959388B (zh) 信息生成方法及装置
WO2020233953A1 (en) A method of sequence to sequence data processing and a system for sequence to sequence data processing
CN116884391B (zh) 基于扩散模型的多模态融合音频生成方法及装置
CN112837669A (zh) 语音合成方法、装置及服务器
CN113793591A (zh) 语音合成方法及相关装置和电子设备、存储介质
WO2021028236A1 (en) Systems and methods for sound conversion
Baljekar et al. An Investigation of Convolution Attention Based Models for Multilingual Speech Synthesis of Indian Languages.
CN113593534B (zh) 针对多口音语音识别的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant