CN110795912B

CN110795912B - 基于神经网络对文本编码的方法、装置、设备及存储介质

Info

Publication number: CN110795912B
Application number: CN201910884713.1A
Authority: CN
Inventors: 陈霖捷; 黄章成; 孔令炜; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2023-06-20
Anticipated expiration: 2039-09-19
Also published as: WO2021051595A1; CN110795912A

Abstract

本申请涉及神经网络领域，提供基于神经网络对文本编码的方法、装置、设备及存储介质，方法包括：编码器将训练文本转换为文本序列，根据目标词的左右相邻熵增加与目标词关联的关联词的权重；编码改进器根据各关联词的权重监控权重高于预设权重的目标关联词、监控与目标关联词关联的目标词；根据解码器的第一隐藏状态和第二隐藏状态更新编码质量判断条件；若编码结果的编码质量符合编码质量判断条件，则解码器对目标语言序列进行解码；若不符合则调整各源句子的向量表示，重复执行上述操作直至编码质量符合编码质量判断条件后，对目标语言序列进行解码。本方案使得源语言序列的向量表示持续向目标端表达的方向改善，进而改善翻译模型的效果。

Description

基于神经网络对文本编码的方法、装置、设备及存储介质

技术领域

本申请涉及神经网络技术领域，尤其涉及一种基于神经网络对文本编码的方法、装置、设备及存储介质。

背景技术

在机器翻译领域中，一般采用Transformer神经网络机器翻译模型实现多语种翻译。Transformer神经网络机器翻译模型使用一个解码器-编码器的结构来模拟整个翻译过程。编码器将输入Transformer神经网络机器翻译模型的文本分解为词汇量级的表达，并根据词频统计和双向编码原理将词汇表示为数字集合的形式，即词向量形式，编码器输出的向量能够精炼文本中各句子的内容。

但是，如果输入的文本质量不高或者语义较难理解，那么在编码器编码时可能出现问题。在人工翻译一段文本时，人们通常会对源句子有一个初始化的理解，再根据语义逐渐改善语义理解，并向目标语言逐渐靠拢。在传统的Transformer神经网络机器翻译模型中，编码器只对源句子进行一次初始化编码，相较于人工翻译过程中对源句子的初始理解时编码器只对源句子进行一次初始化编码的情况，当源句子为长难句或者语义关系复杂的句子时，则会导致编码端的输出结果不理想，进而影响后续对Transformer神经网络机器翻译模型的训练，以及目标句的输出效果。

发明内容

本申请提供了一种基于神经网络对文本编码的方法、装置、设备及存储介质，能够解决现有技术中机器翻译长难句或者语义关系复杂的句子时，编码端的输出结果不理想的问题。

第一方面，本申请提供一种基于神经网络对文本编码的方法，所述方法应用于机器翻译装置，所述机器翻译装置中部署机器翻译模型，所述机器翻译模型用于模拟整个翻译过程，所述机器翻译模型包括编码器、解码器和编码改进器；所述方法包括：

所述编码器获取训练文本，将所述训练文本转换为文本序列，所述文本序列按照先后顺序依次输入编码器，根据多注意力模型对所述文本序列进行双向编码，得到编码结果，以及关注各目标词的左右相邻熵；

所述编码器计算各目标词的左右相邻熵，根据目标词的左右相邻熵增加与目标词关联的关联词的权重，以及将所述文本序列中的各源句子分别初始化为向量表示；

所述编码改进器根据各关联词的权重监控权重高于预设权重的目标关联词、以及监控与目标关联词关联的目标词；

所述编码改进器从所述解码器接收解码器的第一隐藏状态和第二隐藏状态，根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件；

所述编码改进器根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件；

若所述编码结果的编码质量符合所述编码质量判断条件，则所述解码器对所述目标语言序列进行解码；

若所述编码结果的编码质量不符合所述编码质量判断条件，则所述解码器调整所述文本序列中的各源句子的向量表示，并重复执行从所述解码器接收解码器的第一隐藏状态和第二隐藏状态，根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件，以及根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件的操作，直至编码质量符合所述编码质量判断条件后，对所述目标语言序列进行解码；所述第一隐藏状态为解码器当前的隐藏状态，所述第二隐藏状态为所述解码器上一次的隐藏状态。

一种可能的设计中，所述根据多注意力模型对所述文本序列进行双向编码，得到编码结果，以及关注目标词的左右相邻熵，包括：

所述编码器将所述源句子中的构成元素作为由一系列的<Key,Value>数据对构成；从所述源句子中选择一个目标词的某个元素Query，计算所述Query 和各个Key的相似性(或者相关性)，得到每个Key对应Value值的权重系数；

所述编码器对Value进行加权求和，得到所述源句子对应的注意Attention 值；

所述编码器根据各源句子对应的注意Attention值对各源句子中的目标词进行双向编码，以及关注各目标词的左右相邻熵；

其中，权重系数的一种计算公式如下：

Attention值的一种计算公式如下：

其中，ai为权重系数，Lx＝||Source||代表源句子的长度。由于在计算 Attention值的过程中，源句子中的Key和Value合二为一且指向的是同一个对象，所以向多关注模型中输入源句子中每个单词对应的语义编码。

一种可能的设计中，所述计算各目标词的左右相邻熵，根据目标词的左右相邻熵增加与目标词关联的关联词的权重，将所述文本序列中的各源句子分别初始化为向量表示，包括：

所述编码器分别计算目标词的左熵和右熵；计算目标词的左熵和右熵之间的最小值；

若目标词的左熵和右熵之间的最小值高于预设阈值，则所述编码器确定所述目标词与关联词之间存在相关性，并分别按照目标词的左熵和右熵增加与目标词关联的各关联词的权重。

一种可能的设计中，所述编码质量判断条件包括多个文本控制门，所述文本控制门用于从所述文本序列中查找最优的隐藏状态序列。文本控制门还可以用于判断所述文本序列中各源句子的语法是否正确，判断源句子的行数是否超出预设行数，用于判断所述文本序列中各源句子的字数是否超出预设次数，以及用于判断所述文本序列中各源句子的大小写是否正确。

一种可能的设计中，所述编码器从所述解码器获取解码器的第一隐藏状态和第二隐藏状态，包括：

所述编码器根据第一方程组对源句子序列的局部状态进行初始化，所述第一方程组为：

δ₁(i)＝π_ib_i(o1)

Ψ₁(i)＝0

其中，i＝1,2...N；

根据第二方程组分别对所述源句子序列进行动态规划并递推隐藏状态Ψ_t (i)在时刻t＝2,3,...T时的局部状态：所述第二方程组为：

δ_t(i)＝max[δ_t-1(j)aji]bi(0t)

Ψ_t(i)＝argmax[δ_t-1(j)aji]

其中，1≤j≤N。

所述编码器根据第三方程组计算时刻T最大的概率δ_T(i),δ_T(i)为计算最可能隐藏状态序列出现的概率P*，以及计算时刻T最大的隐藏状态Ψt(i),Ψt (i)为时刻T最可能的隐藏状态；所述第三方程组为：

P*＝maxδ_T(i)

i*_T＝argmax[δ_T(i)]

所述编码器根据第四方程组和利用局部状态Ψ(i)开始回溯，对于t＝T-1,T -2,...,1时：所述第四方程组为i*_t＝Ψ_t+1(i*_t+1)；

所述编码器根据局部状态Ψ(i)从时刻0一直递推到时刻T，利用Ψt(i)记录的前一个最可能的状态节点回溯，直到找到最有可能的隐藏状态序列I*＝{i *1,i*2,...i*T}。

一种可能的设计中，所述根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件，包括：

根据sigmoid激活函数、第一权重矩阵、第二权重矩阵、所述第一隐藏状态和所述第二隐藏状态计算每个文本控制门的向量；其中，计算每个文本控制门的向量的公式如下：

其中，

为文本控制门的向量，σ(W*h_i+U*s_i-1+b_z)是sigmoid激活函数， W和U为权重矩阵，h_i是指解码器的第一隐藏状态，s_i-1是指编码器的第二隐藏状态，b_z是偏置向量；

根据各文本控制门的向量判断各源句子的向量表示的差值是否小于偏置向量；

若是，则确定所述编码结果的编码质量符合所述编码质量判断条件。

一种可能的设计中，所述解码器调整所述文本序列中的各源句子的向量表示之前，所述方法还包括：

所述编码改进器将不符合所述编码质量条件的源句子的向量表示输入编码改进器。

所述编码改进器采用第一编码公式对所述第一隐藏状态进行改进调整：

所述第一编码公式为

其中，/>

是指编码改进器对所述第一隐藏状态进行改进后的隐藏状态；

所述编码改进器根据改进后的所述第一隐藏状态

对所述源语言序列进行重新编码，得到目标隐藏状态，得到所述目标隐藏状态的第二编码公式为：

其中，encoder_re为编码改进器使用的编码函数，

分别为所述源语言序列在1、2、…j..，J时刻的隐藏状态。

第二方面，本申请提供一种机器翻译装置，具有实现对应于上述第一方面提供的基于神经网络对文本编码的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

一种可能的设计中，所述机器翻译装置中部署机器翻译模型，所述机器翻译模型用于模拟整个翻译过程，所述机器翻译装置包括：

编码器，用于获取训练文本，将所述训练文本转换为文本序列，所述文本序列按照先后顺序依次输入编码器，根据多注意力模型对所述文本序列进行双向编码，得到编码结果，以及关注各目标词的左右相邻熵；以及计算各目标词的左右相邻熵，根据目标词的左右相邻熵增加与目标词关联的关联词的权重，以及将所述文本序列中的各源句子分别初始化为向量表示；

编码改进器，用于根据各关联词的权重监控权重高于预设权重的目标关联词、以及监控与目标关联词关联的目标词；从所述解码器接收解码器的第一隐藏状态和第二隐藏状态，根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件；根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件；所述第一隐藏状态为解码器当前的隐藏状态，所述第二隐藏状态为所述解码器上一次的隐藏状态；

解码器，用于若所述编码结果的编码质量符合所述编码质量判断条件，则对所述目标语言序列进行解码；

所述编码改进器还用于若所述编码结果的编码质量不符合所述编码质量判断条件，则调整所述文本序列中的各源句子的向量表示，并重复执行从所述解码器接收解码器的第一隐藏状态和第二隐藏状态，根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件，以及根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件的操作，直至编码质量符合所述编码质量判断条件后，对所述目标语言序列进行解码。

一种可能的设计中，所述编码器具体用于：

将所述源句子中的构成元素作为由一系列的<Key,Value>数据对构成；

从所述源句子中选择一个目标词的某个元素Query，计算所述Query和各个Key的相似性(或者相关性)，得到每个Key对应Value值的权重系数；

对Value进行加权求和，得到所述源句子对应的注意Attention值；

根据各源句子对应的注意Attention值对各源句子中的目标词进行双向编码，以及关注各目标词的左右相邻熵；

其中，权重系数的一种计算公式如下：

Attention值的一种计算公式如下：

一种可能的设计中，所述编码器具体用于：

分别计算目标词的左熵和右熵；

计算目标词的左熵和右熵之间的最小值；

若目标词的左熵和右熵之间的最小值高于预设阈值，则确定所述目标词与关联词之间存在相关性，则分别按照目标词的左熵和右熵增加与目标词关联的各关联词的权重。

一种可能的设计中，所述编码器具体用于：

根据第一方程组对源句子序列的局部状态进行初始化，所述第一方程组为：

δ₁(i)＝π_ib_i(o1)

Ψ₁(i)＝0

其中，i＝1,2...N；

δ_t(i)＝max[δ_t-1(j)aji]bi(0t)

Ψ_t(i)＝argmax[δ_t-1(j)aji]

其中，1≤j≤N。

根据第三方程组计算时刻T最大的概率δ_T(i),δ_T(i)为计算最可能隐藏状态序列出现的概率P*，以及计算时刻T最大的隐藏状态Ψt(i),Ψt(i)为时刻T 最可能的隐藏状态；所述第三方程组为：

P*＝maxδ_T(i)

i*_T＝argmax[δ_T(i)]

根据第四方程组和利用局部状态Ψ(i)开始回溯，对于t＝T-1,T-2,...,1时：所述第四方程组为i*_t＝Ψ_t+1(i*_t+1)；

根据局部状态Ψ(i)从时刻0一直递推到时刻T，利用Ψt(i)记录的前一个最可能的状态节点回溯，直到找到最有可能的隐藏状态序列I*＝{i*1,i*2,...i*T}。

一种可能的设计中，所述编码器具体用于：

其中，

一种可能的设计中，所述解码器在调整所述文本序列中的各源句子的向量表示之前，还用于：

将不符合所述编码质量条件的源句子的向量表示输入编码改进器。

h-_j^i＝z_j^i·h_j，其中，h-_j^i是指编码改进器对所述第一隐藏状态进行改进后的隐藏状态；

根据改进后的所述第一隐藏状态h-_j^i对所述源语言序列进行重新编码，得到目标隐藏状态，得到所述目标隐藏状态的第二编码公式为：

其中，encoder_re为编码改进器使用的编码函数，

分别为所述源语言序列在1、2、…j..，J时刻的隐藏状态。

本申请又一方面提供了一种计算机设备，其包括至少一个连接的处理器、存储器、编码器、编码改进器和解码器，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。

本申请又一方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

相较于现有技术，本申请提供的方案中，编码器将训练文本转换为文本序列，根据目标词的左右相邻熵增加与目标词关联的关联词的权重；编码改进器根据各关联词的权重监控权重高于预设权重的目标关联词、监控与目标关联词关联的目标词；根据解码器的第一隐藏状态和第二隐藏状态更新编码质量判断条件；若编码结果的编码质量符合编码质量判断条件，则解码器对目标语言序列进行解码；若不符合则调整各源句子的向量表示，重复执行上述操作直至编码质量符合编码质量判断条件后，对目标语言序列进行解码。本方案使得源语言序列的向量表示持续向目标端表达的方向改善，进而改善翻译模型的效果。

附图说明

图1为本申请实施例中基于神经网络对文本编码的方法的一种流程示意图；

图2为本申请实施例中机器翻译装置的一种结构示意图；

图3为本申请实施例机器翻译装置的一种结构示意图；

图4为本申请实施例中计算机设备的一种结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二” 等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有” 以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。

本申请提供一种基于神经网络对文本编码的方法、装置、设备及存储介质，可用于模拟整个机器翻译过程。

为解决上述技术问题，本申请主要提供以下技术方案：

通过模仿人工翻译的思路，首先在编码器端的对输入序列进行初次编码，其次通过判断编码质量条件是否符合要求，根据目标文本的效果动态更新编码质量判断条件，将不符合编码质量条件的编码结果输入编码改进器，并对不符合编码质量条件的编码结果进行调整，使得源语言序列的向量表示会持续向目标端表达的方向改善，进而改善编码器-解码器翻译模型的效果。

参照图1，以下介绍本申请实施例中的一种基于神经网络对文本编码的方法，本方案由机器翻译装置执行，该机器翻译装置中部署机器翻译模型，该机器翻译模型用于模拟整个翻译过程，所述机器翻译模型包括编码器、解码器和编码改进器。所述方法包括：

101、所述编码器获取训练文本，将所述训练文本转换为文本序列。

所述训练文本为源语言文本，所述训练文本包括多个源句子，至少一个所述源句子中包括至少一个目标词，目标词是指待重点关注的单词。

102、所述编码器将所述文本序列按照先后顺序依次输入编码器，根据多注意力模型对所述文本序列进行双向编码，得到编码结果，以及关注各目标词的左右相邻熵。

其中，所述多注意力模型是指利用多个查询来平行地计算从输入信息中选取多个信息，每个注意力关注输入信息的不同部分。所述多注意力模型可以使得神经网络具备专注于其输入(或特征)子集的能力，即有选择性的关注机器视觉区域中的特定部分。

一些实施方式中，所述根据多注意力模型对所述文本序列进行双向编码，得到编码结果，以及关注目标词的左右相邻熵，包括：

将所述源句子中的构成元素看作由一系列的<Key,Value>数据对构成；

根据各源句子对应的注意Attention值对各源句子中的目标词进行双向编码，以及关注各目标词的左右相邻熵。

可见，所述多注意力模型是对源句子中元素的Value值进行加权求和， Query和Key用于计算对应Value值的权重系数。其中，权重系数的一种计算公式如下：

Attention值的一种计算公式如下：

其中，ai为权重系数，Lx＝||Source||代表源句子的长度。由于在计算 Attention值的过程中，源句子中的Key和Value合二为一且指向的是同一个对象，所以向多关注模型中输入源句子中每个单词对应的语义编码。如图2 为在编码器中引入注意力模型后的一种框架示意图：

由图2可见，通过在编码器中加入多注意力模型，能够明显改善编码器的输出效果，多注意力模型起到了类似人类视觉选择性注意的作用，在输出某个实体(即目标词)时会将注意力焦点聚焦在文本序列中相应的位置上。

引入多注意力模型，将源句子中每个词的位置信息都保存下来。这样，在解码过程中生成每一个目标语言的单词时，通过多注意力模型即可直接从保存的源句子中每个词的位置信息中选择相关的信息作为辅助，在解码的每一步都可以直接访问源句子中每个词的所有位置信息上的信息。此外，源句子中每个词的位置信息可以直接传递到解码过程中的每一步，能够缩短信息传递的距离。

103、所述编码器计算各目标词的左右相邻熵，根据目标词的左右相邻熵增加与目标词关联的关联词的权重，以及将所述文本序列中的各源句子分别初始化为向量表示。

其中，所述与目标词关联的关联词的权重是指关联词在所述文本序列中的重要性。

一些实施方式中，所述计算各目标词的左右相邻熵，根据目标词的左右相邻熵增加与目标词关联的关联词的权重，将所述文本序列中的各源句子分别初始化为向量表示，包括：

分别计算目标词的左熵和右熵；

计算目标词的左熵和右熵之间的最小值；

通过增加重要关联词的权重，能够使得源语言序列在向量表达的初始化时就获得一个较好的效果，减少训练时间成本。

104、所述编码改进器根据各关联词的权重监控权重高于预设权重的目标关联词、以及监控与目标关联词关联的目标词。

在设置各目标词关联的关联词的权重后，对这些关联词和目标词进行特征监控，以防止这些重要的词的质量下降，进而影响机器翻译模型的翻译效果。

105、所述编码改进器从所述解码器接收解码器的第一隐藏状态和第二隐藏状态，根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件。

其中，所述第一隐藏状态为解码器当前的隐藏状态，所述第二隐藏状态为所述解码器上一次的隐藏状态。所述第一隐藏状态和所述第二隐藏状态均可用序列表示，隐藏状态也可称为隐藏状态序列，本申请不对此作限定。

一些实施方式中，所述编码质量判断条件包括多个文本控制门，文本控制门用于从所述文本序列中查找最优的隐藏状态序列。文本控制门还可以用于判断所述文本序列中各源句子的语法是否正确，判断源句子的行数是否超出预设行数，用于判断所述文本序列中各源句子的字数是否超出预设次数，以及用于判断所述文本序列中各源句子的大小写是否正确。文本控制门也可以称为文本控制器，本申请不对次作限定。

一些实施方式中，所述编码器从所述解码器获取解码器的第一隐藏状态和第二隐藏状态，根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件，包括：

基于维特比算法对HMM进行解码，解码得到所述HMM模型中最可能隐藏状态序列。

其中，所述维特比算法是指基于动态规划的求序列最短路径的方法。找到合适的局部状态，以及局部状态的递推公式。在HMM模型中，维特比算法定义了两个局部状态用于递推。

下面介绍基于维特比算法进行文本挖掘的流程：

HMM模型的输入：HMM模型λ＝(A,B,Π)，源句子序列O＝(o₁,o₂,...o_T)。

HMM模型的输出：HMM模型中最有可能的隐藏状态序列I*＝{i*₁,i*₂,...i *_T}。

一、根据第一方程组对源句子序列的局部状态进行初始化，所述第一方程组为：

δ₁(i)＝π_ib_i(o1)

Ψ₁(i)＝0

其中，i＝1,2...N。

二、根据第二方程组分别对所述源句子序列进行动态规划并递推隐藏状态Ψ_t(i)在时刻t＝2,3,...T时的局部状态，所述第二方程组为：

δ_t(i)＝max[δ_t-1(j)aji]bi(0t)

Ψ_t(i)＝argmax[δ_t-1(j)aji]

其中，1≤j≤N。

三、根据所述第三方程组计算时刻T最大的概率δ_T(i),δ_T(i)为计算最可能隐藏状态序列出现的概率P*，以及计算时刻T最大的隐藏状态Ψt(i),Ψt(i) 为时刻T最可能的隐藏状态。所述第三方程组为：

P*＝maxδ_T(i)

i*_T＝argmax[δ_T(i)]

四、根据第四方程组利用局部状态Ψ(i)开始回溯。

对于t＝T-1,T-2,...,1时，所述第四方程组为：

i*_t＝Ψ_t+1(i*_t+1)

根据局部状态Ψ(i)从时刻0一直递推到时刻T，然后利用Ψt(i)记录的前一个最可能的状态节点回溯，直到找到最优的隐藏状态序列，即最终得到最有可能的隐藏状态序列I*＝{i*1,i*2,...i*T}。

可见，通过更新所述编码质量判断条件，以初始编码改善编码效果，动态更新源语言序列的向量表达。

106、所述编码改进器根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件。

一些实施方式中，所述根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件，包括：

(1)分别计算每个文本控制门的向量。

一些实施方式中，所述计算每个文本控制门的向量，包括：

根据sigmoid激活函数、第一权重矩阵、第二权重矩阵、所述第一隐藏状态和所述第二隐藏状态计算每个文本控制门的向量；

可选的，可通过下述公式分别计算每个文本控制门的向量：

其中，

为文本控制门的向量，σ(W*h_i+U*s_i-1+b_z)是sigmoid激活函数， W和U为权重矩阵，h_i是指解码器的第一隐藏状态，s_i-1是指编码器的第二隐藏状态，b_z是偏置向量。

(2)根据各文本控制门的向量判断编码是否符合所述编码质量判断条件。

一些实施方式中，所述根据各文本控制门的向量判断所述编码结果的编码质量是否符合所述编码质量判断条件，包括：

107-1、若所述编码结果的编码质量符合所述编码质量判断条件，则所述解码器对所述目标语言序列进行解码。

一些实施方式中，所述对所述目标语言序列进行解码，包括：

以所述编码改进器的最终输出的所述目标隐藏状态

以及所述多注意力模型的权重表达/>

作为解码参考，将输出到向量空间的值转化为目标语句，以对所述目标语言序列进行解码。

107-2、若所述编码结果的编码质量不符合所述编码质量判断条件，则所述编码改进器调整所述文本序列中的各源句子的向量表示，并重复执行步骤 105和步骤106，直至编码质量符合所述编码质量判断条件后，对所述目标语言序列进行解码。

一些实施方式中，为使得源句子(也可称为源语言序列)的向量表示会持续向目标端表达的方向改善，所述步骤105之后，所述步骤107-2之前，还可以对不符合所述编码质量条件的编码结果进行改进处理。具体来说，所述方法还包括：

(1)将不符合所述编码质量条件的源句子的向量表示输入编码改进器。

(2)对不符合所述编码质量条件的源句子的向量表示进行改进调整，从而使得源句子的向量表示持续向目标端表达的方向改善。

一些实施方式中，所述对不符合编码质量条件的源句子的向量表示进行改进调整，包括：

a、编码改进器采用如下公式对所述第一隐藏状态进行改进调整：

其中，

是指编码改进器对所述第一隐藏状态进行改进后的隐藏状态。

由于各每个文本控制门的向量是根据sigmoid激活函数、第一权重矩阵、第二权重矩阵、所述第一隐藏状态和所述第二隐藏状态计算得到，因此，根据各每个文本控制门的向量对所述第一隐藏状态改进时，能够改善源语言序列的表达，从而提升翻译效果。

b、根据改进后的所述第一隐藏状态

对所述源语言序列进行重新编码，得到目标隐藏状态。

一些实施方式中，可采用如下公式对所述源语言序列进行重新编码，以得到目标隐藏状态：

其中，encoder_re为编码改进器使用的编码函数，

分别为所述源语言序列在1、2、…j..，J时刻的隐藏状态。

与现有机制相比，本申请实施例中，编码器将训练文本转换为文本序列，根据目标词的左右相邻熵增加与目标词关联的关联词的权重；编码改进器根据各关联词的权重监控权重高于预设权重的目标关联词、监控与目标关联词关联的目标词；根据解码器的第一隐藏状态和第二隐藏状态更新编码质量判断条件；若编码结果的编码质量符合编码质量判断条件，则解码器对目标语言序列进行解码；若不符合则调整各源句子的向量表示，重复执行上述操作直至编码质量符合编码质量判断条件后，对目标语言序列进行解码。本方案使得源语言序列的向量表示持续向目标端表达的方向改善，进而改善翻译模型的效果。

上述图1或图2对应的实施例或实施方式中所提及的技术特征也同样适用于本申请中的图3和图4所对应的实施例，后续类似之处不再赘述。

以上对本申请中一种基于神经网络对文本编码的方法进行说明，以下对执行上述基于神经网络对文本编码的方法的机器翻译装置进行描述。

如图3所示的一种机器翻译装置30的结构示意图，其可应用于模拟整个机器翻译过程。本申请实施例中的机器翻译装置能够实现对应于上述图1所对应的实施例中所执行的基于神经网络对文本编码的方法的步骤。机器翻译装置30实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

一些实施方式中，所述机器翻译装置中部署机器翻译模型，所述机器翻译模型用于模拟整个翻译过程，所述机器翻译装置包括：

在本申请中，编码改进器也可以是集成在编码器中，或者与编码器分别为单独部署的器件，本申请不对编码器和编码器的功能作区分，二者可等同。

一些实施方式中，所述编码器具体用于：

其中，权重系数的一种计算公式如下：

Attention值的一种计算公式如下：

一些实施方式中，所述编码器具体用于：

分别计算目标词的左熵和右熵；

计算目标词的左熵和右熵之间的最小值；

一些实施方式中，所述编码质量判断条件包括多个文本控制门，所述文本控制门用于从所述文本序列中查找最优的隐藏状态序列。文本控制门还可以用于判断所述文本序列中各源句子的语法是否正确，判断源句子的行数是否超出预设行数，用于判断所述文本序列中各源句子的字数是否超出预设次数，以及用于判断所述文本序列中各源句子的大小写是否正确。

一些实施方式中，所述编码器具体用于：

δ₁(i)＝π_ib_i(o1)

Ψ₁(i)＝0

其中，i＝1,2...N；

δ_t(i)＝max[δ_t-1(j)aji]bi(0t)

Ψ_t(i)＝argmax[δ_t-1(j)aji]

其中，1≤j≤N。

P*＝maxδ_T(i)

i*_T＝argmax[δ_T(i)]

一些实施方式中，所述编码器具体用于：

其中，

一些实施方式中，所述解码器在调整所述文本序列中的各源句子的向量表示之前，还用于：

其中，

根据改进后的所述第一隐藏状态

其中，encoder_re为编码改进器使用的编码函数，

分别为所述源语言序列在1、2、…j..，J时刻的隐藏状态。

上面从模块化功能实体的角度分别介绍了本申请实施例中的机器翻译装置，以下从硬件角度介绍一种计算机设备，如图4所示，其包括：处理器、存储器、编码器、编码改进器和解码器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如，该计算机程序可以为图1所对应的实施例中基于神经网络对文本编码的方法对应的程序。例如，当计算机设备实现如图3所示的机器翻译装置30的功能时，所述处理器执行所述计算机程序时实现上述图3所对应的实施例中由机器翻译装置30执行的基于神经网络对文本编码的方法中的各步骤；或者，所述处理器执行所述计算机程序时实现上述图3所对应的实施例的机器翻译装置30中各模块的功能。又例如，该计算机程序可以为图1所对应的实施例中基于神经网络对文本编码的方法对应的程序。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等) 执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本申请的保护之内。

Claims

1.一种基于神经网络对文本编码的方法，其特征在于，所述方法应用于机器翻译装置，所述机器翻译装置中部署机器翻译模型，所述机器翻译模型用于模拟整个翻译过程，所述机器翻译模型包括编码器、解码器和编码改进器；所述方法包括：

若所述编码结果的编码质量符合所述编码质量判断条件，则所述解码器对目标语言序列进行解码；

若所述编码结果的编码质量不符合所述编码质量判断条件，则所述解码器调整所述文本序列中的各源句子的向量表示，并重复执行从所述解码器接收解码器的第一隐藏状态和第二隐藏状态，根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件，以及根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件的操作，直至编码质量符合所述编码质量判断条件后，对所述目标语言序列进行解码；所述第一隐藏状态为解码器当前的隐藏状态，所述第二隐藏状态为所述解码器上一次的隐藏状态；

所述根据多注意力模型对所述文本序列进行双向编码，得到编码结果，以及关注目标词的左右相邻熵，包括：

所述编码器将所述源句子中的构成元素作为由一系列的<Key,Value>数据对构成；

所述编码器从所述源句子中选择一个目标词的某个元素Query，计算所述Query和各个Key的相似性或者相关性，得到每个Key对应Value值的权重系数；

所述编码器对Value进行加权求和，得到所述源句子对应的注意Attention值；

其中，权重系数的一种计算公式如下：

Attention值的一种计算公式如下：

其中，ai为权重系数，Lx＝||Source||代表源句子的长度，由于在计算Attention值的过程中，源句子中的Key和Value合二为一且指向的是同一个对象，所以向多关注模型中输入源句子中每个单词对应的语义编码。

2.根据权利要求1所述的方法，其特征在于，所述计算各目标词的左右相邻熵，根据目标词的左右相邻熵增加与目标词关联的关联词的权重，将所述文本序列中的各源句子分别初始化为向量表示，包括：

3.根据权利要求1-2中任一项所述的方法，其特征在于，所述编码质量判断条件包括多个文本控制门，所述文本控制门用于从所述文本序列中查找最优的隐藏状态序列，文本控制门还可以用于判断所述文本序列中各源句子的语法是否正确，判断源句子的行数是否超出预设行数，用于判断所述文本序列中各源句子的字数是否超出预设次数，以及用于判断所述文本序列中各源句子的大小写是否正确。

4.根据权利要求3所述的方法，其特征在于，所述编码器从所述解码器获取解码器的第一隐藏状态和第二隐藏状态，包括：

δ₁(i)＝π_ib_i(o1)

Ψ₁(i)＝0

其中，i＝1,2...N；

所述编码器根据第二方程组分别对所述源句子序列进行动态规划并递推隐藏状态Ψ_t(i)在时刻t＝2,3,...T时的局部状态：所述第二方程组为：

δ_t(i)＝max[δ_t-1(j)aji]bi(0t)

Ψ_t(i)＝argmax[δ_t-1(j)aji]

其中，1≤j≤N，

所述编码器根据第三方程组计算时刻T最大的概率δ_T(i),δ_T(i)为计算最可能隐藏状态序列出现的概率P*，以及计算时刻T最大的隐藏状态Ψt(i),Ψt(i)为时刻T最可能的隐藏状态；所述第三方程组为：

P*＝maxδ_T(i)

i*_T＝argmax[δ_T(i)]

所述编码器根据第四方程组和利用局部状态Ψ(i)开始回溯，对于t＝T-1,T-2,...,1时，所述第四方程组为i*_t＝Ψ_t+1(i*_t+1)；

所述编码器根据局部状态Ψ(i)从时刻0一直递推到时刻T，利用Ψt(i)记录的前一个最可能的状态节点回溯，直到找到最有可能的隐藏状态序列I*＝{i*1,i*2,...i*T}。

5.根据权利要求4所述的方法，其特征在于，所述根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件，包括：

所述编码改进器根据sigmoid激活函数、第一权重矩阵、第二权重矩阵、所述第一隐藏状态和所述第二隐藏状态计算每个文本控制门的向量；其中，计算每个文本控制门的向量的公式如下：

其中，

为文本控制门的向量，σ(W*h_i+U*s_i-1+b_z)是sigmoid激活函数，W和U为权重矩阵，h_i是指解码器的第一隐藏状态，s_i-1是指编码器的第二隐藏状态，b_z是偏置向量；

所述编码改进器根据各文本控制门的向量判断各源句子的向量表示的差值是否小于偏置向量；

6.根据权利要求5所述的方法，其特征在于，所述解码器调整所述文本序列中的各源句子的向量表示之前，所述方法还包括：

所述编码改进器将不符合所述编码质量条件的源句子的向量表示输入编码改进器，

所述第一编码公式为

其中，/>

所述编码改进器根据改进后的所述第一隐藏状态

对源语言序列进行重新编码，得到目标隐藏状态，得到所述目标隐藏状态的第二编码公式为：/>

其中，encoder_re为编码改进器使用的编码函数，/>

分别为所述源语言序列在1、2、…j..，J时刻的隐藏状态。

7.一种机器翻译装置，其特征在于，所述机器翻译装置中部署机器翻译模型，所述机器翻译模型用于模拟整个翻译过程，所述机器翻译装置包括：

编码改进器，用于根据各关联词的权重监控权重高于预设权重的目标关联词、以及监控与目标关联词关联的目标词；从解码器接收所述解码器的第一隐藏状态和第二隐藏状态，根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件；根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件；所述第一隐藏状态为所述解码器当前的隐藏状态，所述第二隐藏状态为所述解码器上一次的隐藏状态；

所述解码器，用于若所述编码结果的编码质量符合所述编码质量判断条件，则对目标语言序列进行解码；

所述编码改进器还用于若所述编码结果的编码质量不符合所述编码质量判断条件，则调整所述文本序列中的各源句子的向量表示，并重复执行从所述解码器接收解码器的第一隐藏状态和第二隐藏状态，根据所述第一隐藏状态和所述第二隐藏状态更新编码质量判断条件，以及根据更新后的所述编码质量判断条件判断所述编码结果是否符合所述编码质量判断条件的操作，直至编码质量符合所述编码质量判断条件后，对所述目标语言序列进行解码；

所述编码器具体用于：

从所述源句子中选择一个目标词的某个元素Query，计算所述Query和各个Key的相似性或者相关性，得到每个Key对应Value值的权重系数；

其中，权重系数的一种计算公式如下：

Attention值的一种计算公式如下：

8.一种计算机设备，其特征在于，所述设备包括：

至少一个处理器、存储器、编码器、编码改进器和解码器；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-6中任一项所述的方法。

9.一种计算机存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-6中任一项所述的方法。