CN107632981B - 一种引入源语组块信息编码的神经机器翻译方法 - Google Patents

一种引入源语组块信息编码的神经机器翻译方法 Download PDF

Info

Publication number
CN107632981B
CN107632981B CN201710795671.5A CN201710795671A CN107632981B CN 107632981 B CN107632981 B CN 107632981B CN 201710795671 A CN201710795671 A CN 201710795671A CN 107632981 B CN107632981 B CN 107632981B
Authority
CN
China
Prior art keywords
source
information
coding
sentence
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710795671.5A
Other languages
English (en)
Other versions
CN107632981A (zh
Inventor
王强
吴开心
肖桐
朱靖波
张春良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yayi Network Technology Co ltd
Original Assignee
Shenyang Yaze Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yaze Network Technology Co ltd filed Critical Shenyang Yaze Network Technology Co ltd
Priority to CN201710795671.5A priority Critical patent/CN107632981B/zh
Publication of CN107632981A publication Critical patent/CN107632981A/zh
Application granted granted Critical
Publication of CN107632981B publication Critical patent/CN107632981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种引入源语组块信息编码的神经机器翻译方法,输入双语句子级平行数据,分别对源语和目标语分词,得到分词后的双语平行句对;对分词后的双语平行句对中的源语句子按时序进行编码,获取最后一层隐藏层上每个时序的状态,对输入的源语句按块进行切分;根据源语句的每个时序状态以及源语句的切分信息,获得源语句的块编码信息;将时序编码信息与块编码信息联合起来,获得最终的源语句记忆信息;解码器网络通过动态地查询源语句的记忆信息,利用注意力机制产生每一个时刻的上下文向量,并抽取特征向量,进行词汇预测。本发明自动对源语句进行块切分,不需要任何事先分块好的句子参与训练;能够捕捉到对源语句最新和最佳的分块方式。

Description

一种引入源语组块信息编码的神经机器翻译方法
技术领域
本发明涉及机器翻译领域,具体为一种引入源语组块信息编码的神经机器翻译方法。
背景技术
神经机器翻译技术通常采用基于神经网络的编码器-解码器框架来对整个翻译过程进行端到端的建模,采用这种方法在许多不同语种的互译中已经实现了最佳翻译性能。其中,编码器网络负责把输入的源语句编码成带有记忆信息的固定维度的向量,而解码器将通过编码器得到的编码向量生成对应的翻译结果。对于编码器,通常把输入的源语句看作是分词后按顺序出现的单词序列。当编码器读入源语句时,就可以针对源语句构建相应的记忆信息,在编码过程中,源语句单词序列中的每个单词都会生成对应的记忆单元。一个编码器编码的示例如下:
源语句:她有许多漂亮的衣服
单词序列:她有许多漂亮的衣服
记忆单元:h1 h2 h3 h4 h5
其中,输入编码器的源语句是“她有许多漂亮的衣服”,源语句分词所对应的单词序列是{“她”、“有”、“许多”、“漂亮的”、“衣服”},经过编码器编码后上述单词序列中的每个单词对应的记忆单元分别是h1、h2、h3、h4、h5,则源语句的记忆信息为H={h1,...,h5}。
在传统神经机器翻译系统的编码过程中,通常按时序对源语句的每个单词进行编码,而最终得到的源语句的记忆信息缺少了结构化的依赖表示(树、块)。上述示例中“漂亮的”和“衣服”之间存在着明显的依赖关系,单纯的按时序对源语句中的每个单词进行编码并不能完整的表达源语句所包含的信息。而采用一些已有的外部工具,通过句法分析等方法可以获得这部分信息。但由于这些外部工具本身并不完善,这样做又有可能引进新的错误,而这些错误将会影响后续工作。
另外,目前采用一些外部工具,通过句法分析等方法来获得源语句的分块信息。但由于这些外部工具本身并不完善,在获得分块信息时有可能引入新的错误,而这些错误会在后续工作中继续蔓延,产生错误累积。
发明内容
针对现有技术中神经机器翻译技术中对源语句按单词顺序进行编码的方式未能考虑源语句的结构化信息表示(树、块),导致所产生的错误向后续工作进行传播,从而对翻译性能产生影响等不足,本发明要解决的技术问题是提供一种能够自动对源语句进行块切分的引入源语组块信息编码的神经机器翻译方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种引入源语组块信息编码的神经机器翻译方法,包括以下步骤:
1)输入双语句子级平行数据,分别对源语和目标语分词,得到分词后的双语平行句对;
2)用神经机器翻译系统对分词后的双语平行句对中的源语句子按时序进行编码,获取最后一层隐藏层上每个时序的状态,即每个时序下的编码信息;
3)在进行编码的过程中,对输入的源语句按块进行切分;
4)根据步骤2)、3)得到的源语句的每个时序状态以及源语句的切分信息,获得源语句的块编码信息;
5)将步骤2)和4)产生的时序的编码信息与块编码信息联合起来,获得最终的源语句记忆信息;
6)得到最终的源语句记忆信息后,解码器网络通过动态地查询源语句的记忆信息,利用注意力机制产生每一个时刻的上下文向量,并抽取特征向量,进行词汇预测。
步骤2)中,用神经机器翻译系统对分词后的双语平行句对中的源语句子按时序进行编码,获取最后一层隐藏层上每个时序的状态,具体如下:
H是源语句的记忆信息,通过双向循环神经网络得到,H=(h1,...,hLs),其中
Figure GDA0002655671180000021
由两个记忆单元拼接而成,为第i个单词记忆单元,即编码信息,Ls为源语句的单词个数,
Figure GDA0002655671180000022
为正向标注向量,
Figure GDA0002655671180000023
为反向标注向量;
Figure GDA0002655671180000024
Figure GDA0002655671180000025
其中
Figure GDA0002655671180000026
Figure GDA0002655671180000027
为两个独立的门循环单元,
Figure GDA0002655671180000028
为源语句单词序列中第i个单词的词向量。
步骤3)中在进行编码的过程中,对输入的源语句按块进行切分,具体为:
在神经机器翻译的编码端的最上面构建识别层,识别层的输出代表标记的概率,针对源语句的每个时序,看成带有两个标记的序列标注问题;
定义两个标记B、M,其中B为切分的开始位置,M为切分块的中间部分;首先使用一个单层前馈神经网络,将每一个位置的编码信息进行非线性变换,得到一个新的隐藏状态向量,即自动抽取出的特征表示:
f(hi)=tanh(W1*hi+b1)
其中hi是当前位置i的编码表示,W1,b1是模型参数,W1是形状为(h,l)的实数矩阵,b1是维度为l的实数向量,h是原编码表示维度的大小,l是标签特征维度的大小。
然后对该特征进行logistic regression操作,得到一个取值范围为(0,1)之间的标量,表示当前位置被标注为B的概率:
P(B|hi)=sigmoid(W2*f(hi)+b2)
其中W2是形状为(l,1)的实数矩阵,b2是维度为1的实数向量;
根据之前得到的每个位置被标记为B的概率值P(B|hi),即可得到相应位置被标记为M的概率,即
P(M|hi)=1-P(B|hi)
然后采用贪心策略,选择最优的标记序列,即遵从:
Figure GDA0002655671180000031
L(i)表示位置i被标记的标签类别。
步骤4)中根据步骤2)、3)得到的源语句的每个时序状态以及源语句的切分信息,获得源语句的块编码信息,具体为:
假设所有可能的分块为
Figure GDA0002655671180000032
X为输入的源语句,
Figure GDA0002655671180000033
i和j分别为块的起始和结束位置,Ls代表源语句单词的数目;
取一个子集
Figure GDA0002655671180000034
来表示源语句的分块集合,其中|S(X)|=m表示源语句中存在m个分块,源语句的块编码为S=(s1,...,sm),其中si代表的是第i(1≤i≤m)个块的编码信息;
通过RNN-MINUS方法对块进行编码,假设对分块进行编码之前的记忆信息是Is,经过分块之后的编码的记忆信息是Ie,将这个分块所代表的信息表示成Ie-Is
给定双向循环神经网络编码
Figure GDA0002655671180000035
采用RNN-MINUS方法对块
Figure GDA0002655671180000036
进行编码,得到:
Figure GDA0002655671180000037
将步骤2)和4)产生的时序的编码信息与块编码信息联合起来,得到最后的源语句的记忆信息H*
H*=[H;S]
=[(h1,...,hLs);(s1,...,sm)]
其中H*由两部分组成,分别为H和S,其中H由每个单词所对应的记忆单元构成,为每个单词时序上编码记忆信息;S代为每个分块上的编码记忆信息。
步骤6)中,得到源语句的记忆信息H*后,解码器网络与传统方法一样,通过动态地查询源语句的记忆信息,利用注意力机制产生每一个时刻的上下文向量,并抽取特征向量,进行词汇预测,包括以下过程:
601)得到解码时刻的隐藏状态ti:
Figure GDA0002655671180000038
Figure GDA0002655671180000039
是当前时刻输入的目标语词的词向量,t表示隐藏状态,i为当前解码时刻;
602)动态计算当前时刻的上下文向量ci
Figure GDA0002655671180000041
ei,j=ti*W*[hi;si]
Figure GDA0002655671180000042
其中W是形状为(h,2h)的实数矩阵,ei,j表示当前解码时刻i的状态与编码时刻j的状态之间的势能大小,ai,j表示解码时刻i的状态与编码时刻j的状态之间的对齐概率;
603)生成特征向量g(i):
g(i)=Wb*(tanh(Wa*ti+Ua*ci+ba))+bb
其中,Wa是形状为(h,h)的实数矩阵,Ua是形状为(h,h)的实数矩阵,ba是维度为1的实数向量,Wb是形状为(h,vt)的实数矩阵,bb是维度为vt的实数向量,vt是目标语词汇表大小;
604)词汇预测P(wk|i):
O=Wb*g(i)+b
Figure GDA0002655671180000043
其中,wk表示第k个目标语词,wb是形状为(h,vt)的实数矩阵,bb是维度为vt的实数向量,vt是目标语词汇表大小,因此O是一个维度为vt的实数向量,Ok表示第k维的实数值。
本发明具有以下有益效果及优点:
1.本发明方法在机器翻译模型中又联合了一个切分模型,能够自动对源语句进行块切分,该切分模型通过端到端的方式训练得到,不需要任何事先分块好的句子参与训练;这个模型在翻译模型的训练过程中能够捕捉到对源语句最新和最佳的分块方式。
2.本发明通过采用源语块编码的神经机器翻译方法不需要在传统的方法上做太大的改变,实验结果显示,在中英翻译任务上,相比较于基线系统,采用源语组块编码的神经机器翻译方法在不同测试集上平均能提升2.1个blue值。
附图说明
图1为本发明方法涉及的生成第i个单词的词向量示意图;
图2为本发明方法涉及的语句的块切分示意图;
图3为本发明方法涉及的块编码示意图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明一种引入源语组块信息编码的神经机器翻译方法,包括以下步骤:
1)输入双语句子级平行数据,分别对源语和目标语分词,得到分词后的双语平行句对;
2)用神经机器翻译系统对分词后的双语平行句对的源语句子按时序进行编码,获取最后一层隐藏层上每个时序的状态,即每个时序下的编码信息;
3)在进行编码的过程中,对输入的源语句按块进行切分;
4)根据步骤2)、3)得到的源语句的每个时序状态以及源语句的切分信息,获得源语句的块编码信息;
5)将步骤2)和4)产生的时序的编码信息与块编码信息联合起来,获得最终的源语句记忆信息;
6)得到最终的源语句记忆信息后,解码器网络与传统方法一样,通过动态地查询源语句的记忆信息,利用注意力机制产生每一个时刻的上下文向量,并抽取特征向量,进行词汇预测。
步骤1)中,输入的是双语互译的句对集合,每个句对由源语和目标语组成。在本发明中,采用的编码方法只针对源语句。
步骤2)中,用神经机器翻译系统对分词后的源语句按时序进行编码,获得最后一层隐藏层下每个时序的输出,即每个时序下的编码信息。
H=(h1,...,hLs),H是源语句的记忆信息,H是通过双向RNN得到的,双向RNN由一个正向RNN和一个反向RNN组成。其中
Figure GDA0002655671180000051
是由两个记忆单元拼接而成的,代表的是第i个单词记忆单元,即编码信息,Ls代表源语句的单词个数,
Figure GDA0002655671180000052
代表的是正向标注向量,
Figure GDA0002655671180000053
是方向标注向量。
Figure GDA0002655671180000054
Figure GDA0002655671180000055
其中
Figure GDA0002655671180000056
Figure GDA0002655671180000057
是两个GRUs(Gated Recurrent Unit,独立的门循环单元),
Figure GDA0002655671180000058
表示的是源语句单词序列中第i个单词的词向量,如图1所示。
步骤3)中,在学习机器翻译模型的同时,又得到了一个针对源语句进行块切分的模型。通过这个切分模型,可以获得对当前源语句最新和最优的切分方式。
在这个切分模型中,本发明定义了两个标记:B、M。B代表切分的开始位置,M代表切分块的中间部分。首先使用一个单层前馈神经网络,将每一个位置的编码信息进行非线性变换(激活函数使用双曲正切函数),得到一个新的隐藏状态向量,即自动抽取出的特征表示:
f(hi)=tanh(W1*hi+b1)
其中hi是当前位置i的编码表示,W1,b1是模型参数,W1是形状为(h,l)的实数矩阵,b1是维度为l的实数向量,h是原编码表示维度的大小,l是标签特征维度的大小。
然后对该特征进行logistic regression操作,得到一个取值范围为(0,1)之间的标量,表示当前位置被标注为B的概率:
P(B|hi)=sigmoid(W2*f(hi)+b2)
其中W2是形状为(l,1)的实数矩阵,b2是维度为1的实数向量。
根据之前得到的每个位置被标记为B的概率值P(B|hi),即可得到相应位置被标记为M的概率,即
P(M|hi)=1-P(B|hi)
然后采用贪心策略,选择最优的标记序列,即遵从:
Figure GDA0002655671180000061
L(i)表示位置i被标记的标签类别。
为了得到这个切分模型,本发明在神经机器翻译的编码端的最上面构建了一个识别层,识别层的输出代表的是标记的概率。因此针对源语句的每个时序,可以把它看成是带有两个标记的序列标注问题。如图2所示,示例如下:
源语句:她有许多漂亮的衣服
单词序列:她 有 许多 漂亮的 衣服
标记:B B B B M
块切分:[她][有][许多][漂亮的衣服]
步骤4)中,假设已经得到源语句中每个时序的编码信息H=(h1,...,hLs),Ls是源语句单词的个数,其中
Figure GDA0002655671180000062
是由两个记忆单元拼接而成的,
Figure GDA0002655671180000063
代表的是正向标注向量,
Figure GDA0002655671180000064
是方向标注向量。如何根据已知的编码信息来得到块的编码信息呢?假设所有可能的分块为
Figure GDA0002655671180000065
1≤i≤j≤Ls,X代表输入的源语句,
Figure GDA0002655671180000066
i和j分别表示块的起始和结束位置,Ls代表源语句单词的数目。这里取一个子集
Figure GDA0002655671180000067
来表示源语句的分块集合,其中|S(X)|=m,表示源语句中存在m个分块,则源语句的块编码为S=(s1,...,sm),其中si代表的是第i(1≤i≤m)个块的编码信息。本发明提出一种叫做RNN-MINUS的方法来对块进行编码。RNN-MINUS的思想很简单:假设对分块进行编码之前的记忆信息是Is,而经过分块之后的编码的记忆信息是Ie,因此把这个分块所代表的信息表示成Ie-Is。给定双向RNN编码
Figure GDA0002655671180000071
采用RNN-MINUS方法对块
Figure GDA0002655671180000072
进行编码,得到:
Figure GDA0002655671180000073
假设源语句的分块为:{[她],[有],[许多],[漂亮的衣服]}。源语句对应的记忆信息如图3所示,其中<s>和</s>表示的是句子的开始和结束标记。以[漂亮的衣服]这个分块为例,它所对应的块编码为
Figure GDA0002655671180000074
步骤5)中,可以得到最后的源语句的记忆信息H*:
H*=[H;S]
=[(h1,...,hLs);(s1,...,sm)]
其中H*由两部分组成,分别是H和S。H是由每个单词所对应的记忆单元构成,代表的是每个单词时序上编码记忆信息;而S代表的是每个分块上的编码记忆信息。
步骤6)中,得到源语句的记忆信息H*后,解码器网络与传统方法一样,通过动态地查询源语句的记忆信息,利用注意力机制产生每一个时刻的上下文向量,并抽取特征向量,进行词汇预测,包括以下过程:
601)得到解码时刻的隐藏状态ti:
Figure GDA0002655671180000075
Figure GDA0002655671180000076
是当前时刻输入的目标语词的词向量,t表示隐藏状态,i为当前解码时刻;
602)动态计算当前时刻的上下文向量ci
Figure GDA0002655671180000077
ei,j=ti*W*[hi;si]
Figure GDA0002655671180000078
其中W是形状为(h,2h)的实数矩阵,ei,j表示当前解码时刻i的状态与编码时刻j的状态之间的势能大小,ai,j表示解码时刻i的状态与编码时刻j的状态之间的对齐概率;
603)生成特征向量g(i):
g(i)=Wb*(tanh(Wa*ti+Ua*ci+ba))+bb
其中,Wa是形状为(h,h)的实数矩阵,Ua是形状为(h,h)的实数矩阵,ba是维度为1的实数向量,Wb是形状为(h,vt)的实数矩阵,bb是维度为vt的实数向量,vt是目标语词汇表大小;
604)词汇预测P(wk|i):
O=Wb*g(i)+b
Figure GDA0002655671180000081
其中,wk表示第k个目标语词,Wb是形状为(h,vt)的实数矩阵,bb是维度为vt的实数向量,vt是目标语词汇表大小,因此O是一个维度为vt的实数向量,Ok表示第k维的实数值。
本发明提出了一种引入源语组块信息编码的神经机器翻译方法,第一,考虑到传统机器翻译编码过程中缺少结构化的依赖表示,在原有的记忆单元中加入了组块编码信息。组块是源语句的子序列,它由源语句单词序列中连续的单词组成。组块编码示例如下:
源语句:她有许多漂亮的衣服
单词序列:她 有 许多 漂亮的 衣服
分块:[她] [有] [许多] [漂亮的衣服]
块编码:s1 s2 s3 s4
其中,输入编码器的源语句是“她有许多漂亮的衣服”,得到的分块序列是{[她],[有],[许多],[漂亮的衣服]},它对应的块编码信息是S={s1,s2,s3,s4},则该源语句最终的记忆信息H*=[H;S]=[(h1,...,h5);(s1,...,s4)]。
第二,目前采用一些外部工具,通过句法分析等方法来获得源语句的分块信息。但由于这些外部工具本身并不完善,在获得分块信息时有可能引入新的错误,而这些错误会在后续工作中继续蔓延,产生错误累积。因此,本发明在机器翻译模型中又联合了一个切分模型,这个切分模型是通过端到端的方式训练得到的,不需要任何事先分块好的句子参与训练。这个模型在翻译模型的训练过程中能够捕捉到对源语句最新和最佳的分块方式。
此外,采用源语块编码的神经机器翻译方法不需要在传统的方法上做太大的改变。实验结果显示,在中英翻译任务上,相比较于基线系统,采用源语组块编码的神经机器翻译方法在不同测试集上平均能提升2.1个blue值。

Claims (5)

1.一种引入源语组块信息编码的神经机器翻译方法,其特征在于包括以下步骤:
1)输入双语句子级平行数据,分别对源语和目标语分词,得到分词后的双语平行句对;
2)用神经机器翻译系统对分词后的双语平行句对中的源语句子按时序进行编码,获取最后一层隐藏层上每个时序的状态,即每个时序下的编码信息;
3)在神经机器翻译的编码端的最上面构建一个识别层,对输入的源语句按块进行切分;
4)根据步骤2)、3)得到的源语句的每个时序状态以及源语句的切分信息,获得源语句的块编码信息;
5)将步骤2)和4)产生的时序的编码信息与块编码信息联合起来,获得最终的源语句记忆信息;
6)得到最终的源语句记忆信息后,解码器网络通过动态地查询源语句的记忆信息,利用注意力机制产生每一个时刻的上下文向量,并抽取特征向量,进行词汇预测;
步骤4)中根据步骤2)、3)得到的源语句的每个时序状态以及源语句的切分信息,获得源语句的块编码信息,具体为:
假设所有可能的分块为
Figure FDA0002671613300000011
X为输入的源语句,
Figure FDA0002671613300000012
i和j分别为块的起始和结束位置,Ls代表源语句单词的数目;
取一个子集
Figure FDA0002671613300000013
来表示源语句的分块集合,其中|S(X)|=m表示源语句中存在m个分块,源语句的块编码为S=(s1,...,sm),其中si代表的是第i(1≤i≤m)个块的编码信息;
通过RNN-MINUS方法对块进行编码,即:假设对分块进行编码之前的记忆信息是Is,经过分块之后的编码的记忆信息是Ie,将这个分块所代表的信息表示成Ie-Is
给定双向循环神经网络编码
Figure FDA0002671613300000014
采用RNN-MINUS方法对块
Figure FDA0002671613300000015
进行编码,得到:
Figure FDA0002671613300000016
2.根据权利要求1所述的引入源语组块信息编码的神经机器翻译方法,其特征在于步骤2)中,用神经机器翻译系统对分词后的双语平行句对中的源语句子按时序进行编码,获取最后一层隐藏层上每个时序的状态,具体如下:
H是源语句的记忆信息,通过双向循环神经网络得到,H=(h1,...,hLs),其中
Figure FDA0002671613300000021
由两个记忆单元拼接而成,为第i个单词记忆单元,即编码信息,Ls为源语句的单词个数,
Figure FDA0002671613300000022
为正向标注向量,
Figure FDA0002671613300000023
为反向标注向量;
Figure FDA0002671613300000024
Figure FDA0002671613300000025
其中
Figure FDA0002671613300000026
Figure FDA0002671613300000027
为两个独立的门循环单元,
Figure FDA0002671613300000028
为源语句单词序列中第i个单词的词向量。
3.根据权利要求1所述的引入源语组块信息编码的神经机器翻译方法,其特征在于步骤3)中在进行编码的过程中,对输入的源语句按块进行切分,具体为:
在神经机器翻译的编码端的最上面构建识别层,识别层的输出代表标记的概率,针对源语句的每个时序,看成带有两个标记的序列标注问题;
定义两个标记B、M,其中B为切分的开始位置,M为切分块的中间部分;首先使用一个单层前馈神经网络,将每一个位置的编码信息进行非线性变换,得到一个新的隐藏状态向量,即自动抽取出的特征表示:f(hi)=tanh(W1*hi+b1)
其中hi是当前位置i的编码表示,W1,b1是模型参数,W1是形状为(h,l)的实数矩阵,b1是维度为l的实数向量,h是原编码表示维度的大小,l是标签特征维度的大小;
然后对该特征进行logistic regression操作,得到一个取值范围为(0,1)之间的标量,表示当前位置被标注为B的概率:
P(B|hi)=sigmoid(W2*f(hi)+b2)
其中W2是形状为(l,1)的实数矩阵,b2是维度为1的实数向量;
根据之前得到的每个位置被标记为B的概率值P(B|hi),即可得到相应位置被标记为M的概率,即
P(M|hi)=1-P(B|hi)
然后采用贪心策略,选择最优的标记序列,即遵从:
Figure FDA0002671613300000029
L(i)表示位置i被标记的标签类别。
4.根据权利要求1所述的引入源语组块信息编码的神经机器翻译方法,其特征在于将步骤2)和4)产生的时序的编码信息与块编码信息联合起来,得到最后的源语句的记忆信息H*
H*=[H;S]
=[(h1,...,hLs);(s1,...,sm)]
其中H*由两部分组成,分别为H和S,其中H由每个单词所对应的记忆单元构成,为每个单词时序上编码记忆信息;S代为每个分块上的编码记忆信息。
5.根据权利要求1所述的引入源语组块信息编码的神经机器翻译方法,其特征在于步骤6)中,得到源语句的记忆信息H*后,解码器网络通过动态地查询源语句的记忆信息,利用注意力机制产生每一个时刻的上下文向量,并抽取特征向量,进行词汇预测,包括以下过程:
601)得到解码时刻的隐藏状态ti
Figure FDA0002671613300000031
Figure FDA0002671613300000032
是当前时刻输入的目标语词的词向量,t表示隐藏状态,i为当前解码时刻;
602)动态计算当前时刻的上下文向量ci
Figure FDA0002671613300000033
ei,j=ti*W*[hi;si]
Figure FDA0002671613300000034
其中W是形状为(h,2h)的实数矩阵,ei,j表示当前解码时刻i的状态与编码时刻j的状态之间的势能大小,ai,j表示解码时刻i的状态与编码时刻j的状态之间的对齐概率;
603)生成特征向量g(i):
g(i)=Wb*(tanh(Wa*ti+Ua*ci+ba))+bb
其中,Wa是形状为(h,h)的实数矩阵,Ua是形状为(h,h)的实数矩阵,ba是维度为1的实数向量,Wb是形状为(h,vt)的实数矩阵,bb是维度为vt的实数向量,vt是目标语词汇表大小;
604)词汇预测P(wk|i):
O=Wb*g(i)+b
Figure FDA0002671613300000035
其中,wk表示第k个目标语词,Wb是形状为(h,vt)的实数矩阵,vt是目标语词汇表大小,因此O是一个维度为vt的实数向量,Ok表示第k维的实数值。
CN201710795671.5A 2017-09-06 2017-09-06 一种引入源语组块信息编码的神经机器翻译方法 Active CN107632981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710795671.5A CN107632981B (zh) 2017-09-06 2017-09-06 一种引入源语组块信息编码的神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710795671.5A CN107632981B (zh) 2017-09-06 2017-09-06 一种引入源语组块信息编码的神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN107632981A CN107632981A (zh) 2018-01-26
CN107632981B true CN107632981B (zh) 2020-11-03

Family

ID=61100030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710795671.5A Active CN107632981B (zh) 2017-09-06 2017-09-06 一种引入源语组块信息编码的神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN107632981B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401084B (zh) * 2018-02-08 2022-12-23 腾讯科技(深圳)有限公司 一种机器翻译的方法、设备以及计算机可读存储介质
CN108549644A (zh) * 2018-04-12 2018-09-18 苏州大学 面向神经机器翻译的省略代词翻译方法
CN108763227A (zh) * 2018-05-21 2018-11-06 电子科技大学 一种基于分块机制的机器翻译方法
CN109598002A (zh) * 2018-11-15 2019-04-09 重庆邮电大学 基于双向循环神经网络的神经机器翻译方法和系统
CN110263304B (zh) * 2018-11-29 2023-01-10 腾讯科技(深圳)有限公司 语句编码方法、语句解码方法、装置、存储介质及设备
CN109543824B (zh) * 2018-11-30 2023-05-23 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
CN109635150B (zh) * 2018-12-19 2021-07-02 腾讯科技(深圳)有限公司 文本生成方法、装置以及存储介质
CN109783827B (zh) * 2019-01-31 2023-02-10 沈阳雅译网络技术有限公司 一种基于动态线性聚合的深层神经机器翻译方法
CN110263348A (zh) * 2019-03-06 2019-09-20 腾讯科技(深圳)有限公司 翻译方法、装置、计算机设备和存储介质
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN110059324B (zh) * 2019-04-26 2022-12-13 广州大学 基于依存信息监督的神经网络机器翻译方法及装置
CN110334360B (zh) * 2019-07-08 2021-07-06 腾讯科技(深圳)有限公司 机器翻译方法及装置、电子设备及存储介质
CN110442693B (zh) * 2019-07-27 2022-02-22 中国科学院自动化研究所 基于人工智能的回复消息生成方法、装置、服务器及介质
CN111160050A (zh) * 2019-12-20 2020-05-15 沈阳雅译网络技术有限公司 一种基于上下文记忆网络的篇章级神经机器翻译方法
CN111353315B (zh) * 2020-01-21 2023-04-25 沈阳雅译网络技术有限公司 一种基于随机残差算法的深层神经机器翻译系统
CN113112007B (zh) * 2021-06-11 2021-10-15 平安科技(深圳)有限公司 神经网络中序列长度选择方法、装置、设备及存储介质
CN113486679A (zh) * 2021-07-08 2021-10-08 中联国智科技管理(北京)有限公司 一种基于神经网络的语句翻译方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942192A (zh) * 2013-11-21 2014-07-23 北京理工大学 一种双语最大名词组块分离-融合的翻译方法
CN106021227A (zh) * 2016-05-16 2016-10-12 南京大学 一种基于状态转移与神经网络的汉语组块分析方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068998B (zh) * 2015-07-29 2017-12-15 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
KR102195627B1 (ko) * 2015-11-17 2020-12-28 삼성전자주식회사 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법
CN107038159B (zh) * 2017-03-09 2019-07-12 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942192A (zh) * 2013-11-21 2014-07-23 北京理工大学 一种双语最大名词组块分离-融合的翻译方法
CN106021227A (zh) * 2016-05-16 2016-10-12 南京大学 一种基于状态转移与神经网络的汉语组块分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chunk-based Decoder for Neural Machine Translation;Shonosuke Ishiwatar;《Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;20170804;1901–1912 *
一种面向机器翻译的双语组块识别方法;张孝飞;《第九届全国计算语言学学术会议论文集》;20070801;380-385 *
统计机器翻译中实例短语对研究;李强;《北京大学学报(自然科学版)》;20160131;第52卷(第1期);113-119 *

Also Published As

Publication number Publication date
CN107632981A (zh) 2018-01-26

Similar Documents

Publication Publication Date Title
CN107632981B (zh) 一种引入源语组块信息编码的神经机器翻译方法
Zhang et al. Deep Neural Networks in Machine Translation: An Overview.
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
CN108170686B (zh) 文本翻译方法及装置
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN110196913A (zh) 基于文本生成式的多实体关系联合抽取方法和装置
CN112100388A (zh) 一种长文本新闻舆情的情感极性的分析方法
CN109492215A (zh) 新闻实体识别方法、装置、计算机设备和存储介质
CN112016604B (zh) 一种运用视觉信息的零资源机器翻译方法
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN112446221B (zh) 翻译评估方法、装置、系统及计算机存储介质
CN109299479A (zh) 通过门控机制将翻译记忆融入神经机器翻译的方法
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN112016300B (zh) 预训练模型处理、下游任务处理方法、装置及存储介质
Zhu et al. Robust spoken language understanding with unsupervised asr-error adaptation
CN113609824A (zh) 基于文本编辑和语法纠错的多轮对话改写方法及系统
CN112835585A (zh) 一种基于抽象语法树的程序理解方法及系统
CN115543437A (zh) 一种代码注释生成方法和系统
CN110728155A (zh) 一种基于树到序列的蒙汉机器翻译方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN115826988A (zh) 一种基于数据流分析和注意力机制的Java方法注释即时自动更新方法
CN115661710A (zh) 一种视频描述生成方法、装置及存储介质
CN110750669A (zh) 一种图像字幕生成的方法及系统
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220215

Address after: 110004 1001 - (1103), block C, No. 78, Sanhao Street, Heping District, Shenyang City, Liaoning Province

Patentee after: Calf Yazhi (Shenyang) Technology Co.,Ltd.

Address before: 110004 room 1517, No. 55, Sanhao Street, Heping District, Shenyang City, Liaoning Province

Patentee before: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220713

Address after: 110004 11 / F, block C, Neusoft computer city, 78 Sanhao Street, Heping District, Shenyang City, Liaoning Province

Patentee after: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD.

Address before: 110004 1001 - (1103), block C, No. 78, Sanhao Street, Heping District, Shenyang City, Liaoning Province

Patentee before: Calf Yazhi (Shenyang) Technology Co.,Ltd.

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Neural machine translation Method with Source Language Chunk Information Coding

Effective date of registration: 20230508

Granted publication date: 20201103

Pledgee: China Construction Bank Shenyang Hunnan sub branch

Pledgor: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD.

Registration number: Y2023210000101

PE01 Entry into force of the registration of the contract for pledge of patent right