CN106202068B - 基于多语平行语料的语义向量的机器翻译方法 - Google Patents

基于多语平行语料的语义向量的机器翻译方法 Download PDF

Info

Publication number
CN106202068B
CN106202068B CN201610590241.5A CN201610590241A CN106202068B CN 106202068 B CN106202068 B CN 106202068B CN 201610590241 A CN201610590241 A CN 201610590241A CN 106202068 B CN106202068 B CN 106202068B
Authority
CN
China
Prior art keywords
original language
hidden state
neural network
language
recurrent neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610590241.5A
Other languages
English (en)
Other versions
CN106202068A (zh
Inventor
朱聪慧
赵铁军
郑德权
杨沐昀
徐冰
曹海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Industrial Technology Research Institute Asset Management Co ltd
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201610590241.5A priority Critical patent/CN106202068B/zh
Publication of CN106202068A publication Critical patent/CN106202068A/zh
Application granted granted Critical
Publication of CN106202068B publication Critical patent/CN106202068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

基于多语平行语料的语义向量的机器翻译方法,本发明涉及机器翻译方法。本发明是要解决双语平行语料获得的语义信息通常较少的问题。本发明是通过一、输入平行的源语言1、2以及目标语言;二、根据公式(1)到公式(6)计算得到隐状态h′和h″;三、计算得到的向量c,四、生成目标语言;或者一、输入源语言1、2以及目标语言;二、计算向量c1和向量c2的归一化之后的余弦距离;三、衡量向量c1和向量c2的相似性;四、令dis(c1,c2)大于阈值δ;给定源语言1句子集合S1和源语言2句子集合S2,即表示为如下约束最优化问题:五、建立最终目标函数等步骤实现的。本发明应用于机器翻译领域。

Description

基于多语平行语料的语义向量的机器翻译方法
技术领域
本发明涉及语义向量的机器翻译方法,特别涉及基于多语平行语料的语义向量的机器翻译方法。
背景技术
向量表示是自然语言处理中常用的将文本形式化的方法。自然语言处理中的向量表示由传统的0-1向量(One-hot Representation)表示方法发展到现在深度学习中的词嵌入(Word Embedding)表示方法,为自然语言处理领域的各种主流任务带来深远意义。传统的One-hot Representation简介但具有稀疏性,词与词之间孤立,无法衡量两个词是否具有关系,且在解决某些任务的时候会造成维数灾难。深度学习中的Word Embedding表示方法,具有低维性,且解决了传统One-hot Representation的稀疏性问题,使得词嵌入表示方法可以采用距离函数衡量词语直接的关系。
Word Embedding由于其独特的优越性被融入现有系统中,最常见的是直接用于深度神经网络模型的输入层。近年来,深度神经网络在图像识别、语音识别等方面取得新的进展;在诸如语言模型、实体识别、情感分析、机器翻译等自然语言处理领域也有了很大的提升。尤其是机器翻译方面,深度神经网络打破了传统上基于统计的机器翻译方法。传统的基于统计机器翻译系统包含语言模型、翻译模型和调序模型,三个模型需被单独训练最后通过对数线性模型被同时考虑。与统计机器翻译不同,深度神经网络在机器翻译的任务上,只需训练好一个单独的深度神经网络(DNN),通过输入源语言序列就能直接产生目标语言序列,省去了翻译模型、语言模型、调序模型等模块单独训练并重新组合的繁杂过程。因此,深度神经网络在机器翻译任务上得到了广泛关注并取得了显著成就。
目前深度神经网络在机器翻译方面且都是用两种语言的平行语料来训练,输入端是源语言,输出端是目标语言。主要基于编码-解码框架。
Attention机制:在编码-解码框架基础上,“Attention”机制被提出并应用于机器翻译任务,且使得翻译性能提升。在机器翻译任务上,Bahdanau首次引进Attention思想。Bahdanau等人认为编码-解码模型中直接产生的固定维度的向量可能是提升机器翻译的瓶颈,他们引入一个模型,通过在输入序列中来自动寻找最重要的部分用于生成中间向量。之后Luong等人提出两种简单、形象并高效的Attention机制:全局Attention机制和局部Attention机制。全局Attention机制在每个时刻考虑所有的输入序列状态,局部Attention机制在每个时刻只考虑输入序列的一个子集,即当前时刻局部范围内的前后时刻的状态。Attention机制允许模型自动学习不同模式之间的对齐,可以自动捕获到与当前词关联最紧密的上下文。
编码-解码框架:深度神经网络在机器翻译上的应用主要基于编码-解码框架,通过编码部分和解码部分的联合训练最大化输出序列的条件概率。编码部分和解码部分分别是诸如循环神经网络(RNN)、双向循环神经网络(BRNN)、长短期记忆结构(LSTM)或门限循环单元(GRU)结构。编码部分将可变长度的输入序列映射为一个固定维度的向量表示,解码部分将固定维度向量表示生成输出变量序列。具体地,DNN的输入端是输入序列的WordEmbedding,维度可以自行根据具体实验调整为合适的维度,如1000维;输入部分经过编码部分的运算映射为一个固定维度的向量,通常认为该向量是输入序列的语义表示,通过读入输入序列捕获到与输入语句最接近的语义表示,该语义向量的维度可以自行根据具体实验调整为合适的维度,如1000维;该中间向量作为输入经过解码部分的运算生成输出变量序列。而目双语平行语料获得的语义信息通常较少。
发明内容
本发明的目的是为了解决双语平行语料获得的语义信息通常较少的问题而提出的基于多语平行语料的语义向量的机器翻译方法。
上述的发明目的是通过以下技术方案实现的:
基于多语平行语料的语义向量的机器翻译方法,具体按照以下步骤进行的:
步骤一、在训练过程中输入平行的源语言1、源语言2以及标准的目标语言;其中,标准的目标语言为平行的源语言1所对应的目标语言和源语言2所对应的目标语言;
步骤二、根据公式(1)到公式(8)计算得到源语言1的隐状态h′和源语言2的隐状态h″;其中,h′0为源语言1的隐状态h′第0个词的分量;为源语言1的隐状态h′的最后一个词的隐状态, 为源语言2的隐状态h″最后一个词的隐状态,是h″的最后一个分量;h″0为源语言2的隐状态h″第0个词的分量;为正向建立循环神经网络过程中,源语言2第i个词隐状态向量的转置向量;为逆向建立循环神经网络过程中,源语言2第i个词隐状态向量的转置向量;
步骤三、根据源语言2的隐状态h″和源语言1的隐状态h′计算得到的向量c,包含了源语言1和源语言2的语义信息;
表示h′和h″的拼接向量,包含h′和h″二者的信息ci用如下公式(3)计算:
其中,第j个时刻的分量,
αij是输入序列第j个位置和输出序列第i个位置的匹配程度对应的权重用如下公式(4)所示计算:
其中,是词对齐模型,用来衡量输入序列第j个位置和输出序列第i个位置的匹配程度,si-1是Decoder部分第i-1时刻的隐状态;
eik为输入序列第k个位置和输出序列第i个位置的匹配程度;
eij为输入序列第j个位置和输出序列第i个位置的匹配程度;
步骤四、根据神经网络计算方法将向量c生成输出变量序列即目标语言。
基于多语平行语料的语义向量的机器翻译方法,具体按照以下步骤进行的:
步骤一、在训练过程中输入平行的源语言1、源语言2以及标准的目标语言;标准的目标语言为平行的源语言1和源语言2所对应的目标语言;
步骤二、假设源语言1的中间向量表示c1和源语言2的中间向量表示c2具有相似性;在训练过程中,将向量c1和向量c2具有相似性作为约束条件,计算向量c1和向量c2的归一化之后的余弦距离;
步骤三、利用向量c1和向量c2的归一化之后的余弦距离函数dis(c1,c2)衡量向量c1和向量c2的相似性;
步骤四、令dis(c1,c2)大于阈值δ;给定源语言1句子集合S1和源语言2句子集合S2,即表示为如下约束最优化问题:
其中,为源语言1到标准目标语言的损失函数,为源语言2到标准目标语言的损失函数,T为标准目标语言集合;
步骤五、基于约束最优化问题,建立最终目标函数表示为如下公式:
Y=-(y1+y2)-λ·(dis(c1,c2)-δ) (12)
其中λ>0,λ为拉格朗日乘子。
发明效果
本发明涉及语义向量研究,特别涉及基于多语平行语料的语义向量的机器翻译研究。本课题所属信息技术领域,对机器翻译研究具有促进作用。
本发明的目的是为了充分利用现有的多语平行语料,通过研究语义向量,提升深度神经网络在机器翻译任务的性能。
本发明提出两种简单的模型,分别是基于向量的隐式拼接模型和基于向量相似的模型。以三语平行语料为例,研究三语平行语料中两种语言作为源语言,剩余一种语言作为目标语言的翻译系统。训练其中一种源语言(源语言1)到目标语言的翻译系统,同时,训练另一种平行的源语言(源语言2)到目标语言的翻译系统。确定源语言1的中间向量表示c′和源语言2的中间向量表示c″有某种联系。
本发明的相关研究提高了机器翻译的性能,不仅是对信息学、语言学相关理论的佐证,同时对自然语言理解有促进作用。为了提高机器翻译的性能,本发明充分利用了现有的多语平行语料,通过采用Word Embedding技术、编码-解码结构、Attention机制以及深度挖掘语义向量之间的关联,协同训练不同源端到同一目标端的翻译系统,这种方法易于实现,且能提高机器翻译的性能。
本发明采用中文、日文和英文三种平行语料,语料来自HIT(Harbin Institute ofTechnology)。我们搭建了两个翻译系统,一个翻译系统的源语言是中文,目标语言是日文,另一个翻译系统的源语言是英文,目标语言是日文。HIT语料包含了体育、旅游、交通、餐饮和商务等领域,共59600对平行句子。我们分别从中文、英文、日文语料中随机抽取1000句平行句对作为开发集,随机抽取另1000句平行句对作为测试集。
数据规模统计如下表2-1所示。
表2-1 HIT语料的统计数据
表3-1基于向量的拼接模型实验结果
表4-2基于向量相似的模型实验结果
附图说明
图1为具体实施方式一提出的基于向量隐式拼接的机器翻译构建方法示意图;
图2为具体实施方式五提出的基于向量相似的机器翻译构建方法。
具体实施方式
具体实施方式一:本实施方式的基于多语平行语料的语义向量的机器翻译方法,具体是按照以下步骤制备的:
步骤一、由于整个过程实际是一个双向的向量的隐式拼接过程称之为基于向量的隐式拼接模型;附图1描绘了该模型的过程;从图中我们可以看出,源语言1到目标语言的翻译系统和源语言2到目标语言的翻译系统不是完全独立的,参数也不独立;在训练过程中输入平行的源语言1、源语言2以及标准的目标语言;其中,标准的目标语言为平行的源语言1所对应的目标语言和源语言2所对应的目标语言;
训练过程中必须共同输入源语言和目标语言才能训练步骤二至步骤四模型的参数;模型的参数一旦被训好,在测试过程中,只需输入源语言1和源语言2,就可以用训好的模型生成目标语言;
步骤二、在编码-解码框架中,中间的向量代表了输入序列的语义,而向量的计算与网络结构中的隐单元有关;在编码部分,采用一个双向循环神经网络;由于中间向量的求解与隐状态有关;在求解隐状态的时候,根据公式(1)到公式(8)计算得到源语言1的隐状态h′和源语言2的隐状态h″;其中,h0′为源语言1的隐状态h′第0个词的分量;为源语言1的隐状态h′的最后一个词的隐状态,包含正向建立神经网络过程中隐状态的信息和逆向过程中隐状态的信息; 为源语言2的隐状态h″最后一个词的隐状态,是h″的最后一个分量包含正向建立神经网络过程中隐状态的信息和逆向过程中隐状态的信息;h″0为源语言2的隐状态h″第0个词的分量;为正向建立循环神经网络过程中,源语言2第i个词隐状态向量的转置向量;为逆向建立循环神经网络过程中,源语言2第i个词隐状态向量的转置向量;
步骤三、根据源语言2的隐状态h″和源语言1的隐状态h′计算得到的向量c,包含了源语言1和源语言2的语义信息;
表示h′和h″的拼接向量,包含h′和h″二者的信息ci用如下公式(3)计算:
其中,第j个时刻的分量,
αij是输入序列第j个位置和输出序列第i个位置的匹配程度对应的权重用如下公式(4)所示计算:
其中,是词对齐模型,用来衡量输入序列第j个位置和输出序列第i个位置的匹配程度,si-1是Decoder(解码)部分第i-1时刻的隐状态;
eik为输入序列第k个位置和输出序列第i个位置的匹配程度;
eij为输入序列第j个位置和输出序列第i个位置的匹配程度;
在训练过程中,词对齐模型与前馈神经网络模型中的其他参数一起经过反向传播算法求梯度以及更新得到;
步骤四、根据神经网络计算方法将向量c生成输出变量序列即目标语言;
步骤一至步骤四为基于向量的隐式拼接构的模型构建方法如图1;图1为基于向量隐式拼接的机器翻译构建方法的主要过程流程图,在该模型中,源语言1到目标语言的翻译系统和源语言2到目标语言的翻译系统不是完全独立的,参数也不独立,因此在训练过程和测试过程中我们都需要输入平行的源语言1和源语言2。
本实施方式效果:
本实施方式涉及语义向量研究,特别涉及基于多语平行语料的语义向量的机器翻译研究。本课题所属信息技术领域,对机器翻译研究具有促进作用。
本实施方式的目的是为了充分利用现有的多语平行语料,通过研究语义向量,提升深度神经网络在机器翻译任务的性能。
本实施方式提出两种简单的模型,分别是基于向量的隐式拼接模型和基于向量相似的模型。以三语平行语料为例,研究三语平行语料中两种语言作为源语言,剩余一种语言作为目标语言的翻译系统。训练其中一种源语言(源语言1)到目标语言的翻译系统,同时,训练另一种平行的源语言(源语言2)到目标语言的翻译系统。确定源语言1的中间向量表示c′和源语言2的中间向量表示c″有某种联系。
本实施方式的相关研究提高了机器翻译的性能,不仅是对信息学、语言学相关理论的佐证,同时对自然语言理解有促进作用。为了提高机器翻译的性能,本实施方式充分利用了现有的多语平行语料,通过采用WordEmbedding技术、编码-解码结构、Attention机制以及深度挖掘语义向量之间的关联,协同训练不同源端到同一目标端的翻译系统,这种方法易于实现,且能提高机器翻译的性能。
本实施方式采用中文、日文和英文三种平行语料,语料来自HIT(HarbinInstitute of Technology)。我们搭建了两个翻译系统,一个翻译系统的源语言是中文,目标语言是日文,另一个翻译系统的源语言是英文,目标语言是日文。HIT语料包含了体育、旅游、交通、餐饮和商务等领域,共59600对平行句子。我们分别从中文、英文、日文语料中随机抽取1000句平行句对作为开发集,随机抽取另1000句平行句对作为测试集。
数据规模统计如下表2-1所示。
表2-2 HIT语料的统计数据
表3-1基于向量的拼接模型实验结果
表4-2基于向量相似的模型实验结果
具体实施方式二:本实施方式与具体实施方式一不同的是:步骤二中计算hi′的具体过程为:编码部分正向建立循环神经网络(RecurrentNeural Network,RNN)时,随机初始化利用公式(5)计算
利用公式(1)初始化用公式(7)计算
根据计算
其中,σ为非线性函数,一般为Sigmoid函数或Tan函数;
为正向建立循环神经网络过程中,源语言1隐状态和输入变量之间的权值矩阵;
为正向建立循环神经网络过程中,源语言1隐状态之间的权值矩阵;
为正向建立循环神经网络过程中,源语言1的偏置向量;
为逆向建立循环神经网络过程中,源语言1隐状态和输入变量之间的权值矩阵
为逆向建立循环神经网络过程中,源语言2隐状态和源语言1隐状态之间的权值矩阵
为逆向建立循环神经网络过程中,源语言1的偏置向量;
为逆向建立循环神经网络过程中,源语言1隐状态之间的权值矩阵;
x0′为源语言1的第0个词;
xi′为源语言1的第i个词;
为源语言1的最后一个词;
为正向建立循环神经网络过程中,源语言1第0个词的隐状态;
为正向建立循环神经网络过程中,源语言1第i个词的隐状态;
为逆向建立循环神经网络过程中,源语言1第i个词的隐状态;
为逆向建立循环神经网络过程中,源语言1最后一个词的隐状态;
为逆向建立循环神经网络过程中,源语言2第0个词的隐状态。其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:步骤二中计算hi″具体过程:
编码部分逆向建立循环神经网络(RecurrentNeuralNetwork,RNN)时先随机初始化利用公式(2)初始化用公式(6)计算
利用公式(8)计算
根据计算得到h″i
其中,逆向建立循环神经网络过程中,源语言2隐状态和输入变量之间的权值矩阵
为逆向建立循环神经网络过程中,源语言2隐状态之间的权值矩阵;
为正向建立循环神经网络过程中,源语言2的偏置向量;
为正向建立循环神经网络过程中,源语言2隐状态和输入变量之间的权值矩阵;
为正向建立循环神经网络过程中,源语言1隐状态和源语言2隐状态之间的权值矩阵;
为正向建立循环神经网络过程中,源语言2隐状态之间的权值矩阵
逆向建立循环神经网络过程中,源语言2的偏置向量;
x″0为源语言2的第0词;
x″i为源语言2的第i个词;
为正向建立循环神经网络过程中,源语言2第i个词的隐状态;
为正向建立循环神经网络过程中,源语言2第0个词的隐状态;
x″i为源语言2第i个词;
为逆向建立循环神经网络过程中,源语言2第i个词的隐状态;
为逆向建立循环神经网络过程中,源语言2最后一个词的隐状态。其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:步骤四中根据神经网络计算方法将向量c生成输出变量序列即目标语言具体过程:按照如下公式(9)来计算每一个时刻的目标单词yi
p(yi|{y1,...,yi-1},c)=g(yi-1,si,ci) (9)
其中g是用于输出yi概率的非线性函数循环神经网络,si为解码部分第i个时刻的隐单元,用如下公式(10)计算:
si=f(si-1,yi-1,ci) (10)
其中,f是非线性函数循环神经网络。其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:基于多语平行语料的语义向量的机器翻译方法具体是按照以下步骤进行的:
步骤一、在训练过程中输入平行的源语言1、源语言2以及标准的目标语言;标准的目标语言为平行的源语言1和源语言2所对应的目标语言;
目标语言的作用:训练过程中必须共同输入源语言和目标语言才能训练步骤二至步骤四模型的参数;源语言1到目标语言的参数和源语言2到目标语言的参数是独立的,但互相影响;两个模型的参数一旦被训好,在测试过程中,只需输入源语言1或者源语言2,就可以用训好的模型生成目标语言;
步骤二、基于向量相似的模型构建方法;同时训练源语言1到目标语言和源语言2到目标语言的翻译系统;与基于拼接的模型不同,在基于向量相似的模型中,两个系统的参数独立但互相约束,如图2所示;
在编码-解码框架中,中间的向量是输入序列的语义表示,由于源语言1和源语言2是平行的,二者代表同一句话的语义,因此假设源语言1的中间向量表示c1和源语言2的中间向量表示c2具有相似性;在训练过程中,将向量c1和向量c2具有相似性作为约束条件,计算向量c1和向量c2的归一化之后的余弦距离;
步骤三、利用向量c1和向量c2的归一化之后的余弦距离函数dis(c1,c2)衡量向量c1和向量c2的相似性;
步骤四、由于余弦值越大,向量c1和c2之间的距离越小,为了让向量c1和c2之间的距离更小,令dis(c1,c2)大于阈值δ;给定源语言1句子集合S1和源语言2句子集合S2,的训练目标是,在c1与c2尽可能接近的条件下,最大化正确目标语言集合T的对数似然概率;即表示为如下约束最优化问题:
其中,为源语言1到标准目标语言的损失函数,为源语言2到标准目标语言的损失函数,T为标准目标语言集合;
步骤五、基于约束最优化问题,建立最终目标函数表示为如下公式:
Y=-(y1+y2)-λ·(dis(c1,c2)-δ) (12)
其中λ>0,λ为拉格朗日乘子;
在该模型中,只有训练过程需要同时输入源语言1和源语言2来同时训练源语言1到目标语言和源语言2到目标语言的系统;模型一旦训好,在测试过程中,我们只需要输入单语,即我们可以只输入源语言1来测试源语言1到目标语言的翻译系统,或者只输入源语言2来测试源语言2到目标语言的翻译系统;
步骤一至步骤四为基于向量相似如图2:在该方案中,由于源语言1和源语言2是平行的即源语言1和源语言2是同一句话,源语言1中间向量表示c1和源语言2的中间向量表示c2具有一定的相似性,在训练过程中加入了约束条件,让c1和c2的距离接近;图2为基于向量相似的机器翻译构建方法的主要过程流程图;在该模型中,只有训练过程需要同时输入源语言1和源语言2来同时训练源语言1到目标语言和源语言2到目标语言的系统;模型一旦训好,在测试过程中,我们只需要输入单语,即我们可以只输入源语言1来测试源语言1到目标语言的翻译系统,或者只输入源语言2来测试源语言2到目标语言的翻译系统。其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是:步骤三中利用向量c1和向量c2的归一化之后的余弦距离函数dis(c1,c2)用如下公式(13)表示:
dis(c1,c2)=0.5+0.5*Cos(c1,c2) (13)
归一化之后的dis(c1,c2)为0到1之间。其它步骤及参数与具体实施方式一至五之一相同。

Claims (2)

1.基于多语平行语料的语义向量的机器翻译方法,其特征在于,该方法具体是按照以下步骤进行的:
步骤一、在训练过程中输入平行的源语言1、源语言2以及标准的目标语言;其中,标准的目标语言为平行的源语言1所对应的目标语言和源语言2所对应的目标语言;
步骤二、根据公式(1)到公式(8)计算得到源语言1的隐状态h′和源语言2的隐状态h″;其中,h′0为源语言1的隐状态h′第0个词的分量;为源语言1的隐状态h′的最后一个词的隐状态, 为源语言2的隐状态h″最后一个词的隐状态,是h″的最后一个分量;h″0为源语言2的隐状态h″第0个词的分量;为正向建立循环神经网络过程中,源语言2第i个词隐状态向量的转置向量;为逆向建立循环神经网络过程中,源语言2第i个词隐状态向量的转置向量;
步骤三、根据源语言2的隐状态h″和源语言1的隐状态h′计算得到的向量c,包含了源语言1和源语言2的语义信息;
表示h′和h″的拼接向量,包含h′和h″二者的信息ci用如下公式(3)计算:
其中,第j个时刻的分量,
αij是输入序列第j个位置和输出序列第i个位置的匹配程度对应的权重用如下公式(4)所示计算:
其中,是词对齐模型,用来衡量输入序列第j个位置和输出序列第i个位置的匹配程度,si-1是Decoder部分第i-1时刻的隐状态;
eik为输入序列第k个位置和输出序列第i个位置的匹配程度;
eij为输入序列第j个位置和输出序列第i个位置的匹配程度;
步骤四、根据神经网络计算方法将向量c生成输出变量序列即目标语言;
步骤二中计算hi′的具体过程为:随机初始化利用公式(5)计算
利用公式(1)初始化用公式(7)计算
根据计算
其中,σ为非线性函数,一般为Sigmoid函数或Tan函数;
为正向建立循环神经网络过程中,源语言1隐状态和输入变量之间的权值矩阵;
为正向建立循环神经网络过程中,源语言1隐状态之间的权值矩阵;
为正向建立循环神经网络过程中,源语言1的偏置向量;
为逆向建立循环神经网络过程中,源语言1隐状态和输入变量之间的权值矩阵为逆向建立循环神经网络过程中,源语言2隐状态和源语言1隐状态之间的权值矩阵
为逆向建立循环神经网络过程中,源语言1的偏置向量;
为逆向建立循环神经网络过程中,源语言1隐状态之间的权值矩阵;
x′0为源语言1的第0个词;
x′i为源语言1的第i个词;
为源语言1的最后一个词;
为正向建立循环神经网络过程中,源语言1第0个词的隐状态;
为正向建立循环神经网络过程中,源语言1第i个词的隐状态;
为逆向建立循环神经网络过程中,源语言1第i个词的隐状态;
为逆向建立循环神经网络过程中,源语言1最后一个词的隐状态;
为逆向建立循环神经网络过程中,源语言2第0个词的隐状态;
步骤二中计算h″i具体过程:
编码部分逆向建立循环神经网络(RecurrentNeural Network,RNN)时先随机初始化利用公式(2)初始化用公式(6)计算
利用公式(8)计算
根据计算得到h″i
其中,逆向建立循环神经网络过程中,源语言2隐状态和输入变量之间的权值矩阵
为逆向建立循环神经网络过程中,源语言2隐状态之间的权值矩阵;
为正向建立循环神经网络过程中,源语言2的偏置向量;
为正向建立循环神经网络过程中,源语言2隐状态和输入变量之间的权值矩阵;
为正向建立循环神经网络过程中,源语言1隐状态和源语言2隐状态之间的权值矩阵;
为正向建立循环神经网络过程中,源语言2隐状态之间的权值矩阵
逆向建立循环神经网络过程中,源语言2的偏置向量;
x″0为源语言2的第0词;
x″i为源语言2的第i个词;
为正向建立循环神经网络过程中,源语言2第i个词的隐状态;
为正向建立循环神经网络过程中,源语言2第0个词的隐状态;
x″i为源语言2第i个词;
为逆向建立循环神经网络过程中,源语言2第i个词的隐状态;
为逆向建立循环神经网络过程中,源语言2最后一个词的隐状态。
2.根据权利要求1所述基于多语平行语料的语义向量的机器翻译方法,其特征在于:步骤四中根据神经网络计算方法将向量c生成输出变量序列即目标语言具体过程:按照如下公式(9)来计算每一个时刻的目标单词yi
p(yi|{y1,...,yi-1},c)=g(yi-1,si,ci) (9)
其中g是用于输出yi概率的非线性函数循环神经网络,si为解码部分第i个时刻的隐单元,用如下公式(10)计算:
si=f(si-1,yi-1,ci) (10)
其中,f是非线性函数循环神经网络。
CN201610590241.5A 2016-07-25 2016-07-25 基于多语平行语料的语义向量的机器翻译方法 Active CN106202068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610590241.5A CN106202068B (zh) 2016-07-25 2016-07-25 基于多语平行语料的语义向量的机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610590241.5A CN106202068B (zh) 2016-07-25 2016-07-25 基于多语平行语料的语义向量的机器翻译方法

Publications (2)

Publication Number Publication Date
CN106202068A CN106202068A (zh) 2016-12-07
CN106202068B true CN106202068B (zh) 2019-01-22

Family

ID=57494900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610590241.5A Active CN106202068B (zh) 2016-07-25 2016-07-25 基于多语平行语料的语义向量的机器翻译方法

Country Status (1)

Country Link
CN (1) CN106202068B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108206020A (zh) * 2016-12-16 2018-06-26 北京智能管家科技有限公司 一种语音识别方法、装置及终端设备
CN108388561B (zh) 2017-02-03 2022-02-25 百度在线网络技术(北京)有限公司 神经网络机器翻译方法和装置
CN107038159B (zh) * 2017-03-09 2019-07-12 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
CN107193800B (zh) * 2017-05-18 2023-09-01 苏州黑云智能科技有限公司 一种面向第三方语言文本的语义吻合度评测方法及装置
CN107357789B (zh) * 2017-07-14 2020-10-02 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN107545036B (zh) * 2017-07-28 2021-01-19 深圳前海微众银行股份有限公司 客服机器人知识库建设方法、客服机器人及可读存储介质
CN107729329B (zh) * 2017-11-08 2021-03-26 苏州大学 一种基于词向量连接技术的神经机器翻译方法及装置
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN108776677B (zh) * 2018-05-28 2021-11-12 深圳前海微众银行股份有限公司 平行语句库的创建方法、设备及计算机可读存储介质
CN108874978B (zh) * 2018-06-08 2021-09-10 杭州一知智能科技有限公司 一基于分层适应性分段网络解决会议内容摘要任务的方法
US11151334B2 (en) * 2018-09-26 2021-10-19 Huawei Technologies Co., Ltd. Systems and methods for multilingual text generation field
CN109508462B (zh) * 2018-10-25 2020-07-17 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN111199801B (zh) * 2018-11-19 2023-08-08 零氪医疗智能科技(广州)有限公司 一种用于识别病历的疾病类型的模型的构建方法及应用
CN111460804B (zh) * 2019-01-02 2023-05-02 阿里巴巴集团控股有限公司 文本处理方法、装置和系统
CN111414770B (zh) * 2020-02-24 2022-03-18 内蒙古工业大学 一种基于协同训练的半监督蒙汉神经机器翻译方法
CN112287692B (zh) * 2020-10-28 2023-11-07 香港中文大学(深圳) 一种跨语言词嵌入的方法、移动终端和计算机存储介质
CN113627150B (zh) * 2021-07-01 2022-12-20 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6349276B1 (en) * 1998-10-29 2002-02-19 International Business Machines Corporation Multilingual information retrieval with a transfer corpus
KR20080052318A (ko) * 2006-12-06 2008-06-11 한국전자통신연구원 기계 번역에서의 대역어 선택 방법 및 장치
CN101763402A (zh) * 2009-12-30 2010-06-30 哈尔滨工业大学 多语言信息检索一体化检索方法
CN103092831A (zh) * 2013-01-25 2013-05-08 哈尔滨工业大学 一种用于统计机器翻译的参数调整方法
CN104462229A (zh) * 2014-11-13 2015-03-25 苏州大学 一种事件分类方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101745349B1 (ko) * 2010-09-02 2017-06-09 에스케이플래닛 주식회사 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6349276B1 (en) * 1998-10-29 2002-02-19 International Business Machines Corporation Multilingual information retrieval with a transfer corpus
KR20080052318A (ko) * 2006-12-06 2008-06-11 한국전자통신연구원 기계 번역에서의 대역어 선택 방법 및 장치
CN101763402A (zh) * 2009-12-30 2010-06-30 哈尔滨工业大学 多语言信息检索一体化检索方法
CN103092831A (zh) * 2013-01-25 2013-05-08 哈尔滨工业大学 一种用于统计机器翻译的参数调整方法
CN104462229A (zh) * 2014-11-13 2015-03-25 苏州大学 一种事件分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NEURAL MACHINE TRANSLATION RESEARCH BASED ON THE SEMANTIC VECTOR OF THE TRI-LINGUAL PARALLEL CORPUS;王晓雪 等;《Proceedings of the 2016 International Conference on Machine Learning and Cybernetics》;20160713;第70页第2小节至第72页第4小节,图1-2
基于神经网络的统计机器翻译的预调序模型;杨南 等;《中文信息学报》;20160515(第2016年第3期);第103-110页
基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用;刘敏;《中国优秀硕士学位论文全文数据库》;20160315(第2016年第3期);第I138-7647页

Also Published As

Publication number Publication date
CN106202068A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106202068B (zh) 基于多语平行语料的语义向量的机器翻译方法
Yao et al. Incorporating copying mechanism in image captioning for learning novel objects
Ramanishka et al. Top-down visual saliency guided by captions
CN107076567B (zh) 用于图像问答的方法和装置
US9965705B2 (en) Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
CN108171358B (zh) 成绩预测方法及装置、存储介质、电子设备
CN108830334B (zh) 一种基于对抗式迁移学习的细粒度目标判别方法
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
He et al. Decoding with value networks for neural machine translation
CN109726696A (zh) 基于推敲注意力机制的图像描述生成系统及方法
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN110162789B (zh) 一种基于汉语拼音的词表征方法及装置
CN110399850A (zh) 一种基于深度神经网络的连续手语识别方法
CN111598183B (zh) 一种多特征融合图像描述方法
CN110909736A (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN110929640B (zh) 一种基于目标检测的宽幅遥感描述生成方法
CN110619313A (zh) 遥感图像判别性描述生成方法
Shi et al. Improving neural machine translation with sentence alignment learning
CN113220891B (zh) 基于无监督的概念到句子的生成对抗网络图像描述方法
Greenstein et al. Japanese-to-english machine translation using recurrent neural networks
CN110019719A (zh) 基于断言的问答
Zhang et al. Image caption generation with adaptive transformer
Wang et al. Multi-label semantic feature fusion for remote sensing image captioning
Yang et al. Att-bm-som: A framework of effectively choosing image information and optimizing syntax for image captioning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210118

Address after: Building 9, accelerator, 14955 Zhongyuan Avenue, Songbei District, Harbin City, Heilongjiang Province

Patentee after: INDUSTRIAL TECHNOLOGY Research Institute OF HEILONGJIANG PROVINCE

Address before: 150001 No. 92 West straight street, Nangang District, Heilongjiang, Harbin

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230407

Address after: 150027 Room 412, Unit 1, No. 14955, Zhongyuan Avenue, Building 9, Innovation and Entrepreneurship Plaza, Science and Technology Innovation City, Harbin Hi tech Industrial Development Zone, Heilongjiang Province

Patentee after: Heilongjiang Industrial Technology Research Institute Asset Management Co.,Ltd.

Address before: Building 9, accelerator, 14955 Zhongyuan Avenue, Songbei District, Harbin City, Heilongjiang Province

Patentee before: INDUSTRIAL TECHNOLOGY Research Institute OF HEILONGJIANG PROVINCE

TR01 Transfer of patent right