CN112507733A - 基于依存图网络的汉越神经机器翻译方法 - Google Patents

基于依存图网络的汉越神经机器翻译方法 Download PDF

Info

Publication number
CN112507733A
CN112507733A CN202011229881.6A CN202011229881A CN112507733A CN 112507733 A CN112507733 A CN 112507733A CN 202011229881 A CN202011229881 A CN 202011229881A CN 112507733 A CN112507733 A CN 112507733A
Authority
CN
China
Prior art keywords
dependency
graph
information
layer
dependency graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011229881.6A
Other languages
English (en)
Other versions
CN112507733B (zh
Inventor
余正涛
杨威亚
高盛祥
文永华
朱俊国
吴霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202011229881.6A priority Critical patent/CN112507733B/zh
Publication of CN112507733A publication Critical patent/CN112507733A/zh
Application granted granted Critical
Publication of CN112507733B publication Critical patent/CN112507733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于依存图网络的汉越神经机器翻译方法,属于自然语言处理技术领域。本发明首先从网站爬取汉越平行语料,将获取的汉越双语语料分别利用依存句法解析工具进行依存句法解析。其次将获取的源语言依存句法解析树利用图编码器转化为依存图,并对其编码获取依存图结构信息,再将依存图结构信息送入编码端与源语言序列信息融合,利用这种融合信息送入解码端指导模型翻译。本发明通过融入依存句法信息,将依存关系转化为依存图,利用图神经网络实现对依存图的全局结构化编码,给翻译模型提供了更丰富的全局依存信息,对具有句法差异的汉越语言对的翻译效果提升提供了一定的帮助。

Description

基于依存图网络的汉越神经机器翻译方法
技术领域
本发明涉及基于依存图网络的汉越神经机器翻译方法,属于自然语言处理技术领域。
背景技术
汉越神经机器翻译属于低资源机器翻译任务,由于缺乏大规模的平行句对,翻译性能不佳。汉语和越南语属于不同的语系,句法差异比较大,存在定语前置和后置的区别,在汉越双语词对齐对比中,汉语的定语一般位于被修饰语的前面,例如“美丽的”作为定语修饰“歌手”,“优美的”作为定语修饰“歌声”。在越南语的句法结构中,定语一般位于被修饰语后面,如“
Figure BDA0002764839530000011
(歌手)
Figure BDA0002764839530000012
(美丽的),“
Figure BDA0002764839530000013
(歌声)
Figure BDA0002764839530000014
(优美的)”,在低资源情况下,翻译模型可能对双语的句法特点学习不够充分,无法捕获深层的句法信息,产生乱序的译文。
发明内容
本发明提供了基于依存图网络的汉越神经机器翻译方法,以用于解决在低资源场景下,因为缺少大规模平行语料,翻译模型可能对双语的句法差异学习不充分,无法建模深层次的句法结构信息,导致生成乱序译文,翻译性能不佳的问题。
本发明的技术方案是:基于依存图网络的汉越神经机器翻译方法,首先将获取的源语言的依存句法解析树利用图编码器转化为依存图,并对其编码获取依存图结构信息;再将依存图结构信息送入编码端与源语言序列信息融合,利用这种融合信息送入解码端指导模型翻译。
进一步地,所述方法具体步骤包括:
Step1、编码依存图结构信息:引入图编码器将源语言的依存句法解析树转化为依存图,并对其编码获取依存图结构信息;
Step2、融合依存图结构信息和序列信息:该步骤在基于Transformer的编码层基础上进行了扩展,在两个子层多头注意力层和前馈层之间增加了一个图注意力层,在序列编码器端融合依存图结构信息和序列信息;
Step3、在解码端,增加了一个图和序列注意力机制的子层,通过增加子层后的解码端利用融合后的信息和目标语言序列信息指导解码器目标译文生成。
进一步地,所述Step1中,源语言的依存句法解析树的获取包括:通过爬虫爬取网站汉越平行语料,对获取语料进行依存句法解析,获取源语言的依存句法解析树。
进一步地,所述源语言的依存句法解析树的获取具体步骤如下:
(1)、通过调用scrapy爬取汉越网站汉越双语平行语料,进行清洗后放入数据库中;
(2)、针对汉语语料,利用ltp平台,获取汉语的依存句法解析树,针对越南语,利用Vncorenlp,获取越南语的依存句法解析树。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、首先将依存句法解析树转化为有向连通图,在转换的过程中对词节点和标签进行向量化,其中,词节点根据词表进行向量化,标签根据标签词表进行向量化;
Step1.2、采用门控图神经网络GGNNs上的GGNN图编码器,实现对图结构的序列化编码,并将边的信息转化为节点信息,然后融入图隐藏状态G中,得到依存图结构信息。
进一步地,所述步骤Step2的具体步骤为:
Step2.1、首先,在编码层上进行了扩展:原始的transformer模型的编码器包含两个子层,第一层是多头自注意力层,第二层是前馈神经网络层,在两个子层之间增加了一个图和序列的注意力机制,用来融合依存图结构信息和序列信息;
Step2.2、多头自注意力层:利用多头注意力机制对源语言输入序列E,进行自注意力计算,然后将h个注意力进行拼接,最终得到源语言的多头注意力输出向量,也即源语言的序列信息D,该步骤目的是学习句子内部的词依赖关系,捕获句子的内部结构信息;
Step2.3、图-序列注意力子层:通过Multihead机制,实现对源语言的依存图结构信息G和源语言的序列信息D相互关注和融合,实现对依存图结构信息和序列信息相互关注,得到输出向量N;
N=MultiHead(D,G,G) (1)
Step2.4、在第三个前馈神经网络子层,对N向量进行残差链接和归一化计算,最终编码器输出融合依存图结构信息的序列向量S:
S=LN(FFN(LN(N))+LN(N)) (2)。
进一步地,所述步骤Step3中,为了利用融合信息S指导解码器目标译文生成,在解码端进行了扩展,扩展了一个图和序列注意力机制的子层,解码端内部共包含四个子层,通过这四个子层去指导目标语言的译文生成;其中,这四个子层具体如下:
(1)、多头注意力层:利用多头注意力机制对目标语言词嵌入序列T向量进行计算,得到目标序列的上下文向量;
M=MultiHead(T,T,T) (3)
(2)、图-序列注意力层:将图编码器输出的结构向量即源语言的依存图结构信息G和解码端第一层输出的目标语言上下文向量M进行关注,得到关注向量B;
B=MultiHead(M,G,G) (4)
(3)、编码-解码注意力层:将图-序列注意层输出的关注向量B和Transformer的序列编码器输出的融合依存图结构信息的序列向量S进行多头计算;
H=MultiHead(B,S,S) (5)
(4)、全连接的前馈神经网络层:利用上一层的输出向量H,计算得到当解码器输出的目标端的隐向量F;
F=LN(FFN(LN(H))+LN(H) (6)
最后softmax层生成目标语言译文,目标词
Figure BDA0002764839530000031
的概率分通过softmax层计算源语言X与上一个目标词y<j得到,θ是模型的学习参数,W0是权重矩阵,
Figure BDA0002764839530000032
为预测第j个目标词的词向量,由此生成目标语言的译文
p(yj,|X,y<j;θ)=softmax(WoFj) (7)。
本发明的有益效果是:
本发明针对汉越低资源翻译任务,基于Transformer的模型架构,提出了一种基于依存图网络融合源语言依存句法的汉越神经机器翻译方法同时,将依存关系转化为依存图,利用图神经网络实现对依存图的全局结构化编码,给翻译模型提供了更丰富的全局依存信息。通过实验证明,在低资源场景下,依存句法信息的融入,对具有句法差异的汉越语言对的翻译效果的提升是有效果的。
附图说明
图1为本发明实施例1中总的流程图;
图2为本发明实施例1中的将依存句法解析树转化为有向连通图示例;注:左边为依存句法树,右边为连通二部有向图;
图3为本发明实施例1中的模型流程框架图。
具体实施方式
实施例1:如图1-3所示,基于依存图网络的汉越神经机器翻译方法,首先从网站爬取汉越平行语料,将获取的汉越双语语料分别利用依存句法解析工具进行依存句法解析,获取源语言的依存句法解析树;其次将获取的源语言的依存句法解析树利用图编码器转化为依存图,并对其编码获取依存图结构信息;再将依存图结构信息送入编码端与源语言序列信息融合,利用这种融合信息送入解码端指导模型翻译。
具体步骤如下:
Step1、获取数据并进行数据预处理:通过爬虫爬取网站汉越平行语料,对获取语料进行依存句法解析,获取源语言的依存句法解析树;
Step2、将源语言依存句法解析树利用图编码器转化为依存图,并对其编码获取依存图结构信息;
Step3、在序列编码器融合结构信息和序列信息,该步骤在基于Transformer的编码层基础上进行了扩展,在两个子层多头注意力层和前馈层之间增加了一个图注意力层,用来融合依存图结构信息和序列信息;
Step4、利用融合依存结构信息和序列信息的方法指导解码器目标译文生成,在解码层,本发明同样增加了一个图和序列注意力机制的子层。每一个解码端内部包含四个子层,通过这四个子层去指导目标语言的译文生成。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、通过调用scrapy爬取汉越网站汉越双语平行语料,进行清洗后放入数据库中;
Step1.2、针对汉语语料,利用ltp平台,获取汉语的依存句法解析树,针对越南语,利用Vncorenlp,获取越南语的依存句法解析树。
此优选方案设计是此优选方案设计是本发明的重要组成部分,主要为本专利提供语料预处理过程,为后续工作提供模型训练时所需训练语料和为模型测试时提供测试语料,并为后续模型输入提供了依存句法信息。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、首先将依存句法解析树转化为有向连通图,如附图2。在转换的过程中对词节点和标签进行向量化,其中,词节点根据词表进行向量化,标签根据标签词表进行向量化;
Step2.2、采用Beck等人改进后的门控图神经网络(Gated Graph NerualNetworks,GGNNs)上改进后的GGNN图编码器对源语言的依存句法解析树进行编码,得到源语言的依存图结构信息,它可以在不损失结构信息的情况下实现对图结构的序列化编码,并将边的信息转化为节点信息,然后融入图隐藏状态G中,得到依存图结构信息。
此优选方案设计是本发明的重要组成部分,为本发明模型中的编码器部分之一,主要为编码源语言的依存句法解析知识到向量中,参与后续模型计算。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、首先,在编码层上进行了扩展:原始的transformer模型的编码器包含两个子层,第一层是多头自注意力层,第二层是前馈神经网络层,如附图3所示,本发明在两个子层之间增加了一个图和序列的注意力机制,用来融合依存图图结构信息和序列信息;
Step3.2、多头自注意力层:多头自注意力层:利用多头注意力机制对源语言输入序列E,进行自注意力计算,然后将h个注意力进行拼接,最终得到源语言的多头注意力输出向量,也即源语言的序列信息D,该步骤目的是学习句子内部的词依赖关系,捕获句子的内部结构信息;
Step3.3、图-序列注意力子层:通过Multihead机制,实现对源语言的依存图结构信息G和源语言的序列信息D相互关注和融合,实现对依存图结构信息和序列信息相互关注,得到输出向量N;
N=MultiHead(D,G,G) (1)
Step3.4、在第三个前馈神经网络子层,对N向量进行残差链接和归一化计算,最终编码器输出融合依存图结构信息的序列向量S:
S=LN(FFN(LN(N))+LN(N)) (2)。
此优选方案设计是本发明的重要组成部分,本方案设计了一层图-序列注意力层,实现对源语言的图结构信息和序列信息的融合,为后续解码端译文生成提供了指导。
作为本发明的优选方案,所述步骤Step4中,为了利用融合信息S指导解码器目标译文生成,在解码端进行了扩展,扩展了一个图和序列注意力机制的子层,解码端内部共包含四个子层,通过这四个子层去指导目标语言的译文生成;其中,这四个子层具体如下:
(1)、多头注意力层:利用多头注意力机制对目标语言词嵌入序列T向量进行计算,得到目标序列的上下文向量;
M=MultiHead(T,T,T) (3)
(2)、图-序列注意力层:将图编码器输出的结构向量即源语言的依存图结构信息G和解码端第一层输出的目标语言上下文向量M进行关注,得到关注向量B;
B=MultiHead(M,G,G) (4)
(3)、编码-解码注意力层:将图-序列注意层输出的关注向量B和Transformer的序列编码器输出的融合依存图结构信息的序列向量S进行多头计算;
H=MultiHead(B,S,S) (5)
(4)、全连接的前馈神经网络层:利用上一层的输出向量H,计算得到当解码器输出的目标端的隐向量F;
F=LN(FFN(LN(H))+LN(H) (6)
最后softmax层生成目标语言译文,目标词
Figure BDA0002764839530000061
的概率分通过softmax层计算源语言X与上一个目标词y<j得到,θ是模型的学习参数,W0是权重矩阵,
Figure BDA0002764839530000062
为预测第j个目标词的词向量,由此生成目标语言的译文
p(yj,|X,y<j;θ)=softmax(WoFj) (7)。
此优选方案设计是本发明的重要组成部分,本方案在解码端设计了一层图-序列注意力层,对编码端传递过来的融合信息进行了注意力计算,最终达到指译文生成提供的目的。
本发明基于依存图网络的汉越神经机器翻译方法,首先对句子进行依存句法解析获取依存信息,转化为有向连通图,通过图编码器将获取到的依存信息进行图结构化编码,再使用多头注意力机制,图注意力机制,FNN层融合句子的依存句法结构信息和序列信息,在解码的过程中利用结构化和序列编码指导目标语言解码生成译文。通过融入依存句法信息,将依存关系转化为依存图,利用图神经网络实现对依存图的全局结构化编码,给翻译模型提供了更丰富的全局依存信息,对具有句法差异的汉越语言对的翻译效果提升提供了一定的帮助。
为验证本发明提出的融合依存图的汉越神经机器翻译方法,本发明在汉-越,越-汉双向翻译上进行了实验。其中汉-越语料通过互联网爬取150k的汉越平行语料,分成训练集,测试集,验证集,如表1。在依存句法树获取方面,利用LTP(语言云)平台对中文数据进行分词及依存句法解析,利用VnCoreNlp[]工具对越南语进行分词及依存句法解析,分别获取中文和越南语的解析结果。本实验并没有利用BPE对源语言和目标语言进行分词。
表1数据集
语料总数 训练集 测试集 验证集
150000 126000 2000 2000
本实验的模型是在Transformer的模型框架进行了扩展。其参数设置为:批次大小为1024,句子最大长度为256,学习率设置均为:0.0003,词嵌入的维度512,编码器和解码器层数都设置为6层,多头注意力的头个数为8,训练轮次为epoch=30,dropout=0.25,保留的词表大小是50k。其中GGNN编码器层数设置为8。
选择选择Transformer、Seq2Tree、RNNSearch+Lable、RNNsearch作为本发明对比实验的基准模型,下面将对这四种模型进行介绍:
RNNSearch:基于传统的RNN神经网络,实现的神经机器翻译模型。其参数设置为:编、解码端的网络层数为3层,每层隐含单元数为512个,并用1.0初始化LSTM的遗忘门偏置项。
RNNSearch+Lable:该模型是在RNNsearch的基础上,将源语言的依存句法标签向量化,作为外部知识,拼接在源语言的词向量后面融入翻译模型。其参数设置和RNNsearch保持一致。
Seq2Tree:短语树到序列的翻译模型,基于Tree-LSTM实现短语句法树的融入。训练的参数和本发明模型一致。本模型所需要的越南语短句法分析结果,采用李英等人的越南语短语句法解析工具对越南语进行句法解析。
Transformer:最原始的Transformer。其参数设置和本论文提出的模型一致。
本发明的实验采用单张Tesla K40m GPU进行实验.翻译结果的测评实验是通过Bleu值进行评分的。
本实验在利用筛选出来的150k语料进行汉-越翻译和越-汉翻译任务。实验结果如表2所示,在本次双向翻译任务中,对比分析表2中的实验结果,Tree2Seq、RNNsearch+Lable在汉-越翻译任务上,比RNNsearch的翻译结果分别高1.35个BLEU值和0.98个BLEU值,在越-汉翻译任务上分别高1.65个BLEU值和0.91个BLEU值,说明将源语言的依存句法知识融入翻译模型对翻译效果的提升是有明显帮助的。Transformer在不融入句法知识的情况下,比前三个翻译模型都取得了更好的BLEU值,说明Transformer模型本身的高效性能。本发明提出的Transformer+Graph翻译模型在汉-越和越-汉翻译任务上,分别比Transformer高0.42个BLEU值和0.58个Blue值,说明本发明提出的基于依存图网络融合依存句法的翻译方法,可以更好的利用源语言的依存句法知识,也说明利用图编码器获取的全局依存句法结构知识,对提升翻译质量是有效的。
表2对比实验结果
模型 汉->越 越->汉
RNNSearch 13.86 14.12
RNNsearch+Lable 14.84 15.03
Tree2Seq 15.31 15.77
Transformer 16.12 16.50
Transformer+Graph 16.54 17.08
在本次双向翻译任务中,对比分析表2中的实验结果,Tree2Seq、RNNsearch+Lable在汉-越翻译任务上,比RNNsearch的翻译结果分别高1.35个BLEU值和0.98个BLEU值,在越-汉翻译任务上分别高1.65个BLEU值和0.91个BLEU值,说明将源语言的依存句法知识融入翻译模型对翻译效果的提升是有明显帮助的。Transformer在不融入句法知识的情况下,比前三个翻译模型都取得了更好的BLEU值,说明Transformer模型本身的高效性能。本发明提出的Transformer+Graph翻译模型在汉-越和越-汉翻译任务上,分别比Transformer高0.42个BLEU值和0.58个Blue值,说明本发明提出的基于依存图网络融合依存句法的翻译方法,可以更好的利用源语言的依存句法知识,也说明利用图编码器获取的全局依存句法结构知识,对提升翻译质量是有效的。
为了验证源语言的依存图结构信息在编、解码端的作用,设计了消融实验,并与以下模型进行对比,定义“Dec+Graph”表示只在解码端融合源语言依存图信息,“Enc+Graph”表示只在编码端融合源语言依存图信息,“Transformer+Graph”表示本发明提出的完整模型框架。
表3为消融实验结果
汉->越 越->汉
Transformer 16.12 16.50
Dec+Graph 16.17 16.63
Enc+Graph 16.30 16.87
Graph+Transformer 16.54 17.08
从表3实验结果可以看出:在汉-越翻译任务和越-汉翻译任务上,将源语言的依存图结构信息分别用于编码端和解码端,比原始的Transformer翻译结果均有BLEU值的提升,说明依存句法知识对于翻译任务是有帮助的。对比Enc+Graph和Dec+Graph的翻译结果,说明在编码端利用多头注意力机制将源语言的依存图结构信息和序列信息融合,更有助于模型充分学习源语言内部的依存约束关系,用于指导目标译文的生成。本发明提出的Graph+Transformer翻译模型在汉-越和越-汉翻译任务中取得了最好的翻译结果,BLEU值结果最高,说明在编、解码端都利用依存图结构信息,对于指导目标译文的生成更有帮助。
下面将以不同模型的汉到越的翻译结果为例,分析融入依存句法对译文的影响。译文对比如表4所示。
在源语言的汉语示例中,形容词短语“有才华的”作为修饰定语,位于被修饰语“歌手”的前面,但是在RNNsearch模型输出的译文中,将ca
Figure BDA0002764839530000091
(歌手)的修饰定语
Figure BDA0002764839530000092
(非常)tài
Figure BDA0002764839530000093
(天赋)前置,这并不符合越南语参考译文的语序,应将
Figure BDA0002764839530000094
(非常)tài
Figure BDA0002764839530000095
(天赋)后置修饰ca
Figure BDA0002764839530000096
(歌手)。导致这种情况的原因,可能是翻译模型未利用源语言的依存约束关系,在训练时没有学到和目标语言的句法差异,导致译文的语序不符合目标语言的语序。
在本发明提出的翻译模型结果中,将依存句法知识融翻译模型后,很明显的可以看到翻译译文的语序符合越南语的语序,说明源语言的依存句法对于翻译模型学习源语言本身的依存的约束关系是有帮助的,可以让翻译模型更有效的学习两种语言之间差异化的句法特点,在解码时,对于提升目标译文的生成起到指导和约束作用。
表4不同模型的译文结果
Figure BDA0002764839530000101
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.基于依存图网络的汉越神经机器翻译方法,其特征在于:首先将获取的源语言的依存句法解析树利用图编码器转化为依存图,并对其编码获取依存图结构信息;再将依存图结构信息送入编码端与源语言序列信息融合,利用这种融合信息送入解码端指导模型翻译。
2.根据权利要求1所述的基于依存图网络的汉越神经机器翻译方法,其特征在于:所述方法具体步骤包括:
Step1、编码依存图结构信息:引入图编码器将源语言的依存句法解析树转化为依存图,并对其编码获取依存图结构信息;
Step2、融合依存图结构信息和序列信息:该步骤在基于Transformer的编码层基础上进行了扩展,在两个子层多头注意力层和前馈层之间增加了一个图注意力层,在序列编码器端融合依存图结构信息和序列信息;
Step3、在解码端,增加了一个图和序列注意力机制的子层,通过增加子层后的解码端利用融合后的信息和目标语言序列信息指导解码器目标译文生成。
3.根据权利要求1所述的基于依存图网络的汉越神经机器翻译方法,其特征在于:所述Step1中,源语言的依存句法解析树的获取包括:通过爬虫爬取网站汉越平行语料,对获取语料进行依存句法解析,获取源语言的依存句法解析树。
4.根据权利要求1-3任意一项所述的基于依存图网络的汉越神经机器翻译方法,其特征在于:所述源语言的依存句法解析树的获取具体步骤如下:
(1)、通过调用scrapy爬取汉越网站汉越双语平行语料,进行清洗后放入数据库中;
(2)、针对汉语语料,利用ltp平台,获取汉语的依存句法解析树,针对越南语,利用Vncorenlp,获取越南语的依存句法解析树。
5.根据权利要求2所述的基于依存图网络的汉越神经机器翻译方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先将依存句法解析树转化为有向连通图,在转换的过程中对词节点和标签进行向量化,其中,词节点根据词表进行向量化,标签根据标签词表进行向量化;
Step1.2、采用门控图神经网络GGNNs上的GGNN图编码器,实现对图结构的序列化编码,并将边的信息转化为节点信息,然后融入图隐藏状态G中,得到依存图结构信息。
6.根据权利要求2所述的基于依存图网络的汉越神经机器翻译方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、首先,在编码层上进行了扩展:原始的transformer模型的编码器包含两个子层,第一层是多头自注意力层,第二层是前馈神经网络层,在两个子层之间增加了一个图和序列的注意力机制,用来融合依存图结构信息和序列信息;
Step2.2、多头自注意力层:利用多头注意力机制对源语言输入序列E,进行自注意力计算,然后将h个注意力进行拼接,最终得到源语言的多头注意力输出向量,也即源语言的序列信息D,该步骤目的是学习句子内部的词依赖关系,捕获句子的内部结构信息;
Step2.3、图-序列注意力子层:通过Multihead机制,实现对源语言的依存图结构信息G和源语言的序列信息D相互关注和融合,实现对依存图结构信息和序列信息相互关注,得到输出向量N;
N=MultiHead(D,G,G) (1)
Step2.4、在第三个前馈神经网络子层,对N向量进行残差链接和归一化计算,最终编码器输出融合依存图结构信息的序列向量S:
S=LN(FFN(LN(N))+LN(N)) (2)。
7.根据权利要求2所述的基于依存图网络的汉越神经机器翻译方法,其特征在于:所述步骤Step3中,为了利用融合信息S指导解码器目标译文生成,在解码端进行了扩展,扩展了一个图和序列注意力机制的子层,解码端内部共包含四个子层,通过这四个子层去指导目标语言的译文生成;其中,这四个子层具体如下:
(1)、多头注意力层:利用多头注意力机制对目标语言词嵌入序列T向量进行计算,得到目标序列的上下文向量;
M=MultiHead(T,T,T) (3)
(2)、图-序列注意力层:将图编码器输出的结构向量即源语言的依存图结构信息G和解码端第一层输出的目标语言上下文向量M进行关注,得到关注向量B;
B=MultiHead(M,G,G) (4)
(3)、编码-解码注意力层:将图-序列注意层输出的关注向量B和Transformer的序列编码器输出的融合依存图结构信息的序列向量S进行多头计算;
H=MultiHead(B,S,S) (5)
(4)、全连接的前馈神经网络层:利用上一层的输出向量H,计算得到当解码器输出的目标端的隐向量F;
F=LN(FFN(LN(H))+LN(H) (6)
最后softmax层生成目标语言译文,目标词
Figure FDA0002764839520000031
的概率分通过softmax层计算源语言X与上一个目标词y<j得到,θ是模型的学习参数,W0是权重矩阵,
Figure FDA0002764839520000032
为预测第j个目标词的词向量,由此生成目标语言的译文
p(yj,|X,y<j;θ)=softmax(WoFj) (7)。
CN202011229881.6A 2020-11-06 2020-11-06 基于依存图网络的汉越神经机器翻译方法 Active CN112507733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011229881.6A CN112507733B (zh) 2020-11-06 2020-11-06 基于依存图网络的汉越神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011229881.6A CN112507733B (zh) 2020-11-06 2020-11-06 基于依存图网络的汉越神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN112507733A true CN112507733A (zh) 2021-03-16
CN112507733B CN112507733B (zh) 2023-04-18

Family

ID=74955629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011229881.6A Active CN112507733B (zh) 2020-11-06 2020-11-06 基于依存图网络的汉越神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN112507733B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033153A (zh) * 2021-04-28 2021-06-25 西南石油大学 基于Transformer模型融合关键信息的神经机器翻译模型
CN113657253A (zh) * 2021-08-16 2021-11-16 浙江大学 使用注意力引导自适应记忆的实时唇语识别方法和系统
CN114595700A (zh) * 2021-12-20 2022-06-07 昆明理工大学 融合零代词与篇章信息的汉越神经机器翻译方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766332A (zh) * 2017-11-27 2018-03-06 北京深知无限人工智能科技有限公司 一种语言模板构建方法及装置
CN109062907A (zh) * 2018-07-17 2018-12-21 苏州大学 融入依存关系的神经机器翻译方法
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN110377918A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110781690A (zh) * 2019-10-31 2020-02-11 北京理工大学 一种多源神经机器翻译模型的融合和压缩方法
CN111488742A (zh) * 2019-08-19 2020-08-04 北京京东尚科信息技术有限公司 用于翻译的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766332A (zh) * 2017-11-27 2018-03-06 北京深知无限人工智能科技有限公司 一种语言模板构建方法及装置
CN109062907A (zh) * 2018-07-17 2018-12-21 苏州大学 融入依存关系的神经机器翻译方法
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN110377918A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法
CN111488742A (zh) * 2019-08-19 2020-08-04 北京京东尚科信息技术有限公司 用于翻译的方法和装置
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110781690A (zh) * 2019-10-31 2020-02-11 北京理工大学 一种多源神经机器翻译模型的融合和压缩方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TIANMING WANG等: "AMR-To-Text Generation with Graph Transformer", 《TRANSACTIONS OF THE ASSOCIATION FOR COMPUTATION LINGUISTICS》 *
YONGJING YIN等: "A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation", 《COMPUTATION AND LANGUAGE》 *
陈宏申;刘群;: "利用编码器解码器学习依存边翻译规则表示" *
黄登娴;: "英语翻译软件翻译准确性矫正算法设计" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033153A (zh) * 2021-04-28 2021-06-25 西南石油大学 基于Transformer模型融合关键信息的神经机器翻译模型
CN113657253A (zh) * 2021-08-16 2021-11-16 浙江大学 使用注意力引导自适应记忆的实时唇语识别方法和系统
CN113657253B (zh) * 2021-08-16 2023-12-05 浙江大学 使用注意力引导自适应记忆的实时唇语识别方法和系统
CN114595700A (zh) * 2021-12-20 2022-06-07 昆明理工大学 融合零代词与篇章信息的汉越神经机器翻译方法

Also Published As

Publication number Publication date
CN112507733B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN112507733B (zh) 基于依存图网络的汉越神经机器翻译方法
Fernandes et al. Latent structure perceptron with feature induction for unrestricted coreference resolution
Zhang et al. SG-Net: Syntax guided transformer for language representation
CN112989796B (zh) 一种基于句法指导的文本命名实体信息识别方法
CN110895932A (zh) 基于语言种类和语音内容协同分类的多语言语音识别方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN110427616B (zh) 一种基于深度学习的文本情感分析方法
CN113743133B (zh) 融合词粒度概率映射信息的汉越跨语言摘要方法
CN112613326B (zh) 一种融合句法结构的藏汉语言神经机器翻译方法
CN113343683A (zh) 一种融合自编码器和对抗训练的中文新词发现方法及装置
Caglayan et al. Simultaneous machine translation with visual context
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN113901847A (zh) 基于源语言句法增强解码的神经机器翻译方法
CN114217766A (zh) 基于预训练语言微调与依存特征的半自动需求抽取方法
Yan et al. Smarter Response with Proactive Suggestion: A New Generative Neural Conversation Paradigm.
CN113901208A (zh) 融入主题特征的中越跨语言评论情感倾向性分析方法
Gupta et al. Robust neural language translation model formulation using Seq2seq approach
CN116186216A (zh) 基于知识增强和双图交互的问题生成方法及系统
CN111563148A (zh) 一种基于词组多样性的对话生成方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN115048940A (zh) 基于实体词属性特征和回译的中文金融文本数据增强方法
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
CN112287119B (zh) 一种在线资源相关信息抽取的知识图谱生成方法
Wang et al. Emotional conversation generation with bilingual interactive decoding
Nambiar et al. Attention based abstractive summarization of malayalam document

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant