CN112257460A - 基于枢轴的汉越联合训练神经机器翻译方法 - Google Patents

基于枢轴的汉越联合训练神经机器翻译方法 Download PDF

Info

Publication number
CN112257460A
CN112257460A CN202011020199.6A CN202011020199A CN112257460A CN 112257460 A CN112257460 A CN 112257460A CN 202011020199 A CN202011020199 A CN 202011020199A CN 112257460 A CN112257460 A CN 112257460A
Authority
CN
China
Prior art keywords
chinese
vietnamese
english
pivot
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011020199.6A
Other languages
English (en)
Other versions
CN112257460B (zh
Inventor
高盛祥
张磊
余正涛
王振晗
朱俊国
刘畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202011020199.6A priority Critical patent/CN112257460B/zh
Publication of CN112257460A publication Critical patent/CN112257460A/zh
Application granted granted Critical
Publication of CN112257460B publication Critical patent/CN112257460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于枢轴的汉越联合训练神经机器翻译方法,属于自然语言处理技术领域。本发明包括步骤:所述方法首先利用汉越平行语料训练翻译模型得到汉语和越南语的词向量表征;其次以英语作为枢轴语言对汉语‑英语,英语‑越南语翻译模型进行联合训练,再将汉语‑英语、英语‑越南语翻译模型的汉语、越南语的向量表示与汉越模型得到的汉语、越南语的向量表示计算优化从而进行汉越联合训练。本发明将汉越平行语料与汉英,英越平行语料结合起来进行联合训练,充分利用了英语枢轴语料提升了汉越机器翻译性能,从而解决了汉越平行语料缺失导致翻译模型性能不佳的问题。

Description

基于枢轴的汉越联合训练神经机器翻译方法
技术领域
本发明涉及基于枢轴的汉越联合训练神经机器翻译方法,属于自然语言处理技术领域。
背景技术
机器翻译是用来进行大规模语言翻译的有效工具近年来,中国与越南的交流与合作越来越密切,而机器翻译是跨语言信息交流较为有效的方式,因此研究汉越机器翻译有着非常重要的应用价值。
神经机器翻译是2014年提出的一种机器翻译方法,目前主流的神经机器翻译模型都采用编码器-解码器的架构。神经机器翻译在拥有大规模平行语料的语言对上已经取得了良好的翻译性能,但在低资源的场景下,神经机器翻译的翻译质量低于统计机器翻译。所以在汉越这种低资源语言对上,它受到汉越平行语料库的规模与质量的影响,导致汉越机器翻译性能不佳。
为了缓解汉越机器翻译面临的资源稀缺问题,目前解决思路侧重于利用枢轴语言来改善低资源机器翻译的性能。其主要方法分成以下三类:第一类是将源语言数据通过枢轴语言的加入,间接地通过两步翻译生成源语言-目标语言的平行语料能;第二类是通过枢轴语言间接的训练源语言-目标语言的机器翻译模型。为减小利用枢轴语言翻译过程中的翻译误差提出了利用源-枢轴语言和枢轴-目标语言的平行语料的三种预训练方法从而,提升了低资源的神经机器翻译性能;第三类是使用枢轴语料进行联合训练。
以上方法训练所得到的神经机器翻译模型均能提升低资源下的机器翻译任务性能,但是采用枢轴语言进行机器翻译训练过程中,源语言-枢轴语言,枢轴语言-目标语言的模型训练过程中会因为多语言输入而产生噪声。汉越神经机器翻译是一种典型的低资源场景下的神经机器翻译,其训练语料稀缺,但是却存在大量汉英,英越平行语料,所以汉越神经机器翻译适用于枢轴的方法。为了提升汉越神经机器翻译性能并且利用到小规模的汉越平行语料,我们提出了基于枢轴的汉越联合训练神经机器翻译,其基本思想是,先使用小规模的汉越平行语料训练神经机器翻译模型来得到汉越词语在语义空间上的表示信息,再将其与英语作为枢轴语言的汉语-英语,英语-越南语翻译模型进行联合训练。在联合训练中汉语-英语,英语-越南语翻译模型的汉语,越南语的向量表示与汉越模型得到的汉语,越南语的向量表示计算优化,提升低资源场景下汉越机器翻译的效果。
发明内容
本发明提供了基于枢轴的汉越联合训练神经机器翻译方法,以用于解决明在低资源的场景下神经机器翻译的翻译质量低于统计机器翻译问题;解决了在汉越这种低资源语言对上,受到汉越平行语料库的规模与质量的影响,导致汉越机器翻译性能不佳的问题。
本发明的技术方案是:基于枢轴的汉越联合训练神经机器翻译方法,所述方法首先利用汉越平行语料训练翻译模型得到汉语和越南语的词向量表征;其次以英语作为枢轴语言对汉语-英语,英语-越南语翻译模型进行联合训练,再将汉语-英语、英语-越南语翻译模型的汉语、越南语的向量表示与汉越模型得到的汉语、越南语的向量表示计算优化从而进行汉越联合训练。
作为本发明的优选方案,所述方法的具体步骤如下:
Step1、获取汉、英、越单语语料,再经过过滤、去噪音、去除停用词、命名实体识别和标注、分词预处理后,分别构建汉英平行语料、英越平行语料和汉越平行语料;
Step2、基于枢轴的神经机器翻译,融入注意力机制的神经机器翻译先将源语言句子编码为向量序列,然后在解码生成目标语言;利用存在的源语言-枢轴语言和枢轴语言-目标语言的平行语料库,分别训练源语言到枢轴语言和枢轴语言到目标语言的翻译模型;
Step3、基于枢轴的汉越联合训练神经机器翻译,采取联合训练的方法,使用汉越平行语料训练汉越神经机器翻译模型,得到汉语与越南语的向量表示,并且把汉语与越南语的向量表示加入到汉英,英越的联合训练中,对汉越进行联合训练从而提升汉越神经机器翻译性能。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉英越单语语料,把已爬取出的单语语料,经过过滤、去噪音处理,构建出文本级语料,并以json格式储存到数据库中;
Step1.2、对各单语语料进行去除停用词、命名实体识别和标注、分词、词干提取和词形还原的数据处理;
Step1.3、构建英越平行语料规模70万句对、汉英语料规模1000万句对、汉越平行语料。
作为本发明的优选方案,所述步骤Step1.3中:
在NLP任务中,特征粒度为词粒度时远远好于字粒度,因为基于字粒度时不考虑词序信息,损失了过多的n-gram信息。汉语文本不同于英文,词与词之间没有显式的分隔符,在进行汉语的NLP任务时,分词是很关键的一个技术。而越南文本词与词之间没有显式的分隔符,与汉语文本类似。在训练模型之前对汉越语料进行分词处理,其中汉语分词采用结巴分词,越南语分词采用Underthesea-Vietnamese NLP工具,构建汉越平行语料规模10万句对。
作为本发明的优选方案,所述步骤Step2的具体步骤:
Step2.1、在神经机器翻译模型训练中,给定源语言单词的序列表示为x=(x1,...,xn),目标语言单词的序列表示为y=(y1,...,yn),源语言-目标语言的平行语料库表示为
Figure BDA0002700384850000031
Step2.2、基于注意力机制的神经机器翻译先将源语言句子编码为向量序列,然后在生成目标语言时,通过注意机制动态寻找与生成该词相关的源语言词语信息,用于增强了神经网络机器翻译的表达能力;用P(y|x;θx→y)表示一个基于注意力机制的神经机器翻译模型,θx→y是模型参数,基于注意力机制的神经机器翻译模型的最大似然估计表示和最大对数似然估计表示模型分别为:
Figure BDA0002700384850000032
Figure BDA0002700384850000033
Step2.3、根据轴语言的方法,定义源语言-枢轴语言的语料库和枢轴语言-目标语言的语料库,使用轴语言桥接源语言和目标语言,建立基于枢轴的汉越神经机器翻译模型。
作为本发明的优选方案,所述步骤Step2.3的具体步骤为:
Step2.3.1、假设存在枢轴语言z=(z1,...,zn),则源语言-枢轴语言的语料库
Figure BDA0002700384850000034
枢轴语言-目标语言的语料库
Figure BDA0002700384850000035
Step2.3.2、利用存在的源语言-枢轴语言和枢轴语言-目标语言的平行语料库,分别训练源语言到枢轴语言和枢轴语言到目标语言的翻译模型表示为:
Figure BDA0002700384850000041
Figure BDA0002700384850000042
Step2.3.3、源语言到枢轴语言和枢轴语言到目标语言的翻译模型的对数似然函数表示为:
Figure BDA0002700384850000043
Figure BDA0002700384850000044
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、使用汉英,英越平行语料来对汉越进行联合训练:
Figure BDA0002700384850000045
Figure BDA0002700384850000046
表示的是汉语-英语,英语-越南语的似然函数,汉越神经机器翻译联合训练表示为:
Figure BDA0002700384850000047
Step3.2、在联合训练中,存在级联翻译错误,为了降低枢轴语言带来的传播误差,所以词在语义空间中词的表示要一样,通过轴词嵌入即英语的词嵌入来连接汉语到英语的神经机器翻译模型和英语到越南语的神经机器翻译模型,鼓励这两个模型在两个词汇表的交集中为枢轴词生成相同的向量表示;
Step3.3、使用汉越平行语料训练汉越神经机器翻译模型,得到汉语与越南语的向量表示,并且把汉语与越南语的向量表示加入到汉英,英越的联合训练中,对汉越进行联合训练从而提升汉越神经机器翻译性能。
作为本发明的优选方案,所述步骤Step3.2的具体步骤为:
Step3.2.1、定义vwz x→z是汉语-英语的词表中的英语,vwz z→y是英语-越南语的词表中的英语,用w∈(vwz x→z∩vwz z→y)表示w是汉语-英语,英语-越南语词表中共有英语的词;
Step3.2.1、为减小源到枢轴模型和枢轴到目标模型之间的差异,在训练模型的似然函数中加入一个连接项R,λ是超参数,并同时通过惩罚欧氏距离来约束汉语到英语的神经机器翻译模型和英语到越南语的神经机器翻译模型,则基于枢轴联合训练的注意力机制神经机器翻译模型表示为:
Figure BDA0002700384850000051
Figure BDA0002700384850000052
作为本发明的优选方案,所述步骤Step3.3的具体步骤为:
Step3.3.1、基于枢轴联合训练的注意力机制汉越神经机器翻译模型表示为:
Figure BDA0002700384850000053
Step3.3.2、训练过程中基于枢轴的汉越联合训练神经机器翻译模型的最大似然估计表示为:
Figure BDA0002700384850000054
源语言到枢轴语言的模型的参数θx→z的偏导数计算为:
Figure BDA0002700384850000055
源语言到枢轴语言的模型的参数θz→y的偏导数计算为:
Figure BDA0002700384850000056
Step4、选取六个基线系统设置对比实验,对比基线系统与基于枢轴的汉越联合训练神经机器翻译在汉语-越南语和越南语-汉语两个翻译方向上的模型的BLEU值结果。
Step4.1、实验选取了六个基线系统,分别是基于统计机器翻译的Moses、基于OPENNMT框架的Transformer、Convolutional Neural Networks(CNN)、基于注意力机制的GNMT、传统的枢轴机器翻译、迁移学习翻译模型Nmt-trans与本文的方法(不使用汉越语料)、本文的方法+CV(使用汉越语料)进行翻译效果的对比;
Step4.2、实验中使用BLEU值作为评测指标。传统的枢轴机器翻译,采用分部训练的方法,先训练汉英神经机器翻译模型再训练英越机器翻译模型。最后对测评语料汉语使用二次解码的方法,得到越南语翻译。
本发明的有益效果是:
1、本发明将汉越平行语料与汉英,英越平行语料结合起来进行联合训练,充分利用了英语枢轴语料提升了汉越机器翻译性能,从而解决了汉越平行语料缺失导致翻译模型性能不佳的问题;
2、能够提升低资源场景下汉越神经机器翻译性能,在汉语-越南语的翻译方向上达到了19.16的BLEU值,比较于基线模型均有明显的提升。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的简略流程图;
图3为本发明中的基于枢轴的汉越神经机器翻译示意图;
图4为本发明中的基于枢轴的汉越联合训练神经机器翻译训练流程图。
具体实施方式
实施例1:如图1-4所示,基于枢轴的汉越联合训练神经机器翻译方法,所述方法的具体步骤如下:
Step1、获取汉、英、越单语语料,再经过过滤、去噪音、去除停用词、命名实体识别和标注、分词预处理后,分别构建汉英平行语料、英越平行语料和汉越平行语料;
Step2、基于枢轴的神经机器翻译,融入注意力机制的神经机器翻译先将源语言句子编码为向量序列,然后在解码生成目标语言;利用存在的源语言-枢轴语言和枢轴语言-目标语言的平行语料库,分别训练源语言到枢轴语言和枢轴语言到目标语言的翻译模型;
Step3、基于枢轴的汉越联合训练神经机器翻译,采取联合训练的方法,使用汉越平行语料训练汉越神经机器翻译模型,得到汉语与越南语的向量表示,并且把汉语与越南语的向量表示加入到汉英,英越的联合训练中,对汉越进行联合训练从而提升汉越神经机器翻译性能。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉英越单语语料,把已爬取出的单语语料,经过过滤、去噪音处理,构建出文本级语料,并以json格式储存到数据库中;
Step1.2、对各单语语料进行去除停用词、命名实体识别和标注、分词、词干提取和词形还原的数据处理;
Step1.3、构建英越平行语料规模70万句对、汉英语料规模1000万句对、汉越平行语料。
作为本发明的优选方案,所述步骤Step1.3中:
在NLP任务中,特征粒度为词粒度时远远好于字粒度,因为基于字粒度时不考虑词序信息,损失了过多的n-gram信息。汉语文本不同于英文,词与词之间没有显式的分隔符,在进行汉语的NLP任务时,分词是很关键的一个技术。而越南文本词与词之间没有显式的分隔符,与汉语文本类似。在训练模型之前对汉越语料进行分词处理,其中汉语分词采用结巴分词,越南语分词采用Underthesea-Vietnamese NLP工具,构建汉越平行语料规模10万句对。
作为本发明的优选方案,所述步骤Step2的具体步骤:
Step2.1、在神经机器翻译模型训练中,给定源语言单词的序列表示为x=(x1,...,xn),目标语言单词的序列表示为y=(y1,...,yn),源语言-目标语言的平行语料库表示为
Figure BDA0002700384850000071
Step2.2、基于注意力机制的神经机器翻译先将源语言句子编码为向量序列,然后在生成目标语言时,通过注意机制动态寻找与生成该词相关的源语言词语信息,用于增强了神经网络机器翻译的表达能力;用P(y|x;θx→y)表示一个基于注意力机制的神经机器翻译模型,θx→y是模型参数,基于注意力机制的神经机器翻译模型的最大似然估计表示和最大对数似然估计表示模型分别为:
Figure BDA0002700384850000072
Figure BDA0002700384850000073
Step2.3、根据轴语言的方法,定义源语言-枢轴语言的语料库和枢轴语言-目标语言的语料库,使用轴语言桥接源语言和目标语言,建立基于枢轴的汉越神经机器翻译模型。
作为本发明的优选方案,所述步骤Step2.3的具体步骤为:
Step2.3.1、假设存在枢轴语言z=(z1,...,zn),则源语言-枢轴语言的语料库
Figure BDA0002700384850000074
枢轴语言-目标语言的语料库
Figure BDA0002700384850000075
Step2.3.2、利用存在的源语言-枢轴语言和枢轴语言-目标语言的平行语料库,分别训练源语言到枢轴语言和枢轴语言到目标语言的翻译模型表示为:
Figure BDA0002700384850000076
Figure BDA0002700384850000077
Step2.3.3、源语言到枢轴语言和枢轴语言到目标语言的翻译模型的对数似然函数表示为:
Figure BDA0002700384850000081
Figure BDA0002700384850000082
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、使用汉英,英越平行语料来对汉越进行联合训练:
Figure BDA0002700384850000083
Figure BDA0002700384850000084
表示的是汉语-英语,英语-越南语的似然函数,汉越神经机器翻译联合训练表示为:
Figure BDA0002700384850000085
Step3.2、在联合训练中,存在级联翻译错误,为了降低枢轴语言带来的传播误差,所以词在语义空间中词的表示要一样,通过轴词嵌入即英语的词嵌入来连接汉语到英语的神经机器翻译模型和英语到越南语的神经机器翻译模型,鼓励这两个模型在两个词汇表的交集中为枢轴词生成相同的向量表示;
Step3.3、使用汉越平行语料训练汉越神经机器翻译模型,得到汉语与越南语的向量表示,并且把汉语与越南语的向量表示加入到汉英,英越的联合训练中,对汉越进行联合训练从而提升汉越神经机器翻译性能。
作为本发明的优选方案,所述步骤Step3.2的具体步骤为:
Step3.2.1、定义vwz x→z是汉语-英语的词表中的英语,vwz z→y是英语-越南语的词表中的英语,用w∈(vwz x→z∩vwz z→y)表示w是汉语-英语,英语-越南语词表中共有英语的词;
Step3.2.1、为减小源到枢轴模型和枢轴到目标模型之间的差异,在训练模型的似然函数中加入一个连接项R,λ是超参数,并同时通过惩罚欧氏距离来约束汉语到英语的神经机器翻译模型和英语到越南语的神经机器翻译模型,则基于枢轴联合训练的注意力机制神经机器翻译模型表示为:
Figure BDA0002700384850000086
Figure BDA0002700384850000087
作为本发明的优选方案,所述步骤Step3.3的具体步骤为:
Step3.3.1、基于枢轴联合训练的注意力机制汉越神经机器翻译模型表示为:
Figure BDA0002700384850000088
Step3.3.2、训练过程中基于枢轴的汉越联合训练神经机器翻译模型的最大似然估计表示为:
Figure BDA0002700384850000091
源语言到枢轴语言的模型的参数θx→z的偏导数计算为:
Figure BDA0002700384850000092
源语言到枢轴语言的模型的参数θz→y的偏导数计算为:
Figure BDA0002700384850000093
Step4、选取六个基线系统设置对比实验,对比基线系统与基于枢轴的汉越联合训练神经机器翻译在汉语-越南语和越南语-汉语两个翻译方向上的模型的BLEU值结果。
Step4.1、实验选取了六个基线系统,分别是基于统计机器翻译的Moses、基于OPENNMT框架的Transformer、Convolutional Neural Networks(CNN)、基于注意力机制的GNMT、传统的枢轴机器翻译、迁移学习翻译模型Nmt-trans与本文的方法(不使用汉越语料)、本文的方法+CV(使用汉越语料)进行翻译效果的对比;
Step4.2、Moses训练中,我们使用了Mgiza训练词对齐,利用Lmplz训练3-gram的Language Model。CNN中编码器设置为10层的卷积神经网络,解码器则采用LSTM网络,批次大小为64,卷积核大小设置为3。GNMT中隐藏层数量设置为2,“num_units”设置为128,“dropout”设置为0.2。Transformer机器翻译模型、Nmt-trans和传统的枢轴机器翻译与本文的方法采用基于OPENNMT框架的Transformer,使用的词表设置为32000个词,句子的最大长度设置为50,“transformer_ff”设置为2048,“label_smoothing”设置为0.1,“attentionhead”设置为2,“dropout”设置为0.2,隐藏层数量设置为2,词嵌入维度设置为256,“batch_size”设置为128,学习率设置为0.2。优化器选择Adam,其参数设置为β_1=0.9、β_2=0.99、ε=le-8;
Step4.3、实验中使用BLEU值作为评测指标。传统的枢轴机器翻译,采用分部训练的方法,先训练汉英神经机器翻译模型再训练英越机器翻译模型。最后对测评语料汉语使用二次解码的方法,得到越南语翻译。因为汉越语料规模较少,汉越神经机器翻译模型训练不充分,对于词频较低的词语,翻译性能不好,所以在联合训练中,只取词频大于Topk=30的词汇。
此优选方案设计是为了最大限度利用到小规模的汉越平行语料,结合大量已有的汉英,英越平行语料,提升低资源场景下汉越机器翻译的效果。
本文在低资源翻译场景下进行汉语-越南语和越南语-汉语的神经机器翻译实验。实验训练语料规模为:汉越平行语料规模10万句对,英越平行语料规模70万句对,汉英语料规模1000万句对。具体的实验数据集如表1所示。在训练之前对实验数据进行了过滤乱码与分词处理,其中汉语分词采用结巴分词,越南语分词采用Underthesea-Vietnamese NLP工具。
表1实验数据集表
Tab.1Experimental Data Set Table
数据集 训练集 验证集 准测试集
汉英 10M 10k 20k
英越 700k 4k 5k
汉越 100k 1k 2k
为了评估基于枢轴的汉越联合训练神经机器翻译方法的有效性我们设置了6组对比实验。表2中给出的是基线系统与基于枢轴的汉越联合训练神经机器翻译在汉语-越南语和越南语-汉语两个翻译方向上的模型的BLEU值对比结果。
表2不同模型的BLEU值对比结果
Tab.2Comparison of BLEU values of different models
模型 汉语-越南语 越南语-汉语
Moses 16.39 16.21
CNN 16.87 16.35
GNMT 14.21 16.47
Transformer 17.35 17.02
传统的枢轴方法 18.16 17.79
Nmt-trans 17.98 17.65
本文的方法 18.75 18.12
本文的方法+CV 19.16 18.64
从表2中可以看出,基线模型中Transformer模型的BLEU值高于其它基线模型,这说明基于Transformer的汉越神经机器翻译框架中的遮蔽注意力机制可以更好地对目标语言进行翻译;汉越双语神经机器翻译上,本文采用的方法其效果明显优于基线系统,其中本文方法对比Moses方法在汉语-越南语翻译方向上提升2.77个BLEU值在越南语-汉语方向上提升了2.43个BLEU值,这说明基于汉越神经机器翻译的方法比统计机器翻译更好。对比Transformer方法在汉语-越南语翻译方向上提升了1.81个BLEU值,在越南语-汉语翻译方向上提升了1.62个BLEU值。对比传统的枢轴方法在汉语-越南语翻译方向上提升了1个BLEU值,在越南语-汉语方向上提升了0.33个BLEU值。对比Nmt-trans得到1.18个BLEU值提升,越南语-汉语翻译方向上得到个0.99个BLEU值提升。说明在实验过程中,使用小规模汉越语料训练汉越神经机器翻译模型得到汉越词的语义表示信息,再将汉越的语义表示信息与汉英,英越翻译模型进行联合训练,从而提升翻译模型的性能,同时也验证了本文方法的有效性。
从表3的第一组句子中可以看出Transformer的译文出现了语句不准确的现象,翻译错了比赛
Figure BDA0002700384850000112
相比之下本文的方法+CV更加准确。在第二组句子中,Transformer的译文比起第一组数据,出现了更多漏译的情况,例如,白开水
Figure BDA0002700384850000113
很多颜色
Figure BDA0002700384850000114
等。由于漏翻的词汇在基线模型的训练语料中出现的次数较少,神经机器翻译模型无法很好的学习低频词的语义表示,从而出现了漏翻的情况。而本文采用基于枢轴的联合训练方法再使用小规模的汉越语料的前提下,还使用了英语桥接汉语和越南语,提升了汉越翻译任务的性能。本文方法虽然还存在翻译不充分的问题,但是在汉越神经机器翻译上对比基线系统,其产生的译文准确度更高。表中给出的是基线系统与基于枢轴的汉越联合训练神经机器翻译在汉语-越南语翻译方向上译文的对比示例。
表3不同模型的译文示例
Tab.3Translation Examples of Different Models
Figure BDA0002700384850000111
Figure BDA0002700384850000121
实验结果表明,该方法能够提升低资源场景下汉越神经机器翻译性能,在汉语-越南语的翻译方向上达到了19.16的BLEU值,比较于基线模型均有明显的提升。在下一步的工作中,我们将研究在现有基础上融入汉越的词对齐信息及枢轴词典等,从而提升越南语的翻译性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (9)

1.基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述方法首先利用汉越平行语料训练翻译模型得到汉语和越南语的词向量表征;其次以英语作为枢轴语言对汉语-英语,英语-越南语翻译模型进行联合训练,再将汉语-英语、英语-越南语翻译模型的汉语、越南语的向量表示与汉越模型得到的汉语、越南语的向量表示计算优化从而进行汉越联合训练。
2.根据权利要求1所述的基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述方法的具体步骤如下:
Step1、获取汉、英、越单语语料,再经过过滤、去噪音、去除停用词、命名实体识别和标注、分词预处理后,分别构建汉英平行语料、英越平行语料和汉越平行语料;
Step2、基于枢轴的神经机器翻译,融入注意力机制的神经机器翻译先将源语言句子编码为向量序列,然后在解码生成目标语言;利用存在的源语言-枢轴语言和枢轴语言-目标语言的平行语料库,分别训练源语言到枢轴语言和枢轴语言到目标语言的翻译模型;
Step3、基于枢轴的汉越联合训练神经机器翻译,采取联合训练的方法,使用汉越平行语料训练汉越神经机器翻译模型,得到汉语与越南语的向量表示,并且把汉语与越南语的向量表示加入到汉英,英越的联合训练中,对汉越进行联合训练从而提升汉越神经机器翻译性能。
3.根据权利要求2所述的基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉英越单语语料,把已爬取出的单语语料,经过过滤、去噪音处理,构建出文本级语料,并以json格式储存到数据库中;
Step1.2、对各单语语料进行去除停用词、命名实体识别和标注、分词、词干提取和词形还原的数据处理;
Step1.3、构建英越平行语料规模70万句对、汉英语料规模1000万句对、汉越平行语料。
4.根据权利要求3所述的基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述步骤Step1.3中:
在训练模型之前对汉越语料进行分词处理,其中汉语分词采用结巴分词,越南语分词采用Underthesea-Vietnamese NLP工具,构建汉越平行语料规模10万句对。
5.根据权利要求2所述的基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、在神经机器翻译模型训练中,给定源语言单词的序列表示为x=(x1,...,xn),目标语言单词的序列表示为y=(y1,...,yn),源语言-目标语言的平行语料库表示为
Figure FDA0002700384840000021
Step2.2、基于注意力机制的神经机器翻译先将源语言句子编码为向量序列,然后在生成目标语言时,通过注意机制动态寻找与生成该词相关的源语言词语信息,用于增强了神经网络机器翻译的表达能力;用P(y|x;θx→y)表示一个基于注意力机制的神经机器翻译模型,θx→y是模型参数,基于注意力机制的神经机器翻译模型的最大似然估计表示和最大对数似然估计表示模型分别为:
Figure FDA0002700384840000022
Figure FDA0002700384840000023
Step2.3、根据轴语言的方法,定义源语言-枢轴语言的语料库和枢轴语言-目标语言的语料库,使用轴语言桥接源语言和目标语言,建立基于枢轴的汉越神经机器翻译模型。
6.根据权利要求5所述的基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述步骤Step2.3的具体步骤为:
Step2.3.1、假设存在枢轴语言z=(z1,...,zn),则源语言-枢轴语言的语料库
Figure FDA0002700384840000024
枢轴语言-目标语言的语料库
Figure FDA0002700384840000025
Step2.3.2、利用存在的源语言-枢轴语言和枢轴语言-目标语言的平行语料库,分别训练源语言到枢轴语言和枢轴语言到目标语言的翻译模型表示为:
Figure FDA0002700384840000026
Figure FDA0002700384840000027
Step2.3.3、源语言到枢轴语言和枢轴语言到目标语言的翻译模型的对数似然函数表示为:
Figure FDA0002700384840000031
Figure FDA0002700384840000032
7.根据权利要求2所述的基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、使用汉英,英越平行语料来对汉越进行联合训练:
Figure FDA0002700384840000033
Figure FDA0002700384840000034
表示的是汉语-英语,英语-越南语的似然函数,汉越神经机器翻译联合训练表示为:
Figure FDA0002700384840000035
Step3.2、在联合训练中,存在级联翻译错误,为了降低枢轴语言带来的传播误差,所以词在语义空间中词的表示要一样,通过轴词嵌入即英语的词嵌入来连接汉语到英语的神经机器翻译模型和英语到越南语的神经机器翻译模型,鼓励这两个模型在两个词汇表的交集中为枢轴词生成相同的向量表示;
Step3.3、使用汉越平行语料训练汉越神经机器翻译模型,得到汉语与越南语的向量表示,并且把汉语与越南语的向量表示加入到汉英,英越的联合训练中,对汉越进行联合训练从而提升汉越神经机器翻译性能。
8.根据权利要求7所述的基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述步骤Step3.2的具体步骤为:
Step3.2.1、定义vwz x→z是汉语-英语的词表中的英语,vwz z→y是英语-越南语的词表中的英语,用w∈(vwz x→z∩vwz z→y)表示w是汉语-英语,英语-越南语词表中共有英语的词;
Step3.2.1、为减小源到枢轴模型和枢轴到目标模型之间的差异,在训练模型的似然函数中加入一个连接项R,λ是超参数,并同时通过惩罚欧氏距离来约束汉语到英语的神经机器翻译模型和英语到越南语的神经机器翻译模型,则基于枢轴联合训练的注意力机制神经机器翻译模型表示为:
Figure FDA0002700384840000036
Figure FDA0002700384840000037
9.根据权利要求7所述的基于枢轴的汉越联合训练神经机器翻译方法,其特征在于:所述步骤Step3.3的具体步骤为:
Step3.3.1、基于枢轴联合训练的注意力机制汉越神经机器翻译模型表示为:
Figure FDA0002700384840000041
Step3.3.2、训练过程中基于枢轴的汉越联合训练神经机器翻译模型的最大似然估计表示为:
Figure FDA0002700384840000042
源语言到枢轴语言的模型的参数θx→z的偏导数计算为:
Figure FDA0002700384840000043
源语言到枢轴语言的模型的参数θz→y的偏导数计算为:
Figure FDA0002700384840000044
CN202011020199.6A 2020-09-25 2020-09-25 基于枢轴的汉越联合训练神经机器翻译方法 Active CN112257460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011020199.6A CN112257460B (zh) 2020-09-25 2020-09-25 基于枢轴的汉越联合训练神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011020199.6A CN112257460B (zh) 2020-09-25 2020-09-25 基于枢轴的汉越联合训练神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN112257460A true CN112257460A (zh) 2021-01-22
CN112257460B CN112257460B (zh) 2022-06-21

Family

ID=74233138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011020199.6A Active CN112257460B (zh) 2020-09-25 2020-09-25 基于枢轴的汉越联合训练神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN112257460B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901844A (zh) * 2021-09-13 2022-01-07 昆明理工大学 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置
CN113901846A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于时空注意力的视频引导机器翻译方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2917153A1 (en) * 2013-07-03 2015-01-08 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
CN108549644A (zh) * 2018-04-12 2018-09-18 苏州大学 面向神经机器翻译的省略代词翻译方法
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN110196899A (zh) * 2019-06-11 2019-09-03 中央民族大学 一种低资源语言问答语料库生成方法
CN110377918A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法
CN110472252A (zh) * 2019-08-15 2019-11-19 昆明理工大学 基于迁移学习的汉越神经机器翻译的方法
CN110516230A (zh) * 2019-07-12 2019-11-29 昆明理工大学 基于枢轴语言的汉-缅双语平行句对抽取方法及装置
CN111310480A (zh) * 2020-01-20 2020-06-19 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2917153A1 (en) * 2013-07-03 2015-01-08 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
CN108549644A (zh) * 2018-04-12 2018-09-18 苏州大学 面向神经机器翻译的省略代词翻译方法
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN110196899A (zh) * 2019-06-11 2019-09-03 中央民族大学 一种低资源语言问答语料库生成方法
CN110516230A (zh) * 2019-07-12 2019-11-29 昆明理工大学 基于枢轴语言的汉-缅双语平行句对抽取方法及装置
CN110377918A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法
CN110472252A (zh) * 2019-08-15 2019-11-19 昆明理工大学 基于迁移学习的汉越神经机器翻译的方法
CN111310480A (zh) * 2020-01-20 2020-06-19 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FENG TAO 等: "Low-Resource Neural Machine Translation with Transfer Learning", 《LREC 2018 WORKSHOP》 *
GAO SHENGXIANG 等: "Syntax-based chinese-vietnamese Tree-to-Tree statistical machine translation with bilingual features", 《ACM TRANSACTIONS ON ASIAN AND LOW-RESOURCE LANGUAGE INFORMATION PROCESSING(TALLIP)》 *
高盛祥: "冶金领域汉越机器翻译方法研究", 《中国优秀博硕士学位论文全文数据库(博士)哲学与人文科学辑》 *
黄继豪: "基于枢轴语言的汉越神经机器翻译方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901844A (zh) * 2021-09-13 2022-01-07 昆明理工大学 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置
CN113901846A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于时空注意力的视频引导机器翻译方法
CN113901846B (zh) * 2021-09-15 2024-05-24 昆明理工大学 基于时空注意力的视频引导机器翻译方法

Also Published As

Publication number Publication date
CN112257460B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN110377918B (zh) 融合句法解析树的汉-越神经机器翻译方法
CN112257453B (zh) 融合关键词和语义特征的汉越文本相似度计算方法
CN105068997B (zh) 平行语料的构建方法及装置
CN111832293B (zh) 基于头实体预测的实体和关系联合抽取方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN112257460B (zh) 基于枢轴的汉越联合训练神经机器翻译方法
WO2017012327A1 (zh) 句法分析的方法和装置
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN113408307B (zh) 一种基于翻译模板的神经机器翻译方法
CN113204978B (zh) 一种机器翻译增强训练方法及系统
CN110929022A (zh) 一种文本摘要生成方法及系统
Khan et al. A study of neural machine translation from Chinese to Urdu
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
CN115310433A (zh) 一种针对中文文本校对的数据增强方法
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
Verma et al. A Novel Framework for Ancient Text Translation Using Artificial Intelligence
CN111597827A (zh) 一种提高机器翻译准确度的方法及其装置
CN116822495B (zh) 基于对比学习的汉-老、泰平行句对抽取方法及装置
CN115688904B (zh) 一种基于名词译文提示的翻译模型构建方法
Ali Artificial intelligence-enabled English translation system using unsupervised learning for wireless network
Zuo et al. A Hierarchical Neural Network for Sequence-to-Sequences Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant