CN108132932B - 带有复制机制的神经机器翻译方法 - Google Patents

带有复制机制的神经机器翻译方法 Download PDF

Info

Publication number
CN108132932B
CN108132932B CN201711441339.5A CN201711441339A CN108132932B CN 108132932 B CN108132932 B CN 108132932B CN 201711441339 A CN201711441339 A CN 201711441339A CN 108132932 B CN108132932 B CN 108132932B
Authority
CN
China
Prior art keywords
source
phrase
translated
sentence
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711441339.5A
Other languages
English (en)
Other versions
CN108132932A (zh
Inventor
熊德意
邝少辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201711441339.5A priority Critical patent/CN108132932B/zh
Publication of CN108132932A publication Critical patent/CN108132932A/zh
Application granted granted Critical
Publication of CN108132932B publication Critical patent/CN108132932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种带有复制机制的神经机器翻译方法,应用在基于注意力机制且采用encoder‑decoder框架的NMT模型,包括:在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;把原始训练语句中的源语言中需要指定翻译的源短语替换为原始训练语句中的目标语言中对应的目标短语;对上述处理过的原始训练语句进行NMT系统的训练;在待翻译的源语句中,标记出需要指定翻译的短语。上述带有复制机制的神经机器翻译方法,可以很好翻译特定的短语,如人名,地名,机构名,品牌词等,可以和任何的语料处理技术兼容,进一步提升翻译效果,不需要更改NMT系统结构,可以方便的应用在任何NMT系统上面。

Description

带有复制机制的神经机器翻译方法
技术领域
本发明涉及的神经机器翻译,特别是涉及带有复制机制的神经机器翻译方法。
背景技术
随着计算机计算能力的提高以及大数据的应用,深度学习取得进一步的应用。基于深度学习的Neural Machine Translation越来越受到人们的关注。在NMT领域中,最常用的一种翻译模型是带有注意力机制(attention-based)的encoder-decoder模型。其主要思想是将待翻译的源语句(在下文中统称为‘源语句’)经过编码器(encoder)编码成为一个向量表示,然后利用解码器(decoder)对源语句的向量表示进行解码,翻译成为其对应的译文(在下文中统称为‘目标语句’)。事实上,这种encoder-decoder框架是深度学习的核心思想,同样的,encoder-decoder框架也是NMT系统常用的一个基本架构。目前主流的NMT系统,encoder和decoder都利用RNN(recurrent neural networks),RNN在处理时序信息时有着得天独厚的优势,它能够处理任意长度的输入并将其转换成为一个固定维度的向量。
encoder-decoder框架,在构建翻译模型时,会首先根据训练语料来形成源端和目标端词表。由于计算能力限制,词表大小我们会进行限制(例如源语言词表中含有30000个单词),不在词表中的单词,我们统一用特殊符号“UNK”代替。这导致NMT的译文会出现一个严重的问题:当待翻译的源语句中含有不在词表中的单词时,在译文中会生成UNK,造成译文可读性不高,尤其是训练语料中没有出现的人名,地名,品牌词等都翻译不出来。这个问题,可以归结为“未登录词”问题。随后的论文中,提出了bpe方法,来将单词的拆分,形成子单词级别的词表,这种方法可以保证所有的单词都可以出现在词表中,避免译文中生成UNK。
传统技术存在以下技术问题:
虽然译文中UNK不会出现,但是NMT系统在基于源语句生成目标语言语句时,是单词级别的生成,是一个单词接着一个单词生成。这种生成模式,在翻译既定短语时候,会导致生成译文的不一致。例如,我们在翻译一些专有名词如“世贸组织”,“小儿麻痹症”,人名如“金泽一郎”,电商领域的品牌词如“施华洛世奇”,NMT系统给出的译文,往往和人民认可的译文不一致。比如在电商领域,品牌词翻译错误,是商家坚决不能接受的。这也是NMT系统需要解决的一个重要问题。
发明内容
鉴于NMT系统不能很好地翻译特定单词,短语,品牌词等,为了解决这一问题,我们提出了一个带有复制机制的神经机器翻译方法,这个方法可以应用在任何NMT结构上,实现指定单词和短语的复制。比如当一文中出现品牌词“施华洛世奇”时,我们的方法能够将“施华洛世奇”的译文“Swarovski”完整的复制到NMT生成的译文中,保证翻译的一致性和准确性。同时我们的方法完全独立于NMT系统,可以应用在任何结构的NMT模型上面。
一种带有复制机制的神经机器翻译方法,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,包括:
在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;
把原始训练语句中的源语言中需要指定翻译的源短语替换为原始训练语句中的目标语言中对应的目标短语;
对上述处理过的原始训练语句进行NMT系统的训练;
在待翻译的源语句中,标记出需要指定翻译的短语,所述标记的方法采用与步骤“在原始训练语句中的源语言和目标语言,标记出需要指定翻译的源短语和对应的目标短语;”中标记的方法相同;
把待翻译的源语句中的需要指定翻译的源短语替换为目标语言中对应的目标短语;
对上述处理过的待翻译的源语句进行NMT系统的解码翻译。
上述带有复制机制的神经机器翻译方法,可以很好翻译特定的短语,如人名,地名,机构名,品牌词等,可以和任何的语料处理技术兼容,进一步提升翻译效果,不需要更改NMT系统结构,可以方便的应用在任何NMT系统上面。
在另外的一个实施例中,在步骤“在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;”之前,对原始训练语句进行bpe处理。
在另外的一个实施例中,在步骤“在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;”中,利用在指定翻译的短语前后分别插入第一标签和第二标签的方法进行标记。
在另外的一个实施例中,所述第一标签和第二标签相同。
在另外的一个实施例中,所述第一标签和第二标签不相同。
在另外的一个实施例中,所述第一标签是<copy>和第二标签是</copy>。
在另外的一个实施例中,所述第一标签是</copy>和第二标签是</copy>。
在另外的一个实施例中,
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现任意一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现任意一项所述方法的步骤。
附图说明
图1为本申请实施例提供的一种带有复制机制的神经机器翻译方法的流程图之一。
图2为本申请实施例提供的一种带有复制机制的神经机器翻译方法的流程图之二。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
首先介绍一下本申请的应用基础:基于注意力机制(attention)的NMT模型。
在神经机器翻译系统中,一般采用encoder-decoder框架来实现翻译。对训练语料中的每一个词,我们都为其初始化一个词向量,所有词的词向量构成了词向量词典。词向量,一般是一个多维的向量,向量中每一维都是一个实数,维度的大小一般根据实验过程中的结果来最终确定。例如,对于单词“咱们”,它的词向量可能是<0.12,-0.23,...,0.99>
Encoder是由双向RNN(Recurent Neural Network)网络构成。在encoder阶段,encoder读入一个句子,将句子编码成一系列的向量。具体过程如下,首先将一个句子表示为词向量的序列,即x=<x1,x2,…,xT>,其中x为输入的句子,xj为句子中第j个词的词向量,即一个m维的向量。前向RNN根据公式hj=f(xj,hj-1),我们可以获得一个由隐层向量组成的前向向量序列
Figure BDA0001526719000000041
反向RNN依据同样的原理,可以得到由隐层向量组成的反向向量序列
Figure BDA0001526719000000042
我们连接
Figure BDA0001526719000000043
Figure BDA0001526719000000044
作为单词xj经过encoder编码后的含有上下文信息的向量表示
Figure BDA0001526719000000045
由隐层向量序列<h1,h2,…,hT>,我们可以获得context向量ct=q({h1,h2,...,hT})。其中,其中
Figure BDA0001526719000000046
是时序t时的隐藏状态,f和q是非线性的激活函数,其中f一般采用GRU或者LSTM,q一般采用attention网络。
在经典的神经机器翻译系统中,context向量ct一般利用attention网络来获得,ct可以通过下面公式运算获得:
Figure BDA0001526719000000047
其中,a是一个一层的前向网络,αtj是encoder是每一个隐藏状态hj的权重。
Decoder也是由RNN网络构成。在Decoder阶段,给定向量ct,以及所有已经预测得到词{y1,y2,...,yt-1},可以继续预测yt,通过如下定义可以逐步实现:
其中,
Figure BDA0001526719000000051
Figure BDA0001526719000000054
另外,p(yt|{y1,y2,...,yt-1},ct)=g(yt-1,st,ct)其中g是非线性激活函数,一般采用softmax函数。St为解码器中RNN的隐藏状态,St=f(yt-1,st-1,ct)。
Encoder和decoder都采用RNN网络,主要是因为其特点,RNN网络的特点在于,隐层状态由当前的输入和上一个隐层状态共同决定。如在本神经机器翻译过程中,Encoder阶段隐层状态由源语端当前词的词向量和上一个隐层状态共同决定。Decoder阶段的隐层状态由前一步骤中计算得到的目标语端词向量和上一个隐层状态共同决定。
模型的训练一般采用最小化负对数似然为损失函数,采用随机梯度下降为
训练方法来进行迭代训练。在训练集
Figure BDA0001526719000000052
上,其中xn,yn为平行语句对,N为语料库中平行语句对的个数,模型训练目标函数如下:
Figure BDA0001526719000000053
一种带有复制机制的神经机器翻译方法,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,包括:
在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;
把原始训练语句中的源语言中需要指定翻译的源短语替换为原始训练语句中的目标语言中对应的目标短语;
对上述处理过的原始训练语句进行NMT系统的训练;
在待翻译的源语句中,标记出需要指定翻译的短语,所述标记的方法采用与步骤“在原始训练语句中的源语言和目标语言,标记出需要指定翻译的源短语和对应的目标短语;”中标记的方法相同;
把待翻译的源语句中的需要指定翻译的源短语替换为目标语言中对应的目标短语;
对上述处理过的待翻译的源语句进行NMT系统的解码翻译。
上述带有复制机制的神经机器翻译方法,可以很好翻译特定的短语,如人名,地名,机构名,品牌词等,可以和任何的语料处理技术兼容,进一步提升翻译效果,不需要更改NMT系统结构,可以方便的应用在任何NMT系统上面。
在另外的一个实施例中,在步骤“在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;”之前,对原始训练语句进行bpe处理。
在另外的一个实施例中,在步骤“在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;”中,利用在指定翻译的短语前后分别插入第一标签和第二标签的方法进行标记。
在另外的一个实施例中,所述第一标签和第二标签相同。
在另外的一个实施例中,所述第一标签和第二标签不相同。
在另外的一个实施例中,所述第一标签是<copy>和第二标签是</copy>。
在另外的一个实施例中,所述第一标签是</copy>和第二标签是</copy>。
在另外的一个实施例中,
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现任意一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现任意一项所述方法的步骤。
下面介绍一个本发明具体的应用场景:
我们的种带有复制机制的神经机器翻译方法主要针对训练集和测试集进行处理,不需要更改NMT系统的结构。下面分为训练集处理和测试集处理来介绍我们种带有复制机制的神经机器翻译方法的流程。
训练集处理
在训练NMT系统之前,我们首先对训练语料进行处理。按照图1所示,以训练语料中的其中一个语句对为例。其中src代表源语言,trg代表目标语言。
对于一个原始的训练语句对src和trg,首先我们利用标签<copy>和标签</copy>标记出需要指定翻译的短语,如图1中step1所示。我们指定“中国青年报”,其翻译为“chinayouth daily”。
接着进行step2,我们利用目标语言中的译文“china youth daily”,来替换掉源语言中的“中国青年报”。处理后的训练样例变成“据《<copy>china youth daily</copy>》报道”和“according to a<copy>china youth daily</copy>report”的语句对。
接着进行step3,我们利用处理之后的语料进行NMT系统的训练。其中我们在src中的“china youth daily”和trg中的“china youth daily”共用相同的word-embedding。NMT系统可以学习src端<copy>……</copy>和trg端<copy>……</copy>的对应关系,共用word-embedding可以保证生成译文的正确性。
此外,我们的copy机制的处理过程,可以兼容其他的预料处理技术,如bpe技术。我们可以先对训练语料进行bpe处理,解决UNK问题。然后再利用我们的copy机制处理技术,可以达到更好的效果。
测试集处理
利用标记完成的训练集训练NMT系统之后,我们就可以利用该模型进行测试集翻译。在将待翻译的源语句输入模型之前,我们首先要进行处理。如图2所示。
例如,我们要翻译源语句“据《中国青年报》报道”,我们已知“中国青年报”这个名词短语的特定译文为“china youth daily”,我们不希望NMT系统生成错误。我们可以首先进行step1,标记出我们想要指定翻译的短语。然后进行step2,用特定的译文来进行源端短语的替换。然后将处理后的语句输入NMT系统进行解码,生成译文。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (3)

1.一种带有复制机制的神经机器翻译方法,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,其特征在于,包括:
在所述原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;
把原始训练语句中的源语言中需要指定翻译的源短语替换为原始训练语句中的目标语言中对应的目标短语;
对上述处理过的原始训练语句进行NMT系统的训练;
在待翻译的源语句中,标记出需要指定翻译的短语,所述标记的方法采用与步骤“在原始训练语句中的源语言和目标语言,标记出需要指定翻译的源短语和对应的目标短语;”中标记的方法相同;
把待翻译的源语句中的需要指定翻译的源短语替换为目标语言中对应的目标短语;
对上述处理过的待翻译的源语句进行NMT系统的解码翻译;
在步骤“在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;”之前,对原始训练语句进行bpe处理;
在步骤“在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;”中,利用在指定翻译的短语前后分别插入第一标签和第二标签的方法进行标记。
2.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述方法的步骤。
CN201711441339.5A 2017-12-27 2017-12-27 带有复制机制的神经机器翻译方法 Active CN108132932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711441339.5A CN108132932B (zh) 2017-12-27 2017-12-27 带有复制机制的神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711441339.5A CN108132932B (zh) 2017-12-27 2017-12-27 带有复制机制的神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN108132932A CN108132932A (zh) 2018-06-08
CN108132932B true CN108132932B (zh) 2021-07-20

Family

ID=62393047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711441339.5A Active CN108132932B (zh) 2017-12-27 2017-12-27 带有复制机制的神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN108132932B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299479B (zh) * 2018-08-21 2023-07-14 苏州大学 通过门控机制将翻译记忆融入神经机器翻译的方法
CN109284511B (zh) * 2018-09-04 2023-05-16 苏州大学 主动学习平行语料构建方法
CN109284398A (zh) * 2018-09-29 2019-01-29 武汉烽火普天信息技术有限公司 一种改进双向gru和注意力模型的实体关系抽取方法
CN109359308B (zh) * 2018-10-31 2023-01-10 腾讯科技(武汉)有限公司 机器翻译方法、装置及可读存储介质
CN111274813B (zh) * 2018-12-05 2023-05-02 阿里巴巴集团控股有限公司 语言序列标注方法、装置存储介质及计算机设备
CN111626064B (zh) * 2019-02-26 2024-04-30 株式会社理光 神经机器翻译模型的训练方法、装置及存储介质
CN110222350A (zh) * 2019-06-28 2019-09-10 苏州大学 将双语预定义翻译对融入神经机器翻译模型的方法
CN113435214B (zh) * 2021-07-19 2023-04-07 广州华多网络科技有限公司 电商标题翻译方法及其相应的装置、设备、介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649288A (zh) * 2016-12-12 2017-05-10 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置
CN106844352A (zh) * 2016-12-23 2017-06-13 中国科学院自动化研究所 基于神经机器翻译系统的单词预测方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
WO2016065327A1 (en) * 2014-10-24 2016-04-28 Google Inc. Neural machine translation systems with rare word processing
US9430466B1 (en) * 2015-08-26 2016-08-30 Google Inc. Techniques for crowd sourcing human translations to provide translated versions of web pages with additional content
CN106126507B (zh) * 2016-06-22 2019-08-09 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649288A (zh) * 2016-12-12 2017-05-10 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置
CN106844352A (zh) * 2016-12-23 2017-06-13 中国科学院自动化研究所 基于神经机器翻译系统的单词预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Towards Zero Unknown Word in Neural Machine Translation;Xiaoqing Li等;《Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence》;20160731;第2852-2858页 *

Also Published As

Publication number Publication date
CN108132932A (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
CN108132932B (zh) 带有复制机制的神经机器翻译方法
Tan et al. Neural machine translation: A review of methods, resources, and tools
Yin et al. Neural enquirer: Learning to query tables with natural language
CN109117483B (zh) 神经网络机器翻译模型的训练方法及装置
CN108460028B (zh) 将句子权重融入神经机器翻译的领域适应方法
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN111611810A (zh) 一种多音字读音消歧装置及方法
JP7287062B2 (ja) 翻訳方法、翻訳プログラム及び学習方法
Rathod et al. Hindi and Marathi to English machine transliteration using SVM
JP2021033995A (ja) テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体
CN111666758A (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN105955955A (zh) 一种基于纠错输出编码的无需消歧的无监督词性标注方法
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
Li et al. Improving text normalization using character-blocks based models and system combination
KR20210044056A (ko) 중복 토큰 임베딩을 이용한 자연어 처리 방법 및 장치
Du et al. Pinyin as subword unit for chinese-sourced neural machine translation
JP7103264B2 (ja) 生成装置、学習装置、生成方法及びプログラム
Si et al. Mining clues from incomplete utterance: A query-enhanced network for incomplete utterance rewriting
Dutta Word-level language identification using subword embeddings for code-mixed Bangla-English social media data
Shi et al. Neural Chinese word segmentation as sequence to sequence translation
Laitonjam et al. Transliteration of english loanwords and named-entities to manipuri: Phoneme vs grapheme representation
CN113673247A (zh) 基于深度学习的实体识别方法、装置、介质及电子设备
Sharma et al. Language identification for hindi language transliterated text in roman script using generative adversarial networks
Amin et al. Text generation and enhanced evaluation of metric for machine translation
Singvongsa et al. Lao-Thai machine translation using statistical model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant