CN106844352B - 基于神经机器翻译系统的单词预测方法及系统 - Google Patents

基于神经机器翻译系统的单词预测方法及系统 Download PDF

Info

Publication number
CN106844352B
CN106844352B CN201611209226.8A CN201611209226A CN106844352B CN 106844352 B CN106844352 B CN 106844352B CN 201611209226 A CN201611209226 A CN 201611209226A CN 106844352 B CN106844352 B CN 106844352B
Authority
CN
China
Prior art keywords
phrase
translation
word
target word
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611209226.8A
Other languages
English (en)
Other versions
CN106844352A (zh
Inventor
张家俊
赵阳
王亦宁
宗成庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201611209226.8A priority Critical patent/CN106844352B/zh
Publication of CN106844352A publication Critical patent/CN106844352A/zh
Application granted granted Critical
Publication of CN106844352B publication Critical patent/CN106844352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于神经机器翻译系统的单词预测方法及系统,所述单词预测方法包括:对平行语料进行训练,从训练结果中抽取,获得短语翻译表;对任意平行句对中的源语言句子进行匹配搜索,确定源语言句子中包含的全部源语言短语;从短语翻译表中查找各源语言短语分别对应的目标短语翻译候选集;根据目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定目标单词集中各目标单词的鼓励值;根据各目标单词的鼓励值,获得各目标单词的预测概率。通过引入短语翻译表获得目标单词的鼓励值,并添加到神经翻译模型中,从而可提高目标单词的预测概率。

Description

基于神经机器翻译系统的单词预测方法及系统
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种基于神经机器翻译系统的单词预测方法及系统。
背景技术
机器翻译就是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。
神经机器翻译是近些年来出现的最新的机器翻译方法,在翻译质量上,较原有的统计机器翻译方法有了一个显著的提升。相比于之前的统计机器翻译方法,神经机器翻译所需的工程设计更少,翻译效果也更好。当其首次被提出时,便在中等规模的公共基准数据集上就达到了可与统计方法媲美的准确度。自那以后,研究者已经提出了很多改进神经机器翻译的技术,如今在翻译质量上已经大大超越了统计方法,包括Google翻译和百度翻译在内的诸多业内公司都在近期将自己的翻译系统从基于统计的方法更新为基于神经网络的方法,并广受好评。
然而,机器翻译还远未得到完全解决。神经机器翻译虽然表现卓著,但仍然会做出一些人类翻译者永远不出做出的重大错误,例如:漏词、重复翻译、错误翻译、将句子单独进行翻译而不考虑其段落的上下文等等;而统计机器翻译在上述很多方面的表现是要优于神经机器翻译的,例如在忠实度和可解释性等方面。事实上,目前已经有研究人员注意到这方面的问题,并利用统计方法的信息和特征去对神经网络方法进行改进,但这些方法在利用统计方法的信息的广度和深度上仍然不够充分。
例如目前这类方法利用最多的仍然是单词的翻译表,因为神经网络方法在生成句子时,是以单词作为最小的生成单位,利用单词翻译概率的翻译概率相对比较容易,但是单词的翻译表进行神经机器翻译并不能确保每个词组、短语均被准确翻译,使得通过神经翻译模型得到的单词预测概率相对较差,忠实度和可解释性不高。
因此,如何充分利用统计机器翻译中蕴含的这些思想和信息去解决神经翻译模型得到的单词预测概率相对较差的问题是一个非常值得研究的课题。
发明内容
为了解决现有技术中的上述问题,即为了解决神经翻译模型得到的单词预测概率相对较差的问题,本发明提供了一种基于神经机器翻译系统的单词预测方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种基于神经机器翻译系统的单词预测方法,所述单词预测方法包括:
利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;
基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语;
基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集;
根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;
根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值;
根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。
可选的,所述短语翻译表包括多个参考源语言短语、各所述参考源语言短语对应的多个参考目标语言短语,及同一个所述参考源语言短语对应的各所述参考目标语言短语的翻译概率;
所述目标短语翻译候选集包括所述源语言短语对应的多个目标语言短语,及各所述目标语言短语的翻译概率。
可选的,所述获得需要鼓励的目标单词集的方法包括:
步骤S41:从所述目标短语翻译候选集中的所有目标语言短语中,确定一个目标短语前缀;
步骤S42:从所述神经机器翻译系统翻译所得的部分译文中,确定一个译文后缀;
步骤S43:判断所述目标短语前缀与所述译文后缀是否匹配,如果匹配则执行步骤S44,否则执行步骤S45;
步骤S44:选择一个目标短语翻译候选集中各所述目标语言短语中所述目标短语前缀的下一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集;
步骤S45:选择一个目标短语翻译候选集中各所述目标语言短语中的第一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集。
可选的,所述确定所述目标单词集中各所述目标单词的鼓励值的方法包括:
步骤S51:基于各所述目标单词,从所述目标短语翻译候选集中抽取所述目标单词所在的各目标语言短语的翻译概率,以及各目标语言短语对应的当前源语言短语;
步骤S52:基于各所述目标单词及所述神经机器翻译系统所得的注意力概率确定当前源语言短语的注意力概率;
步骤S53:根据各目标语言短语的翻译概率及当前源语言短语的注意力概率确定各所述目标单词的鼓励值。
可选的,根据以下公式确定当前源语言短语的注意力概率:
其中,aij为目标单词yi和所述目标单词yi对应的源语言句子中的源端单词xj之间注意力概率,i表示目标单词yi的序号,j表示源端单词xj的序号,|fp|为当前源语言短语中所包含单词的个数,为目标单词yi和当前源语言短语fp之间注意力概率。
可选的,根据以下公式确定各所述目标单词的鼓励值:
其中,yi为目标单词,为目标单词yi和当前源语言短语fp之间注意力概率,pphrase(yi)为目标单词yi所在目标语言短语的翻译概率,Rw(yi)为目标单词yi的鼓励值。
可选的,根据以下公式获得各所述目标单词的预测概率
其中,i表示目标单词yi的序号,ci为源语言的编码向量,为神经机器翻译系统翻译所得的部分译文,为目标单词yi的词向量,为神经机器翻译系统翻译的输出向量,为神经机器翻译系统对目标单词yi的打分,bs为标准softmax层的偏置向量。
根据本发明的实施例,本发明公开了以下技术效果:
本发明基于神经机器翻译系统的单词预测方法通过引入短语翻译表,获取目标短语翻译候选集及目标单词集,进而确定目标单词的鼓励值,将所述鼓励值添加到神经翻译模型中,从而可准确获得各所述目标单词的预测概率。
为解决上述技术问题,本发明还提供了如下方案:
一种基于神经机器翻译系统的单词预测系统,所述单词预测系统包括:
抽取单元,用于利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;
搜索单元,用于基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语;
选集单元,用于基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集;
选词单元,用于根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;
计算单元,用于根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值;
预测单元,用于根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。
可选的,所述短语翻译表包括多个参考源语言短语、各所述参考源语言短语对应的多个参考目标语言短语,及同一个所述参考源语言短语对应的各所述参考目标语言短语的翻译概率;
所述目标短语翻译候选集包括所述源语言短语对应的多个目标语言短语,及各所述目标语言短语的翻译概率。
可选的,所述选词单元包括:
第一确定模块,用于从所述目标短语翻译候选集中的所有目标语言短语中,确定一个目标短语前缀;
第二确定模块,用于从所述神经机器翻译系统翻译所得的部分译文中,确定一个译文后缀;
判断模块,用于判断所述目标短语前缀与所述译文后缀是否匹配;
筛选模块,与所述判断模块连接,用于在所述判断模块的判断结果为是时,选择一个目标短语翻译候选集中各所述目标语言短语中所述目标短语前缀的下一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集;以及在所述判断模块的判断结果为否时,选择一个目标短语翻译候选集中各所述目标语言短语中的第一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集。
根据本发明的实施例,本发明公开了以下技术效果:
本发明基于神经机器翻译系统的单词预测系统通过设置抽取单元抽取短语翻译表,设置选集单元获取目标短语翻译候选集及设置选词单元获取目标单词集,进而确定目标单词的鼓励值,将所述鼓励值添加到神经翻译模型中,从而可准确获得各所述目标单词的预测概率。
附图说明
图1是本发明基于神经机器翻译系统的单词预测方法的流程图;
图2是本发明基于神经机器翻译系统的单词预测方法的一个实施例示意图;
图3是本发明基于神经机器翻译系统的单词预测系统的结构示意图;
图4是本发明基于神经机器翻译系统的单词预测系统与神经机器翻译系统的实施例对比图。
符号说明:
抽取单元—1,搜索单元—2,选集单元—3,选词单元—4,计算单元—5,预测单元—6。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
如图1所示,本发明基于神经机器翻译系统的单词预测方法包括:
步骤100:利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;
步骤200:基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语;
步骤300:基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集;
步骤400:根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;
步骤500:根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值;
步骤600:根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。
本发明基于神经机器翻译系统的单词预测方法和神经机器翻译系统、统计机器翻译系统一样,均需要一定的平行句对还进行训练,其中,平行句对为一对源语言句子和对应的目标语言句子。
下面我们通过一个具体的实例来进行说明(如图2所示):假设我们的训练语料中有这样一个平行句对,其中源语言句子S为:
“双方将签署数个经贸合作协议文件。”
对应的标准译文T:
“The two sides will sign several economic and trade cooperationagreement documents.”。
可对平行句对中的源语言句子进行自动分词,得到源语言词。
即,经过分词以后,源语言句子即可表示为:
“双方将签署数个经贸合作协议文件。”
其中,对汉语进行分词的方法有很多种。在本实施例中可以开源的分词工具对汉语进行分词。
进一步地,在步骤100中,平行训练语料通过传统的统计机器翻译进行处理,从训练结果中抽取,得到短语翻译表,这里的统计机器翻译系统可以是任何统计机器翻译系统,如著名的开源Moses,Moses拥有比较完善的文档,根据这些文档可以轻松地部署翻译服务器。
所述短语翻译表包括多个参考源语言短语、各所述参考源语言短语对应的多个参考目标语言短语,及同一个所述参考源语言短语对应的各所述参考目标语言短语的翻译概率,且所述参考源语言短语、多个参考目标语言短语及各所述参考目标语言短语的翻译概率为对齐设置。
在步骤200中,在得到短语翻译表后,可对任意平行句对中的源语言句子进行匹配搜索,找到该平行句对的源语言句子所包含的全部源语言短语。
在本实施例中,所述源语言句子S包含一个短语,即“合作协议”。
在步骤300中,得到平行句对中源语言句子所包含的全部源语言短语后,基于各所述源语言短语,通过短语翻译表的对齐关系,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集找到该源端短语所有的目标短语翻译候选集。
所述目标短语翻译候选集包括所述源语言短语对应的多个目标语言短语,及各所述目标语言短语的翻译概率。
在本实施例中,通过查询短语翻译表,假设“合作协议”可能的翻译有三个,分别为:“cooperation agreement”、“cooperation agreements”和“cooperation accords”,翻译概率分别为0.5、0.4和0.1。这三个短语及其翻译概率就构成了目标短语翻译候选集。
进一步地,在步骤400中,所述获得需要鼓励的目标单词集的方法包括:
步骤410:从所述目标短语翻译候选集中的所有目标语言短语中,确定一个目标短语前缀。
所述短语前缀是指目标语言短语中以第一个单词为开始,以非末尾单词为结束的单词序列。
在本实施例中,三个短语(“cooperation agreement”、“cooperationagreements”和“cooperation accords”)的前缀只有一个,均为“cooperation”。
步骤420:从所述神经机器翻译系统翻译所得的部分译文中,确定一个译文后缀。
所述译文后缀是指以部分译文中以任意单词为开始,以部分译文的最后一个单词为结束的单词序列。
假设神经机器翻译所得的部分翻译译文为“The two sides will”,那么该部分译文包含4个后缀,分别为“will”、“sides will”、“two sides will”以及“the two sideswill”。
步骤430:判断所述目标短语前缀与所述译文后缀是否匹配,如果匹配则执行步骤440,否则执行步骤450。
步骤440:选择一个目标短语翻译候选集中各所述目标语言短语中所述目标短语前缀的下一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集。
步骤450:选择一个目标短语翻译候选集中各所述目标语言短语中的第一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集。
在本实施例中,在部分译文为:“The two sides will sign several economicand trade cooperation”时,该部分译文包含一个译文后缀“cooperation”,而短语前缀也包含“cooperation”,此时便为匹配,否则为不匹配。
例如,在部分译文为“The two sides will sign several economic and tradecooperation”时,如果译文后缀和短语前缀能够匹配,则将短语匹配部分的下一个单词加入需要鼓励的目标单词集。在本实施例中,短语候选集中的三个短语(“cooperationagreement”、“cooperation agreements”和“cooperation accords”)的匹配部分(“cooperation”)的下一个单词(“agreement”、“agreements”和“accords”)都是需要鼓励的目标单词。从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集。
如果不匹配,则需要鼓励的目标单词为短语候选集中的三个短语(“cooperationagreement”、“cooperation agreements”和“cooperation accords”)的第一个单词(“cooperation”)。
在步骤500中,所述确定所述目标单词集中各所述目标单词的鼓励值的方法包括:
步骤510:基于各所述目标单词,从所述目标短语翻译候选集中抽取所述目标单词所在的各目标语言短语的翻译概率,以及各目标语言短语对应的当前源语言短语。
在本实施例中,从所述目标短语翻译候选集中抽取所述目标单词所在的目标语言短语有三个,分别为:“cooperation agreement”、“cooperation agreements”和“cooperation accords”,翻译概率分别为0.5、0.4和0.1。
步骤520:基于各所述目标单词及所述神经机器翻译系统所得的注意力概率确定当前源语言短语的注意力概率。
所述注意力概率是神经机器翻译用来衡量当前神经机器翻译系统正在翻译源语言的某个单词的概率。假设神经机器翻译系统正在翻译某个单词,则该单词的注意力概率就高,其他单词的注意力概率就低。可以通过对短语中所有单词的注意力概率做平均,来得到该短语的注意力值,具体根据如下公式所示:
其中,aij为目标单词yi和所述目标单词yi对应的源语言句子中的源端单词xj之间注意力概率,i表示目标单词yi的序号,j表示源端单词xj的序号,|fp|为当前源语言短语中所包含单词的个数,为目标单词yi和当前源语言短语fp之间注意力概率。
在本实施例中,假设神经机器翻译系统在预测“agreement”时,对单词“协议”的注意力概率为0.8,对单词“合作”的注意力概率为0.2,其余源语言句子中的单词的注意力概率均为0,则目标单词“agreement”对于短语“合作协议”的注意力概率为
步骤530:根据各目标语言短语的翻译概率及当前源语言短语的注意力概率确定各所述目标单词的鼓励值。
具体,根据以下公式确定各所述目标单词的鼓励值:
其中,yi为目标单词,为目标单词yi和当前源语言短语fp之间注意力概率,pphrase(yi)为目标单词yi所在目标语言短语的翻译概率,Rw(yi)为目标单词yi的鼓励值。
在本实施例中,在预测“agreement”时,需要鼓励的目标单词为三个,即“agreement”、“agreements”和“accords”。这三个单词的源语言短语“合作协议”的注意力概率均为各自目标短语的翻译概率为0.5、0.4和0.1。因此,“agreement”的鼓励值为0.5*0.5=0.25,“agreements”的鼓励值为0.5*0.4=0.2,“accords”的鼓励值为0.5*0.1=0.05。
在步骤600中,将各所述目标单词的鼓励值融合到神经翻译模型中,以获得各所述目标单词的预测概率。具体的,根据以下公式获得各所述目标单词的预测概率
其中,i表示目标单词yi的序号,ci为源语言的编码向量,为神经机器翻译系统翻译所得的部分译文,Wyi为目标单词yi的词向量,为神经机器翻译系统翻译的输出向量,为神经机器翻译系统对目标单词yi的打分,bs为标准softmax层的偏置向量。
假设标准神经机器翻译系统对“agreement”的打分为10,则加入鼓励值以后的打分为(1+0.25)*10=12.5,打分越高意味着该目标单词的预测概率就会越高。
本发明的积极效果:由于神经机器翻译系统更倾向于输出通顺但却不忠实的译文,而统计机器翻译系统则更倾向输出忠实却不通顺的译文。因此,能够有效结合这两种方法将有效提高机器翻译系统的翻译效果。本发明能够有效地将统计机器翻译方法所提取到的短语翻译表融合到标准的神经机器翻译模型中。本发明通过在每一个解码的时刻,对每个需要鼓励的单词进行适当鼓励的方式,来提高标准神经方法的翻译效果。本发明基于神经机器翻译系统的单词预测方法,相对于标准的神经网络方法,无论在机器评价还是主观评价上均有提升,其中在机器评价指标上,本发明有了2.25BLEU的提升;在主观评价的译文对源语言的忠实度上,本发明有了11.7%的提高。这充分证明了融合短语翻译表的神经机器翻译方法的有效性和优越性。
此外,本发明还提供一种基于神经机器翻译系统的单词预测系统,准确获得各所述目标单词的预测概率。如图3所示,本发明基于神经机器翻译系统的单词预测系统包括抽取单元1、搜索单元2、选集单元3,选词单元4、计算单元5及预测单元6。
其中,所述抽取单元1用于利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;
所述搜索单元2与所述抽取单元1连接,基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语。
所述选集单元3与所述搜索单元2连接,基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集。
所述选词单元4与所述选集单元3连接,根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集。
所述计算单元5分别连接所述选词单元4和所述选集单元3,根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值。
所述预测单元6与所述计算单元5连接,根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。
进一步地,所述短语翻译表包括多个参考源语言短语、各所述参考源语言短语对应的多个参考目标语言短语,及同一个所述参考源语言短语对应的各所述参考目标语言短语的翻译概率。
所述目标短语翻译候选集包括所述源语言短语对应的多个目标语言短语,及各所述目标语言短语的翻译概率。
优选地,所述选词单元4包括第一确定模块、第二确定模块、判断模块、筛选模块。
其中,所述第一确定模块从所述目标短语翻译候选集中的所有目标语言短语中,确定一个目标短语前缀;所述第二确定模块从所述神经机器翻译系统翻译所得的部分译文中,确定一个译文后缀;所述判断模块判断所述目标短语前缀与所述译文后缀是否匹配;所述筛选模块与所述判断模块连接,用于在所述判断模块的判断结果为是时,选择一个短语翻译表中各所述目标语言短语中所述目标短语前缀的下一个单词为目标单词,从同一个短语翻译表中选择的全部目标单词形成一个目标单词集;以及在所述判断模块的判断结果为否时,选择一个短语翻译表中各所述目标语言短语中的第一个单词为目标单词,从同一个短语翻译表中选择的全部目标单词形成一个目标单词集。
表1所示,本发明与标准神经机器翻译系统和统计机器翻译系统在五组测试数据(MT03、MT04、MT05、MT06以及MT08)上的表现。我们的训练数据包含六十万个平行句对。我们可以看到,本发明在机器自动给出的评价指标(BLEU)上相比于标准的神经机器翻译系统有了2.25BLEU值的提高。这充分说明了将短语翻译表融入神经机器翻译系统方法的有效性和优越性。
除此之外,表2给出了本发明与神经机器翻译系统对源语言忠实度的主观评价。同时从图4中可以看到,本发明在忠实度的主观评价上相比如标准的神经机器翻译系统也有了一定的提高。
总之,实验结果表明本发明将短语翻译表融入神经机器翻译系统能充分有效利用短语对齐信息,能大幅提高神经机器翻译系统的翻译效果。
表1
表2
本发明的方法不是针对两种特定的语言而提出的,所以本发明的方法具有普遍的适用性。本发明虽然只在汉语到英语翻译方向上进行了实验,但本发明同时也适用于其它语言对,如英语到汉语、汉语到法语翻译方向等。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于神经机器翻译系统的单词预测方法,其特征在于,所述单词预测方法包括:
利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;
基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语;
基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集;
根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;
根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值;
根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。
2.根据权利要求1所述的基于神经机器翻译系统的单词预测方法,其特征在于,所述短语翻译表包括多个参考源语言短语、各所述参考源语言短语对应的多个参考目标语言短语,及同一个所述参考源语言短语对应的各所述参考目标语言短语的翻译概率;
所述目标短语翻译候选集包括所述源语言短语对应的多个目标语言短语,及各所述目标语言短语的翻译概率。
3.根据权利要求2所述的基于神经机器翻译系统的单词预测方法,其特征在于,所述获得需要鼓励的目标单词集的方法包括:
步骤S41:从所述目标短语翻译候选集中的所有目标语言短语中,确定一个目标短语前缀;
步骤S42:从所述神经机器翻译系统翻译所得的部分译文中,确定一个译文后缀;
步骤S43:判断所述目标短语前缀与所述译文后缀是否匹配,如果匹配则执行步骤S44,否则执行步骤S45;
步骤S44:选择一个目标短语翻译候选集中各所述目标语言短语中所述目标短语前缀的下一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集;
步骤S45:选择一个目标短语翻译候选集中各所述目标语言短语中的第一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集。
4.根据权利要求2所述的基于神经机器翻译系统的单词预测方法,其特征在于,所述确定所述目标单词集中各所述目标单词的鼓励值的方法包括:
步骤S51:基于各所述目标单词,从所述目标短语翻译候选集中抽取所述目标单词所在的各目标语言短语的翻译概率,以及各目标语言短语对应的当前源语言短语;
步骤S52:基于各所述目标单词及所述神经机器翻译系统所得的注意力概率确定当前源语言短语的注意力概率;
步骤S53:根据各目标语言短语的翻译概率及当前源语言短语的注意力概率确定各所述目标单词的鼓励值。
5.根据权利要求4所述的基于神经机器翻译系统的单词预测方法,其特征在于,根据以下公式确定当前源语言短语的注意力概率:
其中,aij为目标单词yi和所述目标单词yi对应的源语言句子中的源端单词xj之间注意力概率,i表示目标单词yi的序号,j表示源端单词xj的序号,|fp|为当前源语言短语中所包含单词的个数,为目标单词yi和当前源语言短语fp之间注意力概率。
6.根据权利要求4所述的基于神经机器翻译系统的单词预测方法,其特征在于,根据以下公式确定各所述目标单词的鼓励值:
其中,yi为目标单词,为目标单词yi和当前源语言短语fp之间注意力概率,pphrase(yi)为目标单词yi所在目标语言短语的翻译概率,Rw(yi)为目标单词yi的鼓励值。
7.根据权利要求6所述的基于神经机器翻译系统的单词预测方法,其特征在于,根据以下公式获得各所述目标单词的预测概率
其中,i表示目标单词yi的序号,ci为源语言的编码向量,为神经机器翻译系统翻译所得的部分译文,为目标单词yi的词向量,为神经机器翻译系统翻译的输出向量,为神经机器翻译系统对目标单词yi的打分,bs为标准softmax层的偏置向量。
8.一种基于神经机器翻译系统的单词预测系统,其特征在于,所述单词预测系统包括:
抽取单元,用于利用统计机器翻译系统对平行语料进行训练,从训练结果中抽取,获得短语翻译表;
搜索单元,用于基于所述短语翻译表,对任意平行句对中的源语言句子进行匹配搜索,确定所述源语言句子中包含的全部源语言短语;
选集单元,用于基于各所述源语言短语,从所述短语翻译表中查找各所述源语言短语分别对应的目标短语翻译候选集;
选词单元,用于根据所述目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;
计算单元,用于根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定所述目标单词集中各所述目标单词的鼓励值;
预测单元,用于根据各所述目标单词的鼓励值,获得各所述目标单词的预测概率。
9.根据权利要求8所述的基于神经机器翻译系统的单词预测系统,其特征在于,所述短语翻译表包括多个参考源语言短语、各所述参考源语言短语对应的多个参考目标语言短语,及同一个所述参考源语言短语对应的各所述参考目标语言短语的翻译概率;
所述目标短语翻译候选集包括所述源语言短语对应的多个目标语言短语,及各所述目标语言短语的翻译概率。
10.根据权利要求9所述的基于神经机器翻译系统的单词预测系统,其特征在于,所述选词单元包括:
第一确定模块,用于从所述目标短语翻译候选集中的所有目标语言短语中,确定一个目标短语前缀;
第二确定模块,用于从所述神经机器翻译系统翻译所得的部分译文中,确定一个译文后缀;
判断模块,用于判断所述目标短语前缀与所述译文后缀是否匹配;
筛选模块,与所述判断模块连接,用于在所述判断模块的判断结果为是时,选择一个目标短语翻译候选集中各所述目标语言短语中所述目标短语前缀的下一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集;以及在所述判断模块的判断结果为否时,选择一个目标短语翻译候选集中各所述目标语言短语中的第一个单词为目标单词,从同一个目标短语翻译候选集中选择的全部目标单词形成一个目标单词集。
CN201611209226.8A 2016-12-23 2016-12-23 基于神经机器翻译系统的单词预测方法及系统 Active CN106844352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611209226.8A CN106844352B (zh) 2016-12-23 2016-12-23 基于神经机器翻译系统的单词预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611209226.8A CN106844352B (zh) 2016-12-23 2016-12-23 基于神经机器翻译系统的单词预测方法及系统

Publications (2)

Publication Number Publication Date
CN106844352A CN106844352A (zh) 2017-06-13
CN106844352B true CN106844352B (zh) 2019-11-08

Family

ID=59136606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611209226.8A Active CN106844352B (zh) 2016-12-23 2016-12-23 基于神经机器翻译系统的单词预测方法及系统

Country Status (1)

Country Link
CN (1) CN106844352B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357783B (zh) * 2017-07-04 2020-06-12 桂林电子科技大学 一种中文翻译成英文的英语译文质量分析方法
CN109388808B (zh) * 2017-08-10 2024-03-08 陈虎 一种用于建立单词翻译模型的训练数据采样方法
CN107391501A (zh) * 2017-09-11 2017-11-24 南京大学 一种基于词预测的神经机器翻译方法
CN107967262B (zh) * 2017-11-02 2018-10-30 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN108132932B (zh) * 2017-12-27 2021-07-20 苏州大学 带有复制机制的神经机器翻译方法
RU2692049C1 (ru) 2017-12-29 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система перевода исходного предложения на первом языке целевым предложением на втором языке
CN110245358B (zh) * 2018-03-09 2024-02-02 北京搜狗科技发展有限公司 一种机器翻译方法及相关装置
CN108647214B (zh) * 2018-03-29 2020-06-30 中国科学院自动化研究所 基于深层神经网络翻译模型的解码方法
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN108845994B (zh) * 2018-06-07 2020-05-01 南京大学 利用外部信息的神经机器翻译系统及翻译系统的训练方法
CN108763230B (zh) * 2018-06-07 2020-07-21 南京大学 利用外部信息的神经机器翻译方法
CN108920473B (zh) * 2018-07-04 2022-08-09 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109213851B (zh) * 2018-07-04 2021-05-25 中国科学院自动化研究所 对话系统中口语理解的跨语言迁移方法
CN109271646B (zh) * 2018-09-04 2022-07-08 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备
CN109858045B (zh) * 2019-02-01 2020-07-10 北京字节跳动网络技术有限公司 机器翻译方法和装置
CN110334362B (zh) * 2019-07-12 2023-04-07 北京百奥知信息科技有限公司 一种基于医学神经机器翻译的解决产生未翻译单词的方法
CN112380877B (zh) * 2020-11-10 2022-07-19 天津大学 一种用于篇章级英译中机器翻译测试集的构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
US8949129B2 (en) * 2006-07-07 2015-02-03 Ambient Corporation Neural translator
CN105068998A (zh) * 2015-07-29 2015-11-18 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949129B2 (en) * 2006-07-07 2015-02-03 Ambient Corporation Neural translator
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN105068998A (zh) * 2015-07-29 2015-11-18 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Investigation on Statistical Machine Translation with Neural Language Models;Yinggong Zhao et al;《NLP-NABD 2014, CCL 2014:Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data》;20141231;第175-186页 *
统计机器翻译和翻译记忆的动态融合方法研究;汪昆 等;《中文信息学报》;20150331;第29卷(第2期);第87-94页 *

Also Published As

Publication number Publication date
CN106844352A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106844352B (zh) 基于神经机器翻译系统的单词预测方法及系统
Ji et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions
CN112541343B (zh) 基于词对齐的半监督对抗学习跨语言摘要生成方法
CN106777275A (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN106777274A (zh) 一种中文旅游领域知识图谱构建方法及系统
CN104239286A (zh) 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN110609983B (zh) 一种政策文件结构化分解方法
CN112749265B (zh) 一种基于多信息源的智能问答系统
Skadiņa et al. Analysis and evaluation of comparable corpora for under-resourced areas of machine translation
CN110457715B (zh) 融入分类词典的汉越神经机器翻译集外词处理方法
CN111914550A (zh) 一种面向限定领域的知识图谱更新方法及系统
Alba et al. Multi-lingual concept extraction with linked data and human-in-the-loop
CN108021682A (zh) 开放式信息抽取背景下一种基于维基百科的实体语义化方法
Fu et al. Generating chinese named entity data from a parallel corpus
Mokhtari et al. Tagging address queries in maps search
CN106202039A (zh) 基于条件随机场的越南语组合词消歧方法
Chakrawarti et al. Machine translation model for effective translation of Hindi poetries into English
US11741318B2 (en) Open information extraction from low resource languages
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
Mall et al. Developing a system for machine translation from Hindi language to English language
Thuy et al. Leveraging foreign language labeled data for aspect-based opinion mining
CN105528341A (zh) 具有领域定制功能的术语译文挖掘系统及方法
CN115392255A (zh) 一种面向桥梁检测文本的少样本机器阅读理解方法
CN107622049A (zh) 一种供电服务专用词库生成方法
CN110472243B (zh) 一种中文拼写检查方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant