CN111274827B - 一种基于词袋多目标学习的后缀翻译方法 - Google Patents

一种基于词袋多目标学习的后缀翻译方法 Download PDF

Info

Publication number
CN111274827B
CN111274827B CN202010063184.1A CN202010063184A CN111274827B CN 111274827 B CN111274827 B CN 111274827B CN 202010063184 A CN202010063184 A CN 202010063184A CN 111274827 B CN111274827 B CN 111274827B
Authority
CN
China
Prior art keywords
word
translation
words
target
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010063184.1A
Other languages
English (en)
Other versions
CN111274827A (zh
Inventor
张学强
董晓飞
曹峰
石霖
孙明俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing New Generation Artificial Intelligence Research Institute Co ltd
Original Assignee
Nanjing New Generation Artificial Intelligence Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing New Generation Artificial Intelligence Research Institute Co ltd filed Critical Nanjing New Generation Artificial Intelligence Research Institute Co ltd
Priority to CN202010063184.1A priority Critical patent/CN111274827B/zh
Publication of CN111274827A publication Critical patent/CN111274827A/zh
Application granted granted Critical
Publication of CN111274827B publication Critical patent/CN111274827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于词袋多目标学习的后缀翻译方法,它通过后缀方法和词袋方法的融合将预翻译或查词典得到低频词的目标译文输入到神经网络翻译模型中进行有效学习,达到同时学习低频词翻译和文本翻译的目的。本发明的翻译方法,以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标学习。本发明将后缀和词袋的两种方法的优势结合起来,以达到针对低频词进行增强学习的目的。其中,后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行有效惩罚。

Description

一种基于词袋多目标学习的后缀翻译方法
技术领域
本发明涉及机器翻译领域,特别面向神经机器翻译系统中的领域术语、专有名词和命名实体等低频词转换任务。通过将低频词目标译文置于句末作为交互翻译提示,再用词袋模型对其设定子学习目标两个增强学习阶段,从而提升低频词乃至全句的译文质量。
背景技术
目前主流的基于语料库的机器翻译方法的核心思想是从大规模语料库中学习双语转换知识,导致在语料库中频次较低甚至从未出现的领域术语、专有名词和命名实体等低频词难以得到有效翻译。除此之外,由于上述低频词对应的目标译文通常固定单一,进一步加大了统计模型对低频词的翻译困难。尤其在当前性能最优的神经机器翻译方法中词表受限、建模过程依赖向量表征,低频词翻译问题愈发受到学术界和工业界的重视。
机器翻译成为不同语言种族群体相互交流通信面临的一个重要研究课题。低频词翻译效果的优劣,直接影响到机器翻译技术和应用能否顺利走向实用化、产业化。传统的低频词处理方法主要存在两种形式:第一,以字节对编码(BPE) 为代表的子词切分方法,通过将词进一步切分为子词,以达到减少建模单元的目的。第二,将低频词转换为通配符,翻译后再用目标低频词置换通配符,形成最终完整译文。前者难以限定低频词翻译译文,不利于领域定制和优化;后者破坏了原始双语句对,导致目标译文不够通顺流畅。
纵观机器翻译的发展史,从基于规则的机器翻译到基于统计的机器翻译,再到基于深度学习的机器翻译,低频词翻译始终是一个亟待解决的问题。正如前文所述,对低频词的处理衍生出两大类别:一是以子词切分为基础,通过对大规模语料中子词的出现频率进行计数来生成粒度更小的子词单元,该类别的典型方法是字节对编码(BPE)。二是从替换角度出发,采用通配符表示句中的名词或名词短语后再进行翻译,译文后编辑过程中再用目标低频词置换特殊标识,该类别的典型方法是通配符替换翻译法。
基于子词的低频词翻译方法:该类方法以计数模型为基础,在神经机器翻译限定词表大小的前提下,选择频率较高的N个词、子词或字作为建模单元。其余词或短语采用上述建模单元进行组合表示。主要存在以下两种典型方法:
方法一:字模型建模
字模型是一种以字为建模单元的模型。在自然语言中,越是上层的单元越是具有丰富多样的表达形式,越是底层的单元则形式相对单一。如同数学中点动成线、线动成面、面动成体,自然语言中字构成词、词构成短语、短语构成句子。据统计,汉字的总数虽然超过8万,但常用的汉字大约只有3500个,且足以组合出成千上万个词或短语。因此,该方法常用于严格限制建模单元数量的机器翻译领域。在端到端神经机器翻译中,其效果整体优于以词为单位的建模方式,一度得到广泛的应用。
方法二:字节对编码
字节对编码是Gage等人于1994年提出的一种数据压缩方法,其主旨思想是递归地采用一个单一的、未使用过的字节来表示句子序列中共现频次最高的字节对。类似地,将该方法应用在中文子词切分中的做法就是将中文句子中共现频次较高的前N对汉字作为建模单元。例如,对于“机器人”一词而言,“机”和“器”通常在大规模语料库中共现的频次较高,而“机”、“器”和“人”三个字同时共现的频次可能相对较低。此时,字节对编码方法就会将“机器人”切分为子词“机器”和“人”,分别作为两个不同的建模单元。在端到端神经机器翻译中,这种字词联合建模方式的效果通常优于单一的以字或词为单元的建模方式。
基于替换的低频词翻译方法:
方法一:集内词替换
集内词替换方法的核心思想是,采用大规模语料中与低频词最相似的频率最高的集内词替换低频词。依据目前主流的神经机器翻译方法的实现原理,需要预先生成一个维度固定的词表,通常采取的方法是统计大规模语料中所有出现过的 M个词
Figure GDA0003013450040000021
的频次
Figure GDA0003013450040000022
依据词频选择降序排列的前N个词形成词表{W}N。此时把包含在词表中的词
Figure GDA0003013450040000023
称为集内词,相应的把其余的M-N个词
Figure GDA0003013450040000024
叫做集外词。集内词替换方法的一般做法是,通过计算词向量之间的矢量距离,为每一个集外词匹配一个语义最为相似的集内词。在模型训练和解码过程中,将难以处理的集外词全部转化为集内词,只在解码后将集外词的目标译文重新换回到译文中,从而达到解决低频词翻译的目的。
方法二:低频词类别替换
方法一的优势是作为替代的语义最为相似的集内词能在最大程度上保留源语言句子的含义,其缺点是在源语言句子和目标语言句子之间软对齐的注意力神经机器翻译中,难以明确替换词在译文中的位置,造成集外词目标译文换回困难。解决该问题的其中一个方法是,采用集外词的类别作为通配符对其进行替换。例如,通常采用“_$_person”作为通配符对双语句对中的人名进行替换,采用“_$_location”、“_$_organization”分别替换地名和组织机构名。最后,用人名、地名和组织机构名等低频词的目标译文置换类别符号即完成了翻译过程。该方法的优势是特殊的通配符能够原封不动的保留在目标译文中,便于最终的译文换回过程。其缺点是对低频词类别敏感,且当句中含有多个同类低频词时,容易造成译文后处理替换过程中的乱序。
方法三:UNKi替换
为缓解方法二存在的问题,UNKi替换方法被提出。该方法的替换原则是不对低频词的类型进行识别,而是统一采用通配符UNKi(i=1,2,3…)来替换句子中的低频词。该方法不仅避免了低频词类型识别错误造成的低频词和上下文不一致的问题,也解决了低频词在翻译过程中的先后位置换序的问题。
此外,还有一些联合使用子词切分和替换机制的低频词处理方法。在子词切分的基础上,进一步对频率较低的子词进行替换,从而获得更优的翻译性能。本发明正是在联合采用子词切分、UNKi替换方法的基础上,创新性的提出一种融合低频词与UNKi通配符向量表征的方法,以有效提升低频词乃至全句的翻译效果。
发明内容
针对现有技术中存在的问题,本发明目的是提出一种基于词袋多目标学习的后缀翻译方法,该方案通过预翻译或查词典得到低频词的目标译文,并以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标学习。词袋模型(Bag of words)通常忽略文本中的词序、词法和语法,仅将其看作是词的集合,并且任意两个词之间都是相互独立的。本发明创新性的将后缀 (Suffix)和词袋的两种方法的优势结合起来,以达到针对低频词进行增强学习的目的。其中,后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行惩罚。
为了实现上述发明目的,本发明采用的技术方案为:一种基于词袋多目标学习的后缀翻译方法,它通过后缀方法和词袋方法的融合将预翻译或查词典得到低频词的目标译文输入到神经网络翻译模型中进行有效学习,达到同时学习低频词翻译和文本翻译的目的。本发明的翻译方法,以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标学习。本发明将后缀和词袋的两种方法的优势结合起来,以达到针对低频词进行增强学习的目的。其中,后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行有效惩罚。
本发明还公开了一种基于词袋多目标学习的后缀翻译系统,其特征在于,它包括:
源语言文本,输入待翻译的源语言句子x=(x1,x2,x3,...,xm),输出是目标语言句子y=(y1,y2,y3,...,yn);
后缀生成模块,后缀生成模块将识别出的命名实体置于原文的句末,并采用特殊标记隔开,以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,使得将低频词输入到神经网络中;
Encoder编码模块,Encoder模块是用以计算输入源语言文本中每个词在该句上下文语境中的表征编码,给定源语言文本x=(x1,x2,x3,...,xT),首先加载预训练的或随机初始化的词向量,通过词向量查表技术得到每个词xi对应的向量表征vi,然后基于该词向量表征通过前向循环神经网络得到每个词看到历史词汇信息下的表征fi,通过反向循环神经网络得到每个词看到未来词汇信息的表征bi,最后将两者拼接起来[fi:bi]形成每个词在该句中的表征向量hi
Attention对齐模块,Attention对齐模块是用来计算第i个解码时刻所依赖的源语言句子信息表征ci;假设上一时刻RNN解码隐含状态为si-1,则ci计算方式具体描述如下:
Figure GDA0003013450040000051
Figure GDA0003013450040000052
其中,a(si-1,hj)是变量为si-1和hj一个通用函数,实现形式:
a(si-1,hj)=vTtan h(Wsi-1+Uhj)
所以,第i个解码时刻所生成的源语言句子语义信息表征是源语言每个词的加权平均,加权系数决定了每个原词在当前时刻受到的关注度;
Decoder解码模块,Decoder解码模块基于每一时刻动态生成的源语言句子的向量表征ci和解码器前一时刻的状态si-1,采用循环神经网络用来生成目标语言句子;计算方式:
si=f(xi-1,yi-1,ci)
Figure GDA0003013450040000053
其中,f(·)表示RNN实现时变换函数,P(yi=Vk)表示yi是目标语言词表中第k个词的概率,bk(si)表示根据bk(·)是和第k个目标词相关的变换函数;每个解码时刻在目标语言词表上词概率计算完成之后,通过Beam Search算法得到最终的解码序列y=(y1,y2,y3,...,yn),使得整个句子的输出概率P(y|x)最大;
在神经机器翻译中,通常采用交叉熵(Cross Entropy)作为损失函数,它是香农信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。在信息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布。在相同的一组事件中,用非真实分布q来表示某个事件发生所需要的平均比特数。将交叉熵引入计算语言学消岐领域,采用语句的真实语义作为交叉熵的训练集的先验信息,将机器翻译的语义作为测试集后验信息。计算两者的交叉熵,并以交叉熵指导对歧义的辨识和消除。交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。采用交叉熵作为损失函数的另一个优势能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。在本案中,由于增加了词袋引入关键词翻译作为模型训练和解码的目标,因此损失函数可一分为二,分别是原始的文本损失模块、关键词损失模块两部分:
文本损失模块,文本损失模块的损失计算公式如下:
CrossEntropy_Losssentence=-∑yi·logyi;
关键词损失模块,关键词损失模块的损失函数,即:
Figure GDA0003013450040000061
即对后缀生成模块中的所有关键词,计算额外损失。
有益效果:
(1)本发明充分考虑到命名实体等低频词在双语语料库中出现频次低得不到充分训练的问题,通过后缀结合词袋的方式,针对低频词的翻译设计子目标学习。
(2)紧扣词袋,在针对低频词的翻译问题上,不考虑词频、词序和短语或句子。也就是说,将学习目标一分为二:在原有的文本级的翻译中考虑词序、短语和句子的翻译准确度和流利度;在增加的词语级的翻译中只考虑命名实体等低频词自身的翻译。
(3)后缀方法,简单明了的将识别出的命名实体置于原文的句末,其优势是既保持了原句的流畅度和完整度,也简单自然的将低频词输入到神经网络中。本发明不仅可以通过后缀的形式引入源语言句子的低频词,还能以同样的方式引入目标语言的低频词,甚至同时引入双语低频词作为计算目标函数的依据。
(4)在数据处理方面,本发明直接将文本中的低频词或实体以后缀的形式追加在原文句末,采用特殊标记隔开。能够在模型训练之前统一处理数据,有效提升模型的训练效率。
(5)以多任务学习的方式,动态调整句子级翻译和词语级翻译的权重,从而保证译文整体上的准确性和通顺性,在部分上重视实体词、低频词的翻译正确性。
(6)词袋和后缀方法的结合,能较好的将模型训练过程中想要增强学习的部分体现出来。例如在翻译需求过程中更关注人名、地名的翻译准确率,则将其权重增大。同样地,如果更为重视翻译模型对句子整体翻译的流利度,则适当的减小词袋中低频词的目标函数权重。
附图说明
图1为本发明实施例基于RNN和Attention的翻译方法示意图。
图2为本发明实施例的基于词袋多目标学习后缀翻译方法流程图。
图3为本发明实施例的基于词袋多目标学习后缀翻译系统框架图。
具体实施方式
以下结合附图和具体实施例第本发明作进一步详细说明。
名词解释:
BPE:Byte Pair Encoder、字节对编码;
UNKi:Unknown-i、第i个未登录词;
RNN:Recurrent Neural Network、递归神经网络;
CNN:Convolutional Neural Networks、卷积神经网络;
GRU:Gated Recurrent Unit、门控递归单元;
LSTM:LongShort-TermMemory、长短时记忆;
Encoder:Encoder、编码器、通过某种神经网络(如递归神经网络)将文本、语音或图像表示为向量;
Attention:Attention、注意力、为目标端和源端建立对应关系,即目标端的每个词和源端中所有词之间相互关联的权重;
Decoder:Decoder、解码器、通过向量或矩阵运算,以最大的概率进行逐词生成。
在自然语言中,人名、地名、组织机构名等命名实体通常在句中充当着主语或宾语的成分,对语义理解至关重要。由于实体词范围巨大,绝大部分的实体词在平行语料库中的出现频率极低,易出现长尾问题。因此在机器翻译系统中最容易导致翻译质量不佳的问题也是句子中的实体词翻译错误的情况。
为此,本实施例针对翻译模型训练过程中低频词因频率低难以得到必要的权重和充分的训练的问题,在基于深度神经网络的通用翻译模型基础上对命名实体等低频词进行多目标学习。上述功能需要两大模块支持:
(1)命名实体识别模块,以后缀的形式将低频词输入到神经网络中,并可拆分原句和低频词;
(2)多目标学习模块,通过词袋以不考虑词序的形式对低频词额外计算损失,与原有系统中的交叉熵目标函数一同进行多目标学习。
由于低频词词袋的引入产生了新的学习目标,因此神经网络翻译模型能够在训练过程中更为充分的考虑到低频词的翻译准确性。
本实施例借助于神经网络翻译系统实现基于词袋多目标学习的后缀翻译方法,现以基于循环神经网络(RNN)和注意力机制(Attention)的翻译系统为例阐述神经机器翻译系统的流程,然后以该框架为例阐述如何对低频词以词袋的形式进行多目标学习。需要说明的是本发明亦可扩展到其它神经网络翻译系统,例如基于卷积神经网络(CNN)的翻译系统,以及完全基于注意力机制的翻译系统等。
图1为本实施例基于RNN和Attention的翻译方法示意图。
如图1所示,是基于RNN和Attention的神经网络翻译模型示意图,输入待翻译的源语言句子x=(x1,x2,x3,...,xm),输出是目标语言句子 y=(y1,y2,y3,...,yn),其中源语言和目标语言句子的长度分别是m和n。系统的整体翻译框架分为三个模块,分别是基于双向RNN的Encoder模块、Attention 模块和基于RNN的Decoder模块,每部分具体流程描述如下:
Encoder模块流程:
Encoder模块是用以计算输入源语言句子中每个词在该句上下文语境中的表征编码。给定源语言句子x=(x1,x2,x3,...,xT),首先加载预训练的或随机初始化的词向量,通过词向量查表技术得到每个词xi对应的向量表征vi,然后基于该词向量表征通过前向循环神经网络得到每个词看到历史词汇信息下的表征fi,通过反向循环神经网络得到每个词看到未来词汇信息的表征bi,最后将两者拼接起来[fi:bi]形成每个词在该句中的表征向量hi。这里循环神经网络既可以是普通的 RNN和可以是其改进结构GRU或者LSTM。对于每个词而言由于其表征向量的计算既利用了前向历史信息也利用了反向未来信息,因此能够较好地对该词在给定句子语境的信息表示。
Attention模块流程:
Attention模块是用来计算第i个解码时刻所依赖的源语言句子信息表征ci。假设上一时刻RNN解码隐含状态为si-1,则ci计算方式具体描述如下:
Figure GDA0003013450040000091
Figure GDA0003013450040000092
其中,a(si-1,hj)是变量为si-1和hj一个通用函数,可以有多种实现方式,一种简单且经典的实现形式如下:
a(si-1,hj)=vTtan h(Wsi-1+Uhj)
所以,第i个解码时刻所生成的源语言句子语义信息表征是源语言每个词的加权平均,加权系数决定了每个原词在当前时刻受到的关注度。
Decoder模块流程:
Decoder模块基于每一时刻动态生成的源语言句子的向量表征ci和解码器前一时刻的状态si-1,采用循环神经网络用来生成目标语言句子。具体计算方式如下:
si=f(xi-1,yi-1,ci)
Figure GDA0003013450040000093
其中,f(·)表示RNN实现时变换函数,RNN可以是普通结构,也可以是加入门控机制的GRU或者LSTM结构。P(yi=Vk)表示yi是目标语言词表中第k 个词的概率,bk(si)表示根据bk(·)是和第k个目标词相关的变换函数。每个解码时刻在目标语言词表上词概率计算完成之后,就可以通过Beam Search算法得到最终的解码序列y=(y1,y2,y3,...,yn),使得整个句子的输出概率P(y|x)最大。
本实施例的一种基于词袋多目标学习的后缀翻译方法,能够以两种模型融合的方式将预翻译或查词典得到低频词的目标译文输入到神经网络翻译模型中进行有效学习。本发明关键创新点在于后缀方法和词袋方法的融合,以达到同时学习低频词翻译和文本翻译的目的,可分为以下三点进行阐述:
·后缀方法
后缀(Suffix)方法同时应用于模型的训练和测试过程中,通过将低频词的目标译文追加在源语言句子的末尾,并采用特殊标识符将其隔开,从而通过模型训练,学会有效利用后缀信息,并在解码得到的目标译文中生成后缀提示词。
原句:A组合将于5月18日在北京鸟巢体育馆举办演唱会。
Figure GDA0003013450040000101
具体来说,后缀方法在训练过程中的具体体现形式:
第一步,模型从训练数据集中读取双语平行句对,如果是中英翻译,则可理解为一个中文句子对应一个英文句子;
第二步,通过查询外部词典、知识库、短语表和术语表,从源语言句子中匹配命名实体、专业术语、低频词、集外词等难以翻译的词语形成后缀,追加在源语言句子后面,用特殊符号“#”隔开;
第三步,在训练过程中,对后缀进行拆解,得到一个个需要着重计算损失的词语。神经网络各部分及损失的计算公式描述如下:
CrossEntropy_Losssentence=-∑yi·logyi。
Attention模块流程:Attention模块是用来计算第i个解码时刻所依赖的源语言句子信息表征ci。假设上一时刻RNN解码隐含状态为si-1,则ci计算方式具体描述如下:
Figure GDA0003013450040000102
Figure GDA0003013450040000103
其中,a(si-1,hj)是变量为si-1和hj一个通用函数,可以有多种实现方式,一种简单且经典的实现形式如下:
a(si-1,hj)=vTtan h(Wsi-1+Uhj)
所以,第i个解码时刻所生成的源语言句子语义信息表征是源语言每个词的加权平均,加权系数决定了每个原词在当前时刻受到的关注度。
Decoder模块流程:Decoder模块基于每一时刻动态生成的源语言句子的向量表征ci和解码器前一时刻的状态si-1,采用循环神经网络用来生成目标语言句子。具体计算方式如下:
si=f(xi-1,yi-1,ci)
Figure GDA0003013450040000111
其中,f(·)表示RNN实现时变换函数,RNN可以是普通结构,也可以是加入门控机制的GRU或者LSTM结构。P(yi=Vk)表示yi是目标语言词表中第k 个词的概率,bk(si)表示根据bk(·)是和第k个目标词相关的变换函数。每个解码时刻在目标语言词表上词概率计算完成之后,就可以通过Beam Search算法得到最终的解码序列y=(y1,y2,y3,...,yn),使得整个句子的输出概率P(y|x)最大。此时,采用交叉熵(CrossEntropy)作为损失的计算形式,则源语言句子的损失计算公式如下:
CrossEntropy_Losssentence=-∑yi·logyi
除对源语言句子计算损失函数,后缀方法是在此基础上,追加后缀的损失函数,即:
Figure GDA0003013450040000112
上述公式的含义是,对后缀中的所有词,计算额外损失。此时,训练过程中综合损失函数可表示为:
CrossEntropy_Lossall
=CrossEntropy_Losssentence+CrossEntropy_Losswords
=-∑yi·logyi-∑yi·logyi(ifxi inSuffix)
·词袋方法
词袋(Bag of words)方法只应用于模型的训练过程中,通过将低频词的目标译文置于词袋中,以忽略单个或多个低频词译文之间的词序和频次。在词袋与目标译文标签中建立损失函数,以实现低频词翻译的子任务学习,从而强调了低频词在模型训练过程中得到着重学习。
原句:A组合将于北京鸟巢体育馆举办演唱会,并发表A 组合 同名专辑。
词袋:A组合、北京、鸟巢体育馆(不考虑三者的顺序)
在本案中引入词袋方法的关键目的是,翻译过程中,源语言和目标语言(可简单理解为中英翻译)的语序可能并不完全一致,甚至在不同语系中会呈现出语序完全相反的情况,例如中文的表述为主谓宾,而英语则倾向于主谓宾倒置的被动语态的表述形式。将后缀中的词语加入到词袋模型中,能保证在翻译过程中,既对特定词进行了权重上的倾斜,也排除了翻译带来的语序变化。
·融合后缀与词袋方法
第三,对两个模型进行有效融合。通过预翻译或查词典得到低频词的目标译文,并以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标增强学习。词袋模型通常忽略文本中的词序、词法和语法,仅将其看作是词的集合,并且任意两个词之间都是相互独立的。本发明创新性的将后缀和词袋的两种方法的优势结合起来,以达到针对低频词进行增强学习的目的。其中,后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行惩罚。
尽管本发明的具体实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言,可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (6)

1.一种基于词袋多目标学习的后缀翻译方法,其特征在于:它通过后缀方法和词袋方法的融合将预翻译或查词典得到低频词的目标译文输入到神经网络翻译模型中进行有效学习,达到同时学习低频词翻译和文本翻译;
所述后缀方法同时应用于模型的训练和测试过程中,通过将低频词的目标译文追加在源语言句子的末尾,并采用特殊标识符将其隔开,从而通过模型训练,学会有效利用后缀信息,并在解码得到的目标译文中生成后缀提示词;
所述后缀方法具体步骤为:
第一步,模型从训练数据集中读取双语平行句对,如果是中英翻译,则可理解为一个中文句子对应一个英文句子;
第二步,通过查询外部词典、知识库、短语表和术语表,从源语言句子中匹配命名实体、专业术语、低频词和集外词形成后缀,追加在源语言句子后面,用特殊符号“#”隔开;
第三步,在训练过程中,对后缀进行拆解,得到一个个需要着重计算损失的词语;
所述第三步中,具体包括:
Encoder编码步骤:Encoder模块用以计算输入源语言文本中每个词在句中上下文语境中的表征编码,给定源语言文本x=(x1,x2,x3,...,xT),首先加载预训练的或随机初始化的每个词xi对应的向量表征vi,然后基于词向量表征通过前向循环神经网络(ForwardRecurrent Neural Network,FRNN)得到每个词看到历史词汇信息下的表征fi,通过反向循环神经网络(Backward Recurrent Neural Network,BRNN)得到每个词看到未来词汇信息的表征bi,最后将两者拼接起来[fi:bi]形成每个词在句中的表征向量hi,编码过程计算方式如下:
fi=FRNN(xi,fi-1)
bi=BRNN(xi,bi+1)
hi=Concat(fi,bi)
Attention关联步骤:Attention模块用来计算第i个解码时刻所依赖的源语言句子信息表征ci;假设上一时刻RNN解码隐含状态为si-1,则ci具体计算方式:
Figure FDA0003002951180000021
Figure FDA0003002951180000022
其中,s(si-1,hj)是变量为si-1和hj一个通用函数:
s(si-1,hj)=vTtanh(Wsi-1+Uhj)
所以,第i个解码时刻所生成的源语言句子语义信息表征是源语言每个词的加权平均,加权系数决定了每个原词在当前时刻受到的关注度;
Decoder解码步骤:Decoder模块基于每一时刻动态生成的源语言句子的向量表征ci和解码器前一时刻的状态si-1,采用循环神经网络用来生成目标语言句子;具体计算方式:
si=f(xi-1,yi-l,ci)
Figure FDA0003002951180000023
其中,f(·)表示RNN实现时变换函数,RNN是普通结构,或者是加入门控机制的GRU或者LSTM结构;P(yi=Vk)表示yi是目标语言词表中第k个词的概率;bk(si)表示和第k个目标词相关的变换函数;每个解码时刻在目标语言词表上词概率计算完成之后,就通过Beam Search算法得到最终的解码序列y=(y1,y2,y3,...,yn),使得整个句子的输出概率P(y|x)最大;此时,采用交叉熵(CrossEntropy)作为损失的计算形式,则源语言句子的损失计算公式:
CrossEntropy_Losssentence=-∑yi·logyi
除对源语言句子计算损失函数,后缀方法是在此基础上,追加后缀的损失函数,即:
Figure FDA0003002951180000024
2.根据权利要求1所述的基于词袋多目标学习的后缀翻译方法,其特征在于,所述词袋方法具体为:
词袋方法只应用于模型的训练过程中,通过将低频词的目标译文置于词袋中,以忽略单个或多个低频词译文之间的词序和频次;在词袋与目标译文标签中建立损失函数,以实现低频词翻译的子任务学习,从而强调了低频词在模型训练过程中得到着重学习。
3.根据权利要求2所述的基于词袋多目标学习的后缀翻译方法,其特征在于:所述词袋方法,翻译过程中,源语言和目标语言的语序可能并不完全一致,甚至在不同语系中会呈现出语序完全相反的情况,将后缀中的词语加入到词袋模型中,能保证在翻译过程中,既对特定词进行了权重上的倾斜,也排除了翻译带来的语序变化。
4.根据权利要求1至3之一所述的基于词袋多目标学习的后缀翻译方法,其特征在于:
通过预翻译或查词典得到低频词的目标译文,并以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标增强学习;词袋模型通常忽略文本中的词序、词法和语法,仅将其看作是词的集合,并且任意两个词之间都是相互独立的;后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行惩罚。
5.一种基于词袋多目标学习的后缀翻译系统,其特征在于,它包括:
源语言文本,输入待翻译的源语言句子x=(x1,x2,x3,...,xm),输出是目标语言句子y=(y1,y2,y3,...,yn);
后缀生成模块,后缀生成模块将识别出的命名实体或低频词置于原文的句末,并采用特殊标记隔开,以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,使得将低频词译文输入到神经网络中;
Encoder编码模块,Encoder模块用以计算输入源语言文本中每个词在句中上下文语境中的表征编码,给定源语言文本x=(x1,x2,x3,...,xT),首先加载预训练的或随机初始化的每个词xi对应的向量表征vi,然后基于词向量表征通过前向循环神经网络(ForwardRecurrent Neural Network,FRNN)得到每个词看到历史词汇信息下的表征fi,通过反向循环神经网络(Backward Recurrent Neural Network,BRNN)得到每个词看到未来词汇信息的表征bi,最后将两者拼接起来[fi:bi]形成每个词在句中的表征向量hi,编码过程计算方式如下:
fi=FRNN(xi,fi-1)
bi=BRNN(xi,bi+1)
hi=Concat(fi,bi)
Attention对齐模块,Attention对齐模块是用来计算第i个解码时刻所依赖的源语言句子信息表征ci;假设上一时刻RNN解码隐含状态为si-1,则ci计算方式具体描述如下:
Figure FDA0003002951180000041
Figure FDA0003002951180000042
其中,a(si-1,hj)是变量为si-1和hj一个通用函数,实现形式:
a(si-1,hj)=vTtanh(Wsi-1+Uhj)
所以,第i个解码时刻所生成的源语言句子语义信息表征是源语言每个词的加权平均,加权系数决定了每个原词在当前时刻受到的关注度;
Decoder解码模块,Decoder解码模块基于每一时刻动态生成的源语言句子的向量表征ci和解码器前一时刻的状态si-1,采用循环神经网络用来生成目标语言句子;计算方式:
si=f(xi-1,yi-1,ci)
Figure FDA0003002951180000043
其中,f(·)表示RNN实现时变换函数,P(yi=Vk)表示yi是目标语言词表中第k个词的概率;bk(si)表示和第k个目标词相关的变换函数;每个解码时刻在目标语言词表上词概率计算完成之后,通过Beam Search算法得到最终的解码序列y=(y1,y2,y3,...,yn),使得整个句子的输出概率P(y|x)最大;
文本损失模块,文本损失模块的损失计算公式如下:
CrossEntropy_Losssentence=-∑yi·logyi;
关键词损失模块,关键词损失模块的损失函数,即:
Figure FDA0003002951180000051
即对后缀生成模块中的所有关键词,计算额外损失。
6.根据权利要求5所述的基于词袋多目标学习的后缀翻译系统,其特征在于:在所述文本损失模块和关键词损失模块中采用交叉熵作为损失函数,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布;在相同的一组事件中,用非真实分布q来表示某个事件发生所需要的平均比特数,采用语句的真实语义作为交叉熵的训练集的先验信息,将机器翻译的语义作为测试集后验信息,计算两者的交叉熵,并以交叉熵指导对歧义的辨识和消除。
CN202010063184.1A 2020-01-20 2020-01-20 一种基于词袋多目标学习的后缀翻译方法 Active CN111274827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010063184.1A CN111274827B (zh) 2020-01-20 2020-01-20 一种基于词袋多目标学习的后缀翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010063184.1A CN111274827B (zh) 2020-01-20 2020-01-20 一种基于词袋多目标学习的后缀翻译方法

Publications (2)

Publication Number Publication Date
CN111274827A CN111274827A (zh) 2020-06-12
CN111274827B true CN111274827B (zh) 2021-05-28

Family

ID=71003330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010063184.1A Active CN111274827B (zh) 2020-01-20 2020-01-20 一种基于词袋多目标学习的后缀翻译方法

Country Status (1)

Country Link
CN (1) CN111274827B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686058B (zh) * 2020-12-24 2021-10-29 中国人民解放军战略支援部队信息工程大学 Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备
CN115130483B (zh) * 2022-07-13 2023-07-18 湘潭大学 一种基于多目标群体智能算法的神经架构搜索方法及用途

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763510A (zh) * 2018-05-30 2018-11-06 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109063159A (zh) * 2018-08-13 2018-12-21 桂林电子科技大学 一种基于神经网络的实体关系抽取方法
CN109190131A (zh) * 2018-09-18 2019-01-11 北京工业大学 一种基于神经机器翻译的英语单词及其大小写联合预测方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090022319A1 (en) * 2007-07-19 2009-01-22 Mark Shahaf Method and apparatus for securing data and communication
US9075796B2 (en) * 2012-05-24 2015-07-07 International Business Machines Corporation Text mining for large medical text datasets and corresponding medical text classification using informative feature selection
US10685287B2 (en) * 2013-03-15 2020-06-16 Samsung Electronics Co., Ltd. Computing with iterative knowledge management mechanism and method of operation thereof
CN104199813B (zh) * 2014-09-24 2017-05-24 哈尔滨工业大学 基于伪反馈的个性化机器翻译系统及方法
CN104598588B (zh) * 2015-01-19 2017-08-11 河海大学 基于双聚类的微博用户标签自动生成算法
CN106484681B (zh) * 2015-08-25 2019-07-09 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN108228670A (zh) * 2016-12-22 2018-06-29 航天信息股份有限公司 一种基于轨迹相似度的目标对象关系识别方法和系统
CN106919646B (zh) * 2017-01-18 2020-06-09 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN107357789B (zh) * 2017-07-14 2020-10-02 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN108415906B (zh) * 2018-03-28 2021-08-17 中译语通科技股份有限公司 基于领域自动识别篇章机器翻译方法、机器翻译系统
US10223616B1 (en) * 2018-06-30 2019-03-05 Figleaf Limited System and method identification and classification of internet advertising
CN108920472B (zh) * 2018-07-04 2020-01-10 哈尔滨工业大学 一种基于深度学习的机器翻译系统的融合系统及方法
CN108920466A (zh) * 2018-07-27 2018-11-30 杭州电子科技大学 一种基于word2vec和TextRank的科技文本关键词提取方法
CN109543012A (zh) * 2018-10-25 2019-03-29 苏宁易购集团股份有限公司 一种基于Word2Vec和RNN的用户意图识别方法及装置
CN109446537B (zh) * 2018-11-05 2022-11-25 安庆师范大学 一种针对机器翻译的译文评估方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763510A (zh) * 2018-05-30 2018-11-06 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109063159A (zh) * 2018-08-13 2018-12-21 桂林电子科技大学 一种基于神经网络的实体关系抽取方法
CN109190131A (zh) * 2018-09-18 2019-01-11 北京工业大学 一种基于神经机器翻译的英语单词及其大小写联合预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Cross-lingual document retrieval using regularized Wasserstein distance;Balikas, Georgios 等;《European Conference on Information Retrieval》;20180331;398-410 *
Learning Word Importance with the Neural Bag-of-Words Model;Sheikh Imran 等;《Proceedings of the 1st Workshop on Representation Learning for NLP》;20160811;222-229 *
SAM: Semantic Attribute Modulated Language Modeling;Hu Wenbo 等;《arXiv》;20170718;1-14 *
基于古文学的命名实体识别的研究与实现;谢韬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181115(第11期);I138-577 *
基于深度神经网络的统计机器翻译模型研究;李婧萱;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第02期);I138-4678 *

Also Published As

Publication number Publication date
CN111274827A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN109635124B (zh) 一种结合背景知识的远程监督关系抽取方法
Gulcehre et al. On using monolingual corpora in neural machine translation
Wang et al. Decoding algorithm in statistical machine translation
CN112149406A (zh) 一种中文文本纠错方法及系统
CN110378409A (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
JP2814634B2 (ja) 機械翻訳装置
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN111274827B (zh) 一种基于词袋多目标学习的后缀翻译方法
CN112101010A (zh) 一种基于bert的电信行业oa办公自动化文稿审核的方法
CN111144410A (zh) 一种跨模态的图像语义提取方法、系统、设备及介质
CN111428518B (zh) 一种低频词翻译方法及装置
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN111274826B (zh) 一种基于语义信息融合的低频词翻译方法
Roy et al. Unsupervised context-sensitive bangla spelling correction with character n-gram
CN114757184A (zh) 实现航空领域知识问答的方法和系统
CN114742069A (zh) 一种代码相似度检测方法及装置
Göker et al. Neural text normalization for turkish social media
Long The construction of machine translation model and its application in English grammar error detection
CN111382583A (zh) 一种混合多种策略的汉语-维吾尔人名翻译系统
Chaudhary et al. The ariel-cmu systems for lorehlt18
Yang et al. Incorporating sememes into chinese definition modeling
CN116306594A (zh) 一种医学ocr识别纠错方法
CN115659172A (zh) 基于关键信息掩码与拷贝的生成式文本摘要方法
CN114996546A (zh) 一种基于Bert语言模型的中文写作短语推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant