CN111274827A - 一种基于词袋多目标学习的后缀翻译方法 - Google Patents
一种基于词袋多目标学习的后缀翻译方法 Download PDFInfo
- Publication number
- CN111274827A CN111274827A CN202010063184.1A CN202010063184A CN111274827A CN 111274827 A CN111274827 A CN 111274827A CN 202010063184 A CN202010063184 A CN 202010063184A CN 111274827 A CN111274827 A CN 111274827A
- Authority
- CN
- China
- Prior art keywords
- word
- translation
- words
- target
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于词袋多目标学习的后缀翻译方法,它通过后缀方法和词袋方法的融合将预翻译或查词典得到低频词的目标译文输入到神经网络翻译模型中进行有效学习,达到同时学习低频词翻译和文本翻译的目的。本发明的翻译方法,以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标学习。本发明将后缀和词袋的两种方法的优势结合起来,以达到针对低频词进行增强学习的目的。其中,后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行有效惩罚。
Description
技术领域
本发明涉及机器翻译领域,特别面向神经机器翻译系统中的领域术语、专有 名词和命名实体等低频词转换任务。通过将低频词目标译文置于句末作为交互翻 译提示,再用词袋模型对其设定子学习目标两个增强学习阶段,从而提升低频词 乃至全句的译文质量。
背景技术
目前主流的基于语料库的机器翻译方法的核心思想是从大规模语料库中学 习双语转换知识,导致在语料库中频次较低甚至从未出现的领域术语、专有名词 和命名实体等低频词难以得到有效翻译。除此之外,由于上述低频词对应的目标 译文通常固定单一,进一步加大了统计模型对低频词的翻译困难。尤其在当前性 能最优的神经机器翻译方法中词表受限、建模过程依赖向量表征,低频词翻译问 题愈发受到学术界和工业界的重视。
随着社会的发展和进步,机器翻译成为不同语言种族群体相互交流通信面临的一个重要研究课题。低频词翻译效果的优劣,直接影响到机器翻译技术和应用能否 顺利走向实用化、产业化。传统的低频词处理方法主要存在两种形式:第一,以 字节对编码(BPE)为代表的子词切分方法,通过将词进一步切分为子词,以达 到减少建模单元的目的。第二,将低频词转换为通配符,翻译后再用目标低频词 置换通配符,形成最终完整译文。前者难以限定低频词翻译译文,不利于领域定 制和优化;后者破坏了原始双语句对,导致目标译文不够通顺流畅。
纵观机器翻译的发展史,从基于规则的机器翻译到基于统计的机器翻译,再 到基于深度学习的机器翻译,低频词翻译始终是一个亟待解决的问题。正如前文 所述,对低频词的处理衍生出两大类别:一是以子词切分为基础,通过对大规模 语料中子词的出现频率进行计数来生成粒度更小的子词单元,该类别的典型方法 是字节对编码(BPE)。二是从替换角度出发,采用通配符表示句中的名词或名 词短语后再进行翻译,译文后编辑过程中再用目标低频词置换特殊标识,该类别 的典型方法是通配符替换翻译法。
基于子词的低频词翻译方法:该类方法以计数模型为基础,在神经机器翻译 限定词表大小的前提下,选择频率较高的N个词、子词或字作为建模单元。其 余词或短语采用上述建模单元进行组合表示。主要存在以下两种典型方法:
方法一:字模型建模
字模型是一种以字为建模单元的模型。在自然语言中,越是上层的单元越是 具有丰富多样的表达形式,越是底层的单元则形式相对单一。如同数学中点动成 线、线动成面、面动成体,自然语言中字构成词、词构成短语、短语构成句子。 据统计,汉字的总数虽然超过8万,但常用的汉字大约只有3500个,且足以组 合出成千上万个词或短语。因此,该方法常用于严格限制建模单元数量的机器翻 译领域。在端到端神经机器翻译中,其效果整体优于以词为单位的建模方式,一 度得到广泛的应用。
方法二:字节对编码
字节对编码是Gage等人于1994年提出的一种数据压缩方法,其主旨思想 是递归地采用一个单一的、未使用过的字节来表示句子序列中共现频次最高的字 节对。类似地,将该方法应用在中文子词切分中的做法就是将中文句子中共现频 次较高的前N对汉字作为建模单元。例如,对于“机器人”一词而言,“机”和“器” 通常在大规模语料库中共现的频次较高,而“机”、“器”和“人”三个字同时共现的 频次可能相对较低。此时,字节对编码方法就会将“机器人”切分为子词“机器”和 “人”,分别作为两个不同的建模单元。在端到端神经机器翻译中,这种字词联合 建模方式的效果通常优于单一的以字或词为单元的建模方式。
基于替换的低频词翻译方法:
方法一:集内词替换
集内词替换方法的核心思想是,采用大规模语料中与低频词最相似的频率最 高的集内词替换低频词。依据目前主流的神经机器翻译方法的实现原理,需要预 先生成一个维度固定的词表,通常采取的方法是统计大规模语料中所有出现过的 M个词的频次依据词频选择降序排列的前N个词形成词表{W}N。 此时把包含在词表中的词称为集内词,相应的把其余的M-N个词叫 做集外词。集内词替换方法的一般做法是,通过计算词向量之间的矢量距离,为 每一个集外词匹配一个语义最为相似的集内词。在模型训练和解码过程中,将难 以处理的集外词全部转化为集内词,只在解码后将集外词的目标译文重新换回到 译文中,从而达到解决低频词翻译的目的。
方法二:低频词类别替换
方法一的优势是作为替代的语义最为相似的集内词能在最大程度上保留源 语言句子的含义,其缺点是在源语言句子和目标语言句子之间软对齐的注意力神 经机器翻译中,难以明确替换词在译文中的位置,造成集外词目标译文换回困难。 解决该问题的其中一个方法是,采用集外词的类别作为通配符对其进行替换。例 如,通常采用“_$_person”作为通配符对双语句对中的人名进行替换,采用 “_$_location”、“_$_organization”分别替换地名和组织机构名。最后,用人名、地 名和组织机构名等低频词的目标译文置换类别符号即完成了翻译过程。该方法的 优势是特殊的通配符能够原封不动的保留在目标译文中,便于最终的译文换回过 程。其缺点是对低频词类别敏感,且当句中含有多个同类低频词时,容易造成译 文后处理替换过程中的乱序。
方法三:UNKi替换
为缓解方法二存在的问题,UNKi替换方法被提出。该方法的替换原则是不 对低频词的类型进行识别,而是统一采用通配符UNKi(i=1,2,3…)来替换句子中 的低频词。该方法不仅避免了低频词类型识别错误造成的低频词和上下文不一致 的问题,也解决了低频词在翻译过程中的先后位置换序的问题。
此外,还有一些联合使用子词切分和替换机制的低频词处理方法。在子词切 分的基础上,进一步对频率较低的子词进行替换,从而获得更优的翻译性能。本 发明正是在联合采用子词切分、UNKi替换方法的基础上,创新性的提出一种融 合低频词与UNKi通配符向量表征的方法,以有效提升低频词乃至全句的翻译效 果。
发明内容
针对现有技术中存在的问题,本发明目的是提出一种基于词袋多目标学习的 后缀翻译方法,该方案通过预翻译或查词典得到低频词的目标译文,并以后缀的 形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与 此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标学 习。词袋模型(Bag ofwords)通常忽略文本中的词序、词法和语法,仅将其看 作是词的集合,并且任意两个词之间都是相互独立的。本发明创新性的将后缀 (Suffix)和词袋的两种方法的优势结合起来,以达到针对低频词进行增强学习 的目的。其中,后缀方法能够以软机制的形式将低频词目标译文作为交互提示输 入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部 分进行惩罚。
为了实现上述发明目的,本发明采用的技术方案为:一种基于词袋多目标学 习的后缀翻译方法,它通过后缀方法和词袋方法的融合将预翻译或查词典得到低 频词的目标译文输入到神经网络翻译模型中进行有效学习,达到同时学习低频词 翻译和文本翻译的目的。本发明的翻译方法,以后缀的形式将其置于句末,在给 定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于 词袋能够在允许低频词译文换序的前提下进行子目标学习。本发明将后缀和词袋 的两种方法的优势结合起来,以达到针对低频词进行增强学习的目的。其中,后 缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词 袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行有效惩罚。
本发明还公开了一种基于词袋多目标学习的后缀翻译系统,它包括:
源语言文本,输入待翻译的源语言句子x=(x1,x2,x3,…,xm),输出是目标语 言句子y=(y1,y2,y3,…,yn);
后缀生成模块,后缀生成模块将识别出的命名实体置于原文的句末,并采用 特殊标记隔开,以软机制的形式将低频词目标译文作为交互提示输入给翻译模型, 使得将低频词输入到神经网络中;
Encoder编码模块,Encoder模块是用以计算输入源语言文本中每个词在该 句上下文语境中的表征编码,给定源语言文本x=(x1,x2,x3,…,xT),首先加载预 训练的或随机初始化的词向量,通过词向量查表技术得到每个词xi对应的向量表 征vi,然后基于该词向量表征通过前向循环神经网络得到每个词看到历史词汇信 息下的表征fi,通过反向循环神经网络得到每个词看到未来词汇信息的表征bi, 最后将两者拼接起来[fi:bi]形成每个词在该句中的表征向量hi;
Attention对齐模块,Attention对齐模块是用来计算第i个解码时刻所依赖的 源语言句子信息表征ci;假设上一时刻RNN解码隐含状态为si-1,则ci计算方式 具体描述如下:
其中,a(si-1,hj)是变量为si-1和hj一个通用函数,实现形式:
a(si-1,hj)=vTtanh(Wsi-1+Uhj)
所以,第i个解码时刻所生成的源语言句子语义信息表征是源语言每个词的加权平均,加权系数决定了每个原词在当前时刻受到的关注度;
Decoder解码模块,Decoder解码模块基于每一时刻动态生成的源语言句子 的向量表征ci和解码器前一时刻的状态si-1,采用循环神经网络用来生成目标语 言句子;计算方式:
si=f(xi-1,yi-1,ci)
其中,f(·)表示RNN实现时变换函数,P(yi=Vk)表示yi是目标语言词表中第k 个词的概率,bk(si)表示根据bk(·)是和第k个目标词相关的变换函数;每个解码 时刻在目标语言词表上词概率计算完成之后,通过Beam Search算法得到最终的 解码序列y=(y1,y2,y3,…,yn),使得整个句子的输出概率P(y|x)最大;
在神经机器翻译中,通常采用交叉熵(Cross Entropy)作为损失函数,它是 香农信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。在信 息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实 分布。在相同的一组事件中,用非真实分布q来表示某个事件发生所需要的平均 比特数。将交叉熵引入计算语言学消岐领域,采用语句的真实语义作为交叉熵的 训练集的先验信息,将机器翻译的语义作为测试集后验信息。计算两者的交叉熵, 并以交叉熵指导对歧义的辨识和消除。交叉熵可在神经网络(机器学习)中作为 损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉 熵损失函数可以衡量p与q的相似性。采用交叉熵作为损失函数的另一个优势能 避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所 控制。在本发明中,由于增加了词袋引入关键词翻译作为模型训练和解码的目标, 因此损失函数可一分为二,分别是原始的文本损失模块、关键词损失模块两部分:
文本损失模块,文本损失模块的损失计算公式如下:
CrossEntropy_Losssentence=-∑yi·logyi;
关键词损失模块,关键词损失模块的损失函数,即:
即对后缀生成模块中的所有关键词,计算额外损失。
有益效果:
(1)本发明充分考虑到命名实体等低频词在双语语料库中出现频次低得不 到充分训练的问题,通过后缀结合词袋的方式,针对低频词的翻译设计子目标学 习。
(2)紧扣词袋,在针对低频词的翻译问题上,不考虑词频、词序和短语或 句子。也就是说,将学习目标一分为二:在原有的文本级的翻译中考虑词序、短 语和句子的翻译准确度和流利度;在增加的词语级的翻译中只考虑命名实体等低 频词自身的翻译。
(3)后缀方法,简单明了的将识别出的命名实体置于原文的句末,其优势 是既保持了原句的流畅度和完整度,也简单自然的将低频词输入到神经网络中。 本发明不仅可以通过后缀的形式引入源语言句子的低频词,还能以同样的方式引 入目标语言的低频词,甚至同时引入双语低频词作为计算目标函数的依据。
(4)在数据处理方面,本发明直接将文本中的低频词或实体以后缀的形式 追加在原文句末,采用特殊标记隔开。能够在模型训练之前统一处理数据,有效 提升模型的训练效率。
(5)以多任务学习的方式,动态调整句子级翻译和词语级翻译的权重,从 而保证译文整体上的准确性和通顺性,在部分上重视实体词、低频词的翻译正确 性。
(6)词袋和后缀方法的结合,能较好的将模型训练过程中想要增强学习的 部分体现出来。例如在翻译需求过程中更关注人名、地名的翻译准确率,则将其 权重增大。同样地,如果更为重视翻译模型对句子整体翻译的流利度,则适当的 减小词袋中低频词的目标函数权重。
附图说明
图1为本发明实施例基于RNN和Attention的翻译方法示意图。
图2为本发明实施例的基于词袋多目标学习后缀翻译方法流程图。
图3为本发明实施例的基于词袋多目标学习后缀翻译系统框架图。
具体实施方式
以下结合附图和具体实施例第本发明作进一步详细说明。
名词解释:
BPE:Byte Pair Encoder、字节对编码;
UNKi:Unknown-i、第i个未登录词;
RNN:Recurrent Neural Network、递归神经网络;
CNN:Convolutional Neural Networks、卷积神经网络;
GRU:Gated Recurrent Unit、门控递归单元;
LSTM:LongShort-TermMemory、长短时记忆;
Encoder:Encoder、编码器、通过某种神经网络(如递归神经网络)将文本、 语音或图像表示为向量;
Attention:Attention、注意力、为目标端和源端建立对应关系,即目标端的 每个词和源端中所有词之间相互关联的权重;
Decoder:Decoder、解码器、通过向量或矩阵运算,以最大的概率进行逐词 生成。
在自然语言中,人名、地名、组织机构名等命名实体通常在句中充当着主语 或宾语的成分,对语义理解至关重要。由于实体词范围巨大,绝大部分的实体词 在平行语料库中的出现频率极低,易出现长尾问题。因此在机器翻译系统中最容 易导致翻译质量不佳的问题也是句子中的实体词翻译错误的情况。
为此,本实施例针对翻译模型训练过程中低频词因频率低难以得到必要的权 重和充分的训练的问题,在基于深度神经网络的通用翻译模型基础上对命名实体 等低频词进行多目标学习。上述功能需要两大模块支持:
(1)命名实体识别模块,以后缀的形式将低频词输入到神经网络中,并可 拆分原句和低频词;
(2)多目标学习模块,通过词袋以不考虑词序的形式对低频词额外计算损 失,与原有系统中的交叉熵目标函数一同进行多目标学习。
由于低频词词袋的引入产生了新的学习目标,因此神经网络翻译模型能够在 训练过程中更为充分的考虑到低频词的翻译准确性。
本实施例借助于神经网络翻译系统实现基于词袋多目标学习的后缀翻译方 法,现以基于循环神经网络(RNN)和注意力机制(Attention)的翻译系统为例 阐述神经机器翻译系统的流程,然后以该框架为例阐述如何对低频词以词袋的形 式进行多目标学习。需要说明的是本发明亦可扩展到其它神经网络翻译系统,例 如基于卷积神经网络(CNN)的翻译系统,以及完全基于注意力机制的翻译系 统等。
图1为本实施例基于RNN和Attention的翻译方法示意图。
如图1所示,是基于RNN和Attention的神经网络翻译模型示意图,输入待 翻译的源语言句子x=(x1,x2,x3,…,xm),输出是目标语言句子y= (y1,y2,y3,…,yn),其中源语言和目标语言句子的长度分别是m和n。系统的整体 翻译框架分为三个模块,分别是基于双向RNN的Encoder模块、Attention模块 和基于RNN的Decoder模块,每部分具体流程描述如下:
Encoder模块流程:
Encoder模块是用以计算输入源语言句子中每个词在该句上下文语境中的表 征编码。给定源语言句子x=(x1,x2,x3,…,xT),首先加载预训练的或随机初始化 的词向量,通过词向量查表技术得到每个词xi对应的向量表征vi,然后基于该词 向量表征通过前向循环神经网络得到每个词看到历史词汇信息下的表征fi,通过 反向循环神经网络得到每个词看到未来词汇信息的表征bi,最后将两者拼接起来 [fi:bi]形成每个词在该句中的表征向量hi。这里循环神经网络既可以是普通的 RNN和可以是其改进结构GRU或者LSTM。对于每个词而言由于其表征向量的 计算既利用了前向历史信息也利用了反向未来信息,因此能够较好地对该词在给 定句子语境的信息表示。
Attention模块流程:
Attention模块是用来计算第i个解码时刻所依赖的源语言句子信息表征ci。 假设上一时刻RNN解码隐含状态为si-1,则ci计算方式具体描述如下:
其中,a(si-1,hj)是变量为si-1和hj一个通用函数,可以有多种实现方式,一种简 单且经典的实现形式如下:
a(si-1,hj)=vTtanh(Wsi-1+Uhj)
所以,第i个解码时刻所生成的源语言句子语义信息表征是源语言每个词的加权平均,加权系数决定了每个原词在当前时刻受到的关注度。
Decoder模块流程:
Decoder模块基于每一时刻动态生成的源语言句子的向量表征ci和解码器前 一时刻的状态si-1,采用循环神经网络用来生成目标语言句子。具体计算方式如 下:
si=f(xi-1,yi-1,ci)
其中,f(·)表示RNN实现时变换函数,RNN可以是普通结构,也可以是加入门 控机制的GRU或者LSTM结构。P(yi=Vk)表示yi是目标语言词表中第k个词的 概率,bk(si)表示根据bk(·)是和第k个目标词相关的变换函数。每个解码时刻在 目标语言词表上词概率计算完成之后,就可以通过Beam Search算法得到最终的 解码序列y=(y1,y2,y3,…,yn),使得整个句子的输出概率P(y|x)最大。
本实施例的一种基于词袋多目标学习的后缀翻译方法,能够以两种模型融合 的方式将预翻译或查词典得到低频词的目标译文输入到神经网络翻译模型中进 行有效学习。本发明关键创新点在于后缀方法和词袋方法的融合,以达到同时学 习低频词翻译和文本翻译的目的,可分为以下三点进行阐述:
·后缀方法
后缀(Suffix)方法同时应用于模型的训练和测试过程中,通过将低频词的 目标译文追加在源语言句子的末尾,并采用特殊标识符将其隔开,从而通过模型 训练,学会有效利用后缀信息,并在解码得到的目标译文中生成后缀提示词。
具体来说,后缀方法在训练过程中的具体体现形式:
第一步,模型从训练数据集中读取双语平行句对,如果是中英翻译,则可理 解为一个中文句子对应一个英文句子;
第二步,通过查询外部词典、知识库、短语表和术语表,从源语言句子中匹 配命名实体、专业术语、低频词、集外词等难以翻译的词语形成后缀,追加在源 语言句子后面,用特殊符号“#”隔开;
第三步,在训练过程中,对后缀进行拆解,得到一个个需要着重计算损失的 词语。神经网络各部分及损失的计算公式描述如下:
CrossEntropy_Losssentence=-∑yi·logyi。
Attention模块流程:Attention模块是用来计算第i个解码时刻所依赖的源语 言句子信息表征ci。假设上一时刻RNN解码隐含状态为si-1,则ci计算方式具体 描述如下:
其中,a(si-1,hj)是变量为si-1和hj一个通用函数,可以有多种实现方式,一种简 单且经典的实现形式如下:
a(si-1,hj)=vTtanh(Wsi-1+Uhj)
所以,第i个解码时刻所生成的源语言句子语义信息表征是源语言每个词的加权平均,加权系数决定了每个原词在当前时刻受到的关注度。
Decoder模块流程:Decoder模块基于每一时刻动态生成的源语言句子的向 量表征ci和解码器前一时刻的状态si-1,采用循环神经网络用来生成目标语言句 子。具体计算方式如下:
si=f(xi-1,yi-1,ci)
其中,f(·)表示RNN实现时变换函数,RNN可以是普通结构,也可以是加入门 控机制的GRU或者LSTM结构。P(yi=Vk)表示yi是目标语言词表中第k个词的 概率,bk(si)表示根据bk(·)是和第k个目标词相关的变换函数。每个解码时刻在 目标语言词表上词概率计算完成之后,就可以通过Beam Search算法得到最终的 解码序列y=(y1,y2,y3,…,yn),使得整个句子的输出概率P(y|x)最大。此时,采 用交叉熵(CrossEntropy)作为损失的计算形式,则源语言句子的损失计算公式 如下:
CrossEntropy_Losssentence=-∑yi·logyi
除对源语言句子计算损失函数,后缀方法是在此基础上,追加后缀的损失函 数,即:
上述公式的含义是,对后缀中的所有词,计算额外损失。此时,训练过程中 综合损失函数可表示为:
CrossEntropy_Lossall=
=CrossEntropy_Losssentence+CrossEntropy_Losswords
=-∑yi·logyi-∑yi·logyi(if xi inSuffix)
·词袋方法
词袋(Bag of words)方法只应用于模型的训练过程中,通过将低频词的目 标译文置于词袋中,以忽略单个或多个低频词译文之间的词序和频次。在词袋与 目标译文标签中建立损失函数,以实现低频词翻译的子任务学习,从而强调了低 频词在模型训练过程中得到着重学习。
在本发明中引入词袋方法的关键目的是,翻译过程中,源语言和目标语言(可 简单理解为中英翻译)的语序可能并不完全一致,甚至在不同语系中会呈现出语 序完全相反的情况,例如中文的表述为主谓宾,而英语则倾向于主谓宾倒置的被 动语态的表述形式。将后缀中的词语加入到词袋模型中,能保证在翻译过程中, 既对特定词进行了权重上的倾斜,也排除了翻译带来的语序变化。
·融合后缀与词袋方法
第三,对两个模型进行有效融合。通过预翻译或查词典得到低频词的目标译 文,并以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对 的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提 下进行子目标增强学习。词袋模型通常忽略文本中的词序、词法和语法,仅将其 看作是词的集合,并且任意两个词之间都是相互独立的。本发明创新性的将后缀 和词袋的两种方法的优势结合起来,以达到针对低频词进行增强学习的目的。其 中,后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模 型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行惩罚。
尽管本发明的具体实施方案已公开如上,但其并不仅仅限于说明书和实施方 式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的 人员而言,可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定 的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (9)
1.一种基于词袋多目标学习的后缀翻译方法,其特征在于:它通过后缀方法和词袋方法的融合将预翻译或查词典得到低频词的目标译文输入到神经网络翻译模型中进行有效学习,达到同时学习低频词翻译和文本翻译。
2.根据权利要求1所述的基于词袋多目标学习的后缀翻译方法,其特征在于,所述后缀方法具体为:
后缀方法同时应用于模型的训练和测试过程中,通过将低频词的目标译文追加在源语言句子的末尾,并采用特殊标识符将其隔开,从而通过模型训练,学会有效利用后缀信息,并在解码得到的目标译文中生成后缀提示词。
3.根据权利要求2所述的基于词袋多目标学习的后缀翻译方法,其特征在于,所述后缀方法具体步骤为:
第一步,模型从训练数据集中读取双语平行句对,如果是中英翻译,则可理解为一个中文句子对应一个英文句子;
第二步,通过查询外部词典、知识库、短语表和术语表,从源语言句子中匹配命名实体、专业术语、低频词、集外词等难以翻译的词语形成后缀,追加在源语言句子后面,用特殊符号“#”隔开;
第三步,在训练过程中,对后缀进行拆解,得到一个个需要着重计算损失的词语。
4.根据权利要求3所述的基于词袋多目标学习的后缀翻译方法,其特征在于,第三步中,包括:
Encoder编码步骤:Encoder模块用以计算输入源语言文本中每个词在该句上下文语境中的表征编码,给定源语言文本x=(x1,x2,x3,…,xT),首先加载预训练的或随机初始化的每个词xi对应的向量表征vi,然后基于该词向量表征通过前向循环神经网络(ForwardRecurrent Neural Network,FRNN)得到每个词看到历史词汇信息下的表征fi,通过反向循环神经网络(Backward Recurrent Neural Network,BRNN)得到每个词看到未来词汇信息的表征bi,最后将两者拼接起来[fi:bi]形成每个词在该句中的表征向量hi。编码过程计算方式如下:
fi=FRNN(xi,fi-1)
bi=FRNN(xi,bi+1)
hi=Concat(fi,bi)
Attention关联步骤:Attention模块用来计算第i个解码时刻所依赖的源语言句子信息表征ci;假设上一时刻RNN解码隐含状态为si-1,则ci具体计算方式:
其中,a(si-1,hj)是变量为si-1和hj一个通用函数:
a(si-1,hj)=vTtanh(Wsi-1+Uhj)
所以,第i个解码时刻所生成的源语言句子语义信息表征是源语言每个词的加权平均,加权系数决定了每个原词在当前时刻受到的关注度;
Decoder解码步骤:Decoder模块基于每一时刻动态生成的源语言句子的向量表征ci和解码器前一时刻的状态si-1,采用循环神经网络用来生成目标语言句子;具体计算方式:
si=f(xi-1,yi-1,ci)
其中,f(·)表示RNN实现时变换函数,RNN是普通结构,或者是加入门控机制的GRU或者LSTM结构;P(yi=Vk)表示yi是目标语言词表中第k个词的概率,bk(si)表示根据bk(·)是和第k个目标词相关的变换函数;每个解码时刻在目标语言词表上词概率计算完成之后,就通过Beam Search算法得到最终的解码序列y=(y1,y2,y3,…,yn),使得整个句子的输出概率P(y|x)最大;此时,采用交叉熵(CrossEntropy)作为损失的计算形式,则源语言句子的损失计算公式:
CrossEntropy_Losssentence=-∑yilogyi
除对源语言句子计算损失函数,后缀方法是在此基础上,追加后缀的损失函数,即:
5.根据权利要求1所述的基于词袋多目标学习的后缀翻译方法,其特征在于,所述词袋方法具体为:
词袋方法只应用于模型的训练过程中,通过将低频词的目标译文置于词袋中,以忽略单个或多个低频词译文之间的词序和频次;在词袋与目标译文标签中建立损失函数,以实现低频词翻译的子任务学习,从而强调了低频词在模型训练过程中得到着重学习。
6.根据权利要求5所述的基于词袋多目标学习的后缀翻译方法,其特征在于:所述词袋方法,翻译过程中,源语言和目标语言的语序可能并不完全一致,甚至在不同语系中会呈现出语序完全相反的情况,将后缀中的词语加入到词袋模型中,能保证在翻译过程中,既对特定词进行了权重上的倾斜,也排除了翻译带来的语序变化。
7.根据权利要求1至6之一所述的基于词袋多目标学习的后缀翻译方法,其特征在于:
通过预翻译或查词典得到低频词的目标译文,并以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标增强学习;词袋模型通常忽略文本中的词序、词法和语法,仅将其看作是词的集合,并且任意两个词之间都是相互独立的;后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行惩罚。
8.一种基于词袋多目标学习的后缀翻译系统,其特征在于,它包括:
源语言文本,输入待翻译的源语言句子x=(x1,x2,x3,…,xm),输出是目标语言句子y=(y1,y2,y3,…,yn);
后缀生成模块,后缀生成模块将识别出的命名实体或低频词置于原文的句末,并采用特殊标记隔开,以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,使得将低频词译文输入到神经网络中;
Encoder编码模块,Encoder模块用以计算输入源语言文本中每个词在该句上下文语境中的表征编码,给定源语言文本x=(x1,x2,x3,…,xT),首先加载预训练的或随机初始化的每个词xi对应的向量表征vi,然后基于该词向量表征通过前向循环神经网络(ForwardRecurrent Neural Network,FRNN)得到每个词看到历史词汇信息下的表征fi,通过反向循环神经网络(Backward Recurrent Neural Network,BRNN)得到每个词看到未来词汇信息的表征bi,最后将两者拼接起来[fi:bi]形成每个词在该句中的表征向量hi。编码过程计算方式如下:
fi=FRNN(xi,fi-1)
bi=FRNN(xi,bi+1)
hi=Concat(fi,bi)
Attention对齐模块,Attention对齐模块是用来计算第i个解码时刻所依赖的源语言句子信息表征ci;假设上一时刻RNN解码隐含状态为si-1,则ci计算方式具体描述如下:
其中,a(si-1,hj)是变量为si-1和hj一个通用函数,实现形式:
a(si-1,hj)=vTtanh(Wsi-1+Uhj)
所以,第i个解码时刻所生成的源语言句子语义信息表征是源语言每个词的加权平均,加权系数决定了每个原词在当前时刻受到的关注度;
Decoder解码模块,Decoder解码模块基于每一时刻动态生成的源语言句子的向量表征ci和解码器前一时刻的状态si-1,采用循环神经网络用来生成目标语言句子;计算方式:
si=f(xi-1,yi-1,ci)
其中,f(·)表示RNN实现时变换函数,P(yi=Vk)表示yi是目标语言词表中第k个词的概率,bk(si)表示根据bk(·)是和第k个目标词相关的变换函数;每个解码时刻在目标语言词表上词概率计算完成之后,通过Beam Search算法得到最终的解码序列y=(y1,y2,y3,…,yn),使得整个句子的输出概率P(y|x)最大;
文本损失模块,文本损失模块的损失计算公式如下:
CrossEntropy_Losssentence=-∑yi·logyi;
关键词损失模块,关键词损失模块的损失函数,即:
即对后缀生成模块中的所有关键词,计算额外损失。
9.根据权利要求8所述的基于词袋多目标学习的后缀翻译系统,其特征在于:在所述文本损失模块和关键词损失模块中采用交叉熵作为损失函数,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布;在相同的一组事件中,用非真实分布q来表示某个事件发生所需要的平均比特数,采用语句的真实语义作为交叉熵的训练集的先验信息,将机器翻译的语义作为测试集后验信息,计算两者的交叉熵,并以交叉熵指导对歧义的辨识和消除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010063184.1A CN111274827B (zh) | 2020-01-20 | 2020-01-20 | 一种基于词袋多目标学习的后缀翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010063184.1A CN111274827B (zh) | 2020-01-20 | 2020-01-20 | 一种基于词袋多目标学习的后缀翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274827A true CN111274827A (zh) | 2020-06-12 |
CN111274827B CN111274827B (zh) | 2021-05-28 |
Family
ID=71003330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010063184.1A Active CN111274827B (zh) | 2020-01-20 | 2020-01-20 | 一种基于词袋多目标学习的后缀翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274827B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199963A (zh) * | 2020-09-30 | 2021-01-08 | 北京搜狗科技发展有限公司 | 一种文本处理方法、装置和用于文本处理的装置 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN113887253A (zh) * | 2021-11-10 | 2022-01-04 | 北京有竹居网络技术有限公司 | 用于机器翻译的方法、设备和介质 |
CN115130483A (zh) * | 2022-07-13 | 2022-09-30 | 湘潭大学 | 一种基于多目标群体智能算法的神经架构搜索方法及用途 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090022319A1 (en) * | 2007-07-19 | 2009-01-22 | Mark Shahaf | Method and apparatus for securing data and communication |
US20140279726A1 (en) * | 2013-03-15 | 2014-09-18 | Samsung Electronics Co., Ltd. | Computing system with iterative knowledge management mechanism and method of operation thereof |
CN104199813A (zh) * | 2014-09-24 | 2014-12-10 | 哈尔滨工业大学 | 基于伪反馈的个性化机器翻译系统及方法 |
CN104598588A (zh) * | 2015-01-19 | 2015-05-06 | 河海大学 | 基于双聚类的微博用户标签自动生成算法 |
US9075796B2 (en) * | 2012-05-24 | 2015-07-07 | International Business Machines Corporation | Text mining for large medical text datasets and corresponding medical text classification using informative feature selection |
CN106484681A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN108228670A (zh) * | 2016-12-22 | 2018-06-29 | 航天信息股份有限公司 | 一种基于轨迹相似度的目标对象关系识别方法和系统 |
CN108415906A (zh) * | 2018-03-28 | 2018-08-17 | 中译语通科技股份有限公司 | 基于领域自动识别篇章机器翻译方法、机器翻译系统 |
CN108763510A (zh) * | 2018-05-30 | 2018-11-06 | 北京五八信息技术有限公司 | 意图识别方法、装置、设备及存储介质 |
CN108920473A (zh) * | 2018-07-04 | 2018-11-30 | 中译语通科技股份有限公司 | 一种基于同类词与同义词替换的数据增强机器翻译方法 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN108920472A (zh) * | 2018-07-04 | 2018-11-30 | 哈尔滨工业大学 | 一种基于深度学习的机器翻译系统的融合系统及方法 |
CN109063159A (zh) * | 2018-08-13 | 2018-12-21 | 桂林电子科技大学 | 一种基于神经网络的实体关系抽取方法 |
CN109190131A (zh) * | 2018-09-18 | 2019-01-11 | 北京工业大学 | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 |
US10223616B1 (en) * | 2018-06-30 | 2019-03-05 | Figleaf Limited | System and method identification and classification of internet advertising |
CN109446537A (zh) * | 2018-11-05 | 2019-03-08 | 安庆师范大学 | 一种针对机器翻译的译文评估方法及装置 |
CN109543012A (zh) * | 2018-10-25 | 2019-03-29 | 苏宁易购集团股份有限公司 | 一种基于Word2Vec和RNN的用户意图识别方法及装置 |
-
2020
- 2020-01-20 CN CN202010063184.1A patent/CN111274827B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090022319A1 (en) * | 2007-07-19 | 2009-01-22 | Mark Shahaf | Method and apparatus for securing data and communication |
US9075796B2 (en) * | 2012-05-24 | 2015-07-07 | International Business Machines Corporation | Text mining for large medical text datasets and corresponding medical text classification using informative feature selection |
US20140279726A1 (en) * | 2013-03-15 | 2014-09-18 | Samsung Electronics Co., Ltd. | Computing system with iterative knowledge management mechanism and method of operation thereof |
CN104199813A (zh) * | 2014-09-24 | 2014-12-10 | 哈尔滨工业大学 | 基于伪反馈的个性化机器翻译系统及方法 |
CN104598588A (zh) * | 2015-01-19 | 2015-05-06 | 河海大学 | 基于双聚类的微博用户标签自动生成算法 |
CN106484681A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
CN108228670A (zh) * | 2016-12-22 | 2018-06-29 | 航天信息股份有限公司 | 一种基于轨迹相似度的目标对象关系识别方法和系统 |
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN108415906A (zh) * | 2018-03-28 | 2018-08-17 | 中译语通科技股份有限公司 | 基于领域自动识别篇章机器翻译方法、机器翻译系统 |
CN108763510A (zh) * | 2018-05-30 | 2018-11-06 | 北京五八信息技术有限公司 | 意图识别方法、装置、设备及存储介质 |
US10223616B1 (en) * | 2018-06-30 | 2019-03-05 | Figleaf Limited | System and method identification and classification of internet advertising |
CN108920473A (zh) * | 2018-07-04 | 2018-11-30 | 中译语通科技股份有限公司 | 一种基于同类词与同义词替换的数据增强机器翻译方法 |
CN108920472A (zh) * | 2018-07-04 | 2018-11-30 | 哈尔滨工业大学 | 一种基于深度学习的机器翻译系统的融合系统及方法 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN109063159A (zh) * | 2018-08-13 | 2018-12-21 | 桂林电子科技大学 | 一种基于神经网络的实体关系抽取方法 |
CN109190131A (zh) * | 2018-09-18 | 2019-01-11 | 北京工业大学 | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 |
CN109543012A (zh) * | 2018-10-25 | 2019-03-29 | 苏宁易购集团股份有限公司 | 一种基于Word2Vec和RNN的用户意图识别方法及装置 |
CN109446537A (zh) * | 2018-11-05 | 2019-03-08 | 安庆师范大学 | 一种针对机器翻译的译文评估方法及装置 |
Non-Patent Citations (6)
Title |
---|
BALIKAS, GEORGIOS 等: "Cross-lingual document retrieval using regularized Wasserstein distance", 《EUROPEAN CONFERENCE ON INFORMATION RETRIEVAL》 * |
HU WENBO 等: "SAM: Semantic Attribute Modulated Language Modeling", 《ARXIV》 * |
SHEIKH IMRAN 等: "Learning Word Importance with the Neural Bag-of-Words Model", 《PROCEEDINGS OF THE 1ST WORKSHOP ON REPRESENTATION LEARNING FOR NLP》 * |
彭海: "基于异构计算的图片敏感文字检测系统", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
李婧萱: "基于深度神经网络的统计机器翻译模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
谢韬: "基于古文学的命名实体识别的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199963A (zh) * | 2020-09-30 | 2021-01-08 | 北京搜狗科技发展有限公司 | 一种文本处理方法、装置和用于文本处理的装置 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN112686058B (zh) * | 2020-12-24 | 2021-10-29 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN113887253A (zh) * | 2021-11-10 | 2022-01-04 | 北京有竹居网络技术有限公司 | 用于机器翻译的方法、设备和介质 |
CN115130483A (zh) * | 2022-07-13 | 2022-09-30 | 湘潭大学 | 一种基于多目标群体智能算法的神经架构搜索方法及用途 |
Also Published As
Publication number | Publication date |
---|---|
CN111274827B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274827B (zh) | 一种基于词袋多目标学习的后缀翻译方法 | |
Chollampatt et al. | A multilayer convolutional encoder-decoder neural network for grammatical error correction | |
Zhang et al. | Deep neural networks in machine translation: An overview. | |
Zhang et al. | Understanding subtitles by character-level sequence-to-sequence learning | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN112149406A (zh) | 一种中文文本纠错方法及系统 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN110378409A (zh) | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 | |
CN112765345A (zh) | 一种融合预训练模型的文本摘要自动生成方法及系统 | |
Yang et al. | Towards bidirectional hierarchical representations for attention-based neural machine translation | |
CN111144410B (zh) | 一种跨模态的图像语义提取方法、系统、设备及介质 | |
CN110427619B (zh) | 一种基于多通道融合与重排序的中文文本自动校对方法 | |
CN112101010A (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN114742069A (zh) | 一种代码相似度检测方法及装置 | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN110502759B (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
CN111274826B (zh) | 一种基于语义信息融合的低频词翻译方法 | |
Roy et al. | Unsupervised context-sensitive bangla spelling correction with character n-gram | |
CN114757184A (zh) | 实现航空领域知识问答的方法和系统 | |
Göker et al. | Neural text normalization for turkish social media | |
Golech et al. | A complete human verified Turkish caption dataset for MS COCO and performance evaluation with well-known image caption models trained against it | |
CN111382583A (zh) | 一种混合多种策略的汉语-维吾尔人名翻译系统 | |
Yang et al. | Incorporating sememes into chinese definition modeling | |
Chao et al. | Automatic spelling correction for asr corpus in traditional chinese language using seq2seq models | |
CN116306594A (zh) | 一种医学ocr识别纠错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |