CN113657128A - 基于重要性度量和低资源迁移学习翻译系统及存储介质 - Google Patents

基于重要性度量和低资源迁移学习翻译系统及存储介质 Download PDF

Info

Publication number
CN113657128A
CN113657128A CN202110986136.4A CN202110986136A CN113657128A CN 113657128 A CN113657128 A CN 113657128A CN 202110986136 A CN202110986136 A CN 202110986136A CN 113657128 A CN113657128 A CN 113657128A
Authority
CN
China
Prior art keywords
language
data
importance
low
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110986136.4A
Other languages
English (en)
Other versions
CN113657128B (zh
Inventor
魏骁勇
袁晨晨
张栩禄
杨震群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110986136.4A priority Critical patent/CN113657128B/zh
Publication of CN113657128A publication Critical patent/CN113657128A/zh
Application granted granted Critical
Publication of CN113657128B publication Critical patent/CN113657128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Neurology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及机器翻译领域,提出了基于重要性度量和低资源迁移学习翻译系统及存储介质。以解决现有方法所存在的语言特有知识未利用、语义特性未高度编码、低资源数据迁移学习难实现等问题。主要方案包括,准备翻译语言对数据;为源语言数据引入噪音;在输入端句子的开头插入目标语言名称标记;利用Moses scripts对数据进行分词,并使用BPE进行进一步子词划分和编码;构建机器翻译系统的编码器、attention bridge模块、解码器;训练模型,并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型,为低资源语言生成与已用于训练的语言同类型的数据,以此完成低资源数据的迁移学习。

Description

基于重要性度量和低资源迁移学习翻译系统及存储介质
技术领域
本发明涉及由计算机进行的多语种机器翻译方法(Multilingual NeuralMachine Translation),在需要计算机翻译多个语种的场景下,可用于解决传统机器翻译系统中存在的语言特有知识未利用、语义特性未高度编码、低资源数据迁移学习难实现等问题。本发明属于深度学习和自然语言处理领域。
背景技术
机器翻译的研究开始于20世纪50年代,它是自然语言处理的一个分支,也是人工智能领域的一个重要应用。随着数据挖掘和机器学习技术的高速发展,人们对多语种翻译的需求与日俱增。近几年来,多家搜索引擎公司陆续上线了机器翻译业务,并不断扩充语言数量、提升翻译水平,目前,多数机器翻译系统已支持翻译文本和网页。
机器翻译,即通过计算机将一种语言的文本翻译成另一种语言。早期的机器翻译系统是基于规则的或者基于统计的。基于规则的机器翻译方法机械地利用了语言专家人工制定的翻译规则进行翻译,缺点在于该方法高度依赖于翻译规则的质量和数量,且无法应用于多语种翻译场景;基于统计的机器翻译方法采用了双语平行语料库,模型从平行语料中挖掘不同语言的词语间的对齐关系,自动抽取翻译规则。该方法虽然大大提升了机器翻译的能力和使用范围,但其性能仍有较大的提升空间。
基于深度学习的机器翻译方法的效果要显著优于基于统计的机器翻译方法,通常是一个整体的sequence到sequence模型。传统的多语种神经机器翻译模型将研究重心主要放在提升处理多语种的能力上,这导致模型更倾向于学习语言一般性知识,而忽略了语言特有性知识。尽管有些工作尝试着通过添加语言专属模块的方式来解决这个问题,但这种方式往往面临着参数爆炸的问题。其次,不同语种的词序一般是不一致的,这意味着句法结构也是不尽相同的。sequence-to-sequence的模型高度依赖于输入序列的顺序,即输入端词的绝对位置或相对位置,如何减轻翻译过程中句法差异的影响是机器翻译研究的一个重要话题。此外,当某种语言对的数据样本很少时,如何利用已有的模型来进行基于低资源数据的迁移学习也是一个值得思考的问题。最后,现有的神经多语种机器翻译模型往往忽略了多语言内部的更高层次的语义特性,而这一特性能够帮助机器翻译系统向着人工翻译思维靠近。
将模型中的神经元根据它们在各语言对上的重要性划分为语言通用型神经元和语言特有型神经元,由此,通用型神经元可以学习到一般性知识,并参与到所有语言对的翻译中;特有型神经元则负责学习面向特定语言的知识,并参与到对应语言对的翻译中。另外,将源语言数据通过增删等方式人工地改变句子的词序,并按一定比例引入模型的训练阶段,能够减轻多语种之间句法差异带来的影响。除此之外,在低资源数据的迁移学习中构造与已学习过的语言同类型的数据,并用于微调,可以提升模型在低资源数据上的翻译表现。更多地,在模型中引入attention bridge有利于提取高阶的、语言无关的语义表达。上述方法均可有效地提升跨语言神经机器翻译系统的性能。
发明内容
针对上述研究问题,本发明基于注意力和前馈神经网络,目的在于解决多语种场景下传统机器翻译模型具有的语言特有知识未利用、语义特性未高度编码的问题,以及解决基于低资源语言数据的迁移学习的问题。
本发明为解决上述技术问题采用以下技术效果:
一种基于神经网络重要性度量和低资源迁移学习翻译方法,包括以下步骤:
步骤1、准备用于机器翻译任务的由源语言数据和相应的目标语言数据构成的翻译语言对数据,翻译语言对数据包括多语言对数据和低资源语言对数据;
步骤2、对源语言数据通过插入、删除和转换的方式引入噪音,得到含噪音的源语言数据;
步骤3、在步骤2得到的含噪音的源语言数据中的句子的开头插入自定义的目标语言名称标记(若目标语言为英语,则在开头插入<2en>),得到修改了头部后的源语言数据;
步骤4、利用Moses scripts对步骤3得到的修改了头部后的源语言数据和目标语言数据进行分词,并使用BPE进行进一步子词划分和编码,得到嵌入表达;
步骤5、采用注意力和前馈神经网络构建机器翻译系统的编码器和解码器,其中编码器的输入为步骤4得到的源语言数据的嵌入表达,编码器的输出是步骤6的attentionbridge的输入;解码器的输入为步骤6的attention bridge的输出,解码器的输出为模型的翻译结果;
步骤6、利用自注意力机制搭建介于编码器和解码器之间的attention bridge模块;
步骤7、采用步骤4得到的源语言数据和目标语言数据的嵌入表达来训练模型,并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型,然后根据一定规则微调模型;
步骤8、为低资源语言生成与已用于训练的语言同类型的数据,并在此基础上进行模型微调,以此完成低资源数据的迁移学习。
上述技术方案中,在步骤1中,准备用于机器翻译任务的多语言对数据和低资源语言对数据。用于模型训练的语言对为
Figure BDA0003229453830000031
Figure BDA0003229453830000032
Figure BDA0003229453830000033
En代表英语,It代表意大利语,Ro代表罗马尼亚语,Du代表荷兰语。
上述技术方案中,步骤2中:
插入方法在句子中每个词的后面以一定的概率插入一个停用词;
删除方法以一定的概率删除句子中的词语;
重排方法将句子中词的位置进行随机重新排列。
上述技术方案中,步骤4中:
首先利用Moses对数据做三步预处理操作:
1)对每个句子进行词例化操作;
2)对词汇的大小进行调整;
3)做clean处理,剔除过长或过短的句子;
接着,利用BPE进行进一步的子词分割和编码操作。
上述技术方案中,步骤5中:
步骤5:采用注意力和前馈神经网络构建机器翻译系统的编码器和解码器,将Transformer中的编码器和解码器作为该跨语言机器翻译系统的编码器和解码器;
在编码器中,每个层由两个子层构成,分别是多头自注意力机制和全连接前馈神经网络;
在解码器中,每个层由三个子层构成,除了含有与编码器相同的两个子层外,多头自注意力层的后面还添加了一个多头交叉注意力层。
上述技术方案中,步骤6中:
步骤6:利用自监督机制在编码器和解码器之间搭建一个attention bridge模块,若用h代表编码器输出的隐藏状态,那么隐藏状态矩阵S可表示为:
S=(h1,h2,...,hn)
接着,将S转换为固定大小的、关注句子r个不同组成部分的矩阵
Figure BDA0003229453830000041
,R为实数,dh为h的维度,具体的转换过程为:
B=softmax(W2ReLU(W1S))
M=BST
其中,W1和W2为权重矩阵,r为attention bridge模块中矩阵M中注意力头(列向量)的数量,ReLU为一种人工神经网络中常用的激活函数,由此,基于注意力机制的解码器使用的是句子嵌入矩阵M中的信息,而非直接使用了编码器输出的隐藏状态信息;
上述技术方案中,步骤7中:
步骤7:训练模型,并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型,然后根据一定规则微调模型。
首先,将低资源语言对数据以外的数据用于模型的预训练;
接着,评估神经元在不同语言对上的重要程度,对于神经元i,若用Θ(·)代表重要性度量函数,M代表语言对种类的总数量,Θm(i)代表第m种语言对在神经元i上的重要度,那么i在所有语言对上的平均重要度I可定义为:
Figure BDA0003229453830000042
采用泰勒展开定义重要性度量函数,通过计算移除神经元i后Ioss变化的近似值,来评估神经元i的重要程度,若用hi代表神经元i的输出,H代表其它神经元的集合,L(H,hi=0)代表移除神经元i后的损失,L(H,hi)代表不移除神经元i后的损失,那么移除神经元i(即令hi=0)后loss的变化ΔL(hi)的绝对值可表示为:
Θ(i)=|ΔL(hi)|=|L(H,hi=0)-L(H,hi)|
对于函数L(H,hi),若用R表示余项,a表示一个常数,n表示导数的阶数,则函数在hi=a处的泰勒展开为:
Figure BDA0003229453830000051
函数L(H,hi=0)及其余项可表示为:
Figure BDA0003229453830000052
Figure BDA0003229453830000053
其中,δ∈(0,1),
Figure BDA0003229453830000054
为数学上的求偏导符号。通过上述过程获取平均重要度I(i)后,将所有神经元按其重要度进行排序,前百分之β的神经元视为通用型神经元;接着,把语言对分配给对应的语言特有型神经元,具体分配方法是:
1)为每个神经元计算一个重要度阈值,若用max(Θm(i))表示神经元i在所有语言对上重要度的最大值,k表示超参数,那么阈值可表示为:
λ(i)=k×max(Θm(i)),m∈{1,...,M},k∈[0,1]
2)若第m种语言对在神经元i上的重要度大于神经元i的重要度阈值,那么就把该语言对分配给i;
最后,将模型在与预训练阶段相同的数据上进行微调(Fine-tuning),即再次训练,
上述技术方案中,微调的具体过程为:假定训练数据来自于某个具体的语言对,那么仅通用型神经元与该语言对对应的特有型神经元参与到了此训练阶段的网络计算和参数更新中,其余特有型神经元不参与此阶段的训练。
上述技术方案中,步骤8中:
步骤8:为低资源语言生成与已用于训练的语言同类型的数据,并在此基础上进行模型微调,以此完成低资源数据的迁移学习。
为了充分利用低资源语言对数据和已学习过的语言对数据中的信息,构造与已学习过的语言对数据同类型的数据,
已学习过的语言对PairA为lang1→lang2,低资源语言对PairB为lang3→lang2,限定翻译目标语言为同一种语言lang2,则重复利用PairA的数据,若lang1中的词在lang3的词典中存在,那么保持其不变;若不存在,则将词替换为预先定义好的词<wnf>,该词为自定义的词,固定不变即可;
已学习过的语言对PairA为lang1→lang2,低资源语言对PairB为lang1→lang3,限定翻译源语言为同一种语言lang1,则重复利用PairA的数据,若lang1中的词在lang3的词典中存在,那么保持其不变;若不存在,则将词替换为预先定义好的词<wnf>。接着,修改PairA的lang1的句子头部语言标识符。以German→English和低资源语言对Basque→English为例,Basque由低资源数据产生的词典中不含Hallo,因此替换为<wnf>,其余保持不变。数据的构造过程为:
Hallo,Mike!→<wnf>,Mike!
接着,固定模型中的语言对特有型神经元,仅使通用型神经元参与模型在构建的数据集上的微调,此过程与步骤七的微调过程类似。
本发明还提供了一种存储介质,所述存储介质中存储有一种基于神经网络重要性度量和低资源迁移学习翻译的程序,CPU在执行所述程序时,实现上述的一种基于神经网络重要性度量和低资源迁移学习翻译的方法。
本发明还提供了一种基于神经网络重要性度量和低资源迁移学习翻译装置,包括以下模块:
翻译语言对数据模块:准备用于机器翻译任务的由源语言数据和相应的目标语言数据构成的翻译语言对数据,翻译语言对数据包括多语言对数据和低资源语言对数据;
噪音模块:对源语言数据通过插入、删除和转换的方式引入噪音,得到含噪音的源语言数据;
标记模块、在得到的含噪音的源语言数据中的句子的开头插入自定义的目标语言名称标记,得到修改了头部后的源语言数据;
嵌入表达模块:利用Moses scripts对得到的修改了头部后的源语言数据和目标语言数据进行分词,并使用BPE进行进一步子词划分和编码,得到嵌入表达;
编码器和解码器模块:采用注意力和前馈神经网络构建机器翻译系统的编码器和解码器,其中编码器的输入为得到的源语言数据的嵌入表达,编码器的输出是attentionbridge的输入;解码器的输入为attention bridge的输出,解码器的输出为模型的翻译结果;
attention bridge模块:利用自注意力机制搭建介于编码器和解码器之间的attention bridge模块;
训练模块:采用源语言数据和目标语言数据的嵌入表达来训练模型,并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型,然后根据一定规则微调模型;
迁移学习模块:为低资源语言生成与已用于训练的语言同类型的数据,并在此基础上进行模型微调,以此完成低资源数据的迁移学习。
本发明采用上述技术方案具备以下有益效果:
1.传统的跨语言机器翻译模型专注于提升处理多语种的能力,这导致模型更倾向于学习多语种间的一般性知识。本发明将模型中的神经元根据它们于预训练阶段,在各语言对上的重要性划分为语言通用型神经元和语言特有型神经元,并在微调阶段,选择性地选用神经元参与训练。由此,模型不仅能够学习到一般性知识,还能学习到语言特异性知识;
2.不同语种的词序一般是不一致的,这意味着句法结构也是不尽相同的。seq-to-seq的模型高度依赖于输入序列的顺序,即输入端词的绝对位置或相对位置。本发明将源语言数据通过增删等方式人工地改变句子的词序,并按一定比例引入模型的训练阶段,能够减轻多语种之间句法差异带来的影响;
3.当某种语言对的数据样本很少时,如何利用已有的模型来进行基于低资源数据的迁移学习是一个值得思考的问题。本发明在低资源数据的迁移学习中构造与已学习过的语言同类型的数据,并用于微调,可以提升模型在低资源数据上的翻译表现;
4.现有的神经多语种机器翻译模型往往忽略了多语言内部的更高层次的语义特性,而这一特性能够帮助机器翻译系统向着人工翻译的思维靠近。本发明在模型中引入attention bridge,有利于提取高阶的、语言无关的语义表达。
附图说明
图1为编码器内部结构图;
图2为本发明流程框架简图。
具体实施方式
本发明提出了一种基于深度学习的多语种机器翻译框架,以解决传统机器翻译方法中计算机利用具有语言无关性的encoder和decoder进行多语言翻译时,所存在的语言特有知识未利用、语义特性未高度编码、低资源数据迁移学习难实现等问题。
具体实施流程主要包含:1)准备多语言对数据和低资源语言对数据;2)为源语言数据引入噪音;3)在输入端句子头部插入标记;4)对数据进行分词和编码;5)构建编码器和解码器;6)搭建attention bridge模块;7)训练模型,划分神经元,并微调模型;8)实现低资源数据的迁移学习。
一、准备多语言对数据和低资源语言对数据
采用公开数据集对神经网络模型进行训练,有利于研究人员对同领域的方法进行横向比较,并且减少了人工构造数据集的过程。近年来陆续出现了多种多样的用于机器翻译的语言数据集,本发明采用了IWSLT-17翻译数据集,其中包含了英语、意大利语、罗马尼亚语、荷兰语,为了简洁起见,后文中用En,It,Ro,Du来分别表示上述语言。用于模型训练的语言对为
Figure BDA0003229453830000083
Figure BDA0003229453830000084
Figure BDA0003229453830000085
此外,后续低资源迁移学习采用的语言对数据为IWSLT 2018低资源机器翻译任务数据集的
Figure BDA0003229453830000087
IWSLT 2014机器翻译数据集的
Figure BDA0003229453830000086
以及TED talk数据集的
Figure BDA0003229453830000081
Figure BDA0003229453830000082
二、为源语言数据引入噪音
采用三种方法为源语言数据引入噪音,分别是插入、删除和重排。插入方法在句子中每个词的后面以一定的概率pinsert插入一个停用词wstop;删除方法以一定的概率pdelete删除句子中的词语;重排方法将句子中词的位置进行随机重新排列,限制条件为词的移动距离不大于dpermute
三、在输入端句子头部插入标记
为了在单系统中充分利用多语种数据的信息,本发明对输入端语言数据进行了简单的修改,即在每个输入句子的头部插入一个人工定义的词,以反映翻译目标语言的类型。举例来说,对于语言对It→En,若原实例翻译对为:
Sei la mia migliore amica.→You are my best friend.
则修改后的翻译对为:
<2en>Sei la mia migliore amica.→You are my best friend.
对所有句子据其语言类型修改完毕后,进行下一个步骤;
四、对数据进行分词和编码
Moses是一个很强大的数据预处理工具,本专利利用Moses对数据做三步预处理操作:1)对每个句子进行词例化操作;2)对词汇的大小进行调整(truecase),truecase不同于lowercase,lowercase把数据中所有的大写字母转换为小写字母,而truecase则会学习训练数据,判断出需要大写的内容(例如名字、地点等),其余则小写,这有助于减少数据稀疏性问题;3)做clean处理,剔除过长或过短的句子。接着,利用BPE(Byte Pair Encoding)进行进一步的子词分割和编码操作;
五、构建编码器和解码器
Transformer是由N个相同的层构成的堆叠网络,每个层包含了两个或三个子层,本发明将Transformer中的编码器和解码器作为该跨语言机器翻译系统的编码器和解码器。在编码器中,每个层由两个子层构成,分别是多头自注意力机制和全连接前馈神经网络。其中每个子层都加入了残差连接和Norm标准化,因此可以将子层的输出表示为:
output=LayerNorm(x+(SubLayer(x)))
多头注意力机制首先将数据投影到n个空间中(即n个注意机制头),用Q,K,V表示注意力机制中的输入,那么映射到一个空间中的向量可表示为
Figure BDA0003229453830000091
Figure BDA0003229453830000092
在每一个空间中分别计算得到注意力向量Ui,具体公式为:
Figure BDA0003229453830000093
其中DimK是向量K的维度,用以防止点乘计算相似度时数值过大。最后,拼接所有空间的注意力向量Ui并进行投影。注意,自注意力是指在上述基础上取Q,K,V相同。此外,子层中的前馈神经网络层主要提供非线性变换。
在解码器中,每个层由三个子层构成。除了含有与编码器相同的两个子层外,多头自注意力层的后面还添加了一个多头交叉注意力层;
六、搭建attentionbridge模块
为了获取具有语言无关性的句子表达,利用自监督机制在编码器和解码器之间搭建一个attention bridge模块。若用h代表编码器输出的隐藏状态,那么编码器输出的隐藏状态矩阵S可表示为:
S=(h1,h2,...,hn)
接着,将S转换为固定大小的、关注句子r个不同组成部分的矩阵
Figure BDA0003229453830000101
(dh为h的维度),具体的转换过程为:
B=softmax(W2ReLU(W1S))
M=BST
其中,W1和W2为权重矩阵,r为attention bridge(矩阵M)中注意力头(列向量)的数量,ReLU为一种人工神经网络中常用的激活函数。注意,M的大小并不取决于输入句子的长度,而是一个固定的大小。由此,基于注意力机制的解码器使用的是句子嵌入矩阵M中的信息,而非直接使用了编码器输出的隐藏状态信息;
七、训练模型,划分神经元,并微调模型
首先,将除低资源语言对数据以外的数据用于模型的预训练。接着,评估神经元在不同语言对上的重要程度,并把语言对分配给对应的语言特有型神经元。对于神经元i,若用Θ(·)代表重要性度量函数,M代表语言对种类的总数量,Θm(i)代表第m种语言对在神经元i上的重要度,那么i在所有语言对上的平均重要度I可定义为:
Figure BDA0003229453830000102
采用泰勒展开定义重要性度量函数,通过计算移除神经元i后loss变化的近似值,来评估神经元i的重要程度。若用hi代表神经元i的输出,H代表其他神经元的集合,那么移除神经元i(即令hi=0)后loss的变化可表示为:
|ΔL(hi)|=|L(H,hi=0)-L(H,hi)|
对于函数L(H,hi),若用R表示余项,a表示一个常数,n表示导数的阶数,则函数在hi=a处的泰勒展开为:
Figure BDA0003229453830000111
函数L(H,hi=0)及其余项可表示为:
Figure BDA0003229453830000112
Figure BDA0003229453830000113
其中,δ∈(0,1),
Figure BDA0003229453830000114
为数学上的求导符号。通过上述过程获取平均重要度I(i)后,将所有神经元按其重要度进行排序,前百分之β的神经元视为通用型神经元。接着,把语言对分配给对应的语言特有型神经元,具体分配方法是:1)为每个神经元计算一个重要度阈值,若用max(Θm(i))表示神经元i在所有语言对上重要度的最大值,k表示超参数,那么阈值可表示为:
λ(i)=k×max(Θm(i)),m∈{1,...,M},k∈[0,1]
2)若第m种语言对在神经元i上的重要度大于神经元i的重要度阈值,那么就把该语言对分配给i。注意,一个特有型神经元可能会对应多个语言对。
最后,将模型在与预训练阶段相同的数据上进行微调(Fine-tuning),即再次训练。微调的具体过程为:假定训练数据来自于某个具体的语言对,那么仅通用型神经元与该语言对对应的特有型神经元参与到了此训练阶段的网络计算和参数更新中,其余特有型神经元不参与此阶段的训练;
八、实现低资源数据的迁移学习
为了充分利用低资源语言对数据和已学习过的语言对数据中的信息,构造与已学习过的语言对数据同类型的数据。若假定已学习过的语言对PairA为lang1→lang2,低资源语言对PairB为lang3→lang2,限定翻译目标语言为同一种语言lang2,则具体构造方法是:重复利用PairA的数据,若lang1中的词在lang3的词典中存在,那么保持其不变;若不存在,则将词替换为预先定义好的词<wnf>。若假定已学习过的语言对PairA为lang1→lang2,低资源语言对PairB为lang1→lang3,限定翻译源语言为同一种语言lang1,则具体构造方法是:重复利用PairA的数据,若lang2中的词在lang3的词典中存在,那么保持其不变,并修改句子头部语言标识符;若不存在,则将词替换为预先定义好的词<wnf>,该词为自定义的词,固定不变即可,接着,修改句子头部语言标识符。以German→English和低资源语言对Basque→English为例,Basque由低资源数据产生的词典中不含Hallo,因此替换为<wnf>,其余保持不变。数据的构造过程为:
Hallo,Mike!→<wnf>,Mike!
接着,固定模型中的语言对特有型神经元,仅使通用型神经元参与模型在构建的数据集上的微调,此过程与步骤七的微调过程类似。

Claims (10)

1.一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,包括以下步骤:
步骤1、准备用于机器翻译任务的由源语言数据和相应的目标语言数据构成的翻译语言对数据,翻译语言对数据包括多语言对数据和低资源语言对数据;
步骤2、对源语言数据通过插入、删除和转换的方式引入噪音,得到含噪音的源语言数据;
步骤3、在步骤2得到的含噪音的源语言数据中的句子的开头插入自定义的目标语言名称标记,得到修改了头部后的源语言数据;
步骤4、利用Moses scripts对步骤3得到的修改了头部后的源语言数据和目标语言数据进行分词,并使用BPE进行进一步子词划分和编码,得到嵌入表达;
步骤5、采用注意力和前馈神经网络构建机器翻译系统的编码器和解码器,其中编码器的输入为步骤4得到的源语言数据的嵌入表达,编码器的输出是步骤6的attention bridge的输入;解码器的输入为步骤6的attention bridge的输出,解码器的输出为模型的翻译结果;
步骤6、利用自注意力机制搭建介于编码器和解码器之间的attention bridge模块;
步骤7、采用步骤4得到的源语言数据和目标语言数据的嵌入表达来训练模型,并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型,然后根据一定规则微调模型;
步骤8、为低资源语言生成与已用于训练的语言同类型的数据,并在此基础上进行模型微调,以此完成低资源数据的迁移学习。
2.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,
步骤1:准备用于机器翻译任务的多语言对数据和低资源语言对数据,用于模型训练的语言对为
Figure FDA0003229453820000011
Figure FDA0003229453820000012
En代表英语,It代表意大利语,Ro代表罗马尼亚语,Du代表荷兰语。
3.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤2中:
插入方法在句子中每个词的后面以一定的概率插入一个停用词;
删除方法以一定的概率删除句子中的词语;
重排方法将句子中词的位置进行随机重新排列。
4.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤4中:
首先利用Moses对数据做三步预处理操作:
1)对每个句子进行词例化操作;
2)对词汇的大小进行调整;
3)做clean处理,剔除过长或过短的句子;
接着,利用BPE进行进一步的子词分割和编码操作。
5.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤5中:
步骤5:采用注意力和前馈神经网络构建机器翻译系统的编码器和解码器,将Transfomer中的编码器和解码器作为该跨语言机器翻译系统的编码器和解码器;
在编码器中,每个层由两个子层构成,分别是多头自注意力机制和全连接前馈神经网络;
在解码器中,每个层由三个子层构成,除了含有与编码器相同的两个子层外,多头自注意力层的后面还添加了一个多头交叉注意力层。
6.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤6中:
步骤6:利用自监督机制在编码器和解码器之间搭建一个attention bridge模块,若用h代表编码器输出的隐藏状态,那么隐藏状态矩阵S可表示为:
S=(h1,h2,...,hn)
接着,将S转换为固定大小的、关注句子r个不同组成部分的矩阵
Figure FDA0003229453820000021
,R代表实数,dh×r为M的维度,具体的转换过程为:
B=softmax(W2ReLU(W1S))
M=BST
其中,W1和W2为权重矩阵,r为attention bridge模块中矩阵M中注意力头(列向量)的数量,ReLU为一种人工神经网络中常用的激活函数,由此,基于注意力机制的解码器使用的是句子嵌入矩阵M中的信息,而非直接使用了编码器输出的隐藏状态信息。
7.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤7中:
步骤7:训练模型,并将模型中的神经元根据它们在各语言对上的重要性划分为“语言通用”和“语言特有”两种类型,然后根据一定规则微调模型。
首先,将低资源语言对数据以外的数据用于模型的预训练;
接着,评估神经元在不同语言对上的重要程度,对于神经元i,若用Θ(·)代表重要性度量函数,M代表语言对种类的总数量,Θm(i)代表第m种语言对在神经元i上的重要度,那么i在所有语言对上的平均重要度I可定义为:
Figure FDA0003229453820000031
采用泰勒展开定义重要性度量函数,通过计算移除神经元i后loss变化的近似值,来评估神经元i的重要程度,若用hi代表神经元i的输出,H代表其它神经元的集合,L(H,hi=0)代表移除神经元i后的损失,L(H,hi)代表不移除神经元i后的损失,那么移除神经元i,后,即令hi=0,loss的变化可表示为:
Θ(i)=|ΔL(hi)|=|L(H,hi=0)-L(H,hi)|
对于函数L(H,hi),若用R表示余项,a表示一个常数,n表示导数的阶数,则函数在hi=a处的泰勒展开为:
Figure FDA0003229453820000032
函数L(H,hi=0)及其余项可表示为:
Figure FDA0003229453820000041
Figure FDA0003229453820000042
其中,δ∈(0,1),通过上述过程获取平均重要度I(i)后,将所有神经元按其重要度进行排序,前百分之β的神经元视为通用型神经元;
接着,把语言对分配给对应的语言特有型神经元,具体分配方法是:
1)为每个神经元计算一个重要度阈值,若用max(Θm(i))表示神经元i在所有语言对上重要度的最大值,k表示超参数,那么阈值可表示为:
λ(i)=k×max(Θm(i)),m∈{1,...,M},k∈[0,1]
2)若第m种语言对在神经元i上的重要度大于神经元i的重要度阈值,那么就把该语言对分配给i;
最后,将模型在与预训练阶段相同的数据上进行微调,即再次训练。
8.根据权利要求1所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,步骤8中:
步骤8:为低资源语言生成与已用于训练的语言同类型的数据,并在此基础上进行模型微调,以此完成低资源数据的迁移学习。
为了充分利用低资源语言对数据和已学习过的语言对数据中的信息,构造与已学习过的语言对数据同类型的数据,
已学习过的语言对PairA为lang1→lang2,低资源语言对PairB为lang3→lang2,限定翻译目标语言为同一种语言lang2,则重复利用PairA的数据,若lang1中的词在lang3的词典中存在,那么保持其不变;若不存在,则将词替换为预先定义好的词<wnf>,该词为自定义的词,固定不变即可;
已学习过的语言对PairA为lang1→lang2,低资源语言对PairB为lang1→lang3,限定翻译源语言为同一种语言lang1,则重复利用PairA的数据,若lang2中的词在lang3的词典中存在,那么保持其不变;若不存在,则将词替换为预先定义好的词<wnf>;
接着,修改PairA的lang1的句子头部语言标识符,
接着,固定模型中的语言对特有型神经元,仅使通用型神经元参与模型在构建的数据集上的微调。
9.根据权利要求6或7中任一所述的一种基于神经网络重要性度量和低资源迁移学习翻译方法,其特征在于,微调的具体过程为:假定训练数据来自于某个具体的语言对,那么仅通用型神经元与该语言对对应的特有型神经元参与到了此训练阶段的网络计算和参数更新中,其余特有型神经元不参与此阶段的训练。
10.一种存储介质,其特征在于,所述存储介质中存储有一种基于神经网络重要性度量和低资源迁移学习翻译的程序,CPU在执行所述程序时,实现如权利要求1-8所述的一种基于神经网络重要性度量和低资源迁移学习翻译的方法。
CN202110986136.4A 2021-08-25 2021-08-25 基于重要性度量和低资源迁移学习翻译系统及存储介质 Active CN113657128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110986136.4A CN113657128B (zh) 2021-08-25 2021-08-25 基于重要性度量和低资源迁移学习翻译系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110986136.4A CN113657128B (zh) 2021-08-25 2021-08-25 基于重要性度量和低资源迁移学习翻译系统及存储介质

Publications (2)

Publication Number Publication Date
CN113657128A true CN113657128A (zh) 2021-11-16
CN113657128B CN113657128B (zh) 2023-04-07

Family

ID=78482050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110986136.4A Active CN113657128B (zh) 2021-08-25 2021-08-25 基于重要性度量和低资源迁移学习翻译系统及存储介质

Country Status (1)

Country Link
CN (1) CN113657128B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201014571A (en) * 2008-07-18 2010-04-16 Doheny Eye Inst Optical coherence tomography device, method, and system
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110688862A (zh) * 2019-08-29 2020-01-14 内蒙古工业大学 一种基于迁移学习的蒙汉互译方法
CN112494063A (zh) * 2021-02-08 2021-03-16 四川大学 一种基于注意力机制神经网络的腹部淋巴结分区方法
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201014571A (en) * 2008-07-18 2010-04-16 Doheny Eye Inst Optical coherence tomography device, method, and system
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110688862A (zh) * 2019-08-29 2020-01-14 内蒙古工业大学 一种基于迁移学习的蒙汉互译方法
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN112494063A (zh) * 2021-02-08 2021-03-16 四川大学 一种基于注意力机制神经网络的腹部淋巴结分区方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAMEER BANSAL等: "Low-resource speech-to-text translation" *
彭晓娅 等: "跨语言词向量研究综述" *

Also Published As

Publication number Publication date
CN113657128B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN110070855B (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
CN110427608B (zh) 一种引入分层形声特征的中文词向量表示学习方法
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN111209749A (zh) 一种将深度学习应用于中文分词的方法
CN113343683A (zh) 一种融合自编码器和对抗训练的中文新词发现方法及装置
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及系统
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN112417901A (zh) 基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法
CN113468895A (zh) 一种基于解码器输入增强的非自回归神经机器翻译方法
CN112784604A (zh) 一种基于实体边界网络的实体链接方法
CN110717341A (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN115062140A (zh) 一种bert sum和pgn融合的供应链生态区长文档摘要生成方法
CN115048511A (zh) 一种基于Bert的护照版面分析方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN114048314B (zh) 一种自然语言隐写分析方法
CN114330328B (zh) 基于Transformer-CRF的藏文分词方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant