CN115293177B - 基于二重迁移学习的小语种神经网络机器翻译方法及系统 - Google Patents

基于二重迁移学习的小语种神经网络机器翻译方法及系统 Download PDF

Info

Publication number
CN115293177B
CN115293177B CN202210948542.6A CN202210948542A CN115293177B CN 115293177 B CN115293177 B CN 115293177B CN 202210948542 A CN202210948542 A CN 202210948542A CN 115293177 B CN115293177 B CN 115293177B
Authority
CN
China
Prior art keywords
english
training
model
corpus
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210948542.6A
Other languages
English (en)
Other versions
CN115293177A (zh
Inventor
林祥
胡秉晖
叶天鹏
回红
李建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202210948542.6A priority Critical patent/CN115293177B/zh
Publication of CN115293177A publication Critical patent/CN115293177A/zh
Application granted granted Critical
Publication of CN115293177B publication Critical patent/CN115293177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于二重迁移学习的小语种神经网络机器翻译方法及系统,首先在英语的单一语料上训练英语的语言模型掌握英语的词法知识,再在英语词法知识的基础上使用小语种的单一语料训练小语种的语言模型,通过无监督的方式建立起英语与小语种单词间的线性映射关系;然后在英语词法知识的基础上使用人工合成的小写英语到大小写英语的平行语料训练降噪自编码器模型,通过将添加扰动后的小写英语还原成大小写英语来学习英语句法层面的知识;最后在训练得到的词法以及句法知识的基础上使用小语种到英语的平行语料对机器翻译模型进行调优得到优化翻译模型,用于在线阶段进行小语种神经网络机器翻译,实现高质量的小语种到英语的机器翻译模型,确保文本翻译的准确性、减少人工翻译成本,从而完成大规模采集信息的数据治理工作。

Description

基于二重迁移学习的小语种神经网络机器翻译方法及系统
技术领域
本发明涉及的是一种机器翻译领域的技术,具体是一种基于二重迁移学习的小语种神经网络机器翻译方法及系统。
背景技术
现有机器翻译技术的实现基于大量可用的平行语料以及充足的计算资源和长时间的训练,但在小语种场景中,由于语言本身使用人数较少以及专业人才稀缺等问题,经常难以获取到模型训练所需的大规模平行语料。
目前主流的技术路线大多需要借助其他拥有大量可用平行语料的中间语言进行迁移学习,但现行的技术还存有两方面的不足:第一,只能利用小语种的语言模型或是中间语言的机器翻译模型这两种模型中的一种作为迁移源进行迁移,没能同时利用语言模型与机器翻译模型两方面的知识来辅助小语种机器翻译模型的训练;第二,中间模型的可复用性不佳,导致不同小语种的训练成本无法有效分摊,由于中间语言的选择会直接影响到模型迁移学习过程中最终的训练结果,所以现行技术路线通常要求中间语言与目标语言之间存在一定的关联性,这也就意味着对于每一种小语种的训练,都需要有针对性地去寻找与之关联又有充足平行语料可供训练的中间语言,使得模型的训练开销进一步地上升。
发明内容
本发明针对现有技术受限于小语种平行语料难以大规模获取,建立小语种词嵌入模型的过程依赖于英语与指定小语种的翻译资料的不足,提出一种基于二重迁移学习的小语种神经网络机器翻译方法及系统,利用小语种以及英语各自的大规模单一语料进行二重迁移,能够在小语种到英语只存在小规模平行语料可用的情况下,实现高质量的小语种到英语的机器翻译模型,确保文本翻译的准确性、减少人工翻译成本,从而完成大规模采集信息的数据治理工作。
本发明是通过以下技术方案实现的:
本发明涉及一种基于二重迁移学习的小语种神经网络机器翻译方法,首先在英语的单一语料上训练英语的语言模型掌握英语的词法知识,再在英语词法知识的基础上使用小语种的单一语料训练小语种的语言模型,通过无监督的方式建立起英语与小语种单词间的线性映射关系;然后在英语词法知识的基础上使用人工合成的小写英语到大小写英语的平行语料训练降噪自编码器模型,通过将添加扰动后的小写英语还原成大小写英语来学习英语句法层面的知识;最后在训练得到的词法以及句法知识的基础上使用小语种到英语的平行语料对机器翻译模型进行调优得到优化翻译模型,用于在线阶段进行小语种神经网络机器翻译,具体包括:
步骤S1、大规模采集小语种以及英语的单一语料,获取小语种到英语的小规模公开平行语料;
步骤S2、清洗采集到的单一语料,剔除语料中长度过长或是过短的句子,剔除语料中诸如html标签以及emoji表情等非文本信息,剔除语料中的不可打印字符,剔除语料中的Unicode编码格式的特殊符号,对语料中不同样式的标点符号进行标准化,根据标点符号以及空格进行初步的分词工作,对清洗后的语料进行降采样生成语料库,具体包括:剔除长度小于5或是大于100的句子,使用正则表达式剔除非文本信息,使用Moses中的脚本剔除不可打印字符、剔除特殊符号、标点符号标准化、初步分词,随机抽样500万句生成语料库;
步骤S3、将英语单一语料复制一份,其中一份全部转为小写,另一份保留真实的大小写,生成小写英语到大小写英语的大规模平行语料,其中:生成的大小写英语与小写英语需分别进行训练,完成各自的子词切分工作。
步骤S4、利用字节对编码技术,对各语言语料分别根据预设的词汇总量进行训练并完成子词的切分工作,其中:英语的词汇总量设置为5万,而小语种的词汇总量则设置为2万。
步骤S5、根据各语言切分得到的子词,生成各自的词汇表;
步骤S6、根据生成的词汇表,将步骤S2以及S3生成的语料转化成之后模型训练所需的张量;
步骤S7、根据语料的规模大小,按照不同比例划分训练集、验证集和测试集,其中:大规模语料按照998:1:1的比例划分训练集、验证集和测试集,小语种到英语的小规模平行语料按照18:1:1的比例划分训练集、验证集和测试集;
步骤S8、使用小写英语单一语料的训练集训练小写英语的语言模型,每个训练轮次计算预测结果的损失函数,并更新网络参数,根据模型在验证集上的评价指标来决定提前结束时机;
步骤S9、冻结小写英语语言模型除词嵌入层外的全部参数,使用步骤S7中生成的小语种单一语料的训练集,在小写英语语言模型的基础上训练小语种的语言模型,每个训练轮次计算预测结果的损失函数,并更新网络参数,根据模型在验证集上的评价指标来决定提前结束时机,然后执行步骤S11;
所述的训练,具体包括:使用Python中XLM的mlm任务训练基于自注意力机制的语言模型,每个训练轮次计算预测结果的损失函数,并更新网络参数,当模型在验证集上的效果连续多个轮次没有改善后提前结束训练;
步骤S10、冻结步骤S8中生成的小写英语语言模型中词嵌入层的全部参数,使用步骤S7中生成的小写英语到大小写英语平行语料的训练集,在小写英语语言模型的基础上,通过对源端的小写英语添加扰动,训练降噪自编码器模型,每个训练轮次计算生成结果的损失函数,并更新网络参数,根据模型在验证集上的评价指标来决定提前结束时机,然后执行步骤S11,具体包括:参照Python中XLM的ae任务对源端的小写英语添加扰动,并使用其中的mt任务训练基于自注意力机制的降噪自编码器模型,每个训练轮次计算生成结果的损失函数,并更新网络参数,当模型在验证集上的效果连续多个轮次没有改善后提前结束训练;
所述的步骤S10,在拥有充足计算资源的情况时可以与步骤S9并行进行,进一步降低模型训练耗时。
步骤S11、同时使用降噪自编码器中除词嵌入层外的全部参数以及步骤S9中生成的小语种语言模型的词嵌入层的全部参数对最终的小语种到英语的机器翻译模型进行初始化,使用步骤S7中生成的小语种到英语平行语料的训练集进行调优,每个训练轮次计算生成结果的损失函数,并更新网络参数,根据模型在验证集上的评价指标来决定提前结束时机,具体包括:使用Python中XLM的mt任务训练基于自注意力机制的机器翻译模型,每个训练轮次计算生成结果的损失函数,并更新网络参数,当模型在验证集上的效果连续多个轮次没有改善后提前结束训练。
步骤S12、向最终调优完成的机器翻译模型中输入步骤S7中生成的小语种到英语平行语料的测试集,根据其在测试集上的评价指标对模型训练效果作最终评估。
技术效果
本发明通过训练英语的语言模型得到英语的潜在语义空间及其对应的词嵌入向量;再通过冻结英语语言模型除词嵌入层外的全部参数,使得潜在语义空间在训练小语种的语言模型过程中保持不变,使得小语种的词嵌入向量能够拟合到同一个潜在语义空间之中,由此得到小语种与英语单词之间的线性映射关系;与此同时通过冻结英语语言模型词嵌入层的全部参数,使得降噪自编码器模型能够克服人为添加的扰动,基于固定的英语词嵌入向量重组出一句通顺的英语句子;最后通过结合小语种的语言模型与降噪自编码器模型,根据拟合得到的小语种词嵌入向量对句子进行重组,生成最终的英语翻译结果。在实际的应用过程中并不限制模型的具体网络结构,另外在训练语言模型以及降噪自编码器模型的过程中,本流程不依赖于任何平行语料,使得该流程能够不受任何限制地应用于各种不同的小语种。
附图说明
图1为本发明原理示意图;
图2为本发明系统示意图;
图3为本发明方法流程图;
图4为字节对编码流程图;
图5为基于自注意力机制的语言模型示意图;
图6为基于自注意力机制的降噪自编码器模型示意图;
图7为基于自注意力机制的机器翻译模型示意图。
具体实施方式
本方法的设计灵感来源于通过模拟人类如何处理不认识的语言来完成机器翻译这一任务,如图1所示,当人们面对不认识语言的句子时,首先会通过双语词典得到每个单词的意思,之后再根据掌握的语法知识对乱序的单词进行重排得到一句通顺的句子。
如图2所示,本实施例涉及一种实现上述基于二重迁移学习的小语种神经网络机器翻译方法的系统,包括:数据处理模块、语言模型模块、降噪自编码器模块和机器翻译模块,其中:数据处理模块针对从开源语料库网站OPUS中获取的基于CommonCrawl大规模采集得到的文本数据,进行预处理并对文本进行初步的分词,最后对其进行降采样生成后续各模型训练所需的单一语料以及平行语料的语料库,再通过字节对编码技术,针对不同语言设定各自的词汇总量,对各语言语料分别进行子词的切分工作,生成各自的词汇表后,将单一语料处理得到的张量输出至语言模型模块、将平行语料处理得到的张量分别输出至降噪自编码器模块以及机器翻译模块;语言模型模块根据收到的张量,按照998:1:1的比例划分训练集、验证集和测试集,其中小语种语言模型使用英语语言模型的部分参数对模型进行初始化,各语言分别根据预测结果的损失函数,使用Adam优化器训练基于自注意力机制的语言模型,生成各语言的词嵌入向量,学习各小语种以及英语的词法层面知识;降噪自编码器模块根据收到的张量,按照998:1:1的比例划分训练集、验证集和测试集,使用英语语言模型的部分参数对模型进行初始化,根据生成结果的损失函数,使用Adam优化器训练基于自注意力机制的降噪自编码器模型,通过将添加扰动后的小写英语还原成大小写英语来学习英语句法层面的知识;机器翻译模块根据收到的张量,按照18:1:1的比例划分训练集、验证集和测试集,使用小语种语言模型以及降噪自编码器模型的部分参数对模型进行初始化,根据生成结果的损失函数,使用Adam优化器训练基于自注意力机制的机器翻译模型,通过结合语言模型模块以及降噪自编码器模块训练得到的词法以及句法知识,根据输入的小语种文本生成对应的英语翻译。
所述的英语及小语种语言模型采用但不限于BERT(Jacob Devlin,Ming-WeiChang,Kenton Lee,and Kristina Toutanova.2019.BERT:Pre-training ofdeepbidirectional transformers forlanguage understanding.In Proceedings ofthe2019Conference ofthe North American Chapter ofthe Association forComputational Linguistics:Human Language Technologies,Volume 1(Long and ShortPapers),pages 4171–4186,Minneapolis,Minnesota.Association for ComputationalLinguistics.)中记载的技术实现。
所述的降噪自编码器模型和机器翻译模型采用但不限于Transformer(AshishVaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,LlionJones,Aidan N Gomez,Kaiser,and Illia Polosukhin.2017.Attention is all you need.Advances inneural information processing systems,30.)中记载的技术实现。
所述的预处理包括:剔除长度不合适的句子、剔除非文本信息、剔除不可打印字符、剔除特殊符号、标点符号标准化。
如图3所述,为本实施例基于上述系统的基于二重迁移学习的小语种神经网络机器翻译方法,包括:
步骤1)首先从开源语料库网站OPUS中获取基于Common Crawl大规模采集的小语种以及英语的单一语料,从亚洲语言树库(Asian Language Treebank,ALT)项目中获取小语种到英语的小规模公开平行语料,每个语言的语料存入一个单独的文件,文件中以一行一句的形式进行存储。
步骤2)针对采集到的单一语料进行数据清洗工作:剔除语料中长度小于5或是大于100的句子,使用正则表达式剔除语料中诸如html标签以及emoji表情等非文本信息,使用Moses中的脚本剔除语料中的不可打印字符以及Unicode编码格式的特殊符号,并对语料中不同样式的标点符号进行标准化,再根据标点符号以及空格进行初步的分词工作,分词过程中注意对诸如英语缩写等标点符号参与单词构成的情况进行针对性处理,最后从清洗后的语料中随机抽样500万句生成语料库。
步骤3)为构造用于训练降噪自编码器的大规模平行语料,将生成的语料库中的英语单一语料复制一份,在原始语料保留真实大小写的同时,将复制得到的语料全部转化为小写,由此得到一份由小写英语到大小写英语的大规模平行语料。
步骤4)如图4所示,利用字节对编码(Byte Pair Encoding,BPE)技术,对各语言语料分别根据预设的词汇总量进行训练,并完成子词的切分工作:使用Python的fastBPE包完成该部分工作,首先使用其learnbpe功能根据预设的词汇总量学习各语言的字节对编码,其中英语的词汇总量设置为5万,而小语种的词汇总量则设置为2万,另外值得注意的是,之前生成的大小写英语与小写英语将作为两种不同的语言分别进行训练;之后使用其applybpe功能将学习得到的字节对编码应用于各语言中,完成子词的切分工作;最后使用其getvocab功能统计得到各语言语料在进行子词切分后的新词汇表。
步骤5)根据语料的规模大小进行数据集的划分:大规模语料按照998:1:1的比例划分为训练集、验证集和测试集,小语种到英语的小规模语料则按照18:1:1的比例划分为训练集、验证集和测试集。
步骤6)使用Python中XLM的Dictionary类读入生成的词汇表,生成各语言子词与序号相互映射的字典,再读入语料库中的语料,将子词转化为对应的序号后生成模型训练所需的张量形式。
本实施例中使用小写英语单一语料的训练集训练小写英语的语言模型:该模型如图5所示,基于自注意力机制,训练任务为预测输入语料中被掩码随机遮盖的部分,训练任务使用Python中XLM的mlm任务来完成,训练过程中具体参数设置如下:训练过程中的batchsize设置为32,epochsize设置为100000,dropout设置为0.1,词嵌入向量的维度为512,输入输出之间共享词嵌入向量,模型结构只包含编码器部分,单句最大长度设置为200,多头自注意力设置为8头6层结构,从输入的语料中随机选取15%的单词进行遮盖,被遮盖的单词中80%使用统一的掩码进行遮盖,10%使用随机的单词进行替换,而剩余的10%则保持不变,使用Adam优化器,学习率根据逆平方根进行更新,学习率峰值设置为0.00018,预热步数设置为18000,beta1设置为0.9,beta2设置为0.999,eps设置为0.000001,每个训练轮次根据预测结果的概率分布计算模型预测的准确率以及困惑度(perplexity),并更新网络参数,当模型在验证集上得到的困惑度连续三个训练轮次没有得到改善后停止模型的训练,最终通过训练生成小写英语的语义空间以及词嵌入向量,使模型学习到小写英语词法层面的知识。
本实施例中使用小语种单一语料的训练集,在之前训练得到的小写英语的语言模型的基础上,训练小语种的语言模型:模型结构、训练任务等均与前述模型相同,训练开始前使用小写英语的语言模型中除词嵌入层外的全部参数来初始化小语种的语言模型,并在训练过程中冻结该部分参数,仅词嵌入层为可训练参数,训练参数设置均与前述模型相同,每个训练轮次根据预测结果的概率分布计算模型预测的准确率以及困惑度,并更新网络参数,当模型在验证集上得到的困惑度连续五个训练轮次没有得到改善后停止模型的训练,通过在训练过程中冻结小写英语语言模型的部分参数,最终训练生成拟合在小写英语语义空间中的小语种的词嵌入向量,使模型学习到小语种词法层面的知识,建立起小语种到小写英语单词间的线性映射。
与此同时,使用小写英语到大小写英语平行语料的训练集,在之前训练得到的小写英语语言模型的基础上,通过对源端的小写英语添加扰动,训练降噪自编码器模型:该模型如图6所示,基于自注意力机制,训练任务为根据输入的添加扰动后的小写英语来还原生成原始的大小写英语,参照Python中XLM的ae任务来对输入的小写英语添加扰动,具体参数设置如下:在五个单词的窗口内随机对语序进行调整,随机删去语料中10%的单词,再随机选取40%的单词使用从词汇表中随机选取的单词进行替换;训练任务使用Python中XLM的mt任务来完成,训练过程中具体参数设置如下:训练过程中的batchsize设置为32,每个batch中的单词总数设置为3072,epochsize设置为100000,dropout设置为0.1,词嵌入向量的维度为512,输入输出之间共享词嵌入向量,模型结构为编码器-解码器架构,单句最大长度设置为200,多头自注意力设置为8头6层结构,使用Adam优化器,学习率根据逆平方根进行更新,学习率峰值设置为0.0007,beta1设置为0.9,beta2设置为0.999,eps设置为0.00000001,生成过程中集束搜索的beamsize设置为5;训练开始前使用小写英语的语言模型中词嵌入层的全部参数来初始化降噪自编码器模型,并在训练过程中冻结词嵌入层的参数;每个训练轮次根据生成结果计算模型生成的准确率以及BLEU值,并更新网络参数,当模型在验证集上得到的BLEU值连续五个训练轮次没有得到改善后停止模型的训练,通过将添加扰动后的小写英语还原成大小写英语来学习英语句法层面的知识。
本实施例中使用小语种到英语平行语料的训练集,在之前训练得到的小语种语言模型以及降噪自编码器的基础上,训练小语种到英语的机器翻译模型:该模型如图7所示,基于自注意力机制,训练任务为根据输入的小语种语料来推理生成对应的英语翻译,训练任务使用Python中XLM的mt任务来完成,训练过程中具体参数设置如下:训练过程中的batchsize设置为1,每个batch中的单词总数设置为2048,epochsize设置为2000,dropout设置为0.1,词嵌入向量的维度为512,输入输出之间共享词嵌入向量,模型结构为编码器-解码器架构,单句最大长度设置为200,多头自注意力设置为8头6层结构,使用Adam优化器,学习率根据逆平方根进行更新,学习率峰值设置为0.00005,beta1设置为0.9,beta2设置为0.999,eps设置为0.00000001,推理过程中集束搜索的beamsize设置为5;训练开始前同时使用小语种的语言模型中词嵌入层的全部参数以及降噪自编码器中除词嵌入层外的全部参数来初始化小语种到英语的机器翻译模型,训练过程中在此基础上进行参数的调优;每个训练轮次根据生成结果计算模型生成的准确率以及BLEU值,并更新网络参数,当模型在验证集上得到的BLEU值连续五个训练轮次没有得到改善后停止模型的训练,最终实现通过结合语言模型模块以及降噪自编码器模块训练得到的词法以及句法知识,根据输入的小语种文本生成对应的英语翻译,最后向调优完成的机器翻译模型输入测试集,以模型在测试集上得到的BLEU值作为模型训练的最终评估指标。
经过具体实际实验,在Ubuntu系统中、以Python3.7.11编写程序、使用NVIDIAGeForce RTX 2080Ti作为训练硬件的具体环境设置下,使用ALT数据集进行实验,能够得到的实验数据是:
本实施例中对比方法1采用Barret Zoph,DenizYuret,Jonathan May,and KevinKnight.2016.Transfer learningfor low-resource neural machine translation.InProceedings ofthe 2016Conference on Empirical Methods in Natural LanguageProcessing,pages 1568–1575,Austin,Texas.Association for ComputationalLinguistics.中记载的方案。对比方法2采用Yunsu Kim,Yingbo Gao,and HermannNey.2019.Effective cross-lingual transfer ofneural machine translation modelswithout shared vocabularies.In Proceedings ofthe 57th Annual Meeting of theAssociation for Computational Linguistics,pages 1246–1257,Florence,Italy.Association for Computational Linguistics.中记载的方案。
综上,与现有技术相比,本发明技术效果包括:
1、本方法在小语种到英语平行语料只有2万句的情况下,依然能够训练得到高质量的小语种到英语的机器翻译模型:以高棉语为例,若不进行迁移学习,直接使用2万句平行语料训练机器翻译模型,模型在测试集上所取得的BLEU值仅为11.1,而使用本发明的方法进行二重迁移,模型取得的BLEU值能够大幅提升至20.27;在孟加拉语上也能够将BLEU值从仅有5.71大幅提升至14.54;在泰语上同样能够将BLEU值从7.71大幅提升至17.08;在印度尼西亚语上尽管直接训练得到的BLEU值已能达到18.37,使用本发明的方法仍能将其大幅提升至31.57,翻译效果取得显著改善;相较于Zoph etal.和Kim etal.,本发明在全部四种语言以及全部三种评价指标上均取得了效果的提升;
2、本方法中所涉及的小写英语语言模型以及降噪自编码器模型在训练不同小语种的过程中具有高可复用性,在大幅改善翻译效果的同时没有引入大量的额外训练开销:本系统所涉及的总计四个系统中,训练耗时最多的两个模型由于只基于英语语料进行训练,能够直接进行复用,只有小语种的语言模型以及最终的机器翻译模型需要重新进行训练;现有方法尽管只涉及本系统中的两个模型,但对于不同小语种,两个模型都需要重新进行训练,所以在需要训练多个小语种机器翻译模型的情况下,本系统引入的额外训练开销能够很好地均摊;本方法,在对小语种机器翻译模型进行调优的过程中,模型能够更快地达到收敛,从而进一步降低训练用时;
3、本方法在需要进行领域特化时具有更高的灵活性:由于本方法在训练过程中获取的大规模语料均为单一语料,能够对于特定领域进行有针对性的获取;而现有的基于中间语言进行迁移学习的方法需要依靠大规模的平行语料,而针对特定领域往往难以获取得到大规模的平行语料,导致其领域特化的能力较差;
4、本发明提出的机器翻译系统的高准确性能够显著减少人工翻译的成本;本发明提出的系统在单卡环境下能够在合理时间内训练达到收敛,能够快速地在应用场景中实现部署。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (7)

1.一种基于二重迁移学习的小语种神经网络机器翻译方法,其特征在于,具体包括:
步骤S1、大规模采集小语种以及英语的单一语料,获取小语种到英语的小规模公开平行语料;
步骤S2、清洗采集到的单一语料,剔除语料中长度过长或是过短的句子,剔除语料中非文本信息,剔除语料中的不可打印字符,剔除语料中的Unicode编码格式的特殊符号,对语料中不同样式的标点符号进行标准化,根据标点符号以及空格进行初步的分词工作,对清洗后的语料进行降采样生成语料库;
步骤S3、将英语单一语料复制一份,其中一份全部转为小写,另一份保留真实的大小写,生成小写英语到大小写英语的大规模平行语料;
步骤S4、利用字节对编码技术,对各语言语料分别根据预设的词汇总量进行训练并完成子词的切分工作;
步骤S5、根据各语言切分得到的子词,生成各自的词汇表;
步骤S6、根据生成的词汇表,将步骤S2以及S3生成的语料转化成之后模型训练所需的张量;
步骤S7、根据语料的规模大小,按照不同比例划分训练集、验证集和测试集;
步骤S8、使用小写英语单一语料的训练集训练小写英语的语言模型,每个训练轮次计算预测结果的损失函数,并更新网络参数,根据模型在验证集上的评价指标来决定提前结束时机;
步骤S9、冻结小写英语语言模型除词嵌入层外的全部参数,使用步骤S7中生成的小语种单一语料的训练集,在小写英语语言模型的基础上训练小语种的语言模型,每个训练轮次计算预测结果的损失函数,并更新网络参数,根据模型在验证集上的评价指标来决定提前结束时机,然后执行步骤S11;
与步骤S9并行执行步骤S10,具体为:冻结步骤S8中生成的小写英语语言模型中词嵌入层的全部参数,使用步骤S7中生成的小写英语到大小写英语平行语料的训练集,在小写英语语言模型的基础上,通过对源端的小写英语添加扰动,训练降噪自编码器模型,每个训练轮次计算生成结果的损失函数,并更新网络参数,根据模型在验证集上的评价指标来决定提前结束时机,参照Python中XLM的ae任务对源端的小写英语添加扰动,并使用其中的mt任务训练基于自注意力机制的降噪自编码器模型,每个训练轮次计算生成结果的损失函数,并更新网络参数,当模型在验证集上的效果连续多个轮次没有改善后提前结束训练,然后执行步骤S11;
步骤S11、同时使用降噪自编码器中除词嵌入层外的全部参数以及步骤S9中生成的小语种语言模型的词嵌入层的全部参数对最终的小语种到英语的机器翻译模型进行初始化,使用步骤S7中生成的小语种到英语平行语料的训练集进行调优,每个训练轮次计算生成结果的损失函数,并更新网络参数,根据模型在验证集上的评价指标来决定提前结束时机,具体包括:使用Python中XLM的mt任务训练基于自注意力机制的机器翻译模型,每个训练轮次计算生成结果的损失函数,并更新网络参数,当模型在验证集上的效果连续多个轮次没有改善后提前结束训练;
步骤S12、向最终调优完成的机器翻译模型中输入步骤S7中生成的小语种到英语平行语料的测试集,根据其在测试集上的评价指标对模型训练效果作最终评估。
2.根据权利要求1所述的基于二重迁移学习的小语种神经网络机器翻译方法,其特征是,步骤S2中所述的降采样生成语料库是指:剔除长度小于5或是大于100的句子,使用正则表达式剔除非文本信息,使用Moses中的脚本剔除不可打印字符、剔除特殊符号、标点符号标准化、初步分词,随机抽样500万句生成语料库。
3.根据权利要求1所述的基于二重迁移学习的小语种神经网络机器翻译方法,其特征是,步骤S3中,生成的大小写英语与小写英语需分别进行训练,完成各自的子词切分工作。
4.根据权利要求1所述的基于二重迁移学习的小语种神经网络机器翻译方法,其特征是,步骤S4中所述的预设的词汇总量是指:英语的词汇总量设置为5万,而小语种的词汇总量则设置为2万。
5.根据权利要求1所述的基于二重迁移学习的小语种神经网络机器翻译方法,其特征是,步骤S7中所述的比例是指:大规模语料按照998:1:1的比例划分训练集、验证集和测试集,小语种到英语的小规模平行语料按照18:1:1的比例划分训练集、验证集和测试集。
6.根据权利要求1所述的基于二重迁移学习的小语种神经网络机器翻译方法,其特征是,所述的训练,具体包括:使用Python中XLM的mlm任务训练基于自注意力机制的语言模型,每个训练轮次计算预测结果的损失函数,并更新网络参数,当模型在验证集上的效果连续多个轮次没有改善后提前结束训练。
7.一种实现权利要求1-6中任一所述基于二重迁移学习的小语种神经网络机器翻译方法的系统,其特征在于,包括:数据处理模块、语言模型模块、降噪自编码器模块和机器翻译模块,其中:数据处理模块针对从开源语料库网站OPUS中获取的基于CommonCrawl大规模采集得到的文本数据,进行预处理并对文本进行初步的分词,最后对其进行降采样生成后续各模型训练所需的单一语料以及平行语料的语料库,再通过字节对编码技术,针对不同语言设定各自的词汇总量,对各语言语料分别进行子词的切分工作,生成各自的词汇表后,将单一语料处理得到的张量输出至语言模型模块、将平行语料处理得到的张量分别输出至降噪自编码器模块以及机器翻译模块;语言模型模块根据收到的张量划分训练集、验证集和测试集,并对小语种语言模型使用英语语言模型的部分参数对模型进行初始化,各语言分别根据预测结果的损失函数,使用Adam优化器训练基于自注意力机制的语言模型,生成各语言的词嵌入向量,学习各小语种以及英语的词法层面知识;降噪自编码器模块根据收到的张量划分训练集、验证集和测试集,使用英语语言模型的部分参数对模型进行初始化,根据生成结果的损失函数,使用Adam优化器训练基于自注意力机制的降噪自编码器模型,通过将添加扰动后的小写英语还原成大小写英语来学习英语句法层面的知识;机器翻译模块根据收到的张量划分训练集、验证集和测试集,使用小语种语言模型以及降噪自编码器模型的部分参数对模型进行初始化,根据生成结果的损失函数,使用Adam优化器训练基于自注意力机制的机器翻译模型,通过结合语言模型模块以及降噪自编码器模块训练得到的词法以及句法知识,根据输入的小语种文本生成对应的英语翻译。
CN202210948542.6A 2022-08-09 2022-08-09 基于二重迁移学习的小语种神经网络机器翻译方法及系统 Active CN115293177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210948542.6A CN115293177B (zh) 2022-08-09 2022-08-09 基于二重迁移学习的小语种神经网络机器翻译方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210948542.6A CN115293177B (zh) 2022-08-09 2022-08-09 基于二重迁移学习的小语种神经网络机器翻译方法及系统

Publications (2)

Publication Number Publication Date
CN115293177A CN115293177A (zh) 2022-11-04
CN115293177B true CN115293177B (zh) 2023-08-01

Family

ID=83827579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210948542.6A Active CN115293177B (zh) 2022-08-09 2022-08-09 基于二重迁移学习的小语种神经网络机器翻译方法及系统

Country Status (1)

Country Link
CN (1) CN115293177B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
CN104268132B (zh) * 2014-09-11 2017-04-26 北京交通大学 机器翻译方法及系统
EP3616083A4 (en) * 2017-04-23 2021-01-13 Nuance Communications, Inc. MULTILINGUAL SEMANTIC ANALYZER BASED ON TRANSFERRED LEARNING

Also Published As

Publication number Publication date
CN115293177A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
Andreas Good-enough compositional data augmentation
CN106484682B (zh) 基于统计的机器翻译方法、装置及电子设备
Kanerva et al. Universal Lemmatizer: A sequence-to-sequence model for lemmatizing Universal Dependencies treebanks
CN112052692B (zh) 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法
Liao et al. Improving readability for automatic speech recognition transcription
CN110674646A (zh) 一种基于字节对编码技术的蒙汉机器翻译系统
CN109472026A (zh) 一种同时针对多个命名实体的精准情感信息提取方法
CN110084323B (zh) 端到端语义解析系统及训练方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
Ikeda Japanese text normalization with encoder-decoder model
Yang et al. Towards bidirectional hierarchical representations for attention-based neural machine translation
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
Gupta et al. Robust neural language translation model formulation using Seq2seq approach
CN109815497B (zh) 基于句法依存的人物属性抽取方法
Mandal et al. Futurity of translation algorithms for neural machine translation (NMT) and its vision
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN115293177B (zh) 基于二重迁移学习的小语种神经网络机器翻译方法及系统
Li et al. Cross-lingual transferring of pre-trained contextualized language models
Ahkouk et al. Seq2seq Vs sketch filling structure for natural language to Sql translation
Seifossadat et al. Stochastic Data-to-Text Generation Using Syntactic Dependency Information
ud Din Urdu-English machine transliteration using neural networks
Hossain et al. Bert-based text simplification approach to reduce linguistic complexity of bangla language
Nabende Applying dynamic Bayesian Networks in transliteration detection and generation
Chong Design and implementation of English grammar error correction system based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant