CN113392655A - 一种基于多分支网络结构加速翻译模型训练速度的方法 - Google Patents

一种基于多分支网络结构加速翻译模型训练速度的方法 Download PDF

Info

Publication number
CN113392655A
CN113392655A CN202110637196.5A CN202110637196A CN113392655A CN 113392655 A CN113392655 A CN 113392655A CN 202110637196 A CN202110637196 A CN 202110637196A CN 113392655 A CN113392655 A CN 113392655A
Authority
CN
China
Prior art keywords
branch
model
translation model
translation
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110637196.5A
Other languages
English (en)
Inventor
杜权
刘兴宇
徐萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yaze Network Technology Co ltd
Original Assignee
Shenyang Yaze Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yaze Network Technology Co ltd filed Critical Shenyang Yaze Network Technology Co ltd
Priority to CN202110637196.5A priority Critical patent/CN113392655A/zh
Publication of CN113392655A publication Critical patent/CN113392655A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多分支网络结构加速翻译模型训练速度的方法,步骤为:清洗来自公开数据集的训练数据,去除数据中包含乱码的句子,分别对双语数据进行分词、去重和平行语料的长度比过滤,得到可靠的双语数据;修改开源的翻译模型结构,构建新的多分支翻译模型;使用与翻译模型不同的训练策略对多分支翻译模型进行训练;用户向模型输入源文,多分支翻译模型使用束搜索进行模型推断,生成用户输入源文的译文。本发明更加有效地学习语料知识,在能保证模型性能的条件下,具有更快的训练速度,一定程度上缓解了传统模型训练较慢的缺陷,将多分支网络结构成功地运用在了神经机器翻译中,完备了多分支网络在神经机器翻译中的应用。

Description

一种基于多分支网络结构加速翻译模型训练速度的方法
技术领域
本发明涉及一种神经机器翻译技术领域,具体为一种基于多分支网络结构加速翻译模型训练速度的方法,构建一个全新的翻译模型,在保证翻译性能的前提下提高了翻译模型训练速度。
背景技术
2015年以来神经机器翻译普遍被接受,呈现全面发展状态。早在这之前,机器翻译常用范式仍是统计机器翻译。神经机器翻译的基本建模思想和统计机器翻译相同,均是依赖统计建模和数据驱动,然而神经机器翻译使用人工神经网络结构,通过人工神经元之间的连接建立数学模型,使计算机可以进行分析、学习和推理。神经机器翻译的这种建模方式使其不需要对语言进行特征工程,即不需要人为设计语言特征,由于不同语种、不同语言使用领域语言的特征均不同,在此神经机器翻译节省了很大的人力物力。并且错误的特征工程将导致错误的结果,神经机器翻译通过自动学习到的这些语言特征对问题的描述会更加全面和准确。并且神经机器翻译模型结构统一,不需要依赖比如语言模型模块、词对齐模型模块等等,仅由一个端到端的人工神经网络模型就能完成上述模块工作。然而神经机器翻译需要人工设计网络结构,不同的结构对模型性能有很大的影响。
其中深度神经网络和宽度神经网络都能够提高网络性能,越深的网络越能捕获更高级的句子特征,而越宽的网络可以捕获的特征种类越多。在神经机器翻译中,为了达到更好的效果,模型结构愈加复杂。早期,研究人员主要使用循环神经网络对单词序列进行建模,即通常使用单向浅层循环神经网络学习单词的词嵌入表示。其后为了更有效的利用循环神经网络进行机器翻译建模,更高效的循环神经单元如长短记忆结构、门控循环单元等被提出,同时更复杂的模型结构,如双向循环神经网络(为了同时捕获网络当前时刻前文和后文的信息)、多层循环神经网络(提高模型抽象能力)也被提出。并且注意力机制的引入帮助模型获得更好的效果。谷歌于2016年推出的谷歌神经机器翻译系统,构建了8层双向循环神经网络,且编码器和解码器之间运用了注意力机制进行连接,该模型的翻译效果在当时处于领导地位,为神经机器翻译性能带来了很大提升。然而循环神经网络中每个循环单元均有前向依赖性,模型并行运算困难,效率低,对此,一种全新的完全基于自注意力机制的模型结构——Transformer被提出。该模型最基础的结构是由6层的编码器和6层的解码器堆叠而成,然后随着科研人员的探索,类似的更深的Transformer能够获得更好的性能。纵观来看,模型结构都是向着更加复杂,更能捕获句子特征,更有效的方向发展。
除了更深和更宽,在图像领域,网络结构更是丰富多彩,更多支路、更轻量等的结构在图像领域的卷积神经网络中运用广泛,然而这些结构鲜有在神经机器翻译系统中出现,相较于简单模型,多分支结构能够帮助模型捕获不同维度空间的信息,换句话说,在多分支网络中,模型能够学习更多的语义信息,因此更有可能解码出质量更高的译文。同时,由于多分支网络特别的初始化策略,其能够更快的收敛。
发明内容
针对现有神经机器翻译模型结构中,模型性能越好的模型其结构越深,参数量越大,模型所需训练时间越长,且图像领域中更高效的多分支网络结构鲜有被探索于神经机器翻译中,为了解决以上问题本发明提供一种基于多分支网络结构加速翻译模型训练速度的方法,能够在保证模型性能的条件下,大幅缩短模型训练所需时间。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种基于多分支网络结构加速翻译模型训练速度的方法,包括以下步骤:
1)清洗训练数据,去除数据中包含乱码的句子,分别对双语数据进行分词、去重和平行语料的长度比过滤,得到可靠的双语数据;
2)修改开源的翻译模型结构,构建新的多分支翻译模型;
3)使用近端初始化算法对翻译模型进行参数初始化,设置优化器参数、学习率策略并利用步骤一清洗好的数据利用多GPU设备进行翻译模型训练;
4)使用束搜索进行模型推断。
步骤1)主要完成神经机器翻译模型训练所需数据的清洗和预处理工作,具体为:
101)去除数据中包含乱码的句对、去除重复的双语句对;
102)利用现有开源分词工具分别对双语数据进行分词处理;
103)去除双语句子单词数量差异过大的句对;
104)使用双字节编码构建子词词表,并对双语句对进行子词切分。
步骤2)中修改开源的翻译模型结构,构建新的多分支翻译模型,具体为:
201)修改Transformer模型结构中编码器的自注意力子层为多分支子层,同时修改解码器的自注意力层和编解码注意力子层为多分支自注意力子层;
202)设置每个子层中每个分支的输入相同,然后利用不同权重对每个分支的输出进行加权求和,具体计算公式如下:
Figure BDA0003106236410000021
Figure BDA0003106236410000022
Figure BDA0003106236410000031
其中Q、K、V对应源语言或目标语言的表示,在编码器的自注意力子层中,Q、K、V相同,均为源语言每个位置的表示,在解码器的自注意力子层中,Q、K、V也相同,均为目标语言每个位置的表示,在解码器的编解码注意力子层中,Q为目标语言每个位置的表示,K、V为源语言每个位置的表示。Wi表示第i个分支的权重大小,θi表示第i个分支的网络结构参数集合,b是偏置值,
Figure BDA0003106236410000032
表示第i个分支中Q对应的权重参数,
Figure BDA0003106236410000033
表示第i个分支中K对应的权重参数,
Figure BDA0003106236410000034
表示第i个分支中V对应的权重参数,dk表示K对应的维度大小。
步骤3)中,使用近端初始化算法对翻译模型进行参数初始化,设置优化器参数、学习率策略并利用步骤一清洗好的数据利用多GPU设备进行翻译模型训练,具体为:
301)使用一个已经训练好的翻译模型的模型参数初始化多分支网络结构中的参数,包括每个分支的参数,每个分支的参数的初始值相等,均等于已经训练好的网络中的对应子层的参数;
302)设置模型优化器参数β1=0.9,β2=0.98和∈=10-9
303)选用合适的学习率策略帮助模型进行训练,此处使用学习率预热策略,其计算公式为:
Figure BDA0003106236410000035
其中dmodel表示模型维度大小,step表示更新的次数,warmup_steps表示网络更新前预热的步数,在此warmupsteps=4000。
304)利用清洗好的数据利用多GPU设备进行翻译模型训练。
步骤4)中,在神经机器翻译系统解码时采用束搜索策略搜索译文序列,翻译模型如下式所示:
Figure BDA0003106236410000036
其中y表示目标语序列,x表示源语序列,yj表示第j个目标语单词,y<j表示前j个目标语片段。
束搜索策略即每次搜索m个最优的yj,最终得到m句候选句子,从中选取最优的一句最为最终的译文。
本发明具有以下有益效果及优点:
1.本发明所提到的模型结构更加有效地学习语料知识,在能保证模型性能的条件下,具有更快的训练速度,一定程度上缓解了传统模型训练较慢的缺陷;
2.本发明探索了图像领域较为成熟的多分支网络结构,并将其成功地运用在了神经机器翻译中,丰富了多分支网络的应用场景,完备了多分支网络在神经机器翻译中的应用。
附图说明
图1为本发明中多分支网络结构图;
图2为本发明中数据清洗步骤流程图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明提出一种基于多分支网络结构加速翻译模型训练速度的方法。该方法保证模型性能不变,通过修改模型结构、利用预训练好的模型参数初始化模型结构,使用学习率预热、束搜索等策略完成模型训练。
本发明方法包括以下步骤:
1)清洗来自公开数据集的训练数据,去除数据中包含乱码的句子,分别对双语数据进行分词、去重和平行语料的长度比过滤,得到可靠的双语数据,具体清洗流程如图2所示;
2)修改开源的翻译模型结构,构建新的多分支翻译模型,多分支结构如图1所示;
3)使用与翻译模型不同的训练策略对多分支翻译模型进行训练;
4)用户向模型输入源文,多分支翻译模型使用束搜索进行模型推断,生成用户输入源文的译文。
步骤1)主要完成神经机器翻译模型训练所需数据的清洗和预处理工作,具体为:
101)去除数据中包含乱码的句对、去除重复的双语句对;
102)利用现有开源分词工具分别对双语数据进行分词处理;
103)去除双语句子单词数量差异过大的句对;
104)使用双字节编码构建子词词表,并对双语句对进行子词切分。
步骤2)中修改开源的翻译模型结构,构建新的多分支翻译模型,具体为:
201)修改开源的翻译模型结构中编码器的自注意力子层为多分支子层,同时修改解码器的自注意力层和编解码注意力子层为多分支自注意力子层;
202)设置每个多分支自注意力子层中每个分支的输入矩阵为相同矩阵,然后利用不同权重对每个分支的输出进行加权求和,具体计算公式如下:
Figure BDA0003106236410000041
Figure BDA0003106236410000042
Figure BDA0003106236410000043
其中Q、K、V对应源语言或目标语言的表示,在编码器的自注意力子层中,Q、K、V相同,均为源语言每个位置的表示,在解码器的自注意力子层中,Q、K、V也相同,均为目标语言每个位置的表示,在解码器的编解码注意力子层中,Q为目标语言每个位置的表示,K、V为源语言每个位置的表示。Wi表示第i个分支的权重大小,θi表示第i个分支的网络结构参数集合,b是偏置值,
Figure BDA0003106236410000051
表示第i个分支中Q对应的权重参数,
Figure BDA0003106236410000052
表示第i个分支中K对应的权重参数,
Figure BDA0003106236410000053
表示第i个分支中V对应的权重参数,dk表示K对应的维度大小。
步骤3)中,使用近端初始化算法对翻译模型进行参数初始化,设置优化器参数、学习率策略并利用步骤一清洗好的数据利用多GPU设备进行翻译模型训练,具体为:
301)使用一个已经训练好的翻译模型的模型参数初始化多分支网络结构中的参数,包括每个分支的参数,每个分支的参数的初始值相等,均等于已经训练好的网络中的对应子层的参数;
302)设置模型优化器参数β1=0.9,β2=0.98和∈=10-9
303)选用合适的学习率策略帮助模型进行训练,此处使用学习率预热策略,其计算公式为:
Figure BDA0003106236410000054
其中dmodel表示模型维度大小,step表示更新的次数,warmup_steps表示网络更新前预热的步数,在此warmupsteps=4000。
304)利用清洗好的数据利用多GPU设备进行翻译模型训练。
步骤4)中,在神经机器翻译系统解码时采用束搜索策略搜索译文序列,翻译模型如下式所示:
Figure BDA0003106236410000055
其中y表示目标语序列,x表示源语序列,yj表示第j个目标语单词,y<j表示前j个目标语片段。
束搜索策略即每次搜索m个最优的yj,最终得到m句候选句子,从中选取最优的一句最为最终的译文。
为验证方法的有效性,本实施例将基于多分支网络结构加速翻译模型训练速度的方法在机器翻译任务上进行实验。具体来说在WMT2014英德任务上进行实验,该实验大概包含一千万条双语句对,实验基线使用标准的包含六层堆叠编码器和六层堆叠解码器的Transformer模型。实验结果如下表所示:
Figure BDA0003106236410000056
Figure BDA0003106236410000061

Claims (4)

1.一种基于多分支网络结构加速翻译模型训练速度的方法,其特征在于包括以下步骤:
1)清洗来自公开数据集的训练数据,去除数据中包含乱码的句子,分别对双语数据进行分词、去重和平行语料的长度比过滤,得到可靠的双语数据;
2)修改开源的翻译模型结构,构建新的多分支翻译模型;
3)使用与翻译模型不同的训练策略对多分支翻译模型进行训练;
4)用户向模型输入源文,多分支翻译模型使用束搜索进行模型推断,生成用户输入源文的译文。
2.按权利要求1所述的基于多分支网络结构加速翻译模型训练速度的方法,其特征在于:步骤2)中修改开源的翻译模型结构,构建新的多分支翻译模型,具体为:
201)修改开源的翻译模型结构中编码器的自注意力子层为多分支子层,同时修改解码器的自注意力层和编解码注意力子层为多分支自注意力子层;
202)设置每个多分支自注意力子层中每个分支的输入矩阵为相同矩阵,然后利用不同权重对每个分支的输出进行加权求和,具体计算公式如下:
Figure FDA0003106236400000011
Figure FDA0003106236400000012
Figure FDA0003106236400000013
其中,mAttention(Q,K,V)为多分支注意力公式,atteni(Q,K,V;θi)为第i个分支的注意力计算公式,Attention(Q,K,V)为点乘注意力公式,Q、K、V为源语言/目标语言的表示,Wi表示第i个分支的权重,θi表示第i个分支的网络结构参数集合,b是偏置值,
Figure FDA0003106236400000014
表示第i个分支中Q对应的权重参数,
Figure FDA0003106236400000015
表示第i个分支中K对应的权重参数,
Figure FDA0003106236400000016
表示第i个分支中V对应的权重参数,dk表示K对应的维度大小。
3.按权利要求1所述的基于多分支网络结构加速翻译模型训练速度的方法,其特征在于:步骤3)中,使用与翻译模型不同的训练策略对多分支翻译模型进行训练,具体为:
301)使用一个已经训练好的翻译模型的模型参数初始化多分支网络结构中的参数,包括每个分支的参数,每个分支的参数的初始值相等,均等于已经训练好的网络中的对应子层的参数;
302)设置模型优化器参数β1、β2和∈;
303)选用合适的学习率策略帮助多分支模型进行训练;
304)利用清洗好的数据通过多GPU设备进行翻译模型训练。
4.按权利要求1所述的基于多分支网络结构加速翻译模型训练速度的方法,其特征在于:步骤4)中,束搜索策略用于搜索译文序列。
CN202110637196.5A 2021-06-08 2021-06-08 一种基于多分支网络结构加速翻译模型训练速度的方法 Pending CN113392655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110637196.5A CN113392655A (zh) 2021-06-08 2021-06-08 一种基于多分支网络结构加速翻译模型训练速度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110637196.5A CN113392655A (zh) 2021-06-08 2021-06-08 一种基于多分支网络结构加速翻译模型训练速度的方法

Publications (1)

Publication Number Publication Date
CN113392655A true CN113392655A (zh) 2021-09-14

Family

ID=77618529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110637196.5A Pending CN113392655A (zh) 2021-06-08 2021-06-08 一种基于多分支网络结构加速翻译模型训练速度的方法

Country Status (1)

Country Link
CN (1) CN113392655A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300317A1 (en) * 2017-04-14 2018-10-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
CN109993101A (zh) * 2019-03-28 2019-07-09 华南理工大学 基于多分支循环自注意力网络与循环边框回归的车辆检测方法
CN111178087A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于离散型注意力机制的神经机器翻译解码加速方法
CN112381164A (zh) * 2020-11-20 2021-02-19 北京航空航天大学杭州创新研究院 一种基于多分支注意力机制的超声图像分类方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300317A1 (en) * 2017-04-14 2018-10-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
CN110506279A (zh) * 2017-04-14 2019-11-26 易享信息技术有限公司 采用隐树注意力的神经机器翻译
CN109993101A (zh) * 2019-03-28 2019-07-09 华南理工大学 基于多分支循环自注意力网络与循环边框回归的车辆检测方法
CN111178087A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于离散型注意力机制的神经机器翻译解码加速方法
CN112381164A (zh) * 2020-11-20 2021-02-19 北京航空航天大学杭州创新研究院 一种基于多分支注意力机制的超声图像分类方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FAN, YANG, ET AL.: "Multi-branch Attentive Transformer", ARXIV, no. 2006, 26 July 2020 (2020-07-26), pages 1 - 11 *

Similar Documents

Publication Publication Date Title
CN107357789B (zh) 融合多语编码信息的神经机器翻译方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN112559702B (zh) 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN110516244B (zh) 一种基于bert的句子自动填充方法
CN106502985A (zh) 一种用于生成标题的神经网络建模方法及装置
CN110688861A (zh) 一种多特征融合的句子级译文质量估计方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN115048944B (zh) 一种基于主题增强的开放域对话回复方法及系统
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN106844345A (zh) 一种基于参数线性约束的多任务分词方法
CN116028604A (zh) 一种基于知识增强图卷积网络的答案选择方法及系统
CN111159345A (zh) 一种中文知识库答案获取方法及其装置
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN113901831A (zh) 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN116186216A (zh) 基于知识增强和双图交互的问题生成方法及系统
CN111538838A (zh) 基于文章的问题生成方法
CN114298031A (zh) 文本处理方法、计算机设备及存储介质
CN114064856A (zh) 一种基于XLNet-BiGRU文本纠错方法
CN117576534A (zh) 一种两阶段图像描述生成方法、系统、装置及存储介质
CN113392655A (zh) 一种基于多分支网络结构加速翻译模型训练速度的方法
CN111898337A (zh) 一种基于深度学习的单句摘要缺陷报告标题自动生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination