CN114154519B - 基于加权标签平滑的神经机器翻译模型训练方法 - Google Patents

基于加权标签平滑的神经机器翻译模型训练方法 Download PDF

Info

Publication number
CN114154519B
CN114154519B CN202210117255.0A CN202210117255A CN114154519B CN 114154519 B CN114154519 B CN 114154519B CN 202210117255 A CN202210117255 A CN 202210117255A CN 114154519 B CN114154519 B CN 114154519B
Authority
CN
China
Prior art keywords
vocabulary
machine translation
target
label
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210117255.0A
Other languages
English (en)
Other versions
CN114154519A (zh
Inventor
常宝宝
陈亮
许润昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210117255.0A priority Critical patent/CN114154519B/zh
Publication of CN114154519A publication Critical patent/CN114154519A/zh
Application granted granted Critical
Publication of CN114154519B publication Critical patent/CN114154519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公布了一种基于加权标签平滑的神经机器翻译模型训练方法,属于自然语言处理中的机器翻译领域。本发明为了解决词汇共享和标签平滑两个技术潜在的冲突,首先通过计算源端词汇,共享词汇和目标端词汇,生成新的训练标签向量,使用新生成的标签向量进行序列到序列的神经机器翻译模型训练。本发明为模型注入额外的机器翻译任务相关的先验信息,加强模型在翻译任务上的表现;通过动态调节标签平滑,避免了将平滑概率仅分配给源端词汇产生的误差,进一步提高了神经机器翻译模型的性能。

Description

基于加权标签平滑的神经机器翻译模型训练方法
技术领域
本发明属于自然语言处理中的机器翻译领域,具体涉及提供一种神经机器翻译模型的训练方法。
背景技术
神经机器翻译(英语:neural machine translation,缩写:NMT)是一种引入人工神经网络进行翻译的机器翻译方式。标签平滑(Label Smoothing)和词汇共享(VocabularySharing)是神经机器翻译模型训练时两种常用技术。标签平滑是一种常用的提高模型泛化能力的手段,其通过将模型对正确标签的预测概率值减少一部分并平均分配给其他错误标签来减少模型过拟合的程度。词汇共享通过共享源语言和目标语言的词汇信息,充分利用了不同语言间的公共信息,降低了模型的大小,加强了不同语言间的语义共享。在机器翻译中,源语言和目标语言的词汇分布往往有较大差异,可以将词汇分成源端词汇,共享词汇,目标端词汇三类,现有的机器翻译方法将这三类词等同看待,并没有利用词汇端的先验信息,这会使得机器翻译性能效果不佳。
发明内容
为了克服现有技术的不足,本发明的目的是提供一种利用源语言和目标语言词汇信息进行机器翻译模型训练的方法,其解决词汇共享和标签平滑两个技术潜在的冲突,可以提高神经机器翻译模型的性能。
为了实现上述目的,本发明提供一种基于加权标签平滑的神经机器翻译模型训练方法,具体流程图如图1所示,包括如下步骤:
A:对源语言和目标语言的词汇表进行统计,计算出源端词汇,共享词汇和目标端词汇;
A1:对源语言和目标语言的语料进行分词处理,得出两种语言各自的词汇表(源端词汇表和目标端词汇表),并根据上述词汇表的交集情况得出共享词汇表;
A2:根据三个词汇表计算得到源端词汇,共享词汇和目标端词汇,即仅出现在源端词汇表不出现在共享词汇表中的词为源端词汇,仅出现在目标端词汇表不出现在共享词汇表中的词为目标端词汇,其余词为共享词汇;
B: 通过下述公式生成训练的标签向量;
Figure 285592DEST_PATH_IMAGE001
其中,
Figure 968508DEST_PATH_IMAGE002
表示的是真实的标签向量为一个1-hot向量,目标端词汇对应的值为1,其余的值为0;
Figure 47323DEST_PATH_IMAGE003
表示的是进行加权后的标签向量,α表示的是标签平滑的参数,一般取0.1~0.3之间;β表示加权向量,具体为每个非目标端词汇分配的平滑概率的大小,为一个向量,向量的每个维度的值对应分配给对应词的概率值;
其满足以下两个约束条件
1.
Figure 951825DEST_PATH_IMAGE004
2.
Figure 723472DEST_PATH_IMAGE005
其中
Figure 939689DEST_PATH_IMAGE006
为加权向量β中为第i个词分配的平滑概率,K为总词数,
Figure 822195DEST_PATH_IMAGE007
分别为目标端词汇,共享词汇,源端词汇中的第i个词,
Figure 830471DEST_PATH_IMAGE008
为目标词汇,共享词汇和源端词汇的加权参数之比,加权向量β由所有的
Figure 773019DEST_PATH_IMAGE007
组成。
其中,约束条件1的含义是,在进行标签平滑的过程中,为所有非真实目标词分配的概率之和等于标签平滑的参数α,使得所有词汇的概率和为1。例如,若α值为0.1,当前的真实目标词为 “look”,则为除了“look”外其他词语分配的概率之和为0.1,为“look”分配的概率为0.9.
约束条件2的含义是,在加权向量β中,为属于目标端词汇,共享词汇,源端词汇的分配的平滑概率和的比例应该满足设置的参数之比
Figure 414216DEST_PATH_IMAGE009
,其中t,c,s为步骤A求得的三个词汇集合,
Figure 834833DEST_PATH_IMAGE009
设置为1(±0.5):1(±0.5):0,目的是防止模型在标签平滑的过程中受到源端词的干扰,因为源端词汇是没有可能出现在翻译中。
C: 使用步骤B)生成的标签向量进行序列到序列的神经机器翻译模型训练,即使用加权后的目标向量
Figure 307403DEST_PATH_IMAGE010
代替真实目标向量
Figure 952011DEST_PATH_IMAGE011
进行神经机器翻译模型的训练。
本发明的技术效果:
本发明提出的基于词汇信息的加权标签平滑通过计算源端词汇,共享词汇和目标端词汇,为模型注入额外的机器翻译任务相关的先验信息,加强模型在翻译任务上的表现;通过动态调节标签平滑时,避免了将平滑概率分配给仅属于源端词汇产生误差,增强模型了的性能。
附图说明
图1为本发明流程图;
图2为源语言和目标语言的词汇表的示意图,分别对应中文-日语(左)和英语-德语(右)翻译方向;
图3为计算目标端词汇,共享词汇,源端词汇T,C,S的流程图。
具体实施方式
下面参照本发明的附图,详细的描述出本发明的实施过程。
1. 使用Transformer-Base模型作为神经机器翻译模型的基础模型;
2. 首先使用字节对编码算法(BPE)对源语言和目标语言进行编码,目的是压缩词汇表的大小,设置最低出现次数为5,对源语言和目标语言的词汇表进行统计,如图2所示,获得源端词汇表A,目标端词汇表B和共享词汇表J;
3. 如图3所示,对源端词汇表,目标端词汇表和共享词汇表计算得到目标端词汇,共享词汇,源端词汇T,C,S,即仅出现在源端词汇表不出现在共享词汇表中的词为源端词汇,仅出现在目标端词汇表不出现在共享词汇表中的词为目标端词汇,其余词为共享词汇,图3中len(J)表示共享词汇表J内词的数量;
4. 通过下述公式生成训练的标签向量;
Figure 877241DEST_PATH_IMAGE012
其满足以下两个约束条件
1.
Figure 990297DEST_PATH_IMAGE013
2.
Figure 51794DEST_PATH_IMAGE014
5. 将加权参数
Figure 336145DEST_PATH_IMAGE015
设置为1:1:0,标签平滑参数α设置为0.1,根据T、C、S和加权向量β形成新的目标向量,加权向量β具体为每个非目标端词分配的平滑概率的大小,在WMT14 EN-DE的翻译实验中,为目标端词汇,共享词汇,源端词汇分配的总概率分别为0.041,0.020,0.039;
6. 通过序列到序列的方法来训练神经机器翻译模型,神经机器翻译模型使用交叉熵作为损失函数进行端到端训练,并使用Adam作为优化器。神经机器翻译模型学习率统一设置为7e-4。初始学习率为1e-7, 在5000个warm-up更新布内线性增加到7e-4。权重衰减参数设置为1e-4,dropout 设置为0.3,神经机器翻译模型共训练20 epoch,选取在开发集上表现最好的checkpoint在测试集上进行测试,测试时使用Beamsearch的方式进行文本生成,beamsize设置为5,经测试,本发明在WMT14 EN-DE,IWSLT14 DE-EN 数据集上相较原始的标签平滑手段取得了0.7BLEU和0.8BLEU的绝对性能提升。
上面描述的实施例并非用于限定本发明,任何本领域的技术人员,在不脱离本发明的精神和范围内,可做各种的变换和修改,因此本发明的保护范围视权利要求范围所界定。

Claims (5)

1.一种基于加权标签平滑的神经机器翻译模型训练方法,其特征在于,包括如下步骤:
A):对源语言和目标语言的词汇表进行统计,计算出源端词汇,共享词汇和目标端词汇;
B):通过下述公式生成训练的标签向量;
Figure 952762DEST_PATH_IMAGE001
其中,
Figure 895311DEST_PATH_IMAGE002
表示的是真实的标签向量为一个1-hot向量,目标端词汇对应的值为1,其余的值为0;
Figure 864404DEST_PATH_IMAGE003
表示的是进行加权后的标签向量,α表示的是标签平滑的参数;β表示加权向量,具体为每个非目标端词汇分配的平滑概率的大小,该向量的每个维度的值对应分配给对应词的概率值;
其满足以下两个约束条件
1.
Figure 691545DEST_PATH_IMAGE004
2.
Figure 164115DEST_PATH_IMAGE005
其中
Figure 808723DEST_PATH_IMAGE006
为加权向量β中为第i个词分配的平滑概率,K为总词数,
Figure 874899DEST_PATH_IMAGE007
分别为目标端词汇,共享词汇,源端词汇中的第i个词,
Figure 364786DEST_PATH_IMAGE008
为目标词汇,共享词汇和源端词汇的加权参数之比,加权向量β由所有的
Figure 957442DEST_PATH_IMAGE007
组成;
C: 使用生成的基于词汇信息的加权标签进行序列到序列的神经机器翻译模型训练。
2.如权利要求1所述的基于加权标签平滑的神经机器翻译模型训练方法,其特征在于,步骤A)包括:
A1:对源语言和目标语言的语料进行分词处理,得出源端词汇表和目标端词汇表,并根据上述词汇表的交集得出共享词汇表;
A2:根据三个词汇表计算得到源端词汇,共享词汇和目标端词汇,即仅出现在源端词汇表不出现在共享词汇表中的词为源端词汇,仅出现在目标端词汇表不出现在共享词汇表中的词为目标端词汇,其余词为共享词汇。
3.如权利要求1所述的基于加权标签平滑的神经机器翻译模型训练方法,其特征在于,
Figure 648317DEST_PATH_IMAGE009
的比例为1(±0.5):1(±0.5):0。
4.如权利要求1所述的基于加权标签平滑的神经机器翻译模型训练方法,其特征在于,所述参数α取0.1~0.3之间。
5.如权利要求1所述的基于加权标签平滑的神经机器翻译模型训练方法,其特征在于,所述源语言和目标语言的编码采用字节对编码算法。
CN202210117255.0A 2022-02-08 2022-02-08 基于加权标签平滑的神经机器翻译模型训练方法 Active CN114154519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210117255.0A CN114154519B (zh) 2022-02-08 2022-02-08 基于加权标签平滑的神经机器翻译模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210117255.0A CN114154519B (zh) 2022-02-08 2022-02-08 基于加权标签平滑的神经机器翻译模型训练方法

Publications (2)

Publication Number Publication Date
CN114154519A CN114154519A (zh) 2022-03-08
CN114154519B true CN114154519B (zh) 2022-04-26

Family

ID=80450203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210117255.0A Active CN114154519B (zh) 2022-02-08 2022-02-08 基于加权标签平滑的神经机器翻译模型训练方法

Country Status (1)

Country Link
CN (1) CN114154519B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647214A (zh) * 2018-03-29 2018-10-12 中国科学院自动化研究所 基于深层神经网络翻译模型的解码方法
CN111401079A (zh) * 2018-12-14 2020-07-10 波音公司 神经网络机器翻译模型的训练方法、装置及存储介质
CN111783435A (zh) * 2019-03-18 2020-10-16 株式会社理光 共享词汇的选择方法、装置及存储介质
CN113204978A (zh) * 2021-05-13 2021-08-03 中国科学技术大学 一种机器翻译增强训练方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138392B2 (en) * 2018-07-26 2021-10-05 Google Llc Machine translation using neural network models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647214A (zh) * 2018-03-29 2018-10-12 中国科学院自动化研究所 基于深层神经网络翻译模型的解码方法
CN111401079A (zh) * 2018-12-14 2020-07-10 波音公司 神经网络机器翻译模型的训练方法、装置及存储介质
CN111783435A (zh) * 2019-03-18 2020-10-16 株式会社理光 共享词汇的选择方法、装置及存储介质
CN113204978A (zh) * 2021-05-13 2021-08-03 中国科学技术大学 一种机器翻译增强训练方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
When Does Label Smoothing Help?;Rafael Müller 等;《arXiv:1906.02629v3 [cs.LG]》;20200610;第1-13页 *

Also Published As

Publication number Publication date
CN114154519A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
US11941522B2 (en) Address information feature extraction method based on deep neural network model
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN110210032B (zh) 文本处理方法及装置
CN110349597A (zh) 一种语音检测方法及装置
CN111626041B (zh) 一种基于深度学习的音乐评论生成方法
CN111540345B (zh) 一种弱监督语音识别模型训练方法及装置
CN110032644A (zh) 语言模型预训练方法
CN116415170A (zh) 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质
CN114611492B (zh) 一种文本顺滑方法、系统和计算机设备
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN115329088B (zh) 图神经网络事件检测模型的鲁棒性分析方法
CN111368563A (zh) 一种融合聚类算法的维汉机器翻译系统
CN112364980B (zh) 一种弱监督场景下基于强化学习的深度神经网络训练方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN111931496B (zh) 一种基于递归神经网络模型的文本风格转换系统及方法
CN114154519B (zh) 基于加权标签平滑的神经机器翻译模型训练方法
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
Zhou et al. Text sentiment analysis based on a new hybrid network model
CN112131363A (zh) 自动问答方法、装置、设备及存储介质
CN114880527B (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN114969343B (zh) 结合相对位置信息的弱监督文本分类方法
CN113849634B (zh) 用于提升深度模型推荐方案可解释性的方法
CN113469260B (zh) 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法
CN115659172A (zh) 基于关键信息掩码与拷贝的生成式文本摘要方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant