CN114154519B - 基于加权标签平滑的神经机器翻译模型训练方法 - Google Patents
基于加权标签平滑的神经机器翻译模型训练方法 Download PDFInfo
- Publication number
- CN114154519B CN114154519B CN202210117255.0A CN202210117255A CN114154519B CN 114154519 B CN114154519 B CN 114154519B CN 202210117255 A CN202210117255 A CN 202210117255A CN 114154519 B CN114154519 B CN 114154519B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- machine translation
- target
- label
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 37
- 238000009499 grossing Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000001537 neural effect Effects 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 title claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公布了一种基于加权标签平滑的神经机器翻译模型训练方法,属于自然语言处理中的机器翻译领域。本发明为了解决词汇共享和标签平滑两个技术潜在的冲突,首先通过计算源端词汇,共享词汇和目标端词汇,生成新的训练标签向量,使用新生成的标签向量进行序列到序列的神经机器翻译模型训练。本发明为模型注入额外的机器翻译任务相关的先验信息,加强模型在翻译任务上的表现;通过动态调节标签平滑,避免了将平滑概率仅分配给源端词汇产生的误差,进一步提高了神经机器翻译模型的性能。
Description
技术领域
本发明属于自然语言处理中的机器翻译领域,具体涉及提供一种神经机器翻译模型的训练方法。
背景技术
神经机器翻译(英语:neural machine translation,缩写:NMT)是一种引入人工神经网络进行翻译的机器翻译方式。标签平滑(Label Smoothing)和词汇共享(VocabularySharing)是神经机器翻译模型训练时两种常用技术。标签平滑是一种常用的提高模型泛化能力的手段,其通过将模型对正确标签的预测概率值减少一部分并平均分配给其他错误标签来减少模型过拟合的程度。词汇共享通过共享源语言和目标语言的词汇信息,充分利用了不同语言间的公共信息,降低了模型的大小,加强了不同语言间的语义共享。在机器翻译中,源语言和目标语言的词汇分布往往有较大差异,可以将词汇分成源端词汇,共享词汇,目标端词汇三类,现有的机器翻译方法将这三类词等同看待,并没有利用词汇端的先验信息,这会使得机器翻译性能效果不佳。
发明内容
为了克服现有技术的不足,本发明的目的是提供一种利用源语言和目标语言词汇信息进行机器翻译模型训练的方法,其解决词汇共享和标签平滑两个技术潜在的冲突,可以提高神经机器翻译模型的性能。
为了实现上述目的,本发明提供一种基于加权标签平滑的神经机器翻译模型训练方法,具体流程图如图1所示,包括如下步骤:
A:对源语言和目标语言的词汇表进行统计,计算出源端词汇,共享词汇和目标端词汇;
A1:对源语言和目标语言的语料进行分词处理,得出两种语言各自的词汇表(源端词汇表和目标端词汇表),并根据上述词汇表的交集情况得出共享词汇表;
A2:根据三个词汇表计算得到源端词汇,共享词汇和目标端词汇,即仅出现在源端词汇表不出现在共享词汇表中的词为源端词汇,仅出现在目标端词汇表不出现在共享词汇表中的词为目标端词汇,其余词为共享词汇;
B: 通过下述公式生成训练的标签向量;
其中, 表示的是真实的标签向量为一个1-hot向量,目标端词汇对应的值为1,其余的值为0; 表示的是进行加权后的标签向量,α表示的是标签平滑的参数,一般取0.1~0.3之间;β表示加权向量,具体为每个非目标端词汇分配的平滑概率的大小,为一个向量,向量的每个维度的值对应分配给对应词的概率值;
其满足以下两个约束条件
其中,约束条件1的含义是,在进行标签平滑的过程中,为所有非真实目标词分配的概率之和等于标签平滑的参数α,使得所有词汇的概率和为1。例如,若α值为0.1,当前的真实目标词为 “look”,则为除了“look”外其他词语分配的概率之和为0.1,为“look”分配的概率为0.9.
约束条件2的含义是,在加权向量β中,为属于目标端词汇,共享词汇,源端词汇的分配的平滑概率和的比例应该满足设置的参数之比 ,其中t,c,s为步骤A求得的三个词汇集合, 设置为1(±0.5):1(±0.5):0,目的是防止模型在标签平滑的过程中受到源端词的干扰,因为源端词汇是没有可能出现在翻译中。
本发明的技术效果:
本发明提出的基于词汇信息的加权标签平滑通过计算源端词汇,共享词汇和目标端词汇,为模型注入额外的机器翻译任务相关的先验信息,加强模型在翻译任务上的表现;通过动态调节标签平滑时,避免了将平滑概率分配给仅属于源端词汇产生误差,增强模型了的性能。
附图说明
图1为本发明流程图;
图2为源语言和目标语言的词汇表的示意图,分别对应中文-日语(左)和英语-德语(右)翻译方向;
图3为计算目标端词汇,共享词汇,源端词汇T,C,S的流程图。
具体实施方式
下面参照本发明的附图,详细的描述出本发明的实施过程。
1. 使用Transformer-Base模型作为神经机器翻译模型的基础模型;
2. 首先使用字节对编码算法(BPE)对源语言和目标语言进行编码,目的是压缩词汇表的大小,设置最低出现次数为5,对源语言和目标语言的词汇表进行统计,如图2所示,获得源端词汇表A,目标端词汇表B和共享词汇表J;
3. 如图3所示,对源端词汇表,目标端词汇表和共享词汇表计算得到目标端词汇,共享词汇,源端词汇T,C,S,即仅出现在源端词汇表不出现在共享词汇表中的词为源端词汇,仅出现在目标端词汇表不出现在共享词汇表中的词为目标端词汇,其余词为共享词汇,图3中len(J)表示共享词汇表J内词的数量;
4. 通过下述公式生成训练的标签向量;
其满足以下两个约束条件
5. 将加权参数设置为1:1:0,标签平滑参数α设置为0.1,根据T、C、S和加权向量β形成新的目标向量,加权向量β具体为每个非目标端词分配的平滑概率的大小,在WMT14 EN-DE的翻译实验中,为目标端词汇,共享词汇,源端词汇分配的总概率分别为0.041,0.020,0.039;
6. 通过序列到序列的方法来训练神经机器翻译模型,神经机器翻译模型使用交叉熵作为损失函数进行端到端训练,并使用Adam作为优化器。神经机器翻译模型学习率统一设置为7e-4。初始学习率为1e-7, 在5000个warm-up更新布内线性增加到7e-4。权重衰减参数设置为1e-4,dropout 设置为0.3,神经机器翻译模型共训练20 epoch,选取在开发集上表现最好的checkpoint在测试集上进行测试,测试时使用Beamsearch的方式进行文本生成,beamsize设置为5,经测试,本发明在WMT14 EN-DE,IWSLT14 DE-EN 数据集上相较原始的标签平滑手段取得了0.7BLEU和0.8BLEU的绝对性能提升。
上面描述的实施例并非用于限定本发明,任何本领域的技术人员,在不脱离本发明的精神和范围内,可做各种的变换和修改,因此本发明的保护范围视权利要求范围所界定。
Claims (5)
1.一种基于加权标签平滑的神经机器翻译模型训练方法,其特征在于,包括如下步骤:
A):对源语言和目标语言的词汇表进行统计,计算出源端词汇,共享词汇和目标端词汇;
B):通过下述公式生成训练的标签向量;
其中,表示的是真实的标签向量为一个1-hot向量,目标端词汇对应的值为1,其余的值为0;表示的是进行加权后的标签向量,α表示的是标签平滑的参数;β表示加权向量,具体为每个非目标端词汇分配的平滑概率的大小,该向量的每个维度的值对应分配给对应词的概率值;
其满足以下两个约束条件
C: 使用生成的基于词汇信息的加权标签进行序列到序列的神经机器翻译模型训练。
2.如权利要求1所述的基于加权标签平滑的神经机器翻译模型训练方法,其特征在于,步骤A)包括:
A1:对源语言和目标语言的语料进行分词处理,得出源端词汇表和目标端词汇表,并根据上述词汇表的交集得出共享词汇表;
A2:根据三个词汇表计算得到源端词汇,共享词汇和目标端词汇,即仅出现在源端词汇表不出现在共享词汇表中的词为源端词汇,仅出现在目标端词汇表不出现在共享词汇表中的词为目标端词汇,其余词为共享词汇。
4.如权利要求1所述的基于加权标签平滑的神经机器翻译模型训练方法,其特征在于,所述参数α取0.1~0.3之间。
5.如权利要求1所述的基于加权标签平滑的神经机器翻译模型训练方法,其特征在于,所述源语言和目标语言的编码采用字节对编码算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210117255.0A CN114154519B (zh) | 2022-02-08 | 2022-02-08 | 基于加权标签平滑的神经机器翻译模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210117255.0A CN114154519B (zh) | 2022-02-08 | 2022-02-08 | 基于加权标签平滑的神经机器翻译模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114154519A CN114154519A (zh) | 2022-03-08 |
CN114154519B true CN114154519B (zh) | 2022-04-26 |
Family
ID=80450203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210117255.0A Active CN114154519B (zh) | 2022-02-08 | 2022-02-08 | 基于加权标签平滑的神经机器翻译模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114154519B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647214A (zh) * | 2018-03-29 | 2018-10-12 | 中国科学院自动化研究所 | 基于深层神经网络翻译模型的解码方法 |
CN111401079A (zh) * | 2018-12-14 | 2020-07-10 | 波音公司 | 神经网络机器翻译模型的训练方法、装置及存储介质 |
CN111783435A (zh) * | 2019-03-18 | 2020-10-16 | 株式会社理光 | 共享词汇的选择方法、装置及存储介质 |
CN113204978A (zh) * | 2021-05-13 | 2021-08-03 | 中国科学技术大学 | 一种机器翻译增强训练方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11138392B2 (en) * | 2018-07-26 | 2021-10-05 | Google Llc | Machine translation using neural network models |
-
2022
- 2022-02-08 CN CN202210117255.0A patent/CN114154519B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647214A (zh) * | 2018-03-29 | 2018-10-12 | 中国科学院自动化研究所 | 基于深层神经网络翻译模型的解码方法 |
CN111401079A (zh) * | 2018-12-14 | 2020-07-10 | 波音公司 | 神经网络机器翻译模型的训练方法、装置及存储介质 |
CN111783435A (zh) * | 2019-03-18 | 2020-10-16 | 株式会社理光 | 共享词汇的选择方法、装置及存储介质 |
CN113204978A (zh) * | 2021-05-13 | 2021-08-03 | 中国科学技术大学 | 一种机器翻译增强训练方法及系统 |
Non-Patent Citations (1)
Title |
---|
When Does Label Smoothing Help?;Rafael Müller 等;《arXiv:1906.02629v3 [cs.LG]》;20200610;第1-13页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114154519A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489555B (zh) | 一种结合类词信息的语言模型预训练方法 | |
US11941522B2 (en) | Address information feature extraction method based on deep neural network model | |
CN111626063B (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
CN110210032B (zh) | 文本处理方法及装置 | |
CN110349597A (zh) | 一种语音检测方法及装置 | |
CN111626041B (zh) | 一种基于深度学习的音乐评论生成方法 | |
CN111540345B (zh) | 一种弱监督语音识别模型训练方法及装置 | |
CN110032644A (zh) | 语言模型预训练方法 | |
CN116415170A (zh) | 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质 | |
CN114611492B (zh) | 一种文本顺滑方法、系统和计算机设备 | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及系统 | |
CN115329088B (zh) | 图神经网络事件检测模型的鲁棒性分析方法 | |
CN111368563A (zh) | 一种融合聚类算法的维汉机器翻译系统 | |
CN112364980B (zh) | 一种弱监督场景下基于强化学习的深度神经网络训练方法 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN111931496B (zh) | 一种基于递归神经网络模型的文本风格转换系统及方法 | |
CN114154519B (zh) | 基于加权标签平滑的神经机器翻译模型训练方法 | |
CN116757195B (zh) | 一种基于提示学习的隐性情感识别方法 | |
Zhou et al. | Text sentiment analysis based on a new hybrid network model | |
CN112131363A (zh) | 自动问答方法、装置、设备及存储介质 | |
CN114880527B (zh) | 一种基于多预测任务的多模态知识图谱表示方法 | |
CN114969343B (zh) | 结合相对位置信息的弱监督文本分类方法 | |
CN113849634B (zh) | 用于提升深度模型推荐方案可解释性的方法 | |
CN113469260B (zh) | 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法 | |
CN115659172A (zh) | 基于关键信息掩码与拷贝的生成式文本摘要方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |