CN113901844A - 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置 - Google Patents

基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置 Download PDF

Info

Publication number
CN113901844A
CN113901844A CN202111068294.8A CN202111068294A CN113901844A CN 113901844 A CN113901844 A CN 113901844A CN 202111068294 A CN202111068294 A CN 202111068294A CN 113901844 A CN113901844 A CN 113901844A
Authority
CN
China
Prior art keywords
model
chinese
sentence
burma
uncertainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111068294.8A
Other languages
English (en)
Inventor
毛存礼
王琳钦
余正涛
高盛祥
黄于欣
王振晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111068294.8A priority Critical patent/CN113901844A/zh
Publication of CN113901844A publication Critical patent/CN113901844A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置,属于自然语言处理领域。针对汉语‑缅甸语双语资源稀缺、结构差异较大的特点,故提出了本发明的方法及装置,本发明方法主要包括汉语‑缅甸语文本数据预处理、模型不确定性注意力机制、模型不确定性约束的半监督汉缅神经机器翻译训练算法、汉语‑缅甸语互译模型等四个部分构成。本发明所提方法在Transformer网络中利用基于变分推断的蒙特卡洛Dropout构建模型不确定性注意力机制,能够有效获取到能够区分噪声数据的句子向量表征,提升汉语‑缅甸语神经机器翻译性能,对汉语‑东南亚语神经机器翻译具有理论和实际应用价值。

Description

基于模型不确定性约束的半监督汉缅神经机器翻译方法及 装置
技术领域
本发明涉及基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置,属于自然语言处理技术领域。
背景技术
由于缅甸语属于低资源语言,汉语-缅甸语双语数据较难获得,但是互联网中存在大量缅甸语和汉语单语数据,基于回译的半监督神经机器翻译方法在低资源神经机器翻译取得了明显的效果,因此,如何利用大量缅甸语、汉语单语语料提升汉语-缅甸语翻译模型性能成为了关键问题。
基于回译的方法在结构差异性较小的低资源语言对,如英法,英德,取得了较为显著的效果。然而,对于汉缅机器翻译,由于语料资源稀缺而且结构差异较大,回译生成的伪语料存在漏译,多译,错译的问题,传统基于Transformer编码端的Self-attention机制不能有效区别回译中产生的伪平行数据的噪声对句子编码的影响,致使回译方法应用于结构差异较大的低资源的语对上效果欠佳。
发明内容
本发明提供了基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置,解决了回译方法应用在汉缅神经机器翻译任务中性能较差的问题,提升了汉语-缅甸语翻译性能。
本发明的技术方案是:第一方面,基于模型不确定性约束的半监督汉缅神经机器翻译方法,所述方法的具体步骤如下:
Step1、对汉语-缅甸语文本数据进行预处理:将汉语-缅甸语文本数据进行数据清洗、编码转换、长度比过滤、分词等处理;
Step2、模型不确定性注意力机制的获取:句子编码表征捕捉到上下文的模型不确定性值,编码时对模型不确定值较大词给予更多的关注;
Step3、模型不确定性为约束的汉缅神经机器翻译训练算法:将回译过程的模型不确定性融进Transformer编码端每一层表征,提升汉语-缅甸语回译任务翻译性能;
Step4、通过使用训练好的汉语-缅甸语互译模型,实现汉语到缅甸语的翻译和缅甸语到汉语的翻译。
作为本发明的进一步方案,在数据预处理层面,对汉语-缅甸语数据进行数据清洗,长度比过滤,分词等工作,主要是为了提升翻译质量,规范翻译流程,提高模型性能。
所述Step1的具体步骤为:
Step1.1、汉语-缅甸语文本数据清洗:去除汉语、缅甸语文本中的乱码字符,规范标点符号表示方法;
Step1.2、缅甸语编码转换:缅甸语存在zawgyione字体、Myanmar3字体统一编码转换,变成Unicode字体;
Step1.3、长度比过滤:保留汉语比缅甸语句子长度比在1~1.5的句子,移除少于5个词,大于30个词的语句,用于提升模型训练效率;
Step1.4、分词:汉语-缅甸语双语平行句对用分词粒度为16K的BPE分词进行处理,所得汉语词典大小为10k,缅甸语词典大小为5k。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、在回译过程中,给定一个真实的目标语言句子y,y∈{Dm},通过标准的transformer模型解码预测其对应的
Figure BDA0003259409980000026
为了量化模型在预测时的模型不确定性,首先将词级别的翻译概率视作随机变量,通过随机停用NMT模型的部分神经元(dropout)并重新计算翻译概率(同时保持y和
Figure BDA0003259409980000027
固定)来进行翻译概率的采样,最终获得回译过程中的模型不确定性;
Step2.2、将文本句子向量表征与模型不确定性特征通过CrossAttention机制建模,计算得出结合句子文本向量表征和模型不确定性表征的隐藏层向量,能区分伪语料中噪声。
作为本发明的进一步方案,所述Step2.2的具体步骤为:
Step2.2.1、Transformer的核心是运用多头的Self-attention自注意力机制,每一个注意力机制头都是对n个元素的输入序列x=(x1,...,xn),其中
Figure BDA0003259409980000021
接着计算得出同样长度的序列c=(c1,...,cn),其中
Figure BDA0003259409980000022
在此发明中,我们用
Figure BDA0003259409980000023
标记文本句子向量特征,用
Figure BDA0003259409980000024
标记与文本句子词对齐的model-uncertainty。如图3所示,Uncertainty Enc-Attention可表示为:
Figure BDA0003259409980000025
其中
Figure BDA0003259409980000031
是softmax函数计算的权重系数:
Figure BDA0003259409980000032
Step2.2.2、Uncertainty Enc-Attention最后计算得出结合句子文本向量表征和model-uncertainty表征的隐藏层向量c,其中
Figure BDA0003259409980000033
在Transformer编码端最后一层,c被送入解码端去产生目标语言序列,能区分伪语料中噪声的句子编码向量是用文本句子向量
Figure BDA0003259409980000034
与该句子词对齐的模型不确定性值向量
Figure BDA0003259409980000035
作注意力机制得到,这样句子编码表征能捕捉到上下文的模型不确定性值,在编码时能对模型不确定性值较大的词给予更多的关注,用于实现模型在编码过程中能更好的区分来自伪语料中的噪声数据,即漏译,错译,多译的词。
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1、为使编码端既能学习回译质量较高的词的编码表征,又能有效降低质量较低的词(漏译,错译,多译的词)对句子有效向量表征的影响,提出,汉缅神经机器翻译训练时,编码端编码方式为:
Figure BDA0003259409980000036
其中attnS和attnun是不同参数的注意力机制模型;
Step3.2、随后进一步送入非线性变换层FFN(·),在此得到了能够有效处理回译语料中噪声的编码向量:
Figure BDA0003259409980000037
最后编码端会输出最后一层的隐藏层状态
Figure BDA0003259409980000038
解码端是常规的transformer解码端,解码过程持续进行直到遇到结束的特殊字符为止。
另一方面,基于模型不确定性约束的半监督汉缅神经机器翻译装置,包括用于执行如第一方面所述方法的模块。
本发明的有益效果是:
本发明提出以实验为支撑的融合机制策略,实现了将模型不确定性融进Transformer编码端每一层表征,解决了回译方法应用在汉缅神经机器翻译任务中性能较差的问题;提出模型不确定性注意力机制,用自注意力机制将模型不确定性与Embedding进行深度融合,使编码端能更好的得到伪语料的句子向量表征。汉语-缅甸语神经机器翻译方法具有一定的理论意义和实际应用价值。
附图说明
图1为本发明中模型不确定性注意力机制算法原理图;
图2为本发明中模型不确定性为约束的汉缅机器翻译算法;
图3为本发明中的方法流程框图。
具体实施方式
实施例1:如图1-3所示,第一方面,基于模型不确定性约束的半监督汉缅神经机器翻译方法,所述方法的具体步骤如下:
Step1、对汉语-缅甸语文本数据进行预处理:将汉语-缅甸语文本数据进行数据清洗、编码转换、长度比过滤、分词等处理;
Step2、模型不确定性注意力机制的获取:句子编码表征捕捉到上下文的模型不确定性值,编码时对模型不确定值较大词给予更多的关注;
Step3、模型不确定性为约束的汉缅神经机器翻译训练算法:将回译过程的模型不确定性融进Transformer编码端每一层表征,提升汉语-缅甸语回译任务翻译性能;
Step4、通过使用训练好的汉语-缅甸语互译模型,实现汉语到缅甸语的翻译和缅甸语到汉语的翻译。
作为本发明的进一步方案,在数据预处理层面,对汉语-缅甸语数据进行数据清洗,长度比过滤,分词等工作,主要是为了提升翻译质量,规范翻译流程,提高模型性能。
所述Step1的具体步骤为:
Step1.1、汉语-缅甸语文本数据清洗:去除汉语、缅甸语文本中的乱码字符,规范标点符号表示方法;
Step1.2、缅甸语编码转换:缅甸语存在zawgyione字体、Myanmar3字体统一编码转换,变成Unicode字体;
Step1.3、长度比过滤:保留汉语比缅甸语句子长度比在1~1.5的句子,移除少于5个词,大于30个词的语句,用于提升模型训练效率;
Step1.4、分词:汉语-缅甸语双语平行句对用分词粒度为16K的BPE分词进行处理,所得汉语词典大小为10k,缅甸语词典大小为5k。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、在回译过程中,给定一个真实的目标语言句子y,y∈{Dm},通过标准的transformer模型解码预测其对应的
Figure BDA0003259409980000041
为了量化模型在预测时的模型不确定性,首先将词级别的翻译概率视作随机变量,通过随机停用NMT模型的部分神经元(dropout)并重新计算翻译概率(同时保持y和
Figure BDA0003259409980000051
固定)来进行翻译概率的采样,最终获得回译过程中的模型不确定性;
Step2.2、将文本句子向量表征与模型不确定性特征通过CrossAttention机制建模,计算得出结合句子文本向量表征和模型不确定性表征的隐藏层向量,能区分伪语料中噪声。
作为本发明的进一步方案,所述Step2.2的具体步骤为:
Step2.2.1、Transformer的核心是运用多头的Self-attention自注意力机制,每一个注意力机制头都是对n个元素的输入序列x=(x1,...,xn),其中
Figure BDA0003259409980000052
接着计算得出同样长度的序列c=(c1,...,cn),其中
Figure BDA0003259409980000053
在此发明中,我们用
Figure BDA0003259409980000054
标记文本句子向量特征,用
Figure BDA0003259409980000055
标记与文本句子词对齐的model-uncertainty。如图3所示,Uncertainty Enc-Attention可表示为:
Figure BDA0003259409980000056
其中
Figure BDA0003259409980000057
是softmax函数计算的权重系数:
Figure BDA0003259409980000058
Step2.2.2、Uncertainty Enc-Attention最后计算得出结合句子文本向量表征和model-uncertainty表征的隐藏层向量c,其中
Figure BDA0003259409980000059
在Transformer编码端最后一层,c被送入解码端去产生目标语言序列,能区分伪语料中噪声的句子编码向量是用文本句子向量
Figure BDA00032594099800000510
与该句子词对齐的模型不确定性值向量
Figure BDA00032594099800000511
作注意力机制得到,这样句子编码表征能捕捉到上下文的模型不确定性值,在编码时能对模型不确定性值较大的词给予更多的关注,用于实现模型在编码过程中能更好的区分来自伪语料中的噪声数据,即漏译,错译,多译的词。
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1、为使编码端既能学习回译质量较高的词的编码表征,又能有效降低质量较低的词(漏译,错译,多译的词)对句子有效向量表征的影响,提出,汉缅神经机器翻译训练时,编码端编码方式为:
Figure BDA0003259409980000061
其中attnS和attnun是不同参数的注意力机制模型;
Step3.2、随后进一步送入非线性变换层FFN(·),在此得到了能够有效处理回译语料中噪声的编码向量:
Figure BDA0003259409980000062
最后编码端会输出最后一层的隐藏层状态
Figure BDA0003259409980000063
解码端是常规的transformer解码端,解码过程持续进行直到遇到结束的特殊字符为止。
下面为本发明装置实施例,本发明实施例还提供了基于模型不确定性约束的半监督汉缅神经机器翻译装置,该装置包括用于执行上述第一方面的方法的模块。具体可以包括:
汉语-缅甸语文本数据预处理模块:用于将汉语-缅甸语文本数据进行数据清洗,编码转换,长度比过滤,分词;
模型不确定性注意力机制的获取模块:用于句子编码表征捕捉到上下文的模型不确定性值,编码时对模型不确定值较大词给予更多的关注;
模型不确定性为约束的汉缅神经机器翻译训练算法模块:将回译过程的模型不确定性融进Transformer编码端每一层表征,提升汉语-缅甸语回译任务翻译性能;
汉语-缅甸语互译模块:通过使用训练好的汉语-缅甸语互译模型,实现汉语到缅甸语的翻译和缅甸语到汉语的翻译。
在一种可行的实施方式中,所述汉语-缅甸语文本数据预处理模块,具体用于:
对汉语-缅甸语文本数据进行清洗:去除汉语、缅甸语文本中的乱码字符,规范标点符号表示方法;
对缅甸语编码转换:缅甸语存在zawgyione字体、Myanmar3字体统一编码转换,变成Unicode字体;
长度比进行过滤:保留汉语比缅甸语句子长度比在1~1.5的句子,移除少于5个词,大于30个词的语句,用于提升模型训练效率;
进行分词:汉语-缅甸语双语平行句对用分词粒度为16K的BPE分词进行处理,所得汉语词典大小为10k,缅甸语词典大小为5k。
在一种可行的实施方式中,所述模型不确定性注意力机制的获取模块,具体用于:
在回译过程中,给定一个真实的目标语言句子y,y∈{Dm},通过标准的transformer模型解码预测其对应的
Figure BDA0003259409980000071
为了量化模型在预测时的模型不确定性,首先将词级别的翻译概率视作随机变量,通过随机停用NMT模型的部分神经元(dropout)并重新计算翻译概率(同时保持y和
Figure BDA0003259409980000072
固定)来进行翻译概率的采样,最终获得回译过程中的模型不确定性;
将文本句子向量表征与模型不确定性特征通过CrossAttention机制建模,计算得出结合句子文本向量表征和模型不确定性表征的隐藏层向量,能区分伪语料中噪声。
在一种可行的实施方式中,所述模型不确定性为约束的汉缅神经机器翻译训练算法模块,具体用于:
当汉缅神经机器翻译训练时,编码端编码方式为:
Figure BDA0003259409980000073
其中attnS和attnun是不同参数的注意力机制模型;
随后进一步送入非线性变换层FFN(·),在此得到了能够有效处理回译语料中噪声的编码向量:
Figure BDA0003259409980000074
最后编码端会输出最后一层的隐藏层状态
Figure BDA0003259409980000075
解码端是常规的transformer解码端,解码过程持续进行直到遇到结束的特殊字符为止。
进一步地,下面为本发明另一种装置实施例,本发明实施例还提供了基于模型不确定性约束的半监督汉缅神经机器翻译装置,该装置包括用于执行上述第一方面的方法的模块。具体可以包括:
汉语-缅甸语文本数据预处理模块:用于将汉语-缅甸语文本数据进行数据清洗,编码转换,长度比过滤,分词;
模型不确定性为约束的汉缅神经机器翻译模块:量化模型在回译过程中的模型不确定性,将词级别的翻译概率视作随机变量,通过随机停用NMT模型的部分神经元并重新计算翻译概率来进行翻译概率的采样,获取回译过程中的模型不确定性,将文本句子向量表征与模型不确定性特征通过CrossAttention机制建模,计算得出结合句子文本向量表征和模型不确定性表征的隐藏层向量,能区分伪语料中噪声。
汉语-缅甸语互译模块:通过使用结合回译过程中模型不确定性训练好的汉语-缅甸语互译模型,实现汉语到缅甸语的翻译和缅甸语到汉语的翻译。
为了说明本发明的效果,本发明进行了如下实验:评价的方法是multi-bleu.perl脚本提供的BLEU计算方法。训练集是160k的汉缅双语平行语料,其中20k的汉缅双语平行语料来自于Asian Language Treebank(ALT),其余的来自于多语言圣经语料库以及人工收集,语料覆盖旅游,文学等领域。缅甸语的单语语料是维基百科上爬取的单语缅甸语文本段落,在分句,移除少于5个词,大于30个词的语句以后,缅甸语单语语料库规模为200k的缅甸语单语句子。测试集是训练集中截取查重后的5k双语平行语句。汉语和缅甸语的句子用分词粒度参数为16k的byte pair encoding进行预处理,汉语词典大小为10k,缅甸语词典大小为5k。本发明将计算不确定性约束的汉缅机器翻译算法应用在Transformer的基础上。使用参数设置β1=0.9,β2=0.98和∈=10-9的Adam优化器优化模型。我们使用参数设置warm_steps=4000的warm-up策略来调整学习率。在模型训练期间,lable smoothing的超参数∈ls=0.1。在训练和Monte Carlo Dropout的过程中,dropout的超参数设置为0.1,K设置成20在实验中,我们的超参数β设置为2,α,γ取值将在实验二详细讨论。所有试验在1NVIDIAGTX 2080Ti GPU上进行。
为了验证本发明提出的发明方法的效果,设计以下对比实验进行分析。在该数据集上进行了3组实验。
实验一、表明了
Figure BDA0003259409980000081
中α∶γ不同取值对实验结果的影响,实验结果如表1所示。
表1 α∶γ不同取值下模型不确定性注意力机制与Self-Attention融合比例实验结果,Encoder融合层数全为6层
Figure BDA0003259409980000082
由表可以得出α∶γ=0.6∶0.4的取值是一个粗糙的分界点,在α∶γ=0.6∶0.4取值的基础上减小Uncertainty Enc-Attention的融合比例会促进模型性能提升,初步探讨最大提升是当α∶γ=0.8∶0.2时最大提升值是24.72,较baseline提升了4.01个bleu点。由此可以看出α∶γ的不同取值对模型性能有不同的影响实验二、α∶γ=0.8∶0.2取值下模型不确定性注意力机制与Self-Attention在编码端融合层数探讨,实验结果如表2所示。
表2 α∶γ=0.8∶0.2取值下模型不确定性注意力机制与Self-Attention在编码端融合层数探讨
Figure BDA0003259409980000091
实验证明在模型编码端融入句子中词对齐的uncertaintybt对模型学习伪语料的句子表征是有实际意义的,在适当的Uncertainty Enc-Attention与Self-Attention融合比例下uncertaintybt可协助编码端更好的处理伪语料中的噪声,但是当α∶γ=0.6∶0.4时模型性能有较大幅度的下降,表明编码端融入过多的uncertaintybt表征会妨碍模型收敛,影响模型性能。进一步证明了编码端的Uncertainty Enc-Attention与Self-Attention融合比例和融合方式具有深远的可探讨意义。
表2表明了在α∶γ=0.8∶0.2取值下模型不确定性注意力机制融合在编码端不同层数对实验结果影响,由表可以得出,模型不确定性注意力机制融合在Transformer的编码端每一层时模型的效果是最好的。将模型不确定性注意力机制融合在编码端前三层和后三层效果差别不大,当模型不确定性注意力机制只融合在第一层时此方法带给模型提升较小。
实验三、为充分验证方法有效性,本发明设置对比实验如下:
(1)回译方法:利用有限的真实平行语料训练的神经机器翻译模型去生成的伪平行人造语料,再用得到的伪平行人造语料和真实平行语料一起训练模型的回译方法。
(2)迁移学习方法:利用学习好的父模型参数迁移到低资源子模型方法改善低资源语言翻译性能。
(3)CEV:利用基于模型不确定的词级别置信度和句子级别置信度改善回译性能。
(4)Transformer:我们将比较仅在Transformer模型上,不使用回译方法和模型不确定性方法的实验结果。
(5)结合实验二实验结果,此节实验本发明设置α∶γ=0.8∶0.2,模型不确定性注意力机制与Self-Attention融合编码端层数为6层。
表3主要实验结果
Figure BDA0003259409980000101
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.基于模型不确定性约束的半监督汉缅神经机器翻译方法,其特征在于:
所述方法的具体步骤如下:
Step1、对汉语-缅甸语文本数据进行预处理:将汉语-缅甸语文本数据进行数据清洗、编码转换、长度比过滤、分词处理;
Step2、模型不确定性注意力机制的获取:句子编码表征捕捉到上下文的模型不确定性值,编码时对模型不确定值较大词给予更多的关注;
Step3、模型不确定性为约束的汉缅神经机器翻译训练算法:将回译过程的模型不确定性融进Transformer编码端每一层表征,提升汉语-缅甸语回译任务翻译性能;
Step4、通过使用训练好的汉语-缅甸语互译模型,实现汉语到缅甸语的翻译和缅甸语到汉语的翻译。
2.根据权利要求1所述的基于模型不确定性约束的半监督汉缅神经机器翻译方法,其特征在于:所述Step1的具体步骤为:
Step1.1、汉语-缅甸语文本数据清洗:去除汉语、缅甸语文本中的乱码字符,规范标点符号表示方法;
Step1.2、缅甸语编码转换:缅甸语存在zawgyione字体、Myanmar3字体统一编码转换,变成Unicode字体;
Step1.3、长度比过滤:保留汉语比缅甸语句子长度比在1~1.5的句子,移除少于5个词,大于30个词的语句,用于提升模型训练效率;
Step1.4、分词:汉语-缅甸语双语平行句对用分词粒度为16K的BPE分词进行处理,所得汉语词典大小为10k,缅甸语词典大小为5k。
3.根据权利要求1所述的基于模型不确定性约束的半监督汉缅神经机器翻译方法,其特征在于:所述Step2的具体步骤为:
Step2.1、在回译过程中,给定一个真实的目标语言句子y,y∈{Dm},为了量化模型在预测时的模型不确定性,首先将词级别的翻译概率视作随机变量,通过随机停用NMT模型的部分神经元并重新计算翻译概率来进行翻译概率的采样,最终获得回译过程中的模型不确定性;
Step2.2、将文本句子向量表征与模型不确定性特征通过CrossAttention机制建模,计算得出结合句子文本向量表征和模型不确定性表征的隐藏层向量,能区分伪语料中噪声。
4.根据权利要求3所述的基于模型不确定性约束的半监督汉缅神经机器翻译方法,其特征在于:所述Step2.2的具体步骤为:
Step2.2.1、Transformer的核心是运用多头的Self-attention自注意力机制,每一个注意力机制头都是对n个元素的输入序列x=(x1,...,xn),其中
Figure FDA0003259409970000021
接着计算得出同样长度的序列c=(c1,...,cn),其中
Figure FDA0003259409970000022
Figure FDA0003259409970000023
标记文本句子向量特征,用
Figure FDA0003259409970000024
标记与文本句子词对齐的model-uncertainty,Uncertainty Enc-Attention表示为:
Figure FDA0003259409970000025
其中
Figure FDA0003259409970000026
是softmax函数计算的权重系数;
Step2.2.2、Uncertainty Enc-Attention最后计算得出结合句子文本向量表征和model-uncertainty表征的隐藏层向量c,其中
Figure FDA0003259409970000027
在Transformer编码端最后一层,c被送入解码端去产生目标语言序列,能区分伪语料中噪声的句子编码向量是用文本句子向量
Figure FDA0003259409970000028
与该句子词对齐的模型不确定性值向量
Figure FDA0003259409970000029
作注意力机制得到,这样句子编码表征能捕捉到上下文的模型不确定性值,在编码时能对模型不确定性值较大的词给予更多的关注,用于实现模型在编码过程中能更好的区分来自伪语料中的噪声数据。
5.根据权利要求1所述的基于模型不确定性约束的半监督汉缅神经机器翻译方法,其特征在于:所述Step3的具体步骤为:
Step3.1、汉缅神经机器翻译训练时,编码端编码方式为:
Figure FDA00032594099700000210
其中attnS和attnun是不同参数的注意力机制模型;
Step3.2、随后进一步送入非线性变换层FFN(·),在此得到了能够有效处理回译语料中噪声的编码向量:
Figure FDA00032594099700000211
最后编码端会输出最后一层的隐藏层状态
Figure FDA00032594099700000212
解码端是常规的transformer解码端,解码过程持续进行直到遇到结束的特殊字符为止。
6.基于模型不确定性约束的半监督汉缅神经机器翻译装置,其特征在于:包括用于执行如权利要求1-5任一项权利要求所述的方法的模块。
CN202111068294.8A 2021-09-13 2021-09-13 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置 Pending CN113901844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111068294.8A CN113901844A (zh) 2021-09-13 2021-09-13 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111068294.8A CN113901844A (zh) 2021-09-13 2021-09-13 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置

Publications (1)

Publication Number Publication Date
CN113901844A true CN113901844A (zh) 2022-01-07

Family

ID=79027923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111068294.8A Pending CN113901844A (zh) 2021-09-13 2021-09-13 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置

Country Status (1)

Country Link
CN (1) CN113901844A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970571A (zh) * 2022-06-23 2022-08-30 昆明理工大学 一种基于双判别器的汉泰伪平行句对生成方法
CN116977436A (zh) * 2023-09-21 2023-10-31 小语智能信息科技(云南)有限公司 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709245A (zh) * 2020-04-30 2020-09-25 昆明理工大学 基于语义自适应编码的汉-越伪平行句对抽取方法
CN112257460A (zh) * 2020-09-25 2021-01-22 昆明理工大学 基于枢轴的汉越联合训练神经机器翻译方法
CN112287688A (zh) * 2020-09-17 2021-01-29 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709245A (zh) * 2020-04-30 2020-09-25 昆明理工大学 基于语义自适应编码的汉-越伪平行句对抽取方法
CN112287688A (zh) * 2020-09-17 2021-01-29 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
CN112257460A (zh) * 2020-09-25 2021-01-22 昆明理工大学 基于枢轴的汉越联合训练神经机器翻译方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王琳钦 等: "基于模型不确定性约束的半监督汉缅神经机器翻译", 《第二十届中国计算语言学大会论文集》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970571A (zh) * 2022-06-23 2022-08-30 昆明理工大学 一种基于双判别器的汉泰伪平行句对生成方法
CN116977436A (zh) * 2023-09-21 2023-10-31 小语智能信息科技(云南)有限公司 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置
CN116977436B (zh) * 2023-09-21 2023-12-05 小语智能信息科技(云南)有限公司 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

Similar Documents

Publication Publication Date Title
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
CN111144131B (zh) 一种基于预训练语言模型的网络谣言检测方法
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN109948152A (zh) 一种基于lstm的中文文本语法纠错模型方法
CN113901844A (zh) 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN110704890A (zh) 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法
CN110929022A (zh) 一种文本摘要生成方法及系统
CN114912453A (zh) 基于增强序列特征的中文法律文书命名实体识别方法
CN113901831A (zh) 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN116796251A (zh) 一种基于图文多模态的不良网站分类方法、系统及设备
CN112257460A (zh) 基于枢轴的汉越联合训练神经机器翻译方法
CN110610006B (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
Lankford et al. Transformers for Low-Resource Languages: Is F\'eidir Linn!
CN113268576A (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN111680529A (zh) 一种基于层聚合的机器翻译算法及装置
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112989848B (zh) 一种领域适应医学文献神经机器翻译模型的训练方法
CN111832302A (zh) 一种命名实体识别方法和装置
Suissa et al. Toward a period-specific optimized neural network for OCR error correction of historical Hebrew texts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220107

RJ01 Rejection of invention patent application after publication