CN115329785B - 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 - Google Patents

融入音素特征的英-泰-老多语言神经机器翻译方法及装置 Download PDF

Info

Publication number
CN115329785B
CN115329785B CN202211262749.4A CN202211262749A CN115329785B CN 115329785 B CN115329785 B CN 115329785B CN 202211262749 A CN202211262749 A CN 202211262749A CN 115329785 B CN115329785 B CN 115329785B
Authority
CN
China
Prior art keywords
tai
language
phoneme
english
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211262749.4A
Other languages
English (en)
Other versions
CN115329785A (zh
Inventor
毛存礼
高盛祥
张勇丙
王琳钦
王振晗
沈政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoyu Intelligent Information Technology Yunnan Co ltd
Original Assignee
Xiaoyu Intelligent Information Technology Yunnan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaoyu Intelligent Information Technology Yunnan Co ltd filed Critical Xiaoyu Intelligent Information Technology Yunnan Co ltd
Priority to CN202211262749.4A priority Critical patent/CN115329785B/zh
Publication of CN115329785A publication Critical patent/CN115329785A/zh
Application granted granted Critical
Publication of CN115329785B publication Critical patent/CN115329785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及融入音素特征的英‑泰‑老多语言神经机器翻译方法及装置,属于自然语言处理技术领域。泰语和老挝语属于低资源语言,多语言神经机器翻译方法可以有效提升其翻译质量。针对泰老之间字符差异较大导致现有方法难以得到统一词表征形式的问题,本发明提出了一种融入音素特征的英‑泰‑老多语言神经机器翻译方法,主要包括文本数据预处理以及音素的生成与处理、融入音素特征的英‑泰‑老多语言神经机器翻译方法、英‑泰‑老多语言神经机器翻译三部分。根据这三个功能模块化制成融入音素特征的英‑泰‑老多语言神经机器翻译装置,对输入的泰语或老挝语进行翻译,本发明有效提升了英泰老多语言机器翻译效果。

Description

融入音素特征的英-泰-老多语言神经机器翻译方法及装置
技术领域
本发明涉及融入音素特征的英-泰-老多语言神经机器翻译方法及装置,属于自然语言处理技术领域。
背景技术
多语言神经机器翻译(MNMT)在低资源语言翻译上取得了较好的效果,相比单独训练双语翻译模型,MNMT能够通过共享跨语言知识来提升资源稀缺语言的机器翻译性能。然而,在如何利用语言之间特有的知识上仍有较大的研究空间。
现有方法在进行多语言词表征时,由于不同语言之间字符差异性较大难以得到统一的词表征形式,例如,泰语和老挝语属于孤立型语言,不具备天然分词,在机器翻译模型训练的过程中,泰语、老挝语和英语之间的语言差异性极大,仅仅通过联合训练或参数共享的方式无法得到准确的语义表征。泰语和老挝语都属于汉藏语系壮侗语族的壮傣语支,在构词特点、词语音素以及句法结构上都有相同或相似的地方,特别是在音素层面上,大部分具有相同含义的泰语、老挝语音素相同。泰语和老挝语句法结构基本一致,都属于主语-谓语-宾语(Subject-Verb-Object, SVO)的结构,音素也有较高的相似度,如汉语“去”对应的老挝语音素pai-khao和泰语音素pai-khao相同,并且,汉语“我”和“厕所”对应的泰语、老挝语音素也具备一定的相似性,这说明泰语、老挝语两种语言在音素层面上存在大量的一致性。相似性高的语言进行多语言联合训练时,该特性有助于提高翻译模型性能,这是因为模型在训练过程中能自动学习到语言在句法、词法等层面上的相似特征。针对以上问题,本发明提出了融入音素特征的英-泰-老多语言神经机器翻译方法。
发明内容
本发明提供了融入音素特征的英-泰-老多语言神经机器翻译方法及装置,以缓解泰语和老挝语数据稀缺以及词表征不统一的问题,提高英泰老多语言机器翻译效果。
本发明的技术方案是:第一方面,基于融入音素特征的英-泰-老多语言神经机器翻译方法,所述融入音素特征的英-泰-老多语言神经机器翻译方法的具体步骤如下:
Step1、数据预处理:多语言联合训练可以有效提升低资源翻译效果,但是泰语和老挝语字符差异较大,无法得到统一的词表征形式,因此结合音素级别的语言相似性特点,将文本转化为对应的音素,利用音素特征拉近语义距离,同时本发明使用BPE方法进行分词,使泰-老音素特征可以联合学习;
Step2、融入音素特征的英-泰-老多语言神经机器翻译模型训练:针对泰语和老挝语字符差异较大的问题,利用语言相似性能够拉近语义距离,设计音素特征表示模块和泰老文本表示模块,基于交叉注意力机制得到融合音素特征后的泰老文本表示,拉近泰老之间的语义距离,针对多语言联合训练会造成模型过度泛化的问题,基于参数分化策略对模型进行微调;
Step3、英-泰-老多语言神经机器翻译:通过调用服务器上部署的英-泰-老多语言神经机器翻译模型能够高效将泰语和老挝语翻译成英语。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、本发明的文本数据来源于亚洲语言树库(ALT),泰-英和老-英分别有20106条平行句对。由于该数据集没有划分训练集、验证集和测试集,本发明选取泰-英和老-英数据各1000条作为验证集,取1106条作为测试集,剩余的18000条作为训练集。利用G2P(字符转音素)工具将泰语和老挝语文本转化成对应的音素序列。例如将泰语文本“
Figure 10000247578853
”转化为音素序列“pai-khao”,将对应的老挝语文本“
Figure 10000247622493
”转化为音素序列“pai-khao”;
Step1.2、为了对泰-老音素特征联合学习,对所有训练数据中的文本和音素进行联合BPE,共享词表大小设置为4000,再利用该词表分别对所有数据分子词,以便后续模型进行特征学习;
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、给定一个泰语或老挝语句子为
Figure 100002_DEST_PATH_IMAGE006
,其中n为文本x的序列长度,文本序列通过带有位置嵌入的传统嵌入层得到其词向量表征
Figure 100002_DEST_PATH_IMAGE008
,计算如下:
Figure 100002_DEST_PATH_IMAGE010
其中,
Figure 100002_DEST_PATH_IMAGE012
为文本序列词嵌入层,
Figure 100002_DEST_PATH_IMAGE014
为文本位置嵌入层,
Figure 100002_DEST_PATH_IMAGE016
Figure 100002_DEST_PATH_IMAGE018
为模型隐藏层维度;
Step2.2、对于文本序列x对应的音素序列
Figure 100002_DEST_PATH_IMAGE020
,其中m为音素
Figure 100002_DEST_PATH_IMAGE022
的序列长度,音素序列通过带有位置嵌入的传统嵌入层得到其词向量表征
Figure 100002_DEST_PATH_IMAGE024
,计算如下:
Figure 100002_DEST_PATH_IMAGE026
其中,
Figure 100002_DEST_PATH_IMAGE028
为音素序列词嵌入层,
Figure 100002_DEST_PATH_IMAGE030
为音素位置嵌入层,
Figure 100002_DEST_PATH_IMAGE032
Step2.3、为了拉近老挝语和泰语的语义距离,通过交叉注意力机制将音素特征融入泰老文本表示;首先,文本词向量表征
Figure 100002_DEST_PATH_IMAGE034
经过自注意力层后计算得到源语言序列上下文向量
Figure 100002_DEST_PATH_IMAGE036
Figure 100002_DEST_PATH_IMAGE038
其中Multihead为多头注意力机制,计算如下:
Figure 100002_DEST_PATH_IMAGE040
Step2.4、文本词向量表征
Figure 100002_DEST_PATH_IMAGE042
为查询向量,音素词向量表征
Figure 100002_DEST_PATH_IMAGE044
为键向量和值向量,经过音素-文本交叉注意力机制得到融入音素特征的文本表示
Figure 100002_DEST_PATH_IMAGE046
,并采用加权的方式与
Figure 100002_DEST_PATH_IMAGE048
进行融合,最后使用位置前馈网络FFN更新序列每个位置的状态,得到
Figure 100002_DEST_PATH_IMAGE050
Figure 100002_DEST_PATH_IMAGE052
其中
Figure 100002_DEST_PATH_IMAGE054
是超参数;
Step2.5、本发明解码器采用传统的Transformer框架,每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成。与泰老文本表示模块类似,首先将泰语或老挝语句子x对应的英语句子
Figure 100002_DEST_PATH_IMAGE056
进行词向量表征得到
Figure 100002_DEST_PATH_IMAGE058
,其中z为目标语言序列长度;
Figure 100002_DEST_PATH_IMAGE060
Step2.6、经过多层解码器之后,将解码器最后一层的输出作为softmax层的输入,并预测目标句子的概率分布:
Figure 100002_DEST_PATH_IMAGE062
其中
Figure 100002_DEST_PATH_IMAGE064
和b是模型参数。
Step2.7、根据标签值和预测值的差异计算多语言联合损失,并通过反向传播对模型进行调优,迭代训练直到模型收敛,目标函数如下:
Figure 100002_DEST_PATH_IMAGE066
其中,D是训练语料中所有平行句对的集合,
Figure 100002_DEST_PATH_IMAGE068
是模型中所有参数的集合,L表示模型联合训练的语言对总数,N表示目标语言句子长度,
Figure 100002_DEST_PATH_IMAGE070
表示训练语料中属于第l个语言对的平行句对数量,
Figure 100002_DEST_PATH_IMAGE072
表示第l语言对中第d个句子的第t个单词的翻译概率,
Figure 100002_DEST_PATH_IMAGE074
表示模型中编码器的参数,
Figure 100002_DEST_PATH_IMAGE076
表示模型中解码器的参数,
Figure 100002_DEST_PATH_IMAGE078
表示模型中注意力机制的参数。
Step2.8、考虑到不同语言之间的参数干扰问题,本发明基于该思想对模型进行微调,即针对训练好的模型,分别利用泰语-英语和老挝语-英语的验证集获取两个语言对在各个参数上的梯度,并依此计算各个参数上两个语言对梯度的余弦相似度,公式如下:
Figure 100002_DEST_PATH_IMAGE080
其中,
Figure 100002_DEST_PATH_IMAGE082
是模型第i个参数,
Figure 100002_DEST_PATH_IMAGE084
指老挝语到英语的翻译任务,
Figure 100002_DEST_PATH_IMAGE086
指泰语到英语的翻译任务,
Figure DEST_PATH_IMAGE088
是任务
Figure DEST_PATH_IMAGE090
Figure 184610DEST_PATH_IMAGE082
上的梯度;
Step2.9、模型每微调一定步数计算一次梯度,并对
Figure 109710DEST_PATH_IMAGE090
Figure 754318DEST_PATH_IMAGE086
梯度相似度较低的参数进行分离,即
Figure 820494DEST_PATH_IMAGE090
Figure 575960DEST_PATH_IMAGE086
的该参数不再共享,两个任务分别针对该参数微调,直到模型再次全局收敛。
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、将输入的文本转化出对应的音素,并根据词表利用BPE对文本和音素进行分词操作,最后将文本和音素的子词序列转化为对应id,以便对其进行向量表示。
Step3.2、将训练出的“.pt”格式模型部署到服务器端上,从而实现通过Web多用户并发请求的功能。
Step3.3、在Web端调用部署到服务器端的英-泰-老多语言神经机器翻译模型,来测试输入的文本,进而得到准确值高的泰语和老挝语翻译结果。
第二方面,提供一种融入音素特征的英-泰-老多语言神经机器翻译装置,包括如下模块:
文本数据预处理以及音素的生成与处理模块,用于实现以下功能:用于结合音素级别的语言相似性特点,将文本转化为对应的音素,利用音素特征拉近语义距离,同时使用BPE方法进行分词,使泰-老音素特征能联合学习;
融入音素特征的英-泰-老多语言神经机器翻译模型训练模块:用于利用语言相似性能拉近语义距离,设计音素特征表示模块和泰老文本表示模块,基于交叉注意力机制得到融合音素特征后的泰老文本表示,拉近泰老之间的语义距离,针对多语言联合训练会造成模型过度泛化的问题,基于参数分化策略对模型进行微调;
英-泰-老多语言神经机器翻译模块:用于通过调用服务器上部署的英-泰-老多语言神经机器翻译模型能高效将泰语和老挝语翻译成英语。
本发明的有益效果是:
1、本发明提出了联合泰语、老挝语音素特征和文本表示方法,基于交叉注意力机制进一步学习融合音素特征后的文本表示,进一步拉近了泰语、老挝语之间的语义表征距离。
2、本发明基于参数分化策略,保留不同语言对之间特定的训练参数,通过微调的方式有效改善了模型翻译性能,降低不同语言对参数的干扰,缓解了联合训练造成的模型过度泛化问题。
附图说明
图1为本发明中融合音素特征的多语言神经机器翻译模型框架图;
图2为本发明中基于交叉注意力机制的音素-文本表示模块图;
图3为本发明中融入音素特征的英-泰-老多语言神经机器翻译方法整体流程图。
具体实施方式
实施例1:如图1-图3所示,融入音素特征的英-泰-老多语言神经机器翻译方法,所述融入音素特征的英-泰-老多语言神经机器翻译方法的具体步骤如下:
Step1、数据预处理:多语言联合训练可以有效提升低资源翻译效果,但是泰语和老挝语字符差异较大,无法得到统一的词表征形式,本发明结合其音素级别的语言相似性特点,将文本转化为对应的音素,利用音素特征拉近语义距离,同时本发明使用BPE方法进行分词,使泰-老音素特征可以联合学习;
Step2、融入音素特征的英-泰-老多语言神经机器翻译模型训练:针对泰语和老挝语字符差异较大的问题,考虑利用语言相似性能够拉近语义距离,设计音素特征表示模块和泰老文本表示模块,基于交叉注意力机制得到融合音素特征后的泰老文本表示,拉近泰老之间的语义距离,针对多语言联合训练会造成模型过度泛化的问题,基于参数分化策略对模型进行微调;
Step3、英-泰-老多语言神经机器翻译:通过调用服务器上部署的英-泰-老多语言神经机器翻译模型能够高效将泰语和老挝语翻译成英语。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、本发明的文本数据来源于亚洲语言树库(ALT),泰-英和老-英分别有20106条平行句对。由于该数据集没有划分训练集、验证集和测试集,本发明选取泰-英和老-英数据各1000条作为验证集,取1106条作为测试集,剩余的18000条作为训练集。利用G2P(字符转音素)工具将泰语和老挝语文本转化成对应的音素序列。例如将泰语文本“
Figure 10000247777829
”转化为音素序列“pai-khao”,将对应的老挝语文本“
Figure 10000247811181
”转化为音素序列“pai-khao”;
Step1.2、为了对泰-老音素特征联合学习,本发明对所有训练数据中的文本和音素进行联合BPE,共享词表大小设置为4000,再利用该词表分别对所有数据分子词,以便后续模型进行特征学习;
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、给定一个泰语或老挝语句子为
Figure DEST_PATH_IMAGE091
,其中n为文本x的序列长度,文本序列通过带有位置嵌入的传统嵌入层得到其词向量表征
Figure DEST_PATH_IMAGE092
,计算如下:
Figure DEST_PATH_IMAGE093
其中,
Figure DEST_PATH_IMAGE094
为文本序列词嵌入层,
Figure 358496DEST_PATH_IMAGE014
为文本位置嵌入层,
Figure 95377DEST_PATH_IMAGE016
Figure 773483DEST_PATH_IMAGE018
为模型隐藏层维度;
Step2.2、对于文本序列x对应的音素序列
Figure DEST_PATH_IMAGE095
,其中m为音素
Figure 660536DEST_PATH_IMAGE022
的序列长度,音素序列通过带有位置嵌入的传统嵌入层得到其词向量表征
Figure 107698DEST_PATH_IMAGE024
,计算如下:
Figure 500633DEST_PATH_IMAGE026
其中,
Figure 793599DEST_PATH_IMAGE028
为音素序列词嵌入层,
Figure 890868DEST_PATH_IMAGE030
为音素位置嵌入层,
Figure 395798DEST_PATH_IMAGE032
Step2.3、为了拉近老挝语和泰语的语义距离,通过交叉注意力机制将音素特征融入泰老文本表示;首先,文本词向量表征
Figure 146586DEST_PATH_IMAGE034
经过自注意力层后计算得到源语言序列上下文向量
Figure 64863DEST_PATH_IMAGE036
Figure 637927DEST_PATH_IMAGE038
其中Multihead为多头注意力机制,计算如下:
Figure DEST_PATH_IMAGE096
Step2.4、文本词向量表征
Figure 449894DEST_PATH_IMAGE042
为查询向量,音素词向量表征
Figure 450211DEST_PATH_IMAGE044
为键向量和值向量,经过音素-文本交叉注意力机制得到融入音素特征的文本表示
Figure 449260DEST_PATH_IMAGE046
,并采用加权的方式与
Figure 826015DEST_PATH_IMAGE048
进行融合,最后使用位置前馈网络FFN更新序列每个位置的状态,得到
Figure 367854DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE097
其中
Figure 932215DEST_PATH_IMAGE054
是超参数;
Step2.5、本发明解码器采用传统的Transformer框架,每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成。与泰老文本表示模块类似,首先将泰语或老挝语句子x对应的英语句子
Figure 293927DEST_PATH_IMAGE056
进行词向量表征得到
Figure 661323DEST_PATH_IMAGE058
,其中z为目标语言序列长度;
Figure DEST_PATH_IMAGE098
Step2.6、经过多层解码器之后,将解码器最后一层的输出作为softmax层的输入,并预测目标句子的概率分布:
Figure 995352DEST_PATH_IMAGE062
其中
Figure 790002DEST_PATH_IMAGE064
和b是模型参数。
Step2.7、根据标签值和预测值的差异计算多语言联合损失,并通过反向传播对模型进行调优,迭代训练直到模型收敛,目标函数如下:
Figure 576692DEST_PATH_IMAGE066
其中,D是训练语料中所有平行句对的集合,
Figure 91987DEST_PATH_IMAGE068
是模型中所有参数的集合,L表示模型联合训练的语言对总数,N表示目标语言句子长度,
Figure 733053DEST_PATH_IMAGE070
表示训练语料中属于第l个语言对的平行句对数量,
Figure 246074DEST_PATH_IMAGE072
表示第l语言对中第d个句子的第t个单词的翻译概率,
Figure 847956DEST_PATH_IMAGE074
表示模型中编码器的参数,
Figure 306225DEST_PATH_IMAGE076
表示模型中解码器的参数,
Figure 349267DEST_PATH_IMAGE078
表示模型中注意力机制的参数。
Step2.8、考虑到不同语言之间的参数干扰问题,本发明基于该思想对模型进行微调,即针对训练好的模型,分别利用泰语-英语和老挝语-英语的验证集获取两个语言对在各个参数上的梯度,并依此计算各个参数上两个语言对梯度的余弦相似度,公式如下:
Figure DEST_PATH_IMAGE099
其中,
Figure 751298DEST_PATH_IMAGE082
是模型第i个参数,
Figure 247002DEST_PATH_IMAGE084
指老挝语到英语的翻译任务,
Figure 369678DEST_PATH_IMAGE086
指泰语到英语的翻译任务,
Figure 719757DEST_PATH_IMAGE088
是任务
Figure 574581DEST_PATH_IMAGE090
Figure 885476DEST_PATH_IMAGE082
上的梯度;
Step2.9、模型每微调一定步数计算一次梯度,并对
Figure 936478DEST_PATH_IMAGE090
Figure 688533DEST_PATH_IMAGE086
梯度相似度较低的参数进行分离,即
Figure 42154DEST_PATH_IMAGE090
Figure 764647DEST_PATH_IMAGE086
的该参数不再共享,两个任务分别针对该参数微调,直到模型再次全局收敛。
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、将输入的文本转化出对应的音素,并根据词表利用BPE对文本和音素进行分词操作,最后将文本和音素的子词序列转化为对应id,以便对其进行向量表示。
Step3.2、将训练出的“.pt”格式模型部署到服务器端上,从而实现通过Web多用户并发请求的功能。
Step3.3、在Web端调用部署到服务器端的英-泰-老多语言神经机器翻译模型,来测试输入的文本,进而得到准确值高的泰语和老挝语翻译结果。
根据本发明的构思,本发明还提供了一种融入音素特征的英-泰-老多语言神经机器翻译装置,如图3所示,该装置包括如下集成模块:
文本数据预处理以及音素的生成与处理模块,用于实现以下功能:用于结合音素级别的语言相似性特点,将文本转化为对应的音素,利用音素特征拉近语义距离,同时使用BPE方法进行分词,使泰-老音素特征能联合学习;
融入音素特征的英-泰-老多语言神经机器翻译模型训练模块:用于利用语言相似性能拉近语义距离,设计音素特征表示模块和泰老文本表示模块,基于交叉注意力机制得到融合音素特征后的泰老文本表示,拉近泰老之间的语义距离,针对多语言联合训练会造成模型过度泛化的问题,基于参数分化策略对模型进行微调;
英-泰-老多语言神经机器翻译模块:用于通过调用服务器上部署的英-泰-老多语言神经机器翻译模型能高效将泰语和老挝语翻译成英语。
为了验证本发明提出的融入音素特征的英-泰-老多语言神经机器翻译方法的效果,设计了对比实验和消融实验。
表1 一对一及多对一翻译场景下的实验结果
Figure DEST_PATH_IMAGE101
实验如表1所示,在一对一的翻译场景下,基于Transformer框架在老-英和泰-英翻译方向上BLEU值分别达到了9.72和14.70。在多对一的翻译场景下,所有模型相比一对一场景下的BLEU值均有明显提升,其中,本发明提出的方法在老-英和泰-英翻译方向上BLEU值分别达到了15.40和17.99,取得了最高水平,在老-英和泰-英翻译方向上BLEU值分别提升了5.68和3.29,这说明利用MNMT方法将老挝语-英语和泰语-英语联合训练,可以通过知识迁移有效缓解老挝语和泰语数据稀缺导致的模型翻译性能不佳的问题。
此外,本发明方法相比Multi-Source在老-英和泰-英翻译方向上BLEU值分别提升了2.65和1.86,这说明共享编码器可以有效利用泰老语言相似性,提升模型翻译效果。相比Adapter,本发明方法在老-英和泰-英翻译方向上BLEU值分别提升了0.87和1.20,这说明低资源情况下单独训练额外参数效果不佳,本发明采用微调语言特定模块的方式,避免了引入额外参数。相比PD,本发明方法在老-英和泰-英翻译方向上BLEU值分别提升了1.36和1.63,这说明该方法会过早分离模型参数从而导致模型知识迁移不充分,本发明通过将参数分化思想应用到微调阶段缓解了该问题。相比Lass,本发明方法在老-英和泰-英翻译方向上BLEU值分别提升了2.86和2.75,这说明该方法依赖大规模的模型参数和训练数据,在低资源情况下会出现过度裁剪而丢失部分共有参数的问题,本发明通过微调的方式在学习语言特定知识的同时保留了语言相似特征。相比Baseline,本发明方法在老-英和泰-英翻译方向上BLEU值分别提升了0.97和0.99,说明本发明方法可以有效拉近泰老之间的语义距离并缓解联合训练造成的模型过度泛化的问题,提升翻译模型性能。
表2是设计了去除音素特征、去除基于参数分化的微调策略的消融实验,其它层保持不变进行模型训练。
表2 消融实验
方法 老-英
Figure DEST_PATH_IMAGE103
泰-英
Figure 100002_DEST_PATH_IMAGE004
Baseline 14.43 - 17.00 -
Baseline+音素 15.13 +0.70 17.74 +0.74
Baseline+参数分化 14.64 +0.21 17.23 +0.23
Baseline+音素+参数分化 15.40 +0.97 17.99 +0.99
实验结果表明,融入音素特征使模型在老-英和泰-英翻译方向上BLEU值分别提升了0.70和0.74,说明该方法可以有效拉近泰老之间的语义距离,缓解泰老字符差异较大导致的词表征形式不同意的问题,大幅提升模型翻译效果。基于参数分化思想的微调策略使模型在老-英和泰-英翻译方向上BLEU值分别提升了0.21和0.23,说明该方法可以学习到语言特定知识,缓解联合训练造成模型过度泛化的问题,进一步提升模型性能。基线模型+音素的方式相比基线模型+参数分化的方式,在老-英和泰-英翻译方向上的BLEU值提升更为明显,说明本发明提出的方法对翻译性能带来的提升更依赖于泰语和老挝语之间的音素相似性,进一步说明在多语言神经机器翻译中,有效利用语言之间的相似性能够提升机器翻译性能。两种方法可同时使用,此时模型效果达到最佳,在老-英和泰-英翻译方向上BLEU值分别提升了0.97和0.99,充分证明了本发明方法的有效性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.融入音素特征的英-泰-老多语言神经机器翻译方法,其特征在于:
所述融入音素特征的英-泰-老多语言神经机器翻译方法的具体步骤如下:
Step1、数据预处理:结合音素级别的语言相似性特点,将文本转化为对应的音素,利用音素特征拉近语义距离,同时使用BPE方法进行分词,使泰-老音素特征能联合学习;
Step2、融入音素特征的英-泰-老多语言神经机器翻译模型训练:利用语言相似性能拉近语义距离,设计音素特征表示模块和泰老文本表示模块,基于交叉注意力机制得到融合音素特征后的泰老文本表示,拉近泰老之间的语义距离,针对多语言联合训练会造成模型过度泛化的问题,基于参数分化策略对模型进行微调;
Step3、英-泰-老多语言神经机器翻译:通过调用服务器上部署的英-泰-老多语言神经机器翻译模型将泰语和老挝语翻译成英语。
2.根据权利要求1所述的融入音素特征的英-泰-老多语言神经机器翻译方法,其特征在于:所述Step1的具体步骤为:
Step1.1、文本数据来源于亚洲语言树库ALT,泰-英和老-英分别有20106条平行句对;由于该数据集没有划分训练集、验证集和测试集,选取泰-英和老-英数据各1000条作为验证集,取1106条作为测试集,剩余的18000条作为训练集;利用G2P字符转音素工具将泰语和老挝语文本转化成对应的音素序列;
Step1.2、为了对泰-老音素特征联合学习,对所有训练数据中的文本和音素进行联合BPE,共享词表大小设置为4000,再利用该词表分别对所有数据分子词,以便后续模型进行特征学习。
3.根据权利要求1所述的融入音素特征的英-泰-老多语言神经机器翻译方法,其特征在于:所述Step2的具体步骤为:
Step2.1、给定一个泰语或老挝语句子为
Figure DEST_PATH_IMAGE002
,其中n为文本x的序列长度,文本序列通过带有位置嵌入的传统嵌入层得到其词向量表征
Figure DEST_PATH_IMAGE004
,计算如下:
Figure DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE008
为文本序列词嵌入层,
Figure DEST_PATH_IMAGE010
为文本位置嵌入层,
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
为模型隐藏层维度;
Step2.2、对于文本序列x对应的音素序列
Figure DEST_PATH_IMAGE016
,其中m为音素
Figure DEST_PATH_IMAGE018
的序列长度,音素序列通过带有位置嵌入的传统嵌入层得到其词向量表征
Figure DEST_PATH_IMAGE020
,计算如下:
Figure DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE024
为音素序列词嵌入层,
Figure DEST_PATH_IMAGE026
为音素位置嵌入层,
Figure DEST_PATH_IMAGE028
Step2.3、为了拉近老挝语和泰语的语义距离,通过交叉注意力机制将音素特征融入泰老文本表示;首先,文本词向量表征
Figure DEST_PATH_IMAGE030
经过自注意力层后计算得到源语言序列上下文向量
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
其中Multihead为多头注意力机制,计算如下:
Figure DEST_PATH_IMAGE036
Step2.4、文本词向量表征
Figure DEST_PATH_IMAGE038
为查询向量,音素词向量表征
Figure DEST_PATH_IMAGE040
为键向量和值向量,经过音素-文本交叉注意力机制得到融入音素特征的文本表示
Figure DEST_PATH_IMAGE042
,并采用加权的方式与
Figure DEST_PATH_IMAGE044
进行融合,最后使用位置前馈网络FFN更新序列每个位置的状态,得到
Figure DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE048
其中
Figure DEST_PATH_IMAGE050
是超参数;
Step2.5、解码器采用传统的Transformer框架,每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成;与泰老文本表示模块类似,首先将泰语或老挝语句子x对应的英语句子
Figure DEST_PATH_IMAGE052
进行词向量表征得到
Figure DEST_PATH_IMAGE054
,其中z为目标语言序列长度;
Figure DEST_PATH_IMAGE056
Step2.6、经过多层解码器之后,将解码器最后一层的输出作为softmax层的输入,并预测目标句子的概率分布:
Figure DEST_PATH_IMAGE058
其中
Figure DEST_PATH_IMAGE060
和b是模型参数;
Step2.7、根据标签值和预测值的差异计算多语言联合损失,并通过反向传播对模型进行调优,迭代训练直到模型收敛,目标函数如下:
Figure DEST_PATH_IMAGE062
其中,D是训练语料中所有平行句对的集合,
Figure DEST_PATH_IMAGE064
是模型中所有参数的集合,L表示模型联合训练的语言对总数,N表示目标语言句子长度,
Figure DEST_PATH_IMAGE066
表示训练语料中属于第l个语言对的平行句对数量,
Figure DEST_PATH_IMAGE068
表示第l语言对中第d个句子的第t个单词的翻译概率,
Figure DEST_PATH_IMAGE070
表示模型中编码器的参数,
Figure DEST_PATH_IMAGE072
表示模型中解码器的参数,
Figure DEST_PATH_IMAGE074
表示模型中注意力机制的参数;
Step2.8、对模型进行微调,即针对训练好的模型,分别利用泰语-英语和老挝语-英语的验证集获取两个语言对在各个参数上的梯度,并依此计算各个参数上两个语言对梯度的余弦相似度,公式如下:
Figure DEST_PATH_IMAGE076
其中,
Figure DEST_PATH_IMAGE078
是模型第i个参数,
Figure DEST_PATH_IMAGE080
指老挝语到英语的翻译任务,
Figure DEST_PATH_IMAGE082
指泰语到英语的翻译任务,
Figure DEST_PATH_IMAGE084
是任务
Figure DEST_PATH_IMAGE086
Figure 291973DEST_PATH_IMAGE078
上的梯度;
Step2.9、模型每微调一定步数计算一次梯度,并对
Figure 5851DEST_PATH_IMAGE086
Figure 520009DEST_PATH_IMAGE082
梯度相似度较低的参数进行分离,即
Figure 836590DEST_PATH_IMAGE086
Figure 385383DEST_PATH_IMAGE082
的该参数不再共享,两个任务分别针对该参数微调,直到模型再次全局收敛。
4.根据权利要求1所述的融入音素特征的英-泰-老多语言神经机器翻译方法,其特征在于:所述Step3的具体步骤为:
Step3.1、将输入的文本转化出对应的音素,并根据词表利用BPE对文本和音素进行分词操作,最后将文本和音素的子词序列转化为对应id,以便对其进行向量表示;
Step3.2、将训练出的“.pt”格式模型部署到服务器端上,从而实现通过Web多用户并发请求的功能;
Step3.3、在Web端调用部署到服务器端的英-泰-老多语言神经机器翻译模型,来测试输入的文本,进而得到准确值高的泰语和老挝语翻译结果。
5.融入音素特征的英-泰-老多语言神经机器翻译装置,其特征在于:包括用于执行如权利要求1-4任一项权利要求所述方法的模块。
CN202211262749.4A 2022-10-15 2022-10-15 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 Active CN115329785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211262749.4A CN115329785B (zh) 2022-10-15 2022-10-15 融入音素特征的英-泰-老多语言神经机器翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211262749.4A CN115329785B (zh) 2022-10-15 2022-10-15 融入音素特征的英-泰-老多语言神经机器翻译方法及装置

Publications (2)

Publication Number Publication Date
CN115329785A CN115329785A (zh) 2022-11-11
CN115329785B true CN115329785B (zh) 2023-01-20

Family

ID=83914629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211262749.4A Active CN115329785B (zh) 2022-10-15 2022-10-15 融入音素特征的英-泰-老多语言神经机器翻译方法及装置

Country Status (1)

Country Link
CN (1) CN115329785B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822517B (zh) * 2023-08-29 2023-11-10 百舜信息技术有限公司 一种多语言翻译的术语识别方法
CN116822495B (zh) * 2023-08-31 2023-11-03 小语智能信息科技(云南)有限公司 基于对比学习的汉-老、泰平行句对抽取方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632485A (zh) * 2015-12-28 2016-06-01 浙江大学 一种基于语种识别系统的语言距离关系的获取方法
CN105723362A (zh) * 2013-10-28 2016-06-29 余自立 自然表达处理方法、处理及回应方法、设备及系统
CN106328127A (zh) * 2015-06-30 2017-01-11 三星电子株式会社 语音识别设备,语音识别方法和电子装置
CN108170686A (zh) * 2017-12-29 2018-06-15 科大讯飞股份有限公司 文本翻译方法及装置
CN110457719A (zh) * 2019-10-08 2019-11-15 北京金山数字娱乐科技有限公司 一种翻译模型结果重排序的方法及装置
JP2020126493A (ja) * 2019-02-05 2020-08-20 富士通株式会社 対訳処理方法および対訳処理プログラム
CN112183106A (zh) * 2020-09-03 2021-01-05 广发证券股份有限公司 一种基于音素联想及深度学习的语义理解方法及装置
CN112329485A (zh) * 2020-11-23 2021-02-05 深圳云译科技有限公司 翻译方法、装置、系统及存储介质
CN112562640A (zh) * 2020-12-01 2021-03-26 北京声智科技有限公司 多语言语音识别方法、装置、系统及计算机可读存储介质
CN113823259A (zh) * 2021-07-22 2021-12-21 腾讯科技(深圳)有限公司 将文本数据转换为音素序列的方法及设备
CN113887480A (zh) * 2021-10-19 2022-01-04 小语智能信息科技(云南)有限公司 基于多解码器联合学习的缅甸语图像文本识别方法及装置
WO2022038692A1 (ja) * 2020-08-19 2022-02-24 日本電信電話株式会社 変換装置、変換方法、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019139431A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
CN112352275A (zh) * 2018-12-13 2021-02-09 微软技术许可有限责任公司 具有多级别文本信息的神经文本到语音合成
US11113859B1 (en) * 2019-07-10 2021-09-07 Facebook Technologies, Llc System and method for rendering three dimensional face model based on audio stream and image data
CN110717341B (zh) * 2019-09-11 2022-06-14 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN112489618A (zh) * 2019-09-12 2021-03-12 微软技术许可有限责任公司 利用多级别上下文特征的神经文本到语音合成
CN113627150B (zh) * 2021-07-01 2022-12-20 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105723362A (zh) * 2013-10-28 2016-06-29 余自立 自然表达处理方法、处理及回应方法、设备及系统
CN106328127A (zh) * 2015-06-30 2017-01-11 三星电子株式会社 语音识别设备,语音识别方法和电子装置
CN105632485A (zh) * 2015-12-28 2016-06-01 浙江大学 一种基于语种识别系统的语言距离关系的获取方法
CN108170686A (zh) * 2017-12-29 2018-06-15 科大讯飞股份有限公司 文本翻译方法及装置
JP2020126493A (ja) * 2019-02-05 2020-08-20 富士通株式会社 対訳処理方法および対訳処理プログラム
CN110457719A (zh) * 2019-10-08 2019-11-15 北京金山数字娱乐科技有限公司 一种翻译模型结果重排序的方法及装置
WO2022038692A1 (ja) * 2020-08-19 2022-02-24 日本電信電話株式会社 変換装置、変換方法、およびプログラム
CN112183106A (zh) * 2020-09-03 2021-01-05 广发证券股份有限公司 一种基于音素联想及深度学习的语义理解方法及装置
CN112329485A (zh) * 2020-11-23 2021-02-05 深圳云译科技有限公司 翻译方法、装置、系统及存储介质
CN112562640A (zh) * 2020-12-01 2021-03-26 北京声智科技有限公司 多语言语音识别方法、装置、系统及计算机可读存储介质
CN113823259A (zh) * 2021-07-22 2021-12-21 腾讯科技(深圳)有限公司 将文本数据转换为音素序列的方法及设备
CN113887480A (zh) * 2021-10-19 2022-01-04 小语智能信息科技(云南)有限公司 基于多解码器联合学习的缅甸语图像文本识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Computer Speech & Language》;Qianchen等;《INTERSPEECH 2021》;20210903;1244-1248 *
n integrating a language model into neural machine translation;n integrating a language model into neural machine translation;《Computer Speech & Language》;20170930;137-148 *
主观题自动评分研究——回顾、反思与展望;江进林等;《中国外语》;20211101;58-64 *

Also Published As

Publication number Publication date
CN115329785A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN108920473B (zh) 一种基于同类词与同义词替换的数据增强机器翻译方法
CN115329785B (zh) 融入音素特征的英-泰-老多语言神经机器翻译方法及装置
Zhang et al. Style transfer as unsupervised machine translation
CN111382580B (zh) 一种面向神经机器翻译的编码器-解码器框架预训练方法
CN110070855B (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
Sen et al. Neural machine translation of low-resource languages using SMT phrase pair injection
Jian et al. Lstm-based attentional embedding for English machine translation
CN115935959A (zh) 一种低资源黏着语序列标注的方法
CN112257460A (zh) 基于枢轴的汉越联合训练神经机器翻译方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
CN113657125B (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
Sun [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
Hirasawa et al. Pre-trained word embedding and language model improve multimodal machine translation: A case study in Multi30K
Shi et al. Adding Visual Information to Improve Multimodal Machine Translation for Low-Resource Language
Soky et al. TriECCC: Trilingual Corpus of the Extraordinary Chambers in the Courts of Cambodia for Speech Recognition and Translation Studies
He Self-calibration system for pragmatic failure in English-Chinese translation based on big data
Zhang Research on English machine translation system based on the internet
Al Shiam et al. A neural attention-based encoder-decoder approach for english to bangla translation
Laitonjam et al. A Hybrid Machine Transliteration Model Based on Multi-source Encoder–Decoder Framework: English to Manipuri
Zhou et al. Research trend in the international literatures on machine translation based on CiteSpace
Li et al. Summer: WeChat Neural Machine Translation Systems for the WMT22 Biomedical Translation Task
CN115496079B (zh) 一种中文翻译方法和装置
Liu et al. Sentence Simplification Using Paraphrase Corpus for Initialization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant