CN115270822A - 一种结合依存句法的无监督机器翻译提升方法 - Google Patents

一种结合依存句法的无监督机器翻译提升方法 Download PDF

Info

Publication number
CN115270822A
CN115270822A CN202210664732.5A CN202210664732A CN115270822A CN 115270822 A CN115270822 A CN 115270822A CN 202210664732 A CN202210664732 A CN 202210664732A CN 115270822 A CN115270822 A CN 115270822A
Authority
CN
China
Prior art keywords
syntax
stage
dependency
loss function
lexical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210664732.5A
Other languages
English (en)
Inventor
顾钊铨
梁栩健
王乐
谢禹舜
张欢
朱梓萁
张登辉
唐可可
李树栋
韩伟红
李默涵
仇晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202210664732.5A priority Critical patent/CN115270822A/zh
Publication of CN115270822A publication Critical patent/CN115270822A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及机器翻译技术领域,公开了一种结合依存句法的无监督机器翻译提升方法,句法编码解码阶段;结合依存句法规则的去噪阶段;词法以及句法的回译阶段,提出了一种基于一定的依存句法规范下的加噪方法,对比当前的加噪方法,更好地维持了语句的句法性。该结合依存句法的无监督机器翻译提升方法,学习到语句内部的依存句法结构,提升训练时间效率,仅需要少量的手工标注,即可通过约束加噪中的增加、删除以及替换过程使得句子依旧符合一定的句法规范,采用独立的词法编码器、词法解码器与句法解码器的模型设计方案;提出了结合依存句法结构进行回译的优化方法,通过在回译过程中加入了依存句法上的回译损失,维持一定的句法准确性。

Description

一种结合依存句法的无监督机器翻译提升方法
技术领域
本发明涉及机器翻译技术领域,具体涉及一种结合依存句法的无监督机器翻译提升方法。
背景技术
机器翻译作为自然语言处理的重要一个分支,其旨在通过机器无需加入人力资源地将源语言翻译为目标语言。有了跨语言词嵌入作为基础,在2018年,Artetxe和Lample等人几乎同时在句子级无监督机器翻译任务中取得了很好的实验结果,使得越来越多的研究者开始重视无监督机器翻译。
在现有的实现方案中,无论是Artetxe或者Lample等以“中间语言”为枢纽的翻译方式,都仍然遭受到句法错误的限制。不难理解,语言的翻译是一项庞大的工作,仅依赖词粒度上的翻译以及大量的无监督语料,是难以让模型学习到不同语言之间更深层的语法对齐问题,亦或者导致模型学习了更多错误的语法对齐问题。另外,当前方法的加噪技术普遍采用随机交换等,这种方法容易破坏原有的句法结构,并且这样带来的错误可能会让模型疲于恢复句法。而实际生产上,待翻译的句子是能有一定的句法准确度的,所以当前方法的加噪技术可能会导致模型训练的效率下降。因此,当前的基于深度学习的机器翻译模型,其仅仅依赖神经网络对语句内在的句法结构进行学习,准确性是很容易遇到瓶颈的。
另外,亦有不少学者提出显示地把语法结构信息整合到模型中,例如吴[2]等人提出的树到树模型的输入与输出均是包含语法信息的线性短语结构树序列,或者串到树模型,其输入是自然语言,输出是包含语法信息的线性短语结构树序列。该改进在英译法以及法译英上均有提升,然而,这种直接整合句法信息的线性短语结构树序列,无疑加大模型的学习难度,导致训练收敛减慢。同时,从语言学的角度看,句法结构等信息应该属于语言中最高或者最抽象的层次中,直接在输入层引入句法信息约束,可能会带来训练的不稳定。
发明内容
本发明的目的在于提供一种结合依存句法的无监督机器翻译提升方法,旨在对无监督机器翻译进行有效的提升以及效率的加速,提出一种基于一定的依存句法规范下的加噪方法,以解决上述问题。
为实现上述目的,本发明提供如下技术方案:
一种结合依存句法的无监督机器翻译提升方法,包括以下步骤:
S1:句法编码解码阶段。
S2:结合依存句法规则的去噪阶段。
S3:词法以及句法的回译阶段。
优选的,所述S1具体步骤如下:
S101:设置句法解码的损失函数:
Figure BDA0003692505950000021
其中M为的样本数,N为句子长度。
S102:根据损失函数:利用梯度下降算法如随机梯度下降SGD,Adam等对EW、DW、DS进行同时训练,直到收敛,由于句法涉及的数据量χ比较少,因此该阶段能够短时间内即可完成。
优选的,所述S2具体步骤如下:
S201:设置目标1的损失函数
Figure BDA0003692505950000022
其中
Figure BDA0003692505950000023
的是通过编码器-解码器d对加噪后的C(x)进行复原,Δ是一种测量两个序列之间相似度的函数,这里可以采用交叉熵进行词粒度的相似度计算。
S202:设置句法解码的损失函数Lg,该阶段的损失函数为L2=Ld+μLg,其中μ为超参数,调节目标1与目标2的优化比例,通常为0.2。
S203:根据损失函数,利用梯度下降算法如随机梯度下降SGD,Adam等对EW、DW、DS进行同时训练,直到收敛。
优选的,所述S3具体步骤如下:
S301:根据给定的语料X,通过EW和DW获得伪平行词法以及句法对<X,Y,X′,Y′>。
S302:设置目标1损失函数
Figure BDA0003692505950000031
目标2损失函数
Figure BDA0003692505950000032
S303:设置损失函数L=LW+μ′Ls。其中μ′为超参数,调节目标1与目标2的优化比例,通常为0.5,利用梯度下降算法如随机梯度下降SGD,Adam等对EW、DW进行同时训练(该阶段DS固定不再加入训练),直到收敛。
与现有技术相比,本发明的有益效果是:
1、本发明提供的结合依存句法的无监督机器翻译提升方法,旨在对无监督机器翻译进行有效的提升以及效率的加速,提出了一种基于一定的依存句法规范下的加噪方法,对比当前的加噪方法,更好地维持了语句的句法性,目的是让模型更快地学习到语句内部的依存句法结构,提升训练的时间效率,分离了词法编码、词法解码与句法解码部分。
2、本发明句法的解码部分输入来源于词法编码的输出,不需要额外设计新的依存句法编码;另外,由于句法结构标注量远低于词法,因此句法的编码-解码器的训练需要更少的标注语料,而且能够更快地收敛,且提出了一种基于一定的依存句法规范下的加噪方法。仅需要少量的手工标注,即可通过约束加噪中的增加、删除以及替换过程使得句子依旧符合一定的句法规范,分离了词法编码、词法解码与依存句法解码部分,采用独立的词法编码器、词法解码器与句法解码器的模型设计方案。
3、本发明提出了结合依存句法结构进行回译的优化方法,通过在回译过程中加入了依存句法上的回译损失,维持一定的句法准确性。
4、本发明该结合依存句法的无监督机器翻译提升方法,通过新的基于一定的句法规范下的加噪方法,对比当前的加噪方法,更好地维持了语句的句法性,让模型更好地学习到语句内部的句法结构,另外针对词法与句法同时训练的困难点,分离了词法学习与依存句法学习的过程,提出了独立的词法编码器、词法解码器和句法解码器,并且句法的解码部分输入来源于词法编码的输出,不需要额外设计新的依存句法编码器,提出了结合依存句法进行回译的优化方法,进一步提升了无监督机器翻译质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的词法和句法解码器结构与原理示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
请参阅图1,本发明实施例提供的结合依存句法的无监督机器翻译提升方法,包括以下步骤:
S1:句法编码解码阶段,该阶段的主要目的是利用少量的标注语料训练句法解码器。
S2:结合依存句法规则的去噪阶段,该阶段的主要目的是结合依存句法规则进行去噪操作,该阶段有两个优化目标:一个是目标(主要目标)是对加噪声后的语句进行复原处理,另外一个目标是在去噪的同时,维持去噪过程中句法合理性;同时亦结合不含依存句法标注的语料,对句法解码器进行反向优化。其中,第一个目标去噪是为了让编码器解码器不再进行简单的复制操作。在本发明中,需要按照一定的句法加噪规范对句子进行增加、删除、替换操作,试图让编码器分析语言的词法、句法结构,让解码器更好地根据编码器带来的有效信息进行句子的复原。第二个目标是为了让模型在去噪声的过程中,能够维持原句子的依存句法结构,同时,在词法编码器-解码器的更新过程中,对句法解码器亦进行学习保持对词法编码器-解码器更新后的依存句法抽取质量。
S3:词法以及句法的回译阶段,该阶段继承于阶段二带来的一定的编码-解码能力,将不同语言的输入语句x进行编码,再经过不同语言的解码器进行解码,获得一定质量的翻译y,从而构建伪平行词法语料(x,y)。在本发明中分为两个目标,一个是基于词法的回译,一个是基于句法的回译。目标1是把y作为输入,再而进行编码解码得到x,通过最大化条件概率P(x|y)来优化模型,其中目标1的损失表示如下:
Figure BDA0003692505950000051
通过句法解码器,可以获得伪构建伪平行词法语料(x’,y’)。目标2是在最大化条件概率P(x|y)过程中,同时需要最大化条件概率P(x’|y’),使得模型保持一定的句法约束。同理,目标2的损失函数为:
Figure BDA0003692505950000052
给定两(多)种语言的语句语料X=[X1,...,Xn],对应的少量的依存句法标注χ=[χ1,...,χn](其数量远少于语料X)。给定跨语言词嵌入W(参考Artetxe的输入结构)。初始化词法编码器EW和解码器DW、句法解码器DS(可以为多层Transformer或者LSTM架构)。其中词法解码器DW和句法解码器DS码均为对应语言设置一个,即
Figure BDA0003692505950000061
需要注意的是,句法解码器的网络深度应该比词法编码器-解码器要浅(通常设置为词法解码器的一半深度),否则不能有效对词法解码器起到约束作用,我们的无监督机器翻译训练分为三个阶段。
S1具体步骤如下:
S101:设置句法解码的损失函数:
Figure BDA0003692505950000062
其中M为的样本数,N为句子长度。
S102:根据损失函数:利用梯度下降算法如随机梯度下降SGD,Adam等对EW、DW、DS进行同时训练,直到收敛,由于句法涉及的数据量χ比较少,因此该阶段能够短时间内即可完成。
S2具体步骤如下:
S201:设置目标1的损失函数Ld=Ex~X,x^~d(W[C(x)])[Δ(x^,x)],其中
Figure BDA0003692505950000063
的是通过编码器-解码器d对加噪后的C(x)进行复原,Δ是一种测量两哥序列之间相似度的函数,这里可以采用交叉熵进行词粒度的相似度计算。
S202:设置句法解码的损失函数Lg,该阶段的损失函数为L2=Ld+μLg,其中μ为超参数,调节目标1与目标2的优化比例,通常为0.2。
S203:根据损失函数,利用梯度下降算法如随机梯度下降SGD,Adam等对EW、DW、DS进行同时训练,直到收敛。
S3具体步骤如下:
S301:根据给定的语料X,通过EW和DW获得伪平行词法以及句法对<X,Y,X′,Y′>。
S302:设置目标1损失函数
Figure BDA0003692505950000071
目标2损失函数
Figure BDA0003692505950000072
S303:设置损失函数L=LW+μ′Ls。其中μ′为超参数,调节目标1与目标2的优化比例,通常为0.5,利用梯度下降算法如随机梯度下降SGD,Adam等对EW、DW进行同时训练(该阶段DS固定不再加入训练),直到收敛。
以下以中文句子x1=“希望是生命的源泉”和英文句子x2=“I love apple”为语料,其中,它们对应的依存句法分析为[希望/top,是/root,生命/assmod,的/assm,源泉/attr]和[I/nsubj,love/root,apple/dobj];设置中文语法加噪规范
Figure BDA0003692505950000073
英文语法加噪规
Figure BDA0003692505950000074
Figure BDA0003692505950000075
以上规范均只用于替换操作。如果需要增加、删除等操作,可以标记为例如
Figure BDA0003692505950000076
Figure BDA0003692505950000077
表示可以加入句法性质为top的词到attr前,又例如删除可以标记为
Figure BDA0003692505950000078
表示句子中句法性质为dobj的词可以删除。
第一阶段,根据阶段一的损失函数训练EW,DW,DS,使得
Figure BDA0003692505950000079
Figure BDA00036925059500000710
第二阶段,结合依存句法规则的去噪阶段。对x1=“希望是生命的源泉”进行依据句法规范加噪(第1目标),例如根据
Figure BDA00036925059500000711
“希望”和“生命”由于分别属于top和attr,因此需要去噪的语句为“生命是希望的源泉”,同时(第2目标)需要维持句法的解释为[生命/top,是/root,希望/assmod,的/assm,源泉/attr]和[I/nsubj,love/root,apple/dobj];对于英文语料x2也是同理的设置和去噪。
第三阶段,词法以及句法的回译阶段。经过阶段二,x1=“希望是生命的源泉”经过共享编码器以及英文解码器后,获得伪平行语对y1=“Hope is the fountain of life”,以及它们的伪平行句法对x1’=[top,root,assmod,assm,attr],y1’=[nsubj,root,det,attr,prep,pobj]。获得伪平行词法以及句法对后,以y1、y1’作为输入,获得输出
Figure BDA0003692505950000081
以及
Figure BDA0003692505950000082
根据损失函数根据
Figure BDA0003692505950000083
以及
Figure BDA0003692505950000084
计算损失,进一步优化直到收敛。
本发明上述实施例提供的结合依存句法的无监督机器翻译提升方法,通过学习到语句内部的依存句法结构,提升训练时间效率,仅需要少量的手工标注,即可通过约束加噪中的增加、删除以及替换过程使得句子依旧符合一定的句法规范,采用独立的词法编码器、词法解码器与句法解码器的模型设计方案;提出了结合依存句法结构进行回译的优化方法,通过在回译过程中加入了依存句法上的回译损失,维持一定的句法准确性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种结合依存句法的无监督机器翻译提升方法,其特征在于,包括以下步骤:
S1:句法编码解码阶段;
S2:结合依存句法规则的去噪阶段;
S3:词法以及句法的回译阶段。
2.根据权利要求1所述的结合依存句法的无监督机器翻译提升方法,其特征在于:所述S1具体步骤如下:
S101:设置句法解码的损失函数:
Figure FDA0003692505940000011
其中M为的样本数,N为句子长度;
S102:根据损失函数:利用梯度下降算法如随机梯度下降SGD,Adam等对EW、DW、DS进行同时训练,直到收敛,由于句法涉及的数据量χ比较少,因此该阶段能够短时间内即可完成。
3.根据权利要求1所述的结合依存句法的无监督机器翻译提升方法,其特征在于:所述S2具体步骤如下:
S201:设置目标1的损失函数Ld=Ex~X,x^~d(W[C(x)])[Δ(x^,x)],其中
Figure FDA0003692505940000012
的是通过编码器-解码器d对加噪后的C(x)进行复原,Δ是一种测量两哥序列之间相似度的函数,这里可以采用交叉熵进行词粒度的相似度计算;
S202:设置句法解码的损失函数Lg,该阶段的损失函数为L2=Ld+μLg,其中μ为超参数,调节目标1与目标2的优化比例,通常为0.2;
S203:根据损失函数,利用梯度下降算法如随机梯度下降SGD,Adam等对EW、DW、DS进行同时训练,直到收敛。
4.根据权利要求1所述的结合依存句法的无监督机器翻译提升方法,其特征在于:所述S3具体步骤如下:
S301:根据给定的语料X,通过EW和DW获得伪平行词法以及句法对<X,Y,X',Y'>;
S302:设置损失函数L=LW+μ'Ls。其中μ'为超参数,调节目标1与目标2的优化比例,通常为0.5,利用梯度下降算法如随机梯度下降SGD,Adam等对EW、DW进行同时训练(该阶段DS固定不再加入训练),直到收敛。
CN202210664732.5A 2022-06-14 2022-06-14 一种结合依存句法的无监督机器翻译提升方法 Pending CN115270822A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210664732.5A CN115270822A (zh) 2022-06-14 2022-06-14 一种结合依存句法的无监督机器翻译提升方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210664732.5A CN115270822A (zh) 2022-06-14 2022-06-14 一种结合依存句法的无监督机器翻译提升方法

Publications (1)

Publication Number Publication Date
CN115270822A true CN115270822A (zh) 2022-11-01

Family

ID=83758838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210664732.5A Pending CN115270822A (zh) 2022-06-14 2022-06-14 一种结合依存句法的无监督机器翻译提升方法

Country Status (1)

Country Link
CN (1) CN115270822A (zh)

Similar Documents

Publication Publication Date Title
CN109948152B (zh) 一种基于lstm的中文文本语法纠错模型方法
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN109492202B (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN111178094B (zh) 一种基于预训练的稀缺资源神经机器翻译训练方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN111274764B (zh) 语言生成方法、装置、计算机设备及存储介质
CN110427629B (zh) 半监督文本简化模型训练方法和系统
CN110765772A (zh) 拼音作为特征的中文语音识别后的文本神经网络纠错模型
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN112257465A (zh) 一种基于图像描述生成的多模态机器翻译数据增强方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112162775A (zh) 一种基于Transformer和混合代码表示的Java代码注释自动生成方法
CN112732264A (zh) 一种高级编程语言间代码自动转换方法
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
Hifny Open vocabulary Arabic diacritics restoration
CN114662483A (zh) 一种文本摘要生成方法、装置以及存储介质
CN114861601A (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN116187324B (zh) 为源语言的长文本生成跨语言摘要的方法、系统及介质
CN116955594A (zh) 语义融合预训练模型构建方法及跨语言摘要生成方法和系统
CN115270771B (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法
CN115270822A (zh) 一种结合依存句法的无监督机器翻译提升方法
CN112989845B (zh) 一种基于路由算法的篇章级神经机器翻译方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination