CN115017884A

CN115017884A - 基于图文多模态门控增强的文本平行句对抽取方法

Info

Publication number: CN115017884A
Application number: CN202210065519.2A
Authority: CN
Inventors: 郭军军; 霍茜曈; 余正涛; 高盛祥
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-09-06
Anticipated expiration: 2042-01-20
Also published as: CN115017884B

Abstract

本发明涉及基于图文多模态门控增强的文本平行句对抽取方法，属于自然语言处理技术领域。本发明包括：首先从预构建好的图像数据库中基于词级或实体粒度对齐抽取源语言和目标语言的相关的图像模态信息；然后基于图文多模态门控的方式分别实现源语言和目标语言图文信息的融合，获得图像增强后的文本语义表征；最后将双语表征信息进行融合实现平行句对抽取。所提方法在英语‑越南语、英语‑德语双语平行句对抽取任务上进行了实验，证明了融合图像信息对文本平行句对抽取的有效性。

Description

基于图文多模态门控增强的文本平行句对抽取方法

技术领域

本发明涉及基于图文多模态门控增强的文本平行句对抽取方法，属于自然语言处理技术领域。

背景技术

从互联网海量文本中爬取和整理平行句对是提升机器翻译性能的重要工作之一。网络信息中存在大量伪平行的句对，因此需要从海量伪平行句对中抽取双语平行句对。目前，主流平行句对抽取方法大都基于句子级语义相似性来进行，因此容易出现语义相近但完全不平行的句对，如表1(不平行的词语用斜体标出)。这样的低质量句对严重影响了后续机器翻译的性能，因此研究平行句对抽取方法对提升平行句对的质量，提高机器翻译性能具有重要的意义和价值。

表1：不平行表

目前主流平行句对抽取方法主要基于使用预训练模型获取句子级表示然后转化为二分类方式的方法，基本可以分为三类，依次为：依赖传统方法，增强训练策略以及使用多语言预训练模型。传统的方法主要基于句法特征、转换或关系提取，该方法认为需要将提取出的信息融入句子表征来提升模型效果。第二类基于训练策略的方式，Accarcciccek等人证明，在分类任务中正负例的比例会影响最后模型效果，且负例多余正例更有利于模型性能的提升，由此引出了如何构造高质量负例的问题。使用模糊匹配等算法构建了高质量负例成功提升了最终模型性能，其实验结果表明在合理构建训练数据后，模型仍然有一定的提升空间。在自然语言处理任务中，Bert提出后，刷新了多项任务记录，在平行句对抽取中也是如此。使用多语言预训练模型可以将不同语言的信息编码到同一语义空间，这一过程可以将更多语言信息融入到模型，利用多语言模型实现的不同语言在同一语义空间的"对齐"可以提升模型性能，实验证明使用多语言预训练模型可以提升最后的评价分数。预训练语言模型仅仅可以实现句子级的语义对齐，对词粒度的直接对齐考虑不足。因此基于多语言预训练模型的方法仍然有存在提升空间。

表1中，英语-越南语伪平行句(第一，二列)对语义信息基本一致，但是词级粒度存在较大的不一致，因此基于预训练模型的语义对齐判别方法会将其判别为平行句对，但是上例中明显词级粒度存在较大的差异，如何保证句子级语义一致的情况下，考虑词级对齐问题，是伪平行句对需要解决的重要问题之一。

发明内容

本发明提供了基于图文多模态门控增强的文本平行句对抽取方法，能解决英语-越南语平行句对抽取问题中词级匹配不准确的问题、解决了图像融入文本中图像噪声过大问题；本发明以语言无关的图像信息作为跨语言语义对齐的锚点，融合图像表征，实现跨语言句对的语义对齐的方法。通过对源语言目标语言分别融合其关联的图像信息，提升跨语言表征和对齐的性能，借助语言无关的图像信息，增强伪平行句对在句子级和词级语义对齐的能力，进而最终提升伪平行句对抽取的性能。

本发明的技术方案是：基于图文多模态门控增强的文本平行句对抽取方法，所述方法的具体步骤如下：

Step1、建立多语言图像检索标签库，将不同语种文本进行分词后进行检索语义相关图像，得到图像编号；

Step2、使用文本预训练模型得到不同语种文本的文字表征，然后使用ResNet50提取Step1中得到的语义相关图像表征，接着用多模态门控将对应的文本和图像进行融合，得到两种语言的多模态表征；

Step3、将Step2得到的不同语种多模态表征进行拼接，然后将拼接后的表征送入前馈神经网络层并且经过sigmoid函数进行映射，从而将平行句对抽取任务转化为分类任务后得到平行句对预测结果。

作为本发明的进一步方案，所述Step1的具体步骤如下：

Step1.1、使用已有图像数据集的文字描述标注句子中的名词和动词作为该图像匹配关键词，建立标签检索库

表示一对训练语料句对，其中i代表第i个平行句对，α，β，分别代表不同语种，定义V＝{{I₀,I₁,I₂...I_j},j＝0,1,2...N}代表图像数据集，其中每张图像I_j都有对应的不同语种图像描述句对

遍历数据集V，对每张图像不同语种图像描述句对使用词性标注POS工具提取名词和动词作为该图像的标签，记作

其中

n表示该图像标签个数，对应的

Step1.2、进行语义相关图像检索：假设输入某一语种句子

使用分词工具将该句子进行分词，得到

其中m为句子中词的个数，遍历图像数据集，可得，第j个图像对应α语言标签为

其中

将

和

进行最大公共子集算法LCS计算，得到最大子集元素个数s，则对应的图像I_j作为检索得到的

语义相关图像，记作

利用相同的方式得到β语言句子

语义相关图像

作为本发明的进一步方案，所述Step2的具体步骤如下：

Step2.1、用预训练模型提取文本表征：根据公式(1)(2)得到

其中，对于α语言，

为预训练提取文本表征中代表句子级语义特征的[CLS]向量，最终用该向量表示第i句对α语言句子的表征,记作

相应的对于β语言，

为预训练提取文本表征中代表句子级语义特征的[CLS]向量,最终用该向量表示第i句对β语言句子的表征，记作

最终得到文字表征

表示一对训练语料句对，其中i代表第i个平行句对，

分别代表不同语种句子；z为句子的特征个数；

Step2.2、使用ResNet50提取语义相关图像表征，其中对应第i句对α语言的图像

可得图像表征

对应第i句对β语言的图像

可得到图像表征

由此得到文字表征

和图像表征

Step2.3、将Step2.2得到的文本表征

和图像表征

根据公式(5)进行计算，得到门控参数λ_α，公式(5)假设当前语种为α，相对应的对于语言β，公式(6)能得到门控参数λ_β，其中，W为线性层参数；

接着，根据公式(7)、(8)将公式(5)、(6)得到的参数和对应图像表征

点乘，得到图文门控去噪后的图像表征

最后，将得到的图像表征

与文字表征

融合，得到两种语言的多模态表征，采用加性融合策略，融合过程如下式(9)、(10)；

作为本发明的进一步方案，所述Step3的具体步骤如下：

Step3.1、将Step2得到多模态表征向量

给出公式(11)拼接向量，得到向量U_i，接着给出公式(12)进行线性变化得到特征向量，最后给出公式(13)将特征输入Sigmoid函数得到最终分数进行损失计算；

A＝ReLU(WU_i+b) (12)

p(y＝1|A)＝Sigmoid(A+b) (13)。

本发明的有益效果是：

1.本发明通过融合图像模态，提升双语句子级和词级语义表征的能力，实现了高质量伪平行句对的抽取；

2.本发明基于词级相似度匹配的方法，实现了双语文本相关联图像信息的检索，为后续的图文融合提供数据基础；

3.本发明借助多模态门控，实现噪声图像中有效图像表征的融合，提升了文本的语义表征能力；

4.本发明对英语-越南语、英语-德语伪平行句对抽取任务进行实验，实验结果证明了本发明所提方法的有效性，伪平行句对抽取性能提升。

附图说明

图1为本发明中的流程框图。

具体实施方式

实施例1：如图1所示，基于图文多模态门控增强的文本平行句对抽取方法，所述方法的具体步骤如下：

作为本发明的进一步方案，所述Step1的具体步骤如下：

其中

n表示该图像标签个数，对应的

Step1.2、基于词级相似度匹配进行语义相关图像检索：假设输入某一语种句子

使用分词工具将该句子进行分词，得到

其中

将

和

进行最大公共子集算法LCS计算，得到最大子集元素个数s，利用最大子集元素个数作为词级相似度评价标准，对应的图像I_j作为检索得到的

语义相关图像，记作

利用相同的方式得到β语言句子

语义相关图像

如遇到最大个数相同的选项时，选检索到的第一张图像作为最后结果。

作为本发明的进一步方案，所述Step2的具体步骤如下：

Step2.1、用预训练模型提取文本表征：根据公式(1)(2)得到

其中，对于α语言，

相应的对于β语言，

最终得到文字表征

表示一对训练语料句对，其中i代表第i个平行句对，

分别代表不同语种句子；z为句子的特征个数；

可得图像表征

对应第i句对β语言的图像

可得到图像表征

由此得到文字表征

和图像表征

Step2.3、将Step2.2得到的文本表征

和图像表征

点乘，得到图文门控去噪后的图像表征

最后，将得到的图像表征

与文字表征

作为本发明的进一步方案，所述Step3的具体步骤如下：

Step3.1、将Step2得到多模态表征向量

A＝ReLU(WU_i+b) (12)

p(y＝1|A)＝Sigmoid(A+b) (13)。

为了说明本发明的效果，设置了2组对比实验。第一组实验验证本发明方法有效解决英语-越南语平行句对抽取问题中词级匹配不准确的问题，另一组实验验证图文多模态门控解决了图像融入文本中图像噪声过大问题。

1.文本方法对比实验

本发明分别使用XLM-100预训练模型和mBart预训练模型提取不同语种文本特征后进行拼接再进行二分类的方法作为基线。分别在越南语-英语，德语-英语语种对进行实验。评价标准为精确度，如下表2，表2中：

XLM-100：基于XLM-100预训练模型的文本特征作为基线实验条件。

mBart：基于mBart预训练模型的文本特征作为基线实验条件。

XLM-100+Image_maching+Gating:基于XLM-100预训练模型的文本特征和本发明中词级相似度匹配算法得到图像经过图文多模态门控去噪后融合的实验条件。

mBart+Image_maching+Gating:基于mBart预训练模型的文本特征和本发明中词级相似度匹配算法得到图像经过图文多模态门控去噪后融合的实验条件

表2为主实验结果

模型	En-Vi	En-De
			XLM-100	96％	97.5％
mBart	-	92.6％
			XLM-100+mage_maching+Gating	96.8％↑	98.2％↑
mBart+Image_maching+Gating	-	92.7％↑

其中，基线模型在两对语言的实验都可以达到较好效果，但在添加图像增强后依旧可以提升模型性能。在基于XLM-100的模型中越南语-英语任务从96％提升至96.8％，德语-英语任务中从97.5％提升至98.2％。

表3为实例分析，由表可得，在句子结构相似，但词级信息不平行的情况下，单一文本模态模型会错误判断为平行句对，本发明模型可以正确判断为非平行句对。

表3实例分析

2.图文多模态门控消融实验

为了探究多模态门控的控制噪声能力，本发明进行了门控消融实验。由表4第一二行可见，没有使用图文多模态门控时，即使加入正确图像信息也会降低模型性能，en-vi任务降低2.2个点,en-de任务降低2.3个点。证明图文多模态门控进行控制前提下融入图像信息可以有效过滤一定噪声，提升模型性能，表4中：

XLM-100+Image_right+Gating:基于XLM-100预训练模型的文本特征和正确语义相关图像经过图文多模态门控去噪后融合的实验条件。

XLM-100+Image_right:基于XLM-100预训练模型的文本特征和正确语义相关图像直接融合的实验条件。

mBart+Image_right+Gating:基于mBart预训练模型的文本特征和正确语义相关图像经过图文多模态门控去噪后融合的实验条件。

mBart+Image_right:基于mBart预训练模型的文本特征和正确语义相关图像直接融合的实验条件。

表4为图文门控消融实验结果

模型	En-Vi	En-De
			XLM-100+Image_right+Gating	97.2％↑	98.3％↑
XLM-100+Image_right	95％↓	96％↓
			mBart+Image_right+Gating	-	93.3％↑
mBart+Image_right	-	90.7％↓

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。