CN115017884A - 基于图文多模态门控增强的文本平行句对抽取方法 - Google Patents

基于图文多模态门控增强的文本平行句对抽取方法 Download PDF

Info

Publication number
CN115017884A
CN115017884A CN202210065519.2A CN202210065519A CN115017884A CN 115017884 A CN115017884 A CN 115017884A CN 202210065519 A CN202210065519 A CN 202210065519A CN 115017884 A CN115017884 A CN 115017884A
Authority
CN
China
Prior art keywords
image
text
language
sentence
gating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210065519.2A
Other languages
English (en)
Other versions
CN115017884B (zh
Inventor
郭军军
霍茜曈
余正涛
高盛祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210065519.2A priority Critical patent/CN115017884B/zh
Publication of CN115017884A publication Critical patent/CN115017884A/zh
Application granted granted Critical
Publication of CN115017884B publication Critical patent/CN115017884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于图文多模态门控增强的文本平行句对抽取方法,属于自然语言处理技术领域。本发明包括:首先从预构建好的图像数据库中基于词级或实体粒度对齐抽取源语言和目标语言的相关的图像模态信息;然后基于图文多模态门控的方式分别实现源语言和目标语言图文信息的融合,获得图像增强后的文本语义表征;最后将双语表征信息进行融合实现平行句对抽取。所提方法在英语‑越南语、英语‑德语双语平行句对抽取任务上进行了实验,证明了融合图像信息对文本平行句对抽取的有效性。

Description

基于图文多模态门控增强的文本平行句对抽取方法
技术领域
本发明涉及基于图文多模态门控增强的文本平行句对抽取方法,属于自然语言处理技术领域。
背景技术
从互联网海量文本中爬取和整理平行句对是提升机器翻译性能的重要工作之一。网络信息中存在大量伪平行的句对,因此需要从海量伪平行句对中抽取双语平行句对。目前,主流平行句对抽取方法大都基于句子级语义相似性来进行,因此容易出现语义相近但完全不平行的句对,如表1(不平行的词语用斜体标出)。这样的低质量句对严重影响了后续机器翻译的性能,因此研究平行句对抽取方法对提升平行句对的质量,提高机器翻译性能具有重要的意义和价值。
表1:不平行表
Figure BDA0003480083620000011
目前主流平行句对抽取方法主要基于使用预训练模型获取句子级表示然后转化为二分类方式的方法,基本可以分为三类,依次为:依赖传统方法,增强训练策略以及使用多语言预训练模型。传统的方法主要基于句法特征、转换或关系提取,该方法认为需要将提取出的信息融入句子表征来提升模型效果。第二类基于训练策略的方式,Accarcciccek等人证明,在分类任务中正负例的比例会影响最后模型效果,且负例多余正例更有利于模型性能的提升,由此引出了如何构造高质量负例的问题。使用模糊匹配等算法构建了高质量负例成功提升了最终模型性能,其实验结果表明在合理构建训练数据后,模型仍然有一定的提升空间。在自然语言处理任务中,Bert提出后,刷新了多项任务记录,在平行句对抽取中也是如此。使用多语言预训练模型可以将不同语言的信息编码到同一语义空间,这一过程可以将更多语言信息融入到模型,利用多语言模型实现的不同语言在同一语义空间的"对齐"可以提升模型性能,实验证明使用多语言预训练模型可以提升最后的评价分数。预训练语言模型仅仅可以实现句子级的语义对齐,对词粒度的直接对齐考虑不足。因此基于多语言预训练模型的方法仍然有存在提升空间。
表1中,英语-越南语伪平行句(第一,二列)对语义信息基本一致,但是词级粒度存在较大的不一致,因此基于预训练模型的语义对齐判别方法会将其判别为平行句对,但是上例中明显词级粒度存在较大的差异,如何保证句子级语义一致的情况下,考虑词级对齐问题,是伪平行句对需要解决的重要问题之一。
发明内容
本发明提供了基于图文多模态门控增强的文本平行句对抽取方法,能解决英语-越南语平行句对抽取问题中词级匹配不准确的问题、解决了图像融入文本中图像噪声过大问题;本发明以语言无关的图像信息作为跨语言语义对齐的锚点,融合图像表征,实现跨语言句对的语义对齐的方法。通过对源语言目标语言分别融合其关联的图像信息,提升跨语言表征和对齐的性能,借助语言无关的图像信息,增强伪平行句对在句子级和词级语义对齐的能力,进而最终提升伪平行句对抽取的性能。
本发明的技术方案是:基于图文多模态门控增强的文本平行句对抽取方法,所述方法的具体步骤如下:
Step1、建立多语言图像检索标签库,将不同语种文本进行分词后进行检索语义相关图像,得到图像编号;
Step2、使用文本预训练模型得到不同语种文本的文字表征,然后使用ResNet50提取Step1中得到的语义相关图像表征,接着用多模态门控将对应的文本和图像进行融合,得到两种语言的多模态表征;
Step3、将Step2得到的不同语种多模态表征进行拼接,然后将拼接后的表征送入前馈神经网络层并且经过sigmoid函数进行映射,从而将平行句对抽取任务转化为分类任务后得到平行句对预测结果。
作为本发明的进一步方案,所述Step1的具体步骤如下:
Step1.1、使用已有图像数据集的文字描述标注句子中的名词和动词作为该图像匹配关键词,建立标签检索库
Figure BDA0003480083620000031
表示一对训练语料句对,其中i代表第i个平行句对,α,β,分别代表不同语种,定义V={{I0,I1,I2...Ij},j=0,1,2...N}代表图像数据集,其中每张图像Ij都有对应的不同语种图像描述句对
Figure BDA0003480083620000032
遍历数据集V,对每张图像不同语种图像描述句对使用词性标注POS工具提取名词和动词作为该图像的标签,记作
Figure BDA0003480083620000033
其中
Figure BDA0003480083620000034
n表示该图像标签个数,对应的
Figure BDA0003480083620000035
Step1.2、进行语义相关图像检索:假设输入某一语种句子
Figure BDA0003480083620000036
使用分词工具将该句子进行分词,得到
Figure BDA0003480083620000037
其中m为句子中词的个数,遍历图像数据集,可得,第j个图像对应α语言标签为
Figure BDA0003480083620000038
其中
Figure BDA0003480083620000039
Figure BDA00034800836200000310
Figure BDA00034800836200000311
进行最大公共子集算法LCS计算,得到最大子集元素个数s,则对应的图像Ij作为检索得到的
Figure BDA00034800836200000312
语义相关图像,记作
Figure BDA00034800836200000313
利用相同的方式得到β语言句子
Figure BDA00034800836200000314
语义相关图像
Figure BDA00034800836200000315
作为本发明的进一步方案,所述Step2的具体步骤如下:
Step2.1、用预训练模型提取文本表征:根据公式(1)(2)得到
Figure BDA00034800836200000316
Figure BDA00034800836200000317
Figure BDA00034800836200000318
其中,对于α语言,
Figure BDA00034800836200000319
为预训练提取文本表征中代表句子级语义特征的[CLS]向量,最终用该向量表示第i句对α语言句子的表征,记作
Figure BDA00034800836200000320
相应的对于β语言,
Figure BDA00034800836200000321
为预训练提取文本表征中代表句子级语义特征的[CLS]向量,最终用该向量表示第i句对β语言句子的表征,记作
Figure BDA0003480083620000041
最终得到文字表征
Figure BDA0003480083620000042
表示一对训练语料句对,其中i代表第i个平行句对,
Figure BDA0003480083620000043
分别代表不同语种句子;z为句子的特征个数;
Step2.2、使用ResNet50提取语义相关图像表征,其中对应第i句对α语言的图像
Figure BDA0003480083620000044
可得图像表征
Figure BDA0003480083620000045
对应第i句对β语言的图像
Figure BDA0003480083620000046
可得到图像表征
Figure BDA0003480083620000047
Figure BDA0003480083620000048
Figure BDA0003480083620000049
由此得到文字表征
Figure BDA00034800836200000410
和图像表征
Figure BDA00034800836200000411
Step2.3、将Step2.2得到的文本表征
Figure BDA00034800836200000412
和图像表征
Figure BDA00034800836200000413
根据公式(5)进行计算,得到门控参数λα,公式(5)假设当前语种为α,相对应的对于语言β,公式(6)能得到门控参数λβ,其中,W为线性层参数;
Figure BDA00034800836200000414
Figure BDA00034800836200000415
接着,根据公式(7)、(8)将公式(5)、(6)得到的参数和对应图像表征
Figure BDA00034800836200000416
点乘,得到图文门控去噪后的图像表征
Figure BDA00034800836200000417
Figure BDA00034800836200000418
Figure BDA00034800836200000419
最后,将得到的图像表征
Figure BDA00034800836200000420
与文字表征
Figure BDA00034800836200000421
融合,得到两种语言的多模态表征,采用加性融合策略,融合过程如下式(9)、(10);
Figure BDA00034800836200000422
Figure BDA00034800836200000423
作为本发明的进一步方案,所述Step3的具体步骤如下:
Step3.1、将Step2得到多模态表征向量
Figure BDA00034800836200000424
给出公式(11)拼接向量,得到向量Ui,接着给出公式(12)进行线性变化得到特征向量,最后给出公式(13)将特征输入Sigmoid函数得到最终分数进行损失计算;
Figure BDA0003480083620000051
A=ReLU(WUi+b) (12)
p(y=1|A)=Sigmoid(A+b) (13)。
本发明的有益效果是:
1.本发明通过融合图像模态,提升双语句子级和词级语义表征的能力,实现了高质量伪平行句对的抽取;
2.本发明基于词级相似度匹配的方法,实现了双语文本相关联图像信息的检索,为后续的图文融合提供数据基础;
3.本发明借助多模态门控,实现噪声图像中有效图像表征的融合,提升了文本的语义表征能力;
4.本发明对英语-越南语、英语-德语伪平行句对抽取任务进行实验,实验结果证明了本发明所提方法的有效性,伪平行句对抽取性能提升。
附图说明
图1为本发明中的流程框图。
具体实施方式
实施例1:如图1所示,基于图文多模态门控增强的文本平行句对抽取方法,所述方法的具体步骤如下:
Step1、建立多语言图像检索标签库,将不同语种文本进行分词后进行检索语义相关图像,得到图像编号;
Step2、使用文本预训练模型得到不同语种文本的文字表征,然后使用ResNet50提取Step1中得到的语义相关图像表征,接着用多模态门控将对应的文本和图像进行融合,得到两种语言的多模态表征;
Step3、将Step2得到的不同语种多模态表征进行拼接,然后将拼接后的表征送入前馈神经网络层并且经过sigmoid函数进行映射,从而将平行句对抽取任务转化为分类任务后得到平行句对预测结果。
作为本发明的进一步方案,所述Step1的具体步骤如下:
Step1.1、使用已有图像数据集的文字描述标注句子中的名词和动词作为该图像匹配关键词,建立标签检索库
Figure BDA0003480083620000052
表示一对训练语料句对,其中i代表第i个平行句对,α,β,分别代表不同语种,定义V={{I0,I1,I2...Ij},j=0,1,2...N}代表图像数据集,其中每张图像Ij都有对应的不同语种图像描述句对
Figure BDA0003480083620000061
遍历数据集V,对每张图像不同语种图像描述句对使用词性标注POS工具提取名词和动词作为该图像的标签,记作
Figure BDA0003480083620000062
其中
Figure BDA0003480083620000063
n表示该图像标签个数,对应的
Figure BDA0003480083620000064
Step1.2、基于词级相似度匹配进行语义相关图像检索:假设输入某一语种句子
Figure BDA0003480083620000065
使用分词工具将该句子进行分词,得到
Figure BDA0003480083620000066
其中m为句子中词的个数,遍历图像数据集,可得,第j个图像对应α语言标签为
Figure BDA0003480083620000067
其中
Figure BDA0003480083620000068
Figure BDA0003480083620000069
Figure BDA00034800836200000610
进行最大公共子集算法LCS计算,得到最大子集元素个数s,利用最大子集元素个数作为词级相似度评价标准,对应的图像Ij作为检索得到的
Figure BDA00034800836200000611
语义相关图像,记作
Figure BDA00034800836200000612
利用相同的方式得到β语言句子
Figure BDA00034800836200000613
语义相关图像
Figure BDA00034800836200000614
如遇到最大个数相同的选项时,选检索到的第一张图像作为最后结果。
作为本发明的进一步方案,所述Step2的具体步骤如下:
Step2.1、用预训练模型提取文本表征:根据公式(1)(2)得到
Figure BDA00034800836200000615
Figure BDA00034800836200000616
Figure BDA00034800836200000617
其中,对于α语言,
Figure BDA00034800836200000618
为预训练提取文本表征中代表句子级语义特征的[CLS]向量,最终用该向量表示第i句对α语言句子的表征,记作
Figure BDA00034800836200000619
相应的对于β语言,
Figure BDA00034800836200000620
为预训练提取文本表征中代表句子级语义特征的[CLS]向量,最终用该向量表示第i句对β语言句子的表征,记作
Figure BDA00034800836200000621
最终得到文字表征
Figure BDA00034800836200000622
表示一对训练语料句对,其中i代表第i个平行句对,
Figure BDA00034800836200000623
分别代表不同语种句子;z为句子的特征个数;
Step2.2、使用ResNet50提取语义相关图像表征,其中对应第i句对α语言的图像
Figure BDA00034800836200000624
可得图像表征
Figure BDA00034800836200000625
对应第i句对β语言的图像
Figure BDA00034800836200000626
可得到图像表征
Figure BDA00034800836200000627
Figure BDA00034800836200000628
Figure BDA00034800836200000629
由此得到文字表征
Figure BDA0003480083620000071
和图像表征
Figure BDA0003480083620000072
Step2.3、将Step2.2得到的文本表征
Figure BDA0003480083620000073
和图像表征
Figure BDA0003480083620000074
根据公式(5)进行计算,得到门控参数λα,公式(5)假设当前语种为α,相对应的对于语言β,公式(6)能得到门控参数λβ,其中,W为线性层参数;
Figure BDA0003480083620000075
Figure BDA0003480083620000076
接着,根据公式(7)、(8)将公式(5)、(6)得到的参数和对应图像表征
Figure BDA0003480083620000077
点乘,得到图文门控去噪后的图像表征
Figure BDA0003480083620000078
Figure BDA0003480083620000079
Figure BDA00034800836200000710
最后,将得到的图像表征
Figure BDA00034800836200000711
与文字表征
Figure BDA00034800836200000712
融合,得到两种语言的多模态表征,采用加性融合策略,融合过程如下式(9)、(10);
Figure BDA00034800836200000713
Figure BDA00034800836200000714
作为本发明的进一步方案,所述Step3的具体步骤如下:
Step3.1、将Step2得到多模态表征向量
Figure BDA00034800836200000715
给出公式(11)拼接向量,得到向量Ui,接着给出公式(12)进行线性变化得到特征向量,最后给出公式(13)将特征输入Sigmoid函数得到最终分数进行损失计算;
Figure BDA00034800836200000716
A=ReLU(WUi+b) (12)
p(y=1|A)=Sigmoid(A+b) (13)。
为了说明本发明的效果,设置了2组对比实验。第一组实验验证本发明方法有效解决英语-越南语平行句对抽取问题中词级匹配不准确的问题,另一组实验验证图文多模态门控解决了图像融入文本中图像噪声过大问题。
1.文本方法对比实验
本发明分别使用XLM-100预训练模型和mBart预训练模型提取不同语种文本特征后进行拼接再进行二分类的方法作为基线。分别在越南语-英语,德语-英语语种对进行实验。评价标准为精确度,如下表2,表2中:
XLM-100:基于XLM-100预训练模型的文本特征作为基线实验条件。
mBart:基于mBart预训练模型的文本特征作为基线实验条件。
XLM-100+Image_maching+Gating:基于XLM-100预训练模型的文本特征和本发明中词级相似度匹配算法得到图像经过图文多模态门控去噪后融合的实验条件。
mBart+Image_maching+Gating:基于mBart预训练模型的文本特征和本发明中词级相似度匹配算法得到图像经过图文多模态门控去噪后融合的实验条件
表2为主实验结果
模型 En-Vi En-De
XLM-100 96% 97.5%
mBart - 92.6%
XLM-100+mage_maching+Gating 96.8%↑ 98.2%↑
mBart+Image_maching+Gating - 92.7%↑
其中,基线模型在两对语言的实验都可以达到较好效果,但在添加图像增强后依旧可以提升模型性能。在基于XLM-100的模型中越南语-英语任务从96%提升至96.8%,德语-英语任务中从97.5%提升至98.2%。
表3为实例分析,由表可得,在句子结构相似,但词级信息不平行的情况下,单一文本模态模型会错误判断为平行句对,本发明模型可以正确判断为非平行句对。
表3实例分析
Figure BDA0003480083620000081
2.图文多模态门控消融实验
为了探究多模态门控的控制噪声能力,本发明进行了门控消融实验。由表4第一二行可见,没有使用图文多模态门控时,即使加入正确图像信息也会降低模型性能,en-vi任务降低2.2个点,en-de任务降低2.3个点。证明图文多模态门控进行控制前提下融入图像信息可以有效过滤一定噪声,提升模型性能,表4中:
XLM-100+Image_right+Gating:基于XLM-100预训练模型的文本特征和正确语义相关图像经过图文多模态门控去噪后融合的实验条件。
XLM-100+Image_right:基于XLM-100预训练模型的文本特征和正确语义相关图像直接融合的实验条件。
mBart+Image_right+Gating:基于mBart预训练模型的文本特征和正确语义相关图像经过图文多模态门控去噪后融合的实验条件。
mBart+Image_right:基于mBart预训练模型的文本特征和正确语义相关图像直接融合的实验条件。
表4为图文门控消融实验结果
模型 En-Vi En-De
XLM-100+Image_right+Gating 97.2%↑ 98.3%↑
XLM-100+Image_right 95%↓ 96%↓
mBart+Image_right+Gating - 93.3%↑
mBart+Image_right - 90.7%↓
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.基于图文多模态门控增强的文本平行句对抽取方法,其特征在于:所述方法的具体步骤如下:
Step1、建立多语言图像检索标签库,将不同语种文本进行分词后进行检索语义相关图像,得到图像编号;
Step2、使用文本预训练模型得到不同语种文本的文字表征,然后使用ResNet50提取Step1中得到的语义相关图像表征,接着用多模态门控将对应的文本和图像进行融合,得到两种语言的多模态表征;
Step3、将Step2得到的不同语种多模态表征进行拼接,然后将拼接后的表征送入前馈神经网络层并且经过sigmoid函数进行映射,从而将平行句对抽取任务转化为分类任务后得到平行句对预测结果。
2.根据权利要求1所述的基于图文多模态门控增强的文本平行句对抽取方法,其特征在于:所述Step1的具体步骤如下:
Step1.1、使用已有图像数据集的文字描述标注句子中的名词和动词作为该图像匹配关键词,建立标签检索库
Figure FDA0003480083610000011
表示一对训练语料句对,其中i代表第i个平行句对,α,β,分别代表不同语种,定义V={{I0,I1,I2...Ij},j=0,1,2...N}代表图像数据集,其中每张图像Ij都有对应的不同语种图像描述句对
Figure FDA0003480083610000012
遍历数据集V,对每张图像不同语种图像描述句对使用词性标注POS工具提取名词和动词作为该图像的标签,记作
Figure FDA0003480083610000013
其中
Figure FDA0003480083610000014
n表示该图像标签个数,对应的
Figure FDA0003480083610000015
Step1.2、进行语义相关图像检索:假设输入某一语种句子
Figure FDA0003480083610000016
使用分词工具将该句子进行分词,得到
Figure FDA0003480083610000017
其中m为句子中词的个数,遍历图像数据集,可得,第j个图像对应α语言标签为
Figure FDA0003480083610000018
其中
Figure FDA0003480083610000019
Figure FDA00034800836100000110
Figure FDA00034800836100000111
进行最大公共子集算法LCS计算,得到最大子集元素个数s,则对应的图像Ij作为检索得到的
Figure FDA00034800836100000112
语义相关图像,记作
Figure FDA00034800836100000113
利用相同的方式得到β语言句子
Figure FDA00034800836100000114
语义相关图像
Figure FDA00034800836100000115
3.根据权利要求1所述的基于图文多模态门控增强的文本平行句对抽取方法,其特征在于:所述Step2的具体步骤如下:
Step2.1、用预训练模型提取文本表征:根据公式(1)(2)得到
Figure FDA00034800836100000118
Figure FDA00034800836100000116
Figure FDA00034800836100000117
其中,对于α语言,
Figure FDA0003480083610000021
为预训练提取文本表征中代表句子级语义特征的[CLS]向量,最终用该向量表示第i句对α语言句子的表征,记作
Figure FDA0003480083610000022
相应的对于β语言,
Figure FDA0003480083610000023
为预训练提取文本表征中代表句子级语义特征的[CLS]向量,最终用该向量表示第i句对β语言句子的表征,记作
Figure FDA0003480083610000024
最终得到文字表征
Figure FDA0003480083610000025
Figure FDA00034800836100000228
表示一对训练语料句对,其中i代表第i个平行句对,
Figure FDA0003480083610000026
分别代表不同语种句子;z为句子的特征个数;
Step2.2、使用ResNet50提取语义相关图像表征,其中对应第i句对α语言的图像
Figure FDA0003480083610000027
可得图像表征
Figure FDA0003480083610000028
对应第i句对β语言的图像
Figure FDA0003480083610000029
可得到图像表征
Figure FDA00034800836100000210
Figure FDA00034800836100000211
Figure FDA00034800836100000212
由此得到文字表征
Figure FDA00034800836100000213
和图像表征
Figure FDA00034800836100000214
Step2.3、将Step2.2得到的文本表征
Figure FDA00034800836100000215
和图像表征
Figure FDA00034800836100000216
根据公式(5)进行计算,得到门控参数λα,公式(5)假设当前语种为α,相对应的对于语言β,公式(6)能得到门控参数λβ,其中,W为线性层参数;
Figure FDA00034800836100000217
Figure FDA00034800836100000218
接着,根据公式(7)、(8)将公式(5)、(6)得到的参数和对应图像表征
Figure FDA00034800836100000219
点乘,得到图文门控去噪后的图像表征
Figure FDA00034800836100000220
Figure FDA00034800836100000221
Figure FDA00034800836100000222
最后,将得到的图像表征
Figure FDA00034800836100000223
与文字表征
Figure FDA00034800836100000224
融合,得到两种语言的多模态表征,采用加性融合策略,融合过程如下式(9)、(10);
Figure FDA00034800836100000225
Figure FDA00034800836100000226
4.根据权利要求3所述的基于图文多模态门控增强的文本平行句对抽取方法,其特征在于:所述Step3的具体步骤如下:
Step3.1、将Step2得到多模态表征向量
Figure FDA00034800836100000227
给出公式(11)拼接向量,得到向量Ui,接着给出公式(12)进行线性变化得到特征向量,最后给出公式(13)将特征输入Sigmoid函数得到最终分数进行损失计算;
Figure FDA0003480083610000031
A=ReLU(WUi+b) (12)
p(y=1|A)=Sigmoid(A+b) (13)。
CN202210065519.2A 2022-01-20 2022-01-20 基于图文多模态门控增强的文本平行句对抽取方法 Active CN115017884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210065519.2A CN115017884B (zh) 2022-01-20 2022-01-20 基于图文多模态门控增强的文本平行句对抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210065519.2A CN115017884B (zh) 2022-01-20 2022-01-20 基于图文多模态门控增强的文本平行句对抽取方法

Publications (2)

Publication Number Publication Date
CN115017884A true CN115017884A (zh) 2022-09-06
CN115017884B CN115017884B (zh) 2024-04-26

Family

ID=83066823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210065519.2A Active CN115017884B (zh) 2022-01-20 2022-01-20 基于图文多模态门控增强的文本平行句对抽取方法

Country Status (1)

Country Link
CN (1) CN115017884B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640520A (zh) * 2022-11-07 2023-01-24 北京百度网讯科技有限公司 跨语言跨模态模型的预训练方法、设备和存储介质
CN116167434A (zh) * 2023-04-24 2023-05-26 清华大学 一种弱监督视觉语言预训练模型的训练方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287688A (zh) * 2020-09-17 2021-01-29 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
CN112650848A (zh) * 2020-12-30 2021-04-13 交控科技股份有限公司 基于文本语义相关乘客评价的城铁舆情信息分析方法
CN112799747A (zh) * 2019-11-14 2021-05-14 中兴通讯股份有限公司 智能助理评价、推荐方法、系统、终端及可读存储介质
WO2021180062A1 (zh) * 2020-03-09 2021-09-16 华为技术有限公司 意图识别方法及电子设备
CN113407743A (zh) * 2016-04-08 2021-09-17 北京三星通信技术研究有限公司 物体信息翻译、以及衍生信息获取方法和装置
CN113901831A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于预训练语言模型及双向交互注意力的平行句对抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407743A (zh) * 2016-04-08 2021-09-17 北京三星通信技术研究有限公司 物体信息翻译、以及衍生信息获取方法和装置
CN112799747A (zh) * 2019-11-14 2021-05-14 中兴通讯股份有限公司 智能助理评价、推荐方法、系统、终端及可读存储介质
WO2021180062A1 (zh) * 2020-03-09 2021-09-16 华为技术有限公司 意图识别方法及电子设备
CN112287688A (zh) * 2020-09-17 2021-01-29 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
CN112650848A (zh) * 2020-12-30 2021-04-13 交控科技股份有限公司 基于文本语义相关乘客评价的城铁舆情信息分析方法
CN113901831A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于预训练语言模型及双向交互注意力的平行句对抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PIERRE TIRILLY等: "news image annotation on a large parallel text-image corpus", LREC, 31 May 2010 (2010-05-31), pages 2564 - 2569 *
彭晓娅;周栋;: "跨语言词向量研究综述", 中文信息学报, vol. 34, no. 02, 15 February 2020 (2020-02-15), pages 1 - 15 *
霍茜曈: "基于图文多模态门控增强的文本平行句对抽取方法", 电视技术, vol. 22, no. 6, 15 June 2022 (2022-06-15), pages 46 - 53 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640520A (zh) * 2022-11-07 2023-01-24 北京百度网讯科技有限公司 跨语言跨模态模型的预训练方法、设备和存储介质
CN116167434A (zh) * 2023-04-24 2023-05-26 清华大学 一种弱监督视觉语言预训练模型的训练方法和装置

Also Published As

Publication number Publication date
CN115017884B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
WO2023093574A1 (zh) 基于多级图文语义对齐模型的新闻事件搜索方法及系统
Wang et al. Application of convolutional neural network in natural language processing
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN110502744B (zh) 一种针对历史公园评价的文本情感识别方法及装置
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
CN115017884B (zh) 基于图文多模态门控增强的文本平行句对抽取方法
CN112101014B (zh) 一种混合特征融合的中文化工文献分词方法
CN114595327A (zh) 数据增强方法和装置、电子设备、存储介质
Lin et al. Towards user-driven neural machine translation
Parvin et al. Transformer-based local-global guidance for image captioning
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
Wang et al. Interactive Topic Model with Enhanced Interpretability.
Veisi et al. Multi-level text document similarity estimation and its application for plagiarism detection
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Gong et al. A semantic similarity language model to improve automatic image annotation
CN112800244B (zh) 一种中医药及民族医药知识图谱的构建方法
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN113902764A (zh) 基于语义的图像-文本的跨模态检索方法
CN117891948A (zh) 一种基于内部知识提取与对比学习的小样本新闻分类方法
CN113627170A (zh) 多特征融合的越南语关键词生成方法
Liu et al. Latent attribute based hierarchical decoder for neural machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant