CN117218503A - 一种融合图像信息的越汉跨语言新闻文本摘要方法 - Google Patents
一种融合图像信息的越汉跨语言新闻文本摘要方法 Download PDFInfo
- Publication number
- CN117218503A CN117218503A CN202311170803.7A CN202311170803A CN117218503A CN 117218503 A CN117218503 A CN 117218503A CN 202311170803 A CN202311170803 A CN 202311170803A CN 117218503 A CN117218503 A CN 117218503A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- news
- sequence
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000004927 fusion Effects 0.000 claims abstract description 25
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 27
- 230000000007 visual effect Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 15
- 238000013519 translation Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000009193 crawling Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 12
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract 2
- 230000000052 comparative effect Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种融合图像信息的越汉跨语言新闻文本摘要方法,属于自然语言处理技术领域。本发明首先构建越汉多模态跨语言摘要数据集;其次利用文本编码器和图像编码器对越南语新闻文本和图像进行表征,再利用图文对比损失增强图像和文本表征的一致性,迫使越南语的表征空间趋近于与语言无关的图像表征空间,然后利用图文融合器进行图像和文本的有效融合,增强新闻文本的关键信息提取能力,最后利用摘要解码器生成中文摘要。本发明在一个较大规模的越汉跨语言新闻摘要数据集进行实验表明生成的摘要具备更高的ROUGE分数、信息量、简洁度和流畅度。
Description
技术领域
本发明涉及融合图像信息的越汉跨语言新闻文本摘要方法,属于自然语言处理技术领域。
背景技术
随着信息技术的快速发展,图像在新闻传播和理解中的作用日益重要。然而,在跨语言新闻摘要中,仅局限于对文本信息的概括提取,而没有考虑到新闻常以图文的形式出现,在数据模态上特征提取上过于单一,限制了摘要的质量和准确性。为了解决这一问题,跨语言新闻摘要中融合图像信息的方法已经成为研究的焦点。近年来,许多学者开始致力于研究多模态跨语言摘要方法。这些方法旨在通过结合图像和文本的特征,来提高跨语言新闻摘要的效果。在传统的跨语言新闻摘要方法中,主要基于文本信息进行摘要生成,而图像信息往往被忽视。然而,图像能够提供丰富的视觉内容和上下文信息,能够为新闻摘要的生成提供重要辅助。因此,本文采用了图像编码器来提取图像特征,并与文本编码器进行融合,以获得更全面和准确的语义信息。以解决在跨语言新闻摘要中利用图像信息来弥补文本信息的不足问题。
发明内容
本发明提供了一种融合图像信息的越汉跨语言新闻文本摘要方法,以用于解决在跨语言新闻摘要中利用图像信息来弥补文本信息的不足问题,获得更全面和准确的语义信息,生成的摘要具备更高的ROUGE分数、信息量、简洁度和流畅度。
本发明的技术方案是:一种融合图像信息的越汉跨语言新闻文本摘要方法,所述方法的具体步骤如下:
Step1、从互联网多个新闻网站上爬取越南语新闻文本及其对应新闻图像,并对其进行处理,构建越汉多模态跨语言摘要数据集;
Step2、文本编码器负责将输入的越南语新闻文本转化为语义表征,捕捉关键信息和语义关联;
Step3、图像编码器将输入的新闻图像转换为图像表征,提取图像中的视觉信息;
Step4、图文对比损失通过最大化正样本相似性和最小化负样本相似性,将图像和文本之间的信息进行有效关联和整合;
Step5、图文融合器将文本表征和图像表征进行融合,获取融合后的图文表征;通过充分捕获文本和图像之间的关联性,提取文本中的关键信息;
Step6、摘要解码器使用融合后的图文特征作为输入,生成中文的摘要。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、在多个新闻网站上爬取越南语新闻文本及其对应新闻图像初步构建了一个多模态单语摘要数据集,然后使用谷歌翻译将越南语摘要翻译为中文摘要;
Step1.2、对构建的数据进行清洗,使用往返翻译策略,通过设置ROUGE得分的阈值来过滤低质量翻译的摘要文本,并只保留新闻图片前三张。
进一步地,所述步骤Step2的具体步骤:
Step2.1、编码器输入序列为将SA输入进行编码得到新闻序列的向量表征W={w1,w2,w3,...,wE},其中S代表越南语新闻文章,E为输入文本序列长度,/>表示在越南语新闻文章A上的第E个词,编码器的层数设置为L,最终得到文本输出dt为特征维度;
Step2.2、在文本的编码器端,采用自注意力机制来捕捉输入序列中的全局依赖关系,为每个输入元素赋予一个权重,这个权重由该元素与序列中所有其他元素的相关性决定;
其中Q,K,V分别为查询(query),键(key),值(value),dk表示向量K的维度;
Step2.3、再将每一个头拼接相连得到多头注意力机制;
MultiHead(Q,K,V)=Concat(head1,...,headn)
其中,headi=Attention(QWi Q,KWi K,VWi V),Wi Q,Wi K,Wi V是权重参数矩阵,h是注意力头的数量。
进一步地,所述步骤Step3的具体步骤为:
Step3.1、给定图像编码器输入序列为I={img1,img2,...,imgM},其中M是指输入新闻图像的序列,使用ViT原始图像转换为图像嵌入,与文本嵌入一并作为图像编码器的输入;
其中,ViT是将每张图像分成多个patches,将2D图像重塑为平坦的其中(H,W)是原始图像的分辨率,C是通道数,(P,P)是每个图像块的分辨率,以及N=HW/P2为最终的patches数量,将这一连串的patches作为图像tokenizer的输入,完成图像patches处理后,还需要进行图像块嵌入操作,对每一个展平后的patch线性投影到D维,Epos为位置编码,E为输入文本序列长度;
Step3.2、将生成的Z0序列作为Transformer编码器的输入:
Zl+1=Transformer(Zl),l=1,2,...,L
其中L为Transformer模型中编码器的层数;再对输出向量进行全局最大池化操作vi=MaxPooling(ZL),其中最终得到输出的图像序列长度为M视觉特征向量序列
进一步地,所述步骤Step4的具体步骤为:
Step4.1、相似度函数s=gv(v)Tgw(w),其中v=Ov,w=Linear(Ot),gv(v)和gw(w)是将图文的高维表示映射到标准化低维表示的线性变换,匹配的图像-文本对就会具有更高的相似度得分;再次针对gv(v)和gw(w)设计两个队列来存储两个独立的单模态编码器不同的图文表示,将它们的特征记为g′v(v′)和g′w(w′),对于每一个图文对计算其softmax归一化的图像-文本和文本-图像的相似度:
其中τ是调控参数,进行概率分布的调整;
Step4.2、设和/>是分别表示图像到文本和文本到图像ground-truth的one-hot相似度,负样本对的概率是0,而正样本对的概率是1;
图文对比损失之间的损失函数为;
其中,H(,)为交叉熵函数,正样本为同一新闻文章中的图像-文本对而负样本为同一个batch中不同新闻文章中的图像-文本对,通过计算正负样本相似性的相似度得分,模型能够学习到更具有区分性的图文表征,进而更好地区分相似和不相似的图文对。
进一步地,所述步骤Step5的具体步骤为:
Step5.1、在进行图文融合前,利用多头注意力机制和前馈神经网络对文本进行进一步编码,得到输出然后结合图像编码器的输出/>进行图文融合,具有S个视觉特征向量序列,其中图文融合器的层数为6-L;L为编码器的层数;
Step5.2、使用基于多头注意力融合,引入多个注意力头,采用多个并行的注意力头同时学习和捕捉不同的特征信息;
其中查询向量Q从输入文本特征中获取,键向量K和值向量V从输入视觉特征中获取,将向量Q,K,V相应地进行了线性投影,分别表示为Pq、Pk和Pv;Q=OcPq,K=OvPk,V=OvWv,采用一个跨模态多头注意实现对文本的筛选和重组,最终得到视觉特征D1;
最后,参考点积注意力融合连接输入的文本特征Oc与视觉特征D1,得到视觉引导的文本特征O′c,随后,将这个特征通过线性变换P投影到所需的维度;
O′c=Concat(Oc,D1)P。
进一步地,所述步骤Step6的具体步骤为:
Step6.1、解码器输入序列为其中T代表中文摘要,D2为输出序列长度;
Step6.2、每个解码器层由三个子层连接结构组成,其中与编码器层不同之处在于引入了带掩码的多头注意力子层,使得解码器能够按顺序逐步生成目标语言序列,并在生成过程中充分利用源语言序列的信息。通过编、解码器的联合训练,以在给定源序列的情况下最大化目标序列的损失函数,得到解码损失;
Step6.3、最后,将图文对比损失和解码损失相加,得到最终的损失函数:
Ltotal=LCL+Lcls
其中,LCL为图文对比损失,Lcls为解码损失。
本发明的有益效果是:本发明提出了融合图像信息的越汉跨语言新闻文本摘要方法,在跨语言场景中,由于语言差异和数据稀缺性的问题,传统的文本摘要方法存在一定的局限性。为了克服这些问题,本发明采用了图像编码器来提取图像特征,并与文本编码器进行融合,以获得更全面和准确的语义信息。以解决在跨语言新闻摘要中利用图像信息来弥补文本信息的不足问题,本发明在一个较大规模的越汉跨语言新闻摘要数据集进行实验表明生成的摘要具备更高的ROUGE分数、信息量、简洁度和流畅度。
附图说明
图1是本发明中数据处理的流程图;
图2是本发明中模型流程图;
图3是本发明的模型结构图。
具体实施方式
实施例1:如图1-3所示,融合图像信息的越汉跨语言新闻文本摘要方法,所述方法的具体步骤如下:
Step1、从互联网多个新闻网站上爬取越南语新闻文本及其对应新闻图像,并对其进行处理,构建越汉多模态跨语言摘要数据集;
Step2、文本编码器负责将输入的越南语新闻文本转化为语义表征,捕捉关键信息和语义关联;
Step3、图像编码器将输入的新闻图像转换为图像表征,提取图像中的视觉信息;
Step4、图文对比损失通过最大化正样本相似性和最小化负样本相似性,将图像和文本之间的信息进行有效关联和整合;
Step5、图文融合器将文本表征和图像表征进行融合,获取融合后的图文表征;通过充分捕获文本和图像之间的关联性,提取文本中的关键信息;
Step6、摘要解码器使用融合后的图文特征作为输入,生成中文的摘要。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、在多个新闻网站上爬取越南语新闻文本及其对应新闻图像初步构建了一个多模态单语摘要数据集,然后使用谷歌翻译将越南语摘要翻译为中文摘要;
Step1.2、对构建的数据进行清洗,使用往返翻译策略,通过设置ROUGE得分的阈值来过滤低质量翻译的摘要文本,并只保留新闻图片前三张。得到所构建的越汉多模态跨语言摘要数据集如表1所示:
表1越汉多模态跨语言摘要数语料库统计数据
进一步地,所述步骤Step2的具体步骤:
Step2.1、编码器输入序列为将SA输入进行编码得到新闻序列的向量表征W={w1,w2,w3,...,wE},其中S代表越南语新闻文章,E为输入文本序列长度,/>表示在越南语新闻文章A上的第E个词,编码器的层数设置为L,最终得到文本输出dt为特征维度;
Step2.2、在文本的编码器端,采用自注意力机制来捕捉输入序列中的全局依赖关系,为每个输入元素赋予一个权重,这个权重由该元素与序列中所有其他元素的相关性决定;
其中Q,K,V分别为查询(query),键(key),值(value),dk表示向量K的维度;
Step2.3、再将每一个头拼接相连得到多头注意力机制;
MultiHead(Q,K,V)=Concat(head1,..,headn)
其中,headi=Attention(QWi Q,KWi K,VWiV),Wi Q,Wi K,Wi V是权重参数矩阵,h是注意力头的数量。
进一步地,所述步骤Step3的具体步骤为:
Step3.1、给定图像编码器输入序列为I={img1,img2,..,imgM},其中M是指输入新闻图像的序列,使用ViT原始图像转换为图像嵌入,与文本嵌入一并作为图像编码器的输入;
其中,ViT是将每张图像分成多个patches,将2D图像重塑为平坦的其中(H,W)是原始图像的分辨率,C是通道数,(P,P)是每个图像块的分辨率,以及N=HW/P2为最终的patches数量,将这一连串的patches作为图像tokenizer的输入,完成图像patches处理后,还需要进行图像块嵌入操作,对每一个展平后的patch线性投影到D维,Epos为位置编码,E为输入文本序列长度;
Step3.2、将生成的Z0序列作为Transformer编码器的输入:
Zl+1=Transformer(Zl),l=1,2,..,L
其中L为Transformer模型中编码器的层数;再对输出向量进行全局最大池化操作vi=MaxPooling(ZL),其中最终得到输出的图像序列长度为M视觉特征向量序列
进一步地,所述步骤Step4的具体步骤为:
Step4.1、相似度函数s=gv(v)Tgw(w),其中v=Ov,w=Linear(Ot),gv(v)和gw(w)是将图文的高维表示映射到标准化低维表示的线性变换,匹配的图像-文本对就会具有更高的相似度得分;再次针对gv(v)和gw(w)设计两个队列来存储两个独立的单模态编码器不同的图文表示,将它们的特征记为g′v(v′)和g′w(w′),对于每一个图文对计算其softmax归一化的图像-文本和文本-图像的相似度:
其中τ是调控参数,进行概率分布的调整;
Step4.2、设和/>是分别表示图像到文本和文本到图像ground-truth的one-hot相似度,负样本对的概率是0,而正样本对的概率是1;
图文对比损失之间的损失函数为;
其中,H(,)为交叉熵函数,正样本为同一新闻文章中的图像-文本对而负样本为同一个batch中不同新闻文章中的图像-文本对,通过计算正负样本相似性的相似度得分,模型能够学习到更具有区分性的图文表征,进而更好地区分相似和不相似的图文对。
进一步地,所述步骤Step5的具体步骤为:
Step5.1、在进行图文融合前,利用多头注意力机制和前馈神经网络对文本进行进一步编码,得到输出然后结合图像编码器的输出/>进行图文融合,具有S个视觉特征向量序列,其中图文融合器的层数为6-L;L为编码器的层数;
Step5.2、使用基于多头注意力融合,引入多个注意力头,采用多个并行的注意力头同时学习和捕捉不同的特征信息;
其中查询向量Q从输入文本特征中获取,键向量K和值向量V从输入视觉特征中获取,将向量Q,K,V相应地进行了线性投影,分别表示为Pq、Pk和Pv;Q=OcPq,K=OvPk,V=OvWv,采用一个跨模态多头注意实现对文本的筛选和重组,最终得到视觉特征D1;
最后,参考点积注意力融合连接输入的文本特征Oc与视觉特征D1,得到视觉引导的文本特征O′c,随后,将这个特征通过线性变换P投影到所需的维度;
O′c=Concat(Oc,D1)P。
进一步地,所述步骤Step6的具体步骤为:
Step6.1、解码器输入序列为其中T代表中文摘要,D2为输出序列长度;
Step6.2、每个解码器层由三个子层连接结构组成,其中与编码器层不同之处在于引入了带掩码的多头注意力子层,使得解码器能够按顺序逐步生成目标语言序列,并在生成过程中充分利用源语言序列的信息。通过编、解码器的联合训练,以在给定源序列的情况下最大化目标序列的损失函数,得到解码损失;
Step6.3、最后,将图文对比损失和解码损失相加,得到最终的损失函数:
Ltotal=LCL+Lcls;其中,LCL为图文对比损失,Lcls为解码损失。
为了说明本发明的有效性,本文设计了两组实验进行验证,第一组实验验证基线模型和本发明进行对比实验。第二组实验验证本发明的消融实验。
第一组实验,表2展示了本发明与基线模型的对比实验结果。为了验证融合图像信息的越汉跨语言摘要方法的有效性,本文对以下基线模型进行训练,并进行了相应比较;
Sum-Trans(先摘要后翻译):首先使用Transformer模型对越南语新闻长文本进行单语训练,得到越南语单语摘要。然后,将越南语摘要作为中间文本,通过谷歌翻译模型将其翻译成中文目标摘要。
Trans-Sum(先翻译后摘要):本方法基于Transformer模型进行机器翻译训练,得到中文新闻长文本作为中间文本。然后,采用HanLP对中文新闻长文本进行单语摘要,使用了基于TextRank的无监督方法。HanLP能够有效地提取文本中的关键信息,并针对中文进行了优化,能够得到更好的摘要结果。
NCLS:利用一种端到端的神经网络的Transformer模型生成跨语言摘要,使用编、解码器的注意力机制实现两种不同语言的对齐,并将越汉跨语言摘要运用到此框架上进行训练。
NCLS+MS:在NCLS的基础上,引入一个共享的编码器和独立的解码器,将单语摘要任务与跨语言摘要任务进行联合训练以增强编码器,在多任务框架中,通过在解码器端引入单语摘要任务作为额外的约束,以加强模型的训练和学习过程。
MCLAS:使用一个统一的解码器按次序依次生成单语言摘要和跨语言摘要,使得单语言摘要任务成为了跨语言摘要任务的前置任务。该方法能够学到两种语言摘要之间的互动信息,包括不同语言的词对齐关系和摘要模式。
DP-CLS:图文融合层为点积注意力的本文方法。
MH-CLS:图文融合层为多头注意力的本文方法。
表2跨语言摘要模型对比实验结果表
Trans-Sum模型和Sum-Trans模型在ROUGE得分上都表现较低。这种低得分可能是由于两个独立子任务之间的误差累积所导致的。在这些模型中,前一个任务的误差会直接影响后一个任务的性能,从而使得摘要的质量大幅度降低。其次,与主流的多任务学习框架NCLS、NCLS+MS和MCLAS相比,DP-CLS和MH-CLS在ROUGE得分上都获得了显著的提升,表明图像信息的融入能够有效提升跨语言摘要性能。同时MH-CLS方法的效果稍微优于DP-CLS方法,这说明多头注意力机制在融合图像信息时比点积注意力机制更有效。
第二组实验,表3展示了本发明与基线模型的对比实验结果,可以看出,本发明性能最好。采用单一模块进行实验验证。其中,w/o image是指去除图像编码模块和图文融合模块,只保留了对文本进行编码的部分。w/o CL是指去除图文对比损失部分,仅对图像和文本两部分进行简单的融合处理。
表3消融实验结果表
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.融合图像信息的越汉跨语言新闻文本摘要方法,其特征在于:所述方法的具体步骤如下:
Step1、从互联网多个新闻网站上爬取越南语新闻文本及其对应新闻图像,并对其进行处理,构建越汉多模态跨语言摘要数据集;
Step2、文本编码器负责将输入的越南语新闻文本转化为语义表征,捕捉关键信息和语义关联;
Step3、图像编码器将输入的新闻图像转换为图像表征,提取图像中的视觉信息;
Step4、图文对比损失通过最大化正样本相似性和最小化负样本相似性,将图像和文本之间的信息进行有效关联和整合;
Step5、图文融合器将文本表征和图像表征进行融合,获取融合后的图文表征;通过充分捕获文本和图像之间的关联性,提取文本中的关键信息;
Step6、摘要解码器使用融合后的图文特征作为输入,生成中文的摘要。
2.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、在多个新闻网站上爬取越南语新闻文本及其对应新闻图像初步构建了一个多模态单语摘要数据集,然后使用谷歌翻译将越南语摘要翻译为中文摘要;
Step1.2、对构建的数据进行清洗,使用往返翻译策略,通过设置ROUGE得分的阈值来过滤低质量翻译的摘要文本,并只保留新闻图片前三张。
3.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、编码器输入序列为将SA输入进行编码得到新闻序列的向量表征W={w1,w2,w3,...,wE},其中S代表越南语新闻文章,E为输入文本序列长度,/>表示在越南语新闻文章A上的第E个词,编码器的层数设置为L,最终得到文本输出dt为特征维度;
Step2.2、在文本的编码器端,采用自注意力机制来捕捉输入序列中的全局依赖关系,为每个输入元素赋予一个权重,这个权重由该元素与序列中所有其他元素的相关性决定;
其中Q,K,V分别为查询(query),键(key),值(value),dk表示向量K的维度;
Step2.3、再将每一个头拼接相连得到多头注意力机制;
MultiHead(Q,K,V)=Concat(head1,...,headn)
其中,headi=Attention(QWii Q,KWi K,VWi V),Wi Q,Wi K,Wi V是权重参数矩阵,h是注意力头的数量。
4.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、给定图像编码器输入序列为I={img1,img2,...,imgM},其中M是指输入新闻图像的序列,使用ViT原始图像转换为图像嵌入,与文本嵌入一并作为图像编码器的输入;
其中,ViT是将每张图像分成多个patches,将2D图像重塑为平坦的2Dpatches/>其中(H,W)是原始图像的分辨率,C是通道数,(P,P)是每个图像块的分辨率,以及N=HW/P2为最终的patches数量,将这一连串的patches作为图像tokenizer的输入,完成图像patches处理后,还需要进行图像块嵌入操作,对每一个展平后的patch线性投影到D维,Epos为位置编码,E为输入文本序列长度;
Step3.2、将生成的Z0序列作为Transformer编码器的输入:
Zl+1=Transformer(Zl),l=1,2,...,L
其中L为Transformer模型中编码器的层数;再对输出向量进行全局最大池化操作vi=MaxPooling(ZL),其中最终得到输出的图像序列长度为M视觉特征向量序列
5.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、相似度函数s=gv(v)Tgw(w),其中v=Ov,w=Linear(Ot),gv(v)和gw(w)是将图文的高维表示映射到标准化低维表示的线性变换,匹配的图像-文本对就会具有更高的相似度得分;再次针对gv(v)和gw(w)设计两个队列来存储两个独立的单模态编码器不同的图文表示,将它们的特征记为g′v(v′)和g′w(w′),对于每一个图文对计算其softmax归一化的图像-文本和文本-图像的相似度:
其中τ是调控参数,进行概率分布的调整;
Step4.2、设和/>是分别表示图像到文本和文本到图像ground-truth的one-hot相似度,负样本对的概率是0,而正样本对的概率是1;
图文对比损失之间的损失函数为;
其中,H(,)为交叉熵函数,正样本为同一新闻文章中的图像-文本对而负样本为同一个batch中不同新闻文章中的图像-文本对,通过计算正负样本相似性的相似度得分,模型能够学习到更具有区分性的图文表征,进而更好地区分相似和不相似的图文对。
6.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法,其特征在于:所述步骤Step5的具体步骤为:
Step5.1、在进行图文融合前,利用多头注意力机制和前馈神经网络对文本进行进一步编码,得到输出然后结合图像编码器的输出/>进行图文融合,具有S个视觉特征向量序列,其中图文融合器的层数为6-L;L为编码器的层数;
Step5.2、使用基于多头注意力融合,引入多个注意力头,采用多个并行的注意力头同时学习和捕捉不同的特征信息;
D1=CrossModalMultiHead(Q,K,V),
其中查询向量Q从输入文本特征中获取,键向量K和值向量V从输入视觉特征中获取,将向量Q,K,V相应地进行了线性投影,分别表示为Pq、Pk和Pv;Q=OcPq,K=OvPk,V=OvWv,采用一个跨模态多头注意实现对文本的筛选和重组,最终得到视觉特征D1;
最后,参考点积注意力融合连接输入的文本特征Oc与视觉特征D1,得到视觉引导的文本特征O′c,随后,将这个特征通过线性变换P投影到所需的维度;
O′c=Concat(Oc,D1)P。
7.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法,其特征在于:所述步骤Step6的具体步骤为:
Step6.1、解码器输入序列为其中T代表中文摘要,D2为输出序列长度;
Step6.2、每个解码器层由三个子层连接结构组成,其中与编码器层不同之处在于引入了带掩码的多头注意力子层,使得解码器能够按顺序逐步生成目标语言序列,并在生成过程中充分利用源语言序列的信息,通过编、解码器的联合训练,以在给定源序列的情况下最大化目标序列的损失函数,得到解码损失Lcls;
Step6.3、最后,将图文对比损失和解码损失相加,得到最终的损失函数:
Ltotal=LCL+Lcls
其中,LcL为图文对比损失,Lcls为解码损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311170803.7A CN117218503A (zh) | 2023-09-12 | 2023-09-12 | 一种融合图像信息的越汉跨语言新闻文本摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311170803.7A CN117218503A (zh) | 2023-09-12 | 2023-09-12 | 一种融合图像信息的越汉跨语言新闻文本摘要方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117218503A true CN117218503A (zh) | 2023-12-12 |
Family
ID=89041919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311170803.7A Pending CN117218503A (zh) | 2023-09-12 | 2023-09-12 | 一种融合图像信息的越汉跨语言新闻文本摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117218503A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975486A (zh) * | 2024-03-29 | 2024-05-03 | 厦门大学 | 基于文本图像的产品摘要生成方法、系统和存储介质 |
CN118035435A (zh) * | 2024-04-15 | 2024-05-14 | 南京信息工程大学 | 一种新闻摘要生成方法及相关装置 |
-
2023
- 2023-09-12 CN CN202311170803.7A patent/CN117218503A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975486A (zh) * | 2024-03-29 | 2024-05-03 | 厦门大学 | 基于文本图像的产品摘要生成方法、系统和存储介质 |
CN117975486B (zh) * | 2024-03-29 | 2024-08-16 | 厦门大学 | 基于文本图像的产品摘要生成方法、系统和存储介质 |
CN118035435A (zh) * | 2024-04-15 | 2024-05-14 | 南京信息工程大学 | 一种新闻摘要生成方法及相关装置 |
CN118035435B (zh) * | 2024-04-15 | 2024-06-11 | 南京信息工程大学 | 一种新闻摘要生成方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597778B (zh) | 一种基于自监督的机器翻译译文自动优化的方法和系统 | |
CN117218503A (zh) | 一种融合图像信息的越汉跨语言新闻文本摘要方法 | |
CN112016604B (zh) | 一种运用视觉信息的零资源机器翻译方法 | |
CN111160050A (zh) | 一种基于上下文记忆网络的篇章级神经机器翻译方法 | |
CN110688861B (zh) | 一种多特征融合的句子级译文质量估计方法 | |
Meetei et al. | WAT2019: English-Hindi translation on Hindi visual genome dataset | |
CN103942192B (zh) | 一种双语最大名词组块分离-融合的翻译方法 | |
WO2022088570A1 (zh) | 译文后编译方法、装置、电子设备和存储介质 | |
CN107305543B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
CN113901831B (zh) | 基于预训练语言模型及双向交互注意力的平行句对抽取方法 | |
CN113344036A (zh) | 一种基于动态词嵌入的多模态Transformer的图像描述方法 | |
CN112507733A (zh) | 基于依存图网络的汉越神经机器翻译方法 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
Sun | [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology | |
CN114169346A (zh) | 一种运用词性信息的机器翻译方法 | |
Shi et al. | Adding Visual Information to Improve Multimodal Machine Translation for Low‐Resource Language | |
CN116720531B (zh) | 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法 | |
CN113657125A (zh) | 一种基于知识图谱的蒙汉非自回归机器翻译方法 | |
Hirasawa et al. | Pre-trained word embedding and language model improve multimodal machine translation: A case study in Multi30K | |
CN116663577A (zh) | 基于跨模态表征对齐的英越端到端语音翻译方法 | |
CN114065780A (zh) | 机器翻译方法 | |
Khaing | Attention-based deep learning model for image captioning: a comparative study | |
CN114595688B (zh) | 融合词簇约束的汉越跨语言词嵌入方法 | |
CN115358239B (zh) | 一种命名实体和关系识别方法及存储介质 | |
CN114611487B (zh) | 基于动态词嵌入对齐的无监督泰语依存句法分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |