CN117218503A

CN117218503A - 一种融合图像信息的越汉跨语言新闻文本摘要方法

Info

Publication number: CN117218503A
Application number: CN202311170803.7A
Authority: CN
Inventors: 余正涛; 吴奇远; 谭凯文; 黄于欣
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-12-12

Abstract

本发明涉及一种融合图像信息的越汉跨语言新闻文本摘要方法，属于自然语言处理技术领域。本发明首先构建越汉多模态跨语言摘要数据集；其次利用文本编码器和图像编码器对越南语新闻文本和图像进行表征，再利用图文对比损失增强图像和文本表征的一致性，迫使越南语的表征空间趋近于与语言无关的图像表征空间，然后利用图文融合器进行图像和文本的有效融合，增强新闻文本的关键信息提取能力，最后利用摘要解码器生成中文摘要。本发明在一个较大规模的越汉跨语言新闻摘要数据集进行实验表明生成的摘要具备更高的ROUGE分数、信息量、简洁度和流畅度。

Description

一种融合图像信息的越汉跨语言新闻文本摘要方法

技术领域

本发明涉及融合图像信息的越汉跨语言新闻文本摘要方法，属于自然语言处理技术领域。

背景技术

随着信息技术的快速发展，图像在新闻传播和理解中的作用日益重要。然而，在跨语言新闻摘要中，仅局限于对文本信息的概括提取，而没有考虑到新闻常以图文的形式出现，在数据模态上特征提取上过于单一，限制了摘要的质量和准确性。为了解决这一问题，跨语言新闻摘要中融合图像信息的方法已经成为研究的焦点。近年来，许多学者开始致力于研究多模态跨语言摘要方法。这些方法旨在通过结合图像和文本的特征，来提高跨语言新闻摘要的效果。在传统的跨语言新闻摘要方法中，主要基于文本信息进行摘要生成，而图像信息往往被忽视。然而，图像能够提供丰富的视觉内容和上下文信息，能够为新闻摘要的生成提供重要辅助。因此，本文采用了图像编码器来提取图像特征，并与文本编码器进行融合，以获得更全面和准确的语义信息。以解决在跨语言新闻摘要中利用图像信息来弥补文本信息的不足问题。

发明内容

本发明提供了一种融合图像信息的越汉跨语言新闻文本摘要方法，以用于解决在跨语言新闻摘要中利用图像信息来弥补文本信息的不足问题，获得更全面和准确的语义信息，生成的摘要具备更高的ROUGE分数、信息量、简洁度和流畅度。

本发明的技术方案是：一种融合图像信息的越汉跨语言新闻文本摘要方法，所述方法的具体步骤如下：

Step1、从互联网多个新闻网站上爬取越南语新闻文本及其对应新闻图像，并对其进行处理，构建越汉多模态跨语言摘要数据集；

Step2、文本编码器负责将输入的越南语新闻文本转化为语义表征，捕捉关键信息和语义关联；

Step3、图像编码器将输入的新闻图像转换为图像表征，提取图像中的视觉信息；

Step4、图文对比损失通过最大化正样本相似性和最小化负样本相似性，将图像和文本之间的信息进行有效关联和整合；

Step5、图文融合器将文本表征和图像表征进行融合，获取融合后的图文表征；通过充分捕获文本和图像之间的关联性，提取文本中的关键信息；

Step6、摘要解码器使用融合后的图文特征作为输入，生成中文的摘要。

进一步地，所述步骤Step1的具体步骤为：

Step1.1、在多个新闻网站上爬取越南语新闻文本及其对应新闻图像初步构建了一个多模态单语摘要数据集，然后使用谷歌翻译将越南语摘要翻译为中文摘要；

Step1.2、对构建的数据进行清洗，使用往返翻译策略，通过设置ROUGE得分的阈值来过滤低质量翻译的摘要文本，并只保留新闻图片前三张。

进一步地，所述步骤Step2的具体步骤：

Step2.1、编码器输入序列为将S^A输入进行编码得到新闻序列的向量表征W＝{w₁,w₂,w₃,...,w_E}，其中S代表越南语新闻文章，E为输入文本序列长度，/>表示在越南语新闻文章A上的第E个词，编码器的层数设置为L，最终得到文本输出d_t为特征维度；

Step2.2、在文本的编码器端，采用自注意力机制来捕捉输入序列中的全局依赖关系，为每个输入元素赋予一个权重，这个权重由该元素与序列中所有其他元素的相关性决定；

其中Q，K，V分别为查询(query)，键(key)，值(value)，d_k表示向量K的维度；

Step2.3、再将每一个头拼接相连得到多头注意力机制；

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)

其中，head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)，W_i ^Q，W_i ^K，W_i ^V是权重参数矩阵，h是注意力头的数量。

进一步地，所述步骤Step3的具体步骤为：

Step3.1、给定图像编码器输入序列为I＝{img₁,img₂,...,img_M}，其中M是指输入新闻图像的序列，使用ViT原始图像转换为图像嵌入，与文本嵌入一并作为图像编码器的输入；

其中，ViT是将每张图像分成多个patches，将2D图像重塑为平坦的其中(H,W)是原始图像的分辨率，C是通道数，(P，P)是每个图像块的分辨率，以及N＝HW/P²为最终的patches数量，将这一连串的patches作为图像tokenizer的输入，完成图像patches处理后，还需要进行图像块嵌入操作，对每一个展平后的patch线性投影到D维，E_pos为位置编码，E为输入文本序列长度；

Step3.2、将生成的Z₀序列作为Transformer编码器的输入：

Z_l+1＝Transformer(Z_l)，l＝1，2，...，L

其中L为Transformer模型中编码器的层数；再对输出向量进行全局最大池化操作v_i＝MaxPooling(Z_L)，其中最终得到输出的图像序列长度为M视觉特征向量序列

进一步地，所述步骤Step4的具体步骤为：

Step4.1、相似度函数s＝g_v(v)^Tg_w(w)，其中v＝O_v，w＝Linear(O_t)，g_v(v)和g_w(w)是将图文的高维表示映射到标准化低维表示的线性变换，匹配的图像-文本对就会具有更高的相似度得分；再次针对g_v(v)和g_w(w)设计两个队列来存储两个独立的单模态编码器不同的图文表示，将它们的特征记为g′_v(v′)和g′_w(w′)，对于每一个图文对计算其softmax归一化的图像-文本和文本-图像的相似度：

其中τ是调控参数，进行概率分布的调整；

Step4.2、设和/>是分别表示图像到文本和文本到图像ground-truth的one-hot相似度，负样本对的概率是0，而正样本对的概率是1；

图文对比损失之间的损失函数为；

其中，H(，)为交叉熵函数，正样本为同一新闻文章中的图像-文本对而负样本为同一个batch中不同新闻文章中的图像-文本对，通过计算正负样本相似性的相似度得分，模型能够学习到更具有区分性的图文表征，进而更好地区分相似和不相似的图文对。

进一步地，所述步骤Step5的具体步骤为：

Step5.1、在进行图文融合前，利用多头注意力机制和前馈神经网络对文本进行进一步编码，得到输出然后结合图像编码器的输出/>进行图文融合，具有S个视觉特征向量序列，其中图文融合器的层数为6-L；L为编码器的层数；

Step5.2、使用基于多头注意力融合，引入多个注意力头，采用多个并行的注意力头同时学习和捕捉不同的特征信息；

其中查询向量Q从输入文本特征中获取，键向量K和值向量V从输入视觉特征中获取，将向量Q，K，V相应地进行了线性投影，分别表示为P_q、P_k和P_v；Q＝O_cP_q，K＝O_vP_k，V＝O_vW_v，采用一个跨模态多头注意实现对文本的筛选和重组，最终得到视觉特征D1；

最后，参考点积注意力融合连接输入的文本特征O_c与视觉特征D1，得到视觉引导的文本特征O′_c，随后，将这个特征通过线性变换P投影到所需的维度；

O′_c＝Concat(O_c，D1)P。

进一步地，所述步骤Step6的具体步骤为：

Step6.1、解码器输入序列为其中T代表中文摘要，D2为输出序列长度；

Step6.2、每个解码器层由三个子层连接结构组成，其中与编码器层不同之处在于引入了带掩码的多头注意力子层，使得解码器能够按顺序逐步生成目标语言序列，并在生成过程中充分利用源语言序列的信息。通过编、解码器的联合训练，以在给定源序列的情况下最大化目标序列的损失函数，得到解码损失；

Step6.3、最后，将图文对比损失和解码损失相加，得到最终的损失函数：

L_total＝L_CL+L_cls

其中，L_CL为图文对比损失，L_cls为解码损失。

本发明的有益效果是：本发明提出了融合图像信息的越汉跨语言新闻文本摘要方法，在跨语言场景中，由于语言差异和数据稀缺性的问题，传统的文本摘要方法存在一定的局限性。为了克服这些问题，本发明采用了图像编码器来提取图像特征，并与文本编码器进行融合，以获得更全面和准确的语义信息。以解决在跨语言新闻摘要中利用图像信息来弥补文本信息的不足问题，本发明在一个较大规模的越汉跨语言新闻摘要数据集进行实验表明生成的摘要具备更高的ROUGE分数、信息量、简洁度和流畅度。

附图说明

图1是本发明中数据处理的流程图；

图2是本发明中模型流程图；

图3是本发明的模型结构图。

具体实施方式

实施例1：如图1-3所示，融合图像信息的越汉跨语言新闻文本摘要方法，所述方法的具体步骤如下：

进一步地，所述步骤Step1的具体步骤为：

Step1.2、对构建的数据进行清洗，使用往返翻译策略，通过设置ROUGE得分的阈值来过滤低质量翻译的摘要文本，并只保留新闻图片前三张。得到所构建的越汉多模态跨语言摘要数据集如表1所示：

表1越汉多模态跨语言摘要数语料库统计数据

进一步地，所述步骤Step2的具体步骤：

Step2.1、编码器输入序列为将S^A输入进行编码得到新闻序列的向量表征W＝{w₁,w₂，w₃，...，w_E}，其中S代表越南语新闻文章，E为输入文本序列长度，/>表示在越南语新闻文章A上的第E个词，编码器的层数设置为L，最终得到文本输出d_t为特征维度；

Step2.3、再将每一个头拼接相连得到多头注意力机制；

MultiHead(Q，K，V)＝Concat(head₁，..，head_n)

其中，head_i＝Attention(QW_i ^Q，KW_i ^K，VW_iV)，W_i ^Q，W_i ^K，W_i ^V是权重参数矩阵，h是注意力头的数量。

进一步地，所述步骤Step3的具体步骤为：

Step3.1、给定图像编码器输入序列为I＝{img₁，img₂，..，img_M}，其中M是指输入新闻图像的序列，使用ViT原始图像转换为图像嵌入，与文本嵌入一并作为图像编码器的输入；

其中，ViT是将每张图像分成多个patches，将2D图像重塑为平坦的其中(H，W)是原始图像的分辨率，C是通道数，(P，P)是每个图像块的分辨率，以及N＝HW/P²为最终的patches数量，将这一连串的patches作为图像tokenizer的输入，完成图像patches处理后，还需要进行图像块嵌入操作，对每一个展平后的patch线性投影到D维，E_pos为位置编码，E为输入文本序列长度；

Step3.2、将生成的Z₀序列作为Transformer编码器的输入：

Z_l+1＝Transformer(Z_l)，l＝1，2，..，L

进一步地，所述步骤Step4的具体步骤为：

其中τ是调控参数，进行概率分布的调整；

图文对比损失之间的损失函数为；

进一步地，所述步骤Step5的具体步骤为：

O′_c＝Concat(O_c,D1)P。

进一步地，所述步骤Step6的具体步骤为：

L_total＝L_CL+L_cls；其中，L_CL为图文对比损失，L_cls为解码损失。

为了说明本发明的有效性，本文设计了两组实验进行验证，第一组实验验证基线模型和本发明进行对比实验。第二组实验验证本发明的消融实验。

第一组实验，表2展示了本发明与基线模型的对比实验结果。为了验证融合图像信息的越汉跨语言摘要方法的有效性，本文对以下基线模型进行训练，并进行了相应比较；

Sum-Trans(先摘要后翻译)：首先使用Transformer模型对越南语新闻长文本进行单语训练，得到越南语单语摘要。然后，将越南语摘要作为中间文本，通过谷歌翻译模型将其翻译成中文目标摘要。

Trans-Sum(先翻译后摘要)：本方法基于Transformer模型进行机器翻译训练，得到中文新闻长文本作为中间文本。然后，采用HanLP对中文新闻长文本进行单语摘要，使用了基于TextRank的无监督方法。HanLP能够有效地提取文本中的关键信息，并针对中文进行了优化，能够得到更好的摘要结果。

NCLS：利用一种端到端的神经网络的Transformer模型生成跨语言摘要，使用编、解码器的注意力机制实现两种不同语言的对齐，并将越汉跨语言摘要运用到此框架上进行训练。

NCLS+MS：在NCLS的基础上，引入一个共享的编码器和独立的解码器，将单语摘要任务与跨语言摘要任务进行联合训练以增强编码器，在多任务框架中，通过在解码器端引入单语摘要任务作为额外的约束，以加强模型的训练和学习过程。

MCLAS：使用一个统一的解码器按次序依次生成单语言摘要和跨语言摘要，使得单语言摘要任务成为了跨语言摘要任务的前置任务。该方法能够学到两种语言摘要之间的互动信息，包括不同语言的词对齐关系和摘要模式。

DP-CLS：图文融合层为点积注意力的本文方法。

MH-CLS：图文融合层为多头注意力的本文方法。

表2跨语言摘要模型对比实验结果表

Trans-Sum模型和Sum-Trans模型在ROUGE得分上都表现较低。这种低得分可能是由于两个独立子任务之间的误差累积所导致的。在这些模型中，前一个任务的误差会直接影响后一个任务的性能，从而使得摘要的质量大幅度降低。其次，与主流的多任务学习框架NCLS、NCLS+MS和MCLAS相比，DP-CLS和MH-CLS在ROUGE得分上都获得了显著的提升，表明图像信息的融入能够有效提升跨语言摘要性能。同时MH-CLS方法的效果稍微优于DP-CLS方法，这说明多头注意力机制在融合图像信息时比点积注意力机制更有效。

第二组实验，表3展示了本发明与基线模型的对比实验结果，可以看出，本发明性能最好。采用单一模块进行实验验证。其中，w/o image是指去除图像编码模块和图文融合模块，只保留了对文本进行编码的部分。w/o CL是指去除图文对比损失部分，仅对图像和文本两部分进行简单的融合处理。

表3消融实验结果表

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合图像信息的越汉跨语言新闻文本摘要方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法，其特征在于：所述步骤Step1的具体步骤为：

3.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法，其特征在于：所述步骤Step2的具体步骤：

Step2.3、再将每一个头拼接相连得到多头注意力机制；

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)

其中，head_i＝Attention(QWi_i ^Q,KW_i ^K,VW_i ^V)，W_i ^Q，W_i ^K，W_i ^V是权重参数矩阵，h是注意力头的数量。

4.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法，其特征在于：所述步骤Step3的具体步骤为：

其中，ViT是将每张图像分成多个patches，将2D图像重塑为平坦的2Dpatches/>其中(H,W)是原始图像的分辨率，C是通道数，(P,P)是每个图像块的分辨率，以及N＝HW/P²为最终的patches数量，将这一连串的patches作为图像tokenizer的输入，完成图像patches处理后，还需要进行图像块嵌入操作，对每一个展平后的patch线性投影到D维，E_pos为位置编码，E为输入文本序列长度；

Step3.2、将生成的Z₀序列作为Transformer编码器的输入：

Z_l+1＝Transformer(Z_l)，l＝1,2,...,L

5.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法，其特征在于：所述步骤Step4的具体步骤为：

其中τ是调控参数，进行概率分布的调整；

图文对比损失之间的损失函数为；

其中，H(,)为交叉熵函数，正样本为同一新闻文章中的图像-文本对而负样本为同一个batch中不同新闻文章中的图像-文本对，通过计算正负样本相似性的相似度得分，模型能够学习到更具有区分性的图文表征，进而更好地区分相似和不相似的图文对。

6.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法，其特征在于：所述步骤Step5的具体步骤为：

D1＝CrossModalMultiHead(Q,K,V)，

O′_c＝Concat(O_c,D1)P。

7.根据权利要求1所述的融合图像信息的越汉跨语言新闻文本摘要方法，其特征在于：所述步骤Step6的具体步骤为：

Step6.2、每个解码器层由三个子层连接结构组成，其中与编码器层不同之处在于引入了带掩码的多头注意力子层，使得解码器能够按顺序逐步生成目标语言序列，并在生成过程中充分利用源语言序列的信息，通过编、解码器的联合训练，以在给定源序列的情况下最大化目标序列的损失函数，得到解码损失L_cls；

L_total＝L_CL+L_cls

其中，L_cL为图文对比损失，L_cls为解码损失。