CN115934932A

CN115934932A - 一种基于多模态关键信息分析的摘要生成系统

Info

Publication number: CN115934932A
Application number: CN202211628261.9A
Authority: CN
Inventors: 廖祥文; 林于翔; 徐攀; 吴海杰; 李凯强
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-12-17
Filing date: 2022-12-17
Publication date: 2023-04-07

Abstract

本发明提出一种基于多模态关键信息分析的摘要生成系统，包括以下模块；文本编码器模块，用于获取文本的编码信息；图像编码器模块，用于获取图像不同角度上的特征信息；选择门控机制模块，用于挖掘文本和图像模态的关键信息，包括多模态选择门控网络和视觉选择门控网络；多头选择注意力模块，用于挖掘图像中的关键对象信息；多模态特征融合模块，用于获取多模态上下文表示；解码器模块，用于生成摘要语句；所述系统在生成摘要时，引入图像的对象信息，同时将文本压缩的多模态关键信息提取过程同时分担给编码端；本发明通过挖掘文本和图像的关键信息，建模对象与文本序列之间的相互依赖关系，以突出图像的关键对象信息，从而生成高质量的文本摘要。

Description

一种基于多模态关键信息分析的摘要生成系统

技术领域

本发明涉及摘要自动化生成技术领域，尤其是一种基于多模态关键信息分析的摘要生成系统。

背景技术

多模态摘要旨在对多种模态内容如文本、视频、图片等进行挖掘，生成一段核心概括。近年来，由于多模态数据充斥着我们的生活，让计算机能够理解多种模态信息并生成摘要，变得日益迫切。

目前自动化摘要生成研究主要分为文本摘要和多模态摘要。

文本摘要任务。文本摘要是指基于源文本信息，输出一段简短且精确的核心概括。该任务包括抽取式文本摘要和生成式文本摘要。抽取式摘要的主要思想是从源文本中抽取若干重要的短语或句子，重新组合形成摘要。常见的方法有Lead-3、聚类、TextRank算法等。抽取式摘要效果稳定，实现简单，不容易完全偏离文章主旨，但输出的摘要字数不好控制，连贯性差。伴随着深度学习的研究，生成式文本摘要得到广泛关注。模型会理解原文内容，并重新组织语言对其进行概括，生成的摘要具有更高的灵活性，有一定的概率生成新的词语或短语，接近人类思维方式。目前序列到序列(Seq2Seq)模型被广泛地用于生成式摘要任务，并取得一定的成果。

多模态摘要任务。伴随着互联网的蓬勃发展，多模态信息过载问题日益严重，迫切需要基于多模态数据获取摘要的方法。该任务可以分为多模态输入单模态输出(MISO)和多模态输入多模态输出(MSMO)。前者输入是多模态信息，输出是文本的单模态信息；后者输入是多模态信息，输出也是多模态信息。研究人员提出一种多模态融合块(Multimodalfusionblock，MFB)，来建模文本和图像之间的补充和验证关系，并通过位置感知机制获取图像位置信息。然而，非文本信息(如图像)通常融入文本解码阶段，解码器同时承担了文本生成和文本压缩任务。目前模型方法没有充分挖掘多模态关键信息，输入流中存在比较多的次要、冗余信息，在一定程度上增加了解码器的压力，影响模型的性能。

发明内容

本发明提出一种基于多模态关键信息分析的摘要生成系统，能够通过多模态选择门控网络和视觉选择门控网络挖掘文本和图像的关键信息，并引入多头注意力机制来建模图像中对象与文本序列之间的相互依赖关系，进一步突出图像的关键对象信息，从而生成较高质量的文本摘要。

本发明采用以下技术方案。

一种基于多模态关键信息分析的摘要生成系统，包括以下模块；

文本编码器模块，用于获取文本的编码信息；

图像编码器模块，用于获取图像不同角度上的特征信息；

选择门控机制模块，用于挖掘文本和图像模态的关键信息，包括多模态选择门控网络和视觉选择门控网络；

多头选择注意力模块，用于挖掘图像中的关键对象信息；

多模态特征融合模块，用于获取多模态上下文表示；

解码器模块，用于生成摘要语句；

所述系统在生成摘要时，引入图像的对象信息，同时将文本压缩的多模态关键信息提取过程同时分担给编码端，具体方法是：通过多模态选择门控网络、视觉选择门控网络过滤文本和图像的次要、冗余信息，挖掘关键信息，同时通过多头选择注意力模块的多头注意力机制，建模图像中对象与文本序列之间的相互依赖关系，突出图像中的关键对象信息，从而生成高质量的文本摘要。

所述文本编码器模块工作时，利用Bi-LSTM编码文本序列，再串联前向和后向的隐藏层向量作为文本编码信息，将最后一个时间步的编码信息作为文本序列的全局特征；具体为：

首先对源文本进行分词；接着，通过Word2Vec来将文本数据从文本形式转换成词嵌入向量；最后通过Bi-LSTM网络对词嵌入向量进行编码，串联前向和后向的隐层向量来获得初始文本特征h_i。其具体公式如下：

其中，E[x_i]表示输入单词x_i的词向量，

是连接符号，r是Bi-LSTM最后时间步的隐层向量。

所述图像编码器模块，引入ResNet-152网络抽取图像特征信息，包括局部特征和全局特征，同时引入Faster R-CNN网络抽取图像中的对象特征，然后将这三种不同角度视觉信息投影到与文本信息相同的向量空间；获取图像的不同角度的初始特征信息的方法具体为：

引入ResNet-152预训练网络模型，将该网络最后一个全连接层(Fully ConnectedLayers,FC)的输入向量作为图像全局特征，最后一个平均池化层(avgpool)的输出映射成图像局部特征；

所述Faster R-CNN网络包括Facebook预训练完成的Faster R-CNN模型；

Faster R-CNN网络的算法包括两个部分：(1)候选区域网络RPN：用于产生候选框。(2)Faster R-CNN检测器：基于RPN提取的候选框，检测并识别候选框中的目标；

在调用Faster R-CNN网络时，首先将整张图片输进CNN，生成图像的卷积特征图feature map，之后由RPN网络使用活动窗口遍历feature map，生成目标对象候选框信息，再通过ROIPooling层将不同尺寸的特征图resize到统一大小，之后使用非极大值抑制算法NMS筛选16个置信度最大的对象候选框；

最后通过线性变换，将这三种视觉特征投影到与文本特征相同的向量空间。其具体公式如下：

g＝ResNet_fc(I)公式五；

(a₁,a₂,...,a₄₉)＝ResNet_avgpool(I)公式六；

(o₁,o₂,...,o₁₆)＝FasterRCNN_ROIPooling(I)公式七；

g＝U_rg公式八；

A＝(a₁,a₂,...,a₄₉)＝W_r(a₁,a₂,...,a₄₉)公式九；

O＝(o₁,o₂,...,o₁₆)＝V_r(o₁,o₂,...,o₁₆)公式十；

其中,a_i(i＝1,2,...,49)表示图像局部特征，对应图像中的一个网格区域，o_i(i＝1,2,...,16)表示图像中的一个对象候选框特征，g表示图像全局特征，W_r、U_r、V_r是模型可训练的参数矩阵。

所述多头选择注意力模块，将文本关键信息作为查询向量Query，Faster R-CNN抽取的图像中对象信息作为关键信息向量Key和内容向量Value，捕捉图像中对象与文本序列之间的相互依赖关系，再将其与文本关键信息拼接，在抑制无用噪声的同时，进一步突出图像中的关键对象信息，具体方法为：

将文本关键信息H作为查询向量Query，Faster R-CNN抽取的图像对象信息O作为关键信息向量Key和内容向量Value，通过多头注意力机制在多个不同的投影空间中建立不同的投影信息，捕捉图像中对象与文本序列之间的相互依赖关系，在抑制无用噪声的同时，进一步突出图像中的关键对象信息，之后再和文本关键信息拼接，其具体公式如下：

MATT(H,O)＝[ATT₁(H,O),...,ATT_h(H,O)]W^o公式十二；

H'＝[H,MATT(H,O)]W^h公式十三；

其中，d_k∈R^d/h，

W_i ^Q、W_i ^K、W_i ^V、W^o、W^h是模型可训练的参数矩阵。

所述选择门控机制模块，引入多模态选择门控网络和视觉选择门控网络，分别过滤文本和图像模态上的噪声，捕捉各自模态的关键信息，方法为：

选择门控机制模块包括多模态选择门控网络和视觉选择门控网络；利用文本编码器模块得到的文本隐层状态向量h_i、文本全局特征r以及图像编码器模块得到的图像全局特征g，生成多模态选择门控向量

再通过

过滤文本次要信息，挖掘其关键信息，其具体公式如下：

H＝(h₁',h'₂,...,h'_n)公式十六；

其中，σ是sigmoid函数，W_m、V_m、U_m是模型可训练的参数矩阵，⊙表示矩阵元素点乘；

视觉选择门控网络利用图像编码器模块得到的图像全局特征g和图像局部特征a_i，生成视觉选择门控向量

再通过

过滤图像次要信息，挖掘其关键信息。其具体公式如下：

其中，σ是sigmoid函数，W_i、U_i是模型可训练的参数矩阵，⊙表示矩阵元素点乘。

所述多模态特征融合模块，首先引入文本注意力机制和图像注意力机制捕捉解码器隐藏层与文本、图像间的依赖关系，获取各模态的上下文信息，然后利用多模态注意力机制融合文本和视觉上下文信息，得到多模态特征向量，即混合两个模态的信息，方法为；

多模态特征融合模块引入的分层注意力机制，由文本注意力层、图像注意力层、多模态注意力层组成，首先利用文本注意力和图像注意力在各自模态通道内，对输入文本中不同的单词或图像中不同局部区域给予不同的注意力权重，分别生成文本上下文向量和视觉上下文向量；

之后，多模态注意力对两种模态数据给予不同的权重，两种模态上下文向量根据权重进行加权和，得到多模态特征向量；其具体公式如下：

其中，s_t-1表示解码器在第t-1个时间步的隐藏层状态，

表示解码器在当前时间步t对输入文本中单词x_i的注意力权重，

W_w、U_w是模型可训练的参数矩阵；

其中，

表示解码器在当前时间步t对图像中第i个区域的注意力权重，

W_a、U_a是模型可训练的参数矩阵。

所述解码器模块，首先利用图像全局特征对解码器LSTM进行初始化，然后在每个解码时间步，通过多模态特征向量计算词汇表概率分布，再结合指针机制，选择从词汇表生成新单词或者从源文本中复制单词，得到预测单词的最终概率分布，生成摘要语句，具体方法为：

解码器模块使用LSTM作为解码器，首先利用图像编码器模块得到的图像全局特征g对解码器LSTM进行初始化，得到初始状态s₀，之后在此基础上引入指针网络，在每个时间步解码时会计算生成新单词的概率p_gen，根据指针p_gen的值计算概率分布p_w，指导预测单词从词汇表生成或者从源文本中复制，其具体公式如下：

s₀＝tanh(W_sr+U_sg+b_s)公式二十五；

其中，c_mm表示多模态上下文向量，s_t表示解码器在当前时间步的隐藏层状态，E[y_t]表示目标单词y_t的词向量，P_vocab表示预测单词w在词汇表的概率分布，

表示解码器对文本序列的注意力分布，W_s、U_s、

V、V_s、V_c是模型可训练的参数矩阵，b_s是偏置参数。

所述摘要生成系统在解码器模块的模型训练阶段，根据信息的前向传播和误差的后向传播将不断地对模型网络进行调整，逐步优化目标函数。

本发明能够通过多模态选择门控网络和视觉选择门控网络挖掘文本和图像的关键信息，并引入多头注意力机制来建模图像中对象与文本序列之间的相互依赖关系，进一步突出图像的关键对象信息，从而生成较高质量的文本摘要。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

附图1是本发明的示意图。

具体实施方式

如图所示，一种基于多模态关键信息分析的摘要生成系统，包括以下模块；

文本编码器模块，用于获取文本的编码信息；

图像编码器模块，用于获取图像不同角度上的特征信息；

多头选择注意力模块，用于挖掘图像中的关键对象信息；

多模态特征融合模块，用于获取多模态上下文表示；

解码器模块，用于生成摘要语句；

其中，E[x_i]表示输入单词x_i的词向量，

是连接符号，r是Bi-LSTM最后时间步的隐层向量。

所述图像编码器模块，引入ResNet-152网络抽取图像特征信息，包括局部特征和全局特征，同时引入FasterR-CNN网络抽取图像中的对象特征，然后将这三种不同角度视觉信息投影到与文本信息相同的向量空间；获取图像的不同角度的初始特征信息的方法具体为：

所述FasterR-CNN网络包括Facebook预训练完成的FasterR-CNN模型；

FasterR-CNN网络的算法包括两个部分：(1)候选区域网络RPN：用于产生候选框。(2)FasterR-CNN检测器：基于RPN提取的候选框，检测并识别候选框中的目标；

在调用FasterR-CNN网络时，首先将整张图片输进CNN，生成图像的卷积特征图feature map，之后由RPN网络使用活动窗口遍历feature map，生成目标对象候选框信息，再通过ROIPooling层将不同尺寸的特征图resize到统一大小，之后使用非极大值抑制算法NMS筛选16个置信度最大的对象候选框；

g＝ResNet_fc(I)公式五；

(a₁,a₂,...,a₄₉)＝ResNet_avgpool(I)公式六；

(o₁,o₂,...,o₁₆)＝FasterRCNN_ROIPooling(I)公式七；

g＝U_rg公式八；

A＝(a₁,a₂,...,a₄₉)＝W_r(a₁,a₂,...,a₄₉)公式九；

O＝(o₁,o₂,...,o₁₆)＝V_r(o₁,o₂,...,o₁₆)公式十；

MATT(H,O)＝[ATT₁(H,O),...,ATT_h(H,O)]W^o公式十二；

H'＝[H,MATT(H,O)]W^h公式十三；

其中，d_k∈R^d/h，

W_i ^Q、W_i ^K、W_i ^V、W^o、W^h是模型可训练的参数矩阵。

再通过

过滤文本次要信息，挖掘其关键信息，其具体公式如下：

H＝(h₁',h'₂,...,h'_n)公式十六；

再通过

过滤图像次要信息，挖掘其关键信息。其具体公式如下：

多模态特征融合模块引入的分层注意力机制，由文本注意力层、图像注意力层、多模态注意力层组成，

首先利用文本注意力和图像注意力在各自模态通道内，对输入文本中不同的单词或图像中不同局部区域给予不同的注意力权重，分别生成文本上下文向量和视觉上下文向量；

其中，s_t-1表示解码器在第t-1个时间步的隐藏层状态，

W_w、U_w是模型可训练的参数矩阵；

其中，

W_a、U_a是模型可训练的参数矩阵。

s₀＝tanh(W_sr+U_sg+b_s)公式二十五；

表示解码器对文本序列的注意力分布，W_s、U_s、

V、V_s、V_c是模型可训练的参数矩阵，b_s是偏置参数。

Claims

1.一种基于多模态关键信息分析的摘要生成系统，其特征在于：包括以下模块；文本编码器模块，用于获取文本的编码信息；

图像编码器模块，用于获取图像不同角度上的特征信息；

多头选择注意力模块，用于挖掘图像中的关键对象信息；

多模态特征融合模块，用于获取多模态上下文表示；

解码器模块，用于生成摘要语句；

2.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统，其特征在于：所述文本编码器模块工作时，利用Bi-LSTM编码文本序列，再串联前向和后向的隐藏层向量作为文本编码信息，将最后一个时间步的编码信息作为文本序列的全局特征；具体为：

其中，E[x_i]表示输入单词x_i的词向量，

是连接符号，r是Bi-LSTM最后时间步的隐层向量。

3.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统，其特征在于：所述图像编码器模块，引入ResNet-152网络抽取图像特征信息，包括局部特征和全局特征，同时引入FasterR-CNN网络抽取图像中的对象特征，然后将这三种不同角度视觉信息投影到与文本信息相同的向量空间；获取图像的不同角度的初始特征信息的方法具体为：

所述FasterR-CNN网络包括Facebook预训练完成的FasterR-CNN模型；

在调用FasterR-CNN网络时，首先将整张图片输进CNN，生成图像的卷积特征图featuremap，之后由RPN网络使用活动窗口遍历feature map，生成目标对象候选框信息，再通过ROIPooling层将不同尺寸的特征图resize到统一大小，之后使用非极大值抑制算法NMS筛选16个置信度最大的对象候选框；

g＝ResNet_fc(I)公式五；

(a₁,a₂,...,a₄₉)＝ResNet_avgpool(I)公式六；

(o₁,o₂,...,o₁₆)＝FasterRCNN_ROIPooling(I)公式七；

g＝U_rg公式八；

A＝(a₁,a₂,...,a₄₉)＝W_r(a₁,a₂,...,a₄₉)公式九；

O＝(o₁,o₂,...,o₁₆)＝V_r(o₁,o₂,...,o₁₆)公式十；

4.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统，其特征在于：所述多头选择注意力模块，将文本关键信息作为查询向量Query，Faster R-CNN抽取的图像中对象信息作为关键信息向量Key和内容向量Value，捕捉图像中对象与文本序列之间的相互依赖关系，再将其与文本关键信息拼接，在抑制无用噪声的同时，进一步突出图像中的关键对象信息，具体方法为：

MATT(H,O)＝[ATT₁(H,O),...,ATT_h(H,O)]W^o公式十二；

H'＝[H,MATT(H,O)]W^h公式十三；

其中，d_k∈R^d/h，

W_i ^Q、W_i ^K、W_i ^V、W^o、W^h是模型可训练的参数矩阵。

5.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统，其特征在于：所述选择门控机制模块，引入多模态选择门控网络和视觉选择门控网络，分别过滤文本和图像模态上的噪声，捕捉各自模态的关键信息，方法为：

再通过

过滤文本次要信息，挖掘其关键信息，其具体公式如下：

H＝(h₁',h'₂,...,h'_n)公式十六；

再通过

过滤图像次要信息，挖掘其关键信息。其具体公式如下：

6.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统，其特征在于：所述多模态特征融合模块，首先引入文本注意力机制和图像注意力机制捕捉解码器隐藏层与文本、图像间的依赖关系，获取各模态的上下文信息，然后利用多模态注意力机制融合文本和视觉上下文信息，得到多模态特征向量，即混合两个模态的信息，方法为；

其中，s_t-1表示解码器在第t-1个时间步的隐藏层状态，

W_w、U_w是模型可训练的参数矩阵；

其中，

W_a、U_a是模型可训练的参数矩阵。

7.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统，其特征在于：所述解码器模块，首先利用图像全局特征对解码器LSTM进行初始化，然后在每个解码时间步，通过多模态特征向量计算词汇表概率分布，再结合指针机制，选择从词汇表生成新单词或者从源文本中复制单词，得到预测单词的最终概率分布，生成摘要语句，具体方法为：

s₀＝tanh(W_sr+U_sg+b_s)公式二十五；

表示解码器对文本序列的注意力分布，W_s、U_s、

V、V_s、V_c是模型可训练的参数矩阵，b_s是偏置参数。

8.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统，其特征在于：所述摘要生成系统在解码器模块的模型训练阶段，根据信息的前向传播和误差的后向传播将不断地对模型网络进行调整，逐步优化目标函数。