CN115934932A - 一种基于多模态关键信息分析的摘要生成系统 - Google Patents

一种基于多模态关键信息分析的摘要生成系统 Download PDF

Info

Publication number
CN115934932A
CN115934932A CN202211628261.9A CN202211628261A CN115934932A CN 115934932 A CN115934932 A CN 115934932A CN 202211628261 A CN202211628261 A CN 202211628261A CN 115934932 A CN115934932 A CN 115934932A
Authority
CN
China
Prior art keywords
text
image
information
vector
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211628261.9A
Other languages
English (en)
Inventor
廖祥文
林于翔
徐攀
吴海杰
李凯强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202211628261.9A priority Critical patent/CN115934932A/zh
Publication of CN115934932A publication Critical patent/CN115934932A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提出一种基于多模态关键信息分析的摘要生成系统,包括以下模块;文本编码器模块,用于获取文本的编码信息;图像编码器模块,用于获取图像不同角度上的特征信息;选择门控机制模块,用于挖掘文本和图像模态的关键信息,包括多模态选择门控网络和视觉选择门控网络;多头选择注意力模块,用于挖掘图像中的关键对象信息;多模态特征融合模块,用于获取多模态上下文表示;解码器模块,用于生成摘要语句;所述系统在生成摘要时,引入图像的对象信息,同时将文本压缩的多模态关键信息提取过程同时分担给编码端;本发明通过挖掘文本和图像的关键信息,建模对象与文本序列之间的相互依赖关系,以突出图像的关键对象信息,从而生成高质量的文本摘要。

Description

一种基于多模态关键信息分析的摘要生成系统
技术领域
本发明涉及摘要自动化生成技术领域,尤其是一种基于多模态关键信息分析的摘要生成系统。
背景技术
多模态摘要旨在对多种模态内容如文本、视频、图片等进行挖掘,生成一段核心概括。近年来,由于多模态数据充斥着我们的生活,让计算机能够理解多种模态信息并生成摘要,变得日益迫切。
目前自动化摘要生成研究主要分为文本摘要和多模态摘要。
文本摘要任务。文本摘要是指基于源文本信息,输出一段简短且精确的核心概括。该任务包括抽取式文本摘要和生成式文本摘要。抽取式摘要的主要思想是从源文本中抽取若干重要的短语或句子,重新组合形成摘要。常见的方法有Lead-3、聚类、TextRank算法等。抽取式摘要效果稳定,实现简单,不容易完全偏离文章主旨,但输出的摘要字数不好控制,连贯性差。伴随着深度学习的研究,生成式文本摘要得到广泛关注。模型会理解原文内容,并重新组织语言对其进行概括,生成的摘要具有更高的灵活性,有一定的概率生成新的词语或短语,接近人类思维方式。目前序列到序列(Seq2Seq)模型被广泛地用于生成式摘要任务,并取得一定的成果。
多模态摘要任务。伴随着互联网的蓬勃发展,多模态信息过载问题日益严重,迫切需要基于多模态数据获取摘要的方法。该任务可以分为多模态输入单模态输出(MISO)和多模态输入多模态输出(MSMO)。前者输入是多模态信息,输出是文本的单模态信息;后者输入是多模态信息,输出也是多模态信息。研究人员提出一种多模态融合块(Multimodalfusionblock,MFB),来建模文本和图像之间的补充和验证关系,并通过位置感知机制获取图像位置信息。然而,非文本信息(如图像)通常融入文本解码阶段,解码器同时承担了文本生成和文本压缩任务。目前模型方法没有充分挖掘多模态关键信息,输入流中存在比较多的次要、冗余信息,在一定程度上增加了解码器的压力,影响模型的性能。
发明内容
本发明提出一种基于多模态关键信息分析的摘要生成系统,能够通过多模态选择门控网络和视觉选择门控网络挖掘文本和图像的关键信息,并引入多头注意力机制来建模图像中对象与文本序列之间的相互依赖关系,进一步突出图像的关键对象信息,从而生成较高质量的文本摘要。
本发明采用以下技术方案。
一种基于多模态关键信息分析的摘要生成系统,包括以下模块;
文本编码器模块,用于获取文本的编码信息;
图像编码器模块,用于获取图像不同角度上的特征信息;
选择门控机制模块,用于挖掘文本和图像模态的关键信息,包括多模态选择门控网络和视觉选择门控网络;
多头选择注意力模块,用于挖掘图像中的关键对象信息;
多模态特征融合模块,用于获取多模态上下文表示;
解码器模块,用于生成摘要语句;
所述系统在生成摘要时,引入图像的对象信息,同时将文本压缩的多模态关键信息提取过程同时分担给编码端,具体方法是:通过多模态选择门控网络、视觉选择门控网络过滤文本和图像的次要、冗余信息,挖掘关键信息,同时通过多头选择注意力模块的多头注意力机制,建模图像中对象与文本序列之间的相互依赖关系,突出图像中的关键对象信息,从而生成高质量的文本摘要。
所述文本编码器模块工作时,利用Bi-LSTM编码文本序列,再串联前向和后向的隐藏层向量作为文本编码信息,将最后一个时间步的编码信息作为文本序列的全局特征;具体为:
首先对源文本进行分词;接着,通过Word2Vec来将文本数据从文本形式转换成词嵌入向量;最后通过Bi-LSTM网络对词嵌入向量进行编码,串联前向和后向的隐层向量来获得初始文本特征hi。其具体公式如下:
Figure BDA0004004530620000021
Figure BDA0004004530620000031
Figure BDA0004004530620000032
Figure BDA0004004530620000033
其中,E[xi]表示输入单词xi的词向量,
Figure BDA0004004530620000034
是连接符号,r是Bi-LSTM最后时间步的隐层向量。
所述图像编码器模块,引入ResNet-152网络抽取图像特征信息,包括局部特征和全局特征,同时引入Faster R-CNN网络抽取图像中的对象特征,然后将这三种不同角度视觉信息投影到与文本信息相同的向量空间;获取图像的不同角度的初始特征信息的方法具体为:
引入ResNet-152预训练网络模型,将该网络最后一个全连接层(Fully ConnectedLayers,FC)的输入向量作为图像全局特征,最后一个平均池化层(avgpool)的输出映射成图像局部特征;
所述Faster R-CNN网络包括Facebook预训练完成的Faster R-CNN模型;
Faster R-CNN网络的算法包括两个部分:(1)候选区域网络RPN:用于产生候选框。(2)Faster R-CNN检测器:基于RPN提取的候选框,检测并识别候选框中的目标;
在调用Faster R-CNN网络时,首先将整张图片输进CNN,生成图像的卷积特征图feature map,之后由RPN网络使用活动窗口遍历feature map,生成目标对象候选框信息,再通过ROIPooling层将不同尺寸的特征图resize到统一大小,之后使用非极大值抑制算法NMS筛选16个置信度最大的对象候选框;
最后通过线性变换,将这三种视觉特征投影到与文本特征相同的向量空间。其具体公式如下:
g=ResNetfc(I)公式五;
(a1,a2,...,a49)=ResNetavgpool(I)公式六;
(o1,o2,...,o16)=FasterRCNNROIPooling(I)公式七;
g=Urg公式八;
A=(a1,a2,...,a49)=Wr(a1,a2,...,a49)公式九;
O=(o1,o2,...,o16)=Vr(o1,o2,...,o16)公式十;
其中,ai(i=1,2,...,49)表示图像局部特征,对应图像中的一个网格区域,oi(i=1,2,...,16)表示图像中的一个对象候选框特征,g表示图像全局特征,Wr、Ur、Vr是模型可训练的参数矩阵。
所述多头选择注意力模块,将文本关键信息作为查询向量Query,Faster R-CNN抽取的图像中对象信息作为关键信息向量Key和内容向量Value,捕捉图像中对象与文本序列之间的相互依赖关系,再将其与文本关键信息拼接,在抑制无用噪声的同时,进一步突出图像中的关键对象信息,具体方法为:
将文本关键信息H作为查询向量Query,Faster R-CNN抽取的图像对象信息O作为关键信息向量Key和内容向量Value,通过多头注意力机制在多个不同的投影空间中建立不同的投影信息,捕捉图像中对象与文本序列之间的相互依赖关系,在抑制无用噪声的同时,进一步突出图像中的关键对象信息,之后再和文本关键信息拼接,其具体公式如下:
Figure BDA0004004530620000041
MATT(H,O)=[ATT1(H,O),...,ATTh(H,O)]Wo公式十二;
H'=[H,MATT(H,O)]Wh公式十三;
其中,dk∈Rd/h
Figure BDA0004004530620000042
Wi Q、Wi K、Wi V、Wo、Wh是模型可训练的参数矩阵。
所述选择门控机制模块,引入多模态选择门控网络和视觉选择门控网络,分别过滤文本和图像模态上的噪声,捕捉各自模态的关键信息,方法为:
选择门控机制模块包括多模态选择门控网络和视觉选择门控网络;利用文本编码器模块得到的文本隐层状态向量hi、文本全局特征r以及图像编码器模块得到的图像全局特征g,生成多模态选择门控向量
Figure BDA0004004530620000043
再通过
Figure BDA0004004530620000044
过滤文本次要信息,挖掘其关键信息,其具体公式如下:
Figure BDA0004004530620000051
Figure BDA0004004530620000052
H=(h1',h'2,...,h'n)公式十六;
其中,σ是sigmoid函数,Wm、Vm、Um是模型可训练的参数矩阵,⊙表示矩阵元素点乘;
视觉选择门控网络利用图像编码器模块得到的图像全局特征g和图像局部特征ai,生成视觉选择门控向量
Figure BDA0004004530620000053
再通过
Figure BDA0004004530620000054
过滤图像次要信息,挖掘其关键信息。其具体公式如下:
Figure BDA0004004530620000055
Figure BDA0004004530620000056
其中,σ是sigmoid函数,Wi、Ui是模型可训练的参数矩阵,⊙表示矩阵元素点乘。
所述多模态特征融合模块,首先引入文本注意力机制和图像注意力机制捕捉解码器隐藏层与文本、图像间的依赖关系,获取各模态的上下文信息,然后利用多模态注意力机制融合文本和视觉上下文信息,得到多模态特征向量,即混合两个模态的信息,方法为;
多模态特征融合模块引入的分层注意力机制,由文本注意力层、图像注意力层、多模态注意力层组成,首先利用文本注意力和图像注意力在各自模态通道内,对输入文本中不同的单词或图像中不同局部区域给予不同的注意力权重,分别生成文本上下文向量和视觉上下文向量;
之后,多模态注意力对两种模态数据给予不同的权重,两种模态上下文向量根据权重进行加权和,得到多模态特征向量;其具体公式如下:
Figure BDA0004004530620000057
Figure BDA0004004530620000058
Figure BDA0004004530620000059
其中,st-1表示解码器在第t-1个时间步的隐藏层状态,
Figure BDA0004004530620000061
表示解码器在当前时间步t对输入文本中单词xi的注意力权重,
Figure BDA0004004530620000062
Ww、Uw是模型可训练的参数矩阵;
Figure BDA0004004530620000063
Figure BDA0004004530620000064
Figure BDA0004004530620000065
其中,
Figure BDA0004004530620000066
表示解码器在当前时间步t对图像中第i个区域的注意力权重,
Figure BDA0004004530620000067
Wa、Ua是模型可训练的参数矩阵。
所述解码器模块,首先利用图像全局特征对解码器LSTM进行初始化,然后在每个解码时间步,通过多模态特征向量计算词汇表概率分布,再结合指针机制,选择从词汇表生成新单词或者从源文本中复制单词,得到预测单词的最终概率分布,生成摘要语句,具体方法为:
解码器模块使用LSTM作为解码器,首先利用图像编码器模块得到的图像全局特征g对解码器LSTM进行初始化,得到初始状态s0,之后在此基础上引入指针网络,在每个时间步解码时会计算生成新单词的概率pgen,根据指针pgen的值计算概率分布pw,指导预测单词从词汇表生成或者从源文本中复制,其具体公式如下:
s0=tanh(Wsr+Usg+bs)公式二十五;
Figure BDA0004004530620000068
Figure BDA0004004530620000069
Figure BDA00040045306200000610
其中,cmm表示多模态上下文向量,st表示解码器在当前时间步的隐藏层状态,E[yt]表示目标单词yt的词向量,Pvocab表示预测单词w在词汇表的概率分布,
Figure BDA0004004530620000071
表示解码器对文本序列的注意力分布,Ws、Us
Figure BDA0004004530620000072
V、Vs、Vc是模型可训练的参数矩阵,bs是偏置参数。
所述摘要生成系统在解码器模块的模型训练阶段,根据信息的前向传播和误差的后向传播将不断地对模型网络进行调整,逐步优化目标函数。
本发明能够通过多模态选择门控网络和视觉选择门控网络挖掘文本和图像的关键信息,并引入多头注意力机制来建模图像中对象与文本序列之间的相互依赖关系,进一步突出图像的关键对象信息,从而生成较高质量的文本摘要。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
附图1是本发明的示意图。
具体实施方式
如图所示,一种基于多模态关键信息分析的摘要生成系统,包括以下模块;
文本编码器模块,用于获取文本的编码信息;
图像编码器模块,用于获取图像不同角度上的特征信息;
选择门控机制模块,用于挖掘文本和图像模态的关键信息,包括多模态选择门控网络和视觉选择门控网络;
多头选择注意力模块,用于挖掘图像中的关键对象信息;
多模态特征融合模块,用于获取多模态上下文表示;
解码器模块,用于生成摘要语句;
所述系统在生成摘要时,引入图像的对象信息,同时将文本压缩的多模态关键信息提取过程同时分担给编码端,具体方法是:通过多模态选择门控网络、视觉选择门控网络过滤文本和图像的次要、冗余信息,挖掘关键信息,同时通过多头选择注意力模块的多头注意力机制,建模图像中对象与文本序列之间的相互依赖关系,突出图像中的关键对象信息,从而生成高质量的文本摘要。
所述文本编码器模块工作时,利用Bi-LSTM编码文本序列,再串联前向和后向的隐藏层向量作为文本编码信息,将最后一个时间步的编码信息作为文本序列的全局特征;具体为:
首先对源文本进行分词;接着,通过Word2Vec来将文本数据从文本形式转换成词嵌入向量;最后通过Bi-LSTM网络对词嵌入向量进行编码,串联前向和后向的隐层向量来获得初始文本特征hi。其具体公式如下:
Figure BDA0004004530620000081
Figure BDA0004004530620000082
Figure BDA0004004530620000083
Figure BDA0004004530620000084
其中,E[xi]表示输入单词xi的词向量,
Figure BDA0004004530620000085
是连接符号,r是Bi-LSTM最后时间步的隐层向量。
所述图像编码器模块,引入ResNet-152网络抽取图像特征信息,包括局部特征和全局特征,同时引入FasterR-CNN网络抽取图像中的对象特征,然后将这三种不同角度视觉信息投影到与文本信息相同的向量空间;获取图像的不同角度的初始特征信息的方法具体为:
引入ResNet-152预训练网络模型,将该网络最后一个全连接层(Fully ConnectedLayers,FC)的输入向量作为图像全局特征,最后一个平均池化层(avgpool)的输出映射成图像局部特征;
所述FasterR-CNN网络包括Facebook预训练完成的FasterR-CNN模型;
FasterR-CNN网络的算法包括两个部分:(1)候选区域网络RPN:用于产生候选框。(2)FasterR-CNN检测器:基于RPN提取的候选框,检测并识别候选框中的目标;
在调用FasterR-CNN网络时,首先将整张图片输进CNN,生成图像的卷积特征图feature map,之后由RPN网络使用活动窗口遍历feature map,生成目标对象候选框信息,再通过ROIPooling层将不同尺寸的特征图resize到统一大小,之后使用非极大值抑制算法NMS筛选16个置信度最大的对象候选框;
最后通过线性变换,将这三种视觉特征投影到与文本特征相同的向量空间。其具体公式如下:
g=ResNetfc(I)公式五;
(a1,a2,...,a49)=ResNetavgpool(I)公式六;
(o1,o2,...,o16)=FasterRCNNROIPooling(I)公式七;
g=Urg公式八;
A=(a1,a2,...,a49)=Wr(a1,a2,...,a49)公式九;
O=(o1,o2,...,o16)=Vr(o1,o2,...,o16)公式十;
其中,ai(i=1,2,...,49)表示图像局部特征,对应图像中的一个网格区域,oi(i=1,2,...,16)表示图像中的一个对象候选框特征,g表示图像全局特征,Wr、Ur、Vr是模型可训练的参数矩阵。
所述多头选择注意力模块,将文本关键信息作为查询向量Query,Faster R-CNN抽取的图像中对象信息作为关键信息向量Key和内容向量Value,捕捉图像中对象与文本序列之间的相互依赖关系,再将其与文本关键信息拼接,在抑制无用噪声的同时,进一步突出图像中的关键对象信息,具体方法为:
将文本关键信息H作为查询向量Query,Faster R-CNN抽取的图像对象信息O作为关键信息向量Key和内容向量Value,通过多头注意力机制在多个不同的投影空间中建立不同的投影信息,捕捉图像中对象与文本序列之间的相互依赖关系,在抑制无用噪声的同时,进一步突出图像中的关键对象信息,之后再和文本关键信息拼接,其具体公式如下:
Figure BDA0004004530620000091
MATT(H,O)=[ATT1(H,O),...,ATTh(H,O)]Wo公式十二;
H'=[H,MATT(H,O)]Wh公式十三;
其中,dk∈Rd/h
Figure BDA0004004530620000092
Wi Q、Wi K、Wi V、Wo、Wh是模型可训练的参数矩阵。
所述选择门控机制模块,引入多模态选择门控网络和视觉选择门控网络,分别过滤文本和图像模态上的噪声,捕捉各自模态的关键信息,方法为:
选择门控机制模块包括多模态选择门控网络和视觉选择门控网络;利用文本编码器模块得到的文本隐层状态向量hi、文本全局特征r以及图像编码器模块得到的图像全局特征g,生成多模态选择门控向量
Figure BDA0004004530620000101
再通过
Figure BDA0004004530620000102
过滤文本次要信息,挖掘其关键信息,其具体公式如下:
Figure BDA0004004530620000103
Figure BDA0004004530620000104
H=(h1',h'2,...,h'n)公式十六;
其中,σ是sigmoid函数,Wm、Vm、Um是模型可训练的参数矩阵,⊙表示矩阵元素点乘;
视觉选择门控网络利用图像编码器模块得到的图像全局特征g和图像局部特征ai,生成视觉选择门控向量
Figure BDA0004004530620000105
再通过
Figure BDA0004004530620000106
过滤图像次要信息,挖掘其关键信息。其具体公式如下:
Figure BDA0004004530620000107
Figure BDA0004004530620000108
其中,σ是sigmoid函数,Wi、Ui是模型可训练的参数矩阵,⊙表示矩阵元素点乘。
所述多模态特征融合模块,首先引入文本注意力机制和图像注意力机制捕捉解码器隐藏层与文本、图像间的依赖关系,获取各模态的上下文信息,然后利用多模态注意力机制融合文本和视觉上下文信息,得到多模态特征向量,即混合两个模态的信息,方法为;
多模态特征融合模块引入的分层注意力机制,由文本注意力层、图像注意力层、多模态注意力层组成,
首先利用文本注意力和图像注意力在各自模态通道内,对输入文本中不同的单词或图像中不同局部区域给予不同的注意力权重,分别生成文本上下文向量和视觉上下文向量;
之后,多模态注意力对两种模态数据给予不同的权重,两种模态上下文向量根据权重进行加权和,得到多模态特征向量;其具体公式如下:
Figure BDA0004004530620000111
Figure BDA0004004530620000112
Figure BDA0004004530620000113
其中,st-1表示解码器在第t-1个时间步的隐藏层状态,
Figure BDA0004004530620000114
表示解码器在当前时间步t对输入文本中单词xi的注意力权重,
Figure BDA0004004530620000115
Ww、Uw是模型可训练的参数矩阵;
Figure BDA0004004530620000116
Figure BDA0004004530620000117
Figure BDA0004004530620000118
其中,
Figure BDA0004004530620000119
表示解码器在当前时间步t对图像中第i个区域的注意力权重,
Figure BDA00040045306200001110
Wa、Ua是模型可训练的参数矩阵。
所述解码器模块,首先利用图像全局特征对解码器LSTM进行初始化,然后在每个解码时间步,通过多模态特征向量计算词汇表概率分布,再结合指针机制,选择从词汇表生成新单词或者从源文本中复制单词,得到预测单词的最终概率分布,生成摘要语句,具体方法为:
解码器模块使用LSTM作为解码器,首先利用图像编码器模块得到的图像全局特征g对解码器LSTM进行初始化,得到初始状态s0,之后在此基础上引入指针网络,在每个时间步解码时会计算生成新单词的概率pgen,根据指针pgen的值计算概率分布pw,指导预测单词从词汇表生成或者从源文本中复制,其具体公式如下:
s0=tanh(Wsr+Usg+bs)公式二十五;
Figure BDA00040045306200001111
Figure BDA0004004530620000121
Figure BDA0004004530620000122
其中,cmm表示多模态上下文向量,st表示解码器在当前时间步的隐藏层状态,E[yt]表示目标单词yt的词向量,Pvocab表示预测单词w在词汇表的概率分布,
Figure BDA0004004530620000123
表示解码器对文本序列的注意力分布,Ws、Us
Figure BDA0004004530620000124
V、Vs、Vc是模型可训练的参数矩阵,bs是偏置参数。
所述摘要生成系统在解码器模块的模型训练阶段,根据信息的前向传播和误差的后向传播将不断地对模型网络进行调整,逐步优化目标函数。

Claims (8)

1.一种基于多模态关键信息分析的摘要生成系统,其特征在于:包括以下模块;文本编码器模块,用于获取文本的编码信息;
图像编码器模块,用于获取图像不同角度上的特征信息;
选择门控机制模块,用于挖掘文本和图像模态的关键信息,包括多模态选择门控网络和视觉选择门控网络;
多头选择注意力模块,用于挖掘图像中的关键对象信息;
多模态特征融合模块,用于获取多模态上下文表示;
解码器模块,用于生成摘要语句;
所述系统在生成摘要时,引入图像的对象信息,同时将文本压缩的多模态关键信息提取过程同时分担给编码端,具体方法是:通过多模态选择门控网络、视觉选择门控网络过滤文本和图像的次要、冗余信息,挖掘关键信息,同时通过多头选择注意力模块的多头注意力机制,建模图像中对象与文本序列之间的相互依赖关系,突出图像中的关键对象信息,从而生成高质量的文本摘要。
2.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统,其特征在于:所述文本编码器模块工作时,利用Bi-LSTM编码文本序列,再串联前向和后向的隐藏层向量作为文本编码信息,将最后一个时间步的编码信息作为文本序列的全局特征;具体为:
首先对源文本进行分词;接着,通过Word2Vec来将文本数据从文本形式转换成词嵌入向量;最后通过Bi-LSTM网络对词嵌入向量进行编码,串联前向和后向的隐层向量来获得初始文本特征hi。其具体公式如下:
Figure FDA0004004530610000011
Figure FDA0004004530610000012
Figure FDA0004004530610000013
Figure FDA0004004530610000014
其中,E[xi]表示输入单词xi的词向量,
Figure FDA0004004530610000021
是连接符号,r是Bi-LSTM最后时间步的隐层向量。
3.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统,其特征在于:所述图像编码器模块,引入ResNet-152网络抽取图像特征信息,包括局部特征和全局特征,同时引入FasterR-CNN网络抽取图像中的对象特征,然后将这三种不同角度视觉信息投影到与文本信息相同的向量空间;获取图像的不同角度的初始特征信息的方法具体为:
引入ResNet-152预训练网络模型,将该网络最后一个全连接层(Fully ConnectedLayers,FC)的输入向量作为图像全局特征,最后一个平均池化层(avgpool)的输出映射成图像局部特征;
所述FasterR-CNN网络包括Facebook预训练完成的FasterR-CNN模型;
FasterR-CNN网络的算法包括两个部分:(1)候选区域网络RPN:用于产生候选框。(2)FasterR-CNN检测器:基于RPN提取的候选框,检测并识别候选框中的目标;
在调用FasterR-CNN网络时,首先将整张图片输进CNN,生成图像的卷积特征图featuremap,之后由RPN网络使用活动窗口遍历feature map,生成目标对象候选框信息,再通过ROIPooling层将不同尺寸的特征图resize到统一大小,之后使用非极大值抑制算法NMS筛选16个置信度最大的对象候选框;
最后通过线性变换,将这三种视觉特征投影到与文本特征相同的向量空间。其具体公式如下:
g=ResNetfc(I)公式五;
(a1,a2,...,a49)=ResNetavgpool(I)公式六;
(o1,o2,...,o16)=FasterRCNNROIPooling(I)公式七;
g=Urg公式八;
A=(a1,a2,...,a49)=Wr(a1,a2,...,a49)公式九;
O=(o1,o2,...,o16)=Vr(o1,o2,...,o16)公式十;
其中,ai(i=1,2,...,49)表示图像局部特征,对应图像中的一个网格区域,oi(i=1,2,...,16)表示图像中的一个对象候选框特征,g表示图像全局特征,Wr、Ur、Vr是模型可训练的参数矩阵。
4.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统,其特征在于:所述多头选择注意力模块,将文本关键信息作为查询向量Query,Faster R-CNN抽取的图像中对象信息作为关键信息向量Key和内容向量Value,捕捉图像中对象与文本序列之间的相互依赖关系,再将其与文本关键信息拼接,在抑制无用噪声的同时,进一步突出图像中的关键对象信息,具体方法为:
将文本关键信息H作为查询向量Query,Faster R-CNN抽取的图像对象信息O作为关键信息向量Key和内容向量Value,通过多头注意力机制在多个不同的投影空间中建立不同的投影信息,捕捉图像中对象与文本序列之间的相互依赖关系,在抑制无用噪声的同时,进一步突出图像中的关键对象信息,之后再和文本关键信息拼接,其具体公式如下:
Figure FDA0004004530610000031
MATT(H,O)=[ATT1(H,O),...,ATTh(H,O)]Wo公式十二;
H'=[H,MATT(H,O)]Wh公式十三;
其中,dk∈Rd/h
Figure FDA0004004530610000032
Wi Q、Wi K、Wi V、Wo、Wh是模型可训练的参数矩阵。
5.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统,其特征在于:所述选择门控机制模块,引入多模态选择门控网络和视觉选择门控网络,分别过滤文本和图像模态上的噪声,捕捉各自模态的关键信息,方法为:
选择门控机制模块包括多模态选择门控网络和视觉选择门控网络;利用文本编码器模块得到的文本隐层状态向量hi、文本全局特征r以及图像编码器模块得到的图像全局特征g,生成多模态选择门控向量
Figure FDA0004004530610000033
再通过
Figure FDA0004004530610000034
过滤文本次要信息,挖掘其关键信息,其具体公式如下:
Figure FDA0004004530610000035
Figure FDA0004004530610000041
H=(h1',h'2,...,h'n)公式十六;
其中,σ是sigmoid函数,Wm、Vm、Um是模型可训练的参数矩阵,⊙表示矩阵元素点乘;
视觉选择门控网络利用图像编码器模块得到的图像全局特征g和图像局部特征ai,生成视觉选择门控向量
Figure FDA0004004530610000042
再通过
Figure FDA0004004530610000043
过滤图像次要信息,挖掘其关键信息。其具体公式如下:
Figure FDA0004004530610000044
Figure FDA0004004530610000045
其中,σ是sigmoid函数,Wi、Ui是模型可训练的参数矩阵,⊙表示矩阵元素点乘。
6.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统,其特征在于:所述多模态特征融合模块,首先引入文本注意力机制和图像注意力机制捕捉解码器隐藏层与文本、图像间的依赖关系,获取各模态的上下文信息,然后利用多模态注意力机制融合文本和视觉上下文信息,得到多模态特征向量,即混合两个模态的信息,方法为;
多模态特征融合模块引入的分层注意力机制,由文本注意力层、图像注意力层、多模态注意力层组成,
首先利用文本注意力和图像注意力在各自模态通道内,对输入文本中不同的单词或图像中不同局部区域给予不同的注意力权重,分别生成文本上下文向量和视觉上下文向量;
之后,多模态注意力对两种模态数据给予不同的权重,两种模态上下文向量根据权重进行加权和,得到多模态特征向量;其具体公式如下:
Figure FDA0004004530610000046
Figure FDA0004004530610000047
Figure FDA0004004530610000048
其中,st-1表示解码器在第t-1个时间步的隐藏层状态,
Figure FDA0004004530610000051
表示解码器在当前时间步t对输入文本中单词xi的注意力权重,
Figure FDA0004004530610000052
Ww、Uw是模型可训练的参数矩阵;
Figure FDA0004004530610000053
Figure FDA0004004530610000054
Figure FDA0004004530610000055
其中,
Figure FDA0004004530610000056
表示解码器在当前时间步t对图像中第i个区域的注意力权重,
Figure FDA0004004530610000057
Wa、Ua是模型可训练的参数矩阵。
7.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统,其特征在于:所述解码器模块,首先利用图像全局特征对解码器LSTM进行初始化,然后在每个解码时间步,通过多模态特征向量计算词汇表概率分布,再结合指针机制,选择从词汇表生成新单词或者从源文本中复制单词,得到预测单词的最终概率分布,生成摘要语句,具体方法为:
解码器模块使用LSTM作为解码器,首先利用图像编码器模块得到的图像全局特征g对解码器LSTM进行初始化,得到初始状态s0,之后在此基础上引入指针网络,在每个时间步解码时会计算生成新单词的概率pgen,根据指针pgen的值计算概率分布pw,指导预测单词从词汇表生成或者从源文本中复制,其具体公式如下:
s0=tanh(Wsr+Usg+bs)公式二十五;
Figure FDA0004004530610000058
Figure FDA0004004530610000059
Figure FDA00040045306100000510
其中,cmm表示多模态上下文向量,st表示解码器在当前时间步的隐藏层状态,E[yt]表示目标单词yt的词向量,Pvocab表示预测单词w在词汇表的概率分布,
Figure FDA0004004530610000061
表示解码器对文本序列的注意力分布,Ws、Us
Figure FDA0004004530610000062
V、Vs、Vc是模型可训练的参数矩阵,bs是偏置参数。
8.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统,其特征在于:所述摘要生成系统在解码器模块的模型训练阶段,根据信息的前向传播和误差的后向传播将不断地对模型网络进行调整,逐步优化目标函数。
CN202211628261.9A 2022-12-17 2022-12-17 一种基于多模态关键信息分析的摘要生成系统 Pending CN115934932A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211628261.9A CN115934932A (zh) 2022-12-17 2022-12-17 一种基于多模态关键信息分析的摘要生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211628261.9A CN115934932A (zh) 2022-12-17 2022-12-17 一种基于多模态关键信息分析的摘要生成系统

Publications (1)

Publication Number Publication Date
CN115934932A true CN115934932A (zh) 2023-04-07

Family

ID=86655615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211628261.9A Pending CN115934932A (zh) 2022-12-17 2022-12-17 一种基于多模态关键信息分析的摘要生成系统

Country Status (1)

Country Link
CN (1) CN115934932A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009925A (zh) * 2023-10-07 2023-11-07 北京华电电子商务科技有限公司 一种基于方面的多模态情感分析系统和方法
CN117493043A (zh) * 2023-11-09 2024-02-02 上海交通大学 基于原数据的smg实现系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009925A (zh) * 2023-10-07 2023-11-07 北京华电电子商务科技有限公司 一种基于方面的多模态情感分析系统和方法
CN117009925B (zh) * 2023-10-07 2023-12-15 北京华电电子商务科技有限公司 一种基于方面的多模态情感分析系统和方法
CN117493043A (zh) * 2023-11-09 2024-02-02 上海交通大学 基于原数据的smg实现系统及方法

Similar Documents

Publication Publication Date Title
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN109711463B (zh) 基于注意力的重要对象检测方法
CN110706302B (zh) 一种文本合成图像的系统及方法
CN113194348B (zh) 一种虚拟人讲课视频生成方法、系统、装置及存储介质
CN115934932A (zh) 一种基于多模态关键信息分析的摘要生成系统
CN111581437A (zh) 一种视频检索方法及装置
CN113158723B (zh) 一种端到端的视频动作检测定位系统
CN108334830A (zh) 一种基于目标语义和深度外观特征融合的场景识别方法
CN112990122B (zh) 一种基于视频基础单元分析的复杂行为识别方法
CN112819013A (zh) 基于层内层间联合全局表示的图像描述方法
CN113362416B (zh) 基于目标检测的文本生成图像的方法
CN111369646B (zh) 一种融合注意力机制的表情合成方法
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN114549574A (zh) 一种基于掩膜传播网络的交互式视频抠图系统
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN115203409A (zh) 一种基于门控融合和多任务学习的视频情感分类方法
CN115512195A (zh) 一种基于多交互信息融合的图像描述方法
CN115129934A (zh) 一种多模态视频理解方法
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN114677536B (zh) 一种基于Transformer结构的预训练方法及装置
CN115953582A (zh) 一种图像语义分割方法及系统
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN113065496B (zh) 神经网络机器翻译模型训练方法、机器翻译方法和装置
CN115496134B (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
CN114494893B (zh) 基于语义重用上下文特征金字塔的遥感图像特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination