CN115544244A - 一种基于交叉融合和重建的多模态生成式摘要获取方法 - Google Patents

一种基于交叉融合和重建的多模态生成式摘要获取方法 Download PDF

Info

Publication number
CN115544244A
CN115544244A CN202211084950.8A CN202211084950A CN115544244A CN 115544244 A CN115544244 A CN 115544244A CN 202211084950 A CN202211084950 A CN 202211084950A CN 115544244 A CN115544244 A CN 115544244A
Authority
CN
China
Prior art keywords
fusion
text
video
layer
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211084950.8A
Other languages
English (en)
Other versions
CN115544244B (zh
Inventor
云静
袁静姝
郑博飞
焦磊
刘利民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202211084950.8A priority Critical patent/CN115544244B/zh
Publication of CN115544244A publication Critical patent/CN115544244A/zh
Application granted granted Critical
Publication of CN115544244B publication Critical patent/CN115544244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于交叉融合和重建的多模态生成式摘要获取方法,从多模态摘要数据集中提取文本特征序列和视频特征序列,使用文本和视频指导下交叉融合模块,分别将一种模态的特征序列作为指导模态映射为查询特征,另一种模态的特征序列作为目标模态映射为键值对特征,捕捉模态间相关性高于设定值的一致性语义;经过迭代融合,生成文本和视频指导下多模态融合表示;使用文本和视频重建器得到文本和视频重建特征序列,并计算文本和视频重建损失;使用摘要生成器进行两层融合操作,输出摘要分布,并计算与参考摘要的生成损失;根据各损失,对各组件分别使用不同的损失函数组合,加强对模态间一致性和模态内互补语义的约束效果,提升生成摘要的准确性和丰富性。

Description

一种基于交叉融合和重建的多模态生成式摘要获取方法
技术领域
本发明属于人工智能技术领域,特别涉及一种基于交叉融合和重建的多模态生成式摘要获取方法。
背景技术
目前各种内容平台上的多模态数据如图文对、短视频内容与日俱增,使用者可以从各种途径发布、获取自己感兴趣的资讯。多模态数据的流行虽然可以提升用户的感官体验,而当大量形式复杂的信息不断从涌现时,其信息内容质量却参差不齐,此时更需要抓住重点信息或观点,不至于迷失在复杂的信息流中。多模态摘要旨在处理多模态输入数据,为其输出一段概括核心内容的文本或多模态摘要。多模态摘要任务能快速大批量总结各种复杂信息流,并为其保留关键信息,这将有助于快速掌握和自己更相关的事态发展,在信息过载的今天具有应用意义。
现有用单模态文本生成方法和多模态融合机制相结合的方法,其缺点是模型建模多模态关系时不够深入和全面,因此缺乏多模态一致性语义;并且现有技术忽略了单模态输入数据内重要的互补语义信息。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于交叉融合和重建的多模态生成式摘要获取方法,利用多层跨模态Transformer,对视频和文本序列数据彻底地进行深入的多模态融合操作,从而产生学习跨模态的一致性语义;而且通过基于RNN的特征重建器,生成从多模态融合表示到单模态数据的损失函数,约束多模态融合表示中保留互补性信息;使用基于层次化注意力的解码器,聚合融合多模态表示的语义信息,保证生成摘要的全面性和准确性;并且使用分离约束策略,组合视频、文本重建损失和生成损失,对不同模型组件使用不同损失组合,特别是保证模型能同时捕捉模态间的一致性和模态内的互补性语义,从而优化生成摘要结果。
为了实现上述目的,本发明采用的技术方案是:
一种基于交叉融合和重建的多模态生成式摘要获取方法,包括如下步骤:
步骤1,从多模态摘要数据集中提取文本特征序列和视频特征序列,其中所述文本特征序列使用文本编码器提取;
步骤2,使用文本指导下交叉融合模块和视频指导下交叉融合模块;每个交叉融合模块由多层跨模态Transformer实现,在每层融合迭代中,两种单模态数据即文本和视频,分别将一种模态的特征序列作为指导模态映射为查询特征,另一种模态的特征序列作为目标模态映射为键值对特征,然后通过跨模态注意力机制捕捉模态间相关性高于设定值的一致性语义;经过迭代融合,生成文本指导下多模态融合表示和视频指导下多模态融合表示;
步骤3,使用文本和视频重建器,以文本指导下多模态融合表示和视频指导下多模态融合表示作为输入,以相应的源输入单模态特征作为目标,得到文本重建特征序列和视频重建特征序列,并计算文本重建损失和视频重建损失;
步骤4,使用摘要生成器,首先利用层次化注意力,对文本指导下多模态融合表示和视频指导下多模态融合表示,分别与摘要生成器的隐层状态执行第一层融合操作得到两个融合结果,然后将得到的两个融合结果与摘要生成器的隐层状态执行第二层融合操作,得到第二层融合结果;将第二层融合结果送入摘要生成器,输出摘要分布,并计算与参考摘要的生成损失;
步骤5,根据文本重建损失、视频重建损失以及生成损失,对文本编码器、交叉融合模块、文本和视频重建器、摘要生成器分别使用不同的损失函数组合,以加强对模态间的一致性和模态内互补语义的约束效果,从而提升生成摘要的准确性和丰富性。
与现有技术相比,本发明针对多模态数据大量涌现时很难快速获取相关主题的现象,已经想要快速了解一个事件的关键信息,采用基于多层跨模态 Transformer的交叉融合模块,通过多层迭代融合视频和文本数据,得到两种融合的多模态表示,并将其用于重建源数据特征,约束交叉融合模块保留互补信息。最后通过融合摘要生成器,生成概率最高的词语组成句子,即为多模态数据的文本摘要。采用本发明,可极大程度上解决多模态生成式摘要缺乏模态间一致性信息和模态内互补信息的问题,提高为多模态数据获得生成式摘要的准确和全面性,为用户快速在多模态新闻信息中获取相关的信息作出贡献。
附图说明
图1是本发明整体流程示意图。
图2是本发明表1实施例中序号1的视频帧。
图3是本发明表1实施例中序号2的视频帧。
图4是本发明表1实施例中序号3的视频帧。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如前所述,现有摘要生成方法多采用单模态文本生成结合多模态融合机制的方法,显然这忽略了单模态输入数据内重要的互补语义信息,难以深入全面获取多模态关系,使得摘要生成不够全面、准确。
基于此,本发明提供了一种基于交叉融合和重建的多模态生成式摘要获取方法,其包括了用于提取文本和视频序列数据的上下文特征的面向单模态的编码方法,用于全面和深入建模多模态数据的相关性特征以保证准确捕获模态间一致性语义信息的基于多层跨模态Transformer的交叉融合法,用于在多模态融合表示内保留更多模态内的互补语义的特征级别的重建法,用于融合多模态表示,生成文本摘要,保证生成摘要能全面参考的多模态融合内的语义信息,同时计算摘要生成损失的融合摘要生成法,以及,用于在训练过程中对组件使用不同的损失函数组合,以保证模型能同时捕捉模态间一致性和模态内互补语义信息的分离约束策略。使得便于总结海量多模态数据重要信息;并且准确捕捉不同模态数据中重要的关联部分;并且保留单模态数据内重要的互补信息。从而实现了高效分析视频和文本的多模态生成式摘要获取,旨在快速在多模态数据中总结主题信息。
具体地,如图1所示,本发明包括如下步骤:
步骤1,从多模态摘要数据集中提取文本特征序列和视频特征序列。本发明的多模态摘要数据集中包含了文本模态数据和视频模态数据,也可仅由文本模态数据和视频模态数据组成。示例地,多模态摘要数据集可采用How2数据集。How2数据集是一个多模态的教学类数据集。数据集中包括视频模态数据,视频来自互联网教学类视频,包括大约22种话题,如体育、园艺等,视频平均时长为90秒。在实际数据集中视频已经过3D ResNeXt-101处理成特征序列。数据集中还包括文本模态数据,其中视频脚本是视频人物口语的英文文字版,作为本发明方法的源文本数据;还包括视频标题,由视频提交者填写的英文描述,作本发明方法的参考摘要。
其中,对于一般使用的多模态摘要数据集而言,视频已被数据集预处理为特征序列,而文本特征序列则可使用文本编码器提取获得。
具体地,在本步骤中,对于文本模态的源数据,使用one-hot将文本字符映射到向量空间,然后使用文本编码器来捕获字符间的上下文语义,即文本特征序列Ft。示例地,文本编码器可为基于Bi-RNN的文本编码器,此时,即文本特征序列Ft的计算公式如下:
Ft=Enc(xt,ht-1)
其中Enc表示基于Bi-RNN的文本编码器,xt表示当前one-hot编码后的字符向量,ht-1表示基于Bi-RNN的文本编码器运行到第t-1个时间点的隐藏状态, Ft∈n×dt,其中n表示输入的文本序列长度,dt表示文本模态空间的维数。
对于视频模态的源数据,数据集提供者已使用预训练模型3D ResNeXt-101 处理视频(也可在未处理时自行处理),每16个帧提取一段特征序列。然后得到提取后的视频特征Fv∈m×dv,其中m表示视频特征序列的长度,dv表示视频模态空间的维数。
步骤2,使用基于多层跨模态Transformer的交叉融合模块,将单模态的文本特征序列Ft和视频特征序列Fv映射到多模态特征空间。
本步骤中,交叉融合模块包括了文本指导下交叉融合模块和视频指导下交叉融合模块。每个交叉融合模块由多层跨模态Transformer实现,在每层融合迭代中,两种单模态数据(即文本和视频)分别将一种模态的特征序列作为指导模态映射为查询特征,另一种模态的特征序列作为目标模态映射为键值对特征,然后通过跨模态注意力机制捕捉模态间相关性高的一致性语义。交叉融合模块经过迭代融合,分别生成文本指导下多模态融合表示和视频指导下多模态融合表示。
具体地,在使用文本指导下交叉融合模块内,从视频特征序列Fv向文本特征序列Ft,经过多层融合迭代,生成文本指导下多模态融合表示ZT
生成ZT的过程如下式:
Figure BDA0003835117480000051
Figure BDA0003835117480000052
Figure BDA0003835117480000053
Figure BDA0003835117480000054
Figure BDA0003835117480000055
Figure BDA0003835117480000056
其中Qt是由文本特征序列Ft映射得到的查询特征,
Figure BDA0003835117480000057
是从Ft到Qt的映射矩阵,Kv和Vv是由视频特征序列Fv映射得到的键-值对特征,
Figure BDA0003835117480000058
Figure BDA0003835117480000059
是从Fv到Kv和Vv的映射矩阵,CM(·)是文本指导下多头跨模态注意力机制,headh指 CM(·)内每一个注意力头生成的融合表示,h代表注意力头的数量,softmax(·)用于计算融合结果的分布,
Figure BDA0003835117480000061
代表
Figure BDA0003835117480000062
的转置,dk代表键值对的特征空间维度,
Figure BDA0003835117480000063
是CM(·)生成的文本指导下的融合表示,concat(·)代表特征拼接操作,Wo是CM(·)内可训练矩阵,FFN(·)是前馈神经网络层,
Figure BDA0003835117480000064
是文本指导下多层交叉融合模块在每层最后的输出,i代表融合模块的层数,当i为最后一层数时,此时
Figure BDA0003835117480000065
即为融合模块生成的ZT
文本指导下交叉融合模块进行多层融合迭代,每一层中从视频向文本特征序列的融合处理步骤如下:
(1)将文本特征序列Ft作为指导模态映射为查询特征Qt,将视频特征序列Fv作为目标特征映射为键值对特征Kv Vv;如果不是第一层迭代,则将上一层迭代的输出
Figure BDA0003835117480000066
作为查询特征;
(2)使用文本指导下的多头跨模态注意力机制,在每个注意力头headh上进行一次融合,每个注意力头生成将生成一个融合表示,然后将所有融合表示拼接送入全连接层,得到中间融合向量
Figure BDA0003835117480000067
(3)将
Figure BDA0003835117480000068
与查询特征Qt进行残差连接并标准化,然后送入前馈神经网络层FFN(·);
(4)将FFN(·)输出结果和
Figure BDA0003835117480000069
进行残差连接并标准化,得到一层输出的文本指导下多模态融合表示ZT
同样地,在视频指导下交叉融合模块内,从文本特征序列Ft向视频特征序列Fv,经过多层融合迭代,生成视频指导下多模态融合表示ZV
生成ZV的过程如下式:
Figure BDA00038351174800000610
Figure BDA00038351174800000611
Figure BDA00038351174800000612
Figure BDA00038351174800000613
Figure BDA0003835117480000071
其中,
Figure BDA0003835117480000072
是从视频特征到查询特征的映射矩阵,
Figure BDA0003835117480000073
Figure BDA0003835117480000074
是从文本特征序列到键值对的映射矩阵。
Figure BDA0003835117480000075
是视频指导下多头跨模态注意力机制生成的融合表示,Wo'是视频指导下多头跨模态注意力机制的可训练矩阵,concat(·)是特征拼接操作,
Figure BDA0003835117480000076
是视频指导下的多层交叉融合模块在每层最后的输出,i代表融合模块的层数,当i为最后一层数时,此时
Figure BDA0003835117480000077
即为融合模块生成的ZV
视频指导下交叉融合模块,每一层中从文本向视频特征序列的融合处理步骤如下:
(1)将视频特征序列Fv作为指导模态映射为查询特征Qt,将文本特征序列Ft作为目标特征映射为键值对特征Kv Vv;如果不是第一层迭代,则将上一层迭代的输出
Figure BDA0003835117480000078
作为查询特征;
(2)使用视频指导下的多头跨模态注意力机制,在每个注意力头headh上进行一次融合,每个注意力头生成将生成一个融合表示,然后将所有融合表示拼接送入全连接层,得到中间融合向量
Figure BDA0003835117480000079
(3)将
Figure BDA00038351174800000710
与查询特征Qt进行残差连接并标准化,然后送入前馈神经网络层FFN(·);
(4)将FFN(·)输出结果和
Figure BDA00038351174800000711
进行残差连接并标准化,得到一层输出的文本指导下多模态融合表示
Figure BDA00038351174800000712
步骤3,使用文本和视频重建器,以文本指导下多模态融合表示和视频指导下多模态融合表示作为输入,以相应的源输入单模态特征作为目标,得到文本重建特征序列和视频重建特征序列,并计算文本重建损失和视频重建损失。
具体可描述如下:
步骤3.1:使用循环神经网络作为文本和视频重建器。将文本指导下多模态融合表示作为文本重建器的输入,生成重建文本特征序列Fret;将视频指导下多模态融合表示作为视频重建器的输入,生成重建视频特征序列Frev;并使重建文本特征序列Fret与文本特征序列Ft尽可能相似,使重建视频特征序列Frev与视频特征序列Fv尽可能相似。
步骤3.2:使用重建特征和源特征计算重建过程的损失函数,损失函数值越小,重建特征和源特征越相似。重建过程将拉近重建特征和源输入特征。文本重建损失函数和视频重建损失函数表示如下:
Figure BDA0003835117480000081
Figure BDA0003835117480000082
其中Lret代表文本重建损失函数,Lrev代表视频重建损失函数,N代表训练时样本数目,ψ(·)代表特征距离计算函数。
步骤4,使用摘要生成器,首先利用层次化注意力,对文本指导下多模态融合表示和视频指导下多模态融合表示,分别与摘要生成器的隐层状态执行第一层融合操作得到两个融合结果,然后将得到的两个融合结果与摘要生成器的隐层状态执行第二层融合操作,得到第二层融合结果;将第二层融合结果送入摘要生成器,输出摘要分布,并计算与参考摘要的生成损失。
在本步骤中,层次化注意力执行两层融合操作,首先对交叉融合模块的输出做层次化注意力,即第一层融合如下所示:
CT=TextAttention(ZT,ht)
CV=VideoAttention(ZV,ht)
其中TextAttention(·)表示第一层层次化注意力中对ZT和摘要生成器在每个时间步的隐层向量ht的融合操作,CT表示对ZT和ht的融合结果,VideoAttention(·)表示第一层层次化注意力中对ZV和ht的融合操作,CV表示对ZV和ht的融合结果;
第二层融合如下所示:
CF=FusionAttention(CT,CV,ht)
=softmax(Wt(W1CT+W2ht)CT)+softmax(Wv(W3CV+W4ht)CV)
其中FusionAttention(·)表示第二层层次化注意力中对上一层融合表示CT、CV和ht的融合操作,CF表示第二层融合操作结果,W1、W2、W3、W4、Wt、Wv是第二层融合操作中可学习参数。
示例地,本发明的摘要生成器,如下所示:
yt+1=FD(CF,yt,ht)
其中FD(·)表示摘要生成器,yt表示已经生成的摘要分布,yt+1表示即将生成的摘要分布,t表示生成摘要中第t个字符。
相应地,生成损失如下所示:
Figure BDA0003835117480000091
Lgen表示基于副对数似然函数的生成损失函数,Pv(·)表示摘要生成器接收已生成摘要分布yt后生成的下一个字符概率。
在本步骤中,对于文本编码器和文本指导下交叉融合模块,使用文本重建损失函数Lret和生成损失函数Lgen之和作为训练时损失函数;对于视频指导下交叉融合模块,使用视频重建损失函数Lrev和生成损失函数Lgen之和作为训练时损失函数;对于文本重建器、视频重建器和摘要生成器,分别使用文本重建损失 Lret、视频重建损失Lrev和生成摘要损失Lgen各自作为训练时损失函数。
步骤5,使用分离约束方法,即根据文本重建损失、视频重建损失以及生成损失,在训练时对模型不同组件使用不同的损失函数组合,增强自适应的约束效果,特别是保证对交叉融合模块能同时捕捉模态间的一致性语义和模态内的互补性语义。
具体地,对于文本编码器和文本指导下交叉融合模块,使用文本重建损失函数Lret和生成损失函数Lgen之和作为训练时损失函数;对于视频指导下交叉融合模块,使用视频重建损失函数Lrev和生成损失函数Lgen之和作为训练时损失函数;对于文本重建器、视频重建器和摘要生成器,分别使用文本重建损失Lret、视频重建损失Lrev和生成摘要损失Lgen各自作为训练时损失函数。
在本发明的一个具体实施例中,硬件为一台计算机,配置包含硬件环境: GPU:6块16G_TESLA-P100_4096b_P_CAC;CPU:Intel Core处理器 (3.1GHz)/4.5GHz/8GT;内存:16根32G ECC Registered DDR4 2666;软件环境:操作系统:Ubantu 16.04;语言及开发环境:Python 3.6、Anaconda 3;深度学习框架:Tensorflow。
本实施例以How2数据集的数据为分析对象,视频已经过预训练模型处理提取成视频特征序列,对文本数据经过基于RNN的文本编码器得到文本序列特则会那个,然后将文本特征序列和视频特征序列送入交叉融合模块,分别在基于多层跨模态Transformer内作为指导特征,经过多层融合迭代得到文本和视频指导下多模态融合表示,使用层次化融合提取多模态融合表示的语义信息,得到融合向量再送入摘要生成器,经过多时间步生成摘要的分布,从分布中采样得到概率比较大的文本,得出最后总结视频和文本内容的文本摘要。
表1为文本与视频两种模态的部分示意,如下:
表1
Figure BDA0003835117480000101
Figure BDA0003835117480000111
对表1所示的数据集进行特征提取、多模态融合及生成最终文本摘要的结果如下表2所示:
表2
Figure BDA0003835117480000112
Figure BDA0003835117480000121
由表2数据集自带的参考摘要与实际输出的摘要对比,可以看出,通过本发明生成的摘要和参考摘要大部分重点词语一致。

Claims (10)

1.一种基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,包括如下步骤:
步骤1,从多模态摘要数据集中提取文本特征序列和视频特征序列,其中所述文本特征序列使用文本编码器提取;
步骤2,使用文本指导下交叉融合模块和视频指导下交叉融合模块;每个交叉融合模块由多层跨模态Transformer实现,在每层融合迭代中,两种单模态数据即文本和视频,分别将一种模态的特征序列作为指导模态映射为查询特征,另一种模态的特征序列作为目标模态映射为键值对特征,然后通过跨模态注意力机制捕捉模态间相关性高于设定值的一致性语义;经过迭代融合,生成文本指导下多模态融合表示和视频指导下多模态融合表示;
步骤3,使用文本和视频重建器,以文本指导下多模态融合表示和视频指导下多模态融合表示作为输入,以相应的源输入单模态特征作为目标,得到文本重建特征序列和视频重建特征序列,并计算文本重建损失和视频重建损失;
步骤4,使用摘要生成器,首先利用层次化注意力,对文本指导下多模态融合表示和视频指导下多模态融合表示,分别与摘要生成器的隐层状态执行第一层融合操作得到两个融合结果,然后将得到的两个融合结果与摘要生成器的隐层状态执行第二层融合操作,得到第二层融合结果;将第二层融合结果送入摘要生成器,输出摘要分布,并计算与参考摘要的生成损失;
步骤5,根据文本重建损失、视频重建损失以及生成损失,对文本编码器、交叉融合模块、文本和视频重建器、摘要生成器分别使用不同的损失函数组合,以加强对模态间的一致性和模态内互补语义的约束效果,从而提升生成摘要的准确性和丰富性。
2.根据权利要求1所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤1,对于文本模态的源数据,使用one-hot将文本字符映射到向量空间,然后使用基于Bi-RNN的文本编码器捕获字符间的上下文语义即文本特征序列Ft
Ft=Enc(xt,ht-1)
其中Enc表示基于Bi-RNN的文本编码器,xt表示当前one-hot编码后的字符向量,ht-1表示基于Bi-RNN的文本编码器运行到第t-1个时间点的隐藏状态,Ft∈n×dt,其中n表示输入的文本序列长度,dt表示文本模态空间的维数;
对于视频模态的源数据,使用预训练模型3D ResNeXt-101处理视频,每16个帧提取一段特征序列,得到提取后的视频特征序列Fv∈m×dv,其中m表示视频特征序列的长度,dv表示视频模态空间的维数。
3.根据权利要求2所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤2具体步骤为:
步骤2.1:使用文本指导下交叉融合模块,在模块内从视频特征序列Fv向文本特征序列Ft,经过多层融合迭代,生成文本指导下多模态融合表示ZT
步骤2.2:使用视频指导下交叉融合模块,在模块内从文本特征序列Ft向视频特征序列Fv,经过多层融合迭代,生成视频指导下多模态融合表示ZV
4.根据权利要求3所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤2.1,生成ZT的过程如下式:
Figure FDA0003835117470000021
Figure FDA0003835117470000022
Figure FDA0003835117470000023
Figure FDA0003835117470000024
Figure FDA0003835117470000025
Figure FDA0003835117470000026
其中Qt是由文本特征序列Ft映射得到的查询特征,
Figure FDA0003835117470000027
是从Ft到Qt的映射矩阵,Kv和Vv是由视频特征序列Fv映射得到的键-值对特征,
Figure FDA0003835117470000031
Figure FDA0003835117470000032
是从Fv到Kv和Vv的映射矩阵,CM(·)是文本指导下多头跨模态注意力机制,headh指CM(·)内每一个注意力头生成的融合表示,h代表注意力头的数量,softmax(·)用于计算融合结果的分布,
Figure FDA0003835117470000033
代表Kv
Figure FDA0003835117470000034
Fv的转置,dk代表键值对的特征空间维度,
Figure FDA0003835117470000035
是CM(·)生成的文本指导下的融合表示,concat(·)代表特征拼接操作,Wo是CM(·)内可训练矩阵,FFN(·)是前馈神经网络层,
Figure FDA0003835117470000036
是文本指导下多层交叉融合模块在每层最后的输出,i代表融合模块的层数,当i为最后一层数时,此时
Figure FDA0003835117470000037
即为融合模块生成的ZT
文本指导下交叉融合模块进行多层融合迭代,每一层中从视频向文本特征序列的融合处理步骤如下:
(1)将文本特征序列Ft作为指导模态映射为查询特征Qt,将视频特征序列Fv作为目标特征映射为键值对特征Kv Vv;如果不是第一层迭代,则将上一层迭代的输出
Figure FDA0003835117470000038
作为查询特征;
(2)使用文本指导下的多头跨模态注意力机制,在每个注意力头headh上进行一次融合,每个注意力头生成将生成一个融合表示,然后将所有融合表示拼接送入全连接层,得到中间融合向量
Figure FDA0003835117470000039
(3)将
Figure FDA00038351174700000310
与查询特征Qt进行残差连接并标准化,然后送入前馈神经网络层FFN(·);
(4)将FFN(·)输出结果和
Figure FDA00038351174700000311
进行残差连接并标准化,得到一层输出的文本指导下多模态融合表示ZT
5.根据权利要求3所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤2.2,生成ZV的过程如下式:
Figure FDA00038351174700000312
Figure FDA00038351174700000313
Figure FDA0003835117470000041
Figure FDA0003835117470000042
Figure FDA0003835117470000043
其中,
Figure FDA0003835117470000044
是从视频特征到查询特征的映射矩阵,
Figure FDA0003835117470000045
Figure FDA00038351174700000414
是从文本特征序列到键值对的映射矩阵,
Figure FDA0003835117470000046
是视频指导下多头跨模态注意力机制生成的融合表示,Wo'是视频指导下多头跨模态注意力机制的可训练矩阵,concat(·)是特征拼接操作,
Figure FDA0003835117470000047
是视频指导下的多层交叉融合模块在每层最后的输出,i代表融合模块的层数,当i为最后一层数时,此时
Figure FDA0003835117470000048
即为融合模块生成的ZV
视频指导下交叉融合模块,每一层中从文本向视频特征序列的融合处理步骤如下:
(1)将视频特征序列Fv作为指导模态映射为查询特征Qt,将文本特征序列Ft作为目标特征映射为键值对特征Kv Vv;如果不是第一层迭代,则将上一层迭代的输出
Figure FDA0003835117470000049
作为查询特征;
(2)使用视频指导下的多头跨模态注意力机制,在每个注意力头headh上进行一次融合,每个注意力头生成将生成一个融合表示,然后将所有融合表示拼接送入全连接层,得到中间融合向量
Figure FDA00038351174700000410
(3)将
Figure FDA00038351174700000411
与查询特征Qt进行残差连接并标准化,然后送入前馈神经网络层FFN(·);
(4)将FFN(·)输出结果和
Figure FDA00038351174700000412
进行残差连接并标准化,得到一层输出的文本指导下多模态融合表示
Figure FDA00038351174700000413
6.根据权利要求3所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤3,具体步骤为:
步骤3.1:使用循环神经网络作为文本和视频重建器;将文本指导下多模态融合表示作为文本重建器的输入,生成重建文本特征序列Fret;将视频指导下多模态融合表示作为视频重建器的输入,生成重建视频特征序列Frev;并使重建文本特征序列Fret与文本特征序列Ft尽可能相似,使重建视频特征序列Frev与视频特征序列Fv尽可能相似;
步骤3.2:计算重建过程的损失函数,损失函数值越小,重建特征和源特征越相似,文本重建损失函数和视频重建损失函数表示如下:
Figure FDA0003835117470000051
Figure FDA0003835117470000052
其中Lret代表文本重建损失函数,Lrev代表视频重建损失函数,N代表训练时样本数目,ψ(·)代表特征距离计算函数。
7.根据权利要求1所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述层次化注意力执行两层融合操作,第一层融合如下所示:
CT=TextAttention(ZT,ht)
CV=VideoAttention(ZV,ht)
其中TextAttention(·)表示第一层层次化注意力中对ZT和摘要生成器在每个时间步的隐层向量ht的融合操作,CT表示对ZT和ht的融合结果,VideoAttention(·)表示第一层层次化注意力中对ZV和ht的融合操作,CV表示对ZV和ht的融合结果;
第二层融合如下所示:
CF=FusionAttention(CT,CV,ht)
=softmax(Wt(W1CT+W2ht)CT)+softmax(Wv(W3CV+W4ht)CV)
其中FusionAttention(·)表示第二层层次化注意力中对上一层融合表示CT、CV和ht的融合操作,CF表示第二层融合操作结果,W1、W2、W3、W4、Wt、Wv是第二层融合操作中可学习参数。
8.根据权利要求7所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述摘要生成器,如下所示:
yt+1=FD(CF,yt,ht)
其中FD(·)表示摘要生成器,yt表示已经生成的摘要分布,yt+1表示即将生成的摘要分布,t表示生成摘要中第t个字符。
9.根据权利要求7所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述生成损失,如下所示:
Figure FDA0003835117470000061
Lgen表示基于副对数似然函数的生成损失函数,Pv(·)表示摘要生成器接收已生成摘要分布yt后生成的下一个字符概率。
10.根据权利要求1所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤5,对于文本编码器和文本指导下交叉融合模块,使用文本重建损失函数Lret和生成损失函数Lgen之和作为训练时损失函数;对于视频指导下交叉融合模块,使用视频重建损失函数Lrev和生成损失函数Lgen之和作为训练时损失函数;对于文本重建器、视频重建器和摘要生成器,分别使用文本重建损失Lret、视频重建损失Lrev和生成摘要损失Lgen各自作为训练时损失函数。
CN202211084950.8A 2022-09-06 2022-09-06 一种基于交叉融合和重建的多模态生成式摘要获取方法 Active CN115544244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211084950.8A CN115544244B (zh) 2022-09-06 2022-09-06 一种基于交叉融合和重建的多模态生成式摘要获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211084950.8A CN115544244B (zh) 2022-09-06 2022-09-06 一种基于交叉融合和重建的多模态生成式摘要获取方法

Publications (2)

Publication Number Publication Date
CN115544244A true CN115544244A (zh) 2022-12-30
CN115544244B CN115544244B (zh) 2023-11-17

Family

ID=84725580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211084950.8A Active CN115544244B (zh) 2022-09-06 2022-09-06 一种基于交叉融合和重建的多模态生成式摘要获取方法

Country Status (1)

Country Link
CN (1) CN115544244B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646094A (zh) * 2013-12-18 2014-03-19 上海紫竹数字创意港有限公司 实现视听类产品内容摘要自动提取生成的系统及方法
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
CN112417134A (zh) * 2020-10-30 2021-02-26 同济大学 基于语音文本深度融合特征的摘要自动生成系统及方法
CN113052149A (zh) * 2021-05-20 2021-06-29 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质
CN113468854A (zh) * 2021-06-24 2021-10-01 浙江华巽科技有限公司 一种多文档自动摘要生成方法
CN114398889A (zh) * 2022-01-18 2022-04-26 平安科技(深圳)有限公司 基于多模态模型的视频文本摘要方法、设备及存储介质
WO2022101515A1 (en) * 2020-11-16 2022-05-19 UMNAI Limited Method for an explainable autoencoder and an explainable generative adversarial network
CN114691907A (zh) * 2022-05-31 2022-07-01 上海蜜度信息技术有限公司 一种跨模态检索的方法、设备及介质
US20220237368A1 (en) * 2021-01-22 2022-07-28 Bao Tran Systems and methods for machine content generation

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646094A (zh) * 2013-12-18 2014-03-19 上海紫竹数字创意港有限公司 实现视听类产品内容摘要自动提取生成的系统及方法
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
CN112417134A (zh) * 2020-10-30 2021-02-26 同济大学 基于语音文本深度融合特征的摘要自动生成系统及方法
WO2022101515A1 (en) * 2020-11-16 2022-05-19 UMNAI Limited Method for an explainable autoencoder and an explainable generative adversarial network
US20220237368A1 (en) * 2021-01-22 2022-07-28 Bao Tran Systems and methods for machine content generation
CN113052149A (zh) * 2021-05-20 2021-06-29 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质
CN113468854A (zh) * 2021-06-24 2021-10-01 浙江华巽科技有限公司 一种多文档自动摘要生成方法
CN114398889A (zh) * 2022-01-18 2022-04-26 平安科技(深圳)有限公司 基于多模态模型的视频文本摘要方法、设备及存储介质
CN114691907A (zh) * 2022-05-31 2022-07-01 上海蜜度信息技术有限公司 一种跨模态检索的方法、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUSAIN, M 等: "Multimodal Fusion of Speech and Text using Semi-supervised LDA for Indexing Lecture Videos", 2019 25TH NATIONAL CONFERENCE ON COMMUNICATIONS (NCC), pages 1 - 6 *
王蝶: "基于注意力机制的多模态融合技术研究", 中国优秀硕士学位论文全文数据库 (信息科技辑), pages 140 - 618 *

Also Published As

Publication number Publication date
CN115544244B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
Yu et al. Multimodal transformer with multi-view visual representation for image captioning
Xu et al. Multi-interactive memory network for aspect based multimodal sentiment analysis
Pei et al. Memory-attended recurrent network for video captioning
Pu et al. Boosting continuous sign language recognition via cross modality augmentation
Ye et al. Evaluating two-stream CNN for video classification
Jang et al. Video question answering with spatio-temporal reasoning
Luo et al. Semantic-conditional diffusion networks for image captioning
Anderson et al. Partially-supervised image captioning
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
CN113423004B (zh) 基于解耦译码的视频字幕生成方法和系统
Che et al. Visual relationship embedding network for image paragraph generation
Tian et al. An attempt towards interpretable audio-visual video captioning
Wang et al. A text-guided generation and refinement model for image captioning
CN117496388A (zh) 基于动态记忆网络的跨模态视频描述模型
Liang et al. CPGAN: full-spectrum content-parsing generative adversarial networks for text-to-image synthesis
Jing et al. Memory-based augmentation network for video captioning
Ji et al. Relation constraint self-attention for image captioning
Niu et al. A multi-layer memory sharing network for video captioning
Peng et al. Show and tell in the loop: Cross-modal circular correlation learning
Song et al. Exploring explicit and implicit visual relationships for image captioning
Toshevska et al. Exploration into deep learning text generation architectures for dense image captioning
Biswas et al. Image Descriptor Generator using encoder-decoder model
CN115544244A (zh) 一种基于交叉融合和重建的多模态生成式摘要获取方法
Hammad et al. Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models
Qin et al. Towards complex scenarios: Building end-to-end task-oriented dialogue system across multiple knowledge bases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant