CN115544244A - 一种基于交叉融合和重建的多模态生成式摘要获取方法 - Google Patents
一种基于交叉融合和重建的多模态生成式摘要获取方法 Download PDFInfo
- Publication number
- CN115544244A CN115544244A CN202211084950.8A CN202211084950A CN115544244A CN 115544244 A CN115544244 A CN 115544244A CN 202211084950 A CN202211084950 A CN 202211084950A CN 115544244 A CN115544244 A CN 115544244A
- Authority
- CN
- China
- Prior art keywords
- fusion
- text
- video
- layer
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 176
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013507 mapping Methods 0.000 claims abstract description 21
- 230000000295 complement effect Effects 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 description 27
- 238000000926 separation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 241000512668 Eunectes Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010413 gardening Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于交叉融合和重建的多模态生成式摘要获取方法,从多模态摘要数据集中提取文本特征序列和视频特征序列,使用文本和视频指导下交叉融合模块,分别将一种模态的特征序列作为指导模态映射为查询特征,另一种模态的特征序列作为目标模态映射为键值对特征,捕捉模态间相关性高于设定值的一致性语义;经过迭代融合,生成文本和视频指导下多模态融合表示;使用文本和视频重建器得到文本和视频重建特征序列,并计算文本和视频重建损失;使用摘要生成器进行两层融合操作,输出摘要分布,并计算与参考摘要的生成损失;根据各损失,对各组件分别使用不同的损失函数组合,加强对模态间一致性和模态内互补语义的约束效果,提升生成摘要的准确性和丰富性。
Description
技术领域
本发明属于人工智能技术领域,特别涉及一种基于交叉融合和重建的多模态生成式摘要获取方法。
背景技术
目前各种内容平台上的多模态数据如图文对、短视频内容与日俱增,使用者可以从各种途径发布、获取自己感兴趣的资讯。多模态数据的流行虽然可以提升用户的感官体验,而当大量形式复杂的信息不断从涌现时,其信息内容质量却参差不齐,此时更需要抓住重点信息或观点,不至于迷失在复杂的信息流中。多模态摘要旨在处理多模态输入数据,为其输出一段概括核心内容的文本或多模态摘要。多模态摘要任务能快速大批量总结各种复杂信息流,并为其保留关键信息,这将有助于快速掌握和自己更相关的事态发展,在信息过载的今天具有应用意义。
现有用单模态文本生成方法和多模态融合机制相结合的方法,其缺点是模型建模多模态关系时不够深入和全面,因此缺乏多模态一致性语义;并且现有技术忽略了单模态输入数据内重要的互补语义信息。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于交叉融合和重建的多模态生成式摘要获取方法,利用多层跨模态Transformer,对视频和文本序列数据彻底地进行深入的多模态融合操作,从而产生学习跨模态的一致性语义;而且通过基于RNN的特征重建器,生成从多模态融合表示到单模态数据的损失函数,约束多模态融合表示中保留互补性信息;使用基于层次化注意力的解码器,聚合融合多模态表示的语义信息,保证生成摘要的全面性和准确性;并且使用分离约束策略,组合视频、文本重建损失和生成损失,对不同模型组件使用不同损失组合,特别是保证模型能同时捕捉模态间的一致性和模态内的互补性语义,从而优化生成摘要结果。
为了实现上述目的,本发明采用的技术方案是:
一种基于交叉融合和重建的多模态生成式摘要获取方法,包括如下步骤:
步骤1,从多模态摘要数据集中提取文本特征序列和视频特征序列,其中所述文本特征序列使用文本编码器提取;
步骤2,使用文本指导下交叉融合模块和视频指导下交叉融合模块;每个交叉融合模块由多层跨模态Transformer实现,在每层融合迭代中,两种单模态数据即文本和视频,分别将一种模态的特征序列作为指导模态映射为查询特征,另一种模态的特征序列作为目标模态映射为键值对特征,然后通过跨模态注意力机制捕捉模态间相关性高于设定值的一致性语义;经过迭代融合,生成文本指导下多模态融合表示和视频指导下多模态融合表示;
步骤3,使用文本和视频重建器,以文本指导下多模态融合表示和视频指导下多模态融合表示作为输入,以相应的源输入单模态特征作为目标,得到文本重建特征序列和视频重建特征序列,并计算文本重建损失和视频重建损失;
步骤4,使用摘要生成器,首先利用层次化注意力,对文本指导下多模态融合表示和视频指导下多模态融合表示,分别与摘要生成器的隐层状态执行第一层融合操作得到两个融合结果,然后将得到的两个融合结果与摘要生成器的隐层状态执行第二层融合操作,得到第二层融合结果;将第二层融合结果送入摘要生成器,输出摘要分布,并计算与参考摘要的生成损失;
步骤5,根据文本重建损失、视频重建损失以及生成损失,对文本编码器、交叉融合模块、文本和视频重建器、摘要生成器分别使用不同的损失函数组合,以加强对模态间的一致性和模态内互补语义的约束效果,从而提升生成摘要的准确性和丰富性。
与现有技术相比,本发明针对多模态数据大量涌现时很难快速获取相关主题的现象,已经想要快速了解一个事件的关键信息,采用基于多层跨模态 Transformer的交叉融合模块,通过多层迭代融合视频和文本数据,得到两种融合的多模态表示,并将其用于重建源数据特征,约束交叉融合模块保留互补信息。最后通过融合摘要生成器,生成概率最高的词语组成句子,即为多模态数据的文本摘要。采用本发明,可极大程度上解决多模态生成式摘要缺乏模态间一致性信息和模态内互补信息的问题,提高为多模态数据获得生成式摘要的准确和全面性,为用户快速在多模态新闻信息中获取相关的信息作出贡献。
附图说明
图1是本发明整体流程示意图。
图2是本发明表1实施例中序号1的视频帧。
图3是本发明表1实施例中序号2的视频帧。
图4是本发明表1实施例中序号3的视频帧。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如前所述,现有摘要生成方法多采用单模态文本生成结合多模态融合机制的方法,显然这忽略了单模态输入数据内重要的互补语义信息,难以深入全面获取多模态关系,使得摘要生成不够全面、准确。
基于此,本发明提供了一种基于交叉融合和重建的多模态生成式摘要获取方法,其包括了用于提取文本和视频序列数据的上下文特征的面向单模态的编码方法,用于全面和深入建模多模态数据的相关性特征以保证准确捕获模态间一致性语义信息的基于多层跨模态Transformer的交叉融合法,用于在多模态融合表示内保留更多模态内的互补语义的特征级别的重建法,用于融合多模态表示,生成文本摘要,保证生成摘要能全面参考的多模态融合内的语义信息,同时计算摘要生成损失的融合摘要生成法,以及,用于在训练过程中对组件使用不同的损失函数组合,以保证模型能同时捕捉模态间一致性和模态内互补语义信息的分离约束策略。使得便于总结海量多模态数据重要信息;并且准确捕捉不同模态数据中重要的关联部分;并且保留单模态数据内重要的互补信息。从而实现了高效分析视频和文本的多模态生成式摘要获取,旨在快速在多模态数据中总结主题信息。
具体地,如图1所示,本发明包括如下步骤:
步骤1,从多模态摘要数据集中提取文本特征序列和视频特征序列。本发明的多模态摘要数据集中包含了文本模态数据和视频模态数据,也可仅由文本模态数据和视频模态数据组成。示例地,多模态摘要数据集可采用How2数据集。How2数据集是一个多模态的教学类数据集。数据集中包括视频模态数据,视频来自互联网教学类视频,包括大约22种话题,如体育、园艺等,视频平均时长为90秒。在实际数据集中视频已经过3D ResNeXt-101处理成特征序列。数据集中还包括文本模态数据,其中视频脚本是视频人物口语的英文文字版,作为本发明方法的源文本数据;还包括视频标题,由视频提交者填写的英文描述,作本发明方法的参考摘要。
其中,对于一般使用的多模态摘要数据集而言,视频已被数据集预处理为特征序列,而文本特征序列则可使用文本编码器提取获得。
具体地,在本步骤中,对于文本模态的源数据,使用one-hot将文本字符映射到向量空间,然后使用文本编码器来捕获字符间的上下文语义,即文本特征序列Ft。示例地,文本编码器可为基于Bi-RNN的文本编码器,此时,即文本特征序列Ft的计算公式如下:
Ft=Enc(xt,ht-1)
其中Enc表示基于Bi-RNN的文本编码器,xt表示当前one-hot编码后的字符向量,ht-1表示基于Bi-RNN的文本编码器运行到第t-1个时间点的隐藏状态, Ft∈n×dt,其中n表示输入的文本序列长度,dt表示文本模态空间的维数。
对于视频模态的源数据,数据集提供者已使用预训练模型3D ResNeXt-101 处理视频(也可在未处理时自行处理),每16个帧提取一段特征序列。然后得到提取后的视频特征Fv∈m×dv,其中m表示视频特征序列的长度,dv表示视频模态空间的维数。
步骤2,使用基于多层跨模态Transformer的交叉融合模块,将单模态的文本特征序列Ft和视频特征序列Fv映射到多模态特征空间。
本步骤中,交叉融合模块包括了文本指导下交叉融合模块和视频指导下交叉融合模块。每个交叉融合模块由多层跨模态Transformer实现,在每层融合迭代中,两种单模态数据(即文本和视频)分别将一种模态的特征序列作为指导模态映射为查询特征,另一种模态的特征序列作为目标模态映射为键值对特征,然后通过跨模态注意力机制捕捉模态间相关性高的一致性语义。交叉融合模块经过迭代融合,分别生成文本指导下多模态融合表示和视频指导下多模态融合表示。
具体地,在使用文本指导下交叉融合模块内,从视频特征序列Fv向文本特征序列Ft,经过多层融合迭代,生成文本指导下多模态融合表示ZT。
生成ZT的过程如下式:
其中Qt是由文本特征序列Ft映射得到的查询特征,是从Ft到Qt的映射矩阵,Kv和Vv是由视频特征序列Fv映射得到的键-值对特征,和是从Fv到Kv和Vv的映射矩阵,CM(·)是文本指导下多头跨模态注意力机制,headh指 CM(·)内每一个注意力头生成的融合表示,h代表注意力头的数量,softmax(·)用于计算融合结果的分布,代表的转置,dk代表键值对的特征空间维度,是CM(·)生成的文本指导下的融合表示,concat(·)代表特征拼接操作,Wo是CM(·)内可训练矩阵,FFN(·)是前馈神经网络层,是文本指导下多层交叉融合模块在每层最后的输出,i代表融合模块的层数,当i为最后一层数时,此时即为融合模块生成的ZT。
文本指导下交叉融合模块进行多层融合迭代,每一层中从视频向文本特征序列的融合处理步骤如下:
同样地,在视频指导下交叉融合模块内,从文本特征序列Ft向视频特征序列Fv,经过多层融合迭代,生成视频指导下多模态融合表示ZV。
生成ZV的过程如下式:
其中,是从视频特征到查询特征的映射矩阵,和是从文本特征序列到键值对的映射矩阵。是视频指导下多头跨模态注意力机制生成的融合表示,Wo'是视频指导下多头跨模态注意力机制的可训练矩阵,concat(·)是特征拼接操作,是视频指导下的多层交叉融合模块在每层最后的输出,i代表融合模块的层数,当i为最后一层数时,此时即为融合模块生成的ZV;
视频指导下交叉融合模块,每一层中从文本向视频特征序列的融合处理步骤如下:
步骤3,使用文本和视频重建器,以文本指导下多模态融合表示和视频指导下多模态融合表示作为输入,以相应的源输入单模态特征作为目标,得到文本重建特征序列和视频重建特征序列,并计算文本重建损失和视频重建损失。
具体可描述如下:
步骤3.1:使用循环神经网络作为文本和视频重建器。将文本指导下多模态融合表示作为文本重建器的输入,生成重建文本特征序列Fret;将视频指导下多模态融合表示作为视频重建器的输入,生成重建视频特征序列Frev;并使重建文本特征序列Fret与文本特征序列Ft尽可能相似,使重建视频特征序列Frev与视频特征序列Fv尽可能相似。
步骤3.2:使用重建特征和源特征计算重建过程的损失函数,损失函数值越小,重建特征和源特征越相似。重建过程将拉近重建特征和源输入特征。文本重建损失函数和视频重建损失函数表示如下:
其中Lret代表文本重建损失函数,Lrev代表视频重建损失函数,N代表训练时样本数目,ψ(·)代表特征距离计算函数。
步骤4,使用摘要生成器,首先利用层次化注意力,对文本指导下多模态融合表示和视频指导下多模态融合表示,分别与摘要生成器的隐层状态执行第一层融合操作得到两个融合结果,然后将得到的两个融合结果与摘要生成器的隐层状态执行第二层融合操作,得到第二层融合结果;将第二层融合结果送入摘要生成器,输出摘要分布,并计算与参考摘要的生成损失。
在本步骤中,层次化注意力执行两层融合操作,首先对交叉融合模块的输出做层次化注意力,即第一层融合如下所示:
CT=TextAttention(ZT,ht)
CV=VideoAttention(ZV,ht)
其中TextAttention(·)表示第一层层次化注意力中对ZT和摘要生成器在每个时间步的隐层向量ht的融合操作,CT表示对ZT和ht的融合结果,VideoAttention(·)表示第一层层次化注意力中对ZV和ht的融合操作,CV表示对ZV和ht的融合结果;
第二层融合如下所示:
CF=FusionAttention(CT,CV,ht)
=softmax(Wt(W1CT+W2ht)CT)+softmax(Wv(W3CV+W4ht)CV)
其中FusionAttention(·)表示第二层层次化注意力中对上一层融合表示CT、CV和ht的融合操作,CF表示第二层融合操作结果,W1、W2、W3、W4、Wt、Wv是第二层融合操作中可学习参数。
示例地,本发明的摘要生成器,如下所示:
yt+1=FD(CF,yt,ht)
其中FD(·)表示摘要生成器,yt表示已经生成的摘要分布,yt+1表示即将生成的摘要分布,t表示生成摘要中第t个字符。
相应地,生成损失如下所示:
Lgen表示基于副对数似然函数的生成损失函数,Pv(·)表示摘要生成器接收已生成摘要分布yt后生成的下一个字符概率。
在本步骤中,对于文本编码器和文本指导下交叉融合模块,使用文本重建损失函数Lret和生成损失函数Lgen之和作为训练时损失函数;对于视频指导下交叉融合模块,使用视频重建损失函数Lrev和生成损失函数Lgen之和作为训练时损失函数;对于文本重建器、视频重建器和摘要生成器,分别使用文本重建损失 Lret、视频重建损失Lrev和生成摘要损失Lgen各自作为训练时损失函数。
步骤5,使用分离约束方法,即根据文本重建损失、视频重建损失以及生成损失,在训练时对模型不同组件使用不同的损失函数组合,增强自适应的约束效果,特别是保证对交叉融合模块能同时捕捉模态间的一致性语义和模态内的互补性语义。
具体地,对于文本编码器和文本指导下交叉融合模块,使用文本重建损失函数Lret和生成损失函数Lgen之和作为训练时损失函数;对于视频指导下交叉融合模块,使用视频重建损失函数Lrev和生成损失函数Lgen之和作为训练时损失函数;对于文本重建器、视频重建器和摘要生成器,分别使用文本重建损失Lret、视频重建损失Lrev和生成摘要损失Lgen各自作为训练时损失函数。
在本发明的一个具体实施例中,硬件为一台计算机,配置包含硬件环境: GPU:6块16G_TESLA-P100_4096b_P_CAC;CPU:Intel Core处理器 (3.1GHz)/4.5GHz/8GT;内存:16根32G ECC Registered DDR4 2666;软件环境:操作系统:Ubantu 16.04;语言及开发环境:Python 3.6、Anaconda 3;深度学习框架:Tensorflow。
本实施例以How2数据集的数据为分析对象,视频已经过预训练模型处理提取成视频特征序列,对文本数据经过基于RNN的文本编码器得到文本序列特则会那个,然后将文本特征序列和视频特征序列送入交叉融合模块,分别在基于多层跨模态Transformer内作为指导特征,经过多层融合迭代得到文本和视频指导下多模态融合表示,使用层次化融合提取多模态融合表示的语义信息,得到融合向量再送入摘要生成器,经过多时间步生成摘要的分布,从分布中采样得到概率比较大的文本,得出最后总结视频和文本内容的文本摘要。
表1为文本与视频两种模态的部分示意,如下:
表1
对表1所示的数据集进行特征提取、多模态融合及生成最终文本摘要的结果如下表2所示:
表2
由表2数据集自带的参考摘要与实际输出的摘要对比,可以看出,通过本发明生成的摘要和参考摘要大部分重点词语一致。
Claims (10)
1.一种基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,包括如下步骤:
步骤1,从多模态摘要数据集中提取文本特征序列和视频特征序列,其中所述文本特征序列使用文本编码器提取;
步骤2,使用文本指导下交叉融合模块和视频指导下交叉融合模块;每个交叉融合模块由多层跨模态Transformer实现,在每层融合迭代中,两种单模态数据即文本和视频,分别将一种模态的特征序列作为指导模态映射为查询特征,另一种模态的特征序列作为目标模态映射为键值对特征,然后通过跨模态注意力机制捕捉模态间相关性高于设定值的一致性语义;经过迭代融合,生成文本指导下多模态融合表示和视频指导下多模态融合表示;
步骤3,使用文本和视频重建器,以文本指导下多模态融合表示和视频指导下多模态融合表示作为输入,以相应的源输入单模态特征作为目标,得到文本重建特征序列和视频重建特征序列,并计算文本重建损失和视频重建损失;
步骤4,使用摘要生成器,首先利用层次化注意力,对文本指导下多模态融合表示和视频指导下多模态融合表示,分别与摘要生成器的隐层状态执行第一层融合操作得到两个融合结果,然后将得到的两个融合结果与摘要生成器的隐层状态执行第二层融合操作,得到第二层融合结果;将第二层融合结果送入摘要生成器,输出摘要分布,并计算与参考摘要的生成损失;
步骤5,根据文本重建损失、视频重建损失以及生成损失,对文本编码器、交叉融合模块、文本和视频重建器、摘要生成器分别使用不同的损失函数组合,以加强对模态间的一致性和模态内互补语义的约束效果,从而提升生成摘要的准确性和丰富性。
2.根据权利要求1所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤1,对于文本模态的源数据,使用one-hot将文本字符映射到向量空间,然后使用基于Bi-RNN的文本编码器捕获字符间的上下文语义即文本特征序列Ft:
Ft=Enc(xt,ht-1)
其中Enc表示基于Bi-RNN的文本编码器,xt表示当前one-hot编码后的字符向量,ht-1表示基于Bi-RNN的文本编码器运行到第t-1个时间点的隐藏状态,Ft∈n×dt,其中n表示输入的文本序列长度,dt表示文本模态空间的维数;
对于视频模态的源数据,使用预训练模型3D ResNeXt-101处理视频,每16个帧提取一段特征序列,得到提取后的视频特征序列Fv∈m×dv,其中m表示视频特征序列的长度,dv表示视频模态空间的维数。
3.根据权利要求2所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤2具体步骤为:
步骤2.1:使用文本指导下交叉融合模块,在模块内从视频特征序列Fv向文本特征序列Ft,经过多层融合迭代,生成文本指导下多模态融合表示ZT;
步骤2.2:使用视频指导下交叉融合模块,在模块内从文本特征序列Ft向视频特征序列Fv,经过多层融合迭代,生成视频指导下多模态融合表示ZV。
4.根据权利要求3所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤2.1,生成ZT的过程如下式:
其中Qt是由文本特征序列Ft映射得到的查询特征,是从Ft到Qt的映射矩阵,Kv和Vv是由视频特征序列Fv映射得到的键-值对特征,和是从Fv到Kv和Vv的映射矩阵,CM(·)是文本指导下多头跨模态注意力机制,headh指CM(·)内每一个注意力头生成的融合表示,h代表注意力头的数量,softmax(·)用于计算融合结果的分布,代表Kv Fv的转置,dk代表键值对的特征空间维度,是CM(·)生成的文本指导下的融合表示,concat(·)代表特征拼接操作,Wo是CM(·)内可训练矩阵,FFN(·)是前馈神经网络层,是文本指导下多层交叉融合模块在每层最后的输出,i代表融合模块的层数,当i为最后一层数时,此时即为融合模块生成的ZT;
文本指导下交叉融合模块进行多层融合迭代,每一层中从视频向文本特征序列的融合处理步骤如下:
5.根据权利要求3所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤2.2,生成ZV的过程如下式:
其中,是从视频特征到查询特征的映射矩阵,和是从文本特征序列到键值对的映射矩阵,是视频指导下多头跨模态注意力机制生成的融合表示,Wo'是视频指导下多头跨模态注意力机制的可训练矩阵,concat(·)是特征拼接操作,是视频指导下的多层交叉融合模块在每层最后的输出,i代表融合模块的层数,当i为最后一层数时,此时即为融合模块生成的ZV;
视频指导下交叉融合模块,每一层中从文本向视频特征序列的融合处理步骤如下:
6.根据权利要求3所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤3,具体步骤为:
步骤3.1:使用循环神经网络作为文本和视频重建器;将文本指导下多模态融合表示作为文本重建器的输入,生成重建文本特征序列Fret;将视频指导下多模态融合表示作为视频重建器的输入,生成重建视频特征序列Frev;并使重建文本特征序列Fret与文本特征序列Ft尽可能相似,使重建视频特征序列Frev与视频特征序列Fv尽可能相似;
步骤3.2:计算重建过程的损失函数,损失函数值越小,重建特征和源特征越相似,文本重建损失函数和视频重建损失函数表示如下:
其中Lret代表文本重建损失函数,Lrev代表视频重建损失函数,N代表训练时样本数目,ψ(·)代表特征距离计算函数。
7.根据权利要求1所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述层次化注意力执行两层融合操作,第一层融合如下所示:
CT=TextAttention(ZT,ht)
CV=VideoAttention(ZV,ht)
其中TextAttention(·)表示第一层层次化注意力中对ZT和摘要生成器在每个时间步的隐层向量ht的融合操作,CT表示对ZT和ht的融合结果,VideoAttention(·)表示第一层层次化注意力中对ZV和ht的融合操作,CV表示对ZV和ht的融合结果;
第二层融合如下所示:
CF=FusionAttention(CT,CV,ht)
=softmax(Wt(W1CT+W2ht)CT)+softmax(Wv(W3CV+W4ht)CV)
其中FusionAttention(·)表示第二层层次化注意力中对上一层融合表示CT、CV和ht的融合操作,CF表示第二层融合操作结果,W1、W2、W3、W4、Wt、Wv是第二层融合操作中可学习参数。
8.根据权利要求7所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述摘要生成器,如下所示:
yt+1=FD(CF,yt,ht)
其中FD(·)表示摘要生成器,yt表示已经生成的摘要分布,yt+1表示即将生成的摘要分布,t表示生成摘要中第t个字符。
10.根据权利要求1所述基于交叉融合和重建的多模态生成式摘要获取方法,其特征在于,所述步骤5,对于文本编码器和文本指导下交叉融合模块,使用文本重建损失函数Lret和生成损失函数Lgen之和作为训练时损失函数;对于视频指导下交叉融合模块,使用视频重建损失函数Lrev和生成损失函数Lgen之和作为训练时损失函数;对于文本重建器、视频重建器和摘要生成器,分别使用文本重建损失Lret、视频重建损失Lrev和生成摘要损失Lgen各自作为训练时损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211084950.8A CN115544244B (zh) | 2022-09-06 | 2022-09-06 | 一种基于交叉融合和重建的多模态生成式摘要获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211084950.8A CN115544244B (zh) | 2022-09-06 | 2022-09-06 | 一种基于交叉融合和重建的多模态生成式摘要获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115544244A true CN115544244A (zh) | 2022-12-30 |
CN115544244B CN115544244B (zh) | 2023-11-17 |
Family
ID=84725580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211084950.8A Active CN115544244B (zh) | 2022-09-06 | 2022-09-06 | 一种基于交叉融合和重建的多模态生成式摘要获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115544244B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646094A (zh) * | 2013-12-18 | 2014-03-19 | 上海紫竹数字创意港有限公司 | 实现视听类产品内容摘要自动提取生成的系统及方法 |
CN110110140A (zh) * | 2019-04-19 | 2019-08-09 | 天津大学 | 基于注意力扩展编解码网络的视频摘要方法 |
CN112417134A (zh) * | 2020-10-30 | 2021-02-26 | 同济大学 | 基于语音文本深度融合特征的摘要自动生成系统及方法 |
CN113052149A (zh) * | 2021-05-20 | 2021-06-29 | 平安科技(深圳)有限公司 | 视频摘要生成方法、装置、计算机设备及介质 |
CN113468854A (zh) * | 2021-06-24 | 2021-10-01 | 浙江华巽科技有限公司 | 一种多文档自动摘要生成方法 |
CN114398889A (zh) * | 2022-01-18 | 2022-04-26 | 平安科技(深圳)有限公司 | 基于多模态模型的视频文本摘要方法、设备及存储介质 |
WO2022101515A1 (en) * | 2020-11-16 | 2022-05-19 | UMNAI Limited | Method for an explainable autoencoder and an explainable generative adversarial network |
CN114691907A (zh) * | 2022-05-31 | 2022-07-01 | 上海蜜度信息技术有限公司 | 一种跨模态检索的方法、设备及介质 |
US20220237368A1 (en) * | 2021-01-22 | 2022-07-28 | Bao Tran | Systems and methods for machine content generation |
-
2022
- 2022-09-06 CN CN202211084950.8A patent/CN115544244B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646094A (zh) * | 2013-12-18 | 2014-03-19 | 上海紫竹数字创意港有限公司 | 实现视听类产品内容摘要自动提取生成的系统及方法 |
CN110110140A (zh) * | 2019-04-19 | 2019-08-09 | 天津大学 | 基于注意力扩展编解码网络的视频摘要方法 |
CN112417134A (zh) * | 2020-10-30 | 2021-02-26 | 同济大学 | 基于语音文本深度融合特征的摘要自动生成系统及方法 |
WO2022101515A1 (en) * | 2020-11-16 | 2022-05-19 | UMNAI Limited | Method for an explainable autoencoder and an explainable generative adversarial network |
US20220237368A1 (en) * | 2021-01-22 | 2022-07-28 | Bao Tran | Systems and methods for machine content generation |
CN113052149A (zh) * | 2021-05-20 | 2021-06-29 | 平安科技(深圳)有限公司 | 视频摘要生成方法、装置、计算机设备及介质 |
CN113468854A (zh) * | 2021-06-24 | 2021-10-01 | 浙江华巽科技有限公司 | 一种多文档自动摘要生成方法 |
CN114398889A (zh) * | 2022-01-18 | 2022-04-26 | 平安科技(深圳)有限公司 | 基于多模态模型的视频文本摘要方法、设备及存储介质 |
CN114691907A (zh) * | 2022-05-31 | 2022-07-01 | 上海蜜度信息技术有限公司 | 一种跨模态检索的方法、设备及介质 |
Non-Patent Citations (2)
Title |
---|
HUSAIN, M 等: "Multimodal Fusion of Speech and Text using Semi-supervised LDA for Indexing Lecture Videos", 2019 25TH NATIONAL CONFERENCE ON COMMUNICATIONS (NCC), pages 1 - 6 * |
王蝶: "基于注意力机制的多模态融合技术研究", 中国优秀硕士学位论文全文数据库 (信息科技辑), pages 140 - 618 * |
Also Published As
Publication number | Publication date |
---|---|
CN115544244B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Multimodal transformer with multi-view visual representation for image captioning | |
Xu et al. | Multi-interactive memory network for aspect based multimodal sentiment analysis | |
Pei et al. | Memory-attended recurrent network for video captioning | |
Pu et al. | Boosting continuous sign language recognition via cross modality augmentation | |
Ye et al. | Evaluating two-stream CNN for video classification | |
Jang et al. | Video question answering with spatio-temporal reasoning | |
Luo et al. | Semantic-conditional diffusion networks for image captioning | |
Anderson et al. | Partially-supervised image captioning | |
Islam et al. | Exploring video captioning techniques: A comprehensive survey on deep learning methods | |
CN113423004B (zh) | 基于解耦译码的视频字幕生成方法和系统 | |
Che et al. | Visual relationship embedding network for image paragraph generation | |
Tian et al. | An attempt towards interpretable audio-visual video captioning | |
Wang et al. | A text-guided generation and refinement model for image captioning | |
CN117496388A (zh) | 基于动态记忆网络的跨模态视频描述模型 | |
Liang et al. | CPGAN: full-spectrum content-parsing generative adversarial networks for text-to-image synthesis | |
Jing et al. | Memory-based augmentation network for video captioning | |
Ji et al. | Relation constraint self-attention for image captioning | |
Niu et al. | A multi-layer memory sharing network for video captioning | |
Peng et al. | Show and tell in the loop: Cross-modal circular correlation learning | |
Song et al. | Exploring explicit and implicit visual relationships for image captioning | |
Toshevska et al. | Exploration into deep learning text generation architectures for dense image captioning | |
Biswas et al. | Image Descriptor Generator using encoder-decoder model | |
CN115544244A (zh) | 一种基于交叉融合和重建的多模态生成式摘要获取方法 | |
Hammad et al. | Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models | |
Qin et al. | Towards complex scenarios: Building end-to-end task-oriented dialogue system across multiple knowledge bases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |