CN115544244A

CN115544244A - 一种基于交叉融合和重建的多模态生成式摘要获取方法

Info

Publication number: CN115544244A
Application number: CN202211084950.8A
Authority: CN
Inventors: 云静; 袁静姝; 郑博飞; 焦磊; 刘利民
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-12-30
Anticipated expiration: 2042-09-06
Also published as: CN115544244B

Abstract

一种基于交叉融合和重建的多模态生成式摘要获取方法，从多模态摘要数据集中提取文本特征序列和视频特征序列，使用文本和视频指导下交叉融合模块，分别将一种模态的特征序列作为指导模态映射为查询特征，另一种模态的特征序列作为目标模态映射为键值对特征，捕捉模态间相关性高于设定值的一致性语义；经过迭代融合，生成文本和视频指导下多模态融合表示；使用文本和视频重建器得到文本和视频重建特征序列，并计算文本和视频重建损失；使用摘要生成器进行两层融合操作，输出摘要分布，并计算与参考摘要的生成损失；根据各损失，对各组件分别使用不同的损失函数组合，加强对模态间一致性和模态内互补语义的约束效果，提升生成摘要的准确性和丰富性。

Description

一种基于交叉融合和重建的多模态生成式摘要获取方法

技术领域

本发明属于人工智能技术领域，特别涉及一种基于交叉融合和重建的多模态生成式摘要获取方法。

背景技术

目前各种内容平台上的多模态数据如图文对、短视频内容与日俱增，使用者可以从各种途径发布、获取自己感兴趣的资讯。多模态数据的流行虽然可以提升用户的感官体验，而当大量形式复杂的信息不断从涌现时，其信息内容质量却参差不齐，此时更需要抓住重点信息或观点，不至于迷失在复杂的信息流中。多模态摘要旨在处理多模态输入数据，为其输出一段概括核心内容的文本或多模态摘要。多模态摘要任务能快速大批量总结各种复杂信息流，并为其保留关键信息，这将有助于快速掌握和自己更相关的事态发展，在信息过载的今天具有应用意义。

现有用单模态文本生成方法和多模态融合机制相结合的方法，其缺点是模型建模多模态关系时不够深入和全面，因此缺乏多模态一致性语义；并且现有技术忽略了单模态输入数据内重要的互补语义信息。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于交叉融合和重建的多模态生成式摘要获取方法，利用多层跨模态Transformer，对视频和文本序列数据彻底地进行深入的多模态融合操作，从而产生学习跨模态的一致性语义；而且通过基于RNN的特征重建器，生成从多模态融合表示到单模态数据的损失函数，约束多模态融合表示中保留互补性信息；使用基于层次化注意力的解码器，聚合融合多模态表示的语义信息，保证生成摘要的全面性和准确性；并且使用分离约束策略，组合视频、文本重建损失和生成损失，对不同模型组件使用不同损失组合，特别是保证模型能同时捕捉模态间的一致性和模态内的互补性语义，从而优化生成摘要结果。

为了实现上述目的，本发明采用的技术方案是：

一种基于交叉融合和重建的多模态生成式摘要获取方法，包括如下步骤：

步骤1，从多模态摘要数据集中提取文本特征序列和视频特征序列，其中所述文本特征序列使用文本编码器提取；

步骤2，使用文本指导下交叉融合模块和视频指导下交叉融合模块；每个交叉融合模块由多层跨模态Transformer实现，在每层融合迭代中，两种单模态数据即文本和视频，分别将一种模态的特征序列作为指导模态映射为查询特征，另一种模态的特征序列作为目标模态映射为键值对特征，然后通过跨模态注意力机制捕捉模态间相关性高于设定值的一致性语义；经过迭代融合，生成文本指导下多模态融合表示和视频指导下多模态融合表示；

步骤3，使用文本和视频重建器，以文本指导下多模态融合表示和视频指导下多模态融合表示作为输入，以相应的源输入单模态特征作为目标，得到文本重建特征序列和视频重建特征序列，并计算文本重建损失和视频重建损失；

步骤4，使用摘要生成器，首先利用层次化注意力，对文本指导下多模态融合表示和视频指导下多模态融合表示，分别与摘要生成器的隐层状态执行第一层融合操作得到两个融合结果，然后将得到的两个融合结果与摘要生成器的隐层状态执行第二层融合操作，得到第二层融合结果；将第二层融合结果送入摘要生成器，输出摘要分布，并计算与参考摘要的生成损失；

步骤5，根据文本重建损失、视频重建损失以及生成损失，对文本编码器、交叉融合模块、文本和视频重建器、摘要生成器分别使用不同的损失函数组合，以加强对模态间的一致性和模态内互补语义的约束效果，从而提升生成摘要的准确性和丰富性。

与现有技术相比，本发明针对多模态数据大量涌现时很难快速获取相关主题的现象，已经想要快速了解一个事件的关键信息，采用基于多层跨模态 Transformer的交叉融合模块，通过多层迭代融合视频和文本数据，得到两种融合的多模态表示，并将其用于重建源数据特征，约束交叉融合模块保留互补信息。最后通过融合摘要生成器，生成概率最高的词语组成句子，即为多模态数据的文本摘要。采用本发明，可极大程度上解决多模态生成式摘要缺乏模态间一致性信息和模态内互补信息的问题，提高为多模态数据获得生成式摘要的准确和全面性，为用户快速在多模态新闻信息中获取相关的信息作出贡献。

附图说明

图1是本发明整体流程示意图。

图2是本发明表1实施例中序号1的视频帧。

图3是本发明表1实施例中序号2的视频帧。

图4是本发明表1实施例中序号3的视频帧。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如前所述，现有摘要生成方法多采用单模态文本生成结合多模态融合机制的方法，显然这忽略了单模态输入数据内重要的互补语义信息，难以深入全面获取多模态关系，使得摘要生成不够全面、准确。

基于此，本发明提供了一种基于交叉融合和重建的多模态生成式摘要获取方法，其包括了用于提取文本和视频序列数据的上下文特征的面向单模态的编码方法，用于全面和深入建模多模态数据的相关性特征以保证准确捕获模态间一致性语义信息的基于多层跨模态Transformer的交叉融合法，用于在多模态融合表示内保留更多模态内的互补语义的特征级别的重建法，用于融合多模态表示，生成文本摘要，保证生成摘要能全面参考的多模态融合内的语义信息，同时计算摘要生成损失的融合摘要生成法，以及，用于在训练过程中对组件使用不同的损失函数组合，以保证模型能同时捕捉模态间一致性和模态内互补语义信息的分离约束策略。使得便于总结海量多模态数据重要信息；并且准确捕捉不同模态数据中重要的关联部分；并且保留单模态数据内重要的互补信息。从而实现了高效分析视频和文本的多模态生成式摘要获取，旨在快速在多模态数据中总结主题信息。

具体地，如图1所示，本发明包括如下步骤：

步骤1，从多模态摘要数据集中提取文本特征序列和视频特征序列。本发明的多模态摘要数据集中包含了文本模态数据和视频模态数据，也可仅由文本模态数据和视频模态数据组成。示例地，多模态摘要数据集可采用How2数据集。How2数据集是一个多模态的教学类数据集。数据集中包括视频模态数据，视频来自互联网教学类视频，包括大约22种话题，如体育、园艺等，视频平均时长为90秒。在实际数据集中视频已经过3D ResNeXt-101处理成特征序列。数据集中还包括文本模态数据，其中视频脚本是视频人物口语的英文文字版，作为本发明方法的源文本数据；还包括视频标题，由视频提交者填写的英文描述，作本发明方法的参考摘要。

其中，对于一般使用的多模态摘要数据集而言，视频已被数据集预处理为特征序列，而文本特征序列则可使用文本编码器提取获得。

具体地，在本步骤中，对于文本模态的源数据，使用one-hot将文本字符映射到向量空间，然后使用文本编码器来捕获字符间的上下文语义，即文本特征序列F_t。示例地，文本编码器可为基于Bi-RNN的文本编码器，此时，即文本特征序列F_t的计算公式如下：

F_t＝Enc(x_t,h_t-1)

其中Enc表示基于Bi-RNN的文本编码器，x_t表示当前one-hot编码后的字符向量，h_t-1表示基于Bi-RNN的文本编码器运行到第t-1个时间点的隐藏状态， F_t∈n×d_t，其中n表示输入的文本序列长度，d_t表示文本模态空间的维数。

对于视频模态的源数据，数据集提供者已使用预训练模型3D ResNeXt-101 处理视频(也可在未处理时自行处理)，每16个帧提取一段特征序列。然后得到提取后的视频特征F_v∈m×d_v，其中m表示视频特征序列的长度，d_v表示视频模态空间的维数。

步骤2，使用基于多层跨模态Transformer的交叉融合模块，将单模态的文本特征序列F_t和视频特征序列F_v映射到多模态特征空间。

本步骤中，交叉融合模块包括了文本指导下交叉融合模块和视频指导下交叉融合模块。每个交叉融合模块由多层跨模态Transformer实现，在每层融合迭代中，两种单模态数据(即文本和视频)分别将一种模态的特征序列作为指导模态映射为查询特征，另一种模态的特征序列作为目标模态映射为键值对特征，然后通过跨模态注意力机制捕捉模态间相关性高的一致性语义。交叉融合模块经过迭代融合，分别生成文本指导下多模态融合表示和视频指导下多模态融合表示。

具体地，在使用文本指导下交叉融合模块内，从视频特征序列F_v向文本特征序列F_t，经过多层融合迭代，生成文本指导下多模态融合表示Z_T。

生成Z_T的过程如下式：

其中Q_t是由文本特征序列F_t映射得到的查询特征，

是从F_t到Q_t的映射矩阵，K_v和V_v是由视频特征序列F_v映射得到的键-值对特征，

和

是从F_v到K_v和V_v的映射矩阵，CM(·)是文本指导下多头跨模态注意力机制，head_h指 CM(·)内每一个注意力头生成的融合表示，h代表注意力头的数量，softmax(·)用于计算融合结果的分布，

代表

的转置，d_k代表键值对的特征空间维度，

是CM(·)生成的文本指导下的融合表示，concat(·)代表特征拼接操作，W_o是CM(·)内可训练矩阵，FFN(·)是前馈神经网络层，

是文本指导下多层交叉融合模块在每层最后的输出，i代表融合模块的层数，当i为最后一层数时，此时

即为融合模块生成的Z_T。

文本指导下交叉融合模块进行多层融合迭代，每一层中从视频向文本特征序列的融合处理步骤如下：

(1)将文本特征序列F_t作为指导模态映射为查询特征Q_t，将视频特征序列F_v作为目标特征映射为键值对特征K_v V_v；如果不是第一层迭代，则将上一层迭代的输出

作为查询特征；

(2)使用文本指导下的多头跨模态注意力机制，在每个注意力头head_h上进行一次融合，每个注意力头生成将生成一个融合表示，然后将所有融合表示拼接送入全连接层，得到中间融合向量

(3)将

与查询特征Q_t进行残差连接并标准化，然后送入前馈神经网络层FFN(·)；

(4)将FFN(·)输出结果和

进行残差连接并标准化，得到一层输出的文本指导下多模态融合表示Z_T。

同样地，在视频指导下交叉融合模块内，从文本特征序列F_t向视频特征序列F_v，经过多层融合迭代，生成视频指导下多模态融合表示Z_V。

生成Z_V的过程如下式：

其中，

是从视频特征到查询特征的映射矩阵，

和

是从文本特征序列到键值对的映射矩阵。

是视频指导下多头跨模态注意力机制生成的融合表示，W_o'是视频指导下多头跨模态注意力机制的可训练矩阵，concat(·)是特征拼接操作，

是视频指导下的多层交叉融合模块在每层最后的输出，i代表融合模块的层数，当i为最后一层数时，此时

即为融合模块生成的Z_V；

视频指导下交叉融合模块，每一层中从文本向视频特征序列的融合处理步骤如下：

(1)将视频特征序列F_v作为指导模态映射为查询特征Q_t，将文本特征序列F_t作为目标特征映射为键值对特征K_v V_v；如果不是第一层迭代，则将上一层迭代的输出

作为查询特征；

(2)使用视频指导下的多头跨模态注意力机制，在每个注意力头head_h上进行一次融合，每个注意力头生成将生成一个融合表示，然后将所有融合表示拼接送入全连接层，得到中间融合向量

(3)将

(4)将FFN(·)输出结果和

进行残差连接并标准化，得到一层输出的文本指导下多模态融合表示

步骤3，使用文本和视频重建器，以文本指导下多模态融合表示和视频指导下多模态融合表示作为输入，以相应的源输入单模态特征作为目标，得到文本重建特征序列和视频重建特征序列，并计算文本重建损失和视频重建损失。

具体可描述如下：

步骤3.1：使用循环神经网络作为文本和视频重建器。将文本指导下多模态融合表示作为文本重建器的输入，生成重建文本特征序列F_ret；将视频指导下多模态融合表示作为视频重建器的输入，生成重建视频特征序列F_rev；并使重建文本特征序列F_ret与文本特征序列F_t尽可能相似，使重建视频特征序列F_rev与视频特征序列F_v尽可能相似。

步骤3.2：使用重建特征和源特征计算重建过程的损失函数，损失函数值越小，重建特征和源特征越相似。重建过程将拉近重建特征和源输入特征。文本重建损失函数和视频重建损失函数表示如下：

其中L_ret代表文本重建损失函数，L_rev代表视频重建损失函数，N代表训练时样本数目，ψ(·)代表特征距离计算函数。

步骤4，使用摘要生成器，首先利用层次化注意力，对文本指导下多模态融合表示和视频指导下多模态融合表示，分别与摘要生成器的隐层状态执行第一层融合操作得到两个融合结果，然后将得到的两个融合结果与摘要生成器的隐层状态执行第二层融合操作，得到第二层融合结果；将第二层融合结果送入摘要生成器，输出摘要分布，并计算与参考摘要的生成损失。

在本步骤中，层次化注意力执行两层融合操作，首先对交叉融合模块的输出做层次化注意力，即第一层融合如下所示：

C_T＝TextAttention(Z_T,h_t)

C_V＝VideoAttention(Z_V,h_t)

其中TextAttention(·)表示第一层层次化注意力中对Z_T和摘要生成器在每个时间步的隐层向量h_t的融合操作，C_T表示对Z_T和h_t的融合结果，VideoAttention(·)表示第一层层次化注意力中对Z_V和h_t的融合操作，C_V表示对Z_V和h_t的融合结果；

第二层融合如下所示：

C_F＝FusionAttention(C_T,C_V,h_t)

＝softmax(W_t(W₁C_T+W₂h_t)C_T)+softmax(W_v(W₃C_V+W₄h_t)C_V)

其中FusionAttention(·)表示第二层层次化注意力中对上一层融合表示C_T、C_V和h_t的融合操作，C_F表示第二层融合操作结果，W₁、W₂、W₃、W₄、W_t、W_v是第二层融合操作中可学习参数。

示例地，本发明的摘要生成器，如下所示：

y_t+1＝FD(C_F,y_t,h_t)

其中FD(·)表示摘要生成器，y_t表示已经生成的摘要分布，y_t+1表示即将生成的摘要分布，t表示生成摘要中第t个字符。

相应地，生成损失如下所示：

L_gen表示基于副对数似然函数的生成损失函数，P_v(·)表示摘要生成器接收已生成摘要分布y_t后生成的下一个字符概率。

在本步骤中，对于文本编码器和文本指导下交叉融合模块，使用文本重建损失函数L_ret和生成损失函数L_gen之和作为训练时损失函数；对于视频指导下交叉融合模块，使用视频重建损失函数L_rev和生成损失函数L_gen之和作为训练时损失函数；对于文本重建器、视频重建器和摘要生成器，分别使用文本重建损失 L_ret、视频重建损失L_rev和生成摘要损失L_gen各自作为训练时损失函数。

步骤5，使用分离约束方法，即根据文本重建损失、视频重建损失以及生成损失，在训练时对模型不同组件使用不同的损失函数组合，增强自适应的约束效果，特别是保证对交叉融合模块能同时捕捉模态间的一致性语义和模态内的互补性语义。

具体地，对于文本编码器和文本指导下交叉融合模块，使用文本重建损失函数L_ret和生成损失函数L_gen之和作为训练时损失函数；对于视频指导下交叉融合模块，使用视频重建损失函数L_rev和生成损失函数L_gen之和作为训练时损失函数；对于文本重建器、视频重建器和摘要生成器，分别使用文本重建损失L_ret、视频重建损失L_rev和生成摘要损失L_gen各自作为训练时损失函数。

在本发明的一个具体实施例中，硬件为一台计算机，配置包含硬件环境： GPU：6块16G_TESLA-P100_4096b_P_CAC；CPU：Intel Core处理器 (3.1GHz)/4.5GHz/8GT；内存：16根32G ECC Registered DDR4 2666；软件环境：操作系统：Ubantu 16.04；语言及开发环境：Python 3.6、Anaconda 3；深度学习框架：Tensorflow。

本实施例以How2数据集的数据为分析对象，视频已经过预训练模型处理提取成视频特征序列，对文本数据经过基于RNN的文本编码器得到文本序列特则会那个，然后将文本特征序列和视频特征序列送入交叉融合模块，分别在基于多层跨模态Transformer内作为指导特征，经过多层融合迭代得到文本和视频指导下多模态融合表示，使用层次化融合提取多模态融合表示的语义信息，得到融合向量再送入摘要生成器，经过多时间步生成摘要的分布，从分布中采样得到概率比较大的文本，得出最后总结视频和文本内容的文本摘要。

表1为文本与视频两种模态的部分示意，如下：

表1

对表1所示的数据集进行特征提取、多模态融合及生成最终文本摘要的结果如下表2所示：

表2

由表2数据集自带的参考摘要与实际输出的摘要对比，可以看出，通过本发明生成的摘要和参考摘要大部分重点词语一致。

Claims

1.一种基于交叉融合和重建的多模态生成式摘要获取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于交叉融合和重建的多模态生成式摘要获取方法，其特征在于，所述步骤1，对于文本模态的源数据，使用one-hot将文本字符映射到向量空间，然后使用基于Bi-RNN的文本编码器捕获字符间的上下文语义即文本特征序列F_t：

F_t＝Enc(x_t,h_t-1)

其中Enc表示基于Bi-RNN的文本编码器，x_t表示当前one-hot编码后的字符向量，h_t-1表示基于Bi-RNN的文本编码器运行到第t-1个时间点的隐藏状态，F_t∈n×d_t，其中n表示输入的文本序列长度，d_t表示文本模态空间的维数；

对于视频模态的源数据，使用预训练模型3D ResNeXt-101处理视频，每16个帧提取一段特征序列，得到提取后的视频特征序列F_v∈m×d_v，其中m表示视频特征序列的长度，d_v表示视频模态空间的维数。

3.根据权利要求2所述基于交叉融合和重建的多模态生成式摘要获取方法，其特征在于，所述步骤2具体步骤为：

步骤2.1：使用文本指导下交叉融合模块，在模块内从视频特征序列F_v向文本特征序列F_t，经过多层融合迭代，生成文本指导下多模态融合表示Z_T；

步骤2.2：使用视频指导下交叉融合模块，在模块内从文本特征序列F_t向视频特征序列F_v，经过多层融合迭代，生成视频指导下多模态融合表示Z_V。

4.根据权利要求3所述基于交叉融合和重建的多模态生成式摘要获取方法，其特征在于，所述步骤2.1，生成Z_T的过程如下式：

其中Q_t是由文本特征序列F_t映射得到的查询特征，

和

是从F_v到K_v和V_v的映射矩阵，CM(·)是文本指导下多头跨模态注意力机制，head_h指CM(·)内每一个注意力头生成的融合表示，h代表注意力头的数量，softmax(·)用于计算融合结果的分布，

代表K_v

F_v的转置，d_k代表键值对的特征空间维度，

即为融合模块生成的Z_T；

作为查询特征；

(3)将

(4)将FFN(·)输出结果和

5.根据权利要求3所述基于交叉融合和重建的多模态生成式摘要获取方法，其特征在于，所述步骤2.2，生成Z_V的过程如下式：

其中，

是从视频特征到查询特征的映射矩阵，

和

是从文本特征序列到键值对的映射矩阵，

即为融合模块生成的Z_V；

作为查询特征；

(3)将

(4)将FFN(·)输出结果和

6.根据权利要求3所述基于交叉融合和重建的多模态生成式摘要获取方法，其特征在于，所述步骤3，具体步骤为：

步骤3.1：使用循环神经网络作为文本和视频重建器；将文本指导下多模态融合表示作为文本重建器的输入，生成重建文本特征序列F_ret；将视频指导下多模态融合表示作为视频重建器的输入，生成重建视频特征序列F_rev；并使重建文本特征序列F_ret与文本特征序列F_t尽可能相似，使重建视频特征序列F_rev与视频特征序列F_v尽可能相似；

步骤3.2：计算重建过程的损失函数，损失函数值越小，重建特征和源特征越相似，文本重建损失函数和视频重建损失函数表示如下：

7.根据权利要求1所述基于交叉融合和重建的多模态生成式摘要获取方法，其特征在于，所述层次化注意力执行两层融合操作，第一层融合如下所示：

C_T＝TextAttention(Z_T,h_t)

C_V＝VideoAttention(Z_V,h_t)

第二层融合如下所示：

C_F＝FusionAttention(C_T,C_V,h_t)

＝softmax(W_t(W₁C_T+W₂h_t)C_T)+softmax(W_v(W₃C_V+W₄h_t)C_V)

8.根据权利要求7所述基于交叉融合和重建的多模态生成式摘要获取方法，其特征在于，所述摘要生成器，如下所示：

y_t+1＝FD(C_F,y_t,h_t)

9.根据权利要求7所述基于交叉融合和重建的多模态生成式摘要获取方法，其特征在于，所述生成损失，如下所示：

10.根据权利要求1所述基于交叉融合和重建的多模态生成式摘要获取方法，其特征在于，所述步骤5，对于文本编码器和文本指导下交叉融合模块，使用文本重建损失函数L_ret和生成损失函数L_gen之和作为训练时损失函数；对于视频指导下交叉融合模块，使用视频重建损失函数L_rev和生成损失函数L_gen之和作为训练时损失函数；对于文本重建器、视频重建器和摘要生成器，分别使用文本重建损失L_ret、视频重建损失L_rev和生成摘要损失L_gen各自作为训练时损失函数。