CN114154587A

CN114154587A - 一种基于互补内容感知的多模态事件检测方法

Info

Publication number: CN114154587A
Application number: CN202111503622.2A
Authority: CN
Inventors: 李伟欣; 李建凯; 王蕴红
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-08
Anticipated expiration: 2041-12-10

Abstract

本发明涉及多模态处理技术领域，提供了一种基于互补内容感知的多模态事件检测方法。该方法包括：将经过预处理的包括图像和文本的多模态数据集，随机划分成训练集和验证集；采用图像编码器和文本编码器提取图像和文本的特征，构建多模态图结构；基于多模态图结构，构建多模态事件检测模型；通过多模态事件检测模型损失函数和反向传播算法训练多模态事件检测；将多模态图结构输入至目标多模态事件检测模型，获得多模态事件检测结果。本发明的方案，拓展了多模态事件检测的思路，提高了事件检测的效果，弥补了复杂多模态关系建模不充分的缺陷。

Description

一种基于互补内容感知的多模态事件检测方法

技术领域

本发明涉及多模态处理技术领域，尤其涉及一种基于互补内容感知的多模态事件检测方法。

背景技术

多模态事件检测是指从连续的语料库(例如社交媒体)中自动识别已知事件或未知事件的过程。对于给定的图像和文本，多模态事件检测通过联合挖掘其包含的内容，检测数据所属的事件。由于多模态事件检测可以及时在互联网数据中发现新事件，所以其在应对和处理紧急事件，自动化处理和归类热点新闻以方便人们分析和查阅等方面至关重要。

传统的事件检测技术主要包括基于概率图的文本事件检测方法，基于早期特征拼接和晚期投票的多模态融合方法。基于概率图的文本事件检测方法较为依赖单词频率的统计，忽略了单词之间的联系并且不适用于同时包含图像和文本的数据。基于早期特征拼接的多模态融合方法主要依赖特征提取器对输入的图像和文本特征提取，然后将得到的特征向量拼接后送入指定的分类器判断其所属事件类别。而基于晚期投票的多模态融合方法则是先分别对输入的图像和文本分类，然后综合考虑两者的预测结果，采用投票的方法决定多模态数据所属的事件类别。以上两类基于多模态融合的方法较为简单，没有考虑多模态数据之间的语义联系，所以并不能有效地挖掘多模态的互补信息检测事件。

近年来，深度学习在事件检测领域展现了令人惊喜的前景。亓帆等人于2020年提出一种多模态编码器，将图像和文本编码到同一特征空间，并施加模态内的约束，使隶属同一事件的数据在特征空间内更紧凑。然而，由于缺少对图像和文本语义的建模，这些基于将多模态特征映射到相同空间的方法无法有效利用图像和文本的互补语义检测事件。MahdiAbavisani等人于2020年提出一种基于跨模态注意力的模型，通过抑制模态间负面信息的传递，保留模态间互补信息的方式融合图像和文本数据以检测事件，证明对跨模态的互补语义建模能够有效地识别出图像和文本语义互补的事件。但是这种仅基于多模态融合的方法忽略了同模态之间上下文的信息。在多组多模态数据中，不同组多模态数据对同一个事件描述的视角和内容各不相同，利用这些多视角描述的内容能够得到事件更精确的表示。更具有挑战性的是，在多模态数据中，图像和文本并不总是成对出现，一段文字对应多张图像和一张图像对应多段文本的情况时有发生，而基于深度学习的方法仅针对成对的图像和文本数据建模，并未对多张图像对应多段文字的情况进行研究，无法应对实际场景中图像和文本多对多关系的需求。

因此，挖掘图像和文本的互补信息，引入同模态的上下文和对图像和文本多对多的关联建模能够有效提升多模态事件检测的性能。

发明内容

有鉴于此，本发明提供了一种基于互补内容感知的多模态事件检测方法，以解决现有技术中没有考虑多模态数据之间的语义联系，不能有效地挖掘多模态的互补信息检测事件的问题。

本发明提供了一种基于互补内容感知的多模态事件检测方法，包括：

S1将经过预处理的包括图像和文本的多模态数据集，随机划分成训练集和验证集；

S2基于所述训练集和验证集，采用图像编码器和文本编码器提取图像和文本的特征，构建多模态图结构；

S3基于所述多模态图结构，构建多模态事件检测模型；

S4通过所述多模态事件检测模型的损失函数和反向传播算法训练所述多模态事件检测模型，获得目标多模态事件检测模型；

S5将所述多模态图结构输入至所述目标多模态事件检测模型，获得多模态事件检测结果。

进一步地，所述S2，包括：

基于所述训练集和验证集，采用图像编码器和文本编码器提取图像和文本的特征；

将每个图像或文本看作节点，通过同模态特征之间的相似程度及K近邻算法构建同模态连接的边，通过所述图像和文本之间同时出现的关联关系构建跨模态连接的边；

基于所述同模态连接的边和所述跨模态连接的边，构建多模态图结构。

进一步地，所述S3，包括：

基于所述多模态图结构，上下文建模部分利用预先构建的所述同模态连接的边连接，并提取同模态数据之间的上下文信息，对多模态图中的数据给予同模态的信息补充；

基于所述多模态图结构，跨模态互补信息传播部分利用预先构建的跨模态连接的边连接，并提取互补的跨模态语义信息，对所述多模态图中的数据给予跨模态的信息补充；

基于所述多模态图中的数据给予同模态的信息补充、所述多模态图中的数据给予跨模态的信息补充构成所述多模态事件检测模型。

进一步地，所述上下文建模部分上下文建模部分的构建，包括：

通道注意力模块接收节点特征和所述上下文信息，并计算所述节点特征和所述上下文信息每个通道之间的注意力；

通过对所述节点特征和所述上下文信息的每个通道的注意力打分，获得所述节点特征和所述上下文信息融合特征的结果，并基于所述节点特征和所述上下文信息融合特征的结果，构建所述上下文建模部分；

所述上下文信息和所述上下文信息每个通道之间的注意力的计算式分别如下：

S_contextual＝AH

其中，A表示图像或者是文本的单模态图的邻接矩阵，H表示所拥有节点

对应的特征矩阵，

表示节点特征和上下文信息每个通道之间的注意力，

是节点特征，

是上下文特征，σ表示Sigmoid激活函数，W₁和W₂表示维度映射操作，

表示偏置向量。

进一步地，所述跨模态互补信息传播部分的构建，包括：

设定基于所述节点特征计算，获得所述同模态的两个节点之间的相似度；

基于所述节点特征的传播，获得跨模态节点之间相似度的传播，并基于所述跨模态节点之间相似度的传播，构建所述跨模态互补信息传播部分。

进一步地，所述上下文信息和所述节点融合特征的结果的计算式如下：

其中，

通道注意力模块接收节点特征，y表示输入上下文信息，W₁和W₂表示维度映射操作，

是偏置向量，

表示融合特征的结果，⊙表示逐元素乘法。

进一步地，所述跨模态互补信息传播部分的构建，包括：

进一步地，所述跨模态节点之间相似度的传播的近似表达式如下：

其中，

代表图像模态中第i个节点的特征，

表示文本模态中第j个节点的特征，⊙表示逐元素乘法，

和

表示相似度传播的参数，W_α,1,W_α,2,

W_β,1,W_β,2,

表示可学习的参数，z_i,x和z′_j,y是矩阵Z和Z^T的第(i,x)和第(j,y)个元素，矩阵

表示图像到文本的联系矩阵，

为Z的转置表示文本到图像的联系矩阵，l表示相似度传播迭代的次数，起始值为1，

和

分别表示第x个文本数据和第y个图像数据在第l-1轮迭代的表示。z_i,x和z′_j,y分别表示关联矩阵Z的第(i,x)个元素和Z^T的第(j,y)个元素，若(i,x)或(j,y)相关联，则其值为1，否则为0。

进一步地，所述S4，包括：

设置模型损失函数，采用反向传播算法，迭代更新优化多模态事件检测模型参数；

采用所述训练集训练多模态事件检测模型，直至所述多模态事件检测模型在所述验证集的损失区域收敛时，获得目标多模态事件检测模型。

进一步地，所述模型损失函数，采用的是交叉熵损失函数。

进一步地，所述交叉熵损失函数，同时计算图像和文本预测结果与目标结果之间的损失以及所述图像和文本预测结果与目标结果之间的损失平均值，其中，损失平均值的计算式如下：

其中，N表示图像或文本的个数，y_ic表示第i个图像数据的标签，当第i个图像数据标签为c时，y_ic为1，否则y_ic为0，M为标签的个数，p_ic为多模态事件检测方法预测第i个图像数据标签为c的置信度；y_jc表示第j个文本数据的标签，当第j个文本数据标签为c时，y_jc为1，否则y_jc为0，M为标签的个数，p_jc为多模态事件检测方法预测第j个文本数据标签为c的置信度；

和

分别为图像，文本和多模态事件检测方法的损失。

本发明与现有技术相比存在的有益效果是：

1.本发明提出了基于互补内容感知的多模态事件检测方法，弥补了现有算法对跨模态和上下文互补信息建模不充分的缺陷，拓展了多模态事件检测的思路。

2.本发明提出基于通道注意力的图神经网络建模同模态的上下文信息，这使得图像或文本能够从其同模态的其他数据中获得上下文信息的补充，提高了事件检测的效果。

3.本发明提出了一种基于深度学习的信息传播机制，用于处理图像和文本一对多、多对多的情况，弥补了现有算法对于复杂多模态关系建模不充分的缺陷，适用范围更广。

附图说明

为了更清楚地说明本发明中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明提供的一种基于互补内容感知的多模态事件检测方法的流程图；

图2是本发明提供的构建多模态图结构的流程图；

图3是本发明提供的获得目标多模态事件检测模型的流程图；

图4为基于互补内容感知的多模态事件检测方法流程示意图；

图5是本发明提供的构建多模态结构过程示意图；

图6是本发明提供的模型架构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

下面将结合附图详细说明根据本发明的一种基于互补内容感知的多模态事件检测方法。

图1是本发明公开提供的一种基于互补内容感知的多模态事件检测方法的流程图。

如图1所示，该多模态时间检测方法包括：

S1，将经过预处理的包括图像和文本的多模态数据集，随机划分成训练集和验证集。

将数据集中图像和文本进行预处理，并将包含图像和文本经过预处理的数据集随机分为训练集和验证集。本发明选取多模态事件检测Twitter数据集和多模态事件检测Flicker数据集为验证集。选取上述两个数据集是基于其数据规模大，覆盖全的特点。

S2，基于训练集和验证集，采用图像编码器和文本编码器提取图像和文本的特征，构建多模态图结构。

图2是本发明实施例提供的构建多模态图结构的流程图。

如图2所示，S2包括：

S21，基于训练集和验证集，采用图像编码器和文本编码器提取图像和文本的特征；

S22，将每个图像或文本看作节点，通过同模态特征之间的相似程度及K近邻算法构建同模态连接的边，通过图像和文本之间同时出现的关联关系构建跨模态连接的边；

将每个图像或文本看作节点，S22中同模态连接通过余弦相似度估计样本之间的相似程度，通过K近邻算法选择每个节点相似程度最大的K个同模态内的节点构建同模态连接的边。

S23，基于同模态连接的边和跨模态连接的边，构建多模态图结构。

S3，基于多模态图结构，构建多模态事件检测模型。

基于多模态图结构，上下文建模部分利用预先构建的同模态连接的边连接，并提取同模态数据之间的上下文信息，对多模态图中的数据给予同模态的信息补充。

S31，上下文建模部分的构建，包括：

通道注意力模块接收节点特征和上下文信息，并计算节点特征和上下文信息每个通道之间的注意力；

通过对节点特征和上下文信息的每个通道的注意力打分，获得节点特征和上下文信息融合特征的结果，并基于节点特征和上下文信息融合特征的结果，构建上下文建模部分。

上下文建模部分上下文信息的计算式与节点特征和上下文信息每个通道之间的注意力的计算式分别如下：

S_contextual＝AH

其中，A表示图像或者是文本的单模态图的邻接矩阵，H所拥有节点对应的特征矩阵，

表示节点特征和上下文信息每个通道之间的注意力，

是节点特征，

表示偏置向量。

上下文信息和节点融合特征的结果的计算式如下：

其中，

通道注意力模块接收节点特征，

表示输入上下文信息，W₁和W₂表示维度映射操作，

是偏置向量，

表示融合特征的结果，⊙表示逐元素乘法。

S32，基于多模态图结构，跨模态互补信息传播部分利用预先构建的跨模态连接的边连接，并提取互补的跨模态语义信息，对多模态图中的数据给予跨模态的信息补充；

跨模态互补信息传播部分的构建，包括：

设定基于节点特征计算，获得同模态的两个节点之间的相似度；

基于节点特征的传播，获得跨模态节点之间相似度的传播，并基于跨模态节点之间相似度的传播，构建跨模态互补信息传播部分。

跨模态的跨模态互补信息传播部分用于提取跨模态语义信息，并建模多对多的图像与文本之间的关系。该部分是传统相似度传播到深度学习领域的拓展。对于输入的图像和文本模态的相似度矩阵

和

传统相似度传播通过图像和文本之间的关联矩阵传递模态内的相似度信息并迭代l次，这使同模态内相似的节点在另一模态内更相似，在同模态不相似的节点在另一模态的相似度距离更远。其具体公式如下：

P^(l)＝αP⁽⁰⁾+(1-α)λZQ^(l-1)Z^T,

Q^(l)＝βQ⁽⁰⁾+(1-β)λZ^TP^(l-1)Z,

这里

表示图像到文本的关联矩阵，

为Z的转置表示文本到图像的关联矩阵，α,β和γ为相似度传播的参数。

此处使用矩阵内元素替换原始方程中P,Q可更好地观察每个相似度的变化。注意，l代表相似度传播的迭代次数，这意味着两个节点之间的相似度仅取决于距离最大l步的节点。此处可通过堆叠多个下述等式获得与传统相似度传播一致的结果：

其中，p_i,j是矩阵P的第(i,j)个元素，q_i,j是矩阵Q的第(i,j)个元素。同理，z_i,x和z′_i,x是矩阵Z和Z^T的第(i,x)个元素。此处假设同一模态的两个节点之间的相似度可由其特征计算得出。由此，相似度的传播可推广为节点特征的传播。

跨模态节点之间相似度的传播的近似表达式如下：

其中，

代表图像模态中第i个节点的特征，

表示文本模态中第j个节点的特征，⊙表示逐元素乘法，

和

表示相似度传播的参数，W_α,1,W_α,2,

W_β,1,W_β,2,

表示图像到文本的联系矩阵，

为Z的转置表示文本到图像的联系矩阵，l表示相似度传播迭代的次数，起始值为1。

和

为了防止训练过程中的梯度消失或梯度爆炸现象，此处使用动态的Mean Pooling取代λ。由此，相似度传播的深度拓展版可以通过交替堆叠上式和激活函数构建。本发明使用门控模块计算

和

防止传递跨模态的噪声，保持图像和文本特征传递的互补性。

S33，基于多模态图中的数据给予同模态的信息补充、多模态图中的数据给予跨模态的信息补充构成多模态事件检测模型。

S4，通过多模态事件检测模型的损失函数和反向传播算法训练多模态事件检测模型，获得目标多模态事件检测模型。

图3是本发明提供的获得目标多模态事件检测模型的流程图。

如图3所示，S3包括：

S41，设置模型损失函数，采用反向传播算法，迭代更新优化多模态事件检测模型参数。

其中，模型损失函数，采用的是交叉熵损失函数。

交叉熵损失函数，会同时计算图像和文本预测结果与目标结果之间的损失以及图像和文本预测结果与目标结果之间的损失平均值，其中，损失平均值的计算式如下：

和

分别为图像，文本和多模态事件检测方法的损失。

S42，采用训练集训练多模态事件检测模型，直至多模态事件检测模型在验证集的损失区域收敛时，获得目标多模态事件检测模型。

S5，将多模态图结构输入至目标多模态事件检测模型，获得多模态事件检测结果。

将待测试和评估的多模态数据依照步骤S1和S2构建多模态图，将得到的多模态图结构输入到训练所得模型中，模型输出结果即为多模态事件检测结果。

模型训练完成，进行多模态事件检测以验证模型性能，预处理用于测试的图像和文本对并构建多模态图结构，然后将多模态图结构输入训练所得模型中，通过优化迭代之后，模型共训练完成设定数量的轮数，最终报告在测试集表现最好的模型的结果，即获得多模态事件检测结果。

实施例1

本发明的一种具体实施方式如下，一种基于互补内容感知的多模态事件检测方法，其步骤为：

图4为基于互补内容感知的多模态事件检测方法流程示意图。

1.数据集准备。完成数据集选取，数据预处理和数据划分。

1.1本实例选取多模态事件检测Twitter数据集(CrisisMMD)和多模态事件检测Flicker数据集(SED2014)为验证发明的事件检测数据集。

1.2数据预处理包括对图像增强，图像归一化和文本单词处理。具体地，图像增强包括调整大小、随机反转和随机裁剪等，本实例选取调整图像大小为256×256像素和50％概率随机水平反转两种增强方式。文本单词处理包括对大写字母小写化，替换文本中的网页链接为单词“link”。

1.3数据划分依据各数据集给定的标准划分。对于SED2014数据集，随机选取167,020对图像文本用于训练，32,7070对图像文本用于验证，32,799用于测试。对于CrisisMMD数据集，其包含两个多模态事件检测任务：Informativeness任务和HumanitarianCategorization任务。这些任务包含多种设定：

(1)设定A，数据集中只包含图像和文本对，且它们属于相同的事件，用于验证本发明在处理成对的多模态数据中的性能。此设定下Informativeness任务有7,876对图像文本用于训练，553对图像文本用于验证，2,821对图像文本用于测试；此设定下HumanitarianCategorization任务有1,352对图像文本用于训练，540对图像文本用于验证，1,467对图像文本用于测试。

(2)设定A+是在设定A基础上的拓展，用于验证本发明在处理图像和文本拥有复杂对应关系时的性能。此设定仅放宽了图像和文本的对应关系，即允许出现一段文本对应多张图像的情况。在此设定下，Informativeness任务有7,876段文本和8,785张图像用于训练，553段文本和601张图像用于验证，2,821段文本和3,163张图像用于测试；此设定下Humanitarian Categorization任务有1,352段文本和1,485张图像用于训练，540段文本和584张图像用于验证，1,467段文本和1,612张图像用于测试。

(3)设定B放宽了设定A中成对图像文本必须属于相同事件的限制，用于验证本发明在处理不一致的图像和文本数据的性能。此设定下Informativeness任务有12,680对图像文本用于训练，533对图像文本用于验证，2,821对图像文本用于测试。

(4)设定B+同样是在设定B基础上的拓展，同样放宽了图像和文本的对应关系。在此设定下，Informativeness任务有12,680段文本和14,310张图像用于训练，553段文本和626张图片用于验证，2,821段文本和3,161张图像用于测试。

2.构建多模态图结构。完成数据特征提取，建立节点的同模态关联和跨模态关联。

2.1数据集特征提取依据各数据集给定的标准提取。对于CrisisMMD数据集，使用在其训练集微调的DenseNet161和BERT分别提取图像特征和文本特征；对于SED2014数据集，使用预训练的DenseNet161和GloVe模型分别提取图像特征和文本特征。

2.2节点的同模态关联使用余弦相似度和K近邻的算法建立。具体建立方法已在发明内容中讨论，这里不再赘述。对于CrisisMMD数据集中的Informativeness任务，K设置为20；对于Humanitarian Categorization任务，K设置为15。对于SED2014数据集，K设置为15。

2.3跨模态关联使用原始图像和文本间关系建立。在CrisisMMD数据集中，存在一段文本对应多张图像的情况，此处建立文本和图像一对多的关联；在SED数据集中，文本和图像成对出现，此处建立文本和图像对应的关联。

图5是本发明实施例提供的构建多模态结构过程示意图。

3.设计多模态事件检测模型。如图5所示，多模态事件检测模型交替使用基于通道注意力的上下文建模部分和跨模态跨模态互补信息传播部分。具体的模型设计已在发明内容中讨论，这里不再赘述。

图6是本发明实施例提供的模型架构示意图。

4.设计模型训练损失，训练多模态事件检测模型。采用交叉熵损失对模型训练进行约束。具体的约束设计已在发明内容中讨论，这里不再赘述。采用反向传播算法更新优化网络参数权重，直至模型损失区域收敛。在本实例中，图像修复模型训练和评估均在Pytorch平台完成。模型被训练在单个NVIDIA GTX1080TI GPU(11GB)，batch size设置为32。使用学习率为2×10^-3的Adam优化器优化网络，模型共训练300轮，最终报告在测试集表现最好模型的结果。

5.模型训练完成，进行多模态事件检测，将构建好的多模态图结构输入训练所得模型中，模型输出结果即为检测结果。其中SED2014数据集的准确率为68.58％，Macro-F1为59.39，Weighted-F1为68.24。在CrisisMMD数据集中，模型在Informativeness任务的设定A准确率为90.93％，Macro-F1为89.63％，Weighted-F1为90.92％；设定A+准确率为91.17％，Macro-F1为89.87％，Weighted-F1为91.15％；设定B在图像上的准确率为83.55％，Macro-F1为83.41％，Weighted-F1为83.55％，在文本上的准去率为84.19％，Macro-F1为79.54％，Weighted-F1为84.05％；；设定B+在图像上的准确率为83.87％，Macro-F1为83.78％，Weighted-F1为83.90％，在文本上的准确率为84.62％，Macro-F1为79.67％，Weighted-F1为84.31％。模型在Humanitarian Categorization任务的设定A准确率为92.03％，Macro-F1为80.01％，Weighted-F1为91.93％；设定A+准确率为92.50％，Macro-F1为82.04％，Weighted-F1为92.38％。结果显示，利用本发明可以有效地完成多模态事件检测任务，且在图像和文本一对一，一对多的情况下表现良好。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。