CN117037017A

CN117037017A - 一种基于关键帧擦除的视频情感检测方法

Info

Publication number: CN117037017A
Application number: CN202310597187.7A
Authority: CN
Inventors: 杨巨峰; 张知诚
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-11-10

Abstract

本发明公开了一种基于关键帧擦除的视频情感检测方法，分别对包括视觉数据编码和音频数据编码的多模态数据进行初始特征提取；在视觉和音频两个模态内的时域贡献得分，提取鲁棒的单模态特征；计算视觉和音频特征之间的相关性，得到跨模态的时域贡献得分和基于注意力加权的音频特征，与单模态视觉特征融合形成增强后的视觉特征；以及得到增强后音频特征；利用融合的增强后跨模态视觉特征F”_v与音频特征F”_a完成视频情感的检测；筛选出给定视频的情感关键帧；得到最终的视频情感检测模型以进行检测。与现有技术相比，本发明通过对视频关键帧与非关键帧的显示建模并联合优化，提高了视频情感检测的效果。

Description

一种基于关键帧擦除的视频情感检测方法

技术领域

本发明属于深度学习、计算机视觉技术领域，特别是涉及一种视频情感检测方法。

背景技术

由于越来越多的人倾向于在社交网络上表达自己的观点，用户生成视频中的情绪的分析技术方法备受关注。视频情绪的自动检测可应用于各种领域，如在线内容过滤、态度识别和用户行为分析。

早期的技术主要集中在检测高度抽象的情感的计代表性特征，引入了许多包括用于识别情绪的ObjectBank和SentiBank的低级和中级特征，使用现有的检测器来学习各种高级语义特征。然而，该技术不适用于缺少所需辅助数据的实际应用情形。本领域还公开了简单地将多个视觉描述符与准语言音频特征相结合，用于视频片段的多模态情感分类的现有技术。

深度特征在预测视频中的情绪方面表现出了卓越的表现能力。现有技术也已经公开了提取帧级深度特征，然后使用离散傅立叶变换来获得用于重新检测情绪的核化特征。M3ER是一种基于学习的融合方法，旨在强调更可靠的特征并抑制其他特征。VAANet提出了第一个检测视频中情绪的深度框架，该框架包括三个注意力模块，用于自动捕捉最具鉴别力的关键帧并提取稳健的情绪表达。尽管上述方法在视频中的情绪识别方面取得了显著的改进，但它们只关注最主要的信息，而忽略了必要的上下文信息。

也就是说，上述现有技术方法主要集中在从视觉内容中提取关键帧，这些关键帧包含视频中预期表情的主要信息。然而，由于人类情感的固有特征即主观性和模糊性，导致所选择的“关键帧”可能无法准确地表达预期的情感。比如，一个女人收到礼物后哭了起来。视频级别的表情类别被人类标记为“惊喜”。而现有模型对关键帧(即“哭泣”相关的帧)给予了最多的关注，忽略了上下文(如“礼物”、“拥抱”)并导致了错误的预测。因此，关键帧可能导致有限的预测结果。尽管检测到的关键帧直接传达了大多数视频中的情绪，但不应忽视包含必要上下文的其他信息。这是因为上下文帧不仅可以为理解视频中的情绪提供补充信息，而且可以使模型更加鲁棒。由此可见，现有的视频情感检测方法主要关注于视频的关键帧中，希望通过挖掘其中的情感模式来隐式的学习特征，而这限制了编码情绪相关上下文内容的能力。此为本发明亟待解决的技术问题。

发明内容

基于上述现有技术，本发明提出了一种基于关键帧擦除的视频情感检测方法，通过对多模态情感关键帧进行建模，利用不同时间帧之间的模态内和跨模态关系来准确地选择关键帧，并迭代地擦除关键帧以鼓励模型同时关注包含互补信息的情感关键帧特征与上下文特征，将两种特征作为关键线索进行视频情感检测。

本发明利用以下技术方案实现：

一种基于关键帧擦除的视频情感检测方法，该方法包括以下步骤：

步骤1、使用图像和音频编码模型获得图像数据编码和音频数据编码，对包括视觉数据编码和音频数据编码的多模态数据进行初始特征提取；具体步骤如下：

步骤2、在视觉和音频两个模态内采用自注意力机制捕获模态内的时域长距关系，得到视觉和音频模态内的时域贡献得分，根据时域贡献得分加权初始特征，提取鲁棒的单模态特征；

步骤3、利用跨模态注意力机制计算视觉特征和音频特征之间的相关性，得到跨模态的时域贡献得分，根据视觉对音频的时域贡献得分得到基于注意力加权的音频特征，与单模态视觉特征融合形成增强后的视觉特征；以及，根据音频对视觉的时域贡献得分提取相应的增强后音频特征；

步骤4、分别采用拼接的方式融合所述步骤3输出的增强后跨模态视觉特征F″_v与音频特征F″_a，以及步骤2输出的单模态视觉特征F′_v与音频特征F′_a，将两者进行加和得到特征F_o，然后送入线性分类器，得到相应的情感激活值{a^k|k＝1，2，...，M}，M为情感类别的数量；进一步，根据softmax公式计算网络预测的输入视频属于第j类的概率，如下式所示：

得到模型预测的视频情感标签y_o＝{p^j|j＝1，2，...，M}，完成视频情感的检测；

步骤5、根据步骤2的模态内时域贡献得分和步骤3输出的跨模态时域贡献得分均超过阈值，筛选出给定视频的情感关键帧，提取特征被分为时间索引关键帧特征与非关键帧特征，进行关键帧擦除，将形成的新视频的片段再次输入到网络中，以找到更多关于视频中的多模态关键帧与非关键帧区域的互补信息；

步骤6、根据步骤5输出的视频关键帧与非关键帧区域，在网络训练阶段分别计算根据关键帧、非关键帧与整体视频进行检测而产生的损失，通过加和的方式进行联合优化，得到最终的视频情感检测模型以进行检测。

相比于传统的视频情感检测方法，本发明通过对视频关键帧与非关键帧的显示建模并联合优化，提高了视频情感检测的效果。

附图说明

图1是本发明的一种基于关键帧擦除的视频情感检测方法整体流程图；

图2是本发明设计的卷积神经网络架构图；

图3是现有方法与本发明的关键帧定位可视化结果比较图，(a)现有最优方法VAANet的定位结果，(b)仅采用视觉模态特征进行关键帧定位的结果，(c)采用本发明所提网络进行关键帧定位的结果，(d)人工标注的关键帧定位结果；

图4是本发明在Ekman6基准数据集上的情感识别结果与相应的关键帧定位可视化结果；

图5是本发明在VideoEmotion8基准数据集上的情感识别结果与相应的关键帧定位可视化结果；

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

有别于现有基于视觉模态的关键帧筛选策略，本发明的方法基于互补的多个情感模态特征进行筛选，提取视频关键帧。主要通过对多模态情感关键帧进行建模，利用不同时间帧之间的模态内和跨模态关系来准确地选择关键帧，并迭代地擦除关键帧以鼓励模型同时关注包含互补信息的情感关键帧特征与上下文特征，将两种特征作为关键线索进行视频情感检测。

如图1所示，是本发明的一种基于关键帧擦除的视频情感检测方法整体流程图，包括以下步骤：

步骤1、使用图像和音频编码模型获得图像数据编码和音频数据编码，分别对包括视觉数据编码和音频数据编码的多模态数据进行初始特征提取；具体步骤如下：

步骤1-1：视觉初始特征提取，具体过程为：将给定的视频l分割成等长度的T_v个视频片段，从每个片段中随机选择连续的帧，采用3D残差网络(3D ResNet-101)提取每个片段的视觉初始特征，所述3D残差网络网络以T_v个视频片段为输入，执行独立并行的视觉初始视频特征提取处理；将从给定视频l中提取的视觉初始特征表示为视觉初始特征矩阵表示为/>i表示视频片段的索引，H和W分别表示视觉特征图的高度和宽度，C表示任意模态特征矩阵的特征维度数，T为任意模态特征矩阵的时间长度，也就是视频的分段数；

步骤1-2：音频初始特征提取，具体过程为：将给定视频l通过MFCC(Mel FrequencyCepstral Coefficients)获得音频流的特征描述，依据音频流的特征描述符将给定视频l分割成T_a个音频片段，采用2D残差网络(2D ResNet-50)提取每个音频片段的用特征描述符来定义的初始音频特征，所述2D残差网络以T_a个视频片段为输入，执行独立并行的音频初始特征提取处理；将从给定视频l中提取的音频初始特征表示为音频初始特征矩阵表示为/>i表示视频片段的索引，H′和W′分别表示音频特征图的高度和宽度，C′表示音频特征的维度；

步骤2、采用模态内的时域特征提取方法，分别在视觉和音频两个模态内采用自注意力机制捕获模态内的时域长距关系，分别得到视觉和音频模态内的时域贡献得分，根据时域贡献得分加权初始特征，提取鲁棒的单模态特征；具体步骤如下：

步骤2-1：初始特征预处理，对于步骤1中得到的视觉初始特征F_v和音频初始特征F_a采用空间平均池化，池化处理后得到特征形状变化后的视频特征矩阵为F_v∈R^T×C和音频特征矩阵F_a∈R^T×C，从而得到任意模态特征F，任意模态特征的矩阵表示为F∈{F_v，F_a}；

单模态特征：该步骤内的公式1、2、3均为针对单一模态特征的处理。

步骤2-2：将步骤2-1得到的任意单模态特征F∈{F_v，F_a}嵌入三个子空间，然后计算不同片段的时间相关性矩阵S，如下式所示：

Q＝θ(F)，K＝φ(F)，V＝g(F)

其中，θ、g表示三个线性投影函数，Q，K，V∈R^T×C分别表示任意模态的查询(query)、键(key)与值(value)查询；

对于Q＝[q₁，q₂，...，q_T]，K＝[k₁，k₂，...，k_T]与V＝[v₁，v₂，...，v_T]。公式(1)中的S计算了任意时间段的特征相似性，包括[q₁，q₂，...，q_T]与[k₁，k₂，...，k_T]之间的任意两个。相比于时间卷积局限与邻域内的短时时域建模，通过该操作捕获时域长距关系。

通过时间相关性矩阵S融合值特征V得到融合后的特征Z，如下式所示：

Z＝S(Q，K)V (2)

其中，融合后的特征的矩阵表示为Z∈R^T×C，维度与任意模态特征F一致；

接下来在输入特征和融合特征之间添加了一个残差连接作为短路径，得到任意单模态增强特征F′，如下式所示：

F′＝F+W_zZ (3)

其中，W_z表示可学习的参数矩阵；

公式(3)表示加权过程，通过可学习的矩阵加权融合后的特征，作为加权初始特征。

任意模态增强特征F′包含增强后的视觉特征F′_v与音频特征F′_a；

步骤3、采用跨模态的时域特征提取方法，利用跨模态注意力机制计算视觉和音频特征之间的相关性，得到跨模态的时域贡献得分，根据视觉对音频的时域贡献得分，得到基于注意力加权的音频特征，与单模态视觉特征融合形成增强后的视觉特征；以及，根据音频对视觉的时域贡献得分提取相应的增强后音频特征，具体步骤如下：

步骤3-1、计算音频-视觉跨模态时间相关性矩阵S_a←v(Q_a，K_v)，如下式所示：

其中，C为任意模态特征矩阵的特征维度数，T为任意模态特征矩阵的时间长度，也就是视频的分段数，Q_a表示给定音频特征的查询，softmax()表示归一化指数函数，K_v表示给定视觉特征的键；

计算视觉-音频跨模态时间相关性矩阵，如下式所示：

其中，Q_v表示给定音频特征的查询，softmax()表示归一化指数函数，K_a表示给定视觉特征的键，C为任意模态特征矩阵的特征维度数，T为任意模态特征矩阵的时间长度，也就是视频的分段数；

进一步计算融合后视觉特征U_v和音频特征U_a，如下式所示：

U_v＝S_v←a(Q_v，K_a)V_a，U_a＝S_a←v(Q_a，K_v)V_v (6)

然后，在输入特征和跨模态融合特征之间添加了一个残差连接作为短路径，得到增强后跨模态视觉特征F″_v与音频特征F″_a；

F″_v＝F_v+W_vU_v，F″_a＝F_a+W_aU_a (7)；

步骤4、分别采用拼接的方式融合所述步骤3输出的增强后跨模态视觉特征F″_v与音频特征F″_a，以及步骤2输出的单模态视觉特征F′_v与音频特征F′_a，将两者进行加和得到特征F_o，然后送入线性分类器，得到相应的情感激活值{a^k|良＝1，2，...，M}，M为情感类别的数量；进一步，根据δoftmax公式计算网络预测的输入视频属于第j类的概率，如下式所示：

得到模型预测的视频情感标签y_o＝{pj|j＝1，2，...，M}，完成视频情感的检测；

步骤5、根据步骤2的模态内时域贡献得分和步骤3输出的跨模态时域贡献得分，筛选出给定视频的情感关键帧，视频由此被分为关键帧与非关键帧，提取的特征被分为时间索引关键帧特征与非关键帧特征；具体步骤如下：

步骤5-1、对步骤2输出的增强后模态内特征F′_v、F′_a和步骤3输出的增强后跨模态特征F″_v、F″_a采用注意力机制计算相应的时域贡献得分，如下式所示：。

A_v＝ReLU(W₂(W₁(F′_v+F″_v)^T)^T) (9)

A_a＝ReLU(W₂′(W₁′(F′_a+F″_a)^T)^T) (10)

其中，W₁，W₂，W′₁，W₂′表示可学习的权重矩阵，T为转置矩阵的操作；

时域贡献得分的矩阵表示为A_v，A_a∈R^T，是沿时间维度的时域贡献得分；

根据时域贡献得分以进一步定位视频关键帧；

步骤5-2、进行时域注意力归一化处理，即采用最大最小值归一化处理得到归一化的视觉模态的时域贡献得分归一化的音频模态的时域贡献得分/>如下式所增：

步骤5-3、进行时域关键帧定位，即采用阈值θ过滤来定位视觉和音频模态的关键帧，判据如下式所示：

该判据表示归一化的音频模态的时域贡献得分大于阈值θ且视觉模态的时域贡献得分/>大于阈值θ，定位为关键帧；其他情况，定位为非关键帧；θ为一个可以手动设置的超参数；

步骤5-4：迭代式地进行关键帧擦除，即根据擦除掩模擦除一些片段，剩下的片段形成一个新的视频，然后将新视频的片段再次输入到网络中，以迫使网络为视频情感识别找到更多的互补信息；

步骤6、根据步骤5的视频中的多模态关键帧与非关键帧区域，在网络训练阶段分别计算根据关键帧、非关键帧与整体视频进行检测而产生的损失，通过加和的方式进行联合优化，得到最终的视频情感检测模型以进行检测；该检测是在网络的推理阶段直接采用整体视频提取的多模态情感特征进行情感检测。

具体步骤如下：

步骤6-1：进行片段提取：根据步骤5得到的定位判据E将视频进行划分，提取关键帧的集合、非关键帧的集合、与原始视频，作为三个片段；以弱监督的方式从时间注意力模块中检测关键帧，考虑到除了关键帧之外的剩余帧可能是上下文帧，设计原始视频x_o、关键帧x_k和非关键帧x_l包括三个部分的损失函数；

步骤6-2：进行网络优化：给定一个训练集，使用交叉熵损失函数来优化网络，该损失函数定义如下：

其中，x_i表示训练集中的第i个视频，y_i∈{1，2，...，M}表示训练集中的第i个视频的单类情感标签，M表示情感类别的数量，p^j(x_i)表示网络预测的第i个输入视频x_i属于第j类的概率，如下式所示：

其中，表示网络最后一个完全连接层中的单元对输入视频x_i的激活值；

步骤6-3：联合优化：整体损失函数l实现联合优化，损失函数l如下式所示：

l＝l_ce(x_o，y)+l_ce(x_k，y)+l_ce(x_l，y)

其中，x_o,x_k,x_l分别表示原始视频、关键帧和剩余的非关键帧，y表示该视频的单类情感标签。

综上所述，本发明为了解决现有视频情感检测方法主要关注于视频的关键帧，限制了编码情绪相关上下文内容能力的问题，提出了一个跨模态关键帧擦除网络。通过对多模态情感关键帧进行建模，利用不同时间帧之间的模态内和跨模态关系来准确地选择关键帧，并迭代地擦除关键帧以鼓励模型同时关注包含互补信息的情感关键帧特征与上下文特征，将两种特征作为关键线索进行视频情感检测。

需要说明的是，尽管已经参照本发明的特定示例性实施例示出并描述了本发明，但是本领域技术人员应该理解，本发明并不局限于上述实施方式凡是对本发明的各种改变均落入本发明申请保护范围。本领域人员在没有作出创造性劳动前提下所获得的所有变形和组合，都属于本发明保护的范围。

Claims

1.一种基于关键帧擦除的视频情感检测方法，其特征在于，该方法包括以下步骤：

步骤4、分别采用拼接的方式融合所述步骤3输出的增强后跨模态视觉特征F″_v与音频特征F″_a，以及步骤2输出的单模态视觉特征F'_v与音频特征F'_a，将两者进行加和得到特征F_o，然后送入线性分类器，得到相应的情感激活值{a^k|k＝1,2,…,M}，M为情感类别的数量；进一步，根据softmax公式计算网络预测的输入视频属于第j类的概率，如下式所示：

得到模型预测的视频情感标签y_o＝{p^j|j＝1,2,…,M}，完成视频情感的检测；

2.如权利要求1所述的一种基于关键帧擦除的视频情感检测方法，其特征在于，其中，所述步骤1还进一步包括以下处理：

步骤1-1：视觉初始特征提取：将给定的视频l分割成等长度的T_v个视频片段，从每个片段中随机选择连续的帧，采用3D残差网络提取每个片段的视觉初始特征；

步骤1-2：音频初始特征提取：将给定视频l依据音频流的特征描述符将给定视频l分割成T_a个音频片段，采用2D残差网络提取每个音频片段的用特征描述符来定义的初始音频特征。

3.如权利要求1所述的一种基于关键帧擦除的视频情感检测方法，其特征在于，其中，所述步骤2还进一步包括以下处理：

步骤2-1：初始特征预处理，对于步骤1中得到的视觉初始特征F_v和音频初始特征F_a采用空间平均池化，池化处理后得到特征形状变化后的视频特征矩阵为F_v∈R^T×C和音频特征矩阵F_a∈R^T×C′，从而得到任意模态特征F，任意模态特征的矩阵表示为F∈{F_v,F_a}；

步骤2-2：将步骤2-1得到的任意模态特征F∈{F_v,F_a}嵌入三个子空间，然后计算不同片段的时间相关性矩阵S，如下式所示：

Q＝θ(F)，K＝φ(F)，V＝g(F)

其中，θ、g表示三个线性投影函数，Q,K,V∈R^T×C分别表示任意模态的查询、键与值，C表示任意模态特征矩阵的特征维度数，T表示任意模态特征矩阵的时间长度，/>表示转置；

Z＝S(Q,K)v

接下来在输入特征和融合特征之间添加了一个残差连接作为短路径，得到任意模态增强特征F′，如下式所示：

F′＝F+W_zZ

其中，W_z表示可学习的参数矩阵；

任意模态增强特征F′包含增强后的视觉特征F′_v与音频特征F′_a。

4.如权利要求1所述的一种基于关键帧擦除的视频情感检测方法，其特征在于，所述步骤3还进一步包括以下处理：

其中，C为任意模态特征矩阵的特征维度数，T为任意模态特征矩阵的时间长度，Q_a表示给定音频特征的查询，softmax()表示归一化指数函数，K_v表示给定视觉特征的键，T表示转置；

计算视觉-音频跨模态时间相关性矩阵，如下式所示：

其中，Q_v表示给定音频特征的查询，softmax()表示归一化指数函数，K_a表示给定视觉特征的键，C表示任意模态特征矩阵的特征维度数，T表示任意模态特征矩阵的时间长度，T表示转置；

进一步计算融合后视觉特征U_v和音频特征U_a，如下式所示：

U_v＝S_v←a(Q_v，K_a)V_a，U_a＝S_a←v(Q_a，K_v)V_v (6)

F″_v＝F_v+W_vU_v，F″_a＝F_a+W_aU_a (7)。

5.如权利要求1所述的一种基于关键帧擦除的视频情感检测方法，其特征在于，所述步骤5还进一步包括以下处理：

步骤5-1、对步骤2输出的增强后模态内特征F'_v、F'_a和步骤3输出的增强后跨模态特征F″_v、F″_a采用注意力机制计算相应的时域贡献得分，如下式所示：

其中，W₁,W₂,W'₁,W₂'表示可学习的权重矩阵，为转置矩阵的操作；

时域贡献得分的矩阵表示为A_v,A_a∈R^T，是沿时间维度的贡献得分；

根据时域贡献得分以进一步定位视频关键帧；

步骤5-2、进行时域注意力归一化处理，即采用最大最小值归一化处理得到归一化的视觉模态的时域贡献得分归一化的音频模态的时域贡献得分/>如下式所示：

该判据表示归一化的音频模态的时域贡献得分大于阈值θ且视觉模态的时域贡献得分/>大于阈值θ，定位为关键帧；其他情况，定位为非关键帧，θ为超参数；

步骤5-4：迭代式进行关键帧擦除，然后将形成的新视频的片段再次输入到网络中，以找到更多的互补信息。

6.如权利要求1所述的一种基于关键帧擦除的视频情感检测方法，其特征在于，所述步骤6还进一步包括以下处理：

步骤6-1：进行片段提取：根据步骤5得到的定位判据E将视频进行划分，提取关键帧的集合、非关键帧的集合、与原始视频，作为三个片段；

其中，x_i表示训练集中的第i个视频，y_i∈{1,2,…,M}表示训练集中的第i个视频的单类情感标签，M表示情感类别的数量，p^j(x_i)表示网络预测的第i个输入视频x_i属于第j类的概率，如下式所示：

步骤6-3：联合优化：整体损失函数实现联合优化，损失函数/>如下式所示：