CN112613442A

CN112613442A - 基于主角检测和光流转换的视频序列情感识别方法

Info

Publication number: CN112613442A
Application number: CN202011591272.5A
Authority: CN
Inventors: 毛史清
Original assignee: Suzhou Yuanqichuang Artificial Intelligence Technology Co ltd
Current assignee: Suzhou Yuanqichuang Artificial Intelligence Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-06

Abstract

本发明公开了基于主角检测和光流转换的视频序列情感识别方法，包括：定义主角关键帧选取方法；定义补丁特征提取转换特征矩阵的方法以及构建深度学习网络；构建光流信息转换模块以及深度学习网络；构建用于融合补丁特征、光流特征以及人工给与的视觉的音频特征的特征融合模块；将经过预处理的视频数据流以较小的批尺寸送入整体网络进行训练，利用定义好的支持向量机进行答案预测，使用均方差检验网络性能，最终使网络收敛至最佳状态，并保存训练好的模型用于直接使用。本发明方法适应性广，鲁棒性强，可用于多种情绪识别任务。通过将该方法在数据集上的进行实验，实验结果表明该方法具有较高的准确率，证明了其有效性。

Description

基于主角检测和光流转换的视频序列情感识别方法

技术领域

本发明涉及深度学习中的视频序列领域，特别涉及一种基于主角检测和光流转换的视频序列情感识别方法。

背景技术

情感识别一直是计算机视觉领域的研究热点，它可以应用在许多领域中。随着多模态深度学习领域的不断发展，对情感识别的要求也越来越高。传统的情感识别方法使用单一的卷积神经网络模型进行特征提取，对视频进行抽帧继而对帧进行图片特征提取，是为了得到图片中的信息特征，再根据音频分词等特征，最终将特征简单融合并通过分类器输出该高维特征的分类类别。因此情感识别本质上是通过多种模态之间的特征，共同决定了预测的视频的情感走向。除此之外，不同模态的特征对视频走向的影响权重也不一样。经过多模态深度学习领域的长期发展，产生了大量的多模态情感识别方法。

在传统方法中，视频帧提取方法通常存在一个统一的问题，即视频帧中只有主角能决定视频的情感走向，提取视频帧的所有特征会对资源进行浪费。这种情况下，使用单一的卷积神经网络往往会得到许多无用的特征。一些深度较大的神经网络虽然可以更好的提取细粒度特征，但是网络深度的增加也会导致参数增多，大量的卷积过程还造成特征信息的丢失以及梯度消失现象，从而影响模型性能。此外，视频是一种时间上连续的数据，时间因素也是视频中不可忽视的因素，这些因素都会影响后续的模型识别效果。

对于上述的这些问题，学者们研究出了一系列方法解决。尺度不变特征转换用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变数。光流信息通过在时域中检测图像序列中像素强度的变化来计算相邻帧之间物体的运动速率和方向。在情感识别领域，很少有方法能够兼顾时间信息、尺度不变特征转换这些方面。

发明内容

本发明目的是：为了解决上述问题，本发明提供一种基于主角检测和光流转换的视频序列情感识别方法，可以从视频中筛选出主角关键帧，并使用尺度不变特征转换构建矩阵，且通过引入代表时间信息的光流信息转换，使得模型能注意到连续的情感，增强识别准确率。

本发明的技术方案是：

本发明的优点是：

1、本发明的基于主角检测和光流转换的视频序列情感识别方法，通过主角关键帧筛选方法，较好的解决了由于寻常帧抽取方法造成的关键帧中没有主角出现的问题；

2、本发明通过补丁特征提取和尺度不变特征转换构建矩阵的方法，解决了寻常视频帧特征提取方法提取冗余信息的问题，节约了计算资源；

3、本发明通过将视频帧中的光流信息转化为数字矩阵，以引入时间信息加强模型对连续情感的捕捉能力，提高其准确率；

4、本发明提出的基于主角检测和光流转换的视频序列情感识别方法，具有兼顾时间信息、尺度不变特征转换这些优点。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明的基于主角检测和光流转换的视频序列情感识别方法的流程图；

图2为本发明的基于主角检测和光流转换的视频序列情感识别方法中的主角关键帧筛选方法流程图。

具体实施方式

下面结合附图及具体实施方式对本发明作进一步地详细描述。但不应将此解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本方面的范围。

本发明提供的基于主角检测和光流转换的视频序列情感识别方法，方法的整体实施流程如图1所示，具体说明如下：

选择LIRIS-ACCEDE中的训练集作为训练数据。本发明去除了一些数据集中时间过长或过短的视频，并筛出用于情感识别的标签数据。并选取了不同背景、不同场景类别的训练视频共6000个，验证视频1000个，测试视频1000个。

实施过程中使用的设备显示卡是英伟达Tesla P100，故将批尺寸设置为16，以批次为单位接收视频，在进行均值归一化后将视频帧尺寸重建至10万个像素。

构建各个方法模块与网络模块，整体结构图如图1所示。具体说明如下：

定义主角关键帧选取策略：该策略如图2所示，第一步，如果视频剪辑V包含n帧，则V＝{F1，F2，F3，...，Fn}，其中Fn是视频剪辑V的第n帧。第一帧的RGB直方图定义为H(Fi)，其中i＝1...n，整个剪辑的平均RGB直方图如下：

第i帧和第i+1帧之间的曼哈顿距离D可以表示如下：

D(F_i,F_j)＝H(F_i)-H(F_j)

使用上述公式计算每个帧与整个剪辑的平均RGB直方图之间的距离。根据距离将这些帧从最小到最大排序。因此可获得一个距离列表D，它被注释为D＝{D1，D2，...，Dn}。帧D1是距离整个剪辑的平均RGB直方图最小的帧。第二步，基于距离进行聚类。假设最终提取k个关键帧，则从距离列表D中选择k个距离值作为初始聚类中心，通过迭代搜索找到最优聚类结果，再根据距离将每个簇中的所有帧从最小到最大排序。因此可以获得k个候选关键帧列表，并且每个列表都可以被注释为

其中i表示第i个聚类中心，KF_i ¹代表距离最小的帧，m_i代表候选帧列表的数量。因此，一个n帧视频剪辑可以表示为：

我们根据每个聚类中心的主角信息选择一个主角关键帧。对于候选关键帧列表中的每个帧，根据主角定义，我们检测主角并选择第一个包含主角的帧作为主角关键帧。特别是，如果候选关键帧列表中的帧没有包含主角，我们将候选关键帧列表中的第一个帧视为主角关键帧。再根据出现频率最高的一张脸作为主角。主角关键帧的定义为argmaxcount(f_i)，其中f_i代表关键帧列表中出现的第i种面孔，出现频率最高的面孔定义为主角。

尺度不变特征矩阵转换模块：为了从主角关键帧中提取主角特征信息，我们提出了一种构造尺度不变特征矩阵的方法。对于每个主角关键帧，我们将帧大小调整为10万像素，同时调节纵横比，并在五个尺度上每四个像素提取一个24×24大小的补丁。通过该操作可以获得每帧约1万个补丁。对于每个补丁提取一个128维的特征向量，然后将这些特征向量组合在一起形成特征矩阵。

光流信息转换模块：视频包含大量相邻帧之间的时间信息，所以需要从时域的角度提取情感特征信息。光流信息通过检测图像序列中像素在时域中的强度的变化，确定相邻帧之间物体的运动速率和方向。考虑到视频帧帧数、相邻帧之间的弱光流关系和所需的大量计算，我们选择从主角关键帧而不是所有的帧中提取光流信息。本发明采用了一种高精度密集光流计算方法，以i为中心提取光流，为了更容易地处理和可视化光学流场，进行了将光流信息转换到三通道图像文件中。假设第F_i和第F_i+1帧之间的光学流场如下：

其中OF_x/y是水平和垂直方向的光学流场，h和w分别表示视频帧的高度和宽度，第三通道光流计算如下：

之后将OF_x、OF_y和OF_z重新标度为[0,255]的常见图像范围，如下：

其中a＝16，b＝128，

是重新标度的值。通过上述步骤，可以得到一个排列的光流图像列表OF＝{OF₁,OF₂,...,OF_k}，OF_k其中是第k个光流图像。

特征提取网络模块：由于标记数据量有限，首先使用现有的卷积神经网络模型，在大规模图像任务上进行了预先训练，以初始化网络模型。然后，对积神经网络模型进行了修正标记的情感数据。为此，我们采用AlexNet模型进行积神经网络初始化。AlexNet有五个卷积层，三个最大值池化层和三个全连接层。前两个全连接层由4096个单元组成，最后一个全连接层具有对应的1000个维度映射1000个情感类别。将补丁特征矩阵和光流图像矩阵输入到卷积神经网络模型中，学习更有代表性的高阶特征。设R^sf(sf_i)表示卷积神经网络模型中第六个全连接层的4096维输出，sf_i是输入的补丁特征矩阵，R^of(OF_i)表示卷积神经网络模型中第六个全连接层的4096维输出，OF_i是输入的光流图像特征。

特征融合模块与答案分类模块：在使用卷积神经网络模型学习特征并提取手工特征后，使用标准分数对所有特征进行归一化。然后使用特征级融合来合并高阶特征，包括高级主角特征信息R^sf(sf_i)、高级时间特征信息R^of(OF_i)和手工制作的视听特征X_i，被串联成单个高维特征向量进行情感分析。构建用于融合补丁特征、光流特征以及人工给与的视觉的音频特征的特征融合模块，特征融合模块后的一个主角关键帧数如下所示：

f(PKF)＝[R^sf(sf_i),R^of(OF_i),X_i]

融合特征后，利用支持向量机对输入混合特征进行分类。我们应用支持向量回归进行回归情感层面。

训练过程中，网络共迭代了200轮，每轮迭代了50000步，训练了38个小时完成收敛。

预测阶段包括以下7个步骤：

Step1：对输入视频帧进行均值归一化、调整尺寸等预处理操作。

Step2：加载预训练过的AlexNet模型和训练完成的总体的情感检测模型。

Step3：通过AlexNet网络和基于主角检测和光流转换网络提取特征。

Step4：在提取到的特征图上使用支持向量机和支持向量回归进行情感分类。

本发明的基于主角检测和光流转换的视频序列情感识别方法较好的在测试样本中分类出了情感，证明了该方法的有效性。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明主要技术方案的精神实质所做的修饰，都应涵盖在本发明的保护范围之内。

Claims

1.基于主角检测和光流转换的视频序列情感识别方法，其特征在于，包括以下步骤：

步骤1：定义主角关键帧选取方法，用于提取视频中有主角出现的关键帧；

步骤2：定义补丁特征提取转换特征矩阵的方法以及构建深度学习网络，该方法和网络分别包括从主角关键帧提取补丁特征并转换成特征矩阵的方法和用于提取深层次主角特征的卷积神经网络：

步骤3：构建光流信息转换模块以及深度学习网络，用于将视频帧中的时间信息转化为光流信息并构成矩阵的光流信息转换模块和用于提取光流信息特征的卷积神经网络；

步骤4：构建用于融合补丁特征、光流特征以及人工给与的视觉的音频特征的特征融合模块，

步骤5：将经过预处理的视频数据流以较小的批尺寸送入整体网络进行训练，利用定义好的支持向量机进行答案预测，使用均方差检验网络性能，最终使网络收敛至最佳状态，并保存训练好的模型用于直接使用。

2.根据权利要求1所述的基于主角检测和光流转换的视频序列情感识别方法，其特征在于，步骤1中定义的主角关键帧选取方法的步骤如下：

步骤1.1：使用基于RGB直方图方法计算距离，整个剪辑V的平均RGB直方图表达式如下：

其中，F_n是视频V的第n帧，H(F_i)表示第i帧的RGB直方图，所以第i帧和第i+1帧之间的曼哈顿距离D表示如下：

D(F_i,F_j)＝|H(F_i)-H(F_j)|

计算每个帧与整个剪辑的平均RGB直方图之间的距离，然后根据距离将这些帧从最小到最大排序，可获得一个距离列表D，则D＝{D1，D2，...，Dn}；

步骤1.2：提取基于聚类的候选关键帧，获得k个候选关键帧列表，一个n帧的视频片段表示为如下：

其中，KF_i代表第k个候选关键帧列表，i表示第i个聚类中心，KF_i ¹是距离最小的帧，m_i是列表中的帧数；

步骤1.3：根据每个聚类中心的主角信息选择一个主角关键信息帧，主角关键帧的定义如下：

argmaxcount(f_i)

f_i代表关键帧列表中出现的第i种面孔，出现频率最高的面孔定义为主角。

3.根据权利要求2所述的基于主角检测和光流转换的视频序列情感识别方法，其特征在于，步骤2中，定义补丁特征提取转换特征矩阵的方法以及构建深度学习网络的步骤如下：

步骤2.1：从主角关键帧提取补丁特征并转换成特征矩阵的方法，对于每个主角关键信息帧，调整帧大小为10万个像素的，并在五个尺度上每四个像素提取一个24×24大小的补丁，对于每个补丁，提取一个128维的尺度不变特征变换向量，最后将这些向量拼接在一起成为特征矩阵；

步骤2.2：构建用于提取深层次主角特征的卷积神经网络，卷积神经网络由五个卷积核大小为3×3的卷积层和两个全连接层构成，其中第一个和第二个卷积层、第二个和第三个卷积层、第五个卷积层和第一个全连接层之间都包含一个池化层，最后全连接层的输出大小为4096维度的特征向量。

4.根据权利要求3所述的基于主角检测和光流转换的视频序列情感识别方法，其特征在于，步骤3中，构建光流信息转换模块以及深度学习网络的步骤如下：

步骤3.1：用于将视频帧中的时间信息转化为光流信息并构成矩阵的光流信息转换模块，假设第F_i和第F_i+1帧之间的光学流场如下：

其中a＝16，b＝128，

是重新标度的值；

步骤3.2：构建用于提取深层次主角特征的卷积神经网络，该网络由五个卷积核大小为3×3的卷积层和两个全连接层构成，其中第一个和第二个卷积层、第二个和第三个卷积层、第五个卷积层和第一个全连接层之间都包含一个池化层，最后全连接层的输出大小为4096维度的特征向量。

5.根据权利要求4所述的基于主角检测和光流转换的视频序列情感识别方法，其特征在于，步骤4中，构建特征融合模块f(PKF)的表达式如下：

f(PKF)＝[R^sf(sf_i),R^of(OF_i),X_i]

其中f(PKF)代表补丁特征、光流特征以及人工给与的视觉的音频特征融合之后的高维特征，R^sf(sf_i)代表经过卷积神经网络提取后的高阶补丁特征，R^of(OF_i)代表经过卷积神经网络提取后的高阶光流特征，X_i代表人工给与的视觉的音频特征。