CN115965898A

CN115965898A - 多级分支卷积与膨胀交互采样结合的视频情感分类方法

Info

Publication number: CN115965898A
Application number: CN202310079381.6A
Authority: CN
Inventors: 张小瑞; 原春霖; 孙伟; 张小娜
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-04-14

Abstract

本发明公开了情感分类领域的多级分支卷积与膨胀交互采样结合的视频情感分类方法，包括以下步骤：将帧序列转化为张量，并使用一层大核卷积进行覆盖下采样，将张量中每一帧图像的尺寸减少；使用多级分支卷积算法进行空间特征提取，并进一步减小空间维度尺寸；使用膨胀交互采样算法进行时间序列提取，通过采样后的并行膨胀卷积缩短计算时间；最后对视频情感进行分类。本发明通过三组不同尺度的条状大核深度卷积，来提取不同大小、位置的信息，并通过元素相乘来唤起空间注意力，同时通过多级非覆盖小核下采样聚合这些局部信息之间的联系；采用奇偶二叉树的结构下采样时间序列，同时结合非因果膨胀卷积以及序列间的交互学习。

Description

多级分支卷积与膨胀交互采样结合的视频情感分类方法

技术领域

本发明属于情感分类领域，具体涉及多级分支卷积与膨胀交互采样结合的视频情感分类方法。

背景技术

日常生活中，我们的情感大多是通过表情变化与肢体动作表达的。基于计算机视觉的动态情感识别，就是通过特定算法对摄像头捕获的视频进行解析，让计算机根据目标表情与动作识别所表达的情感。

目前的视频情感分类模型存在两方面问题：首先，情感的表达是通过人体不同部位联合表达的，而目前的视频情感识别模型主要考虑提取时间维度的帧间关系，空间维度方面只使用固定尺寸的小核卷积，对于不同位置不同大小的部位感知不明显，同时也无法聚合这些部位之间的联系。另一方面，目前的方法大多使用Transformer及其变体凭借多头自注意力在时间维度建模帧间长期依赖，但是多头自注意力计算开销大，且因为缺乏归纳偏置，存在所需数据量大，难以训练、容易过拟合等问题。

发明内容

针对现有技术的不足，本发明的目的在于提供多级分支卷积与膨胀交互采样结合的视频情感分类方法，以解决上述背景技术中提出的问题。

本发明的目的可以通过以下技术方案实现：

一种多级分支卷积与膨胀交互采样结合的视频情感分类方法，包括以下步骤：

步骤1、将帧序列转化为张量，并使用一层大核卷积进行覆盖下采样，将张量中每一帧图像的尺寸减少；

步骤2、使用多级分支卷积算法进行步骤1输出的空间特征提取，并进一步减小空间维度尺寸；

步骤3、使用膨胀交互采样算法进行步骤2输出的时间序列提取，通过采样后的并行膨胀卷积缩短计算时间；

步骤4、最后将得到的特征输入到情感分类模型中，对视频情感进行分类。

优选地，所述步骤2中多级分支卷积算法提取过程如下：

步骤2.1、先将步骤1的输出经GELU非线性函数激活后送入标准3×3卷积，进行局部特征提取，随后经LayerNorm后送入1×1卷积提升通道数，有效的避免信息流失，也可以捕获特征图通道维度的关系，起着增强特征的通道适应性的作用；

步骤2.2、再将1×1卷积升维后的特征送入并行的分支条状卷积模块，分别利用1×5、5×1，1×7，7×1，1×11、11×1三对深度可分离条状卷积核根据小、中、大三种感受野提取不同大小、位置的区域关联信息；

步骤2.3、接着将分支条状卷积的三个输出与输入进行残差连接，随后送入第二个1×1卷积建模不同通道之间的关系，将1×1卷积的输出直接作为注意力权值，通过矩阵乘法对步骤1的输出进行加权，并将加权后的结果先经过GELU激活函数引入非线性，再通过第三个1×1卷积进行降维；

步骤2.4、最后为充分提取不同语义、大小的特征，引入多级架构，共分为四个阶段，每个阶段空间分辨率分别为

每个阶段包括下采样块和如上所述的结构块堆叠，下采样块采用步长为2、内核大小为2×2的卷积，每个下采样操作后进行一次LayerNorm。

优选地，所述步骤2.3中过程总结为以下公式：

式中，Att为卷积权重，Conv_1×1为1×1卷积，S_i为第i个分支的卷积结果，i∈{0，1，2，3}，DwConv为一组深度分离条状卷积，F为输入特征，Out为模块输出，

为矩阵乘法。

优选地，所述步骤3中膨胀交互采样算法提取过程如下：

步骤3.1、先将步骤2输出的时间序列分解为两个子序列O_even和O_odd，将偶数元素和奇数元素分开；

步骤3.2、再使用不同的膨胀卷积模块EConv将O_even和O_odd分别映射到两个隐藏状态，随后将其转换为指数形式与另一序列的隐藏状态进行逐元素相乘，将元素相乘的结果与原序列进行残差连接。

优选地，所述步骤3.2中计算公式如下：

式中，O′_even为输出奇序列，O_even为下采奇序列，

为残差链接，EConv为膨胀卷积操作，⊙为逐元素相乘，exp为取指操作，O_odd为下采偶序列，O′_odd为输出偶序列。

本发明的有益效果：

1、本发明方法提出多级分支卷积算法进行空间特征的提取，使用三组不同尺度的条状大核深度卷积，来提取不同大小、位置的信息，并通过元素相乘来唤起空间注意力，提取局部关键信息的同时，聚合局部间的联系；

2、本发明方法通过多级非覆盖小核下采样聚合这些局部信息之间的联系，且随着采样的深入，在大核卷积中就可以得到语义、空间的上下文信息

3、本发明方法通过膨胀交互采样算法进行时序特征的提取，通过下采样、膨胀卷积、信息交互捕获多个时间分辨率的时间依赖性，实现全局时序特征的学习。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法流程示意图；

图2是本发明中时空特征提取结构。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明提供一种多级分支卷积与膨胀交互采样结合的视频情感分类方法，包括以下步骤：

其中，使用一层大核卷积进行覆盖下采样的过程如下：

将帧序列的每一帧图像输入到一个输入通道数为3，步长为4，卷积核大小为7×7，卷积个数为64的卷积层中，将每帧图像尺寸降采样到

其中，H和W是每一帧输入的高和宽。

步骤2、使用所提出的多级分支卷积算法进行空间特征的提取，并进一步减小空间维度尺寸；

其中，多级分支卷积算法过程如下：

步骤2.1、将步骤1的输出经GELU非线性函数激活后送入标准3×3卷积，进行局部特征提取，随后经LayerNorm后送入1×1卷积提升通道数，有效的避免信息流失，也可以捕获特征图通道维度的关系，起着增强特征的通道适应性的作用；

步骤2.2、将1×1卷积升维后的特征送入并行的分支条状卷积模块，分别利用1×5、5×1，1×7，7×1，1×11、11×1三对深度可分离条状卷积核根据小、中、大三种感受野提取不同大小、位置的区域关联信息；

步骤2.3、将分支条状卷积的三个输出与输入进行残差连接，随后送入第二个1×1卷积建模不同通道之间的关系，将1×1卷积的输出直接作为注意力权值，通过矩阵乘法对步骤1的输出进行加权，并将加权后的结果先经过GELU激活函数引入非线性，再通过第三个1×1卷积进行降维。上述过程可总结为以下公式：

为矩阵乘法；

步骤2.4、为充分提取不同语义、大小的特征，引入多级架构，共分为四个阶段，每个阶段空间分辨率分别为

每个阶段包括下采样块和如上所述的结构块堆叠。下采样块采用步长为2、内核大小为2×2的卷积，每个下采样操作后进行一次LayerNorm。

步骤3、使用所提出的膨胀交互采样算法进行时序特征的提取，通过采样后的并行膨胀卷积缩短计算时间；

其中，膨胀交互采样算法过程如下：

步骤3.1、将步骤2输出的时间序列分解为两个子序列O_even和O_odd，将偶数元素和奇数元素分开，这两个子序列是粗态的时间分辨率，但保留了原始序列的大部分信息；

步骤3.2、使用不同的膨胀卷积模块EConv将O_even和O_odd分别映射到两个隐藏状态，随后将其转换为指数形式与另一序列的隐藏状态进行逐元素相乘，将元素相乘的结果与原序列进行残差连接。计算公式如下所示：

式中，O′_even为输出奇序列，O_even为下采奇序列，

为残差链接，EConv为膨胀卷积操作，⊙为逐元素相乘，exp为取指操作，O_odd为下采偶序列，O′_odd为输出偶序列；

膨胀卷积模块EConv首先通过边界复制减少卷积运算的边界效应，然后采用初始膨胀因子为3的膨胀卷积对采样时序进行卷积，然后使用GELU和Dropout，膨胀因子随着采样层数的增加而减小，当减小为1后固定不变。

图2为时空特征提取结构图，提取区域空间信息、聚合多区域多尺度联系，同时使用少量开销建立全局时序关联。

步骤4、最后将得到的特征送入全连接层，并使用softmax分类器进行情感分类。该分类器共使用三个全连接层：第一个全连接层将维度从2048降至1024，同时使用dropout防止过拟合；第二个全连接层将维度从1024降至200，同样使用dropout；第三个全连接层将维度降低至类别数，不使用dropout，输出情感分类结果。

本发明通过三组不同尺度的条状大核深度卷积，来提取不同大小、位置的信息，并通过元素相乘来唤起空间注意力，同时通过多级非覆盖小核下采样聚合这些局部信息之间的联系；此外，本发明采用奇偶二叉树的结构下采样时间序列，同时结合非因果膨胀卷积以及序列间的交互学习，这样可以实现全局建模，且每层不同序列的卷积核可以提取不同但有价值的信息。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种多级分支卷积与膨胀交互采样结合的视频情感分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多级分支卷积与膨胀交互采样结合的视频情感分类方法，其特征在于，所述步骤1中使用一层大核卷积进行覆盖下采样的过程如下：

式中，H和W是每一帧输入的高和宽。

3.根据权利要求2所述的一种多级分支卷积与膨胀交互采样结合的视频情感分类方法，其特征在于，所述步骤2中多级分支卷积算法提取过程如下：

4.根据权利要求3所述的一种多级分支卷积与膨胀交互采样结合的视频情感分类方法，其特征在于，所述步骤2.3中过程总结为以下公式：

为矩阵乘法。

5.根据权利要求3所述的一种多级分支卷积与膨胀交互采样结合的视频情感分类方法，其特征在于，所述步骤3中膨胀交互采样算法提取过程如下：

6.根据权利要求5所述的一种多级分支卷积与膨胀交互采样结合的视频情感分类方法，其特征在于，所述步骤3.2中计算公式如下：

式中，O'_even为输出奇序列，O_even为下采奇序列，

为残差链接，EConv为膨胀卷积操作，⊙为逐元素相乘，exp为取指操作，O_odd为下采偶序列，O'_odd为输出偶序列。

7.根据权利要求4所述的一种多级分支卷积与膨胀交互采样结合的视频情感分类方法，其特征在于，所述膨胀卷积模块EConv首先通过边界复制减少卷积运算的边界效应，然后采用初始膨胀因子为3的膨胀卷积对采样时序进行卷积，然后使用GELU和Dropout，膨胀因子随着采样层数的增加而减小，当减小为1后固定不变。

8.根据权利要求1所述的一种多级分支卷积与膨胀交互采样结合的视频情感分类方法，其特征在于，所述步骤4具体为将得到的特征送入全连接层，并使用softmax分类器进行情感分类。

9.根据权利要求8所述的一种多级分支卷积与膨胀交互采样结合的视频情感分类方法，其特征在于，所述分类器使用三个全连接层，第一个全连接层将维度从2048降至1024，同时使用dropout防止过拟合，第二个全连接层将维度从1024降至200，同样使用dropout，第三个全连接层将维度降低至类别数，不使用dropout，输出情感分类结果。