CN116189292A

CN116189292A - 一种基于双流网络的视频动作识别方法

Info

Publication number: CN116189292A
Application number: CN202310014498.6A
Authority: CN
Inventors: 周明亮; 郑子豪; 李云耀; 尚赵伟; 蒲华燕; 罗均; 向涛; 房斌
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-05-30

Abstract

本发明公开了一种基于双流网络的视频动作识别方法，属于涉及视频图像处理技术领域。包括从待识别视频数据集中抽取若干图像帧，利用TVL1算法从图像帧中提取光流数据；利用残差网络从图像帧中提取时空特征，同时利用残差网络从光流数据中提取运动特征；采用基于注意力机制将时空特征和运动特征进行残差融合，获取注意力融合特征；根据注意力融合特征、时空特征和运动特征计算门控权重，并将注意力融合特征进行全局特征提取获取共享特征；将共享特征进行加权后分别与时空特征和运动特征进行融合，得到新的时空特征和运动特征，从而完成视频数据集动作识别。本发明改善了传统双流方法中RGB和光流的特征提取，实现了信息的有效融合与共享。

Description

一种基于双流网络的视频动作识别方法

技术领域

本发明涉及视频图像处理技术领域，特别涉及一种基于双流网络的视频动作识别方法。

背景技术

在传统的视频动作识别方法中，需要人为手动标记光流特征，然而在现实生活中，视频千变万化，手动标记各方面开销太大。随着深度学习方法的兴起，深度学习方法凭借数据驱动，识别精度以及速度逐渐超过传统方法，传统方法逐渐被深度学习所代替。

目前的视频动作识别领域主流的深度学习方法大致可以分为三类：一类是基于双流的网络，利用输入光流来补偿运动信息。另外一类是基于3D卷积的网络，在2D卷积的基础上增加一维来建模视频时序信息。最后一类是利用独特设计的模块来模拟建模视频的运动与时空信息，将模块嵌入深层网络来达到特征提取目的的网络。

基于双流的网络虽然增加了光流的输入来建模视频的运动信息，但是双流网络本质上依然是两个独立的网络，目前双流网络的各种融合方法依然没有很好的将两个网络所建模的时空信息与运动信息进行融合。由于3D卷积在2D的基础上增加了一维，能更好的建模视频特征，但是也带来了较大的参数负担，无法较好的运用在实际生活中。独特设计的模块能代替光流建模运动以及时空信息，使得网络更加轻量化，但是和光流输入相比，它建模运动信息能力是不足的。

在视频动作识别中，因为在视频中动作是连续的，且视频每一帧输入都有关联，运动信息与时空信息融合的结果对视频中动作类型的判断有着很大影响。

因此，如何在建模时对视频中的运动信息与时空信息进行融合，准确判断出视频中出现的动作类型是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于双流网络的视频动作识别方法，该方法在给出一段视频时，能准确判断出视频里面出现的动作类型。

为了实现上述目的，本发明采用如下技术方案：

一种基于双流网络的视频动作识别方法，包括如下步骤：

从待识别视频数据集中抽取若干连续的图像帧，并利用TVL1算法从所述图像帧中提取光流数据；

利用残差网络从所述图像帧中提取时空特征，同时利用残差网络从所述光流数据中提取运动特征；

利用注意力机制将所述时空特征和运动特征进行残差融合，获取注意力融合特征；

根据所述注意力融合特征、时空特征和运动特征计算门控权重，并将所述注意力融合特征进行全局特征提取获取共享特征；

将所述共享特征进行门控权重加权后与时空特征进行融合得到新的时空特征，将所述共享特征进行门控权重加权后与运动特征进行融合得到新的运动特征；

根据新的时空特征和新的运动特征得到待识别视频数据集动作识别结果。

优先的，从待识别视频数据集中抽取若干连续的图像帧，并利用TVL1算法从所述图像帧中提取光流数据，具体包括：

获取待识别数据集，从所述待识别数据集中抽取连续的b帧图像帧；

利用TVL1算法对相邻图像帧进行光流提取，获取b-1帧光流数据。

优先的，利用残差网络从所述图像帧中提取时空特征，同时利用残差网络从所述光流数据中提取运动特征，具体包括：

将抽取的若干连续图像帧输入首卷积通道为3的残差网络ResNet-50，获取时空特征；

将光流数据输入首卷积通道为2的残差网络ResNet-50，获取运动特征。

优先的，利用注意力机制将所述时空特征和运动特征进行残差融合，获取注意力融合特征，具体包括：

将所述时空特征和运动特征分别利用三维卷积进行分块，获取时空特征立方块序列和运动特征立方块序列；

将所述时空特征立方块序列和运动特征立方块序列分别进行线性映射，获取时空标记序列和运动标记序列；

将所述时空标记序列进行线性映射后作为注意力查询，将所述运动标记序列进行一次线性映射后作为注意力键，将所述运动标记序列进行二次线性映射后作为注意力值；

将所述注意力查询和注意力键进行缩放点积运算得到注意力分布；

将所述注意力分布与注意力值按维度相乘，并将相乘的结果与注意力查询进行残差连接；

将残差连接结果进行维度重构和上采样，使残差连接结果的维度与所述时空特征和运动特征保持一致，得到注意力融合特征。

优先的，根据所述注意力融合特征、时空特征和运动特征计算门控权重，并将所述注意力融合特征进行全局特征提取获取共享特征，具体包括：

将所述注意力融合特征、时空特征和运动特征各自进行一个2维卷积映射后相加，并将相加结果通过Sigmoid激活函数进行激活，将激活结果按通道平均拆分成时空门控权重和运动门控权重；

将所述注意力融合特征经过一层ConvLSTM网络进行全局特征提取，获取共享特征。

优先的，将所述共享特征进行门控权重加权后与时空特征进行融合得到新的时空特征，将所述共享特征进行门控权重加权后与运动特征进行融合得到新的运动特征，具体包括：

将共享特征与时空门控权重相乘，得到时空加权共享特征；

对时空加权共享特征的维度和通道数进行转换，使所述时空加权共享特征的维度与所述时空特征的维度保持一致，同时使所述时空加权共享特征的通道数和所述时空特征的通道数保持一致；

将维度和通道数进行转换后的时空加权共享特征，与所述时空特征相加得到新的时空特征；

将共享特征与运动门控权重相乘，得到运动加权共享特征；

对运动加权共享特征的维度和通道数进行转换，使所述运动加权共享特征的维度与所述运动特征的维度保持一致，同时使所述运动加权共享特征的通道数和所述运动特征的通道数保持一致；

将维度和通道数进行转换后的运动加权共享特征，与所述运动特征相加得到新的运动特征。

优先的，根据新的时空特征和新的运动特征得到待识别视频数据集动作识别结果，具体包括：

将新的时空特征和新的运动特征分别经过全局池化并拉伸后输入全连接层得到两个分类预测分数；

并对两个分类预测分数进行平均融合得到最终识别结果。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于双流网络的视频动作识别方法，具有以下有益效果：

本发明提供了一种对视频中的运动信息与时空信息进行融合建模的方法，能够实现在各种不同视频动作场景下较好地判断出动作的类型。

本发明改善了传统双流方法中RGB和光流的特征提取，实现了其信息的有效融合与共享。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的基于双流网络的视频动作识别方法步骤流程示意图；

图2为本发明提供的基于双流网络的视频动作识别方法网络结构示意图；

图3为本发明提供的注意力机制残差融合流程示意图；

图4为本发明提供的门控权重获取流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例公开了一种基于双流网络的视频动作识别方法，包括如下步骤：

下面结合更为具体的实施方式对本发明的步骤进行进一步说明。

S1、获取待识别的视频数据集；将所述视频数据集抽取出9帧连续的图像帧，将所有图像帧调整到统一预设尺寸；同时将全9帧图像通过TVL1算法得到光流数据，TVL1算法以每两帧图像提取一帧光流，因此得到8帧光流数据；

S2、抽取出的图像中前8帧图像直接输入到残差网络ResNet50进行时空特征提取，并将提取出的8帧光流输入到残差网络ResNet50进行运动特征提取，得到以ResNet50为骨干网络的第四层的时空特征和运动特征。本发明实施例中的第四层，指的是残差网络的第四stage部分，ResNet50第四stage结构包括bottleneck block的残差块。在本实施例中，提取时空特征时只输入9帧连续图像帧的前8帧，在其他实施例中也可输入全部的9帧连续图像。

本实施例中，时空特征提取和运动特征提取均采用ResNet50，其区别在于，时空特征提取时选取ResNet50的首卷积通道为3，运动特征提取时选取ResNet50的首卷积通道为3。

S3、利用注意力机制将所述时空特征和运动特征进行残差融合，获取注意力融合特征：

这一步骤中，将得到的时空特征作为注意力查询，运动特征作为注意力键值参与注意力计算得到输出，并将注意力查询与该输出进行残差连接从而完成第一次特征融合，得到初步的融合特征；

具体过程如下：

S31、将时空特征和运动特征通过一个三维卷积将其各自划分成多个立方块，并将得到的立方块序列分别进行线性投影，得到对应的时空标记序列和运动标记序列；

该步骤中可通过如下公式进行块划分并得到时空特征标记序列和运动特征标记序列：

Ts＝Conv3d(x)

上式中，三维卷积的核大小为(1,16,16)，步长为(1,4,4)，填充为(1,7,7)；Ts表示标记序列的张量；x表示维度为(N,C,T,H,W)形式的连续图像帧输入，其中N表示样本数量batch_size，C是通道数，T表示时间序列长度，H表示图片高，W表示图片宽；

S32、将时空标记序列进行线性映射后作为注意力查询，将运动标记序列进行一次线性映射后作为注意力键，将运动标记序列进行二次线性映射后作为注意力值；

S33、将注意力查询和注意力键进行缩放点积运算得到注意力分布

S34、将注意力分布与运动标记序列按维度相乘，并将相乘的结果与注意力查询进行残差连接，最后将标记序列重构为原特征大小得到最终的注意力融合特征；

这一过程中，注意力融合特征可用如下公式进行表示：

上式中，Attention(Q,K,V)表示注意力计算结果；Q表示时空标记序列经过线性映射生成的注意力查询；K,V表示运动标记序列经过各自线性映射生成的注意力键、值；D表示通道维度，即序列的嵌入维度。

S4、根据所述注意力融合特征、时空特征和运动特征计算门控权重，并将所述注意力融合特征进行全局特征提取获取共享特征；

这一步骤主要包括门控权重计算和共享特征提取两方面的内容：

其中门控权重计算过程如下：

将注意力融合特征、时空特征和运动特征各自进行一个2维卷积映射后相加，并将相加结果通过Sigmoid激活函数进行激活，将激活结果按通道平均拆分成时空门控权重和运动门控权重；

门控权重的具体计算过程可由如下公式表示：

GW₁,GW₂＝split(σ(Conv2d(R_m)+Conv2d(F_m)+Conv2d(M₁)))

式中，GW₁,GW₂分别表示生成的时空门控权重和运动门控权重；split表示按通道维度拆分操作；σ表示Sigmoid激活函数；Conv2d表示尺度不变的卷积操作；R_m表示中间时空特征；F_m表示中间运动特征；M₁表示注意力融合特征。

共享特征提取，过程如下：

将注意力融合特征经过一层ConvLSTM网络进行进一步全局特征提取，得到共享特征M₂；

S5、将共享特征进行门控权重加权后与时空特征进行融合得到新的时空特征，将所述共享特征进行门控权重加权后与运动特征进行融合得到新的运动特征：

这一步骤中将步骤S4得到的两个门控权重分别乘以共享特征后得到两个加权的共享特征，并对其进行池化使其维度转变为7x7且通过大小为1的二维卷积将通道数变换到与时空特征和运动特征一致；

将上述处理结果分别与时空特征和运动特征相加，获得新的时空特征和新的运动特征；

门控加权融合的具体步骤，可由如下公式表示：

R_n＝R+Conv2d(AvgPool(GW₁*M₂))

F_n＝F+Conv2d(AvgPool(GW₂*M₂))

式中R_n表示新的时空特征；F_n表示新的运动特征；GW₁，GW₂分别表示生成的时空门控权重和运动门控权重；Conv2d表示尺度不变的卷积操作；AvgPool是全局池化；R表示步骤S2得到的时空特征；F表示步骤S2得到的运动特征；*表示广义乘法操作；M₂表示共享特征。

S6、将新的时空特征和新的运动特征各自经过全局池化并拉伸后输入到全连接层进行分类得到两个分类预测分数，并对两个分类预测分数，进行平均融合得到待识别视频数据集的最终识别结果；

待识别视频数据集的最终识别结果可通过如下公式表示：

Class＝AvgFusion{FC_r(R_n)，FC_f(F_n)}

上式中，R_n表示新的时空特征；F_n表示新的运动特征；FC_r,FC_f分别为时空网络与运动网络的全连接层；AvgFusion表示平均融合操作。Class表示最后预测的类别。

训练时，本实例采用分类预测分数与真实动作类别标签的交叉熵作为损失函数，同时对双流采取不同的权重进行加权获得总体损失：

进一步地，本发明实施例中总体损失函数为：

L＝L_r+λL_f

上式中，L_r表示时空网络分类预测分数与真实动作类别标签分数之间的交叉熵损失；L_f表示运动网络分类预测分数与真实动作类别标签之间的交叉熵损失；λ表示权重系数，本实施例中λ为人为设置的超参数，λ设置为2。

本实施例中分类预测分数，表示经过全连接层分类后的输出经过softmax后的结果；真实动作类别标签，表示动作类别在代码中的数字编码表示；

说明：视频动作识别作为一个分类问题，损失函数即是交叉熵损失函数，这里因为时空网络和运动网络均做了预测，于是本发明中存在两个交叉熵损失，因此做了一个加权作为总的损失函数，其作用就是同时训练时空网络和运动网络；

通过不断减小预测分数与真实标签之间的损失，从而获得视频帧和动作类别之间的最佳映射关系。

进一步地，可通过如下公式计算L_r和L_f：

上式中，y表示真实标签，

表示预测标签，i表示当前标签的序列号，n表示样本中标签的总数量。

下面具体对本视频动作识别方法进行详细说明：

批量加载数据集视频后，对每个视频抽取出9帧图像帧，并将所有图像图像尺寸统一调整为224*224*3。取出的图像中前8帧图像直接输入到时空特征提取网络，全9帧图像通过TVL1算法提取出8帧光流输入到运动特征提取网络，得到第四层的中间时空特征和中间运动特征，以及最后一层的时空特征和运动特征，经过时空特征网络和运动特征网络的卷积、池化等操作，中间时空特征和中间运动特征尺寸为14*14*1024，时空特征和运动特征尺寸为7*7*2048。

具体为：批量加载数据集视频后，对每个视频抽取出9帧图像帧，并将所有图像图像尺寸统一调整为224*224*3。每个视频取出的图像中前8帧像输入到原始的ResNet-50网络，得到14*14*1024的中间时空特征和7*7*2048的时空特征。全9帧图像通过TVL1光流提取算法提取出8帧光流后得到尺寸为224*224*2的张量，基于修改后的ResNet-50网络，获得14*14*1024的中间运动特征和7*7*2048运动特征。

由于提取出的中间时空特征和中间运动特征之间存在复杂的相关性，若使用普通的通道拼接或求和操作，难以显式地融合二者的相关信息。为了有效的进行相关信息的过滤融合，在共享模块中采用了基于注意力机制的特征融合方式。

给定中间时空特征和中间运动特征R_m,F_m∈R^C*H*W，其中c表示通道数，H*W(高度*宽度)表示中间特征的大小。

参照图2和图3所示，图2中Attention Fusion表示基于注意力机制的双流特征融合。

参照图3所示，Attention Fusion具体过程为：中间时空特征R_m和中间运动特征F_m分别通过一个Conv3d(1024,256,(1,7,7),(1,7,7))(1024指输入卷积层的通道数目，256值输出卷积层的通道数目，第一个(1,7,7)指时间、高、宽三维的卷积核大小，第二个(1,7,7)指三维步长；设置卷积和大小、步长与块大小一致，从而达到分块的目的)进行块嵌入得到维度为8*8*8*256的时空特征标记序列和运动特征标记序列，合并上述两个序列的前三个维度得到维度为512*256的时空特征标记序列和运动特征标记序列，以此进行多头注意力计算，并将注意力查询与计算输出进行残差连接从而完成第一次特征融合，得到维度为512*256初步的融合特征。

基于注意力机制的双流特征融合计算过程如下所示：

通过如下公式分别对两类中间特征中进行块嵌入：

p(x)＝Conv3d(x),

上式中，p(x)表示块嵌入操作；x表示中间特征。

通过如下公式对经过块嵌入后的中间特征进行线性映射：

Q＝R_mW_q,K＝F_mW_k,V＝F_mW_v

上式中，Q,K,V表示注意力查询、键、值；W_q,W_k,W_v表示与Q,K,V对应的三个线性矩阵，维度为1024*256；R_m,F_m表示中间时空特征和中间运动特征。

通过如下公式进行基于多头注意力计算的残差融合：

上式中，M₁表示注意力融合特征；Q表示时空标记序列经过线性映射生成的注意力查询；K,V表示运动标记序列经过各自线性映射生成的注意力键、值；D表示通道维度，即序列的嵌入维度256。该公式中Softmax(QK^T/sqrt(D))即为注意力分布。

共享模块在获得初步的注意力融合特征后，一方面经过一个ConvLSTM层进一步提取全局特征，输出共享特征，保持尺寸不变。另一方面计算门控权重来对共享特征进行加权后与时空特征和运动特征相加，进行第二次特征融合，得到新的时空特征和运动特征。

给定时空特征和运动特征R,F∈R^c*H*W，其中c表示通道数，H*W(高度*宽度)表示特征的大小。

参照图4所示，Gated Fusion表示基于门控加权的双流特征融合，其中M₂指共享特征，R_n,F_n指新的时空特征和运动特征。

参照图4所示，Gated Fusion为：R_m、F_m以及M₁各自进行一个卷积变换后相加(所有卷积核的维度均为3*3*1024*2，卷积核的通道输出维度是2，以此降低参数量)，并通过Sigmoid函数激活后按通道拆分得到两个门控权重，维度为14*14*1。将所述两个门控权重分别乘以共享特征(维度为14*14*1024，由于通道维度不匹配，PyTorch会自动进行广播将门控权重在通道维度重复1024次后相乘)后得到两个加权的共享特征，并对其进行池化使其空间维度转变为7*7且通过大小为1的二维卷积将通道数变换到与时空特征和运动特征一致，最终维度为7*7*2048。

最后，将所述新的时空特征和运动特征分别进行全局池化、拉伸后输入到全连接层进行分类后将两个分类预测分数进行平均融合，得到所述待识别视频数据集的识别结果。

训练时，本实例采用预测分数与真实标签的交叉熵作为损失函数，同时对双流采取不同的权重进行加权获得总体损失。

图片中蕴含着丰富的信息，多模态的图片输入可以挖掘图片的深层次语义信息。原始双流网络再引入光流模态信息后在视频动作识别任务中取得了较好的效果，但该方法时空特征提取网络与运动特征提取网络相对独立，没有对多模态共同的语义信息进行融合挖掘，导致两个特征提取网络缺乏信息交互，并没有很好的发挥两个网络的特征挖掘融合潜力。通过本实施例采用的注意力融合与门控融合来对两个特征提取网络的中间输出特征进行处理。注意力融合将注意到两个网络输出特征的共同特征，门控融合将针对共同特征来生成权重，生成的权重将会对后续的共享模块已经网络输出进行加权，不仅能将多模型的共同语义信息进行融合，还能将提取到的共同特征学习通过权重传递到网络末端，对网络输出特征信息进行加权。

面对提取到的共同特征信息，若采用简单的多层卷积操作，则会丢失前期融合好的共同特征信息。由于输入是一个视频序列，一个动作需要多个帧共同判断，前期的共同特征信息无法影响后期的输入，则会导致网络存在弱长期依赖性。本实施例采用ConvLSTM作为共享模块，ConvLSTM兼顾输入为特征形式与良好的长期依赖能力，在增强共同特征信息长期依赖的同时，也增强了网络对时序信息的提取。

采用本发明的技术方案不仅解决了原始双流网络网络之间相对独立而导致没有充分挖掘多模态特征信息共同特征问题，还增强了网络对时序信息的提取。改善了传统双流方法中RGB和光流的特征提取，实现了其信息的融合与共享。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于双流网络的视频动作识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于双流网络的视频动作识别方法，其特征在于，从待识别视频数据集中抽取若干连续的图像帧，并利用TVL1算法从所述图像帧中提取光流数据，具体包括：

3.根据权利要求1所述的基于双流网络的视频动作识别方法，其特征在于，利用残差网络从所述图像帧中提取时空特征，同时利用残差网络从所述光流数据中提取运动特征，具体包括：

4.根据权利要求1所述的基于双流网络的视频动作识别方法，其特征在于，利用注意力机制将所述时空特征和运动特征进行残差融合，获取注意力融合特征，具体包括：

5.根据权利要求1所述的基于双流网络的视频动作识别方法，其特征在于，根据所述注意力融合特征、时空特征图和运动特征计算门控权重，并将所述注意力融合特征进行全局特征提取获取共享特征，具体包括：

6.根据权利要求5所述的基于双流网络的视频动作识别方法，其特征在于，将所述共享特征进行门控权重加权后与时空特征进行融合得到新的时空特征，将所述共享特征进行门控权重加权后与运动特征进行融合得到新的运动特征，具体包括：

将共享特征与时空门控权重相乘，得到时空加权共享特征；

将共享特征与运动门控权重相乘，得到运动加权共享特征；

7.根据权利要求1所述的基于双流网络的视频动作识别方法，其特征在于，根据新的时空特征和新的运动特征得到待识别视频数据集动作识别结果，具体包括：

并对两个分类预测分数进行平均融合得到最终识别结果。