CN113688871B

CN113688871B - 基于Transformer的视频多标签动作识别方法

Info

Publication number: CN113688871B
Application number: CN202110844557.3A
Authority: CN
Inventors: 周志立; 董晓华; 王美民; 吉千凡; 王梓淇
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2022-07-01
Anticipated expiration: 2041-07-26
Also published as: CN113688871A

Abstract

本发明公开了一种基于Transformer的视频多标签动作识别方法，具体为：对提取的长视频的特征序列进行降维处理得到新的特征序列F，将特征序列F与预设第一权重矩阵W相乘得到特征序列V，将V中每个元素对应的视频帧的时序位置进行编码，得到编码矩阵P；将V和P输入至Transformer编码器得到序列V′，根据V′提取长视频中关键动作的开始帧和结束帧；将预设的序列与P分别作为Transformer解码器的输入；将V′中将开始帧和结束帧以及位于两者之间的元素输入至Transformer解码器Muti‑head Attention层。本发明考虑了标签与标签之间的联系，从而提高了多标签分类的精度。

Description

基于Transformer的视频多标签动作识别方法

技术领域

本发明属于计算机视觉领域。

背景技术

随着视频检索、人机交互、视频监控、数字娱乐等应用的发展，视频理解和视频动作识别也占据着越来越重要的地位。视频动作识别的方法可以大体概括为两步：1)提取视频特征；2)将视频特征输入到分类器中得到各个标签的概率分布，概率最大的标签就是所输入视频的预测标签。

传统的视频识别方法通过改进后的密集轨迹方法(iDT)对视频特征进行提取，并且通过费舍尔(Fisher)编码方式将视频帧变为相同维度的向量，将视频特征向量输入到支持向量机(SVM)中得到概率分布。后来随着CNN的出现，视频领域也出现了3D-CNN，对视频的空间上和时间上都进行卷积操作从而提取出视频的特征，再输入到SVM中，这些视频识别方法在较短和内容简单的数据集上取得了不错的效果，例如UCF101和Weziman数据集。但是在类似于HollyWood2这种以电影片段为主的多动作的复杂视频数据集上，所取得的效果就很差。

在现实生活场景中，所获得的视频大多都是时间较长，且视频内容比较复杂的，因此近些年来，人们也致力于多动作的复杂视频动作识别研究。典型的复杂视频动作识别方法有单镜头动作检测器(SSAD)、时态分割网络(TSN)、慢速网络(SlowFast Network)、高效卷积网络(ECO)等。这一类方法不仅需要消耗大量的训练时间且大多只是通过单个标签对一段视频进行描述，最后再通过单标签分类对视频动作进行识别，但是在实际应用场景中，我们很难用一个标签去准确的描述整段视频，例如这样一个镜头：一个人在坐着说话，如果选择单标签分类的话，我们可以将这段视频中的动作描述为“坐”，但是也可以将动作描述为“说话”，因此多标签分类被应用在了视频领域上。虽然已经产生了很多视频多标签分类的方法，但是大多数方法都忽略了标签与标签之间所存在的依赖关系。

综上所述，我们知道目前为止，视频动作识别技术所面临的主要难题为：

1)现有动作识别方法大多只用单个标签描述视频，不符合实际应用场景；

2)现有多标签分类方法大多没有考虑标签与标签之间的依赖关系；

3)现有模型需要消耗大量的时间进行训练。

发明内容

发明目的：为了解决上述现有技术存在的问题，本发明提供了一种基于Transformer的视频多标签动作识别方法。

技术方案：本发明提供了一种基于Transformer的视频多标签动作识别方法，具体包括如下步骤：

步骤1：采用3D-CNN的方法提取长视频的特征序列，特征序列中第i个特征向量对应在长视频中时序位置为i的视频帧；i＝1，2，...，m，m为特征序列中特征向量的总个数，

步骤2：对特征序列进行降维处理，得到新的特征序列F；

步骤3：将特征序列F与预设第一权重矩阵W相乘得到特征序列V，V＝{v₁，v₂，...，v_i，...，v_m}，其中v_i为V中第i个元素；

步骤4：对V中每个元素对应的视频帧在长视频中的时序位置进行编码得到位置编码矩阵P＝{p₁，p₂，...，p_i，...，p_m}，p_i为P中第i个元素；

步骤5：将步骤3得到的特征序列V和位置编码矩阵P分别作为Transformer编码器的输入，得到Transformer编码器输出的序列V′＝{v′₁，v′₂，...，v′_i，...，v′_m}，v′_i为V′中第i个元素；

步骤6：根据V′提取长视频中关键动作的开始帧和结束帧，将V′中与开始帧对应的元素作为开始元素v′_start；V′中与结束帧对应的元素作为结束元素v′_end；

步骤7：采用预设的序列作为开始标记，将开始标记与位置编码矩阵P分别作为Transformer解码器的输入；

步骤8：将v′_start，v′_end以及V′中位于v′_start和v′_end之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列

将

乘以预设的第二权重矩阵得到矩阵K，将

乘以预设的第三权重矩阵得到矩阵K′；将矩阵K和矩阵K′输入至Transformer解码器中Muti-head Attention层；

步骤9：Transformer解码器输出长视频中关键动作的所有分类标签。

进一步的，采用教师网络，通过知识蒸馏的方式对Transformer编码器和Transformer解码器进行训练。

进一步的，所述步骤4中根据如下公式计算得到p_i：

其中，M为V中每个元素的维度，且M为偶数。

进一步的，所述步骤6中根据V′提取长视频中关键动作的开始帧和结束帧具体为：设置第一网络模型和第二网络模型；所述第一网络模型和第二网络模型的结构相同均包括相互连接的点乘模块和softmax模块，将第一网络模型和第二网络模型均作为学生网络，采用教师网络分别对第一网络模型和第二网络模型进行训练；得到第一网络模型的权重向量S和第二网络模型的权重向量E；

将序列V′输入至训练好的第一网络模型，点乘模块将V′中的元素与权重向量S进行点乘得到向量A＝{a₁，a₂，...，a_i，...，a_m}，其中a_i＝v′_i·S；将向量A输入至softmax模块根据如下公式计算A中每个元素的概率，并选择概率最大的元素对应的视频帧作为开始帧：

其中exp(·)表示e^(·)；

将序列V′输入至第二网络模型中，点乘模块将V′中的元素与权重向量E进行点乘得到向量A’；将向量A’输入至softmax模块计算A’中每个元素的概率，并选择概率最大的元素对应的视频帧作为结束帧。

有益效果：

(1)本发明主要使用了Transformer模型，Transformer模型本身的结构能够有效的弥补传统深度学习网络模型的不足。

(2)本发明只对视频中的关键片段进行多标签分类，在一定程度上有效的减少了模型的数据量，同时这种方法也能够很好的用于长视频的动作识别。

(3)不同于大多数的传统方法，本发明在获取到视频多标签的同时，也考虑了标签与标签之间的联系，从而提高了多标签分类的精度。

(4)本发明采取知识蒸馏的方法对本发明中所提出来的所有网络模型进行训练，有效的减少了模型的训练时间。

附图说明

图1为整个Transformer结构图；

图2为本发明的关键动作检测过程图；

图3为本发明的多标签分类过程图。

具体实施方式

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

本实施例提供基于Transformer的视频多标签动作识别方法，该方法整体思路是在一段长视频中检测出动作所在的视频片段，预测该段视频的多标签。本方法的主要核心是对视频关键动作进行检测，首先提取长视频的特征，将视频的特征序列输入到Transformer编码器中，得到一个新的序列，对所得序列进行进一步处理得到视频关键动作所在的开始帧和结束帧，将关键动作片段输入到Transformer解码器中，根据标签与标签之间的关系预测视频的多个标签，并且通过知识蒸馏的方式对模型进行训练，其具体步骤如下：

所述关键动作检测部分具体包括如下步骤：

步骤1：提取一段长视频中的视频帧，共有m帧，通过3D-CNN的方法提取长视频特征，m个特征向量组成特征序列，特征序列中第i个特征对应在长视频中时序位置为i的视频帧；i＝1，2，...，m；所述时序位置为对每个视频帧按照时间序列从1到m进行编码，该编码为时序位置；

步骤2：对特征序列通过1×1卷积进行降维处理，处理后得到新的序列F＝{f₁，f₂，...，f_m}；f_i表示F中第i个元素；

步骤3：将特征序列F与一个权重矩阵W相乘得到特征序列V＝{v₁，v₂，...，v_m}；

步骤5：将步骤3得到的特征序列V和位置编码矩阵P共同作为Transformer编码器的输入，得到新的序列V′＝{v′₁，v′₂，...，v′_m}，即word embedding；

步骤6：根据V′提取长视频中关键动作的开始帧和结束帧，将V′中与开始帧对应的元素作为开始元素v′_start；V′中与结束帧对应的元素作为结束元素v′_end。

所述多标签分类部分具体包括如下步骤：

步骤A：通过一个预设的序列来表示开始标记，并且将开始标记输入到Transformer结构的解码器中，这也是输入解码器的第一个序列；

步骤B：将编码器中提取到的开始帧位置和结束帧位置之间的word embedding作为解码器中多头注意力(Muti-head Attention)层的输入；

步骤C：解码器输出视频的一个预测标签；

步骤D：将步骤C得到的预测标签重新作为解码器的输入，从而得到下一个预测标签；

步骤E：重复步骤C和步骤D，直到解码器输出结束标记，结束标记也是通过一个特殊的序列来进行表示，最终得到关于该视频动作片段的所有分类标签。

所述方法训练过程具体包括如下步骤：

①训练教师网络(Net-T)；

②将本发明的编码器和解码器作为学生网络(Net-S)在高温T下，蒸馏Net-T的知识到Net-S。

优选的，本实施例中，选取Youthbe-8M作为模型训练与测试的数据集，以单个视频为例，如图1所示，本实施例中长视频共有4帧，m＝4，提取视频的3D-CNN特征，简称C3D，C3D特征既能表征时域动作信息，又能表征空域动作特征，通过在帧内和帧之间进行卷积操作和池化。

优选的，所述步骤4对视频帧的时序位置进行编码得到位置编码矩阵P＝{p₁，p₂，...，p_m}，具体方法为：

其中，M为V中每个元素的维度，且M为偶数。

在本实施例中，矩阵V＝{v₁，v₂，v₃，v₄}，编码矩阵序列维度为M＝4，则

同理也可以得到其他的位置编码序列，最终得到编码矩阵P＝{p₁，p₂，p₃，p₄}。

优选的，所述步骤5将特征序列V和位置编码矩阵P共同作为Transformer编码器的输入，如图1所示，将视频特征序列V＝{v₁，v₂，v₃，v₄}和位置编码矩阵P＝{p₁，p₂，p₃，p₄}输入到编码器中，得到编码器的输出V′＝{v′₁，v′₂，...，v′_m}，具体方法为：

5.1)如图1所示，Transformer模型编码器包括依次连接的Multi-Head Attention层、残差和归一化、全连接层、残差和归一化，将特征序列V＝{v₁，v₂，v₃，v₄}和位置编码矩阵P＝{p₁，p₂，p₃，p₄}相加后得到一个新的序列，记为V″＝{v″₁，v″₂，v″₃，v″₄}＝{v₁+p₁，v₂+p₂，v₃+p₃，v₄+p₄}，将这个序列输入到编码器的Multi-Head Attention层；

5.2)在编码器的Multi-Head Attention层中，通过输入的序列V″＝{v″₁，v″₂，v″₃，v″₄}计算得到矩阵Q＝{q₁，q₂，q₃，q₄}、K＝{k₁，k₂，k₃，k₄}、

其中Q＝W_Q·V″，K＝W_K·V″，V＝W_V·V″，W_Q、W_K、W_V表示权重且随机初始化，将Q、K、V中的每一个序列与对应的权重矩阵相乘得到多个新的序列，新的序列就被称为“头”(head)，在本实施例中，生成两个“头”，即

表示权重，且随机初始化，同理也可得到q₃₁、q₃₂、q₄₁、q₄₂，也可以用同样的方式得到k₁₁、k₁₂、k₂₁、k₂₂、k₃₁、k₃₂、k₄₁、k₄₂、v₁₁、v₁₂、v₂₁、v₂₂、v₃₁、v₃₂、v₄₁、v₄₂，这些新的序列往往被用于完成不同的任务。对这些生成的“头”进行注意力(Attention)操作，本实施例中MutiHead(Q，K，V)＝Concat(head₁，head₂，head₃，head₄)W^O，W^O的含义，Concat(·)表示将序列进行上下拼接，head_i表示的是第i个头，其中

其中d_k表示矩阵

中每个序列的维度，W^O，

都表示权重矩阵，且随机初始化，在Multi-Head Attention层会得到m个新的序列；

5.3)将Muti-Head Attention层得到的序列输入到残差和Layer Normalization(归一化)层，得到新的序列，Layer Normalization的作用就是将输入的序列转化为均值是0方差是1的数据，Layer Normalization的特点是在计算均值和方差，将样本记为x_i(第x个序列的第I个元素)，在本实施例中，我们将输入到这一层的第x个序列的第i’个元素看成是样本x_i’，则公式为

其中u_L为L个样本的均值，L为样本的总个数，

为L个样本的方差，α表示的是增益，β表示的是偏置，其存在的主要作用是对归一化的数据进行缩放和移位。ε是一个很小很小的数；

5.4)残差和Layer Normalization(归一化)层的输出输入到全连接层得到新的序列，本实施例全连接层共包含两个隐藏层，并且选择Relu作为激活函数，全连接层的操作表示为：FFN(x)＝max(0，XW₁+b₁)W₂+b₂，其中W₁、b₁表示第一层隐藏层节点的权重和偏置，W₂、b₂表示第二层隐藏层节点的权重和偏置，X表示的是输入至全连接层的序列，也就是矩阵；

5.5)将全连接层得到的序列再输入到残差和Layer Normalization层，得到最终的输出序列word embedding。

优选的，在本实施例中，所述步骤6根据V′提取长视频中关键动作的开始帧和结束帧置，即定位出视频中关键动作所在片段，具体方法为：

6.1)如图2所示，通过编码器得到了新的序列，序列组成的矩阵记为V′＝{v′₁，v′₂，...，v′_m}，本实施例中m＝4；则V′＝{v′₁，v′₂，v′₃，v′₄}；再添加一个新的权重向量S，S是通过第一网络模型训练学习得到的，第一网络模型包括相互连接的点乘模块和softmax模块，将第一网络模型作为学生网络；采用教师网络对第一网络模型进行训练；得到第一网络模型的权重向量S；将序列V′输入至训练好的第一网络模型；S同V′中的序列进行点乘得到{v′₁·S，v′₂·S，v′₃·S，v′₄·S}，最后通过一个softmax，选取得分最高的序列作为开始帧，

exp(·)表示的是e^(·)；

6.2)设置一个与步骤6.1结构相同的第二网络模型(或者采用第一网络模型，对第一网络模型重新进行训练)；得到新的权重向量E；将序列V′输入至第二网络模型中，点乘模块将V′与权重向量E进行点成得到矩阵A’；将矩阵A’输入至softmax模块计算A’中每个元素的概率，并选择概率最大的元素对应的视频帧作为结束帧。

优选的，所述步骤B将编码器中提取到的开始帧位置和结束帧位置之间的wordembedding作为解码器中多头注意力(Muti-head Attention)层的输入(包括开始帧和位置帧)，具体方法为：将v′_start，v′_end以及V′中位于v′_start和v′_end之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列

将

乘以预设的第二权重矩阵得到矩阵K，将

将解码器Muti-head Attention层中输入的序列乘一个权重得到Q(通过解码器中的残差&归一化层输入至Muti-head Attention层的序列)，将v′_start，v′_end以及V′中位于v′_start和v′_end之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列

将

乘以预设的第二权重矩阵得到矩阵K，将

乘以预设的第三权重矩阵得到矩阵K′；将矩阵K和矩阵K′输入至Transformer解码器中Muti-head Attention层，在Muti-headAttention层根据

来得到新的序列。

优选的，所述步骤C解码器输出视频的一个预测标签，具体方法为：

如图3所示，解码器由Masked Muti-head Attention层、残差和LayerNormalization层，Muti-head Attention层、残差和Layer Normalization层、全连接层、残差和Layer Normalization层和线性(Linear)层组成，其中Masked Muti-head Attention与Muti-head Attention运算过程都是一样的，唯一的不同之处就是Muti-head Attention是在所有的序列上进行操作，而Masked Muti-head Attention只能在已经得到的序列上进行操作，例如已经得到了标签y₁，就只能在开始标记和y₁序列上进行Muti-head Attention，得到标签y₂就只能在开始标记、y₁、y₂序列上进行Muti-head Attention。将序列分别经过这些层，最后再经过一个softmax分类器，得到标签的概率分布，选取概率最大的标签作为视频的一个标签，如图3所示，向解码器输入一个开始序列，最终得到标签y₁，再将y₁输入到解码器中得到y₂，直到输出结束标记，最后得到视频的全部标签y₁、y₂、y₃另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

Claims

1.基于Transformer的视频多标签动作识别方法，其特征在于，具体包括如下步骤：

步骤1：采用3D-CNN的方法提取长视频的特征序列，特征序列中第i个特征向量对应在长视频中时序位置为i的视频帧；i＝1,2,…,m，m为特征序列中特征向量的总个数，

步骤2：对特征序列进行降维处理，得到新的特征序列F；

步骤3：将新的特征序列F与预设第一权重矩阵W相乘得到特征序列V，V＝{v₁,v₂,…,v_i,…,v_m}，其中v_i为V中第i个元素；

步骤4：对V中每个元素对应的视频帧在长视频中的时序位置进行编码得到位置编码矩阵P＝{p₁,p₂,…,p_i,…,p_m}，p_i为P中第i个元素；

步骤5：将步骤3得到的特征序列V和位置编码矩阵P分别作为Transformer编码器的输入，得到Transformer编码器输出的序列V'＝{v'₁,v'₂,…,v'_i,…,v'_m}，v'_i为V'中第i个元素；

步骤6：根据V'提取长视频中关键动作的开始帧和结束帧，将V'中与开始帧对应的元素作为开始元素v'_start；将V'中与结束帧对应的元素作为结束元素v'_end；

步骤8：将v'_start，v'_end以及V'中位于v'_start和v'_end之间的元素按照对应的视频帧在长视频中的时序位置依次排序组成序列

将

乘以预设的第二权重矩阵得到矩阵K，将

乘以预设的第三权重矩阵得到矩阵K'；将矩阵K和矩阵K'输入至Transformer解码器的Muti-headAttention层；

步骤9：Transformer解码器输出长视频中关键动作的所有分类标签；

所述步骤6中根据V'提取长视频中关键动作的开始帧和结束帧具体为：设置第一网络模型和第二网络模型；所述第一网络模型和第二网络模型的结构相同均包括相互连接的点乘模块和softmax模块，将第一网络模型和第二网络模型均作为学生网络，采用教师网络分别对第一网络模型和第二网络模型进行训练；得到第一网络模型的权重向量S和第二网络模型的权重向量E；

将序列V'输入至训练好的第一网络模型，点乘模块将V'中的元素与权重向量S进行点乘得到向量A＝{a₁,a₂,…,a_i,…,a_m}，其中a_i＝v'_i·S；将向量A输入至softmax模块根据如下公式计算A中每个元素的概率，并选择概率最大的元素对应的视频帧作为开始帧：

其中exp(·)表示e^(·)；

将序列V'输入至第二网络模型中，点乘模块将V'中的元素与权重向量E进行点乘得到向量A’；将向量A’输入至softmax模块计算A’中每个元素的概率，并选择概率最大的元素对应的视频帧作为结束帧。

2.根据权利要求1所述的基于Transformer的视频多标签动作识别方法，其特征在于，采用教师网络，通过知识蒸馏的方式对Transformer编码器和Transformer解码器进行训练。

3.根据权利要求1所述的基于Transformer的视频多标签动作识别方法，其特征在于，所述步骤4中根据如下公式计算得到p_i：

其中，M为V中每个元素的维度，且M为偶数。