CN112990122B

CN112990122B - 一种基于视频基础单元分析的复杂行为识别方法

Info

Publication number: CN112990122B
Application number: CN202110448783.XA
Authority: CN
Inventors: 李太豪; 马诗洁; 谢冰; 刘昱龙; 郑书凯; 裴冠雄
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-08-17
Anticipated expiration: 2041-04-25
Also published as: CN112990122A

Abstract

本发明公开了一种基于视频基础单元分析的复杂行为识别方法。该方法将视频的行为识别拆分为时序上的原子行为，空间上基于目标检测和场景识别提取视频中的物体和背景信息，并将提取的语义信息送入时序模型进行分析。该方法相比以往的视频行为识别，将视频在时间和空间上进行分解为基础任务进行检测和识别，可解释性更强。同时基于此方法，可以针对不同的任务情况，选择性的提取需要的基础单元信息，通过拆分的方法增强了复杂行为识别任务的灵活性。

Description

一种基于视频基础单元分析的复杂行为识别方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及了一种基于视频基础单元分析的复杂行为识别方法。

背景技术

通过视频理解人类行为是计算机视觉领域的一个基础研究问题。在人机交互，视频推荐等方面具有广阔的应用前景。

目前的行为识别主要分为两种方法，基于骨骼点的行为识别方法和基于视频的行为识别方法。基于骨骼点的行为识别方法，可以减少外界环境的干扰，但是缺乏同环境和物体的交互信息，所以复杂场景下识别率有限。基于视频的行为识别方法，包括two-stream方法，3DCNN的方法，上述方法可以提取复杂的语义信息，但是容易受到周围复杂环境，光照等信息的干扰。基于视频的行为识别方法由于视频中包含的信息过于复杂，在进行视频行为识别时，很难关注到关键信息，同时不同人的同一种行为复杂多样，同一种行为类内差异大。

发明内容

为解决现有技术的不足，实现复杂行为识别的目的，本发明采用如下的技术方案：

一种基于视频基础单元分析的复杂行为识别方法，包括如下步骤：

步骤一：将复杂行为的视频序列V，在时间序列上进行分段，分为X个子视频v _i，i=0,…,X-1；

步骤二：对各个子视频进行原子行为识别，输出原子行为向量；对各个子视频的中间帧进行目标检测，输出目标检测向量；对各个子视频的中间帧进行场景识别，输出场景识别向量，包括如下步骤：

步骤2.1，将X个子视频分别送到slow-fast行为检测网络中，进行原子行为识别；

步骤2.2，对于每个子视频，输出结果为N个场景中人的检测框，每个检测框对应n个原子行为的概率，将N个长度为n的向量在维度N上进行深度自注意力变换网络（max）操作，作为子视频经过原子行为识别网络的识别结果，输出原子行为向量A _i；

步骤2.3，子视频v _i包含s个图像序列，取出[s/2]序列位置处所对应的图像；

步骤2.4，将图像放入Yolov3目标检测网络中进行通用目标检测，输出M个目标检测框坐标，并且输出M个维度为L的向量，每个向量代表预测为各个物体的置信度，输出目标检测向量D _i；

步骤2.5，将图像放入Resnet分类网络中进行通用场景分类，分类总数为E，经过分类模型后输出X个维度为E的向量，向量的每个维度表示分类为当前种类的置信度值，输出场景识别向量C _i；

步骤三：将原子行为向量、目标检测向量和场景识别向量，进行连接操作生成向量F；

步骤四：向量F与位置信息相加，利用深度自注意力变换网络（transformer）模型的编码（encoder）模块进行分类。

进一步地，所述步骤2.2中的原子行为识别包括如下步骤：对于每个子视频v _i，i=0,…,X-1，每个v _i子视频序列送入到SlowFast行为检测网络中，生成N个包围框的坐标，同时生成N个维度为n的向量，每个向量代表预测为原子行为的置信度，对视频V中的的X个子视频处理后，输出结果如下：

=(a _k0,a _k1,…,a _kn),i=0,1…,X-1,k=0,1,…,N-1

a表示N个维度为n的向量，对a在维度N上进行最大值（max）操作，输出向量：

A _i=(max(a ₀₀,a ₁₀,…,a _(N-1)0),max(a ₀₁,a ₁₁,…,a _(N-1)1),…, max(a _0(n-1),a _1(n-1),…,a _(N-1)(n-1))),i=0,1…,X-1。

所述步骤2.2中的原子行为构成一组原子行为数据集，该原子行为数据集的出现为复杂行为的构建提供了理论依据。所述原子行为在同一个人身上同时发生，并且属于快速的动作行为。

进一步地，所述步骤2.4中的目标检测包括如下步骤：对于每个子视频的中间图像I _i,i=0,…,X-1，将每个v _i子视频序列送入到Yolov3目标检测网络中，检测器可检测的目标类别总数量为L，生成M个包围框的坐标，同时生成M个维度为L的向量，每个向量代表了预测为各个目标的置信度，对于每个图像I _i处理后，整个视频的输出结果如下：

=(d _k0,d _k1,…,d _kL-1),i=0,1…,X-1,k=0,1,…,M-1

d表示M个维度为L的向量，对d在维度M上进行最大值（max）操作，输出向量：

D _i=(max(d ₀₀,d ₁₀,…,d _(M-1)0),max(d ₀₁,d ₁₁,…,d _(M-1)1),…, max(d _0(L-1),d _1(L-1),…,d _{(M-1) (L-1)})),i=0,1…,X-1。

进一步地，所述步骤2.5中的场景分类，输出结果如下：

C _i=(c ₀,c ₁,…,c _E-1),i=0,1,…,X-1

c表示X个维度为E的向量，向量的每个维度表示分类为当前种类的置信度值。

进一步地，所述步骤三中，将输出向量A _i,D _i,C _i,i=0,1,…,X-1，进行concat拼接操作，生成向量F _i,i=0,1,…,X-1，所述concat拼接操作如下：

F _i=[a ₀,a ₁,…,a _n-1,d ₀,d ₁,…,d _L-1,c ₀,c ₁,…,c _E-1],i=0,1,…,X-1

a表示N个维度为n的向量，行为检测网络中，生成N个包围框的坐标，同时生成N个维度为n的向量，每个向量代表预测为原子行为的置信度；d表示M个维度为L的向量，目标检测网络中，检测的目标类别总数量为L，生成M个包围框的坐标，同时生成M个维度为L的向量，每个向量代表了预测为各个目标的置信度；c表示X个维度为E的向量，分类网络中进行场景分类，分类总数为E，输出X个维度为E的向量，向量的每个维度表示分类为当前种类的置信度值。

进一步地，所述步骤四中，将生成的F _i,i=0,1,…,X-1作为词嵌入（wordembedding）与位置嵌入（Positional Embedding，即位置编码向量）相加后，得到整个视频高级语义表征，输入到深度自注意力变换网络（tranformer）模型的编码（encoder）模块中进行分类，因为transformer模型的自注意力（self-attention）层并没有包含位置信息。

进一步地，所述位置嵌入（Positional Embedding）的计算公式如下：

PE _(pos,2i)=sin(pos/1000^{2i/d model})

PE _(pos,2i+1)=cos(pos/1000^{2i/d model})

pos是当前子视频在总视频中的位置，与时序相关，i是指向量中每个值的索引（index），偶数位置，使用正弦编码，在奇数位置，使用余弦编码，d model表示词嵌入（wordembedding）的向量长度。

进一步地，所述步骤2.1中的行为检测网络是SlowFast行为识别网络，使用慢速高分辨率来分析视频中的静态内容，快速低分辨率来分析视频中的动态内容，其中慢通道（Slow pathway）帧率低，用于提取空间语义信息，网络宽度大，快通道（Fast pathway）帧率低，用于提取时序动作信息，网络宽度小，将子视频以不同的采样频率分别送入到慢通道（Slow pathway）和快通道（Fast pathway）中进行处理，获得该子视频的原子行为识别结果。

进一步地，所述步骤2.4中的目标检测网络是一种单阶段（one-stage）的Yolov3目标检测网络，包括前置网络CNN用于提取语义特征，以及三个不同尺度的Yolo算法的头部预测（Yolo head）模块对目标框进行预测和回归，网络中基于FPN的方式，对不同尺度的语义特征进行融合，将低尺度的低级细节特征和高尺度的高级语义特征融合，增强特征的语义表达能力，提高了目标检测的准确率。

进一步地，所述步骤2.5中的分类网络是Resnet分类网络，Resnet基于残差学习的方法解决了在加深网络的情况下不会发生梯度消失的问题。

本发明的优势和有益效果在于：

本发明相比以往的视频行为识别，将视频在时间和空间上进行分解为基础任务进行检测和识别，可解释性更强。同时基于本发明的方法，可以针对不同的任务情况，选择性的提取需要的基础单元信息，通过拆分的方法增强了复杂行为识别任务的灵活性。

附图说明

图1是本发明的方法流程图。

图2是本发明中SlowFast网络结构图。

图3是本发明中Yolov3网络结构图。

图4是本发明中Resnet网络结构图。

图5是本发明中transformer encoder基础结构图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

现实场景中的行为往往是由时间序列上的原子行为按照时间关系构成的。对于人人交互，人物交互等行为，场景中的物体对于行为的理解也会起到很重要的作用，同时场景中物体信息，动作发生的场景信息也跟行为有一定程度上的关联。基于上述理论，提出一种基础视频基础单元分析理解的视频复杂行为识别方法，该方法将视频的行为识别拆分为时序上的原子行为，空间上基于目标检测和场景识别提取视频中的物体和背景信息，并将提取的语义信息送入时序模型进行分析，如图1所示，包括如下几个步骤：

步骤101、将视频均匀切分为X个子视频。视频总图像序列数目为S，将视频均匀分为X段，每个子视频所含的图像序列数目为Z，则S = Z*X。

步骤102、对子视频进行三个特征提取的操作。步骤101的子视频分别输入到行为识别网络，目标检测网络和场景分类网络中，进行特征提取。

利用行为识别网络对子视频中的原子行为进行识别。其中的行为识别网络详情如下：SlowFast是一个行为识别网络，如图2所示，使用了慢速高分辨率来分析视频中的静态内容，一个快速低分辨率来分析视频中的动态内容。其中Slow pathway帧率低，用于提取空间语义信息，网络宽度大。Fast pathway帧率低，主要用来提取时序动作信息，网络宽度小。将子视频以不同的采样频率分别送入到Slow pathway和Fast Pathway中进行处理，获得该子视频的原子行为识别结果。将每个子视频输入到Slow fast网络中分别进行原子行为识别，生成N个包围框的坐标，同时生成N个维度为80的向量，每个向量代表了预测为原子行为的置信度。对这N个维度为80的向量进行最大值（max）操作，输出向量A _i,i=0,…,X-1。

利用Yolov3网络对子视频的中间帧进行目标检测。其中Yolov3的目标检测网络详情如下：Yolov3是一种单阶段（one-stage）的目标检测算法，网络流程如图3所示。主要包括前置网络CNN提取语义特征和三个不同尺度的Yolo算法的头部预测（Yolo head）模块对目标框进行预测和回归。网络中基于FPN的方式，对不同尺度的语义特征进行融合，将低尺度的低级细节特征和高尺度的高级语义特征融合，增强特征的语义表达能力，提取提高了目标检测的准确率。

本发明中，分别将子视频的中间帧送入到Yolov3网络结构中，生成M个包围框的坐标，同时生成M个维度为L的向量，每个向量代表了预测为各个目标的置信度。然后对这M个维度为L的向量进行max操作，输出向量D _i,i=0,1…,X-1。

利用Resnet网络对子视频的中间帧进行场景分类。其中Resnet网络结构如图4所示。深度学习网络中会存在网络越深，梯度消失的问题，Resnet基于残差学习的方法解决了在加深网络的情况下不会发生梯度消失的问题。本发明中采用Resnet网络对子视频中的中间帧图像进行场景分类，分类包括足球场，教室，酒吧等场景。所有子视频中的关键帧经过分类网络之后，生成向量C _i,i=0,1,…,X-1。

步骤103、基于102处理步骤之后，会输出三个向量A _i,i=0,…,X-1,D _i,i=0,1…,X-1,C _i,i=0,1,…,X-1。三个向量分别代表了视频中提取的原子行为，目标，场景这三种基础特征。将这三个向量进行拼接，生成向量F _i=[a ₀,a ₁,…,a ₇₉,d ₀,d ₁,…,d _L-1,c ₀,c ₁,…,c _E-1],i=0,1,…,X-1。

步骤104、步骤103中的向量F作为词嵌入（word embedding），将向量F和位置嵌入（position embedding，即位置编码向量）相加。因为深度自注意力变换网络（transformer）模型的自注意力（self-attention）层并没有包含位置信息。训练时想让位置信息参与训练，需要构造和word embedding维度一样的矩阵。矩阵的生成方式如下：

PE _(pos,2i)=sin(pos/1000^{2i/d model})

PE _(pos,2i+1)=cos(pos/1000^{2i/d model})

PE为二维矩阵，维度跟词嵌入（word embedding）的维度一样。pos是指当前子视频在总视频中的位置，与时序相关，i是指向量中每个值的索引（index）。

将相加后的向量结果输入到深度自注意力变换网络的编码模块（transformerencoder）中进行分类。因为复杂行为具有时序相关性，就跳远来讲，分为助跑阶段，跳跃阶段，落地阶段。同时空间中运动场地等场景信息和场景中的物体也会对复杂行为的判断起到很大的影响。该步骤中将前面时序的子视频提取的信息，输入到深度自注意力变换网络的编码模块（transformer encoder）中进行处理，输出最后的复杂行为分类结果，深度自注意力变换网络的编码模块（transformer encoder）网络结构如图5所示。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于视频基础单元分析的复杂行为识别方法，其特征在于包括如下步骤：

步骤2.1，将X个子视频分别送到行为检测网络中，进行原子行为识别；

步骤2.2，对于每个子视频，输出结果为N1个场景中人的检测框，每个检测框对应n1个原子行为的概率，将N2个长度为n2的向量在维度N3上进行最大值操作，作为子视频经过原子行为识别网络的识别结果，输出原子行为向量A _i；

步骤2.4，将图像放入目标检测网络中进行通用目标检测，输出M个目标检测框坐标，并且输出M个维度为L的向量，每个向量代表预测为各个物体的置信度，输出目标检测向量D _i；

步骤2.5，将图像放入分类网络中进行场景分类，分类总数为E，输出X个维度为E的向量，向量的每个维度表示分类为当前种类的置信度值，输出场景识别向量C _i；

步骤四：向量F与位置信息相加，利用深度自注意力变换网络模型的编码模块进行分类。

2.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法，其特征在于所述步骤2.2中的原子行为识别包括如下步骤：对于每个子视频v _i，i=0,…,X-1，每个v _i子视频序列送入到行为检测网络中，生成N4个包围框的坐标，同时生成N2个维度为n2的向量，每个向量代表预测为原子行为的置信度，输出结果如下：

=(a _k0,a _k1,…,a _kn2),i=0,1…,X-1,k=0,1,…,N2-1

a表示N2个维度为n2的向量，对a在维度N3上进行最大值操作，输出向量：

A _i=(max(a ₀₀,a ₁₀,…,a _(N3-1)0),max(a ₀₁,a ₁₁,…,a _(N3-1)1),…, max(a _0(n2-1),a _1(n2-1),…,a _(N3-1)(n2-1))),i=0,1…,X-1。

3.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法，其特征在于所述步骤2.4中的目标检测包括如下步骤：对于每个子视频的中间图像I _i,i=0,…,X-1，将每个v _i子视频序列送入到目标检测网络中，检测的目标类别总数量为L，生成M个包围框的坐标，同时生成M个维度为L的向量，每个向量代表了预测为各个目标的置信度，对于每个图像处理后，整个视频的输出结果如下：

=(d _k0,d _k1,…,d _kL-1),i=0,1…,X-1,k=0,1,…,M-1

d表示M个维度为L的向量，对d在维度M上进行最大值操作，输出向量：

4.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法，其特征在于所述步骤2.5中的场景分类，输出结果如下：

C _i=(c ₀,c ₁,…,c _E-1),i=0,1,…,X-1

5.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法，其特征在于所述步骤三中，将输出向量A _i,D _i,C _i,i=0,1,…,X-1，进行concat拼接操作，生成向量F _i,i=0,1,…,X-1，所述concat拼接操作如下：

F=[a ₀,a ₁,…,a _n2-1,d ₀,d ₁,…,d _L-1,c ₀,c ₁,…,c _E-1],i=0,1,…,X-1

a表示N2个维度为n2的向量，行为检测网络中，生成N4个包围框的坐标，同时生成N2个维度为n2的向量，每个向量代表预测为原子行为的置信度；d表示M个维度为L的向量，目标检测网络中，检测的目标类别总数量为L，生成M个包围框的坐标，同时生成M个维度为L的向量，每个向量代表了预测为各个目标的置信度；c表示X个维度为E的向量，分类网络中进行场景分类，分类总数为E，输出X个维度为E的向量，向量的每个维度表示分类为当前种类的置信度值。

6.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法，其特征在于所述步骤四中，将生成的F _i,i=0,1,…,X-1作为词嵌入与位置嵌入相加后，得到整个视频高级语义表征，输入到深度自注意力变换网络模型的编码模块中进行分类。

7.如权利要求6所述的一种基于视频基础单元分析的复杂行为识别方法，其特征在于所述位置嵌入的计算公式如下：

PE _(pos,2i’)=sin(pos/1000^{2i’/d model})

PE _{(pos,2i’+1)}=cos(pos/1000^{2i’/d model})

pos是当前子视频在总视频中的位置，与时序相关，i'是指向量中每个值的索引，偶数位置，使用正弦编码，在奇数位置，使用余弦编码，d model表示词嵌入的向量长度。

8.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法，其特征在于所述步骤2.1中的行为检测网络是SlowFast行为识别网络，使用慢速高分辨率来分析视频中的静态内容，快速低分辨率来分析视频中的动态内容，其中慢通道帧率低，用于提取空间语义信息，网络宽度大，快通道帧率低，用于提取时序动作信息，网络宽度小，将子视频以不同的采样频率分别送入到慢通道和快通道中进行处理，获得该子视频的原子行为识别结果。

9.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法，其特征在于所述步骤2.4中的目标检测网络是一种单阶段的Yolov3目标检测网络，包括前置网络CNN用于提取语义特征，以及不同尺度的Yolo算法的头部预测模块对目标框进行预测和回归，网络中基于FPN的方式，对不同尺度的语义特征进行融合，将低尺度的低级细节特征和高尺度的高级语义特征融合。

10.如权利要求1所述的一种基于视频基础单元分析的复杂行为识别方法，其特征在于所述步骤2.5中的分类网络是Resnet分类网络。