CN113610046A

CN113610046A - 一种基于深度视频联动特征的行为识别方法

Info

Publication number: CN113610046A
Application number: CN202110968288.1A
Authority: CN
Inventors: 杨剑宇; 黄瑶
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-05
Anticipated expiration: 2041-08-23
Also published as: CN113610046B; WO2023024658A1

Abstract

本发明涉及一种基于深度视频联动特征的行为识别方法，包括以下步骤：将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影，获得相应的投影序列；通过计算每个投影序列的动态图像，获得每个行为样本的动态图像；将每个行为样本的动态图像输入各自的特征提取模块并提取特征；将提取的特征输入多投影联动特征提取模块并提取各投影组合的联动特征；按通道连接提取到的所有联动特征，并将连接后的特征输入平均池化层和全连接层；构造基于深度视频联动特征的行为识别网络；将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络，训练网络至收敛；将每个待测试行为样本的深度视频输入训练好的行为识别网络，实现行为识别。

Description

一种基于深度视频联动特征的行为识别方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于深度视频联动特征的行为识别方法。

背景技术

目前，行为识别是计算机视觉领域的一个研究热点。它在视频监控、行为分析等领域有着广泛的应用。

随着深度相机的发展，人们可以便捷的获取深度视频，其中包含了大量的运动信息。一部分学者获取深度视频中的人体骨骼关节点位置，利用关节点数据进行识别。另有一部分学者直接将深度视频输入网络进行行为识别。然而，基于骨骼关节点的行为识别，容易受到获取骨骼关节点的精度的影响，而且容易受到行为的类内差异、骨骼关节点的遮挡的影响。直接将深度视频输入网络，未能很好的利用深度视频包含的三维信息，以及行为在不同维度之间的特征的关系。

因此，针对上述行为识别算法问题，提出一种基于深度视频联动特征的行为识别方法。

发明内容

本发明是为解决现有技术中的问题而提出的，其目的在于，提供一种基于深度视频联动特征的行为识别方法，解决了现有识别方法提取的深层特征未能充分利用深度行为视频中的三维信息的问题。

一种基于深度视频联动特征的行为识别方法，包括以下步骤：

1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影，获得相应的投影序列；

2)通过计算每个投影序列的动态图像，获得每个行为样本的动态图像；

3)将每个行为样本的动态图像输入各自的特征提取模块并提取特征；

4)将提取的特征输入多投影联动特征提取模块并提取各个投影组合的联动特征；

5)按通道连接提取到的所有投影组合的联动特征，并将连接后的特征输入平均池化层和全连接层；

6)构造基于深度视频联动特征的行为识别网络；

7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络，训练网络至收敛；

8)将每个待测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络，实现行为识别。

优选的是，所述步骤1)中投影序列的获得方式为：

每个行为样本由该样本的深度视频中的所有帧组成，获取任一行为样本的深度视频，

V＝{I_t|t∈[1,N]}，

其中，t表示时间索引，N为行为样本的深度视频V的总帧数；I_t∈^R×C为行为样本的深度视频V的第t帧深度图像的矩阵表示，R、C分别对应第t帧深度图像的矩阵表示的行数、列数，表示矩阵为实数矩阵；I_t(x_i,y_i)＝d_i，表示第t帧深度图像上坐标为(x_i,y_i)的点p_i的深度值，即点p_i与深度相机的距离，d_i∈[0,D]，D表示深度相机可以探测到的最远的距离；

行为样本的深度视频V可以表示成投影序列的集合，用公式表达如下：

V＝{V_front,V_right,V_left,V_top}，

其中，V_front表示行为样本的深度视频V进行正面投影得到的投影序列，V_right表示行为样本的深度视频V进行右侧面投影得到的投影序列，V_left表示行为样本的深度视频V进行左侧面投影得到的投影序列，V_top表示行为样本的深度视频V进行顶面投影得到的投影序列；

V_front投影序列获取方式：

V_front＝{F_t|t∈[1,N]}，其中，F_t∈^R×C表示将行为样本的深度视频V的第t帧深度图像正面投影得到的投影图，深度图像中的点p_i的横坐标值x_i、纵坐标值y_i、深度值d_i分别决定该点投影到投影图F_t中的点的横坐标值

纵坐标值

像素值

可用公式表示为：

其中f₁为将深度值d_i映射到[0,255]区间的线性函数，使得深度值越小的点在投影图上的像素值越大，即离深度相机越近的点，在正面投影图上越亮；

V_right投影序列获取方式：

V_right＝{R_t|t∈[1,N]}，其中，R_t∈^R×D表示将第t帧深度图像进行右侧面投影得到的投影图；在对深度图像进行右侧面投影时，存在至少一个点被投影到投影图上的同一位置；而从右侧面观察行为，能看到的为距离观察者最近的点，即离投影平面最远的点；保留距离投影平面最远的点在深度图像上的横坐标值，以该横坐标值计算投影图该位置的点的像素值；从深度图像上横坐标x最小的一列开始向x增大的方向逐列遍历深度图像中的点，将其投影到投影图上，深度图像中的点p_i的横坐标值x_i、纵坐标值y_i、深度值d_i，分别决定投影图R_t中的点的像素值

纵坐标值

横坐标值

用公式表示为：

其中f₂为将横坐标值x_i映射到[0,255]区间的线性函数；当x不断增大，若新的点与之前被投影的点被投影到投影图的同一位置，则保留最新的点，即用横坐标值最大的点的横坐标值计算投影图该位置的像素值，即

其中x_m＝maxx_i,x_i∈X_R，X_R为深度图像中所有纵坐标值为

深度值为

的点的横坐标的集合，maxx_i,x_i∈X_R表示集合X_R中的横坐标的最大值；

V_left投影序列获取方式：

V_left＝{L_t|t∈[1,N]}，其中，L_t∈^R×D表示第t帧深度图像进行左侧面投影得到的投影图；当有多个点投影到左侧面投影图的同一位置时，保留距离投影平面最远的点；从深度图像上横坐标x最大的一列开始向x减小的方向逐列遍历深度图像中的点，将其投影到左侧面投影图上，深度图像中的点p_i的横坐标值x_i、纵坐标值y_i、深度值d_i分别决定投影图L_t中的点的像素值

纵坐标值

横坐标值

对于投影到左侧面投影图上同一坐标

处的点，选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值，用公式表示为：

其中，f₃为将横坐标值x_n映射到[0,255]区间的线性函数，x_n＝minx_i,x_i∈X_L，X_L为深度图像中所有纵坐标值为

深度值为

的点的横坐标的集合，minx_i,x_i∈X_L表示集合X_L中横坐标最小值；

V_top投影序列获取方式：

V_top＝{T_t|t∈[1,N]}，其中，O_t∈^D×C表示第t帧深度图像从顶面投影得到的投影图；多个点投影到顶面投影图的同一位置时，保留距离投影平面最远的点；从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点，将其投影到顶面投影图上，深度图像中的点p_i的横坐标值x_i、纵坐标值y_i、深度值d_i分别决定该点投影到投影图O_t中的点的横坐标值

像素值

纵坐标值

对于投影到投影图上同一坐标

处的点，选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值，用公式表示为：

其中，f₄为将纵坐标值y_q映射到[0,255]区间的线性函数，y_q＝maxy_i,y_i∈Y_O,其中Y_O为深度图像中所有横坐标值为

深度值为

的点的纵坐标的集合，maxy_i,y_i∈Y_O表示集合Y_O中纵坐标的最大值。

优选的是，所述步骤2)中的动态图像的计算方式为：

以行为样本的深度视频V的正面投影序列V_front＝{F_t|t∈[1,N]}为例，首先对F_t进行向量化，即将F_t的行向量连接成新的行向量i_t；

对行向量i_t中的每个元素求算术平方根，得到新的向量w_t，即:

其中，

表示对行向量i_t中的每个元素求算术平方根，记w_t为行为样本的深度视频V的正面投影序列V_front的第t帧的帧向量；

计算行为样本的深度视频V的正面投影序列V_front的第t帧图像的特征向量v_t，计算方式如下：

其中，

表示对行为样本的深度视频V的正面投影序列V_front的第1帧图像到第t帧图像的帧向量求和；

计算行为样本的深度视频V的正面投影序列V_front第t帧图像F_t的得分B_t，计算公式如下：

B_t＝u^T·v_t，

其中，u为维度为A的向量，A＝R×C；u^T表示对向量u转置；u^T·v_t表示计算对向量u转置后得到的向量与特征向量v_t的点积；

计算u的值，使正面投影序列V_front中帧图像的排序由前到后，得分递增，即t越大，得分B_t越高；u的计算可以使用RankSVM计算，计算方法如下：

其中，

表示使E(u)的值最小的u，λ为常数，||u||²表示计算向量u中每个元素的平方之和；B_c、B_j分别表示行为样本的深度视频V的正面投影序列V_front第c帧图像的得分、第j帧图像的得分，max{0,1-B_c+B_j}表示选取0和1-B_c+B_j中较大的值；

使用RankSVM计算出向量u后，将向量u排列成与F_t相同尺寸的图像形式，得到u′∈^R×C，u′为行为样本的深度视频V的正面投影序列V_front的动态图像。

优选的是，所述特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元；其中首先将卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5的输出依次输入至多特征融合单元，最终多特征融合单元输出M₆；

卷积单元1包含2个卷积层和1个最大池化层，每个卷积层有64个卷积核，每个卷积核的大小为3×3，最大池化层的池化核的大小为2×2，卷积单元1的输出为C₁；

卷积单元2包含2个卷积层和1个最大池化层，每个卷积层有128个卷积核，每个卷积核的大小为3×3，最大池化层的池化核的大小为2×2，卷积单元2的输入为C₁，输出为C₂；

卷积单元3包含3个卷积层和1个最大池化层，每个卷积层有256个卷积核，每个卷积核的大小为3×3，最大池化层的池化核的大小为2×2，卷积单元3的输入为C₂，输出为C₃；

卷积单元4包含3个卷积层和1个最大池化层，每个卷积层有512个卷积核，每个卷积核的大小为3×3，最大池化层的池化核的大小为2×2，卷积单元4的输入为C₃，输出为C₄；

卷积单元5包含3个卷积层和1个最大池化层，每个卷积层有512个卷积核，每个卷积核的大小为3×3，最大池化层的池化核的大小为2×2，卷积单元5的输入为C₄，输出为C₅；

多特征融合单元的输入为卷积单元1的输出C₁、卷积单元2的输出C₂、卷积单元3的输出C₃、卷积单元4的输出C₄、卷积单元5的输出C₅。卷积单元1的输出C₁输入多特征融合单元中的最大池化层1和卷积层1，最大池化层1的池化核的大小为4×4，卷积层1有512个卷积核，卷积核的大小为1×1，卷积层1的输出为M₁；

卷积单元2的输出C₂输入多特征融合单元中的最大池化层2和卷积层2，最大池化层2的池化核的大小为2×2，卷积层2有512个卷积核，卷积核的大小为1×1，卷积层2的输出为M₂；

卷积单元3的输出C₃输入多特征融合单元中的卷积层3，卷积层3有512个卷积核，卷积核的大小为1×1，卷积层3的输出为M₃；

卷积单元4的输出C₄输入多特征融合单元中的上采样层1和卷积层4，卷积层4有512个卷积核，卷积核的大小为1×1，卷积层4的输出为M₄；

卷积单元5的输出C₅输入多特征融合单元中的上采样层2和卷积层5，卷积层5有512个卷积核，卷积核的大小为1×1，卷积层5的输出为M₅，将卷积层1的输出M₁、卷积层2的输出M₂、卷积层3的输出M₃、卷积层4的输出M₄、卷积层5的输出M₅按通道连接，输入卷积层6，卷积层6有256个卷积核，卷积核的大小为1×1，卷积层6的输出为M₆，多特征融合单元的输出为卷积层6的输出为M₆；

将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块，即正面投影特征提取模块、右侧面投影特征提取模块、左侧面投影特征提取模块、顶面投影特征提取模块，在网络训练时，上述模块之间不共享参数，上述特征提取模块分别输出特征Q^f、Q^r、Q^l、Q^t；

其中，Q^f表示行为样本的深度视频V的正面投影序列的动态图像输入正面投影特征提取模块提取到的特征，Q^r表示右侧面投影序列的动态图像输入右侧面投影特征提取模块提取到的特征，Q^l表示左侧面投影序列的动态图像输入左侧面投影特征提取模块提取到的特征，Q^t表示顶面投影序列的动态图像输入顶面投影特征提取模块提取到的特征。

优选的是，所述步骤4)中各个投影组合的联动特征的提取方式为，将步骤3)中各个特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合，得到多个投影组合；

计算每个投影组合的联动特征，计算方式如下：

将投影组合中的特征按通道连接，得到组合特征Q∈^H×W×γJ，其中H、W表示投影组合中每个特征的高和宽，J表示投影组合中每个特征的通道数，γ表示投影组合中特征的个数；分别计算每个投影组合的显式联动特征Z_α和每个投影组合的隐式联动特征Z_β；计算投影组合的联动特征Z，计算公式为：

其中

表示矩阵Z_α、Z_β对应位置元素相加。

优选的是，所述步骤5)将所有投影组合的联动特征按通道进行特征连接，输入平均池化层，平均池化层的输出Γ输入全连接层2，全连接层2的神经元的个数为D₂，全连接层2的输出S₂的计算方式如下：

S₂＝φ_relu(W₂·Γ+θ₂)，

其中，φ_relu是relu激活函数，W₂是全连接层2的权重，θ₂是全连接层2的偏置向量；

将全连接层2的输出S₂输入激活函数为softmax的全连接层3，全连接层3的神经元个数为K，输出S₃的计算方式如下：

S₃＝φ_softmax(W₃·S₂+θ₃)，

其中，φ_softmax表示softmax激活函数，W₃是全连接层3的权重，θ₃是全连接层3的偏置向量。

优选的是，所述步骤6)中基于深度视频联动特征的行为识别网络的输入为行为样本的深度视频，输出为相应行为样本属于各个行为类别的概率，即全连接层3的输出Q₃，网络的损失函数L为：

其中，G是总训练行为样本的数量，K是行为样本类别数，

是第g个行为样本的网络输出，l_g是第g个行为样本期望的输出，其中l_g的第p维数据定义为：

其中，l_g是第g个样本的标签值。

优选的是，所述步骤8)中行为识别为：将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络，得到对当前测试行为视频样本预测的属于各个行为类别的概率值，概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别，从而实现行为识别。

优选的是，所述每个投影组合的显式联动特征的计算步骤如下：

1)计算组合特征Q的每个通道的特征的平均值，第a个通道的特征的平均值

计算公式如下：

其中，Q_a,h,w表示组合特征Q第a个通道第h行第w列的元素值；

2)计算组合特征Q不同通道之间的特征的显式相关程度P∈^γJ×γJ，第a个通道与第b个通道的特征的显式相关程度P^a,b计算公式如下：

其中，Q_b,h,w表示组合特征Q第b个通道第h行第w列的元素值，

表示组合特征Q第b个通道的特征的平均值；

3)计算组合特征Q不同通道之间的特征的归一化显式相关程度

第a个通道与第b个通道的特征的归一化相关程度

计算公式如下：

4)计算该投影组合的显式联动特征Z_α∈^H×W×γJ，Z_α第a个通道的特征

的计算公式如下：

其中，Q_b表示组合特征Q第b个通道的特征；

优选的是，所述每个投影组合的隐式联动特征的计算步骤如下：

1)计算组合特征Q的每个通道的平均值，并将所有通道的平均值连接成向量

2)将向量

输入全连接层1，全连接层1的神经元的个数为γJ，全连接层1的输出

其中φ_sigmoid表示sigmoid激活函数，

表示全连接层1的权重，

表示全连接层1的偏置向量；

3)计算该投影组合的隐式联动特征

Z_β第a个通道的特征

的计算公式如下：

其中

表示全连接层1的输出S₁第a个元素的值。

本发明具有以下有益效果：1)基于深度视频的行为识别不会获取人的外观等信息，保护人的隐私；同时深度视频不易受到光照的影响，而且能够提供更加丰富的关于行为的三维信息；

2)将深度视频投影到不同的平面，能够获取行为不同维度的信息，将这些信息结合起来，能够使人体行为识别更加容易；学得的深度视频在不同维度的联动特征，对于行为识别更具有区分度。

附图说明

图1为本发明的流程图

图2为特征提取模块的流程图。

图3为各个投影组合的联动特征提取的流程图。

图4为基于深度视频联动特征的行为识别网络的流程图。

图5为实施例中挥手行为的平面投影示意图。

图6为实施例中挥手行为正面投影动态图像。

具体实施方式

以下将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施方式，参见图1-6，一种基于深度视频联动特征的行为识别方法，包括以下步骤：

1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影，得到4个投影序列；

2)计算每个行为样本的4个投影序列的动态图像，得到每个行为样本的4张动态图像；

3)将4张动态图像分别输入各自的特征提取模块提取特征；

4)将4个投影序列的动态图像提取到的特征输入多投影联动特征提取模块，提取各个投影组合的联动特征；

5)将提取的所有投影组合的联动特征按通道进行特征连接，输入平均池化层以及两层全连接层；

6)构造基于深度视频联动特征的行为识别网络；

8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络，实现行为识别。

步骤2)中动态图像的获取：

以行为样本的深度视频V的正面投影序列V_front＝{F_t|t∈[1,N]}为例，其动态图像的计算方式如下：

首先对F_t进行向量化，即将F_t的行向量连接成新的行向量i_t；

其中，

表示对行向量i_t中的每个元素求算术平方根。记w_t为行为样本的深度视频V的正面投影序列V_front的第t帧的帧向量。

其中，

B_t＝u^T·v_t，

其中，u为维度为A的向量，A＝R×C。u^T表示对向量u转置；u^T·v_t表示计算对向量u转置后得到的向量与特征向量v_t的点积；

计算u的值，使正面投影序列V_front中越排在后面的帧图像，得分越高，即t越大，得分B_t越高；u的计算可以使用RankSVM计算，计算方法如下：

其中，

表示使E(u)的值最小的u，λ为常数，||u||²表示计算向量u中每个元素的平方之和；B_c、B_j分别表示行为样本的深度视频V的正面投影序列V_front第c帧图像的得分、第j帧图像的得分，max{0,1-B_c+B_j}表示选取0和1-B_c+B_j中较大的那个值；

使用RankSVM计算出向量u后，将向量u排列成与F_t相同尺寸的图像形式，得到u′∈^R×C，称u′为行为样本的深度视频V的正面投影序列V_front的动态图像。

行为样本的深度视频V的右侧面、左侧面、顶面投影序列的动态图像的计算方式与正面投影序列的动态图像的计算方式相同。

步骤4)中提取各个投影组合的联动特征：

如图3所示，将四个投影序列的动态图像输入各自的特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合，共得到11个投影组合。记正面投影序列的动态图像提取的特征与左侧面投影序列的动态图像提取的特征的组合为投影1-2组合，正面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影1-3组合，正面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影1-4组合，左侧面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影2-3组合，左侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影2-4组合，右侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影3-4组合，正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征的组合为投影1-2-3组合，正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-4组合，正面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-3-4组合，左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影2-3-4组合，正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-3-4组合。

计算每个投影组合的联动特征，计算方式如下：

将投影组合中的特征按通道连接，得到组合特征Q∈^H×W×γJ，其中H、W表示投影组合中每个特征的高和宽，J表示投影组合中每个特征的通道数，γ表示投影组合中特征的个数。

首先计算每个投影组合的显式联动特征，计算步骤如下：

(1)计算组合特征Q的每个通道的特征的平均值，第a个通道的特征的平均值

计算公式如下：

其中，Q_a,h,w表示组合特征Q第a个通道第h行第w列的元素值。

(2)计算组合特征Q不同通道之间的特征的显式相关程度

第a个通道与第b个通道的特征的显式相关程度P^a,b计算公式如下：

其中，Q_b,h,w表示组合特征Q第b个通道第h行第w列的元素值，

表示组合特征Q第b个通道的特征的平均值。

(3)计算组合特征Q不同通道之间的特征的归一化显式相关程度

第a个通道与第b个通道的特征的归一化相关程度

计算公式如下：

(4)计算该投影组合的显式联动特征

Z_α第a个通道的特征

的计算公式如下：

其中，Q_b表示组合特征Q第b个通道的特征。

然后计算每个投影组合的隐式联动特征，计算步骤如下：

(1)计算组合特征Q的每个通道的平均值，并将所有通道的平均值连接成向量

(2)将向量

其中φ_sigmoid表示sigmoid激活函数，

表示全连接层1的权重，

表示全连接层1的偏置向量。

(3)计算该投影组合的隐式联动特征

Z_β第a个通道的特征

的计算公式如下：

其中

表示全连接层1的输出S₁第a个元素的值。

最终，每个投影组合的联动特征Z的计算公式为：

其中

表示矩阵Z_α、Z_β对应位置元素相加。

一共11个投影组合，可得11个联动特征。

步骤6)构造基于深度视频联动特征的行为识别网络，如图4所示，该网络的输入为行为样本的深度视频，输出为对应行为样本属于各个行为类别的概率，即全连接层3的输出Q₃。网络的损失函数L为：

其中，G是总训练行为样本的数量，K是行为样本类别数，

其中，l_g是第g个样本的标签值。

步骤7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络，训练网络至收敛。

步骤8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络，得到对当前测试行为视频样本预测的属于各个行为类别的概率值，概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别，从而实现行为识别。

实施例：

如图5-6所示，

1)行为样本集总样本数为2400，共8个行为类别，每个行为类别有300个样本。每个行为类别中随机选取三分之二的样本划入训练集，剩下的三分之一划入测试集，得到共1600个训练样本，800个测试样本。每一个行为样本由该样本深度视频中的所有帧组成。以任一行为样本的深度视频V为例：

V＝{I_t|t∈[1,50]}，

其中，t表示时间索引，该行为样本共有50帧。I_t∈^240×240为行为样本的深度视频V的第t帧深度图像的矩阵表示，该帧深度图像的行数、列数均为240。表示矩阵为实数矩阵。I_t(x_i,y_i)＝d_i，表示第t帧深度图像上坐标为(x_i,y_i)的点p_i的深度值，即点p_i与深度相机的距离。

行为样本的深度视频V分别投影到正面、右侧面、左侧面、顶面四个平面。此时，行为样本的深度视频V可以表示成四个投影图序列的集合，用公式表达如下：

V＝{V_front,V_right,V_left,V_top}，

其中，V_front表示行为样本的深度视频V进行正面投影得到的投影序列，V_right表示行为样本的深度视频V进行右侧面投影得到的投影序列，V_left表示行为样本的深度视频V进行左侧面投影得到的投影序列，V_top表示行为样本的深度视频V投影到顶面得到的投影序列。

V_front＝{F_t|t∈[1,50]}，其中，F_t∈^240×240表示将行为样本的深度视频V的第t帧深度图像进行正面投影得到的投影图。深度图像中的点p_i的横坐标值x_i、纵坐标值y_i、深度值d_i分别决定该点投影到投影图F_t中的点的横坐标值

纵坐标值

像素值

可用公式表示为：

其中f₁为将深度值d_i映射到[0,255]区间的线性函数，使得深度值越小的点在投影图上的像素值越大，即离深度相机越近的点，在正面投影图上越亮。

V_right＝{R_t|t∈[1,50]}，其中，R_t∈^240×240表示将第t帧深度图像进行右侧面投影得到的投影图。在对深度图像进行右侧面投影时，可能存在不止一个点被投影到投影图上的同一位置。而从右侧面观察行为，能看到的为距离观察者最近的点，即离投影平面最远的点。因此，应该保留距离投影平面最远的点在深度图像上的横坐标值，以该横坐标值计算投影图该位置的点的像素值。为此，从深度图像上横坐标x最小的一列开始往x增大的方向逐列遍历深度图像中的点，将其投影到投影图上，深度图像中的点p_i的横坐标值x_i、纵坐标值y_i、深度值d_i，分别决定投影图R_t中的点的像素值

纵坐标值

横坐标值

用公式表示为：

其中f₂为将横坐标值x_i映射到[0,255]区间的线性函数。当x不断增大，可能会有新的点与之前已经被投影的点被投影到投影图的同一位置，应当保留最新的点，即用横坐标值最大的点的横坐标值计算投影图该位置的像素值，即

其中x_m＝maxx_i,x_i∈X_R，X_R为深度图像中所有纵坐标值为

深度值为

的点的横坐标的集合，maxx_i,x_i∈X_R表示集合X_R中的横坐标的最大值。

V_left＝{L_t|t∈[1,50]}，其中，L_t∈^240×240表示第t帧深度图像进行左侧面投影得到的投影图。与获取右侧面投影图相似，当有多个点投影到左侧面投影图的同一位置时，应该保留距离投影平面最远的点。为此，从深度图像上横坐标x最大的一列开始往x减小的方向逐列遍历深度图像中的点，将其投影到左侧面投影图上，深度图像中的点p_i的横坐标值x_i、纵坐标值y_i、深度值d_i分别决定投影图L_t中的点的像素值

纵坐标值

横坐标值

对于投影到左侧面投影图上同一坐标

深度值为

的点的横坐标的集合，minx_i,x_i∈X_L表示集合X_L中横坐标最小值。

V_top＝{T_t|t∈[1,50]}，其中，O_t∈^240×240表示第t帧深度图像从顶面投影得到的投影图。当有多个点投影到顶面投影图的同一位置时，应该保留距离投影平面最远的点。为此，从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点，将其投影到顶面投影图上，深度图像中的点p_i的横坐标值x_i、纵坐标值y_i、深度值d_i分别决定该点投影到投影图O_t中的点的横坐标值

像素值

纵坐标值

对于投影到投影图上同一坐标

深度值为

2)计算每个行为样本的深度视频的4个投影序列的动态图像，得到每个行为样本的4张动态图像。以行为样本的深度视频V的正面投影序列V_front＝{F_t|t∈[1,50]}为例，其动态图像的计算方式如下：

首先对F_t进行向量化，即将F_t的行向量连接成新的行向量i_t。

其中，

其中，

B_t＝u^T·v_t，

其中，u为维度为57600的向量。u^T表示对向量u转置；u^T·v_t表示计算对向量u转置后得到的向量与特征向量v_t的点积；

其中，

使用RankSVM计算出向量u后，将向量u排列成与F_t相同尺寸的图像形式，得到u′∈^240×240，称u′为行为样本的深度视频V的正面投影序列V_front的动态图像。图5为挥手行为正面投影动态图像。

3)将行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块提取特征。特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元。

卷积单元1包含2个卷积层和1个最大池化层。每个卷积层有64个卷积核，每个卷积核的大小为3×3，最大池化层的池化核的大小为2×2。卷积单元1的输出为C₁。

卷积单元2包含2个卷积层和1个最大池化层。每个卷积层有128个卷积核，每个卷积核的大小为3×3，最大池化层的池化核的大小为2×2。卷积单元2的输入为C₁，输出为C₂。

卷积单元3包含3个卷积层和1个最大池化层。每个卷积层有256个卷积核，每个卷积核的大小为3×3，最大池化层的池化核的大小为2×2。卷积单元3的输入为C₂，输出为C₃。

卷积单元4包含3个卷积层和1个最大池化层。每个卷积层有512个卷积核，每个卷积核的大小为3×3，最大池化层的池化核的大小为2×2。卷积单元4的输入为C₃，输出为C₄。

卷积单元5包含3个卷积层和1个最大池化层。每个卷积层有512个卷积核，每个卷积核的大小为3×3，最大池化层的池化核的大小为2×2。卷积单元5的输入为C₄，输出为C₅。

多特征融合单元的输入为卷积单元1的输出C₁、卷积单元2的输出C₂、卷积单元3的输出C₃、卷积单元4的输出C₄、卷积单元5的输出C₅。卷积单元1的输出C₁输入多特征融合单元中的最大池化层1和卷积层1，最大池化层1的池化核的大小为4×4，卷积层1有512个卷积核，卷积核的大小为1×1，卷积层1的输出为M₁。

卷积单元2的输出C₂输入多特征融合单元中的最大池化层2和卷积层2，最大池化层2的池化核的大小为2×2，卷积层2有512个卷积核，卷积核的大小为1×1，卷积层2的输出为M₂。

卷积单元3的输出C₃输入多特征融合单元中的卷积层3，卷积层3有512个卷积核，卷积核的大小为1×1，卷积层3的输出为M₃。

卷积单元4的输出C₄输入多特征融合单元中的上采样层1和卷积层4，卷积层4有512个卷积核，卷积核的大小为1×1，卷积层4的输出为M₄。

卷积单元5的输出C₅输入多特征融合单元中的上采样层2和卷积层5，卷积层5有512个卷积核，卷积核的大小为1×1，卷积层5的输出为M₅。将卷积层1的输出M₁、卷积层2的输出M₂、卷积层3的输出M₃、卷积层4的输出M₄、卷积层5的输出M₅按通道连接，输入卷积层6，卷积层6有256个卷积核，卷积核的大小为1×1，卷积层6的输出为M₆。多特征融合单元的输出为卷积层6的输出为M₆。

将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块，即正面投影特征提取模块、右侧面投影特征提取模块、左侧面投影特征提取模块、顶面投影特征提取模块。这四个特征提取模块的结构都相同，即特征提取模块的结构，但是在网络训练时，这四个模块之间不共享参数。这四个特征提取模块分别输出特征Q^f、Q^r、Q^l、Q^t，分别表示行为样本的深度视频V的正面投影序列的动态图像输入正面投影特征提取模块提取到的特征、右侧面投影序列的动态图像输入右侧面投影特征提取模块提取到的特征、左侧面投影序列的动态图像输入左侧面投影特征提取模块提取到的特征、顶面投影序列的动态图像输入顶面投影特征提取模块提取到的特征。

4)将各个特征提取模块提取到的特征输入多投影联动特征提取模块，提取各个投影组合的联动特征。将四个投影序列的动态图像输入各自的特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合，共得到11个投影组合。记正面投影序列的动态图像提取的特征与左侧面投影序列的动态图像提取的特征的组合为投影1-2组合，正面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影1-3组合，正面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影1-4组合，左侧面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影2-3组合，左侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影2-4组合，右侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影3-4组合，正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征的组合为投影1-2-3组合，正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-4组合，正面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-3-4组合，左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影2-3-4组合，正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-3-4组合。

计算每个投影组合的联动特征，以投影1-2组合为例，计算方式如下：

将投影1-2组合中的特征Q^f、Q^l按通道连接，得到组合特征Q∈^H×W×512，其中H、W表示Q^f、Q^l的高和宽。

首先计算该投影组合的显式联动特征，计算步骤如下：

计算公式如下：

其中，Q_a,h,w表示组合特征Q第a个通道第h行第w列的元素值。

(2)计算组合特征Q不同通道之间的特征的显式相关程度P∈^512×512，第a个通道与第b个通道的特征的显式相关程度P^a,b计算公式如下：

其中，Q_b,h,w表示组合特征Q第b个通道第h行第w列的元素值，

表示组合特征Q第b个通道的特征的平均值。

(3)计算组合特征Q不同通道之间的特征的归一化显式相关程度

第a个通道与第b个通道的特征的归一化相关程度

计算公式如下：

(4)计算该投影组合的显式联动特征Z_α∈^H×W×512，Z_α第a个通道的特征

的计算公式如下：

其中，Q_b表示组合特征Q第b个通道的特征。

然后计算该投影组合的隐式联动特征，计算步骤如下：

(2)将向量

输入全连接层1，全连接层1的神经元的个数为512，全连接层1的输出

其中φ_sigmoid表示sigmoid激活函数，W₁∈^512×512表示全连接层1的权重，θ₁∈^512×1表示全连接层1的偏置向量。

(3)计算该投影组合的隐式联动特征Z_β∈^H×W×512，Z_β第a个通道的特征

的计算公式如下：

其中

表示全连接层1的输出S₁第a个元素的值。

最终，投影1-2组合的联动特征Z的计算公式为：

其中

表示矩阵Z_α、Z_β对应位置元素相加。

一共11个投影组合，按照上述计算方式可得11个联动特征。

5)将得到的11个联动特征按通道进行特征连接，输入平均池化层，平均池化层的输出Γ输入全连接层2，全连接层2的神经元的个数为1024，全连接层2的输出S₂的计算方式如下：

S₂＝φ_relu(W₂·Γ+θ₂),

其中，φ_relu是relu激活函数，W₂是全连接层2的权重，θ₂是全连接层2的偏置向量。

将全连接层2的输出S₂输入激活函数为softmax的全连接层3，全连接层3的神经元的个数为8，全连接层3的输出S₃的计算方式如下：

S₃＝φ_softmax(W₃·S₂+θ₃)，

6)构造基于深度视频联动特征的行为识别网络，该网络的输入为行为样本的深度视频，输出为对应行为样本属于各个行为类别的概率，即全连接层3的输出S₃。网络的损失函数L为：

其中，

其中，l_g是第g个样本的标签值。

7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络，训练网络至收敛.

8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络，得到对当前测试行为视频样本预测的属于各个行为类别的概率值，概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别，从而实现行为识别。

relu激活函数，其公式为f(x)＝max(0,x)，该函数的输入是x，输出是x和0中较大的那个数。

Softmax激活函数，其公式为

其中i表示全连接层第i个神经元的输出，j表示全连接层第j个神经元的输出，n为全连接层的神经元的个数，S_i表示全连接层第i个神经元经过softmax激活函数的输出。

sigmoid激活函数，其公式为

该函数的输入是x，输出是

其中，x表示sigmoid激活函数的输入，f(x)表示sigmoid激活函数的输出。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度视频联动特征的行为识别方法，其特征在于，包括以下步骤：

4)将提取的特征输入多投影联动特征提取模块并提取各投影组合的联动特征；

6)构造基于深度视频联动特征的行为识别网络；

2.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法，其特征在于，所述步骤1)中投影序列的获得方式为：

V＝{I_t|t∈[1,N]}，

其中，t表示时间索引，N为行为样本的深度视频V的总帧数；I_t∈R×C为行为样本的深度视频V的第t帧深度图像的矩阵表示，R、C分别对应第t帧深度图像的矩阵表示的行数、列数，表示矩阵为实数矩阵；I_t(x_i,y_i)＝d_i，表示第t帧深度图像上坐标为(x_i,y_i)的点p_i的深度值，即点p_i与深度相机的距离，d_i∈[0,D]，D表示深度相机可以探测到的最远的距离；

V＝{V_front,V_right,V_left,V_top}，

V_front投影序列获取方式：

V_front＝{F_t|t∈[1,N]}，其中，F_t∈R×C表示将行为样本的深度视频V的第t帧深度图像正面投影得到的投影图，深度图像中的点p_i的横坐标值x_i、纵坐标值y_i、深度值d_i分别决定该点投影到投影图F_t中的点的横坐标值

纵坐标值

像素值

可用公式表示为：

V_right投影序列获取方式：

V_right＝{R_t|t∈[1,N]}，其中，R_t∈R×D表示将第t帧深度图像进行右侧面投影得到的投影图；在对深度图像进行右侧面投影时，存在至少一个点被投影到投影图上的同一位置；而从右侧面观察行为，能看到的为距离观察者最近的点，即离投影平面最远的点；保留距离投影平面最远的点在深度图像上的横坐标值，以该横坐标值计算投影图该位置的点的像素值；从深度图像上横坐标x最小的一列开始向x增大的方向逐列遍历深度图像中的点，将其投影到投影图上，深度图像中的点p_i的横坐标值x_i、纵坐标值y_i、深度值d_i，分别决定投影图R_t中的点的像素值

纵坐标值

横坐标值

用公式表示为：

其中x_m＝max x_i,x_i∈X_R，X_R为深度图像中所有纵坐标值为

深度值为

的点的横坐标的集合，max x_i,x_i∈X_R表示集合X_R中的横坐标的最大值；

V_left投影序列获取方式：

V_left＝{L_t|t∈[1,N]}，其中，L_t∈R×D表示第t帧深度图像进行左侧面投影得到的投影图；当有多个点投影到左侧面投影图的同一位置时，保留距离投影平面最远的点；从深度图像上横坐标x最大的一列开始向x减小的方向逐列遍历深度图像中的点，将其投影到左侧面投影图上，深度图像中的点p_i的横坐标值x_i、纵坐标值y_i、深度值d_i分别决定投影图L_t中的点的像素值

纵坐标值

横坐标值

对于投影到左侧面投影图上同一坐标

其中，f₃为将横坐标值x_n映射到[0,255]区间的线性函数，x_n＝min x_i,x_i∈X_L，X_L为深度图像中所有纵坐标值为

深度值为

的点的横坐标的集合，min x_i,x_i∈X_L表示集合X_L中横坐标最小值；

V_top投影序列获取方式：

像素值

纵坐标值

对于投影到投影图上同一坐标

其中，f₄为将纵坐标值y_q映射到[0,255]区间的线性函数，y_q＝max y_i,y_i∈Y_O,其中Y_O为深度图像中所有横坐标值为

深度值为

的点的纵坐标的集合，max y_i,y_i∈Y_O表示集合Y_O中纵坐标的最大值。

3.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法，其特征在于，所述步骤2)中的动态图像的计算方式为：

其中，

其中，

B_t＝u^T·v_t，

其中，

4.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法，其特征在于，所述特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元；其中将卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5的输出依次输入至多特征融合单元，最终多特征融合单元输出M₆；

5.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法，其特征在于，所述步骤4)中联动特征的提取方式为，将步骤3)中各个特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合，得到多个投影组合；

计算每个投影组合的联动特征，计算方式如下：

其中

表示矩阵Z_α、Z_β对应位置元素相加。

6.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法，其特征在于，所述步骤5)将所有投影组合的联动特征按通道进行特征连接，输入平均池化层，平均池化层的输出Γ输入全连接层2，全连接层2的神经元的个数为D₂，全连接层2的输出S₂的计算方式如下：

S₂＝φ_relu(W₂·Γ+θ₂)，

S₃＝φ_softmax(W₃·S₂+θ₃)，

7.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法，其特征在于，所述步骤6)中基于深度视频联动特征的行为识别网络的输入为行为样本的深度视频，输出为相应行为样本属于各个行为类别的概率，即全连接层3的输出Q₃，网络的损失函数L为：

其中，G是总训练行为样本的数量，K是行为样本类别数，

其中，l_g是第g个样本的标签值。

8.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法，其特征在于，所述步骤8)中行为识别为：将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络，得到对当前测试行为视频样本预测的属于各个行为类别的概率值，概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别，从而实现行为识别。

9.根据权利要求5所述的一种基于深度视频联动特征的行为识别方法，其特征在于，所述每个投影组合的显式联动特征的计算步骤如下：

1)计算组合特征Q的每个通道的特征的平均值，第a个通道的特征的平均值Q_a，计算公式如下：