CN112989955A

CN112989955A - 基于空时双流异构嫁接卷积神经网络人体动作识别方法

Info

Publication number: CN112989955A
Application number: CN202110192941.XA
Authority: CN
Inventors: 叶青; 钟浩鑫; 张永梅
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2021-06-18
Anticipated expiration: 2041-02-20
Also published as: CN112989955B

Abstract

本发明公开一种基于空时双流异构嫁接卷积神经网络人体动作识别方法，其包括：S1：对输入的视频进行预处理，包括根据输入视频生成光流图像和基于TRN算法对视频帧进行处理；S2：采用基于空时双流异构嫁接卷积神经网络分别将经过预处理的输入视频分成两路进行特征提取后，采用典型相关分析将提取的特征进行特征融合，其中，进行特征提取的两路分别为采用基于滤波器嫁接技术的稠密卷积神经网络提取空间信息，采用基于滤波器嫁接技术的改进Xception网络提取运动信息，空间信息为从预处理后的视频帧图像中提取的特征信息，运动信息为从预处理后的光流图像中提取的特征信息；S3：采用Softmax分类器对人体动作识别行为特征进行分类，得到最终识别结果。

Description

基于空时双流异构嫁接卷积神经网络人体动作识别方法

技术领域

本发明涉及计算机视觉领域，具体而言，涉及一种基于空时双流异构嫁接卷积神经网络人体动作识别方法，用于对人体动作识别的分析研究。

背景技术

计算机视觉领域包含很多应用方向，其中人体动作识别是一个重要的研究方向，其主要研究内容是利用计算机模拟人脑分析和识别视频中的人体行为，通常包括由单人发出的单人行为、单人与物之间发生的行为以及多人之间的互动行为。通常，基于视频行为的分析研究方法分为两大类：一类是根据传统的从视频中提取特征的方法，例如特征采样、描述符、聚类编码等方法；另一类是目前应用比较广泛的基于深度学习的特征提取方法，例如基于卷积神经网络以及其改进的网络模型、基于递归神经网络以及其改进的网络模型的方法。

近年来，基于对卷积神经网络的深入研究，在理论和实际应用方面都取得了较好的研究成果。根据网络基本结构的不同，深度神经网络可分为深度卷积网络、深度信念网络、堆叠自动编码器等。而在图像处理、行为识别、视频分割等视觉类任务中，由于深度卷积网络具有建模方便、训练过程简单、识别性能好的特点，因而得到了更多的研究和应用。然而，现有的基于深度学习的人体动作识别方法中，传统的基于单个网络的单通道识别方法的识别效果不足以满足其应用到现实场景中；另外，现有的一些双流网络虽然在识别率上有所提升，但是由于其对于视频帧之间的时间相关性利用不充分，其识别效果还能够在此基础上进一步地提升。

发明内容

为了解决上述问题，本发明提供一种基于空时双流异构嫁接卷积神经网络人体动作识别方法，通过以TRN(Temporal Relation Network，一种时间域变化关系的网络)模型作为基础进行改进，提出了空时双流异构嫁接卷积神经网络作为特征提取部分的网络模型，其中，空域的基础网络使用基于滤波器嫁接后的稠密卷积神经网络(DenselyConnected Convolutional Network，简称DenseNet)提取视频帧中的空间结构特征数据信息，时域的基础网络使用基于滤波器嫁接后的经改进的Xception网络提取视频帧中的时间运动特征数据信息，再通过典型相关分析(Canonical Correlation Analysis，即CCA)算法进行特征融合，从而得到最终的动作识别结果。本发明能够充分利用视频帧之间的时间相关信息，加速训练并提升识别效果。

为达到上述目的，本发明提供了一种基于空时双流异构嫁接卷积神经网络人体动作识别方法，其包括以下步骤：

S1：对输入的视频进行预处理，包括根据输入视频生成光流图像和基于TRN算法对视频帧进行处理；

S2：采用基于空时双流异构嫁接卷积神经网络分别将经过预处理的输入视频分成两路进行特征提取后，采用典型相关分析将提取的特征进行特征融合，其中，进行特征提取的两路分别为采用基于滤波器嫁接技术的稠密卷积神经网络提取空间信息，采用基于滤波器嫁接技术的改进Xception网络提取运动信息，其中，空间信息为从预处理后的视频帧图像中提取的特征信息，运动信息为从预处理后的光流图像中提取的特征信息；

S3：采用Softmax分类器对人体动作识别行为特征进行分类，得到最终识别结果。

在本发明一实施例中，其中，S1中根据输入视频生成光流图像的具体步骤为：

S1101：设输入视频任一帧图像中的任一像素点为(x,y)，所述像素点在第t时刻的亮度为E(x,y,t)，所述像素点的光流在水平方向和垂直方向上的位移分量分别用u和v来表示，则为：

S1102：当所述像素点经过Δt变化后亮度变为E(x+Δx,y+Δy,t+Δt)，其中，Δx和Δy分别为该像素点在x轴和y轴上的变化量，Δt为该像素点变化的时间间隔；

S1103：当时间间隔很小近似为0时，所述像素点亮度近似为不变，则

E(x，y，t)＝E(x+Δx，y+Δy，t+Δt) (3)

根据泰勒公式展开原理，计算对应像素点的亮度变化，则得到：

其中，ε为二阶无穷小项，在式(4)中由于时间间隔很短所以ε＝0；

S1104：计算对应帧图像中的每一个点的瞬时速度和方向的变化

为：

其中，w＝(u,v)，则得到光流的基本约束方程为式(5)，若令

和

分别表示图像中对应像素点灰度沿x、y和t方向的梯度，则将式(5)改写为：

E_xu+E_yv+E_t＝0 (6)

得到输入视频的光流图像。

在本发明一实施例中，其中，S1中基于TRN算法对视频帧进行处理具体为分别对输入视频的光流图像序列和视频帧图像序列进行重新分组处理，并按照时间顺序在每个组内进行排序，其具体步骤为：

S1201：将输入视频的光流图像序列和视频帧图像序列分别均匀采样出n帧图像；

S1202：从光流图像序列中采样出的n帧图像中随机挑选不同数量的光流图像，按照时间顺序将对应光流图像进行排序并分别组成2帧、3帧、...n帧相关联的光流片段组；从视频帧图像序列中采样出的n帧图像中随机挑选不同数量的视频帧图像，按照时间顺序将对应视频帧图像进行排序并分别组成2帧、3帧、...n帧相关联的视频帧片段组；

S1203：分别将每个视频帧片段组和每个光流片段组中的每帧图片送入空时双流异构嫁接卷积神经网络。

在本发明一实施例中，其中，采样出的帧数n设置为8。

在本发明一实施例中，其中，S2中提取运动信息的具体过程为：

S2101：对Xception网络进行改进，具体为将Xception网络中的3×3卷积层分解成1×3卷积层和3×l卷积层；

S2102：将预处理后任一片段组的光流图像输入到改进Xception网络的1×1卷积层进行卷积；

S2103：将卷积结果分成3个通道分别输入3×3卷积层，其中，在3×3卷积层中，每个通道的卷积结果先与1×3卷积层做卷积，再与3×1卷积层做卷积；

S2104：将每个通道的卷积结果经过串联滤波器输出。

在本发明一实施例中，其中，S2中提取空间信息的具体过程为：

S2201：将预处理后任一片段组的视频帧图像输入到稠密卷积神经网络；

S2202：稠密卷积神经网络的任一层稠密连接模块对从第0层到其前一层的结果输出进行拼接，得到的当前层的输出为：

其中，

为当前网络的第

层，

为第

层的输出，

为第

层的输出，

表示非线性的映射关系。

在本发明一实施例中，其中，S2中提取运动信息和提取空间信息时均采用滤波器嫁接技术对改进Xception网络和稠密卷积神经网络进行多次权重嫁接操作，具体为：

S2301：改进Xception网络和稠密卷积神经网络的第一次训练为无嫁接训练；

S2302：在改进Xception网络和稠密卷积神经网络进行第二次训练时，引入对应网络第一次训练后的滤波器信息对第二次训练时网络中的无效滤波器进行激活；

S2303：后续每次训练均引入上一次训练后的滤波器信息对无效滤波器进行激活。

在本发明一实施例中，其中，S2302和S2303进行激活时需要将网络层级一一对应进行嫁接，将要嫁接的本次训练时滤波器的参数信息与上一次训练后滤波器的参数信息进行加权，得到：

式中，M₂为本次训练时滤波器的参数信息，M₁为上一次训练后滤波器的参数信息，

为M₁中第i层的权重，

为M₂中第i层的权重，

‘为M₂’中第i层的权重，M₂’为M₂嫁接后的网络，α为约束参数。

在本发明一实施例中，其中，S2中采用典型相关分析将提取的特征进行特征融合为将空间信息与运动信息进行特征融合，具体为：

S2401：计算空间信息和运动信息中的任意两个特征矩阵的整体协方差矩阵S为：

式中，X(p,N)和Y(q,N)分别为两个特征矩阵，N为特征矩阵中特征的个数，p和q分别为两个特征矩阵中特征的维度，S_xx为X的协方差矩阵，S_yy为Y的协方差矩阵，S_xy为集合之间的协方差矩阵，且S_yx＝(S_xy)^T，cov为协方差；

S2402：定义线性合并表达式为典型相关分析算法的目标，其中，线性合并表达式为：X^*＝(W_x)^T X，Y^*＝(W_Y)^T Y，其中X^*，Y^*为经线性变换后的矩阵，W为变换矩阵，则成对特征的相关表达式最大相关系数为：

式中，var为方差。

在本发明一实施例中，其中，S3中设Softmax分类器中的训练集为{(x⁽¹⁾，y⁽¹⁾)，..·，(x^(m)，y^(m))},其有k个分类y⁽ⁱ⁾∈{1，2，3，...，k}，则训练集每个输入x经过训练都得到一一对应的每个类的概率p(y＝j|x)，j＝(1,2,…,k)，如果函数h_θ(x)将要输出一个k维的向量来表示这k个估计的概率值，则假设函数为：

式中，

为模型的参数。

与现有技术相比，本发明所采用的预处理方法可以充分利用视频帧之间的时间相关信息，有助于特征信息地充分提取；其次，对每个相关联的视频帧片段的每帧图片基于空时双流异构嫁接卷积神经网络提取特征信息可以加速训练，同时识别效果也有提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中人体动作识别的流程图；

图2为本发明一实施例采用TRN算法对视频帧图像进行处理的示意图；

图3为Xception网络的基本结构图；

图4a为常规卷积示意图；

图4b为基于深度上的卷积示意图；

图4c为1×1拓展卷积示意图；

图5为本发明一实施例采用的改进Xception网络的结构图；

图6为DenseNet网络的结构图；

图7为外部滤波器嫁接示意图。

附图标记说明：S1、S2、S3-步骤；M-输入的图像特征通道数；D_K-卷积核的长和宽；N-卷积核的个数；M₁、M₂、M₁’、M₂’-网络；Layer₁、Layer₂、Layer_n-网络层。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例中人体动作识别的流程图，如图1所示，本实施例提供了一种基于空时双流异构嫁接卷积神经网络人体动作识别方法，其包括以下步骤：

第一步：对输入的视频进行预处理，包括根据输入视频生成光流图像和基于TRN算法对视频帧进行处理；

视频通常由连续多帧的视频图像组成，对于卷积神经网络来说，将这些视频图像输入到网络中提取特征，那么视频的采样方法将直接影响到训练好的数据模型的泛化能力。对于一个完整的动作视频来说，视频中帧与帧之间在时间维度上的关系尤为重要，因此，通过分析视频帧在时间维度上的变化，许多容易被混淆的动作类别都可以很好地被区分出来。另外，由于本发明是基于双通道的算法输入，因此需要用到输入视频所对应的光流图，因此，需要在图片预处理阶段生成光流图。

在本发明一实施例中，其中，第一步中根据输入视频生成光流图像的具体步骤为：

S1101：设输入视频任一帧图像中的任一像素点为(x,y)，该像素点在第t时刻的亮度为E(x,y,t)，该像素点的光流在水平方向和垂直方向上的位移分量分别用u和v来表示，则为：

S1102：当该像素点经过Δt变化后亮度变为E(x+Δx,y+Δy,t+Δt)，其中，Δx和Δy分别为该像素点在x轴和y轴上的变化量，Δt为该像素点变化的时间间隔；

S1103：当时间间隔很小近似为0时，该像素点的亮度可以近似为不变，则：

E(x，y，t)＝E(x+Δx，y+Δy，t+Δt) (3)

根据泰勒(Taylor)公式展开原理，计算对应像素点的亮度变化，则得到：

其中，ε为二阶无穷小项，在式(4)中由于时间间隔很短所以ε可以忽略，即ε＝0；

S1104：计算对应帧图像中的每一个点的瞬时速度和方向的变化(即为光流)

为：

其中，w＝(u,v)，则得到光流的基本约束方程为式(5)，若令

和

E_xu+E_yv+E_t＝0 (6)

得到输入视频的光流图像。

在本发明一实施例中，其中，第一步中基于TRN算法对视频帧进行处理具体为分别对输入视频的光流图像序列和视频帧图像(RGB图像)序列进行重新分组处理，并按照时间顺序在每个组内进行排序，其具体步骤为：

S1201：将输入视频的光流图像序列和视频帧图像(RGB图像)序列分别均匀采样出n帧图像；

S1202：从光流图像序列中采样出的n帧图像中随机挑选不同数量的光流图像，按照时间顺序将对应光流图像进行排序并分别组成2帧、3帧、...n帧相关联的光流片段组；从视频帧图像(RGB图像)序列中采样出的n帧图像中随机挑选不同数量的视频帧图像(RGB图像)，按照时间顺序将对应视频帧图像(RGB图像)进行排序并分别组成2帧、3帧、...n帧相关联的视频帧片段组；

图2为本发明一实施例采用TRN算法对视频帧图像进行处理的示意图，如图2所示，在本实施例中，先将视频帧图像(RGB图像)序列分别均匀采样出n帧图像，记作V＝{f₁,f₂,f₃,…,f_n}，再从这n帧图像中随机挑选不同数量的视频帧图像(RGB图像)，按照时间顺序将对应视频帧图像(RGB图像)进行排序并组成2帧、3帧、...、n帧相关联的视频帧片段组，如图2中的f₁和f₉组成2帧的片段组，f₅和f₁₀组成2帧的片段组，f₃、f₈和f₁₂组成3帧的片段组，f₁、f₄和f₁₀组成3帧的片段组，f₂、f₅、f₉和f₁₂组成4帧的片段组等。同理，光流图像的处理方法与视频帧图像的处理方法相同，在此不再赘述。

S1203：分别将每个视频帧片段组和每个光流片段组中的每帧图片送入空时双流异构嫁接卷积神经网络，用以进行特征信息提取。

在本实施例中，如图2所示，先将第一个2帧的片段组中的f₁和f₉送入空时双流异构嫁接卷积神经网络，再将第二个2帧的片段组中的f₅和f₁₀送入空时双流异构嫁接卷积神经网络，以此类推，在此不再赘述。

在本发明另一实施例中，采样出的帧数n为8。

第二步：采用基于空时双流异构嫁接卷积神经网络分别将经过预处理的输入视频分成两路进行特征提取后，采用典型相关分析(CCA)将提取的特征进行特征融合，其中，进行特征提取的两路分别为采用基于滤波器嫁接技术的稠密卷积神经网络(DenseNet)提取空间信息，采用基于滤波器嫁接技术的改进Xception网络提取运动信息；

再如图1所示，在本实施例中，空间信息为从预处理后的视频帧图像(即RGB图像)中提取的特征信息，运动信息为从预处理后的光流图像中提取的特征信息。

其中，第二步中提取运动信息的具体过程为：

S2104：将每个通道的卷积结果经过串联滤波器输出。

Google在提出Inception V3网络模型后，又推出了另一种改进的网络模型即为Xception。Xception网络模型对Inception V3中的卷积操作方式进行了进一步地改进，采用了深度分离卷积(Depthwise Separable Convolution)的卷积操作。

图3为Xception网络的基本结构图，如图3所示，在Xception网络结构中，先用同一个1×1卷积层对前一层网络的输入进行卷积，然后再分成3个通道将上一步的结果分别送入3×3的卷积层再进行卷积，其中，这里是将经过前面1×1卷积层的结果中的三分之一的通道分别输入这3个3×3的卷积层进行再卷积。最后，经过串联滤波器输出。

图4a为常规卷积示意图，如图4a所示，在传统的卷积操作中，如果M为输入的图像特征通道数，D_K为卷积核的长和宽，N为卷积核的个数，则可以看作是N个M×D_K×D_K卷积核，即该层的参数量为N×M×D_K×D_K。图4b为基于深度上的卷积示意图，图4c为1×1拓展卷积示意图，如图4b和图4c所示分别表示深度可分离卷积的主要两步卷积。深度可分离卷积算法主要为：如果本应该对网络层中3×3的卷积层进行卷积，那么深度可分离卷积就是先将输入的M个特征图(设输入特征图长宽均为D_F)一对一地用M个3×3卷积层进行运算(不包括求和)，可以得到M个结果；随后，将M个结果输入到N个1×1的卷积核，并且进行传统地卷积操作并求和，获得N个最终结果。因此，可以实现将深度分离卷积分成两步，先是进行如图4b所示的深度上的卷积(Depthwise Convolution)操作，再进行如图图4c所示的1×1拓展卷积(Pointwise Convolution)操作，从而大大减少网络的计算量，如下式所示：

图5为本发明一实施例采用的改进Xception网络的结构图，如图5所示，本实施例采用的改进Xception网络在图3所示Xception网络基础上，将3×3卷积层分解成1×3卷积层和3×l卷积层，即将输入特征图先与1×3卷积层做卷积，再与3×1卷积层做卷积。这种非对称型卷积层网络结构拆分适用于较为复杂的网络结构，在处理更冗杂的特征信息以及增加特征多样性等方面的效果优于常见的对称型卷积网络结构，同时还可以减少网络参数，以此达到减少计算量的效果。

其中，第二步中提取空间信息的具体过程为：

S2201：将预处理后任一片段组的视频帧图像(即RGB图像)输入到稠密卷积神经网络(DenseNet)；

S2202：稠密卷积神经网络(DenseNet)的任一层稠密连接模块(Dense Block)对从第0层到其前一层的结果输出进行拼接，得到的当前层的输出为：

其中，

为当前网络的第

层，

为第

层的输出，

为第

层的输出，

表示非线性的映射关系。

稠密卷积神经网络(DenseNet)是在残差网络(Residual Network，简称ResNet)结构的基础上改进而来的，理论上来说，模型架构的容量和特征判别能力能够随着网络层数的不断加深而不断提高，然而如果简单增加网络的深度则会出现梯度弥散问题，即过深的网络结构易导致梯度消失，因此残差网络(ResNet)网络使用捷径连接(shortcutconnection)搭建深度残差网络结构能够很好地解决该问题。残差网络(ResNet)网络通过快捷连接结构，跳过2或3个卷积层，每个网络之间用ReLU函数激活，通过尽量避免参数与参数间互相依存的关系，减少过拟合发生的次数。而稠密卷积神经网络(DenseNet)在此基础上进行了改进，实现每一层的输入通过捷径连接的方法来与前面所有层的输出相关联。传统的提升网络性能的方法有加深网络层数以及加宽网络结构,稠密卷积神经网络(DenseNet)结构则从特征复用的角度出发，利用特征复用和旁路(Bypass)设置，在减少了大量网络参数的同时，又在一定程度上缓解了梯度消失问题的产生。

图6为DenseNet网络的结构图，如图6所示，虽然目前许多研究者都利用捷径连接(shorter connections)，使网络模型在加深的同时变得更准确、更高效，而跳跃连接在稠密卷积神经网络(DenseNet)结构中得到了充分地运用，构成了一种稠密的卷积神经网络，稠密卷积神经网络(DenseNet)结构让每一层卷积层都与前面的每个卷积层的输出相关联。在传统卷积结构中，第

层一般会有

个连接点，但对于DenseNet结构来说，第

层则只需要

个连接点就可以起到同样的效果。

在ResNet网络结构中，第

层的输出加上对第

层非线性映射后的输出的结果是第

层的输出，如下式(9)所示；而对于DenseNet网络结构，第0层到第

层的输出特征图进行拼接(concatenation)的结果用

来表示，这里的拼接是指通道之间的合并，如下式(8)所示，

其中，

为当前网络的第

层，

为第

层的输出，

为第

层的输出，

表示一个非线性的映射关系。

由于稠密卷积神经网络(DenseNet)中的稠密连接模块(Dense Block)的网络结构设计，Dense Block之间加入卷积层(Convolutional)和池化层(Pooling)，相比其他传统网络结构DenseNet的网络更窄，参数量更少，同时，使用Dense Block的连接方式可以有效地提高特征和梯度的传递效率，以此达到方便训练网络的目的。因此，DenseNet网络结构可以很好地缓解梯度消失问题，增加了特征的选择范围，从而增强了特征的耦合能力。

其中，第二步中提取运动信息和提取空间信息时均采用滤波器嫁接技术(FilterGrafting)对改进Xception网络和稠密卷积神经网络(DenseNet)进行多次权重嫁接操作，具体为：

S2301：改进Xception网络和稠密卷积神经网络(DenseNet)的第一次训练为无嫁接训练；

S2302：在改进Xception网络和稠密卷积神经网络(DenseNet)进行第二次训练时，引入对应网络第一次训练后的滤波器信息对第二次训练时网络中的无效滤波器进行激活；

S2303：后续每次训练均引入上一次训练后的滤波器信息对无效滤波器进行激活，以实现多次迭代训练。

其中，S2302和S2303进行激活时需要将网络层级一一对应进行嫁接，将要嫁接的本次训练时滤波器的参数信息与上一次训练后滤波器的参数信息进行加权，得到：

为M₁中第i层的权重，

为M₂中第i层的权重，

为了使深神经网络的表达能力得到增强，本发明实施例中引入一种学习范式-滤波器(Filter)嫁接技术。由于不重要或无效的滤波器在大多数深度神经网络中十分常见，且它们限制了神经网络的特征信息表达能力，所以如何处理好它们对网络模型的性能有较深层次地影响。为了提高效率，本领域一些其他技术采用滤波器修剪(Filter Pruning)算法来去除这些无效的滤波器，而滤波器修剪(Filter Pruning)算法通过将外部信息(权重)或者网络内部信息(权重)嫁接到这些无效的滤波器的位置，随后为了提高精度而重启它们，从而有效地提升网络模型对于特征信息的表达能力。本发明实施例使用的滤波器嫁接技术(Filter Grafting)是一种基于熵的准则来测量网络中滤波器所获得的信息量，以此可以更顺利地完成嫁接过程，此外，滤波器嫁接技术算法中还通过一种自适应的加权方式来平衡不同网络间的嫁接信息。为了使网络模型有更强的表达能力，大多数网络中无效的滤波器经过嫁接操作后，未触及状态会大幅减少。

一般情况下，滤波器的信息量用L₁范数来表示，以网络中第i卷积层中的第j个滤波器的权重用W_i,j∈R^Ni×K×K来表示，其中，K为滤波器(卷积核)的总长和总宽，N_i为第i层中滤波器的总个数，则滤波器权重W_i,j的L1范数为：

式中，n为第i层滤波器个数，k₁和k₂分别表示滤波器的长和宽。

滤波器权值的绝对值是L1范数准则的主要标准，而在网络中卷积核权值的变化才是决定网络模型性能好坏的关键点，不讨论卷积核权重的变化是L1范数准则的一个重要问题。若一个滤波器的权重为W_i,j∈R^Ni×K×K，则满足对于任意n∈{1，…，N_i}，k₁∈{1，…，K}和k₂∈{1，…，K}，W_i,j中的值都是相等的，即W_i,j(n，k₁，k₂)＝a。所以，利用W_i,j对输入参数进行卷积运算时，即便得到的a比较大，最后每个部分的输入对输出的贡献也是相同的，网络不能区分哪个滤波器的输入更重要，因此，需要观察权重的变化。假设从随机变量X的分布中得到不同的W_i,j值，并用信息熵来衡量分布，得到的分布满足P(X＝1)，那么每个W_i,j的值均相同，且信息熵为0。由于计算连续分布的信息熵会十分困难，要先将连续分布采样为离散分布，例如：可以用B个不同的容器作为滤波器权重值的范围划分，随后计算每个容器的概率，得到最终目标值的信息熵：

式中，B为滤波器权重值所划分的容器的数量，p_k为第k个容器的概率。其中，当H(W_i,j)的分数越小则意味着滤波器的分数越小，即变化的信息越少。

假设第i层总共有C个滤波器，则第i层的总信息量为：

但是式(12)中存在一个问题，由于式(12)中仅独立计算每个滤波器的信息，忽略了滤波器之间的相关性，为了保持各层之间的关联性，直接计算整个层的权重W_i,j∈R^Ni×K×K用到如下公式：

式(13)与式(11)的不同在于公式(13)的分数信息来自整个层的权重，而不只是单个滤波器的权重。

图7为外部滤波器嫁接示意图，如图7所示，根据上述原理可以对滤波器进行嫁接，本实施例将外部网络中的滤波器权重作为接穗，这种算法适用于多网络并行训练，以此提高网络(M₁和M₂)的训练效率。在每一轮epoch(使用训练集的全部数据对模型进行一次完整训练的过程，又称为一代训练)的训练结束后，将外部网络信息熵较高的滤波器权值移植到信息熵较少的滤波器中，其中，嫁接是在网络层的级别上完成的。在图7中，可以将M₁网络某层中的所有滤波器的权重嫁接到M₂网络的同一层中，也可以将M₂网络的某层滤波器的权重反向嫁接到M₁网络的同一层中，例如将M₂网络的Layer₁层滤波器的权重嫁接到M₁网络的Layer₁层中，将M₂网络的Layer₂层滤波器的权重嫁接到M₁网络的Layer₂层中，将M₂网络的Layer_n层滤波器的权重嫁接到M₁网络的Layer_n层中。进行嫁接时将要嫁接的滤波器的内部信息与外部信息进行加权，得到：

式中，

表示M₁中第i层的权重，

表示M₂中第i层的权重，用

表示M₂’中第i层的权重，M₂’为M₂嫁接后的网络，α为约束参数。同理反向嫁接时计算的是M₁’的权重，M₁’为M₁嫁接后的网络

一般情况下，两个相同网络的滤波器的初始权重值并不相同，所以两个网络中信息熵低的滤波器的分布情况也是不一样的。在信息移植的过程中，如果单是对一个层中的部分滤波器进行操作，则很可能会破坏网络层结构的一致性。

在本发明实施例中，根据前述算法原理对DenseNet网络和Xception网络均进行了滤波器的多次权重嫁接操作。以DenseNet网络为例，通过引入第一次无嫁接训练后的网络中的滤波器信息，来激活第二次训练的DenseNet网络中无效滤波器使它们在网络中的有效性大大提升。激活的方式为将第二次训练的DenseNet网络有效滤波器的参数嫁接到第一次训练的DenseNet网络的无效滤波器上，然后多次迭代训练后根据信息熵相关的信息评估滤波器的有效性，并用自适应的方式来平衡嫁接网络和被嫁接网络的参数以及性能。同样的，在Xception网络中通过引入第一次无嫁接训练后的网络中的滤波器信息，来激活第二次训练的Xception网络中无效滤波器，然后通过多次迭代训练评估滤波器的有效性，并用自适应的方式来平衡嫁接网络和被嫁接网络的参数以及性能。

其中，第二步中采用典型相关分析(CCA)将提取的特征进行特征融合为将空间信息与运动信息进行特征融合，具体为：

S2402：定义线性合并表达式为CCA算法的目标，其中，线性合并表达式为：X^*＝(W_x)^TX，Y^*＝(W_Y)^T Y，其中X^*，Y^*为经线性变换后的矩阵，W为变换矩阵，则成对特征的相关表达式最大相关系数为：

式中，var为方差。

在视频行为分析领域，特征融合是通过将图像中提取的多个特征信息合并成一个，合并后的特征信息具有更强的判别能力和更多的信息量。本发明实施例进行特征融合的方法为典型相关分析(Canonical Correlation Analysis，即CCA)。典型相关分析(CCA)算法利用两个输入特征信息之间的相关联性，分别进行两种变换，变换后的特征信息有更高的相关联性。

第三步：采用Softmax分类器对人体动作识别行为特征进行分类，得到最终识别结果。

本发明采用Softmax分类器对人体动作识别行为的特征进行分类，为每个视频生成一个概率标签。Softmax回归模型是Logistic回归模型(一种广义的线性回归分析模型)在多分类应用上拓展后所得到模型，该模型在多分类问题中运用十分常见。

在本实施例中，设Softmax分类器中的训练集为{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))},有k个分类y⁽ⁱ⁾∈{1,2,3,...,k}，训练集每个输入x经过训练都得到一一对应的每个类的概率p(y＝j|x)，j＝(1,2,…,k)。如果函数h_θ(x)将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值，则假设函数为：

式中，

为模型的参数。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种基于空时双流异构嫁接卷积神经网络人体动作识别方法，其特征在于，包括以下步骤：

S2：采用基于空时双流异构嫁接卷积神经网络分别将经过预处理的输入视频分成两路进行特征提取后，采用典型相关分析将提取的特征进行特征融合，其中，进行特征提取的两路分别为采用基于滤波器嫁接技术的稠密卷积神经网络提取空间信息，采用基于滤波器嫁接技术的改进Xception网络提取运动信息，其中，所述空间信息为从预处理后的视频帧图像中提取的特征信息，所述运动信息为从预处理后的光流图像中提取的特征信息；

2.根据权利要求1所述的方法，其特征在于，S1中根据输入视频生成光流图像的具体步骤为：

S1101：设输入视频任一帧图像中的任一像素点为(x，y)，所述像素点在第t时刻的亮度为E(x，y，t)，所述像素点的光流在水平方向和垂直方向上的位移分量分别用u和v来表示，则为：

S1102：当所述像素点经过Δt变化后亮度变为E(x+Δx，y+Δy，t+Δt)，其中，Δx和Δy分别为该像素点在x轴和y轴上的变化量，Δt为该像素点变化的时间间隔；

E(x，y，t)＝E(x+Δx，y+Δy，t+Δt) (3)

为：

其中，w＝(u，v)，则得到光流的基本约束方程为式(5)，若令

和

E_xu+E_yv+E_t＝0 (6)

得到输入视频的光流图像。

3.根据权利要求1所述的方法，其特征在于，S1中基于TRN算法对视频帧进行处理具体为分别对输入视频的光流图像序列和视频帧图像序列进行重新分组处理，并按照时间顺序在每个组内进行排序，其具体步骤为：

4.根据权利要求3所述的方法，其特征在于，采样出的帧数n设置为8。

5.根据权利要求1所述的方法，其特征在于，S2中提取运动信息的具体过程为：

S2101：对Xception网络进行改进，具体为将Xception网络中的3×3卷积层分解成1×3卷积层和3×1卷积层；

S2104：将每个通道的卷积结果经过串联滤波器输出。

6.根据权利要求1所述的方法，其特征在于，S2中提取空间信息的具体过程为：

x_l＝H_l([x₀，x_l，...，x_l-1]) (7)

其中，l为当前网络的第l层，x_l为第l层的输出，x_l-1为第l-1层的输出，H_l表示非线性的映射关系。

7.根据权利要求1所述的方法，其特征在于，S2中提取运动信息和提取空间信息时均采用滤波器嫁接技术对改进Xception网络和稠密卷积神经网络进行多次权重嫁接操作，具体为：

8.根据权利要求7所述的方法，其特征在于，S2302和S2303进行激活时需要将网络层级一一对应进行嫁接，将要嫁接的本次训练时滤波器的参数信息与上一次训练后滤波器的参数信息进行加权，得到：

为M₁中第i层的权重，

为M₂中第i层的权重，

为M₂’中第i层的权重，M₂’为M₂嫁接后的网络，α为约束参数。

9.根据权利要求1所述的方法，其特征在于，S2中采用典型相关分析将提取的特征进行特征融合为将空间信息与运动信息进行特征融合，具体为：

式中，X(p，N)和Y(q，N)分别为两个特征矩阵，N为特征矩阵中特征的个数，p和q分别为两个特征矩阵中特征的维度，S_xx为X的协方差矩阵，S_yy为Y的协方差矩阵，S_xy为集合之间的协方差矩阵，且S_yx＝(S_xy)^T，cov为协方差；

S2402：定义线性合并表达式为典型相关分析算法的目标，其中，线性合并表达式为：X^*＝(W_x)^TX，Y^*＝(W_Y)^TY，其中X^*，Y^*为经线性变换后的矩阵，W为变换矩阵，则成对特征的相关表达式最大相关系数为：

式中，var为方差。

10.根据权利要求1所述的方法，其特征在于，S3中设Softmax分类器中的训练集为{(x⁽¹⁾，y⁽¹⁾)，...，(x^(m)，y^(m))}，其有k个分类y⁽ⁱ⁾∈{1，2，3，...，k}，则训练集每个输入x经过训练都得到一一对应的每个类的概率p(y＝j|x)，j＝(1，2，…，k)，如果函数h_θ(x)将要输出一个k维的向量来表示这k个估计的概率值，则假设函数为：

式中，

为模型的参数。