CN116895098A

CN116895098A - 基于深度学习和隐私保护的视频人体动作识别系统与方法

Info

Publication number: CN116895098A
Application number: CN202310891520.5A
Authority: CN
Inventors: 汪华登; 康宁; 刘瑞涛; 蓝如师; 罗笑南; 涂珺羿
Original assignee: Nanning Guidian Electronic Technology Research Institute Co ltd; Guilin University of Electronic Technology
Current assignee: Nanning Guidian Electronic Technology Research Institute Co ltd; Guilin University of Electronic Technology
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-17

Abstract

本发明公开了一种基于深度学习和隐私保护的视频人体动作识别系统与方法，所述系统包括依次连接的视频图像处理模块、人体检测模块、人体骨骼关键点提取模块、基于骨骼关键点的动作识别模块和输出模块，所述方法为从监控视频数据中提取关键帧图片并进行预处理、得到人体区域子图、提取模型得到人物动作信息、对连续累计的人物动作信息进行编码融合并进行动作预测、将动作预测结果进行输出，并对人体进行隐私处理。这种系统成本低、组网方便、便于应用和推广，这种方法在识别行人动作的同时能隐私、能够同时完成人体检测、动作识别、隐私保护这三个任务。

Description

基于深度学习和隐私保护的视频人体动作识别系统与方法

技术领域

本发明涉及视频监控技术，具体是一种基于深度学习和隐私保护的视频人体动作识别系统与方法。这种系统成本低、组网方便、便于应用和推广，这种方法在识别行人动作的同时能隐私、能够同时完成人体检测、动作识别、隐私保护这三个任务。

背景技术

目前，人体动作识别可以应用于安防、娱乐、监控、医疗等多个领域，有很高的研究价值和发展前景，在实际应用当中，人体动作识别可以分为光学式运动捕捉、机械式运动捕捉、视觉动作捕捉等。

光学式运动捕捉通常是采用一套光学摄像头来实现动作识别任务，需要让目标穿着特制的光学运动捕捉服，再由多个高速摄像机从不同角度对目标特征点进行跟踪来完成全身的动作的捕捉。光学式运动捕捉可以获取十分精确的人体动作信息，但这类装备使用成本昂贵，需要配置专用的光学设备。机械式运动捕捉则是采用机械装置来跟踪和测量人体动作，经典的机械式运动捕捉系统由多个关节和连杆组成，形似外骨骼，在关节中装有角度传感器，用于测量关节转动的角度变化，从而在使用者佩戴装置并移动时得到关节点在空间的运动轨迹，进而获取人体动作信息。机械式运动捕捉成本低，装置定标简单，精度也较高，但是无法在公共场合进行推广。视觉动作捕捉则是通过摄像头拍摄画面，并通过一系列图像处理算法取得人体动作信息，视觉动作捕捉无需检测人员穿戴任何设备，也无需很高的成本花销，可以在公共场所进行实施推广，但是算法的精度直接影响着动作识别的正确性。

近年来，很多公共场所、家庭、公司都设有监控摄像头，通过这些摄像头进行人体动作识别可有效解决许多领域的难题，但如何避免在公共场所等复杂环境下对人体动作进行检测时出现漏检误检问题、如何提高动作检测算法的精度、如何解决用监控进行动作检测带来的隐私问题，仍然亟需本领域技术人员研究解决。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于深度学习和隐私保护的视频人体动作识别系统与方法。这种系统成本低、组网方便、便于应用和推广，这种方法在识别行人动作的同时能隐私、能够同时完成人体检测、动作识别、隐私保护这三个任务。

实现本发明目的的技术方案是：

一种基于深度学习和隐私保护的视频人体动作识别系统，包括依次连接的视频图像处理模块、人体检测模块、人体骨骼关键点提取模块、基于骨骼关键点的动作识别模块和输出模块，其中：

视频图像处理模块用于从视频数据中提取关键帧图片并进行预处理；

人体检测模块用于构建人体检测模型，在训练完成后送入视频关键帧图片，依据模型对图片中的人体进行监测，并将识别出的人体分割为人体区域子图；

人体骨骼关键点提取模块用于构建人体骨骼关键点检测模型，在训练完成后送入人体区域子图，依据模型从人体图像中提取出骨骼关键点，通过骨骼关键点构造出人物的动作信息；

基于骨骼关键点的动作识别模块用于构建人体动作检测识别模型，在训练完成后送入人体骨骼关键点序列，依据模型预测人体动作，并输出预测结果，完成对人体动作的检测；

输出模块是将人体检测模块、人体骨骼关键点提取模块和基于骨骼关键点的动作识别模块的输出结果进行整合，将人体区域子图在原图像上可视化展示，同时在图像上输出每个人体的动作检测结果，并对人体做隐私处理。

一种基于深度学习和隐私保护的视频人体动作识别方法，包括上述基于深度学习和隐私保护的视频人体动作识别的系统，所述方法包括如下步骤：

1)从监控视频流中提取视频帧；

2)采用视频图像处理模块处理视频帧，设置视频关键帧提取的间隔，对提取的关键帧图片进行预处理图像增强，包括：

2-1)每隔K帧提取视频关键帧转化为关键帧图片，其中为取得识别精度和识别效率的平衡，K的取值为2-8；

2-2)对关键帧图片进行图像数据增强，图像数据增强操作包括：对图像进行缩放，即确定高为640、宽为480的图像模板作为数据增强图像尺寸，将不符合尺寸的图像通过双线性插值法进行缩放，提高图像亮度、提高图像对比度，即对图像进行HSV色域变换和直方图均衡化处理；

3)构建人体检测模型，将每个增强后的视频关键帧图片送入人体检测模型，采用人体检测神经网络判断图像中是否有人体，若是，则将识别出的人体区域分割为人体区域子图，并进入步骤4)，否则，返回步骤1)，包括：

3-1)基于MPII、COCO的人体数据集，标注生成行人检测训练的图像数据；

3-2)确定高为640、宽为480的图像模板作为YOLOv5模型输入图像尺寸，将标注的图像数据进行自适应缩放、裁剪边界得到处理完成的模型输出数据；

3-3)载入YOLOv5模型在COCO数据集预训练的参数，对网络进行初始化；

3-4)依据处理完成的图像数据输入至YOLOv5模型进行训练，得到人体检测模型；

4)构建人体骨骼关键点检测模型，将分割出的人体区域子图送入人体骨骼关键点检测模型，采用人体骨骼关键点检测神经网络提取出人体的骨骼关键点，构造出人体动作信息，其中，所述人体骨骼关键点检测神经网络为一种分层网络，第一层由4个特征融合学习组件结构FFL_1组成，该层是网络的主干结构，完成主要的预测任务；第二层由4个特征融合学习组件结构FFL_2组成，该层从降低尺寸的特征图中提取特征，以协助第一层的预测任务；第三层由2个特征融合学习组件结构FFL_2组成，该层通过进一步降低尺寸，以更大的感受野提取图像的全局特征，以协助前两层的预测任务；

上述神经网络中所述的特征融合学习组件结构FFL_1由依次连接的多尺度特征融合模块和残差卷积模块组成；

上述神经网络中所述的特征融合学习组件结构FFL_2由依次连接的多尺度特征融合模块、感受野增强模块和残差卷积模块组成；

其中，残差卷积模块包含2个依次连接的卷积层、BN归一化层、Dropout层、Relu激活函数层；多尺度特征融合模块用于集成来自相邻阶段的多尺度特征图，将多个输入图像分别经过卷积层修改为相同尺寸进行融合，再将融合结果分别输入到核大小为1×1,3×3,5×5的卷积层中，以对不同尺度的特征进行融合；感受野增强模块将输入图像并行输入到不同卷积核大小、不同膨胀系数的膨胀卷积中，再将输出特征进行融合；

上述神经网络中层与层之间使用多尺度特征融合模块进行交流，并使用上采样和下采样在相邻层图像特征传递时修改其尺寸以获取全局特征，在下采样中采用平均池化法、在上采样层中采用最近邻插值法；

上述神经网络中第一层通道数为64，图像尺寸为H×W，其中，H为输入图像高度，W为输入图像宽度；第二层通道数为128，图像尺寸为H/2×W/2；第三层通道数为256，图像尺寸为H/4×W/4；网络输入层的通道数为3，网络输出层的通道数为16，除输入层输出层外，其余卷积层的卷积核大小均为3×3；

5)判断累计的人体动作信息数量是否超过设置的阈值，若是，则进入步骤6)，否则，返回步骤1)，具体为：

5-1)判断步骤4)中网络输出层输出的人体骨骼关键点数量是否达到16个，若不足则舍弃该结果；

5-2)计算并存储符合要求的人体骨骼序列特征，当符合要求的连续人体骨骼序列特征数量达到一定数量Z时，则进入步骤6)进行处理，为取得识别精度和识别效率的平衡，Z的取值为3-5；

6)对于数量足够的连续人体动作信息进行空间信息融合，得到连续空间时间域的人体动作图特征张量，包括：

6-1)初始化一个Z×16×16大小的张量A用于存储连续时间域内骨骼序列中的所有关节，即邻接矩阵，在初始化中将张量的所有元素初始化为0，其中A的表达式如下：

A(z,i,j)＝0，

其中A(z,i,j)表示连续时间域内骨架序列特征向量张量，z∈Z，i和j表示骨骼序列中的16个关键点，i＝0,1,2,...,15，j＝0,1,2,...,15，根据提取出的人体骨骼关键点，将关键点信息嵌入A中，具体嵌入方式如下式所示：

6-2)根据提取出的人体骨骼关键点生成人体动作轨迹序列特征F＝[g₁，g₂，…，g_z]，g∈R^V,E，其中V表示骨骼关键点的集合，E表示连接关键点的边的集合；

7)构建基于骨骼关键点的动作识别模型，将步骤6)得到的人体动作图特征张量送入基于骨骼关键点的动作识别模型，依据动作识别神经网络检测人物动作并输出检测结果，完成对视频图像中人物动作的检测，其中，基于骨骼关键点的动作识别神经网络为双分支神经网络，双分支神经网络中的两个分支能分别对全局和细节的人体姿态信息进行学习聚合，输入图像特征先经过BN归一化层进行预先处理，再分别通过网络的主干部分和分支部分进行特征学习，最后对两个分支的学习结果进行融合，通过依次连接的图卷积模块、全局平均池化模块、全连接模块、Softmax层得到最终预测结果；

上述网络的主干部分由依次连接的两个图卷积模块、图池化模块GP_3、图注意力模块组成；

上述网络的分支部分由依次连接的图池化模块GP_1、图注意力模块、图卷积模块、图池化模块GP_2、图注意力模块组成；

其中，图卷积模块包含依次连接的GCN层、BN归一化层、Relu激活函数层；图池化模块将原始骨架图按照人体结构分解为数个子图，进而融合子图内的节点，从而将原图池化成节点少、信息丰富的新图，GP_1将16个节点池化为11个节点，GP_2将11个节点池化为6个节点，GP_3将16个节点池化为6个节点；注意力模块将输入图像输入依次连接的卷积核大小为1×1的卷积层和Relu激活函数层进行特征提取，进一步地通过FC全连接层将特征转换为注意力特征，再用Sigmoid函数将注意力特征映射为0-1，最后将注意力特征作用于原图，提取隐藏在特定通道中的区别性特征；

8)将人体检测模型分割的人体区域子图范围和基于骨骼关键点的动作识别模型检测的人物动作输出在视频帧上，同时对人体检测模型中检测的人体进行隐私化处理，具体为：

获取步骤3)中人体区域子图的像素区域，其中像素区域的四个顶点分别为(x,y)，(x+x₀,y)，(x,y+y₀)，(x+x₀,y+y₀)，设置隐私化区域顶点为：(x,y)，(x+x₀/3,y)，(x,y+y₀/3)，(x+x₀/3,y+y₀/3)，在输出图像中对此区域进行模糊处理，模糊处理是采用马赛克数据增强方式，即将图像的宽和高作为边界值，对图像进行k_x和k_y缩放倍率的缩放,表达式如下：

img_cp＝cp(img,k_x,k_y)，

img_out＝repeat_interleave(img_cp,k_x,k_y)，

其中，img表示输入图像，img_cp表示经过压缩的图像，img_out表示还原后的输出图像，cp()为图像压缩算法，采用最近邻插值法以k_x和k_y的缩放倍率降低尺寸，repeat_interleave()表示图像以k_x和k_y的缩放倍率通过重复像素点数值进行放大。

本技术方案具有如下有益效果：

(1)本技术方案对监控器设备的要求不高，仅需要能够采集RGB图像的视频摄像头即可，无需购置特殊传感器、红外线灯等设备，无需额外安装深度图像采集装置，可以节约成本，更有利于应用和推广；

(2)本技术方案无需额外设置用于穿戴的人体骨骼识别装置，直接从监控视频中提取所需要的信息加以使用，只要行人在监控区域内就可以进行动作识别，更方便进行部署；

(3)本技术方案提高了人体骨骼关键点提取和动作识别的准确性，本技术方案的人体骨骼关键点检测神经网络以HRNet为基础进行构建和改进，HRNet借助相同深度和类似层级的低分辨率表示进行重复的多尺度融合，在姿态估计领域取得了优异的效果，本技术方案在特征学习与多尺度融合方面进行一定改进，同时使用感受野增强模块学习不同尺度的特征，在HRNet的基础上取得了更高的检测精度，本技术方案的动作识别神经网络基于GCN的原理，采用了双分支网络结构和图池化模块以在不同阶段融合不同层次的信息，从而获得较高的动作识别精度，两个神经网络的优化可以保证本技术方案最后动作识别结果的有效性和准确性。

本技术方案在输出识别结果的同时加入了行人隐私保护功能，在对人体动作输出的同时会将人体区域关键部分进行马赛克模糊处理，这样即可以满足识别人体动作需求，同时又避免了个人信息的曝光。

这种系统成本低、组网方便、便于应用和推广，这种方法在识别行人动作的同时能隐私、能够同时完成人体检测、动作识别、隐私保护这三个任务。

附图说明

图1为实施例系统的结构示意图；

图2为实施例的方法流程图；

图3为实施例的人体骨骼关键点检测神经网络模型结构示意图；

图4为实施例的残差卷积模块、多尺度特征融合模块、感受野增强模块的模型结构示意图，其中图a为残差卷积模块结构示意图、图b为多尺度特征融合模块结构示意图、图c为感受野增强模块结构示意图；

图5为实施例中的人体关键点示意图；

图6为实施例中的基于骨骼关键点的动作识别神经网络模型结构示意图；

图7为实施例中的图池化模块可视化效果示意图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

参照图1，一种视频人体动作识别的系统，包括依次连接的视频图像处理模块、人体检测模块、人体骨骼关键点提取模块、基于骨骼关键点的动作识别模块和输出模块，其中：

本例中，从监控视频中监测人物动作行为过程包括人体检测、基于HRNet卷积神经网络的人体骨骼关键点提取、人体骨骼序列特征构建、基于GCN图卷积网络的动作识别这四个部分，本列的输入是任意RGB监控器输出的监控视频，采用视频处理库ffmpeg从监控视频中提取关键帧图片，本例每隔2-8个视频帧，提取一个关键帧转化为关键帧图片，并对其进行预处理以增强有关信息的可检测性，对于每一张关键帧图片，本例采用基于YOLOv5的人体检测方法检测画面中是否存在人体；若存在，则开始提取人体骨骼关键点，生成人体骨骼序列特征，重复检测人体和提取人体骨骼关键点的过程，当取得了足够数量的连续人体骨骼序列特征，将序列特征融合处理并输入到动作识别模型中得到人物动作的识别结果，构建出一个从监控视频输入到人物动作识别输出的端到端的系统。

本例人体骨骼关键点检测神经网络和动作识别神经网络都分别基于卷积神经网络HRNet和图卷积网络GCN进行了改进，同时采用大量标注数据进行训练，保证本技术方案最终人体动作识别具有高精度、有效性和鲁棒性。

如图2所示，一种基于深度学习和隐私保护的视频人体动作识别方法，包括上述基于深度学习和隐私保护的视频人体动作识别的系统，所述方法包括如下步骤：

1)从监控视频流中提取视频帧；

2-1)每隔K帧提取视频关键帧转化为关键帧图片，其中为取得识别精度和识别效率的平衡，本例K的取值为2-8，由于在监控视频流中，即使是连续的数帧，人体动作差别也并不大，因此为了降低机器计算负荷，提高效率，本例设置每隔2-8帧提取视频关键帧转化为关键帧图片，从而增加网络响应的速度；

2-2)对关键帧图片进行图像数据增强，图像数据增强操作包括：对图像进行缩放即确定高为640、宽为480的图像模板作为数据增强图像尺寸，将不符合尺寸的图像通过双线性插值法进行缩放，提高图像亮度、提高图像对比度，即对图像进行HSV色域变换和直方图均衡化处理；

3-1)基于MPII、COCO的人体数据集，标注生成本例的行人检测训练的图像数据；

本例中，人体检测模型以YOLOv5作为骨干网络，设置高为640、宽为480的图像模板作为模型的输入图像尺寸，输出类别为行人一类，模型采用COCO数据集预训练的参数，对网络进行初始化，减少训练量，采用基于MPII、COCO的人体数据集标注生成的行人检测训练图像数据进行训练，其中初始学习率设置为0.001，批次大小设置为4，批次大小设置为1000，训练完成后保存训练模型；

4)构建人体骨骼关键点检测模型，将分割出的人体区域子图送入人体骨骼关键点检测模型，采用人体骨骼关键点检测神经网络提取出人体的骨骼关键点，从而构造出人体动作信息，其中，如图3所示，所述人体骨骼关键点检测神经网络为一种分层网络，第一层首先通过卷积层修改输入图像的通道数，再通过4个特征融合学习组件结构FFL_1进行特征学习和跨层交流；第二层通过4个特征融合学习组件结构FFL_2完成更大感受野的特征学习和跨层特征融合，以提高预测精度；第三层通过2个特征融合学习组件结构FFL_2获取图片的全局特征，并将特征传递给第二层，以提高网络在图片全局范围的识别能力。通过三层分支网络对不同尺寸大小的图片进行特征学习与融合交流，可以极大地提升网络的预测精度；

上述神经网络中所述的特征融合学习组件结构FFL_1由依次连接的多尺度特征融合模块和残差卷积模块组成，先通过多尺度特征融合模块进行跨层特征融合，再使用残差卷积模块进行特征学习；

上述神经网络中所述的特征融合学习组件结构FFL_2由依次连接的多尺度特征融合模块、感受野增强模块和残差卷积模块组成，先通过多尺度特征融合模块进行跨层特征融合，再经过感受野增强模块提高特征识别的感受野，增加对图片中大尺度人体的识别准确度，最后使用残差卷积模块进行特征学习；

如图4(a)中所示，本例中的残差卷积模块包括依次连接的第一卷积层、BN归一化层、Dropout层、Relu激活函数层和第二卷积层、BN归一化层、Dropout层、Relu激活函数层，并将输入特征与第二个Dropout层输出结果进行逐像素相加，以防止训练退化，其中使用卷积核大小为3×3的卷积层、归一化层、激活函数层用于提取特征，Dropout层设置dropout率为20％，用于防止过拟合；

如图4(b)中所示，本例中的多尺度特征融合模块从多个层接受图片输入，首先分别使用上采样、下采样、卷积层规范图像尺寸，再将图片特征在通道层面进行融合，最后通过不同感受野大小的卷积层进行特征学习，融合学习结果并进行归一化输出；

本例中，多尺度特征融合模块将前一残差卷积模块的特征图和相邻阶段的上采样和下采样进行拼接，不同层之间的特征输入数量不同，例如第一层和最后一层只有2张图片输入，具体的融合操作如下式所示：

其中x_i,j表示输入的图像特征，D()和U()分别表示下采样和上采样，[]表示连接操作，x_i,j是一个经过残差卷积模块学习输出的特征图像，其中i和j分别定义为网络的行和列，根据节点位置，将特征融合方法分为三种情况：节点x_i,j-1分别与x_i-1,j-1的上采样输出或x_i+1,j-1的下采样输出组合，或与两者同时组合；

此外，本例中，多尺度特征融合模块下采样、上采样操作分别使用池化核为2×2的平均池化法和双线性插值法完成，以减小网络计算量，融合前，设模块的输入图片大小分别为H×W×C，H/2×W/2×2C，2H×2W×C/2，其中，H为输入图像高度，W为输入图像宽度，经过上述采样后尺寸均为H×W×C，方便进行融合，融合完成后，分别通过1×1卷积层，3×3卷积层以及5×5卷积层，最后合并并通过BN归一化得到输出特征图像；

如图4(c)所示，本例中的感受野增强模块包括不同卷积核大小、不同膨胀率的膨胀卷积层、Relu激活函数层以及特征融合层，通过不同扩张程度的膨胀卷积获得不同感受野下的多尺度信息，其中，第一条分支包括依次连接的膨胀率为1的3×3膨胀卷积层、膨胀率为3的3×3膨胀卷积层以及Relu激活层，第二条分支包括依次连接的膨胀率为1的5×5膨胀卷积层、膨胀率为3的5×5膨胀卷积层以及Relu激活层，第三条分支包括依次连接的膨胀率为1的7×7膨胀卷积层以及Relu激活层，输入图像特征分别经过这三条分支，最后融合；

本例中的人体骨骼关键点检测神经网络不同层特征通道大小不同，图像尺寸不同，其中输入图像尺寸为H×W×3，图像进入第一层输出的特征图像尺寸为H×W×64，进入第二层输出的特征图像尺寸为H/2×W/2×128，进入第三层输出的特征图像尺寸为H/4×W/4×256，每一层之间通过下采样、上采样修改图片尺寸并与其它层进行交流，下采样使得原特征图像尺寸减半，上采样使得原特征图像尺寸增加一倍；

本例中的人体骨骼关键点检测神经网络学习特征的具体流程如下：输入人体区域子图，通过一个卷积层将图像通道数修改为64，之后通过依次连接的数个残差卷积模块、感受野增强模块进行学习，同时与不同层特征图像通过多尺度特征融合模块进行融合，最后检测出人体骨骼16个关键点位置；

本例中的人体骨骼关键点检测神经网络的训练参数为：初始学习率设置为0.001，批次大小设置为8，迭代次数设置为200，采用MPII人体姿势数据集进行训练以及测试，采用Adam优化器进行优化，采用PCKh分数(正确关键点的头部归一化概率)进行评估，训练完成后保存训练模型；

本例中，通过人体骨骼关键点检测模型从人体区域子图中提取出人体的骨骼关键点，提取出的人体关键点共16个，分别为0-右脚踝、1-右膝盖、2-右臀部、3-左臀部、4-左膝盖、5-左脚踝、6-骨盆、7-胸部、8-上颈部、9-头顶、10-右手腕、11-右肘部、12-右肩部、13-左肩部、14-左肘部、15-左手腕，如图5所示，但由于可能存在人体移动时的遮挡问题或者人体骨骼关键点检测神经网络判断错误导致人体有效关键点识别数量变少，因此需要判断符合要求的人体骨骼关键点数，当识别出的关键点数达到16个时才算做一个正确的人体骨骼序列特征；

本例中，为了获得人物骨骼与时间空间的关系，得到动态的骨骼变化和动作信息，提高动作识别的准确性，本例设定阈值Z，若取得了Z个时间段的符合要求的连续人体骨骼序列特征，则可以将连续时间域的人体动作信息送入下个模块进行处理；

A(z,i,j)＝0，

6-2)根据提取出的人体骨骼关键点生成人体动作轨迹序列特征F＝[g₁，g₂，…，g_z]，g∈R^V,E，其中V表示骨骼关键点的集合，E表示连接关键点的边的集合，经过上述映射过程，可将连续时间内图像上的人体骨骼关键点和人体动作信息转化为图特征张量；

7)构建基于骨骼关键点的动作识别模型，将步骤6)得到的人体动作图特征张量送入基于骨骼关键点的动作识别模型，依据动作识别神经网络检测人物动作并输出检测结果，完成对视频图像中人物动作的检测，其中，如图6所示，基于骨骼关键点的动作识别神经网络为双分支神经网络，双分支神经网络中的两个分支能分别对全局和细节的人体姿态信息进行学习聚合。输入图像特征先经过BN归一化层进行预先归一化处理，再分别通过网络的主干部分和分支部分进行特征学习，最后对两个分支的学习结果进行加权融合，再依次通过图卷积模块进行融合特征优化，通过全局平均池化模块将特征尺寸修改为输出尺寸，通过全连接模块对特征进行线性优化，通过Softmax层计算概率分布，从而得到最终预测结果。经过上述分支学习，可以从细节、全局上更好地识别人体姿态信息，从而极大地增加网络精度；

上述网络的主干部分由依次连接的两个图卷积模块、图池化模块GP_3、图注意力模块组成，从局部特征的方向进行多次特征学习，以取得丰富的骨骼细节信息；

上述网络的分支部分由依次连接的图池化模块GP_1、图注意力模块、图卷积模块、图池化模块GP_2、图注意力模块组成，通过图池化模块融合子图内的节点，从而将原图池化成节点少、信息丰富的新图，从而增大网络对人体姿态信息的全局学习能力；

本例中的图卷积模块包括依次连接的第一GCN层、归一化层、Relu激活函数层和第二GCN层、归一化层、Relu激活函数层，并将输入特征与第二个Relu激活函数层后的输出特征进行逐像素相加，防止网络退化；

本例中的图池化模块根据图像处理中的池化操作原理，将人体分为数个子图并对子图中的关节点进行融合，实现池化效果，假设根据人体结构将图分解为n个部分，则需要分解生成n个子图G_i，i∈{1,2,...,n}，对于每一个子图G_i，生成对应的遮罩P，其中P_ij定义为：

根据得到的遮罩P和子图G，可将图池化操作表示为：

G_out＝K×normalized(P)×G_i，

其中G_out表示每个子图G_i的输出；K为子图内每个节点的权重，是可训练参数；normalized(P)为P的归一化操作，经过图池化操作之后，得到了一个由n个子图所对应n个新节点组成的新图；

本例中的图池化模块可视化如图7所示，其中第一个图池化模块GP_1将16个节点池化为11个节点，该操作减少了后续各层的冗余信息，提高了计算速度，第二个图池化模块GP_2将11个节点池化为6个节点，从这一层得到的6个节点对应人体的6个部分，包括四肢和躯干，其中第三个图池化模块GP_3将16个节点池化为6个节点，以便对学习过程进行融合强化；

本例中的图注意力模块重点关注关键节点的关键通道，通过通道注意力增强提高网络学习效果，输入特征图，通过3个依次连接的卷积核大小为1×1的卷积层和Relu激活函数层进行特征提取，再进一步地通过FC全连接层将特征转换为注意力特征，学习寻找关键通道，用Sigmoid函数将注意力特征映射为0-1，形成注意力权重，最后将每一帧中对应的节点和通道注意力权重相乘，得到输出特征图；

本例中，动作识别神经网络学习特征的具体流程如下：输入人体骨骼关键点图，通过图卷积层将通道数修改为64，经过图池化层后的图卷积层分别将通道数修改为128和256，最后使用依次连接的全局平均池化层、全连接层、SoftMax分类器预测动作标签；

本例中动作识别神经网络的训练参数为：采用SGD算法对GCN进行训练，初始学习率为0.1，每20个epoch进行一次衰减，采用Adam优化器训练图池化模块，初始学习率为0.005，训练批次大小设置为8，迭代次数设置为100,采用Kinetics数据集进行训练，训练完成后保存训练模型；

获取步骤3)中人体区域子图的像素区域，其中像素区域的四个顶点分别为(x,y)，(x+x₀,y)，(x,y+y₀)，(x+x₀,y+y₀)，设置隐私化区域顶点为：(x,y)，(x+x₀/3,y)，(x,y+y₀/3)，(x+x₀/3,y+y₀/3)，在输出图像中对此区域进行模糊处理，模糊处理是采用马赛克数据增强方式，将图像的宽和高作为边界值，对图像进行k_x和k_y缩放倍率的缩放,表达式如下：

img_cp＝cp(img,k_x,k_y)，

img_out＝repeat_interleave(img_cp,k_x,k_y)，

Claims

1.一种基于深度学习和隐私保护的视频人体动作识别系统，其特征在于，包括依次连接的视频图像处理模块、人体检测模块、人体骨骼关键点提取模块、基于骨骼关键点的动作识别模块和输出模块，其中：

2.一种基于深度学习和隐私保护的视频人体动作识别方法，包括权利要求1所述的基于深度学习和隐私保护的视频人体动作识别的系统，其特征在于，所述方法包括如下步骤：

1)从监控视频流中提取视频帧；

2-1)每隔K帧提取视频关键帧转化为关键帧图片，其中K的取值为2-8；

2-2)对关键帧图片进行图像数据增强，图像数据增强操作包括：对图像进行缩放，即确定高为640、宽为480的图像模板作为数据增强图像尺寸，将不符合尺寸的图像通过双线性插值法进行缩放，提高图像亮度、提高图像对比度并对图像进行直方图均衡化处理；

上述神经网络中第一层通道数为64，图像尺寸为H×W，其中，H为输入图像高度，W为输入图像宽度；第二层通道数为128，图像尺寸为H/2×W/2；第三层通道数为256，图像尺寸为H/4×W/4；网络输入层的通道数为3，网络输出层的通道数为16,除输入层输出层外，其余卷积层的卷积核大小均为3×3；

5-2)计算并存储符合要求的人体骨骼序列特征，当符合要求的连续人体骨骼序列特征数量达到一定数量Z时，则进入步骤6)进行处理，Z的取值为3-5；

A(z,i,j)＝0，

img_cp＝cp(img,k_x,k_y)，

img_out＝repeat_interleave(img_cp,k_x,k_y)，