CN114511931A

CN114511931A - 基于视频图像的动作识别方法、装置、设备及存储介质

Info

Publication number: CN114511931A
Application number: CN202210163170.6A
Authority: CN
Inventors: 叶苓; 王家政; 黄凌云; 刘玉宇; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-05-17

Abstract

本发明涉及图像识别技术领域，公开了一种基于视频图像的动作识别方法、装置、设备及存储介质。本方法包括：对采集的监控范围内至少两帧图像数据进行人体检测，得到对应人体区域图像；提取人体区域图像中人体的骨骼数据，并根据骨骼数据得到人体区域图像中包含的骨骼关键点的二维坐标；根据二维坐标对人体区域图像进行特征提取，并将得到的特征向量输入动作识别模型对图像中的人体动作进行识别，得到动作分类结果；将动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。本发明通过深度学习的图卷积网络相关算法，能够基于单一骨骼点对动作进行识别，提高动作识别准确率，解决了居家监控中人体动作识别准确率低的技术问题。

Description

基于视频图像的动作识别方法、装置、设备及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于视频图像的动作识别方法、装置、设备及存储介质。

背景技术

居家养老是未来主流的养老方式，而硬性配套建设、软性配套服务，是构筑居家养老体系的重要环节。家用智能健康监控系统是一种服务于家庭场景下的健康监测模式，未来预计将在居家养老场景下得到大范围且深度应用。据贝壳研究院数据整理显示，紧急呼救系统成为居家老人最迫切的需求之一，而对于老人家中健康相关动作检测是呼救系统与健康管理系统的重要输入来源之一。

目前已有的基于动作检测的健康监测系统的功能较为单一，且需要借助可穿戴设备。其用途主要是用于进行跌倒检测与预警，针对其他健康相关动作的健康监测仍处于起步阶段。随着计算机视觉领域不断发展，基于摄像头的健康动作识别也得到应用，但是其所使用硬件设备为以kinect为主的专用RGB-D摄像头，造价昂贵，操作复杂，不适于家用。随着家用智能监控系统的普及，设计一种能直接普通家用智能监控的健康动作检测系统的需求迫在眉睫。

发明内容

本发明的主要目的在于提供一种基于视频图像的动作识别方法、装置、设备及存储介质，以解决现有的居家监控中人体动作识别准确率低的技术问题。

本发明第一方面提供了基于视频图像的动作识别方法，包括：基于预设视频采集设备采集预设监控范围内的视频流，并从所述视频流中进行采样，得到至少两帧目标图像数据；对所述目标图像数据进行人体检测，并从所述目标图像数据中提取对应的人体区域图像；提取所述人体区域图像中人体的骨骼数据，并根据所述骨骼数据对所述人体区域图像进行骨骼关键点检测，得到所述人体区域图像中包含的所述骨骼关键点的二维坐标；根据所述骨骼关键点的二维坐标，对所述人体区域图像进行特征提取，得到所述人体区域图像的特征向量；将所述特征向量输入预设动作识别模型，通过所述动作识别模型对所述人体区域图像中的人体动作进行识别，确定所述人体区域图像中人体目标的实时活动姿态，得到动作分类结果；根据所述实时活动姿态，得到动作分类结果，并将所述动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。

可选地，在本发明第一方面的第一种实现方式中，所述提取所述人体区域图像中人体的骨骼数据包括：获取所述人体区域图像的像素点，并提取所述像素点的深度信息；根据所述像素点的深度信息，将所述人体区域图像分割成人体图像和背景图像；将所述人体图像与预设标准人体图像数据进行比较，得到所述人体区域图像中人体的骨骼数据。

可选地，在本发明第一方面的第二种实现方式中，所述根据所述骨骼数据对所述人体区域图像进行骨骼关键点检测，得到所述人体区域图像中包含的所述骨骼关键点的二维坐标包括：将所述人体区域图像输入预设图像关联模型，并将所述目标区域图像中同一人体对应的各个人体区域图像进行关联，得到所述人体与所述人体区域图像之间的关联关系；将所述人体区域图像输入预设人体关键点识别模型，并根据所述人体区域图像之间的关联关系对所述人体区域图像进行关键点识别，得到所述人体区域图像中包含的所述骨骼关键点的二维坐标。

可选地，在本发明第一方面的第三种实现方式中，所述根据所述骨骼关键点的二维坐标，对所述人体区域图像进行特征提取，得到所述人体区域图像的特征向量包括：根据所述人体区域图像对应视频帧的时间，确定所述骨骼关键点的速度信息；将所述速度信息输入预设神经网络模型，通过所述神经网络模型对所述速度信息进行特征提取，得到所述目标图像数据的第一特征向量；将所述人体区域图像和所述骨骼关键点的二维坐标输入所述神经网络模型，通过所述神经网络模型对所述人体区域图像和所述骨骼关键点的二维坐标进行特征提取，得到所述目标图像数据的第二特征向量；将所述第一特征向量和所述第二特征向量进行向量拼接，得到所述人体区域图像的特征向量。

可选地，在本发明第一方面的第四种实现方式中，在所述将所述特征向量输入预设动作识别模型，通过所述动作识别模型对所述人体区域图像中的人体动作进行识别，确定所述人体区域图像中人体目标的实时活动姿态，得到动作分类结果之前，还包括：获取多帧人体动作识别图像，其中，所述人体动作识别图像中包括多种人体动作图像；搭建ST-G3D图卷积神经网络框架，通过所述ST-G3D图卷积神经网络对所述人体动作识别图像进行人体动作检测，得到多帧人体特征图像；将所述人体特征图像输入所述ST-G3D图卷积神经网络，以对所述ST-G3D图卷积神经网络进行训练，得到动作识别模型。

可选地，在本发明第一方面的第五种实现方式中，所述搭建ST-G3D图卷积神经网络框架，通过所述ST-G3D图卷积神经网络对所述人体动作识别图像进行人体动作检测，得到多帧人体特征图像包括：将所述人体动作识别图像进行缩放处理，并构建得到图像金字塔；通过所述ST-G3D图卷积神经网络对所述图像金字塔进行特征提取和边框标定，得到第一特征图；将所述第一特征图标定的边框进行过滤，得到第二特征图，并根据所述第二特征图得到人体特征图像。

可选地，在本发明第一方面的第六种实现方式中，所述将所述人体特征图像输入所述ST-G3D图卷积神经网络，以对所述ST-G3D图卷积神经网络进行训练，得到动作识别模型包括：初始化所述ST-G3D图卷积神经网络的网络参数；将所述人体特征图像批量输入至所述ST-G3D图卷积神经网络，并基于预设的第一学习率进行训练，得到所述ST-G3D图卷积神经网络的梯度值；提取所人体特征图像中的第一标签和第二标签，并计算所述第一标签和所述第二标签的交叉熵损失函数；通过所述交叉熵损失函数和所述梯度值，调用预设梯度下降算法计算所述ST-G3D图卷积神经网络的权重衰减系数，并通过所述权重衰减系数更新所述ST-G3D图卷积神经网络的参数，得到动作识别模型。

本发明第二方面提供了一种基于视频图像的动作识别装置，包括：采集模块，用于基于预设视频采集设备采集预设监控范围内的视频流，并从所述视频流中进行采样，得到至少两帧目标图像数据；第一提取模块，用于对所述目标图像数据进行人体检测，并从所述目标图像数据中提取对应的人体区域图像；检测模块，用于提取所述人体区域图像中人体的骨骼数据，并根据所述骨骼数据对所述人体区域图像进行骨骼关键点检测，得到所述人体区域图像中包含的所述骨骼关键点的二维坐标；第二提取模块，用于根据所述骨骼关键点的二维坐标，对所述人体区域图像进行特征提取，得到所述人体区域图像的特征向量；识别模块，用于将所述特征向量输入预设动作识别模型，通过所述动作识别模型对所述人体区域图像中的人体动作进行识别，确定所述人体区域图像中人体目标的实时活动姿态，得到动作分类结果；匹配模块，用于根据所述实时活动姿态，得到动作分类结果，并将所述动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。

可选地，在本发明第二方面的第一种实现方式中，所述检测模块具体用于：获取所述人体区域图像的像素点，并提取所述像素点的深度信息；根据所述像素点的深度信息，将所述人体区域图像分割成人体图像和背景图像；将所述人体图像与预设标准人体图像数据进行比较，得到所述人体区域图像中人体的骨骼数据。

可选地，在本发明第二方面的第二种实现方式中，所述检测模块具体还用于：将所述人体区域图像输入预设图像关联模型，并将所述目标区域图像中同一人体对应的各个人体区域图像进行关联，得到所述人体与所述人体区域图像之间的关联关系；将所述人体区域图像输入预设人体关键点识别模型，并根据所述人体区域图像之间的关联关系对所述人体区域图像进行关键点识别，得到所述人体区域图像中包含的所述骨骼关键点的二维坐标。

可选地，在本发明第二方面的第三种实现方式中，所述第二提取模块包括：确定单元，用于根据所述人体区域图像对应视频帧的时间，确定所述骨骼关键点的速度信息；特征提取单元，用于将所述速度信息输入预设神经网络模型，通过所述神经网络模型对所述速度信息进行特征提取，得到所述目标图像数据的第一特征向量；将所述人体区域图像和所述骨骼关键点的二维坐标输入所述神经网络模型，通过所述神经网络模型对所述人体区域图像和所述骨骼关键点的二维坐标进行特征提取，得到所述目标图像数据的第二特征向量；向量拼接单元，用于将所述第一特征向量和所述第二特征向量进行向量拼接，得到所述人体区域图像的特征向量。

可选地，在本发明第二方面的第四种实现方式中，所述基于视频图像的动作识别装置还包括：获取模块，用于获取多帧人体动作识别图像，其中，所述人体动作识别图像中包括多种人体动作图像；搭建模块，用于搭建ST-G3D图卷积神经网络框架，通过所述ST-G3D图卷积神经网络对所述人体动作识别图像进行人体动作检测，得到多帧人体特征图像；训练模块，用于将所述人体特征图像输入所述ST-G3D图卷积神经网络，以对所述ST-G3D图卷积神经网络进行训练，得到动作识别模型。

可选地，在本发明第二方面的第五种实现方式中，所述搭建模块具体用于：将所述人体动作识别图像进行缩放处理，并构建得到图像金字塔；通过所述ST-G3D图卷积神经网络对所述图像金字塔进行特征提取和边框标定，得到第一特征图；将所述第一特征图标定的边框进行过滤，得到第二特征图，并根据所述第二特征图得到人体特征图像。

可选地，在本发明第二方面的第六种实现方式中，所述训练模块具体用于：初始化所述ST-G3D图卷积神经网络的网络参数；将所述人体特征图像批量输入至所述ST-G3D图卷积神经网络，并基于预设的第一学习率进行训练，得到所述ST-G3D图卷积神经网络的梯度值；提取所人体特征图像中的第一标签和第二标签，并计算所述第一标签和所述第二标签的交叉熵损失函数；通过所述交叉熵损失函数和所述梯度值，调用预设梯度下降算法计算所述ST-G3D图卷积神经网络的权重衰减系数，并通过所述权重衰减系数更新所述ST-G3D图卷积神经网络的参数，得到动作识别模型。

本发明第三方面提供了基于视频图像的动作识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于视频图像的动作识别设备执行上述的基于视频图像的动作识别方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于视频图像的动作识别方法的步骤。

本发明提供的技术方案中，通过采集预设监控范围内至少两帧图像数据；对图像数据进行人体检测，得到对应人体区域图像；提取人体区域图像中人体的骨骼数据，并根据骨骼数据得到人体区域图像中包含的骨骼关键点的二维坐标；根据二维坐标对人体区域图像进行特征提取，并将得到的特征向量输入动作识别模型对图像中的人体动作进行识别，得到动作分类结果；将动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。本发明通过深度学习的图卷积网络相关算法，能够基于单一骨骼点对动作进行识别，提高动作识别准确率，解决了居家监控中人体动作识别准确率低的技术问题。

附图说明

图1为本发明提供的基于视频图像的动作识别方法的第一个实施例示意图；

图2为本发明提供的基于视频图像的动作识别方法的第二个实施例示意图；

图3为本发明提供的基于视频图像的动作识别方法的第三个实施例示意图；

图4为本发明提供的基于视频图像的动作识别方法的第四个实施例示意图；

图5为本发明提供的基于视频图像的动作识别方法的第五个实施例示意图；

图6为本发明提供的基于视频图像的动作识别装置的第一个实施例示意图；

图7为本发明提供的基于视频图像的动作识别装置的第二个实施例示意图；

图8为本发明提供的基于视频图像的动作识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供的基于视频图像的动作识别方法、装置、设备及存储介质，先通过采集预设监控范围内至少两帧图像数据；对图像数据进行人体检测，得到对应人体区域图像；提取人体区域图像中人体的骨骼数据，并根据骨骼数据得到人体区域图像中包含的骨骼关键点的二维坐标；根据二维坐标对人体区域图像进行特征提取，并将得到的特征向量输入动作识别模型对图像中的人体动作进行识别，得到动作分类结果；将动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。本发明通过深度学习的图卷积网络相关算法，能够基于单一骨骼点对动作进行识别，提高动作识别准确率，解决了居家监控中人体动作识别准确率低的技术问题。

本发明的说明书和权利要求书及上述附中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于视频图像的动作识别方法的第一个实施例包括：

101、基于预设视频采集设备采集预设监控范围内的视频流，并从视频流中进行采样，得到至少两帧目标图像数据；

本实施例中，基于预设视频采集设备采集预设监控范围内的视频流，并从所述视频流中进行采样，得到至少两帧目标图像数据。由于视频流是由多个连续的视频帧组成的，因此，在接收到摄像机传输的视频流之后，从视频流的第1个视频帧开始，分别通过已训练的人体检测网络，对各视频帧依次进行人体检测，判断各视频帧中是否包含有人体。

具体地，在实际应用中，用户可以基于预设视频采集设备采集预设监控范围内的视频流，并从所述视频流中进行采样，得到至少两帧目标图像数据。比如，可以通过普通家用系列摄像头，其基本特征为含有RGB摄像头模块可用于图像采集与含有蓝牙、wifi等通讯模块用于图像等数据的传输。部分更加智能化的家用摄像头还有视角转动与行人跟踪等功能，可在其后链接一个智能传输处理终端，将摄像头捕捉到的200w像素。16:9画幅的实时画面传输至智能处理终端中，通过对视频中的人体行为动作进行识别监控，进一步保障被监控人员的安全，起到监控老人身体健康的作用。其中，可进行10种家庭常见健康动作进行识别，分别为：吃药(taking medicine)、吸烟(smoking)、跌倒(falling down)、久坐/久躺(lying down/)、打喷嚏/咳嗽(sneeze/cough)、头痛(headache)、腰背疼痛(back pain)、颈椎疼痛(neck pain)、恶心呕吐(nausea/vomiting)、擤鼻涕(blow nose)。其根据危险紧急程度类型又可分为两类：

1.危险紧急类：跌倒、久坐/久躺、恶心呕吐

2.健康行为类：吃药、吸烟、打喷嚏/咳嗽、头痛、腰背疼痛、颈椎疼痛、擤鼻涕。

在本实施例中，可预先训练动作识别模型，该动作识别模型可融合局部动作信息和全局动作信息预测视频数据出现的目标动作，在训练动作识别模型完成时，可将动作识别模型的参数和结构保存起来，在执行视频内容审核的流程时，直接加载动作识别模型、完成视频数据中的目标动作识别即可，无需重新训练动作识别模型。

102、对目标图像数据进行人体检测，并从目标图像数据中提取对应的人体区域图像；

本实施例中，若确定在视频流帧的某一个视频帧中检测到人体，则对该包含人体的视频帧进行标记，这样，根据视频帧的标记就能够获知在该视频帧中检测到人体，然后，通过边界矩形框标注出人体在视频帧中的位置，获得人体区域图像，并确定人体区域图像在视频帧上的位置数据，其中，人体区域图像中包含有人体。

具体地，在获得人体区域图像在视频帧上的位置数据之后，在视频流的各视频帧中，根据确定出的位置数据对各视频帧中的人体进行人体追踪，并确定人体在追踪到的视频帧上对应的人体区域图像。其中，在对人体进行追踪时，可以通过光流神经网络(FlowNet)实现。

103、提取人体区域图像中人体的骨骼数据，并根据骨骼数据对人体区域图像进行骨骼关键点检测，得到人体区域图像中包含的骨骼关键点的二维坐标；

本实施例中，获取到的待识别人体的人体区域图像，对所述人体区域图像进行透视处理，根据透视处理结果提取该人体区域图像中的人体的骨架数据。其中，所述骨架数据主要包括人体关键节点(或者重要关节点)的骨架数据，例如，可以是头部关节点数据、肩关节中心数据、左肩关节数据、右肩关节数据、左肘关节数据、右肘关节数据、左腕关节数据、右腕关节数据、左手数据、右手数据、脊椎数据、髋关节中心数据、左髋关节数据、右髋关节数据、左膝关节数据、右膝关节数据、左踝关节数据、右踝关节数据、左脚数据和右脚数据等。

在本步骤中，并不需要每个关节点的骨架数据。仅仅需要提取人体的几个关键节点的骨架数据，从而可以大大降低计算量，同时还能够有效提高识别精度。

分别针对各视频帧，对任意一个视频帧中的人体区域图像进行人体关键点检测，获得人体区域图像中包含的各人体关键点对应的二维关键点坐标，并分别通过预设的坐标转换方式将各二维关键点坐标转换为三维关键点坐标。

本实施例中，分别针对各视频帧，对任意一个视频帧中的人体区域图像进行人体关键点检测，获得人体区域图像的各人体关键点对应的人体关键点信息，获得的各人体关键点信息中至少包括各人体关键点的二维关键点坐标

104、根据骨骼关键点的二维坐标，对人体区域图像进行特征提取，得到人体区域图像的特征向量；

本实施例中，基于已训练的三维神经网络模型，以速度信息为输入参数，对速度信息进行特征提取，确定人体区域图像的第一特征向量。其中，三维神经网络模型为根据包含第一特征向量的速度信息样本集进行迭代训练获得的。

本实施例中，首先训练三维神经网络模型，三维神经网络模型为根据包含第一特征向量的速度信息样本集进行迭代训练获得的，速度信息样本集中包含多个速度信息样本与对应的第一特征向量样本，以及速度信息样本与对应的第一特征向量样本之间的关联关系。将人体区域图像的速度信息输入至已训练的三维神经网络模型中，对速度信息进行特征提取，最后，获得人体区域图像的第一特征向量。其中，第一特征向量例如可以为156维的向量。

进一步地，基于已训练的二维神经网络模型，以各二维关键点坐标和对应的人体区域图像为输入参数，对各二维关键点坐标和对应的人体区域图像进行特征提取，确定人体区域图像的第二特征向量。其中，二维神经网络模型为根据二维关键点坐标样本集和对应的人体区域图像样本集进行迭代训练获得的。

本实施例中，首先，训练二维神经网络模型。在对二维神经网络模型进行训练时，是基于二维关键点坐标样本集和对应的人体区域图像样本集进行迭代训练获得的，二维关键点坐标样本集中包含有多个二维关键点坐标样本，人体区域图像样本集中包含有多个人体区域图像样本，每一个人体区域图像样本对应一组人体关键点的二维关键点坐标样本。

在获得已训练的二维神经网络模型之后，将人体区域图像对应的各二维关键点坐标和对应的人体区域图像输入至已训练的二维神经网络模型中，对人体区域图像对应的各二维关键点坐标进行特征提取，并对人体区域图像进行特征提取，获得人体区域图像的第二特征向量。其中，第二特征向量例如可以为156维的向量。

最后，将第一特征向量和第二特征向量进行合并，获得人体区域图像的特征向量。其中，在获得人体区域图像的第一特征向量和第二特征向量之后，将第一特征向量和第二特征向量进行维度合并，获得人体区域图像的特征向量。例如，假设第一特征向量为156维的向量，第二特征向量为156维的向量，则获得人体区域图像的318维的特征向量。

105、将特征向量输入预设动作识别模型，通过动作识别模型对人体区域图像中的人体动作进行识别，确定人体区域图像中人体目标的实时活动姿态，得到动作分类结果；

本实施例中，将所述特征向量输入预设动作识别模型，通过所述动作识别模型对所述人体区域图像中的人体动作进行识别，确定所述人体区域图像中人体目标的实时活动姿态，得到动作分类结果。

其中，活动姿态主要体现人体目标当前处于何种姿势或动作，并不表示人体目标当前必须处于活动的状态。人体目标处于非活动姿态时的姿势也是活动姿态，例如睡眠时的姿势也是一种活动姿态。在本发明中，活动姿态包括但不限于坐姿、站姿、睡姿、行走姿态、蹲姿、如厕等。人体目标在不同的活动姿态下，其各骨骼关键点的实时相对位置关系将会是不同的，因此可以根据骨骼关键点检测模块32检测到的人体目标的各骨骼关键点的实时位置，来计算人体目标各骨骼关键点的实时相对位置关系(例如各骨骼关键点的相对位置高度)来确定人体目标的实时活动姿态。可以将人体的各种活动姿态与骨骼关键点相对位置关系之间的对应关系数据进行预存，然后检测人体目标的各骨骼关键点的实时相对位置关系，再根据预存的对应关系确定人体目标的实时活动姿态。可以按照时间轴实时记录人体目标的活动姿态，通过时间轴从开始记录人体目标活动姿态的时刻起，实时记录人体目标在每一时刻的活动姿态，这样，选择任一时刻都能获得人体目标在该时刻的活动姿态，这样就可以获得人体目标在过去一段时间内的活动姿态数据。

106、根据实时活动姿态，得到动作分类结果，并将动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。

本实施例中，通过公开的人体骨骼动作识别数据集来训练和评估动作识别模型，将得到的最优模型与监控视频接口集成，在接口处引入动作估计算法，将视频数据进行转化，能够消除转动监控摄像带来的背景变化的影响，然后将人体骨骼运动序列进行预处理，转化特征表示后输入到训练得到的模型中，输出识别结果，与设定的危险动作类别对比，判断是否存在危险动作，将对比结果返回给监控人员处理。

由于不同监控摄像头具有不同的分辨率和坐标系统，在动作估计后，需要对骨骼运动数据进行标准化和去中心化，消除尺度和坐标的影响。

具体地，本发明实施例可进行10种家庭常见健康动作进行识别，【创新点】分别为：吃药(taking medicine)、吸烟(smoking)、跌倒(falling down)、久坐/久躺(lyingdown/)、打喷嚏/咳嗽(sneeze/cough)、头痛(headache)、腰背疼痛(back pain)、颈椎疼痛(neck pain)、恶心呕吐(nausea/vomiting)、擤鼻涕(blow nose)。其根据危险紧急程度类型又可分为两类：

1.危险紧急类：跌倒、久坐/久躺、恶心呕吐

基于上述识别动作需求的一种实现方案为，使用公开数据集：NTU GTB+D[10]、ETRI-Activity3D[11]中的上述动作类别，与实际的样本组合对深度学习模型进行训练。在模型训练时，一个可取的参数设置取值是：epoch为60，学习率初始值为0.01并增加权重衰减，优化器可选取常见的Adam优化器，batch_size根据服务器性能选取，本实施例中可设置为256。

基于上述识别动作需求的另一种实现方案是，对于输入的数据首先进行数据格式转换，将所有.csv文件的骨骼点数据进行转换，生成.npy格式的关节与骨骼两组张量数据，后续将两组数据分别送入两个通道流中进行特征提取操作。特征提取的基本单元为A-STGC模块。模块数量可根据实际性能表现确定，在本实施例中可设置为2个。

基于上述识别动作需求的又一种实现方案是，在进行双流分别提取后，将数据使用全局池化的方式进行融合，仅保留重要信息。考虑到骨骼动作与关节点动作具有相关性，而且并非所有信息均对动作识别起决定性作用，因此进行全局池化，以保留重要节点信息。

基于上述识别动作需求的又一种实验方案是，将经过全局池化的融合特征信息通过一个全连接层和softmax函数进行归一化，并输出对各动作的权重比值。

本发明实施例中，通过采集预设监控范围内至少两帧图像数据；对图像数据进行人体检测，得到对应人体区域图像；提取人体区域图像中人体的骨骼数据，并根据骨骼数据得到人体区域图像中包含的骨骼关键点的二维坐标；根据二维坐标对人体区域图像进行特征提取，并将得到的特征向量输入动作识别模型对图像中的人体动作进行识别，得到动作分类结果；将动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。本发明通过深度学习的图卷积网络相关算法，能够基于单一骨骼点对动作进行识别，提高动作识别准确率，解决了居家监控中人体动作识别准确率低的技术问题。

请参阅图2，本发明实施例中基于视频图像的动作识别方法的第二个实施例包括：

201、基于预设视频采集设备采集预设监控范围内的视频流，并从视频流中进行采样，得到至少两帧目标图像数据；

202、对目标图像数据进行人体检测，并从目标图像数据中提取对应的人体区域图像；

203、获取人体区域图像的像素点，并提取像素点的深度信息；

本实施例中，根据像素点的深度信息，将深度图像中的前景与背景进行分割，前景作为人体的候选对象与标准人体模型进行比较，得到可以包含二十个关节点数据的骨架数据，该二十个关节点数据包括：头部关节点数据、肩关节中心数据、左肩关节数据、右肩关节数据、左肘关节数据、右肘关节数据、左腕关节数据、右腕关节数据、左手数据、右手数据、脊椎数据、髋关节中心数据、左髋关节数据、右髋关节数据、左膝关节数据、右膝关节数据、左踝关节数据、右踝关节数据、左脚数据和右脚数据。

204、根据像素点的深度信息，将人体区域图像分割成人体图像和背景图像；

本实施例中，假设阈值为0ˉ255灰度值，阈值处理就是将图像中的像素灰度值与该阈值做比较，落在该范围内的像素称为前景，其余的像素称为背景。一般会用黑白两色来表示前景与背景。这样图像只有黑与白两种颜色的二值图像。

本实施例中，根据像素点的深度信息，调用混合高斯模型为基础的前景/背景分割算法使用K(K＝3或5)个高斯分布混合对背景像素进行建模。更简单的理解：前景是你感兴趣的对象，背景却不是。比如，传送带上有个螺丝钉，你想检测它有没有缺陷，那这个螺丝钉就是图像中的前景，传送带就是图像中的背景。机器视觉检测时，就要吧螺丝钉作为前景分割出来，传送带作为背景分割，然后对分割出来的包含螺丝钉的前景(图像)进行检测，判断螺丝钉是否有缺陷。

205、将人体图像与预设标准人体图像数据进行比较，得到人体区域图像中人体的骨骼数据；

本实施例中，对每个人体设定有15个骨骼点，该15个骨骼点为：头部中心、颈部中心(例如脖子的脊柱中心)、躯干中心(例如躯干的脊柱中心)、左肩关节点、左手肘关节点、左手腕关节点、右肩关节点、右手肘关节点、右手腕关节点、左髋关节点、左膝盖关节点、左脚踝关节点、右髋关节点、右膝盖关节点、右脚踝关节点。

本案中对这15个骨骼点以3个骨骼点为单位，划分成五个身体部分：躯干、左臂、右臂、左腿及右腿。其中，各身体部位内的骨骼点之间还形成向量，向量之间还形成夹角。将人体图像与预设标准人体图像数据进行比较，得到人体区域图像中人体的骨骼数据。

206、将人体区域图像输入预设图像关联模型，并将目标区域图像中同一人体对应的各个人体区域图像进行关联，得到人体与人体区域图像之间的关联关系；

本实施例中，视频流为多个摄像头拍摄的视频，也就是说，视频流可以是对一个人体或多个人体从不同的角度拍摄的视频，因此，视频流的每一个视频帧中，都包含多个摄像头拍摄的视频图像，每一个视频帧中也会包含同一个人体的多个人体区域图像，并且，每一个摄像头都对应一个视频图像，由于每一个视频图像中可能包含有多个人体，因此，在相同的视频帧下，需要将同一个人体对应的各视频图像中的人体区域图像进行关联，因此，在本申请实施例中，训练图像关联模型，并基于已训练的图像关联模型，以任意一个视频帧中各摄像头拍摄的人体区域图像为输入参数，将同一个人体对应的各人体区域图像进行关联，并建立人体与各人体区域图像之间的关联关系。

其中，图像关联模型例如可以为重识别(Re-identification，ReID)模型，本申请实施例中对此并不进行限制。其中，各人体区域图像是在相同时间点的不同角度下的人体区域图像。比如，假设共有3个摄像头同时拍摄视频，分别对各个人体的前面、后面以及侧面进行拍摄，则人体区域图像中包含有3个摄像头传输的视频，下面以第1个视频帧为例进行举例说明，由于有3个摄像头同时进行拍摄，则在第1个视频帧中，包含有3个视频图像，假设每一个视频图像中都包含有2个人体，分别为A和B，则对每一个视频图像进行人体检测之后，共获得6个人体区域图像，并分别将这六个人体区域图像输入至已训练的图像关联模型中，将人体A的各人体区域图像进行关联，即，与人体A关联的人体区域图像有3个，并将人体B的各人体区域图像进行关联，即，与人体B关联的人体区域图像有3个，因此获得的每一个人体关联的人体区域图像是不同摄像头拍摄的，且是关于同一个人体的。

207、将人体区域图像输入预设人体关键点识别模型，并根据人体区域图像之间的关联关系对人体区域图像进行关键点识别，得到人体区域图像中包含的骨骼关键点的二维坐标；

本实施例中，首先，训练人体关键点识别模型，在训练人体关键点识别模型时，是通过人体区域图像样本集和对应的二维关键点坐标样本集进行迭代训练获得的，人体区域图像样本集中包含有多个人体区域图像样本，每一个人体区域图像样本对应与各人体关键点的二维关键点坐标样本。

然后，获取已训练的人体关键点识别模型，并将任意一个视频帧中各关联的人体区域图像输入至已训练的人体关键点识别模型中，并分别对关联的每一个人体区域图像执行以下操作：对人体区域图像进行人体关键点检测，获得人体区域图像的各人体关键点，并获得各人体关键点在人体区域图像中的位置信息，确定各人体关键点的二维关键点坐标，并且，在对人体区域图像进行人体关键点检测时，还会检测到各人体关键点对应的属性信息。其中，属性信息为可见或不可见，属性信息为可见表征人体关键点未被遮挡，属性信息为不可见表征人体关键点被外部遮挡或被人体遮挡。

例如，假设与人体A关联的各人体区域图像分别为A1、A2、A3，则将各人体区域图像输入至已训练的人体关键点识别模型中，对A1进行人体关键点检测，确定A1中包含的各人体关键点对应的二维关键点坐标，以及各人体关键点对应的属性信息，对A2进行人体关键点检测，确定A2中包含的各人体关键点对应的二维关键点坐标，以及各人体关键点对应的属性信息，对A3进行人体关键点检测，确定A3中包含的各人体关键点对应的二维关键点坐标，以及各人体关键点对应的属性信息。

然后，在获得关联的各人体区域图像的各人体关键点的二维关键点坐标之后，分别针对每一个人体区域图像，通过预设的转换方式将人体区域图像的各二维关键点坐标转换为关键点热图，并通过确定人体区域图像的图像深度，获得人体区域图像的深度图，并基于已训练的坐标转换模型，以人体区域图像的关键点热图、深度图和各二维关键点坐标为输入参数，确定人体区域图像的各三维关键点坐标。其中，属性信息为可见或不可见。

208、根据骨骼关键点的二维坐标，对人体区域图像进行特征提取，得到人体区域图像的特征向量；

209、将特征向量输入预设动作识别模型，通过动作识别模型对人体区域图像中的人体动作进行识别，确定人体区域图像中人体目标的实时活动姿态，得到动作分类结果；

210、根据实时活动姿态，得到动作分类结果，并将动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。

本实施例中步骤201-202、208-210与第一实施例中的步骤101-102、104-106类似，此处不再赘述。

请参阅图3，本发明实施例中基于视频图像的动作识别方法的第三个实施例包括：

301、基于预设视频采集设备采集预设监控范围内的视频流，并从视频流中进行采样，得到至少两帧目标图像数据；

302、对目标图像数据进行人体检测，并从目标图像数据中提取对应的人体区域图像；

303、提取人体区域图像中人体的骨骼数据，并根据骨骼数据对人体区域图像进行骨骼关键点检测，得到人体区域图像中包含的骨骼关键点的二维坐标；

304、根据人体区域图像对应视频帧的时间，确定骨骼关键点的速度信息；

本实施例中，将各视频帧中的人体区域图像对应的三维关键点热图与前一个视频帧中的人体区域图像对应的三维关键点热图之间的差值，除以各视频帧之间的时间值，确定人体区域图像中各人体关键点的速度信息。其中，速度信息也可称为速度光流。

305、将速度信息输入预设神经网络模型，通过神经网络模型对速度信息进行特征提取，得到目标图像数据的第一特征向量；

本实施例中，首先训练神经网络模型，神经网络模型为根据包含第一特征向量的速度信息样本集进行迭代训练获得的，速度信息样本集中包含多个速度信息样本与对应的第一特征向量样本，以及速度信息样本与对应的第一特征向量样本之间的关联关系。

在获得已训练的神经网络模型之后，将人体区域图像的速度信息输入至已训练的神经网络模型中，对速度信息进行特征提取，最后，获得人体区域图像的第一特征向量。其中，第一特征向量例如可以为156维的向量。其中，神经网络模型为根据包含第一特征向量的速度信息样本集进行迭代训练获得的。

306、将人体区域图像和骨骼关键点的二维坐标输入神经网络模型，通过神经网络模型对人体区域图像和骨骼关键点的二维坐标进行特征提取，得到目标图像数据的第二特征向量；

本实施例中，首先，训练神经网络模型，神经网络模型为二维神经网络模型。在对二维神经网络模型进行训练时，是基于二维关键点坐标样本集和对应的人体区域图像样本集进行迭代训练获得的，二维关键点坐标样本集中包含有多个二维关键点坐标样本，人体区域图像样本集中包含有多个人体区域图像样本，每一个人体区域图像样本对应一组人体关键点的二维关键点坐标样本。

307、将第一特征向量和第二特征向量进行向量拼接，得到人体区域图像的特征向量；

本实施例中，在获得人体区域图像的第一特征向量和第二特征向量之后，将第一特征向量和第二特征向量进行维度合并，获得人体区域图像的特征向量。例如，假设第一特征向量为156维的向量，第二特征向量为156维的向量，则获得人体区域图像的318维的特征向量。

308、将特征向量输入预设动作识别模型，通过动作识别模型对人体区域图像中的人体动作进行识别，确定人体区域图像中人体目标的实时活动姿态，得到动作分类结果；

309、根据实时活动姿态，得到动作分类结果，并将动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。

本实施例中步骤301-303、308-309与第一实施例中的步骤101-103、105-106类似，此处不再赘述。

请参阅图4，本发明实施例中基于视频图像的动作识别方法的第四个实施例包括：

401、基于预设视频采集设备采集预设监控范围内的视频流，并从视频流中进行采样，得到至少两帧目标图像数据；

402、对目标图像数据进行人体检测，并从目标图像数据中提取对应的人体区域图像；

403、提取人体区域图像中人体的骨骼数据，并根据骨骼数据对人体区域图像进行骨骼关键点检测，得到人体区域图像中包含的骨骼关键点的二维坐标；

404、根据骨骼关键点的二维坐标，对人体区域图像进行特征提取，得到人体区域图像的特征向量；

405、获取多帧人体动作识别图像，其中，人体动作识别图像中包括多种人体动作图像；

本实施例中获取多帧人体动作识别图像，其中，人体动作识别图像中包括多种人体动作图像。

406、搭建ST-G3D图卷积神经网络框架，通过ST-G3D图卷积神经网络对人体动作识别图像进行人体动作检测，得到多帧人体特征图像；

本实施例中，搭建ST-G3D图卷积神经网络框架，通过ST-G3D图卷积神经网络对人体动作识别图像进行人体动作检测，以0.2s为标准，若前后两帧间隔超过0.5s则视为两段帧序列，若前后两帧间隔小于0.5s则视为一整段帧序列进行处理。

对于输入的单个帧序列，规定T的取值为30，即以30帧为一个输入序列。对于单次输入小于30帧的序列进行补充，补充内容为0的序列至30帧，并输入深度网络。对于单次输入大于30帧的序列，以30帧进行拆分，裁剪为多段分别输入网络进行识别。若最后一个片段数量不足30帧则按照小于30帧序列处理。

将处理好的规格固定的帧序列输入ST-G3D网络进行动作识别。该图卷积神经网络可对所输入动作进行识别与分类，并根据网络识别结果做出不同反馈。

图卷积神经网络(GraphConvolutional Network,GCN)，顾名思义就是在图上使用卷积运算，利用图上的傅里叶变换，再使用卷积定理，这样就可以通过两个傅里叶变换的乘积来表示这个卷积的操作。假设有一张图，要做分类，传统方法需要手动提取一些特征，比如纹理，颜色，或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器，给到一个输出标签，告诉它是哪个类别。而深度学习是输入一张图，经过神经网络，直接输出一个标签。特征提取和分类一步到位，避免了手工提取特征或者人工规则，从原始数据中自动化地去提取特征，是一种端到端(end-to-end)的学习。相较于传统的方法，深度学习能够学习到更高效的特征与模式。

407、将人体特征图像输入ST-G3D图卷积神经网络，以对ST-G3D图卷积神经网络进行训练，得到动作识别模型；

本实施例中，将训练图像集中的人体特征图像按批量输入至ST-G3D图卷积神经网络，首先从训练图像集中按批量选择第一批人体特征图像输入至ST-G3D图卷积神经网络，ST-G3D图卷积神经网络中的特征层基于第二学习率，以及分类层基于第一学习率对人体特征图像进行前向传播，得到对应的输出值。ST-G3D图卷积神经网络根据预设的损失函数以及对应的输出值计算本次训练的损失值，基于损失值在进行反向传播，从而得到每个网络参数的梯度值，根据得到梯度值对网络参数进行更新。然后，将下一批人体特征图像输入至网络参数更新后的ST-G3D图卷积神经网络，ST-G3D图卷积神经网络中的分类层同样基于第一学习率、特征层同样基于第二学习率，重新进行训练。即，输入第二批人体特征图像至已更新网络参数的ST-G3D图卷积神经网络，ST-G3D图卷积神经网络中的特征层基于第二学习率，分类层基于第一学习率对再次对输入的人体特征图像进行前向传播，同样得到对应的输出值并计算损失值之后进行反向传播再次更新网络参数。重复上述步骤进行迭代训练，直到损失函数收敛为止，将损失函数收敛后得到的ST-G3D图卷积神经网络作为初始人体动作识别模型。

进一步，得到初始人体动作识别模型之后，进行第二阶段的训练。即，重新将训练图像集中的人体特征图像按批量输入至初始人体动作识别模型，初始人体动作识别模型中的特征层和全连接层均基于第二学习率对人体特征图像进行前向传播，得到对应的输出值。初始人体动作识别模型根据预设的损失函数以及对应的输出值计算本次训练的损失值，基于损失值在进行反向传播，从而得到每个网络参数的梯度值，根据得到梯度值对初始人体动作识别模型中的网络参数进行更新。同样的，将下一批人体特征图像输入至网络参数更新后的初始人体动作识别模型，初始人体动作识别模型中的特征层和分类层均基于第二学习率，重新进行训练。即，输入第二批人体特征图像至已更新网络参数的初始人体动作识别模型，初始人体动作识别模型中的特征层和分类层基于第二学习率再次对输入的人体特征图像进行前向传播，同样得到对应的输出值并计算损失值之后进行反向传播再次更新初始人体动作识别模型的网络参数。重复上述步骤进行迭代训练，直到初始人体动作识别模型的损失函数收敛为止，将损失函数收敛后得到的初始人体动作识别模型作为最终的人体动作识别模型。在本实施例中，由于传统训练面部动作的训练数据较少，通常会导致模型训练时过拟合以及收敛速度过慢。本实例从InsightFace中迁移得到特征层的网络参数，并且特征层和分类层使用不同的学习率，不仅能够使得模型特征提取层的参数倾向于人脸识别参数，同时加快了分类层的收敛速度。

408、将特征向量输入预设动作识别模型，通过动作识别模型对人体区域图像中的人体动作进行识别，确定人体区域图像中人体目标的实时活动姿态，得到动作分类结果；

409、根据实时活动姿态，得到动作分类结果，并将动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。

本实施例中步骤401-404、408-409与第一实施例中的步骤101-104、105-106类似，此处不再赘述。

在本发明实施例中，通过采集预设监控范围内至少两帧图像数据；对图像数据进行人体检测，得到对应人体区域图像；提取人体区域图像中人体的骨骼数据，并根据骨骼数据得到人体区域图像中包含的骨骼关键点的二维坐标；根据二维坐标对人体区域图像进行特征提取，并将得到的特征向量输入动作识别模型对图像中的人体动作进行识别，得到动作分类结果；将动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。本发明通过深度学习的图卷积网络相关算法，能够基于单一骨骼点对动作进行识别，提高动作识别准确率，解决了居家监控中人体动作识别准确率低的技术问题。

请参阅图5，本发明实施例中基于视频图像的动作识别方法的第五个实施例包括：

501、基于预设视频采集设备采集预设监控范围内的视频流，并从视频流中进行采样，得到至少两帧目标图像数据；

502、对目标图像数据进行人体检测，并从目标图像数据中提取对应的人体区域图像；

503、提取人体区域图像中人体的骨骼数据，并根据骨骼数据对人体区域图像进行骨骼关键点检测，得到人体区域图像中包含的骨骼关键点的二维坐标；

504、根据骨骼关键点的二维坐标，对人体区域图像进行特征提取，得到人体区域图像的特征向量；

505、获取多帧人体动作识别图像，其中，人体动作识别图像中包括多种人体动作图像；

506、将人体动作识别图像进行缩放处理，并构建得到图像金字塔；

本实施例中，图像金字塔是指通过不同尺寸的图像构建成的金字塔，可以理解为，最底层的图像的尺寸最大，最上层的图像的尺寸最小，即每一张图像的尺寸大于上一层的图像的尺寸，小于下一层的图像的尺寸，从而构造出图像金字塔。

具体地，对人体动作识别图像进行缩放处理，即缩小或者放大处理，得到该人体动作识别图像对应的尺寸不一致的人体动作识别图像。将尺寸不一致的人体特征图像按照尺寸从大到小叠加排序得到对应的图像金字塔。面部动作识别数据集中的各人体动作识别图像均进行缩放处理，得到对应的图像金字塔。可以理解为，每张人体动作识别图像均有对应的图像金字塔。

507、通过ST-G3D图卷积神经网络对图像金字塔进行特征提取和边框标定，得到第一特征图；

本实施例中，将利用ST-G3D图卷积神经网络中的P-Net对图像金字塔进行初步特征提取与边框标定，得到包括多个标定边框的特征图。通过对该特征图进行Bounding-BoxRegression(边框回归向量)调整边框和使用NMS(非极大值抑制)进行大部分边框的过滤，也就是合并重叠的边框，从而得到第一特征图像。其中，Bounding-Box Regression的作用是网络预测得到边框进行微调，使其接近真实值。而NMS就是抑制不是极大值的元素，使用该方法可以快速去掉重合度很高且标定相对不准确的边框。

508、将第一特征图标定的边框进行过滤，得到第二特征图，并根据第二特征图得到人体特征图像；

本实施例中，由于在人体特征图像经过P-Net之后，会输出的第一特征图还是留下了许多预测窗口。因此，将第一特征图输入至R-Net，通过R-Net对第一特征图进行大部分的边框进行过滤，确定候选边框。同样的，进一步对候选边框进行Bounding-Box Regression(边框回归)调整边框和使用NMS(非极大值抑制)，从而得到只包括一个边框的第二特征图。也就是说，利用R-Net进一步优化预测结果。最后，将R-Net输出的第二特征图输入至O-Net中，利用O-Net对只包括一个边框的第二特征图进行更进一步的特征提取，最终输出包括人脸标定的五个特征点的人体特征图像。其中，五个特征点分别为左眼、有眼、鼻子、左嘴角和右嘴角。在本实施例中，通过多任务卷积神经网络进行检测得到包括特征点的人体特征图像，无需人工手动进行特征点的标注。

509、初始化ST-G3D图卷积神经网络的网络参数；

本实施例中，利用Xavier初始化方法初始化本实施例中ST-G3D图卷积神经网络中分类层的网络参数。可以理解为，ST-G3D图卷积神经网络的全连接层使用Xavier初始化方法进行网络参数的初始化，其他层的网络参数则初始化为InsightFace预训练模型的参数，即将InsightFace预训练模型的参数迁移到ST-G3D图卷积神经网络中。当ST-G3D图卷积神经网络的网络参数初始化后，将训练图像集按批量(batch)输入至ST-G3D图卷积神经网络。即将人体特征图像按batch分批输入至神经网络，在本实施例中，batch优选为128。可以理解为，将人体特征图像128张为一批方式输入至网络参数初始化后的ST-G3D图卷积神经网络中。待训练网络基于预设的第一学习率和第二学习率，分阶段进行训练。第一学习率为0.001，第二学习率为0.0001。其中，在本实施例中，ST-G3D图卷积神经网络的网络结构同样优化的ResNet50模型，即将传统ResNet50模型最后一层全连接层更换成输出通道为12的全连接层。优化器同样使用adam优化器，损失函数优选binarycross entropy loss(二元交叉熵损失)函数。

510、将人体特征图像批量输入至ST-G3D图卷积神经网络，并基于预设的第一学习率进行训练，得到ST-G3D图卷积神经网络的梯度值；

本实施例中，可以理解为，将人体特征图像128张为一批方式输入至网络参数初始化后的ST-G3D图卷积神经网络中，ST-G3D图卷积神经网络中的特征层和分类层基于预设的第一学习率对输入的人体特征图像像进行前向传播，得到对应的输出值。其中，第一学习率为预先设置好的，第一学习率固定为0.001，可以理解为，ST-G3D图卷积神经网络中的特征层和分类层均使用第一学习率。

511、提取所人体特征图像中的第一标签和第二标签，并计算第一标签和第二标签的交叉熵损失函数；

本实施例中，ST-G3D图卷积神经网络根据预设的损失函数以及对应的输出值计算本次训练的损失值，基于损失值在进行反向传播，从而得到每个网络参数的梯度值，根据得到梯度值对网络参数进行更新。

然后，将下一批人体特征图像像输入至网络参数更新后的ST-G3D图卷积神经网络，ST-G3D图卷积神经网络同样基于该第一学习率，重新进行训练。即输入第二批人体特征图像像，ST-G3D图卷积神经网络基于第一学习率，再次对输入的人体特征图像像进行前向传播，同样得到对应的输出值并计算损失值之后进行反向传播再次更新网络参数。重复上述步骤进行迭代训练，直到损失函数收敛为止。可以理解为，若损失函数一直不收敛，则表示神经网络的各个网络参数并未达到最优值，即还需要进行训练，而损失函数收敛，则表示神经网络到了最优，可以将该神经网络作为人体动作识别模型投入使用。

也就是说，当第二批人体特征图像像训练完成后，若损失函数还未收敛，即可在第二次更新网络参数后再次输入第三批人体特征图像像，一直到损失函数收敛为止。损失函数收敛可以理解为损失函数计算的损失值趋向于0，趋向于0则表示神经网络的预测值和期望值越接近，表示神经网络训练完成。其中，预设的ST-G3D图卷积神经网络的网络结构为优化的ResNet50模型，与传统ResNet50模型的区别在于将最后一层全连接层更换成输出通道为12的全连接层。而输出值包括预测值和真实标签，基于预测值和真实标签，以及损失函数计算损失值。在本实施例中，损失函数优选binary cross entropy loss(二元交叉熵损失)函数，进行训练所使用的优化器为adam优化器。

512、通过交叉熵损失函数和梯度值，调用预设梯度下降算法计算ST-G3D图卷积神经网络的权重衰减系数，并通过权重衰减系数更新ST-G3D图卷积神经网络的参数，得到动作识别模型；

本实施例中，得到初始人体动作识别模型之后，进行第二阶段的训练。即，重新将人体特征图像按批量输入至初始人体动作识别模型，初始人体动作识别模型中的特征层和全连接层均基于第二学习率对人体特征图像像进行前向传播，得到对应的输出值。初始人体动作识别模型根据预设的损失函数以及对应的输出值计算本次训练的损失值，基于损失值在进行反向传播，从而得到每个网络参数的梯度值，根据得到梯度值对初始人体动作识别模型中的网络参数进行更新。同样的，将下一批人体特征图像像输入至网络参数更新后的初始人体动作识别模型，初始人体动作识别模型中的特征层和分类层均基于第二学习率，重新进行训练。

具体地，输入第二批人体特征图像像至已更新网络参数的初始人体动作识别模型，初始人体动作识别模型中的特征层和分类层基于第二学习率再次对输入的人体特征图像像进行前向传播，同样得到对应的输出值并计算损失值之后进行反向传播再次更新初始人体动作识别模型的网络参数。重复上述步骤进行迭代训练，直到初始人体动作识别模型的损失函数收敛为止，将损失函数收敛后得到的初始人体动作识别模型作为最终的人体动作识别模型。在本实施例中，由于传统训练面部动作的训练数据较少，通常会导致模型训练时过拟合以及收敛速度过慢。本实例从InsightFace中迁移得到特征层的网络参数，并且特征层和分类层使用不同的学习率，不仅能够使得模型特征提取层的参数倾向于人脸识别参数，同时加快了分类层的收敛速度。

513、将特征向量输入预设动作识别模型，通过动作识别模型对人体区域图像中的人体动作进行识别，确定人体区域图像中人体目标的实时活动姿态，得到动作分类结果；

514、根据实时活动姿态，得到动作分类结果，并将动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。

本实施例中步骤501-503、513-514与第一实施例中的步骤101-103、104-105类似，此处不再赘述。

上面对本发明实施例中基于视频图像的动作识别方法进行了描述，下面对本发明实施例中基于视频图像的动作识别装置进行描述，请参阅图6，本发明实施例中基于视频图像的动作识别装置的第一个实施例包括：

采集模块601，用于基于预设视频采集设备采集预设监控范围内的视频流，并从所述视频流中进行采样，得到至少两帧目标图像数据；

第一提取模块602，用于对所述目标图像数据进行人体检测，并从所述目标图像数据中提取对应的人体区域图像；

检测模块603，用于提取所述人体区域图像中人体的骨骼数据，并根据所述骨骼数据对所述人体区域图像进行骨骼关键点检测，得到所述人体区域图像中包含的所述骨骼关键点的二维坐标；

第二提取模块604，用于根据所述骨骼关键点的二维坐标，对所述人体区域图像进行特征提取，得到所述人体区域图像的特征向量；

识别模块605，用于将所述特征向量输入预设动作识别模型，通过所述动作识别模型对所述人体区域图像中的人体动作进行识别，确定所述人体区域图像中人体目标的实时活动姿态，得到动作分类结果；

匹配模块606，用于根据所述实时活动姿态，得到动作分类结果，并将所述动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。

请参阅图7，本发明实施例中基于视频图像的动作识别装置的第二个实施例，该基于视频图像的动作识别装置具体包括：

在本实施例中，所述检测模块603具体用于：

获取所述人体区域图像的像素点，并提取所述像素点的深度信息；

根据所述像素点的深度信息，将所述人体区域图像分割成人体图像和背景图像；

将所述人体图像与预设标准人体图像数据进行比较，得到所述人体区域图像中人体的骨骼数据。

在本实施例中，所述检测模块603具体还用于：

将所述人体区域图像输入预设图像关联模型，并将所述目标区域图像中同一人体对应的各个人体区域图像进行关联，得到所述人体与所述人体区域图像之间的关联关系；

将所述人体区域图像输入预设人体关键点识别模型，并根据所述人体区域图像之间的关联关系对所述人体区域图像进行关键点识别，得到所述人体区域图像中包含的所述骨骼关键点的二维坐标。

在本实施例中，所述第二提取模块604包括：

确定单元6041，用于根据所述人体区域图像对应视频帧的时间，确定所述骨骼关键点的速度信息；

提取单元6042，用于将所述速度信息输入预设神经网络模型，通过所述神经网络模型对所述速度信息进行特征提取，得到所述目标图像数据的第一特征向量；将所述人体区域图像和所述骨骼关键点的二维坐标输入所述神经网络模型，通过所述神经网络模型对所述人体区域图像和所述骨骼关键点的二维坐标进行特征提取，得到所述目标图像数据的第二特征向量；

向量拼接单元6043，用于将所述第一特征向量和所述第二特征向量进行向量拼接，得到所述人体区域图像的特征向量。

在本实施例中，所述基于视频图像的动作识别装置还包括：

获取模块607，用于获取多帧人体动作识别图像，其中，所述人体动作识别图像中包括多种人体动作图像；

搭建模块608，用于搭建ST-G3D图卷积神经网络框架，通过所述ST-G3D图卷积神经网络对所述人体动作识别图像进行人体动作检测，得到多帧人体特征图像；

训练模块609，用于将所述人体特征图像输入所述ST-G3D图卷积神经网络，以对所述ST-G3D图卷积神经网络进行训练，得到动作识别模型。

在本实施例中，所述搭建模块608具体用于：

将所述人体动作识别图像进行缩放处理，并构建得到图像金字塔；

通过所述ST-G3D图卷积神经网络对所述图像金字塔进行特征提取和边框标定，得到第一特征图；

将所述第一特征图标定的边框进行过滤，得到第二特征图，并根据所述第二特征图得到人体特征图像。

在本实施例中，所述训练模块609具体用于：

初始化所述ST-G3D图卷积神经网络的网络参数；将所述人体特征图像批量输入至所述ST-G3D图卷积神经网络，并基于预设的第一学习率进行训练，得到所述ST-G3D图卷积神经网络的梯度值；

提取所人体特征图像中的第一标签和第二标签，并计算所述第一标签和所述第二标签的交叉熵损失函数；

通过所述交叉熵损失函数和所述梯度值，调用预设梯度下降算法计算所述ST-G3D图卷积神经网络的权重衰减系数，并通过所述权重衰减系数更新所述ST-G3D图卷积神经网络的参数，得到动作识别模型。

上面图6和图7从模块化功能实体的角度对本发明实施例中的基于视频图像的动作识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于视频图像的动作识别设备进行详细描述。

图8是本发明实施例提供的基于视频图像的动作识别设备的结构示意图，该基于视频图像的动作识别设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于视频图像的动作识别设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在基于视频图像的动作识别设备800上执行存储介质830中的一系列指令操作，以实现上述各方法实施例提供的基于视频图像的动作识别方法的步骤。

基于视频图像的动作识别设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的基于视频图像的动作识别设备结构并不构成对本申请提供的基于视频图像的动作识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述基于视频图像的动作识别方法的步骤。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于视频图像的动作识别方法，其特征在于，所述基于视频图像的动作识别方法包括：

基于预设视频采集设备采集预设监控范围内的视频流，并从所述视频流中进行采样，得到至少两帧目标图像数据；

对所述目标图像数据进行人体检测，并从所述目标图像数据中提取对应的人体区域图像；

提取所述人体区域图像中人体的骨骼数据，并根据所述骨骼数据对所述人体区域图像进行骨骼关键点检测，得到所述人体区域图像中包含的所述骨骼关键点的二维坐标；

根据所述骨骼关键点的二维坐标，对所述人体区域图像进行特征提取，得到所述人体区域图像的特征向量；

将所述特征向量输入预设动作识别模型，通过所述动作识别模型对所述人体区域图像中的人体动作进行识别，确定所述人体区域图像中人体目标的实时活动姿态，得到动作分类结果；

根据所述实时活动姿态，得到动作分类结果，并将所述动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。

2.根据权利要求1所述的基于视频图像的动作识别方法，其特征在于，所述提取所述人体区域图像中人体的骨骼数据包括：

3.根据权利要求1所述的基于视频图像的动作识别方法，其特征在于，所述根据所述骨骼数据对所述人体区域图像进行骨骼关键点检测，得到所述人体区域图像中包含的所述骨骼关键点的二维坐标包括：

4.根据权利要求1所述的基于视频图像的动作识别方法，其特征在于，所述根据所述骨骼关键点的二维坐标，对所述人体区域图像进行特征提取，得到所述人体区域图像的特征向量包括：

根据所述人体区域图像对应视频帧的时间，确定所述骨骼关键点的速度信息；

将所述速度信息输入预设神经网络模型，通过所述神经网络模型对所述速度信息进行特征提取，得到所述目标图像数据的第一特征向量；

将所述人体区域图像和所述骨骼关键点的二维坐标输入所述神经网络模型，通过所述神经网络模型对所述人体区域图像和所述骨骼关键点的二维坐标进行特征提取，得到所述目标图像数据的第二特征向量；

将所述第一特征向量和所述第二特征向量进行向量拼接，得到所述人体区域图像的特征向量。

5.根据权利要求1所述的基于视频图像的动作识别方法，其特征在于，在所述将所述特征向量输入预设动作识别模型，通过所述动作识别模型对所述人体区域图像中的人体动作进行识别，确定所述人体区域图像中人体目标的实时活动姿态，得到动作分类结果之前，还包括：

获取多帧人体动作识别图像，其中，所述人体动作识别图像中包括多种人体动作图像；

搭建ST-G3D图卷积神经网络框架，通过所述ST-G3D图卷积神经网络对所述人体动作识别图像进行人体动作检测，得到多帧人体特征图像；

将所述人体特征图像输入所述ST-G3D图卷积神经网络，以对所述ST-G3D图卷积神经网络进行训练，得到动作识别模型。

6.根据权利要求5所述的基于视频图像的动作识别方法，其特征在于，所述搭建ST-G3D图卷积神经网络框架，通过所述ST-G3D图卷积神经网络对所述人体动作识别图像进行人体动作检测，得到多帧人体特征图像包括：

7.根据权利要求5所述的基于视频图像的动作识别方法，其特征在于，所述将所述人体特征图像输入所述ST-G3D图卷积神经网络，以对所述ST-G3D图卷积神经网络进行训练，得到动作识别模型包括：

初始化所述ST-G3D图卷积神经网络的网络参数；

将所述人体特征图像批量输入至所述ST-G3D图卷积神经网络，并基于预设的第一学习率进行训练，得到所述ST-G3D图卷积神经网络的梯度值；

8.一种基于视频图像的动作识别装置，其特征在于，所述基于视频图像的动作识别装置包括：

采集模块，用于基于预设视频采集设备采集预设监控范围内的视频流，并从所述视频流中进行采样，得到至少两帧目标图像数据；

第一提取模块，用于对所述目标图像数据进行人体检测，并从所述目标图像数据中提取对应的人体区域图像；

检测模块，用于提取所述人体区域图像中人体的骨骼数据，并根据所述骨骼数据对所述人体区域图像进行骨骼关键点检测，得到所述人体区域图像中包含的所述骨骼关键点的二维坐标；

第二提取模块，用于根据所述骨骼关键点的二维坐标，对所述人体区域图像进行特征提取，得到所述人体区域图像的特征向量；

识别模块，用于将所述特征向量输入预设动作识别模型，通过所述动作识别模型对所述人体区域图像中的人体动作进行识别，确定所述人体区域图像中人体目标的实时活动姿态，得到动作分类结果；

匹配模块，用于根据所述实时活动姿态，得到动作分类结果，并将所述动作分类结果与预设动作类别进行匹配，并将匹配结果返回给预设客户端。

9.一种基于视频图像的动作识别设备，其特征在于，所述基于视频图像的动作识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于视频图像的动作识别设备执行如权利要求1-7中任一项所述的基于视频图像的动作识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于视频图像的动作识别方法的步骤。