CN112287867B

CN112287867B - 一种多摄像头的人体动作识别方法及装置

Info

Publication number: CN112287867B
Application number: CN202011244926.7A
Authority: CN
Inventors: 魏子昆; 聂学成; 王�琦
Original assignee: Shanghai Yitu Network Science and Technology Co Ltd
Current assignee: Shanghai Yituzhian Artificial Intelligence Technology Co ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-06-08
Anticipated expiration: 2040-11-10
Also published as: CN112287867A

Abstract

本申请涉及动作识别技术领域，尤其涉及一种多摄像头的人体动作识别方法及装置，分别对待识别视频包含的各图像集合中的视频图像进行人体检测，获得各人体区域图像，分别针对各时间点，将同一个人体对应的各人体区域图像进行关联，并确定人体关键点的二维坐标，并分别通过预设的转换方式将各二维坐标转换为三维坐标，将各三维坐标转换为世界坐标系下的三维坐标，计算各三维坐标的坐标平均值，分别将确定出的坐标平均值，作为各时间点中人体关键点的三维关键点坐标，根据确定出的各三维关键点坐标，获得人体的人体动作类别，通过对多摄像头下的视频进行识别，能够从多个角度对待识别视频中包含的人体进行识别，从而能够提高识别的准确度。

Description

一种多摄像头的人体动作识别方法及装置

技术领域

本申请涉及动作识别技术领域，尤其涉及一种多摄像头的人体动作识别方法及装置。

背景技术

目前，动作识别是计算机视觉领域中最具有挑战性的研究方向之一，被广泛应用于安防领域中。

现有技术中，在对摄像头拍摄的视频中的人体动作进行识别时，是基于单目摄像机进行识别的，因此，由于单目相机仅能拍摄到一个角度的视频，因此，视频中的人体很容易受到遮挡的影响，导致人体动作识别的准确率不高。

发明内容

本申请实施例提供一种多摄像头的人体动作识别方法及装置，以提高人体动作识别的准确率。

本申请实施例提供的具体技术方案如下：

一种多摄像头的人体动作识别方法，包括：

分别对待识别视频包含的各图像集合中的视频图像进行人体检测，获得各人体区域图像，其中，所述待识别视频中包含有各图像集合，所述各图像集合是从不同角度拍摄的视频图像的集合，所述各图像集合中分别包含有多个时间点的视频图像；

分别针对各时间点，将同一个人体对应的各人体区域图像进行关联，并分别对关联的各人体区域图像进行人体关键点检测，确定所述关联的各人体区域图像中包含的人体关键点的二维坐标，并分别通过预设的转换方式将各二维坐标转换为三维坐标，计算各三维坐标的坐标平均值，分别将确定出的各坐标平均值，作为所述各时间点中人体关键点的三维关键点坐标；

根据确定出的各三维关键点坐标，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别。

可选的，分别对关联的各人体区域图像进行人体关键点检测之前，进一步包括：

基于已训练的图像质量检测模型，以所述人体区域图像为输入参数，确定所述人体区域图像的图像质量分值，其中，所述图像质量检测模型为根据人体区域图像样本集通过迭代训练获得的，所述人体区域图像样本集中包含各人体区域图像样本；

确定所述人体区域图像的图像质量分值大于等于预设分数阈值。

确定所述人体区域图像的图像宽度值，并确定所述人体区域图像的图像高度值；

确定所述图像宽度值大于等于预设宽度阈值，且所述图像高度值大于等于预设高度阈值。

可选的，将同一个人体对应的各人体区域图像进行关联，并分别对关联的各人体区域图像进行人体关键点检测，确定所述关联的各人体区域图像中包含的人体关键点的二维坐标，具体包括：

基于已训练的图像关联模型，以各人体区域图像为输入参数，将同一个人体对应的各人体区域图像进行关联，建立所述同一个人体与各人体区域图像之间的关联关系，确定与所述同一人体关联的各人体区域图像；

基于已训练的人体关键点识别模型，以所述关联的各人体区域图像为输入参数，对所述关联的各人体区域图像进行人体关键点检测，确定所述关联的各人体区域图像的各人体关键点的二维坐标和对应的属性信息，其中，所述属性信息为可见或不可见。

可选的，计算各三维坐标的坐标平均值，分别将确定出的各坐标平均值，作为所述各时间点中人体关键点的三维关键点坐标，具体包括：

分别将各三维坐标转换为世界坐标系下的三维坐标；

计算世界坐标系下的各三维坐标的坐标平均值，并将计算获得的各坐标平均值，作为所述各时间点中人体关键点的三维关键点坐标。

可选的，计算世界坐标系下的各三维坐标的坐标平均值，具体包括：

计算所述属性信息为可见的关联的各人体区域图像的世界坐标系下的各三维坐标的坐标平均值。

可选的，分别通过预设的转换方式将各二维坐标转换为三维坐标，具体包括：

获得所述人体区域图像的各人体关键点的二维坐标，并通过预设的转换方式将所述各二维坐标转换为关键点热图；

确定所述关联的各人体区域图像的图像深度，获得所述关联的各人体区域图像的深度图；

将所述人体区域图像、关键点热图和深度图输入至已训练的坐标转换模型中，通过全卷积网络对所述关键点热图、所述深度图和所述人体区域图像进行特征提取，确定所述人体区域图像的特征向量，并通过坐标回归网络对所述特征向量进行坐标回归处理，获得所述人体区域图像的各三维坐标，其中，所述坐标转换模型的网络结构至少包括全卷积网络和坐标回归网络。

可选的，通过预设的转换方式将所述各二维坐标转换为关键点热图，具体包括：

对所述各二维关键点坐标进行高斯模糊处理，获得所述人体区域图像的关键点热图。

可选的，确定所述关联的各人体区域图像的图像深度，获得所述关联的各人体区域图像的深度图，具体包括：

基于已训练的图像深度识别模型，以所述关联的各人体区域图像为输入参数，识别所述关联的各人体区域图像的各像素点的图像深度，并根据所述各像素点的图像深度，确定所述关联的各人体区域图像的深度图，其中，所述图像深度识别模型为根据人体区域图像样本集和深度图样本集训练获得的。

可选的，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别，具体包括：

分别针对各人体关键点，根据任意一个人体关键点在所述各时间点中的三维关键点坐标，以及所述各时间点，确定所述任意一个人体关键点的速度信息；

基于已训练的动作识别模型，以所述各人体关键点的速度信息为输入参数，对所述待识别视频中的人体动作进行识别，获得所述待识别视频对应的人体动作类别，其中，所述动作识别模型为根据包含人体动作类别的图像样本集进行迭代训练获得的。

可选的，根据确定出的各三维关键点坐标，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别，具体包括：

分别针对所述各视频帧，对所述各三维关键点坐标进行高斯模糊处理，获得人体区域图像的三维关键点热图；

根据所述各三维关键点热图，以及所述各时间点，确定各人体关键点的速度信息；

分别根据各二维关键点坐标和所述速度信息，对所述各人体区域图像进行特征提取，确定所述待识别视频的特征向量；

基于已训练的全连接网络模型，以所述特征向量为输入参数，对所述待识别视频中的人体动作进行识别，获得所述待识别视频对应的人体动作类别，其中，所述动作识别模型为根据包含人体动作类别的图像样本集进行迭代训练获得的。

可选的，分别根据各二维关键点坐标和所述速度信息，对所述各人体区域图像进行特征提取，确定所述各人体区域图像的特征向量，具体包括：

基于已训练的三维神经网络模型，以所述速度信息为输入参数，对所述速度信息进行特征提取，确定所述待识别视频的第一特征向量，其中，所述三维神经网络模型为根据包含第一特征向量的速度信息样本集进行迭代训练获得的；

基于已训练的二维神经网络模型，以各二维关键点坐标和对应的人体区域图像为输入参数，对所述各二维关键点坐标和对应的人体区域图像进行特征提取，确定所述待识别视频的第二特征向量，其中，所述二维神经网络模型为根据二维关键点坐标样本集和对应的人体区域图像样本集进行迭代训练获得的；

将所述第一特征向量和所述第二特征向量进行合并，获得所述待识别特征的特征向量。

一种多摄像头的人体动作识别装置，包括：

检测模块，用于分别对待识别视频包含的各图像集合中的视频图像进行人体检测，获得各人体区域图像，其中，所述待识别视频中包含有各图像集合，所述各图像集合是从不同角度拍摄的视频图像的集合，所述各图像集合中分别包含有多个时间点的视频图像；

处理模块，用于分别针对各时间点，将同一个人体对应的各人体区域图像进行关联，并分别对关联的各人体区域图像进行人体关键点检测，确定所述关联的各人体区域图像中包含的人体关键点的二维坐标，并分别通过预设的转换方式将各二维坐标转换为三维坐标，计算各三维坐标的坐标平均值，分别将确定出的各坐标平均值，作为所述各时间点中人体关键点的三维关键点坐标；

识别模块，用于根据确定出的各三维关键点坐标，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别。

可选的，分别对关联的各人体区域图像进行人体关键点检测之前，处理模块进一步用于：

可选的，将同一个人体对应的各人体区域图像进行关联，并分别对关联的各人体区域图像进行人体关键点检测，确定所述关联的各人体区域图像中包含的人体关键点的二维坐标时，处理模块具体用于：

基于已训练的图像关联模型，以任意一个帧中各摄像头拍摄获得的人体区域图像为输入参数，将所述同一个人体对应的各人体区域图像进行关联，建立人体与各人体区域图像之间的关联关系；

基于已训练的人体关键点识别模型，以关联的各人体区域图像为输入参数，对所述关联的各人体区域图像进行人体关键点检测，确定所述关联的各人体区域图像的各人体关键点的二维坐标和对应的属性信息，其中，所述属性信息为可见或不可见。

可选的，计算各三维坐标的坐标平均值，分别将确定出的各坐标平均值，作为所述各时间点中人体关键点的三维关键点坐标时，处理模块具体用于：

分别将各三维坐标转换为世界坐标系下的三维坐标；

可选的，计算世界坐标系下的各三维坐标的坐标平均值时，处理模块具体用于：

可选的，分别通过预设的转换方式将各二维坐标转换为三维坐标时，处理模块具体用于：

将所述人体区域图像、关键点热图和深度图输入至已训练的坐标转换模型中，通过全卷积网络对所述关键点热图、所述深度图和所述人体区域图像进行特征提取，确定所述人体区域图像的特征向量，并通过坐标回归网络对所述特征向量进行坐标回归处理，获得所述人体区域图像的各三维关键点坐标，其中，所述坐标转换模型的网络结构至少包括全卷积网络和坐标回归网络。

可选的，通过预设的转换方式将所述各二维坐标转换为关键点热图时，处理模块具体用于：

可选的，确定所述关联的各人体区域图像的图像深度，获得所述关联的各人体区域图像的深度图时，处理模块具体用于：

可选的，识别模块具体用于：

分别针对各人体关键点，根据任意一个人体关键点在所述各时间点中的三维关键点坐标，以及所述各时间点，确定所述任意一个人体关键点的速度信息；基于已训练的动作识别模型，以所述各人体关键点的速度信息为输入参数，对所述待识别视频中的人体动作进行识别，获得所述待识别视频对应的人体动作类别，其中，所述动作识别模型为根据包含人体动作类别的图像样本集进行迭代训练获得的。

可选的，根据确定出的各三维关键点坐标，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别时，识别模块具体用于：

可选的，分别根据各二维关键点坐标和所述速度信息，对所述各人体区域图像进行特征提取，确定所述各人体区域图像的特征向量时，识别模块具体用于：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述多摄像头的人体动作识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述多摄像头的人体动作识别方法的步骤。

本申请实施例中，分别对待识别视频包含的各图像集合中的视频图像进行人体检测，获得各人体区域图像，待识别视频中包含有各图像集合，各图像集合是从不同角度拍摄的包含有人体的视频图像的集合，各图像集合中分别包含有多个时间点的视频图像，分别针对各时间点，将同一个人体对应的各人体区域图像进行关联，并分别对关联的各人体区域图像进行人体关键点检测，确定各人体关键点的二维坐标，并分别通过预设的转换方式将各二维坐标转换为三维坐标，并将各三维坐标转换为世界坐标系下的三维坐标，计算世界坐标系下的各三维坐标的坐标平均值，分别将各时间点对应的坐标平均值，作为人体关键点的三维关键点坐标，并根据确定出的各三维关键点坐标，对待识别视频中包含的人体进行动作识别，获得人体的人体动作，这样，通过对多摄像头下的视频进行识别，能够从不同角度对待识别视频中包含的人体的动作行为进行识别，从而能够提高识别的准确度，并且，基于人体关键点的三维关键点坐标对人体动作进行识别，相比于现有技术中通过二维坐标对人体动作识别来说，能够提高动作识别的准确率。

附图说明

图1为本申请实施例中一种多摄像头的人体动作识别方法的流程图；

图2为本申请实施例中人体检测的示意图；

图3为本申请实施例中多摄像头的人体动作识别装置的结构示意图；

图4为本申请实施例中电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中，在对摄像头拍摄的视频中的人体动作进行识别时，是基于单目摄像机进行识别的，因此，由于单目相机仅能拍摄到一个角度的视频，当人体受到遮挡时，则会导致人体动作识别的准确率不高。

本申请实施例中，分别对待识别视频包含的各图像集合中的视频图像进行人体检测，获得各人体区域图像，分别针对各时间点，将同一个人体对应的各人体区域图像进行关联，并分别对关联的各人体区域图像进行人体关键点检测，确定关联的各人体区域图像中包含的人体关键点的二维坐标，并分别通过预设的转换方式将各二维坐标转换为三维坐标，并将各三维坐标转换为世界坐标系下的三维坐标，计算世界坐标系下的各三维坐标的坐标平均值，分别将各帧对应的坐标平均值，作为各帧中人体关键点的三维关键点坐标，并根据确定出的各三维关键点坐标，对待识别视频中包含的人体进行动作识别，获得人体的人体动作，这样，通过对多摄像头下的视频进行识别，能够从多个角度对待识别视频中包含的人体进行动作识别，从而能够提高识别的准确度。

基于上述实施例，参阅图1所示，为本申请实施例中一种多摄像头的人体动作识别方法的流程图，具体包括：

步骤100：分别对待识别视频包含的各图像集合中的视频图像进行人体检测，获得各人体区域图像。

其中，待识别视频中包含有各图像集合，各图像集合是从不同角度拍摄的包含有人体的视频图像的集合，各图像集合中分别包含有多个时间点的视频图像。

本申请实施例中，在获取摄像机传输的待识别视频之后，由于待识别视频中包含有各图像集合，各图像集合中分别包含有多个时间点的是视频图像，因此，对待识别视频包含的各图像集合中的每一个视频图像进行人体检测，获得包含有人体的人体区域图像。

需要说明的是，本申请实施中的待识别视频中包含有各图像集合，每一个图像集合是一个摄像头从一个角度拍摄到的各个时间点的视频图像的集合，因此，待识别视频中包含有多个摄像头从不同角度拍摄到的视频，待识别视频的每一个时间点都对应多个视频图像。

并且，由于单目摄像头在拍摄视频时，可能会因为角度问题而造成人体被外界物体或被自身遮挡，这样，会导致对人体进行动作识别时的准确率不高，因此，本申请实施例中通过多个摄像头来拍摄人体，拍摄到的待识别视频的每一个时间点都对应于多个视频图像，每一个时间点对应的多个视频图像是多个摄像头从不同角度拍摄到的，进而对多个摄像头拍摄的待识别视频进行人体动作识别，能够解决可能存在的遮挡问题。

其中，人体区域图像为从待识别视频的视频图像上截取出的包含有人体的图像，因此，人体区域图像为红绿蓝(red green blue，RGB)原图。

需要说明的是，本申请实施例中的待识别视频中，可能包含有一个人，也可能包含有多个人，那么在进行人体检测时，获得的人体区域图像可能为一个，也可能为多个，但是，每一个人体区域图像中仅包含一个人体。

进一步地，本申请实施例中，在摄像头拍摄待识别视频之前，还可以对摄像头去除畸变。

本申请实施例中，提供了一种检测人体区域图像的方式，具体包括：

S1：接收摄像机传输的待识别视频，并通过已训练的人体检测网络分别对待识别视频的各视频帧进行人体检测。

本申请实施例中，由于待识别视频是由多个连续的时间点对应的视频图像组成的，因此，在接收到摄像机传输的待识别视频之后，从待识别视频的第1个时间点开始，分别通过已训练的人体检测网络，对各时间点的各视频图像依次进行人体检测，判断各时间点对应的各视频图像中是否包含有人体。

其中，人体检测网络例如可以为Single Shot MultiBox Detector(SSD)、YOLO(You Only Look Once)等，本申请实施例中对此并不进行限制。

S2：若确定在待识别视频中检测到人体，则确定包含人体的视频图像进行标记，并确定包含有人体的人体区域图像，以及人体区域图像在视频图像上的位置数据。

其中，人体区域图像中包含有人体。

本申请实施例中，若确定在待识别视频帧的某一个时间点的视频图像中检测到人体，则对该包含人体的时间点进行标记，并对包含人体的视频图像进行标记，这样，根据时间点的标记就能够获知在该时间点中检测到人体，然后，通过边界矩形框标注出人体在视频图像中的位置，获得人体区域图像，并确定人体区域图像在视频图像上的位置数据，参阅图2所示，为本申请实施例中人体检测的示意图。

S3：在待识别视频的各时间点中，根据位置数据对人体进行追踪，并获得人体在追踪到的视频图像上的人体区域图像。

本申请实施例中，在获得人体区域图像在视频图像上的位置数据之后，在待识别视频的各时间点中，根据确定出的位置数据对各时间点对应的各视频图像中的人体进行人体追踪，并确定人体在追踪到的视频图像上对应的人体区域图像。

其中，在对人体进行追踪时，可以通过光流神经网络(FlowNet)实现。

步骤110：分别针对各时间点，将同一个人体对应的各人体区域图像进行关联，并分别对关联的各人体区域图像进行人体关键点检测，确定关联的各人体区域图像中包含的人体关键点的二维坐标，并分别通过预设的转换方式将各二维坐标转换为三维坐标，计算各三维坐标的坐标平均值，分别将确定出的各坐标平均值，作为各时间点中人体关键点的三维关键点坐标。

本申请实施例中，分别针对各时间点，将同一个人体对应的各人体区域图像进行关联，确定与同一个人体关联的各人体区域图像，并分别对关联的各人体区域图像进行人体关键点检测，确定关联的各人体区域图像中包含的人体关键点的二维坐标时，然后，通过预设的转换方式将各二维坐标转换为三维坐标，计算各三维坐标的坐标平均值，最后，将各三维坐标的坐标平均值作为各时间点中人体关键点的三维关键点坐标。

进一步地，本申请实施例中，由于各二维坐标为相机坐标系下的坐标，各三维坐标也为相机坐标系下的坐标，但是，由于摄像头是在不同角度的，因此，不同角度的相机坐标系也可能是不同的，那么，确定出的坐标平均值可能准确度并不高，因此，本申请实施例中提供了一种优选的实施方式，将各相机坐标系下的三维坐标转换为世界坐标系下的三维坐标，具体包括：

S1：分别将各三维坐标转换为世界坐标系下的三维坐标。

S2：计算世界坐标系下的各三维坐标的坐标平均值，并将计算获得的各坐标平均值，作为各时间点中人体关键点的三维关键点坐标。

本申请实施例中，计算世界坐标系下的各三维坐标的坐标，并将计算获得的各坐标平均值，作为各时间点中人体关键点的三维关键点坐标，这样，将处于不同的相机坐标系下的三维转换为同一个世界坐标系下的三维坐标，能够将不同的坐标系中的坐标转换到同一个坐标系中，从而获得更加准确的坐标平均值，还能够提高三维关键点坐标的计算的准确度。

例如，首先通过任意一种标定方法如张正友标定方法得到相机的内外参，然后，假设像素坐标为(u,v)，则确定出相机坐标系下的人体关键点的二维坐标为(x,y)，将相机坐标系下的人体关键点的二维坐标转换为相机坐标系下的人体关键点的三维坐标(Xc,Yc,Zc)，最后，对相机坐标系下的人体关键点的二维坐标进行计算，确定出人体关键点在世界坐标系下的三维坐标(Xw,Yw,Zw)。

其中，人体关键点在相机坐标系下的三维坐标与世界坐标系下的三维坐标之间的转换公式具体可以表示为：

其中，R＝r₁*r₂*r₃，R表征旋转，T代表平移，这两个参数均与摄像头无关，所以称这两个参数为相机的外参，也可以理解为两个坐标原点之间的距离，它们各具有三个自由度。

下面对本申请实施例中对同一个人体的各人体区域图像关联的步骤进行详细阐述，具体包括：

S1：基于已训练的图像关联模型，以各人体区域图像为输入参数，将同一个人体对应的各人体区域图像进行关联，建立同一个人体与各人体区域图像之间的关联关系，确定与同一人体关联的各人体区域图像。

本申请实施例中，待识别视频为多个摄像头拍摄的视频，也就是说，待识别视频可以是对一个人体或多个人体从不同的角度拍摄的视频，因此，待识别视频的每一个时间点中，都包含多个摄像头从不同角度拍摄的视频图像，并且，由于每一个视频图像中可能包含有多个人体，因此，在相同的时间点下，需要将同一个人体对应的各视频图像中的人体区域图像进行关联，因此，在本申请实施例中，训练图像关联模型，并基于已训练的图像关联模型，以任意一个时间点中各摄像头拍摄的人体区域图像为输入参数，将同一个人体对应的各人体区域图像进行关联，并建立人体与各人体区域图像之间的关联关系，确定与同一人体关联的各人体区域图像。

其中，图像关联模型例如可以为重识别(Re-identification，ReID)模型，本申请实施例中对此并不进行限制。

例如，假设共有3个摄像头同时拍摄视频，分别对各个人体的前面、后面以及侧面进行拍摄，则待识别视频中包含有3个摄像头传输的视频，下面以第1个时间点为例进行举例说明，由于有3个摄像头同时进行拍摄，则在第1个时间点中，包含有3个视频图像，假设每一个视频图像中都包含有2个人体，分别为A和B，则对每一个视频图像进行人体检测之后，共获得6个人体区域图像，并分别将这六个人体区域图像输入至已训练的图像关联模型中，将人体A的各人体区域图像进行关联，即，与人体A关联的人体区域图像有3个，并将人体B的各人体区域图像进行关联，即，与人体B关联的人体区域图像有3个，因此，获得的每一个人体关联的人体区域图像是不同摄像头拍摄的，且是关于同一个人体的。

需要说明的是，本申请实施例中的同一个人体是基于各个人体区域图像之间的相似度进而识别出的，具体地，将各人体区域图像输入至已训练的识别模型中，获得任意一个人体区域图像与其它各个人体区域图像之间的相似度，可将相似度大于等于预设相似度阈值的人体区域图像中所包含的人体认为是同一个人体。

S2：基于已训练的人体关键点识别模型，以关联的各人体区域图像为输入参数，对关联的各人体区域图像进行人体关键点检测，确定关联的各人体区域图像的各人体关键点的二维坐标和对应的属性信息。

其中，属性信息为可见或不可见。

本申请实施例中，首先，训练人体关键点识别模型，在训练人体关键点识别模型时，是通过人体区域图像样本集和对应的二维坐标样本集进行迭代训练获得的，人体区域图像样本集中包含有多个人体区域图像样本，每一个人体区域图像样本对应与各人体关键点的二维坐标样本。

然后，获取已训练的人体关键点识别模型，并将任意一个帧中各关联的人体区域图像输入至已训练的人体关键点识别模型中，并分别对关联的每一个人体区域图像执行以下操作：对人体区域图像进行人体关键点检测，获得人体区域图像的各人体关键点，并获得各人体关键点在人体区域图像中的位置信息，确定各人体关键点的二维坐标，并且，在对人体区域图像进行人体关键点检测时，还会检测到各人体关键点对应的属性信息。

其中，属性信息为可见或不可见，属性信息为可见表征人体关键点未被遮挡，属性信息为不可见表征人体关键点被外部遮挡或被人体遮挡。

例如，假设与人体A关联的各人体区域图像分别为A1、A2、A3，则将各人体区域图像输入至已训练的人体关键点识别模型中，对A1进行人体关键点检测，确定A1中包含的各人体关键点对应的二维坐标，以及各人体关键点对应的属性信息，对A2进行人体关键点检测，确定A2中包含的各人体关键点对应的二维坐标，以及各人体关键点对应的属性信息，对A3进行人体关键点检测，确定A3中包含的各人体关键点对应的二维坐标，以及各人体关键点对应的属性信息。

在获得各人体关键点对应的二维坐标和各人体关键点对应的属性信息之后，分别通过预设的转换方式将各二维坐标转换为三维坐标，下面对本申请实施例中将各二维坐标转换为三维坐标的步骤进行详细阐述，具体包括：

S1：获得人体区域图像的各人体关键点的二维坐标，并通过预设的转换方式将各二维坐标转换为关键点热图。

本申请实施例中，执行步骤S1时，具体包括：

对各二维关键点坐标进行高斯模糊处理，获得人体区域图像的关键点热图。

本申请实施例中，对各二维关键点坐标进行高斯模糊处理，进而根据各二维关键点坐标生成关键点热图，关键点热图的每个点为纯黑图上的对应位置的高斯核，关键点热图和人体区域图像的图像大小是相同的。

例如，假设关键点热图大小为(64,48)，二维关键点的坐标为(32,24)，则将一个(64,48)的黑图的中心点点亮。

S2：确定关联的各人体区域图像的图像深度，获得关联的各人体区域图像的深度图。

本申请实施例中，执行步骤S2时，具体包括：

基于已训练的图像深度识别模型，以关联的各人体区域图像为输入参数，识别关联的各人体区域图像的各像素点的图像深度，并根据各像素点的图像深度，确定关联的各人体区域图像的深度图。

其中，图像深度识别模型为根据人体区域图像样本集和深度图样本集训练获得的。

首先，训练图像深度识别模型，图像深度识别模型是根据人体区域图像样本集和对应的深度图样本集通过迭代训练获得的，图像深度识别模型用于学习人体区域图像到深度图的映射，人体区域图像样本集中包括多个人体区域图像样本，深度图样本集中包括多个深度图样本，每一个人体区域图像样本对应一个深度图样本。

其中，图像深度识别网络用于将人体区域图像转换为深度图，深度图和人体区域图像的图像大小是相同的。

图像深度识别模型例如可以为全卷积网络(Fully Convolutional Networks，FCN)，本申请实施例中对此并不进行限制。

然后，在获得已训练的图像深度识别模型之后，以关联的各人体区域图像为输入参数，将关联的各人体区域图像输入至图像深度识别模型中，识别获得关联的各人体区域图像的各像素点的图像深度，最后，根据关联的各人体区域图像中各像素点的图像深度，生成关联的各人体区域图像的深度图。

S3：将人体区域图像、关键点热图和深度图输入至已训练的坐标转换模型中，通过全卷积网络对关键点热图、深度图和人体区域图像进行特征提取，确定人体区域图像的特征向量，并通过坐标回归网络对特征向量进行坐标回归处理，获得人体区域图像的各三维坐标。

其中，坐标转换模型的网络结构至少包括全卷积网络和坐标回归网络。

本申请实施例中，分别针对各视频帧，基于已训练的坐标转换模型，以任意一个视频帧中所包含的人体区域图像的关键点热图、深度图和人体区域图像为输入参数，将关键点热图、深度图和人体区域图像合并为多维图，并通过全卷积网络对合并后的多维图进行特征提取，确定该人体区域图像的特征向量，并通过坐标回归网络，将提取后的特征向量进行坐标回归处理，获得一个N*4的向量，该向量表征三维坐标。

其中，输入到坐标转换模型中的人体区域图像为原图的截取图，可以是以人体检测框外扩一定大小，例如，1.5倍，也可以不外扩，全卷积网络例如可以为特征图金字塔网络(Feature Pyramid Networks，FPN)结构网络，坐标回归网络例如可以为两层全连接残差网络。

其中，回归获得的N*4的向量分别表示三维坐标的x，y，z和该点的置信度。

本申请实施例中，输入至坐标转换模型中的参数为关键点热图、深度图和人体区域图像，并将关键点热图、深度图和人体区域图像合并为多维图，并基于多维图将人体关键点的二维坐标转换为三维坐标，因此，挖掘到关于人体关键点的更多特征和多重信息，即关键点热图、深度图和人体区域图像，能够在进行特征提取时，获得关于人体关键点的多特征，并且，基于挖掘到的多特征来进行坐标转换，可以提高坐标转换的准确率，并且，本申请实施例中，当坐标回归网络为全连接残差网络时，由于全连接残差网络中的残差块在学习函数时非常容易，因此，能够提高模型的训练效率，提高网络性能。

因此，本申请实施例中，将关键点热图、深度图和人体区域图像输入至全卷积网络，能够提取到人体区域图像的多个特征，并将全卷积网络提取获得的多个特征输入到全连接残差网络中，进行坐标回归，能够提升坐标转换的准确率。

进一步地，若视频帧中的人体对应的图像存在遮挡或者截断时，则获取到的人体区域图像中就不能包括完整的人体，这样可能会发生误判，因此，为了提高对人体关键点检测的准确度，还需要保证人体区域图像的质量，将质量不合格的人体区域图像删除，可以通过以下两种方式过滤掉质量不合格的人体区域图像。

第一种方式，具体包括：

S1：基于已训练的图像质量检测模型，以人体区域图像为输入参数，确定人体区域图像的图像质量分值。

其中，图像质量检测模型为根据人体区域图像样本集通过迭代训练获得的，人体区域图像样本集中包含各人体区域图像样本。

本申请实施例中，获取已训练的图像质量检测模型，图像质量检测模型用于输出人体区域图像的图像质量分值，将人体区域图像输入至已训练的图像质量检测模型中，输出参数为人体区域图像的图像质量分值。

其中，图像质量检测模型例如可以为vgg神经网络模型、残差神经网络(Resnet)等，本申请实施例中对此并不进行限制。

S2：确定人体区域图像的图像质量分值大于等于预设分数阈值。

本申请实施例中，在通过预设的已训练的图像质量检测模型获得图像质量分值时，具体可以分为以下两种情况：

第一种情况：图像质量分值大于等于预设分数阈值。

确定人体区域图像的图像质量分值大于等于预设分数阈值，则确定该人体区域图像为质量合格的图像，能够继续进行后续的检测步骤。

第二种情况：图像质量分值小于预设分数阈值。

若确定人体区域图像的图像质量分值小于预设分数阈值，则确定该图像中存在截断或遮挡，为质量不合格的图像，将该人体区域图像删除。

第二种方式，具体包括：

S1：确定人体区域图像的图像宽度值，并确定人体区域图像的图像高度值。

本申请实施例中，根据人体区域图像的上边界线、下边界线、左边界线和右边界线在视频帧中的位置信息，确定其在视频帧中的坐标，并根据确定出的各坐标，确定人体区域图像的图像宽度值和图像高度值。

S2：确定图像宽度值大于等于预设宽度阈值，且图像高度值大于等于预设高度阈值。

本申请实施例中，若确定图像宽度值大于等于预设宽度阈值，且图像高度值大于等于预设高度阈值，则确定人体区域图像为质量合格的图像，若确定图像宽度值或图像高度值小于预设阈值，则确定人体区域图像为质量不合格的图像。

在确定出人体区域图像的三维坐标之后，对于同一时间点，每一个人体对应多个人体区域图像，因此，需要根据各人体区域图像对应的三维坐标，并将各三维坐标转换为世界坐标系下的三维坐标，计算世界坐标系下的各三维坐标的坐标平均值，进而获得三维关键点坐标，下面对本申请实施例中，获得三维关键点坐标的步骤进行详细阐述，具体包括：

计算属性信息为可见的关联的各人体区域图像的世界坐标系下的各三维坐标的坐标平均值。

本申请实施例中，分别针对各时间点，执行以下步骤：

首先，由于各时间点的任意一个时间点中，一个人体有多个关联的人体区域图像，且每一个人体区域图像对应多个人体关键点的三维坐标，分别将各相机坐标系下的三维坐标转换为世界坐标系下的三维坐标，并计算世界坐标系下的各三维坐标的的坐标平均值。

并且，在计算坐标平均值时，仅计算属性信息为可见的人体关键点对应的三维坐标。

例如，假设人体A关联的人体区域图像分别为A1、A2、A3，下面以人体关键点为头部关键点为例进行说明，A1中的头部关键点的属性信息为可见，A2中的头部关键点的属性信息为可见，A3中的头部关键点的属性信息为不可见，则在计算各人体区域图像中头部关键点的三维坐标的坐标平均值时，由于人体区域图像A3中的头部关键点的属性信息为不可见，则不对其进行计算，删除三维坐标，将属性信息为可见的三维坐标转换为世界坐标系下的三维坐标，因此，人体区域图像A1中的头部关键点a1对应的世界坐标系下的三维坐标为(x₁,y₁,z₁)，人体区域图像A2中的头部关键点a2对应的世界坐标系下的三维坐标为(x₂,y₂,z₂)，人体区域图像A3中的头部关键点a3对应的三维坐标为(x₃,y₃,z₃)，因此，世界坐标系下的头部关键点的坐标平均值的表达式例如可以表示为：

因此，在确定出各人体关键点的三维坐标的坐标平均值之后，将确定出的各坐标平均值作为该时间点中各人体关键点的三维关键点坐标，进而在对待识别视频进行人体动作视频时，使用的是各时间点中各人体关键点对应的三维关键点坐标进而识别的。

需要说明的是，可以取前后n帧，共2n+1帧的视频图像分别求三维关键点坐标，其中，n大于等于1。

例如，以第5帧为例，n为1，则对第3-7帧进行三维坐标求取。

步骤120：根据确定出的各三维关键点坐标，对待识别视频中包含的人体进行动作识别，获得人体的人体动作类别。

本申请实施例中，在获得各三维关键点坐标之后，根据确定出的各人体关键点对应的三维关键点坐标，对待识别视频中包含的人体对应的人体动作进行识别，并确定人体对应的人体动作类别，则确定人体对应的人体动作类别时，具体可以通过以下两种不同的方式实现，但并不仅限于以下两种实现方式。

第一种方式，具体包括：

S1：分别针对各人体关键点，根据任意一个人体关键点在各时间点中的三维关键点坐标，以及各时间点，确定任意一个人体关键点的速度信息。

本申请实施例中，在确定出每一个时间点中的人体对应的各人体关键点的三维关键点坐标之后，分别针对各人体关键点，确定每一个时间点中，人体关键点的三维关键点坐标，然后，分别针对各人体关键点，执行以下操作：根据任意一个人体关键点在各个时间点下的三维关键点坐标，确定各人体关键点的位移，然后，将最后一个时间点减去第一个时间点，确定检测到人体的第1个时间点与最后一个检测到人体的时间点之间的时间，然后，根据任意一个人体关键点对应的位移与确定出的时间之间的比值，确定任意一个人体关键点的速度信息。

例如，假设人体关键点为头部关键点，则确定每一个时间点中头部关键点的三维关键点坐标，假设在待识别视频中，第1个时间点检测到人体，直到第4个时间点没有检测到人体，因此，从第1个时间点到第3个时间点中检测到人体，第一个时间点对应的时间值为s₁，第2个时间点对应的时间值为s₂，第3个时间点对应的时间值为s₃，第1个时间点中头部关键点对应的三维关键点坐标为(x₁,y₁,z₁)，第2个时间点中头部关键点对应的三维关键点坐标为(x₂,y₂,z₂)，第3个时间点中头部关键点对应的三维关键点坐标为(x₃,y₃,z₃)，则预设数个时间点之间的时间为s₃-s₁，从第1个时间点到第3个时间点之间的头部关键点对应的位移为(x₃-x₁,y_3-y₁,z_3-z₁)，因此，从第1个时间点到第3个时间点，头部关键点对应的速度信息v可以表示为：

S2：基于已训练的动作识别模型，以各人体关键点的速度信息为输入参数，对待识别视频中的人体动作进行识别，获得待识别视频对应的人体动作类别。

其中，动作识别模型为根据包含人体动作类别的图像样本集进行迭代训练获得的。

本申请实施例中，首先，训练动作识别模型。

在训练动作识别模型时，是通过各人体的各人体关键点对应的速度信息样本集和对应的人体动作类别样本集进行迭代训练获得的，速度信息样本集中包含有多个人体的各人体关键点对应的速度信息样本，人体动作类别样本集中包含有多个人体动作类别样本，每一个人体的各人体关键点对应的速度信息样本对应一个人体动作类别样本。

然后，获取已训练的动作识别模型，并将待识别视频中包含的人体对应的各人体关键点的速度信息输入至已训练的动作识别模型中，并对待识别视频中的人体动作进行识别，获得待识别视频中包含的人体对应的人体动作类别。

其中，动作识别模型例如可以为ResNet。

第二种方式，具体包括：

S1：分别针对各视频帧，对各三维关键点坐标进行高斯模糊处理，获得人体区域图像的三维关键点热图。

本申请实施例中，分别针对待识别视频的各视频帧，对各三维关键点坐标进行高斯模糊处理，将各三维关键点映射到热图中，生成包含有人体的人体区域图像的三维关键点热图。

S2：根据各三维关键点热图，以及各时间点，确定各人体关键点的速度信息。

本申请实施例中，将各时间点中的三维关键点热图与前一个时间点中的三维关键点热图之间的差值，除以各时间点之间的时间值，确定人体区域图像中各人体关键点的速度信息。

其中，速度信息也可称为速度光流。

S3：分别根据各二维关键点坐标和速度信息，对所人体区域图像进行特征提取，确定待识别视频的特征向量。

本申请实施例中，执行步骤S3时，具体包括：

A1：基于已训练的三维神经网络模型，以速度信息为输入参数，对速度信息进行特征提取，确定待识别视频的第一特征向量。

其中，三维神经网络模型为根据包含第一特征向量的速度信息样本集进行迭代训练获得的。

本申请实施例中，首先训练三维神经网络模型，三维神经网络模型为根据包含第一特征向量的速度信息样本集进行迭代训练获得的，速度信息样本集中包含多个速度信息样本与对应的第一特征向量样本，以及速度信息样本与对应的第一特征向量样本之间的关联关系。

在获得已训练的三维神经网络模型之后，将待识别视频的速度信息输入至已训练的三维神经网络模型中，对速度信息进行特征提取。

最后，获得待识别视频的第一特征向量。

其中，第一特征向量例如可以为156维的向量。

A2：基于已训练的二维神经网络模型，以各二维关键点坐标和对应的人体区域图像为输入参数，对各二维关键点坐标和对应的人体区域图像进行特征提取，确定待识别视频的第二特征向量。

其中，二维神经网络模型为根据二维关键点坐标样本集和对应的人体区域图像样本集进行迭代训练获得的。

本申请实施例中，首先，训练二维神经网络模型，在对二维神经网络模型进行训练时，是基于二维关键点坐标样本集和对应的人体区域图像样本集进行迭代训练获得的，二维关键点坐标样本集中包含有多个二维关键点坐标样本，人体区域图像样本集中包含有多个人体区域图像样本，每一个人体区域图像样本对应一组人体关键点的二维关键点坐标样本。

在获得已训练的二维神经网络模型之后，将人体区域图像对应的各二维关键点坐标和对应的人体区域图像输入至已训练的二维神经网络模型中，对人体区域图像对应的各二维关键点坐标进行特征提取，并对人体区域图像进行特征提取，获得待识别视频的第二特征向量。

其中，第二特征向量例如可以为156维的向量。

需要说明的是，二维关键点坐标为人体区域图像的各人体关键点的二维坐标的平均值，其获得方法与三维关键点坐标的获得方法相同，在此不再赘述。

A3：将第一特征向量和第二特征向量进行合并，获得待识别特征的特征向量。

本申请实施例中，在获得待识别视频的第一特征向量和第二特征向量之后，将第一特征向量和第二特征向量进行维度合并，获得待识别视频的特征向量。

例如，假设第一特征向量为156维的向量，第二特征向量为156维的向量，则获得待识别视频的318维的特征向量。

S4：基于已训练的全连接网络模型，以特征向量为输入参数，对待识别视频中的人体动作进行识别，获得待识别视频对应的人体动作类别。

本申请实施例中，首先，训练全连接网络模型，在训练全连接网络模型时，是基于特征向量样本集和对应的人体动作类别样本集进行迭代训练获得的，特征向量样本集中包含有多个特征向量样本，人体动作类别样本集中包含有多个人体动作类别样本，每一个特征向量样本对应一个人体动作类别样本，全连接网络模型用于训练特征向量样本与人体动作类别样本之间的关联关系。

然后，读取已训练的全连接网络模型，并将待识别视频的特征向量输入至已训练的全连接网络模型，根据待识别视频的特征向量与全连接网络模型中的人体动作类别，确定待识别视频对应的人体动作类别，最后，输出人体动作类别。

其中，人体动作类别例如可以为跑步、跳舞、倒地、投掷物品等。

本申请实施例中，本申请实施例中，分别对待识别视频包含的各图像集合中的视频图像进行人体检测，获得各人体区域图像，分别针对各时间点，确定与同一个人体关联的各人体区域图像，并确定关联的各人体区域图像中包含的人体关键点的二维坐标，通过预设的转换方式将各二维坐标转换为三维坐标，并将各三维坐标转换为世界坐标系下的三维坐标，计算世界坐标系下的各三维坐标的坐标平均值，将确定出的各坐标平均值，作为各时间点中人体关键点的三维关键点坐标，并根据确定出的各三维关键点坐标，对待识别视频中包含的人体进行动作识别，这样，通过对多摄像头下的视频进行识别，由于多个摄像头多视角得到的图像信息比单个摄像头的单张图像的信息更加丰富，因此能够解决单个摄像头视角下遮挡的问题，从多个角度对待识别视频中包含的人体的动作进行识别，从而能够提高识别的准确度。

基于同一发明构思，本申请实施例中提供了多摄像头的人体动作识别装置，该多摄像头的人体动作识别装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图3所示，为本申请实施例中多摄像头的人体动作识别装置的结构示意图，具体包括：

检测模块300，用于分别对待识别视频包含的各图像集合中的视频图像进行人体检测，获得各人体区域图像，其中，所述待识别视频中包含有各图像集合，所述各图像集合是从不同角度拍摄的视频图像的集合，所述各图像集合中分别包含有多个时间点的视频图像；

处理模块310，用于分别针对各时间点，将同一个人体对应的各人体区域图像进行关联，并分别对关联的各人体区域图像进行人体关键点检测，确定所述关联的各人体区域图像中包含的人体关键点的二维坐标，并分别通过预设的转换方式将各二维坐标转换为三维坐标，计算各三维坐标的坐标平均值，分别将确定出的各坐标平均值，作为所述各时间点中人体关键点的三维关键点坐标；

识别模块320，用于根据确定出的各三维关键点坐标，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别。

可选的，分别对关联的各人体区域图像进行人体关键点检测之前，处理模块310进一步用于：

可选的，将同一个人体对应的各人体区域图像进行关联，并分别对关联的各人体区域图像进行人体关键点检测，确定所述关联的各人体区域图像中包含的人体关键点的二维坐标时，处理模块310具体用于：

可选的，计算各三维坐标的坐标平均值，分别将确定出的各坐标平均值，作为所述各时间点中人体关键点的三维关键点坐标时，处理模块310具体用于：

分别将各三维坐标转换为世界坐标系下的三维坐标；

可选的，计算世界坐标系下的各三维坐标的坐标平均值时，处理模块310具体用于：

可选的，分别通过预设的转换方式将各二维坐标转换为三维坐标时，处理模块310具体用于：

可选的，通过预设的转换方式将所述各二维坐标转换为关键点热图时，处理模块310具体用于：

可选的，确定所述关联的各人体区域图像的图像深度，获得所述关联的各人体区域图像的深度图时，处理模块310具体用于：

可选的，识别模块320具体用于：

可选的，根据确定出的各三维关键点坐标，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别时，识别模块320具体用于：

可选的，分别根据各二维关键点坐标和所述速度信息，对所述各人体区域图像进行特征提取，确定所述各人体区域图像的特征向量时，识别模块320具体用于：

基于上述实施例，参阅图4所示为本申请实施例中电子设备的结构示意图。

本申请实施例提供了一种电子设备，该电子设备可以包括处理器410(CenterProcessing Unit，CPU)、存储器420、输入设备430和输出设备440等，输入设备430可以包括键盘、鼠标、触摸屏等，输出设备440可以包括显示设备，如液晶显示器(Liquid CrystalDisplay，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器420可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器410提供存储器420中存储的程序指令和数据。在本申请实施例中，存储器420可以用于存储本申请实施例中任一种多摄像头的人体动作识别方法的程序。

处理器410通过调用存储器420存储的程序指令，处理器410用于按照获得的程序指令执行本申请实施例中任一种多摄像头的人体动作识别方法。

基于上述实施例，本申请实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的多摄像头的人体动作识别方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种多摄像头的人体动作识别方法，其特征在于，包括：

根据确定出的各三维关键点坐标，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别；

其中，根据确定出的各三维关键点坐标，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别，具体包括：分别针对各视频帧，对所述各三维关键点坐标进行高斯模糊处理，获得人体区域图像的三维关键点热图；根据所述各三维关键点热图，以及所述各时间点，确定各人体关键点的速度信息；分别根据各二维关键点坐标和所述速度信息，对所述各人体区域图像进行特征提取，确定所述待识别视频的特征向量；基于已训练的全连接网络模型，以所述特征向量为输入参数，对所述待识别视频中的人体动作进行识别，获得所述待识别视频对应的人体动作类别，其中，所述全连接网络模型为根据包含人体动作类别的图像样本集进行迭代训练获得的。

2.如权利要求1所述的方法，其特征在于，分别对关联的各人体区域图像进行人体关键点检测之前，进一步包括：

3.如权利要求1所述的方法，其特征在于，分别对关联的各人体区域图像进行人体关键点检测之前，进一步包括：

4.如权利要求1所述的方法，其特征在于，将同一个人体对应的各人体区域图像进行关联，并分别对关联的各人体区域图像进行人体关键点检测，确定所述关联的各人体区域图像中包含的人体关键点的二维坐标，具体包括：

基于已训练的图像关联模型，以各人体区域图像为输入参数，将同一个人体对应的各人体区域图像进行关联，建立所述同一个人体与各人体区域图像之间的关联关系，确定与所述同一个人体关联的各人体区域图像；

5.如权利要求4所述的方法，其特征在于，计算各三维坐标的坐标平均值，分别将确定出的各坐标平均值，作为所述各时间点中人体关键点的三维关键点坐标，具体包括：

分别将各三维坐标转换为世界坐标系下的三维坐标；

6.如权利要求5所述的方法，其特征在于，计算世界坐标系下的各三维坐标的坐标平均值，具体包括：

7.如权利要求1所述的方法，其特征在于，分别通过预设的转换方式将各二维坐标转换为三维坐标，具体包括：

8.如权利要求7所述的方法，其特征在于，通过预设的转换方式将所述各二维坐标转换为关键点热图，具体包括：

对所述各二维坐标进行高斯模糊处理，获得所述人体区域图像的关键点热图。

9.如权利要求7所述的方法，其特征在于，确定所述关联的各人体区域图像的图像深度，获得所述关联的各人体区域图像的深度图，具体包括：

10.如权利要求1所述的方法，其特征在于，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别，具体包括：

11.如权利要求1所述的方法，其特征在于，分别根据各二维关键点坐标和所述速度信息，对所述各人体区域图像进行特征提取，确定所述各人体区域图像的特征向量，具体包括：

将所述第一特征向量和所述第二特征向量进行合并，获得所述待识别视频的特征向量。

12.一种多摄像头的人体动作识别装置，其特征在于，包括：

识别模块，用于根据确定出的各三维关键点坐标，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别；

其中，根据确定出的各三维关键点坐标，对所述待识别视频中包含的人体进行动作识别，获得所述人体的人体动作类别时，识别模块具体用于：分别针对各视频帧，对所述各三维关键点坐标进行高斯模糊处理，获得人体区域图像的三维关键点热图；根据所述各三维关键点热图，以及所述各时间点，确定各人体关键点的速度信息；分别根据各二维关键点坐标和所述速度信息，对所述各人体区域图像进行特征提取，确定所述待识别视频的特征向量；基于已训练的全连接网络模型，以所述特征向量为输入参数，对所述待识别视频中的人体动作进行识别，获得所述待识别视频对应的人体动作类别，其中，所述全连接网络模型为根据包含人体动作类别的图像样本集进行迭代训练获得的。

13.如权利要求12所述的装置，其特征在于，分别对关联的各人体区域图像进行人体关键点检测之前，处理模块进一步用于：

14.如权利要求12所述的装置，其特征在于，分别对关联的各人体区域图像进行人体关键点检测之前，处理模块进一步用于：

15.如权利要求12所述的装置，其特征在于，将同一个人体对应的各人体区域图像进行关联，并分别对关联的各人体区域图像进行人体关键点检测，确定所述关联的各人体区域图像中包含的人体关键点的二维坐标时，处理模块具体用于：

16.如权利要求15所述的装置，其特征在于，计算各三维坐标的坐标平均值，分别将确定出的各坐标平均值，作为所述各时间点中人体关键点的三维关键点坐标时，处理模块具体用于：

分别将各三维坐标转换为世界坐标系下的三维坐标；

17.如权利要求16所述的装置，其特征在于，计算世界坐标系下的各三维坐标的坐标平均值时，处理模块具体用于：

18.如权利要求12所述的装置，其特征在于，分别通过预设的转换方式将各二维坐标转换为三维坐标时，处理模块具体用于：

19.如权利要求18所述的装置，其特征在于，通过预设的转换方式将所述各二维坐标转换为关键点热图时，处理模块具体用于：

20.如权利要求18所述的装置，其特征在于，确定所述关联的各人体区域图像的图像深度，获得所述关联的各人体区域图像的深度图时，处理模块具体用于：

21.如权利要求12所述的装置，其特征在于，识别模块具体用于：

22.如权利要求12所述的装置，其特征在于，分别根据各二维关键点坐标和所述速度信息，对所述各人体区域图像进行特征提取，确定所述各人体区域图像的特征向量时，识别模块具体用于：

23.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-11任一项所述方法的步骤。

24.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-11任一项所述方法的步骤。