CN112990057A

CN112990057A - 一种人体姿态识别方法、装置及电子设备

Info

Publication number: CN112990057A
Application number: CN202110336994.4A
Authority: CN
Inventors: 杨建权; 赵阳; 朱涛; 张星
Original assignee: Beijing E Hualu Information Technology Co Ltd
Current assignee: Beijing E Hualu Information Technology Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-18

Abstract

本发明公开了一种人体姿态识别方法、装置及电子设备，涉及数据处理技术领域，包括：获取目标监控区域的视频数据；利用预先训练好的人体检测模型对所述视频数据中的图像进行人体检测，得到人体检测框；利用预先训练好的人体姿态识别模型对所述人体检测框中的人体姿态进行识别得到人体姿态识别结果。通过集成预先训练好的人体检测模型和人体状态识别模型同时对目标监控区域的视频数据进行识别处理，识别过程无需借助其他传感器数据，仅需摄像头记录的图像信息，可以及时、准确地识别出目标监控区域的人员发生的危险事件。

Description

一种人体姿态识别方法、装置及电子设备

技术领域

本发明涉及数据处理技术领域，具体涉及一种人体姿态识别方法、装置及电子设备。

背景技术

在社区、景区等公共场合或者家庭、医院等空间中，常有人员推搡或者人员疾病突发等状态导致的人员倒地行为，面对事件的发生应当及时发现并做出响应处理。人体姿态识别是计算机视觉领域一个极其重要的研究方向，其被广泛的应用于监控、娱乐、人机交互、图像和视频搜索等领域。相关技术中，绝大部分监控系统只局限于简单的图像处理，或者通过一些传感器辅助设备来识别人员的异常行为，而无法直接通过图像分析的方法来进行人员异常行为的识别，识别效率较低。故亟待提出一种人体姿态识别方法以及时识别出视频图像中危险事件。

发明内容

因此，本发明提供一种人体姿态识别方法、装置及电子设备以及时识别出视频图像中危险事件。

根据第一方面，本发明实施例公开了一种人体姿态识别方法，包括：获取目标监控区域的视频数据；利用预先训练好的人体检测模型对所述视频数据中的图像进行人体检测，得到人体检测框；利用预先训练好的人体姿态识别模型对所述人体检测框中的人体姿态进行识别得到人体姿态识别结果。

可选地，所述人体检测模型通过下述步骤训练得到：构建第一训练数据集，所述第一训练数据集由多个场景中不同时间段和/或不同光照条件下的包含人体的图像组成；利用yolo v3模型对所述第一训练数据集中的人体进行识别，对识别到的人体进行框选，得到预测框；利用包含预测框的训练数据对预训练模型进行训练，直至所述预训练模型的准确率满足目标条件，得到人体检测模型。

可选地，所述预训练模型包含所述yolo v3模型中的目标数量层的网络结构，所述预训练模型的网络层数大于所述目标数量层的层数，将所述yolo v3模型中的目标数量层的网络结构的输出数据作为所述预训练模型其他层网络结构的输入数据；所述利用包含预测框的训练数据对预训练模型进行训练，直至所述预训练模型的准确率满足目标条件，得到人体检测模型，包括：利用包含预测框的训练数据对所述预训练模型中其他层网络结构进行训练，直至所述预训练模型的准确率满足目标条件，得到所述人体检测模型。

可选地，所述人体姿态识别模型根据下述步骤训练得到：构建第二训练数据集，所述第二训练数据集由多个场景中不同时间段和/或不同光照条件下的包含人体的图像组成；利用CPN模型对所述第二训练数据集中图像进行人体关键点标记；根据标记结果得到不同类别的人体姿态分类数据集，从所述不同类别的人体姿态分类数据集中选取用于表征人体倒地姿态的人体姿态分类数据集；利用所述用于表征人体倒地姿态的人体姿态分类数据集对目标分类模型进行训练，直至模型的准确性和损失值满足目标条件，得到所述人体姿态识别模型。

可选地，所述CPN网络由GlobalNet网络和RefineNet网络构成。

可选地，利用所述用于表征人体倒地姿态的人体姿态分类数据集对目标分类模型进行训练，得到所述人体姿态识别模型，包括：对所述用于表征人体倒地姿态的人体姿态分类数据集中的数据进行增强处理；利用增强处理后的数据对目标分类模型进行训练，得到所述人体姿态识别模型。

可选地，所述方法还包括：选取包含人体的图像中人体中心点位于整个图像目标中心范围内的图像构建所述第二训练数据集；滤除所述第二训练数据集中利用所述CPN模型进行人体关键点标记后得到的关键点数量小于预设数量的图像；利用滤除后的图像进行所述人体姿态识别模型训练。

根据第二方面，本发明实施例还公开了一种人体姿态识别装置，包括：第一获取模块，用于获取目标监控区域的视频数据；第二获取模块，用于利用预先训练好的人体检测模型对所述视频数据中的图像进行人体检测，得到人体检测框；第三获取模块，用于利用预先训练好的人体姿态识别模型对所述人体检测框中的人体姿态进行识别得到人体姿态识别结果。

根据第三方面，本发明实施例还公开了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的人体姿态识别方法的步骤。

根据第四方面，本发明实施方式还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的人体姿态识别方法的步骤。

本发明技术方案，具有如下优点：

本发明提供的人体姿态识别方法/装置，利用预先训练好的人体检测模型对获取到的目标监控区块的视频数据中的图像进行人体检测，得到人体检测框，并利用预先训练好的人体姿态识别模型对得到的人体检测框中的人体姿态进行识别得到人体姿态识别结果。通过集成预先训练好的人体检测模型和人体状态识别模型同时对目标监控区域的视频数据进行识别处理，识别过程无需借助其他传感器数据，仅需摄像头记录的图像信息，可以及时、准确地识别出目标监控区域的人员发生的危险事件。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中人体姿态识别方法的一个具体示例的流程图；

图2A－2D为本发明实施例中人体姿态识别方法的人体关键点标记结果效果图；

图3为本发明实施例中人体姿态识别装置的一个具体示例的原理框图；

图4为本发明实施例中电子设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例公开了一种人体姿态识别方法，可应用于终端或服务器等电子设备中。如图1所示，该方法包括如下步骤：

步骤101，获取目标监控区域的视频数据。该目标监控区域可以是任一可发生危险事件的区域，可以通过与目标监控区域中的视频监控设备进行实时通信以及时获取目标监控区域的视频数据。

步骤102，利用预先训练好的人体检测模型对所述视频数据中的图像进行人体检测，得到人体检测框。本申请实施例对该人体检测模型不作限定，本领域技术人员可以根据实际使用需要选择预先训练好的模型以进行图像数据中的人体检测并对检测到的人体进行框选得到人体检测框，实现对图像数据中人体标注操作。

步骤103，利用预先训练好的人体姿态识别模型对所述人体检测框中的人体姿态进行识别得到人体姿态识别结果。本申请实施例对该人体姿态识别模型不作限定，本领域技术人员可以根据实际使用需要选择可以实现人体姿态识别的模型以识别得到人体姿态识别结果，当根据人体姿态识别结果确定人员发生危险事件可及时予以报警等响应处理，使得出现危险的人员可以及时得到救治，保证了公共场合人员的安全。

本发明实施例提供的人体姿态识别方法，利用预先训练好的人体检测模型对获取到的目标监控区块的视频数据中的图像进行人体检测，得到人体检测框，并利用预先训练好的人体姿态识别模型对得到的人体检测框中的人体姿态进行识别得到人体姿态识别结果。通过集成预先训练好的人体检测模型和人体状态识别模型同时对目标监控区域的视频数据进行识别处理，识别过程无需借助其他传感器数据，仅需摄像头记录的图像信息，可以及时、准确地识别出目标监控区域的人员发生的危险事件。

作为本发明一个可选实施方式，所述人体检测模型通过下述步骤训练得到：

首先，构建第一训练数据集，所述第一训练数据集由多个场景中不同时间段和/或不同光照条件下的包含人体的图像组成。

示例性地，第一训练数据集中的图像数据可以通过对多个实际场景进行拍照或者是对实际场景中的视频数据进行抽帧得到。为了提高训练得到的模型的准确性以及泛化能力，获取多个不同场景中不同时间段和/或不同光照条件下的图像数据以用于训练人体检测模型。获取到的图像可以是包含行人或非机动车驾驶员的图像。

其次，利用yolo v3模型对所述第一训练数据集中的人体进行识别，对识别到的人体进行框选，得到预测框。

示例性，yolo系统检测模型以其较高的处理速度(约40ms)实现了对视频数据的实时处理要求，且其在处理速度突出的同时保持了较高的mAP(mAP＠0.5＝58)，本申请实施例选取yolo v3模型对第一训练数据集中的人体进行识别，保证了识别到的人体预测框的准确性以及时效性。

为了进一步保证识别结果的准确性，本申请实施例采用YOLO官方的yolov3.weights文件对第一训练数据集中的数据进行预标注，模型识别结果可视化后会标出人员框的位置，此框为预测框。当根据yolo v3模型识别得到的预测框与图像中人员所在的真实框存在偏移，可以通过人工修正和精细标注的方式进行修正，构建高质量的训练数据集。

再次，利用包含预测框的训练数据对预训练模型进行训练，直至所述预训练模型的准确率满足目标条件，得到人体检测模型。在进行人体检测模型训练时，虽然yolov3.weights权重文件是由ImageNet数据集和coco数据集共同训练出来的权重，但由于实际场景中的数据分布同训练数据集之间可能仍然存有差异，继而会导致模型有误检测和漏检测的情况，故本申请实施例中采用FineTune策略对训练得到的模型进行微调训练以得到识别结果更准确的人体检测模型。

作为本发明一个可选实施方式，所述预训练模型包含所述yolo v3模型中的目标数量层的网络结构，所述预训练模型的网络层数大于所述目标数量层的层数，将所述yolov3模型中的目标数量层的网络结构的输出数据作为所述预训练模型其他层网络结构的输入数据；

所述利用包含预测框的训练数据对预训练模型进行训练，直至所述预训练模型的准确率满足目标条件，得到人体检测模型，包括：利用包含预测框的训练数据对所述预训练模型中其他层网络结构进行训练，直至所述预训练模型的准确率满足目标条件，得到所述人体检测模型。

示例性地，因为ImageNet数据集和coco数据集具有庞大的包含人体的图像数据，蕴含了多种场景中的人员数据的分布信息，相对于用本地数据从头开始训练，迁移学习有助于提高模型在陌生数据分布中的泛化能力，避免了模型的适应能力局限在本地数据集的分布中。具体可以为冻结yolo v3模型的前81层，只对预训练模型后面几层的权重系数进行训练调整。冻结前81层的权重的命令为：darknet partial cfg/yolov3.cfgyolov3.weights yolov3.conv.81 81。

此时会在当前路径得到名为yolov3.conv.81的预训练模型，接着利用上一步得到包含预测框的训练数据对预训练模型进行训练，直至模型到最优为止，本申请实施例对模型最优的判定条件不作限定，本申请实施例中以训练过程中验证集的准确率呈现先上升后下降的趋势，下降证明模型训练过拟合，验证准确率最高的点被认为是模型训练的最优权重。利用新增的包含预测框的训练数据训练网络81层的后续层权重的命令如下：

Darknet detector train cfg/coco.datacfg/yolov3.cfg yolov3.conv.81-gpus 0,1。

为了提升远景中像素较小的人物的检出率，本申请实施例中该网络结构的输入尺寸设置为608×608，最后得到的训练好的模型即可用于密集场景下的人员检测。

作为本发明一个可选实施方式，所述人体姿态识别模型根据下述步骤训练得到：

首先，构建第二训练数据集，所述第二训练数据集由多个场景中不同时间段和/或不同光照条件下的包含人体的图像组成；第二训练数据集的构建方法与上述第一训练数据集的构建方式相同，在此不再赘述。

然后，利用CPN模型对所述第二训练数据集中图像进行人体关键点标记。

示例性地，本申请实施例中该CPN网络由GlobalNet网络和RefineNet网络构成。GlobalNet网络用于对图像中的人体关键点进行粗提取，RefineNet网络用于精细加工难以识别的网络，RefineNet对不同层信息进行了融合，可以更好的综合特征定位关键点，首先对于可以看见的easy关键点直接预测得到，对于不可见的关键点，使用增大感受视野来获得关键点位置，对于还未检测出的点，可以使用上下文context进行预测。

GlobalNet采用类似于FPN的特征金字塔结构，并在每个elem-sum前添加了1x卷积，负责网络所有关键点的检测，重点是对比较容易检测的眼睛、胳膊等部位的关键点。RefineNet基于GlobalNet生成的特征金字塔，其链接了所有层的金字塔特征用于定位“hard”关键点，GolbalNet对身体部位的那些被遮挡，看不见，或者有复杂背景的关键点预测误差较大，RefineNet则基于shortcut的思想，并使用类似OHEM的online hardkeypoints mining难例挖掘策略专门修正这些点，继而实现人体关键点标记。利用CPN模型对图像进行人体关键点标记后显示关键点标记结果。

本申请实施例中的CPN模型可以在每个人体上标记有17个关键点，分别为眼镜＊2、耳朵＊2、鼻子、肩关节＊2、肘关节＊2、腕关节＊2、髋关节＊2、膝关节＊2以及踝关节＊2。本申请实施例对该CPN模型可以标记出的关键点的数量和类型不作限定，本领域技术人员可以根据需要在训练CPN模型的过程使用其他训练数据训练得到可以标记出更多关键点的CPN模型。

其次，根据标记结果得到不同类别的人体姿态分类数据集，从所述不同类别的人体姿态分类数据集中选取用于表征人体倒地姿态的人体姿态分类数据集。

示例性地，根据标记结果得到不同类别的人体姿态分类数据集的方式可以是根据标记出的不同位置人体关键点的相对位置以及方位关系确定出人体是处于直立姿态还是倒地姿态，将确定出的处于倒地姿态的图像数据划分为一类得到用于表征人体倒地姿态的人体姿态分类数据集。同时本申请实施例中的CPN骨骼关键点检测模型来标记人物的骨骼关键点，可以给不同的关键点标记不同的颜色，用来增强人物的姿态特征，提高了对姿态分类准确率的提升，人体关键点的标记结果效果图如图2A－2D所示。

再次，利用所述用于表征人体倒地姿态的人体姿态分类数据集对目标分类模型进行训练，直至模型的准确性和损失值满足目标条件，得到所述人体姿态识别模型。

示例性地，在深度学习发展过程中，图像分类模型的网络结构丰富多样，有残差网络ResNet系列，密集链接网络DenseNet等等。为了提升推理速度，本发明采用了轻量级分类网络MobileNet网络，其利用深度可分离网络结构可将模型的计算量降低近一个数量级。利用表征人体倒地姿态的人体姿态分类数据集中的数据训练人员倒地二分类模型，当通过验证集的验证，训练得到的模型的准确率及损失函数满足目标条件，在合适的训练迭代次数时停止训练，如在准确率出现拐点时停止训练，得到最佳的人体姿态识别模型。

作为本发明一个可选实施方式，利用所述用于表征人体倒地姿态的人体姿态分类数据集对目标分类模型进行训练，得到所述人体姿态识别模型，包括：

对所述用于表征人体倒地姿态的人体姿态分类数据集中的数据进行增强处理；利用增强处理后的数据对目标分类模型进行训练，得到所述人体姿态识别模型。

示例性地，当得到的用于表征人体倒地姿态的人体姿态分类数据集中的数据较少时，为了保证二分类数据集的样本平衡性，对倒地的人物框图做数据增强处理，增强的方式可以包括但不限于向左旋转90度，向右旋转90度，添加椒盐噪声等。本申请实施例对数据增强处理后该用于表征人体倒地姿态的人体姿态分类数据集中包含的数据的数量不作限定，本申请实施例通过增强处理后选择一万张左右的图像数据进行训练。

作为本发明一个可选实施方式，所述方法还包括：

选取包含人体的图像中人体中心点位于整个图像目标中心范围内的图像构建所述第二训练数据集；滤除所述第二训练数据集中利用所述CPN模型进行人体关键点标记后得到的关键点数量小于预设数量的图像；利用滤除后的图像进行所述人体姿态识别模型训练。

示例性地，为了避免选用位于图像边界处的人物框中的人物不完整，导致标注的关键点不完整，影响分类模型的识别结果，本申请去除人体中心点在整个画面边界10％内的人物框，选取包含人体的图像中人体中心点位于整个图像目标中心范围内的图像构建第二训练数据集。

当第二训练数据集的数据经过CPN模型进行人体关键点标记后，滤除第二训练数据集中关键点数量小于预设数量的图像，该预设数量可以为17个，若个数不足17个，则可以表明该图像中的人体可能被遮挡的情况，通过进一步滤除此种情况的数据，进一步提高训练得到的人体姿态识别模型的准确性。

将人体检测模型和人体姿态识别模型进行合成，经测试，此合成模型的显存占用为5.0G，可在NVIDIA－P4的GPU上成功执行。由于筛选出来的人物预测框送入到CPN中检测关键点进行并行处理，推理时间只有不足100ms，因此可以支持视频隔帧检测的性能要求。随着画面中人物的活动，关注的摔倒事件全貌在摄像头视野下总是时隐时现，因此高的检测频率可以提高有效实际采集的命中率，有助于避免出现人员倒地漏检的情况。经模型线上执行统计，人员倒地识别的模型推理的准确率达到95％以上。本方案较“关键点坐标分类”方案，可以有效地捕捉人物在画面中的背景信息，可以提升不同场景和拍摄角度下的识别准确率。

本发明实施例还公开了一种人体姿态识别装置，如图3所示，该装置包括：

第一获取模块601，用于获取目标监控区域的视频数据；

第二获取模块602，用于利用预先训练好的人体检测模型对所述视频数据中的图像进行人体检测，得到人体检测框；

第三获取模块603，用于利用预先训练好的人体姿态识别模型对所述人体检测框中的人体姿态进行识别得到人体姿态识别结果。

本发明提供的人体姿态识别装置，利用预先训练好的人体检测模型对获取到的目标监控区块的视频数据中的图像进行人体检测，得到人体检测框，并利用预先训练好的人体姿态识别模型对得到的人体检测框中的人体姿态进行识别得到人体姿态识别结果。通过集成预先训练好的人体检测模型和人体状态识别模型同时对目标监控区域的视频数据进行识别处理，识别过程无需借助其他传感器数据，仅需摄像头记录的图像信息，可以及时、准确地识别出目标监控区域的人员发生的危险事件。

作为本发明一个可选实施方式，该装置还包括：第一构建模块，用于通过下述步骤训练得到人体检测模型：所述第一构建模块，包括：第一数据集构建模块，用于构建第一训练数据集，所述第一训练数据集由多个场景中不同时间段和/或不同光照条件下的包含人体的图像组成；预测框获取模块，用于利用yolo v3模型对所述第一训练数据集中的人体进行识别，对识别到的人体进行框选，得到预测框；人体检测模型训练模块，用于利用包含预测框的训练数据对预训练模型进行训练，直至所述预训练模型的准确率满足目标条件，得到人体检测模型。

作为本发明一个可选实施方式，所述预训练模型包含所述yolo v3模型中的目标数量层的网络结构，所述预训练模型的网络层数大于所述目标数量层的层数，将所述yolov3模型中的目标数量层的网络结构的输出数据作为所述预训练模型其他层网络结构的输入数据；所述人体检测模型训练模块，包括：人体检测模型训练子模块，用于利用包含预测框的训练数据对所述预训练模型中其他层网络结构进行训练，直至所述预训练模型的准确率满足目标条件，得到所述人体检测模型。

作为本发明一个可选实施方式，该装置还包括：第二构建模块，用于通过下述步骤训练得到人体姿态识别模型；所述第二构建模块，包括：第二训练集构建模块，用于构建第二训练数据集，所述第二训练数据集由多个场景中不同时间段和/或不同光照条件下的包含人体的图像组成；标记模块，用于利用CPN模型对所述第二训练数据集中图像进行人体关键点标记；数据集选取模块，用于根据标记结果得到不同类别的人体姿态分类数据集，从所述不同类别的人体姿态分类数据集中选取用于表征人体倒地姿态的人体姿态分类数据集；人体姿态识别模型训练模块，用于利用所述用于表征人体倒地姿态的人体姿态分类数据集对目标分类模型进行训练，直至模型的准确性和损失值满足目标条件，得到所述人体姿态识别模型。

作为本发明一个可选实施方式，所述CPN网络由GlobalNet网络和RefineNet网络构成。

作为本发明一个可选实施方式，人体姿态识别模型训练模块，还用于对所述用于表征人体倒地姿态的人体姿态分类数据集中的数据进行增强处理；利用增强处理后的数据对目标分类模型进行训练，得到所述人体姿态识别模型。

作为本发明一个可选实施方式，该装置还包括：选取模块，用于选取包含人体的图像中人体中心点位于整个图像目标中心范围内的图像构建所述第二训练数据集；滤除模块，用于滤除所述第二训练数据集中利用所述CPN模型进行人体关键点标记后得到的关键点数量小于预设数量的图像；训练模块，用于利用滤除后的图像进行所述人体姿态识别模型训练。

本发明实施例还提供了一种电子设备，如图4所示，该电子设备可以包括处理器401和存储器402，其中处理器401和存储器402可以通过总线或者其他方式连接，图4中以通过总线连接为例。

处理器401可以为中央处理器(Central Processing Unit，CPU)。处理器401还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器402作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的人体姿态识别方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的人体姿态识别方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器401所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至处理器401。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器402中，当被所述处理器401执行时，执行如图1所示实施例中的人体姿态识别方法。

上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种人体姿态识别方法，其特征在于，包括：

获取目标监控区域的视频数据；

利用预先训练好的人体检测模型对所述视频数据中的图像进行人体检测，得到人体检测框；

利用预先训练好的人体姿态识别模型对所述人体检测框中的人体姿态进行识别得到人体姿态识别结果。

2.根据权利要求1所述的方法，其特征在于，所述人体检测模型通过下述步骤训练得到：

构建第一训练数据集，所述第一训练数据集由多个场景中不同时间段和/或不同光照条件下的包含人体的图像组成；

利用yolo v3模型对所述第一训练数据集中的人体进行识别，对识别到的人体进行框选，得到预测框；

利用包含预测框的训练数据对预训练模型进行训练，直至所述预训练模型的准确率满足目标条件，得到人体检测模型。

3.根据权利要求2所述的方法，其特征在于，所述预训练模型包含所述yolo v3模型中的目标数量层的网络结构，所述预训练模型的网络层数大于所述目标数量层的层数，将所述yolo v3模型中的目标数量层的网络结构的输出数据作为所述预训练模型其他层网络结构的输入数据；

所述利用包含预测框的训练数据对预训练模型进行训练，直至所述预训练模型的准确率满足目标条件，得到人体检测模型，包括：

利用包含预测框的训练数据对所述预训练模型中其他层网络结构进行训练，直至所述预训练模型的准确率满足目标条件，得到所述人体检测模型。

4.根据权利要求1所述的方法，其特征在于，所述人体姿态识别模型根据下述步骤训练得到：

构建第二训练数据集，所述第二训练数据集由多个场景中不同时间段和/或不同光照条件下的包含人体的图像组成；

利用CPN模型对所述第二训练数据集中图像进行人体关键点标记；

根据标记结果得到不同类别的人体姿态分类数据集，从所述不同类别的人体姿态分类数据集中选取用于表征人体倒地姿态的人体姿态分类数据集；

利用所述用于表征人体倒地姿态的人体姿态分类数据集对目标分类模型进行训练，直至模型的准确性和损失值满足目标条件，得到所述人体姿态识别模型。

5.根据权利要求4所述的方法，其特征在于，所述CPN网络由GlobalNet网络和RefineNet网络构成。

6.根据权利要求4所述的方法，其特征在于，利用所述用于表征人体倒地姿态的人体姿态分类数据集对目标分类模型进行训练，直至模型的准确性和损失值满足目标条件，得到所述人体姿态识别模型，包括：

对所述用于表征人体倒地姿态的人体姿态分类数据集中的数据进行增强处理；

利用增强处理后的数据对目标分类模型进行训练，得到所述人体姿态识别模型。

7.根据权利要求4-6中任一项所述的方法，其特征在于，所述方法还包括：

选取包含人体的图像中人体中心点位于整个图像目标中心范围内的图像构建所述第二训练数据集；

滤除所述第二训练数据集中利用所述CPN模型进行人体关键点标记后得到的关键点数量小于预设数量的图像；

利用滤除后的图像进行所述人体姿态识别模型训练。

8.一种人体姿态识别装置，其特征在于，包括：

第一获取模块，用于获取目标监控区域的视频数据；

第二获取模块，用于利用预先训练好的人体检测模型对所述视频数据中的图像进行人体检测，得到人体检测框；

第三获取模块，用于利用预先训练好的人体姿态识别模型对所述人体检测框中的人体姿态进行识别得到人体姿态识别结果。

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7任一所述的人体姿态识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的人体姿态识别方法的步骤。