CN108460362A

CN108460362A - 一种检测人体部位的系统及方法

Info

Publication number: CN108460362A
Application number: CN201810246867.3A
Authority: CN
Inventors: 张靖淇; 徐滢
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2018-08-28
Anticipated expiration: 2038-03-23
Also published as: CN108460362B

Abstract

本发明公开一种检测人体部位的系统及方法，包括：初筛模块，用于对输入图像中的人体预定区域进行初步预测，输出人体预定区域的第一边界范围；判别修正模块，用于过滤掉所述第一边界范围中预测错误的区域，并对所述第一边界范围中预测正确的区域进行修正，输出所述人体预定区域的第二边界范围；还包括：精确预测模块，用于对所述第二边界范围进行修正，输出所述人体预定区域的第三边界范围，并对所述第三边界范围中的预定关键点进行预测。本发明提供的技术方案能够在移动终端上实时、精确地检测出人体各部位，并能够对人体各部位进行实时跟踪，从而满足市场需求。

Description

一种检测人体部位的系统及方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种检测人体部位的系统及方法。

背景技术

对人体各部位的检测在摄影摄像技术中尤其有用。用户在拍摄时，通过摄影摄像设备检测到人体后，其可以将人体区域设置为焦点与测光中心，使拍出的照片不会因为失焦而导致人体模糊，也不会因为测光点错误而导致人体过亮或过暗；或者，基于检测到的人体位置给出构图建议，甚至基于人体框进一步检测出人的着装、性别、年龄等特征。以人体骨骼关键点和手部关键点检测为例，当检测出骨骼关键点时，可进一步开发出换装、瘦身等趣味性功能；而当检测出手部关键点时，可通过手势来渲染拍摄效果。因此，在摄影摄像设备上增加人体各部位检测功能，应用前景广阔，具有较大的市场潜力。

目前，在常用的具有摄影摄像功能的移动设备(例如，手机，平板电脑，相机等)上，只具有单一的人脸检测功能，并不能满足用户的上述需求。而对于人体各部位关键点的检测，目前较前沿的技术包括由facebook人工智能实验室提出的Mask R-CNN算法，和由卡内基梅隆大学开发的OpenPose系统。Mask R-CNN是目前最精确的目标检测和实例分割算法，且能对其进行扩展，用于人体骨骼关键点预测。OpenPose则专注于人体相关的检测，包括人脸、骨骼和手势的关键点检测。然而，这两种算法由于模型复杂、运算量巨大、占用内存巨大，都需要运行在高性能服务器上，而普通的移动设备，例如iphone设备，APP占用超过500M内存就有很高的崩溃概率。因此，现有的检测人体各部位的系统和算法是不能直接用于现有的移动设备上的。如何在现有的移动设备上精确检测出人体各部位以及人体各部位关键点、并能够实现实时跟踪，是目前较棘手并亟待解决的问题。

发明内容

本发明旨在提供一种检测人体部位的系统及方法，能够在移动终端上实时、精确地检测出人体各部位，从而满足市场需求。

为达到上述目的，本发明采用的技术方案如下：

一种检测人体部位的系统，包括：初筛模块，用于对输入图像中的人体预定区域进行初步预测，输出人体预定区域的第一边界范围；所述第一边界范围包括一个以上边界框；判别修正模块，用于过滤掉所述第一边界范围中预测错误的区域，并对所述第一边界范围中预测正确的区域进行修正，输出所述人体预定区域的第二边界范围；所述第二边界范围包括一个以上边界框。

进一步地，还包括：精确预测模块，用于对所述第二边界范围进行修正，输出所述人体预定区域的第三边界范围，并对所述第三边界范围中的预定关键点进行预测；所述第三边界范围包括一个以上边界框和一个以上关键点标识。

优选地，所述人体预定区域包括：人体，人脸，人手；所述预定关键点包括：人体骨骼关键点，人脸关键点，人手关键点；所述初筛模块包括：初筛网络，合并单元；所述判别修正模块包括：人体判别修正网络，人脸判别修正网络，人手判别修正网络；所述精确预测模块包括：人体精确预测网络，人脸精确预测网络，人手精确预测网络；所述初筛网络对输入图像中的人体预定区域进行初步预测，并将初步预测结果传送至所述合并单元；所述合并单元对所述初步预测结果采用非极大值抑制算法进行合并，获取人体预定区域的第一边界范围；所述初筛网络还输出所述第一边界范围中每个边界框的以下三个概率值：边界框为人体的概率值，边界框为人脸的概率值，边界框为人手的概率值；所述合并单元将所述每个边界框按照所述三个概率值相应地送入所述人体判别修正网络，或人脸判别修正网络，或人手判别修正网络；所述人体判别修正网络的输出为所述人体精确预测网络的输入，人体精确预测网络输出人体区域边界框，并对所述人体区域边界框中的人体骨骼关键点进行预测；所述人脸判别修正网络的输出为所述人脸精确预测网络的输入，人脸精确预测网络输出人脸区域边界框，并对所述人脸区域边界框中的人脸关键点进行预测；所述人手判别修正网络的输出为所述人手精确预测网络的输入，人手精确预测网络输出人手区域边界框，并对所述人手区域边界框中的人手关键点进行预测。

进一步地，还包括：初筛网络训练模块，用于对所述初筛网络进行训练；所述对所述初筛网络进行训练包括：对人体区域预测任务进行训练，对人脸区域预测任务进行训练，对人手区域预测任务进行训练；所述对所述初筛网络进行训练的方法为：获取标注了人体区域的数据集、标注了人脸区域的数据集、标注了人手区域的数据集；采用所述标注了人体区域的数据集对人体区域预测任务进行训练，对所述人脸区域预测任务和所述人手区域预测任务不进行loss传递；采用所述标注了人脸区域的数据集对人脸区域预测任务进行训练，对所述人体区域预测任务和所述人手区域预测任务不进行loss传递；采用所述标注了人手区域的数据集对人手区域预测任务进行训练，对所述人脸区域预测任务和所述人体区域预测任务不进行loss传递。

进一步地，还包括：判别修正网络训练模块，用于对所述人体判别修正网络、人脸判别修正网络、人手判别修正网络进行训练；所述判别修正网络训练模块的训练数据为所述初筛网络容易判断出错的数据样本；还包括：精确预测网络训练模块，用于对所述人体精确预测网络、人脸精确预测网络、人手精确预测网络进行训练。

优选地，所述初筛网络、人体判别修正网络、人脸判别修正网络、人手判别修正网络、人体精确预测网络、人脸精确预测网络、人手精确预测网络均为深度神经网络。

优选地，所述初筛网络的结构为全卷积的深度神经网络；所述人体判别修正网络、人脸判别修正网络、人手判别修正网络、人体精确预测网络、人脸精确预测网络、人手精确预测网络的结构均为在全卷积的深度神经网络之后接上全连接网络。

优选地，所述初筛网络的下采样倍数为48；所述人体判别修正网络的输入分辨率为48×48；所述人脸判别修正网络、人手判别修正网络的输入分辨率均为24×24；所述人体精确预测网络、人脸精确预测网络、人手精确预测网络的输入分辨率均为64×64。

一种检测人体部位的方法，包括：对输入的视频图像进行检测，获取所述视频图像当前帧的第三边界范围；对所述第三边界范围进行偏移与缩放，生成一组兴趣区域；对所述视频图像的下一帧进行检测时，直接将所述兴趣区域作为所述判别修正模块的输入；当在所述兴趣区域中没有检测到所述当前帧的第三边界范围时，将所述初筛模块作为所述判别修正模块的输入。

进一步地，还包括：当达到预定检测帧数或预定时间间隔时，将所述初筛模块作为所述判别修正模块的输入。

本发明实施例提供的检测人体部位的系统及方法，将复杂的检测任务拆分为简单的小目标，即将整个检测系统拆分为初筛模块、判别修正模块、精确预测模块，每个模块中又包含多个检测网络，即初筛网络、人体判别修正网络、人脸判别修正网络、人手判别修正网络、人体精确预测网络、人脸精确预测网络、人手精确预测网络，每个网络负责预测或修正相应的区域或关键点，由于每个网络的任务简单，因此，每个网络的模型较小，对其进行训练的样本数据也较少，并且样本数据也较容易获取，即使将上述网络组合起来，其模型的大小也是现有的移动设备能够承受的。由于整个系统由各个模块组合而成，因此各个模块可根据需求打开或者关闭，当不需要某种类别的检测时，或者输入图像中不存在某种类别时，系统可直接跳过该检测项目而直接执行下一个步骤，从而极大地减小了运算量、节省了运算资源，这对内存有限的移动设备来说非常实用。此外，当输入图像为视频图像时，系统在获取了视频图像当前帧的第三边界范围后，生成一组兴趣区域，这样，当对视频图像的下一帧进行检测时，直接将该兴趣区域作为判别修正模块的输入，跳过了较为耗时的初筛模块，使系统的运算速率大大提升，从而能够实现对于视频图像中目标区域的实时跟踪。综上所述，本发明提供的技术方案，能够在移动终端上实时、精确地检测出人体各部位，并能够对人体各部位进行实时跟踪，从而极大地满足市场需求。

附图说明

图1为本发明一个实施例的结构示意图；

图2为本发明另一个实施例的结构示意图；

图3为本发明实施例的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

本发明使用3个模块，总共7个小型深度神经网络，来共同配合实现综合人体检测与跟踪。分别为：

初筛模块，用于对输入图像中的人体预定区域进行初步预测，输出人体预定区域的第一边界范围；所述第一边界范围包括一个以上边界框；

判别修正模块，用于过滤掉所述第一边界范围中预测错误的区域，并对所述第一边界范围中预测正确的区域进行修正，输出所述人体预定区域的第二边界范围，让第二边界范围更好地囊括检测到的目标；所述第二边界范围包括一个以上边界框；

精确预测模块，用于对所述第二边界范围进行修正，输出所述人体预定区域的第三边界范围，并对所述第三边界范围中的预定关键点进行预测；所述第三边界范围包括一个以上边界框和一个以上关键点标识。

其中，所述人体预定区域包括：人体，人脸，人手；所述预定关键点包括：人体骨骼关键点，人脸关键点，人手关键点；所述初筛模块包括：初筛网络，合并单元；所述判别修正模块包括：人体判别修正网络，人脸判别修正网络，人手判别修正网络；所述精确预测模块包括：人体精确预测网络，人脸精确预测网络，人手精确预测网络；所述初筛网络对输入图像中的人体预定区域进行初步预测，并将初步预测结果传送至所述合并单元；所述合并单元对所述初步预测结果采用非极大值抑制算法进行合并，获取人体预定区域的第一边界范围；所述初筛网络还输出所述第一边界范围中每个边界框的以下三个概率值：边界框为人体的概率值，边界框为人脸的概率值，边界框为人手的概率值；所述合并单元将所述每个边界框按照所述三个概率值相应地送入所述人体判别修正网络，或人脸判别修正网络，或人手判别修正网络。

所述人体判别修正网络的输出为所述人体精确预测网络的输入，人体精确预测网络输出人体区域边界框，并对所述人体区域边界框中的人体骨骼关键点进行预测；所述人脸判别修正网络的输出为所述人脸精确预测网络的输入，人脸精确预测网络输出人脸区域边界框，并对所述人脸区域边界框中的人脸关键点进行预测；所述人手判别修正网络的输出为所述人手精确预测网络的输入，人手精确预测网络输出人手区域边界框，并对所述人手区域边界框中的人手关键点进行预测。

以上三个模块中，最为耗时的是初筛模块，对于视频帧来说，一旦完成了当前帧的检测后，便可将当前帧的检测输出结果进行简单的偏移与缩放，来作为下一帧的判别修正模块的输入，从而跳过初筛模块，以此实现视频图像中目标的跟踪，极大地减少运算量和执行时间。虽然系统中网络数量较多，但是由于每个网络的任务很简单，仅仅只需要很小的网络模型便能达到很好的效果，执行时间也都在毫秒级别。

以下详细介绍各个模块的实现细节：

(一)初筛模块

本模块只包含1个深度神经网络，即初筛网络，网络的输入是完整的图像数据，该图像包括静态图像和动态图像，网络的输出是图像中包含了目标物体的区域位置，以及目标是某个类别的概率。

(1)初筛网络的结构

本发明实施例中，将需要检测的目标分为三类，分别是人体类，人脸类，人手类，所以初筛网络的任务就是预测出输入图像中哪些区域包含这三种目标，区域以边界框的形式表示，即：x,y,w,h四个值，x,y表示区域的中心坐标，w,h表示区域的宽和高，另外还会输出这个区域所框定的物体，是某个类型的概率，即：c1,c2,c3分别表示人体，人脸和人手类别的概率。x,y,w,h,c1,c2,c3这7个值便可以框定出一个目标物体。

初筛网络是一个全卷积的深度神经网络，为了达到速度和准确度的平衡，将整个网络的下采样倍数定为48，也就是当输入图像尺寸为432×432时，输出的Feature map尺寸为9×9，总共81个锚点，对应输入图像上的81个分块；当输入图像尺寸为336×336时，输出的Feature map尺寸为7×7，总共49个锚点，对应输入图像上的49个分块。当输入图像上某个目标物体的中心落入某个分块时，则由这个分块对应的锚点来对物体进行预测。

由此可知，当输出尺寸较小，比如为5×5时，最多只能预测出25个目标区别，在某些情况下，这并不足以检测出所有的目标，为了提升预测效果，让Feature map中的每一个锚点，负责预测3种不同比例和尺寸的区域，即：在同一个锚点位置，输出3组x,y,w,h,c1,c2,c3，其中的w,h按所选的3种比例缩放。最终能检测到的目标区域便多了3倍，也就是输出的Feature map通道数量为7×3，总共21个通道。

(2)初筛网络的训练

由于初筛网络是一个全卷积网络，所以可以使用任意尺寸的输入，训练时会随机采用不同尺寸的输入，以得到分辨率无关的模型。

每次的反向传播只针对一个具体的任务进行训练。由于并没有现成的对一张图进行完善的人脸、人手、人体区域标注的数据集，只有分散的仅标注了人脸区域的数据集、仅标注了人手区域的数据集、以及只标注了人体区域的数据集。本发明直接使用这种分散标注的数据集，在训练初筛网络时，每次随机选取一个任务进行训练，而对其它两个任务不进行loss传递，同样达到了使用完善标注数据集的效果。

(3)初筛网络的使用

输入图像在经过初筛网络后，便可得到一系列的包含目标物体的区域，通过类别概率值，过滤掉一些无用区域。对剩下的区域使用非极大值抑制(Non-maximumsuppression,NMS)算法进行合并，得到最终输出。

初筛网络的最终输出，便是输入图像中，哪些区域很有可能包含了人体、人手或人脸。到这个阶段，这些区域还是不精确的，有重复的，甚至是错判的，所以还需要后续的判别修正模块进行修正。

(二)判别修正模块

本模块包含3个深度神经网络，即人体判别修正网络、人脸判别修正网络、人手判别修正网络，以人体判别修正网络为例，该网络有两个任务，第一，对初筛网络所输出的可能包含人体的区域进行再次判定，过滤掉假阳性(false positive)区域；第二，对区域范围再次进行预测，让边界框更准确的框定目标人体。人脸与人手判别修正网络同理，不再赘述。

(1)判别修正网络的结构

判别修正网络的结构为在全卷积的深度神经网络之后接上全连接网络，来完成回归预测的任务。判别修正网络的输入是来自于初筛网络所输出的对应类别的可能区域，也就是将初筛网络给出的可能是人体类的区域，送入人体判别修正网络；可能是人脸类的区域，送入人脸判别修正网络；可能是人手类的区域，送入人手判别修正网络。判别修正网络的输出是重新预测出的边界框x,y,w,h以及重新预测出的类别概率c，总共5个值，最终便可以根据类别概率过滤掉初筛网络错判的区域，并且修正初筛网络框定过小或框定过大的区域，得到更准确的边界框。

为了效率和准确性的平衡，人体判别修正网络的输入使用较大的48×48的输入尺寸，因为人体有站立、侧躺、坐等姿势，或者只有半身的情况，人体区域的高宽比例变化剧烈，需要较大的输入分辨率，才能有较好的预测结果。对于人手和人脸宽高比例变化不大的区域，使用24×24的输入尺寸，便能满足需求。除此之外，本模块中的3个深度神经网络结构是一致的，只是在判断类别上有所区别。

(2)判别修正网络的训练

判别修正网络的训练数据是来自于初筛网络容易判断出错的样本，这能让判别修正网络不必在容易判别的样本、或能被初筛网络过滤的样本上分散注意力，简化了判别修正网络的任务，能更有效地纠正初筛网络的结果。

(3)判别修正网络的使用

根据上一个模块(可能来自于初筛网络，也可能来自于上一帧结果生成)的输出，按类别从输入图像中裁剪出对应的区域，并缩放至判别修正网络的输入尺寸，进行再次的判别与修正。至此，判别修正网络的输出已经是比较准确的区域，如果只是需要边界框的检测功能，而不需要精确的关键点检测，那么到这个模块的输出已经能作为最终的输出结果。这种灵活的拆分与组合，也是本发明的优点之一，在移动设备上优势更加突显。

(三)精确预测模块

本模块包含3个深度神经网络，即人体精确预测网络、人脸精确预测网络、人手精确预测网络。以人体精确预测网络为例，该网络有两个任务，第一，对判别修正网络给出的人体区域范围再次进行预测，让边界框更准确的框定目标人体；第二，对人体骨骼关键点进行预测。人脸与人手精确预测网络同理，区别在于关键点预测分别为人脸关键点与人手关键点。

(1)精确预测网络的结构

精确预测网络的结构同样是在全卷积的深度神经网络之后接上全连接网络。其输入来自于判别修正网络输出的对应类别的区域，输出为重新预测出的边界框x,y,w,h，和一系列的关键点输出值。以人脸精确预测网络为例，输出值便是x,y,w,h的新边界框值，加上104个关键点的坐标(x₀,y₀)到(x₁₀₃,y₁₀₃)，也就是104×2+4总共212个值。本模块中的3个深度神经网络结构除了在输出值的数量上有所区别，其余部分都是一致的，均使用64×64的输入尺寸。

(2)精确预测网络的训练

由于在判别修正网络中已经有了较准确的边界框预测，所以在精确预测网络中，边界框纠正的任务使用一个较低的权重值，而将网络的主要任务定为关键点的预测，简化非主要任务，提高网络主要任务的精度，从而得到精准的人脸关键点、人手关键点、人体骨骼关键点。

(3)精确预测网络的使用

根据判别修正网络的输出，按类别从输入图像中裁剪出对应的区域，并缩放至精确预测网络的输入尺寸，进行精确的关键点预测。至此，便得到了整个系统的最终输出，也就是输入图像中的哪些区域包含了人体、人手或者人脸，以及人体骨骼关键点、人手关键点、以及人脸关键点。

由于视频帧通常是连续的，目标物(人体)在帧与帧之间的位置通常也是连续变化的，且本发明中的判别修正模块与精确预测模块有很强的纠错能力，基于这些便可实现目标物的实时跟踪功能。具体地，当采用本发明所述的检测人体部位的系统对输入的视频图像进行检测时，获取所述视频图像当前帧的第三边界范围；对所述第三边界范围进行偏移与缩放，生成一组兴趣区域；对所述视频图像的下一帧进行检测时，直接将所述兴趣区域作为所述判别修正模块的输入，从而跳过较耗时的初筛模块。判别修正模块会进一步准确预测出目标物变化后的位置，再交由精确预测模块进行精确预测，从而实现实时、快速地跟踪功能。当在所述兴趣区域中没有检测到所述当前帧的第三边界范围时，将所述初筛模块作为所述判别修正模块的输入，即当兴趣区域中没有检测到目标物时，使用初筛网络寻找目标物。当达到预定检测帧数或预定时间间隔时，也需要使用初筛网络寻找新出现的目标物，即将所述初筛模块作为所述判别修正模块的输入。

本发明实施例提供的检测人体部位的系统及方法，将复杂的检测任务拆分为简单的小目标，即将整个检测系统拆分为初筛模块、判别修正模块、精确预测模块，每个模块中又包含多个检测网络，即初筛网络、人体判别修正网络、人脸判别修正网络、人手判别修正网络、人体精确预测网络、人脸精确预测网络、人手精确预测网络，每个网络负责预测或修正相应的区域或关键点，由于每个网络的任务简单，因此，每个网络的模型较小，对其进行训练的样本数据也较少，并且样本数据也较容易获取，即使将上述网络组合起来，其模型的大小也是现有的移动设备能够承受的。由于整个系统由各个模块组合而成，因此各个模块可根据需求打开或者关闭，当不需要某种类别的检测时，或者输入图像中不存在某种类别时，系统可直接跳过该检测项目而直接执行下一个步骤，从而极大地减小了运算量、节省了运算资源，这对内存有限的移动设备来说非常实用。此外，当输入图像为视频图像时，系统在获取了视频图像当前帧的第三边界范围后，生成一组兴趣区域，这样，当对视频图像的下一帧进行检测时，直接将该兴趣区域作为判别修正模块的输入，跳过了较为耗时的初筛模块，使系统的运算速率大大提升，从而能够实现对于视频图像中目标区域的实时跟踪。

本发明提出了一种资源占用极少、速度快、准确率高的人体综合检测系统及方法，其能够在现有的移动设备上实时检测人体各部位。本发明实时例中的系统模型文件小、内存占用少、运算量小，对目标区域进行多次修正与判别，框定准确，误判与漏检少。实验数据表明，本发明能在iPhone 6上以平均12ms每帧的速度，完成上述功能，模型文件6M，占用内存50M。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种检测人体部位的系统，其特征在于，包括：

判别修正模块，用于过滤掉所述第一边界范围中预测错误的区域，并对所述第一边界范围中预测正确的区域进行修正，输出所述人体预定区域的第二边界范围；所述第二边界范围包括一个以上边界框。

2.根据权利要求1所述的检测人体部位的系统，其特征在于，还包括：

3.根据权利要求2所述的检测人体部位的系统，其特征在于，

所述人体预定区域包括：人体，人脸，人手；所述预定关键点包括：人体骨骼关键点，人脸关键点，人手关键点；所述初筛模块包括：初筛网络，合并单元；所述判别修正模块包括：人体判别修正网络，人脸判别修正网络，人手判别修正网络；所述精确预测模块包括：人体精确预测网络，人脸精确预测网络，人手精确预测网络；

所述初筛网络对输入图像中的人体预定区域进行初步预测，并将初步预测结果传送至所述合并单元；所述合并单元对所述初步预测结果采用非极大值抑制算法进行合并，获取人体预定区域的第一边界范围；所述初筛网络还输出所述第一边界范围中每个边界框的以下三个概率值：边界框为人体的概率值，边界框为人脸的概率值，边界框为人手的概率值；所述合并单元将所述每个边界框按照所述三个概率值相应地送入所述人体判别修正网络，或人脸判别修正网络，或人手判别修正网络；

4.根据权利要求3所述的检测人体部位的系统，其特征在于，还包括：初筛网络训练模块，用于对所述初筛网络进行训练；所述对所述初筛网络进行训练包括：对人体区域预测任务进行训练，对人脸区域预测任务进行训练，对人手区域预测任务进行训练；

所述对所述初筛网络进行训练的方法为：获取标注了人体区域的数据集、标注了人脸区域的数据集、标注了人手区域的数据集；采用所述标注了人体区域的数据集对人体区域预测任务进行训练，对所述人脸区域预测任务和所述人手区域预测任务不进行loss传递；采用所述标注了人脸区域的数据集对人脸区域预测任务进行训练，对所述人体区域预测任务和所述人手区域预测任务不进行loss传递；采用所述标注了人手区域的数据集对人手区域预测任务进行训练，对所述人脸区域预测任务和所述人体区域预测任务不进行loss传递。

5.根据权利要求3所述的检测人体部位的系统，其特征在于，还包括：判别修正网络训练模块，用于对所述人体判别修正网络、人脸判别修正网络、人手判别修正网络进行训练；所述判别修正网络训练模块的训练数据为所述初筛网络容易判断出错的数据样本；

还包括：精确预测网络训练模块，用于对所述人体精确预测网络、人脸精确预测网络、人手精确预测网络进行训练。

6.根据权利要求3所述的检测人体部位的系统，其特征在于，所述初筛网络、人体判别修正网络、人脸判别修正网络、人手判别修正网络、人体精确预测网络、人脸精确预测网络、人手精确预测网络均为深度神经网络。

7.根据权利要求6所述的检测人体部位的系统，其特征在于，所述初筛网络的结构为全卷积的深度神经网络；所述人体判别修正网络、人脸判别修正网络、人手判别修正网络、人体精确预测网络、人脸精确预测网络、人手精确预测网络的结构均为在全卷积的深度神经网络之后接上全连接网络。

8.根据权利要求7所述的检测人体部位的系统，其特征在于，所述初筛网络的下采样倍数为48；所述人体判别修正网络的输入分辨率为48×48；所述人脸判别修正网络、人手判别修正网络的输入分辨率均为24×24；所述人体精确预测网络、人脸精确预测网络、人手精确预测网络的输入分辨率均为64×64。

9.一种使用如权利要求3至8任意一项所述的检测人体部位的系统检测人体部位的方法，其特征在于，包括：

对输入的视频图像进行检测，获取所述视频图像当前帧的第三边界范围；

对所述第三边界范围进行偏移与缩放，生成一组兴趣区域；

对所述视频图像的下一帧进行检测时，直接将所述兴趣区域作为所述判别修正模块的输入；

当在所述兴趣区域中没有检测到所述当前帧的第三边界范围时，将所述初筛模块作为所述判别修正模块的输入。

10.根据权利要求9所述的检测人体部位的方法，其特征在于，还包括：

当达到预定检测帧数或预定时间间隔时，将所述初筛模块作为所述判别修正模块的输入。