CN108710868A

CN108710868A - 一种基于复杂场景下的人体关键点检测系统及方法

Info

Publication number: CN108710868A
Application number: CN201810582712.7A
Authority: CN
Inventors: 宫法明; 马玉辉; 徐燕; 袁向兵; 宫文娟; 李昕; 李传涛; 丁洪金
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2018-10-26
Anticipated expiration: 2038-06-05
Also published as: WO2019232894A1; CN108710868B

Abstract

本发明公开了一种基于复杂场景下的人体关键点检测系统及方法，该方法包含：输入监控视频信息，得到单帧静态图和多帧光流图；对单帧静态图通过卷积操作提取特征以得到特征图，为解决复杂场景下干扰目标对人员目标检测的影响，采用人员目标检测算法，以对特征图的实际置信度与预设置信度进行判别，得到离散化人员目标包围盒；对多帧光流图采用光流堆叠来形成二维矢量场；提取离散化人员目标包围盒中特征，得到特征图，获得部位的关键点和关联程度，利用预测器为人体每个部位生成部位置信图，通过部位置信图和二维矢量场实现人体关键点的精准检测。本发明的系统及方法用于复杂场景下的人体关键点检测，实现人员目标关键点的精准检测。

Description

一种基于复杂场景下的人体关键点检测系统及方法

技术领域

本发明涉及一种人体关键点检测技术，具体涉及一种基于复杂场景下的人体关键点检测系统及方法。

背景技术

目前，我国的“天网”工程建设已初具规模，随着深度学习和智能视频行为分析等先进技术的发展成熟，如何有效地利用监控视频成为视频数据分析的重点。

计算机视频监控是利用计算机视觉和图像处理的方法对图像序列进行目标检测、目标分类、目标跟踪以及对监视场景中人员目标的行为识别。其中，人体行为识别是近年来被广泛关注的研究热点，而人体关键点检测则是智能视频行为识别的基础，也是核心的关键技术。通过人体关键点序列对目标行为进行分析和研判，实现安全隐患的主动发现、公共场所异常事件的预警，在油田、医院和敬老院等场所具有重要的实际应用价值。

人体关键点检测是对图像中人员目标的关键部位进行识别和定位，随着深度卷积神经网络的推广，这一问题得到进一步解决。人体关键点检测的方法主要分为两类：自上而下的方法和自下而上的方法。其中，自上而下的方法是指先检测到人员目标，然后使用目标包围盒进行定位，最后使用单人估计的方法定位人体的所有关节；自下而上的方法是指先定位到所有关节的位置，然后再区分关节的从属目标，最后将关节组装成一个完整的人体姿态。前者适用于人员目标稀疏的情况，后者适用于人员目标密集的情况。

传统的人体关键点检测方法包括基于模板匹配的方法、基于统计分类的方法和基于滑动窗口检测的方法。基于模板匹配的方法直观、简单，但是缺乏鲁棒性，一般用于单一场景中；概率统计的方法应用广泛，但却需要大量的训练数据来学习模型参数，计算较为复杂；基于滑动窗口的方法对训练数据库的标注要求较低，但却无法克服部分遮挡的影响以及构建人体各部位之间的相对位置关系。

综上所述，由于人体的非刚性特点、姿态的多变性及光照变化等影响，传统方法在单一特定场景下效果较突出，但是在复杂场景中受背景变化的影响比较大，人体部位易受其他物体目标的遮挡和干扰，难以保证人体关键点检测的准确性和完整性。

发明内容

本发明的目的是提供一种基于复杂场景下的人体关键点检测系统及方法，该系统及方法解决了现有技术对复杂场景中人体关键点检测效果差且误差大的问题，能够用于复杂场景下的人体关键点检测，对动态场景中人员目标进行定位、识别和跟踪，实现图像中所有人员目标关键点的精准检测。

为了达到上述目的，本发明提供了一种基于复杂场景下的人体关键点检测方法，该方法包含：

(S100)输入监控视频信息，进行预处理得到单帧静态图和多帧光流图；

(S200)对单帧静态图通过卷积操作提取特征以得到特征图，为解决复杂场景下干扰目标对人员目标检测的影响，采用人员目标检测算法，以对特征图的实际置信度与预设置信度进行判别，去除非人员目标，得到离散化人员目标包围盒；

(S300)对多帧光流图采用光流堆叠来形成二维矢量场；

(S400)提取所述的离散化人员目标包围盒中特征，得到特征图，获得部位的关键点和关联程度，利用预测器为人体每个部位生成部位置信图，通过部位置信图和二维矢量场实现人体关键点的精准检测。

其中，在所述的步骤S400中，在第一阶段，扩大目标包围盒，以原始图像作为输入，采用卷积操作提取特征后，从原始图像通过分类器预测每个部位的置信值，产生对应的置信图，且将前一阶段获得的置信图与提取的特征作为下一阶段的输入，在若干阶段之间不断迭代，以获得精确的部位置信图。

优选地，所述的人员目标检测算法包括：

(S210)对不同尺寸的单帧静态图产生一组固定大小的默认边界框集合，对该组默认边界框内的区域进行特征提取；

(S211)对人员目标的形体表征，提取主要特征，以形成不同层次的特征图单元，作为图像数据集，将每个层次的特征图单元以卷积的方式平铺特征映射，使得每个默认边界框与相对应的特征图单元的位置固定；

(S212)在所述的每个特征图单元上使用小卷积核卷积滤波器预测每个默认边界框中物体的实际边界框，该实际边界框作为目标包围盒，并计算出实际置信度，将实际置信度与预设置信度进行判别，以去除无效的包围盒，以修正目标包围盒位置；

(S213)输出在不同层次上的离散化目标包围盒，其具有不同的长宽比尺度。

优选地，在所述的步骤S212中，在进行置信度判别过程中，需要计算出每个默认边界框与相对应的实际边界框的误差和相应的评分，以预测默认边界框区域内的所有目标的类别和置信度；设定所述的预设置信度的阈值；当所述的实际置信度大于该阈值时，进行模型损失计算；当所述的实际置信度小于该阈值时，进行SVM后验判别；当判别为人员目标时，则微调目标包围盒；当判别为非人员目标时，剔除无效的包围盒。

优选地，所述的模型损失计算通过损失函数完成，损失函数为：

式(1)中，L(e)是损失误差，y是期望输出，α为实际输出。

对y的分布进行矩估计，用α来表示y的交叉熵为：

式(2)中，α_i是第i个默认边界框的实际输出，y_i是第i个默认边界框的期望输出。

n个默认边界框的平均交叉熵为：

式(3)中，y_i,n表示当相匹配的默认边界框的数量为n时，第i个默认边界框的期望输出；α_i,n表示当相匹配的默认边界框的数量为n时，第i个默认边界框的实际输出。

优选地，在所述的步骤S212中，当存在混淆目标时，对人员目标和混淆目标进行SVM后验判别，将大量人工标注的图像数据集送入SVM预先训练好人员目标和混淆目标的分类器中，在置信度判别后进行本地SVM二分类再判别，将识别出的混淆目标作为负样本去除，人员目标作为正样本，在正样本人员类别的置信度基础上，进行评分确定是否为真实的人员目标。

优选地，双重判别的总体目标损失函数是置信度损失和本地化评分损失的加权平均和，该总体目标损失函数为：

式(4)中，δ为初始权重项；N是与实际边界框相匹配的默认边界框的数量；L(α,c)为置信度的损失函数；L(α,f)为本地化评分损失函数。

通过交叉验证将所述的初始权重项δ设置为1；当以置信度评价期望输出时，输出为每一类的置信度C，则置信度的损失函数L(α,c)为：

式(5)中，y_i,N表示当相匹配的默认边界框的数量为N时，第i个默认边界框的期望输出；α_i,N表示当相匹配的默认边界框的数量为N时，第i个默认边界框的实际输出。

当N＝0时，所述的置信度损失为0。

当时，表示第i个默认边界框与类别p的第j个实际边界框相匹配。

当时，表示第i个默认边界框与类别p的第j个实际边界框不匹配，本地化评分损失函数为：

式(6)中，表示默认边界框与实际边界框相匹配的评分；f_j表示默认边界框的预设评分，表示第α_i个默认边界框的实际评分；Δ表示间隔。

优选地，所述的第一个阶段的分类器C₁的结构为：

其中，表示图像的像素空间，x_i表示图像中每个像素的位置，p表示具体模型部位，表示第一阶段中部位p的置信值。

通过将前一阶段获得的置信图与提取的特征作为下一阶段的数据输入，以对前一阶段的位置进行修正，总体目标F(t)为：

式(7)中，表示理想置信度在t∈T阶段取得。

优选地，在所述的步骤S300中，对所述的多帧光流图通过光流法设定光流阈值，提取出视频中有效运动区域，筛选出带有人员目标的视频片段以转换为单帧图像，并且设定每经任意一间隔帧进行哈希函数计算，选择一个随机函数random，取每帧所在的帧编号为其哈希地址，得到随机生成的帧编号为提取帧。

通过泰勒公式将所述的多帧光流图的约束方程转换为：

I_x×V_x+I_y×V_y+I_z×V_z＝-It (8)

式(8)中，I_x,I_y,I_z,I_t分别为I(x,y,z,t)在x,y,z,t处的分量，V_x,V_y,V_z分别是I(x,y,z,t)的光流向量中x,y,z的组成，I(x,y,z,t)为在(x,y,z)位置的体素。

所述的二维矢量场的形成方法包含：通过在时间t上进行连续提取多帧得到光流图，给图像中的每个像素点赋予一个速度矢量形成一个运动矢量场，通过预处理操作得到连续帧之间的光流位移堆叠场，以形成二维矢量场。

优选地，所述的人体关键点检测算法流程包括：

(S410)将目标检测得到的离散化人员目标包围盒坐标作为算法的初始输入，经过卷积操作提取特征得到特征图；

(S411)身体部位定位和关联程度分析在两个分支上同时进行，通过身体部位定位求得所有的关键点，通过关联程度分析求得所有部位之间的关联程度，以建立相对位置关系；

(S412)所述的身体部位定位的算法由预测器组成，分成若干阶段，每个阶段为人体每个部位重复生成置信图，每张置信图包含某一种关键点，该置信图与原始图像特征同时作为下一阶段的输入，预测各部位的位置，进而确定人体各关键点的位置；

(S413)对人体部位的位置和方向进行编码，通过在所述的二维矢量场中矢量的方向判别多人关键点的从属问题；

(S414)利用矢量之间的位移长度建立人体各部位之间的相对位置关系，实现人体不可见关键点的预测与估计，得到人体所有关键点的详细信息。

其中，在所述的步骤S412中，对每个部位累加所有尺度下的置信图，得到总置信图，找出置信度最大的点，该点为相应的关键点的位置。

其中，对于多人关键点检测，通过二维矢量场将每个人的身体组合在一起，形成一个完整的人体；当某个点有多人重叠时，将n个人的向量求和，再除以人数。

本发明还提供了一种基于复杂场景下的人体关键点检测系统，该系统包含：数据预处理模块，其对监控视频信息进行处理，以获得单帧静态图和多帧光流图；人员目标检测模块，其通过卷积操作提取所述的数据预处理模块发送的单帧静态图的特征，使用小卷积核卷积滤波器预测每个边界框中物体的实际边界框并计算实际置信度，将实际边界框作为目标包围盒，采用SVM后验判别将实际置信度与预设置信度进行判别，以去除无效的包围盒，以修正目标包围盒位置，获得离散化人员目标包围盒；以及人体关键点检测模块，其接收所述的人员目标检测模块发送的离散化人员目标包围盒坐标，通过卷积操作提取特征以得到特征图，并获得部位的关键点和关联程度，利用预测器为人体每个部位生成部位置信图，通过部位置信图和二维矢量场实现人体关键点的精准检测。

其中，所述的人体关键点检测模块采用若干阶段迭代的方式，将前一阶段获得的置信图与提取的特征作为下一阶段的输入，以在若干阶段之间不断迭代，获得精确的部位置信图。

本发明的基于复杂场景下的人体关键点检测系统及方法，解决了现有技术对复杂场景中人体关键点检测效果差且误差大的问题，具有以下优点：

(1)本发明的方法及系统采用人员目标检测算法去除非人员目标，简化了复杂场景，能够应用于复杂场景下的人体关键点检测，进行精准检测；

(2)本发明的方法及系统采用二维矢量场用于在图像域上对人体部位的位置和方向进行编码，能够多人关键点的从属问题，实现图像中所有人员目标关键点的精准检测；

(3)本发明的方法在SVM后验判别中采用的总体目标损失函数是让本地化评分损失函数在一个渐进过程中找到一个全局极小值，使得评分差异最小以及预测值更加准确，使得对目标包围盒进行调整以更好地匹配目标对象形状；

(4)本发明的方法还能够对特殊场景中易于混淆的目标，如海洋平台中人员目标的安全服颜色与某些柱形管道颜色和形态一致，进行处理，以去除混淆目标，以提高识别准确率；

(5)本发明的方法在人体关键点检测时用各部位的置信图来表达各部位之间的空间约束，同时在多个尺度下处理输入的特征图和响应图，既能确保精度，又考虑了各个部位之间的距离关系，通过不断扩大网络的接受域来检测其他部位位置，实现了人体所有关键点的精准检测。

附图说明

图1为本发明的基于复杂场景下的人体关键点检测方法的流程图。

图2为本发明的基于复杂场景下的人体关键点检测方法的原理图。

图3为本发明的人员目标检测算法的流程图。

图4为本发明的人体关键点检测算法的流程图。

图5为本发明的基于复杂场景下的人体关键点检测系统的结构图。

具体实施方式

以下结合附图和实施例对本发明的技术方案做进一步的说明。

一种基于复杂场景下的人体关键点检测方法，如图1所示，为本发明的基于复杂场景下的人体关键点检测方法的流程图，如图2所示，为本发明的基于复杂场景下的人体关键点检测方法的原理图，该方法包含：

(S300)对多帧光流图采用光流堆叠来形成二维矢量场；

(S400)提取离散化人员目标包围盒中特征，得到特征图，获得部位的关键点和关联程度，利用预测器为人体每个部位生成部位置信图，通过部位置信图和二维矢量场实现人体关键点的精准检测。

其中，在步骤S400中，在第一阶段，扩大目标包围盒，以原始图像作为输入，采用卷积操作提取特征后，从原始图像通过分类器预测每个部位的置信值，产生对应的置信图，且将前一阶段获得的置信图与提取的特征作为下一阶段的输入，在若干阶段之间不断迭代，以获得精确的部位置信图。

如图3所示，为本发明的人员目标检测算法的流程图，人员目标检测算法流程包括：

(S210)对于不同尺寸的单帧静态图产生一组固定大小的默认边界框集合，对该组默认边界框内的区域进行特征提取；针对较大的单帧静态图采用若干默认边界框提取特征；

(S211)针对复杂场景下人员目标的形体表征，以颜色、形状和纹理等特征为主要特征进行提取，以形成不同层次的特征图单元，作为图像数据集，将每个层次的特征图单元以卷积的方式平铺特征映射，使得每个默认边界框与相对应的特征图单元的位置是固定的；

(S212)在每个特征图单元上使用小卷积核卷积滤波器去预测每个默认边界框中物体的实际边界框，该实际边界框作为目标包围盒，并计算出实际置信度，将实际置信度与预设置信度进行判别；可设定置信度阈值为0.6，对于大于置信度阈值的情况进行模型损失的计算；对于小于置信度阈值的情况直接进行SVM后验判别，若判别为人员目标，则需对目标包围盒进行微调处理，否则剔除无效的包围盒；具体地，对目标包围盒使用线性回归器进行微调处理，精细修正包围盒位置，否则视为无效的包围盒(在判别不是人员目标的情况下)，进行剔除操作；

(S213)输出一系列在不同层次上的离散化目标包围盒，且具有不同的长宽比尺度。

对于实际边界框的确定，对视频流采用静态图像进行数据处理，通过深度学习技术对输入的图像数据集标签化，利用已标注的图像数据集训练人员目标检测模型，通过该模型对静态图像进行人员目标检测，得到目标的具体位置信息，并将位置信息作为输入得到目标包围盒，为人体关键点提取提供数据来源。在不同的场景下，选用相应的数据集，例如石油海上平台的图像数据集，利用已标注的图像数据集进行训练，使用的是深度学习SSD框架。

进一步需要知道的，不同尺度的特征图在每个位置使用不同长宽比的默认边界框。在步骤(S212)中，进行置信度判别过程中，需要计算出每个默认边界框与相对应的实际边界框的误差和相应的评分，以预测区域内的所有目标的类别和置信度，大于上述置信度阈值的对象类别视为目标类别。通过计算误差和评分，需要将实际边界框与图像中多个默认边界框进行匹配，最后得到的是修正后的目标包围盒。

并且，置信度判别是目标检测的初步筛选过程，将默认边界框与任何具有高于阈值的实际边界框进行重叠度匹配，通过SVM后验判别简化了匹配过程。此外，本算法允许预测多个重叠的默认边界框的评分，而不是只挑选具有最大重叠度的边界框进行评分预估。

因此，本发明的人员目标检测算法结合了不同分辨率的多个特征图的预测，能够自然处理各种尺寸的目标对象，与其他单级方法相比，即使输入图像(单帧静态图)尺寸较小也具有较高的精度。

进一步还需要知道的，在步骤(S212)中，模型损失计算通过损失函数完成，常用的损失函数大多是平方差函数：

式(1)中，L(e)是损失误差，y是期望输出，α为实际输出。

当实际输出与期望输出差距越大，则模型损失越高，而在实际操作中，y的分布并不能通过计算精确获得，只能对y的分布进行矩估计，即为α值，用α来表示y的交叉熵：

因此，n个默认边界框的平均交叉熵如下：

进一步地，根据本发明一实施例，针对特定场景，如海洋平台这个特殊场景，由于人员目标的安全服颜色与某些柱形管道颜色和形态一致，现有技术使用简单场景下常规模型会经常混淆两者，导致较高的误报率。本发明该实施例中对这两种目标进行SVM后验判别，将大量人工标注的图像数据集送入SVM预先训练好人员目标和柱形管道目标的分类器中，在置信度判别后进行本地SVM二分类再判别，将识别出的柱形管道视为负样本去除，只在正样本人员类别的置信度基础上进行评分预估确实是否为真实人员目标，减少了负样本的计算量。通过双重判别的总体目标损失函数是置信度损失和本地化评分损失的加权平均和，该总体目标损失函数具体如下：

式(4)中，δ为初始权重项。

进一步，通过交叉验证将初始权重项δ设置为1，当以置信度评价期望输出时，输出为每一类的置信度C，则置信度的损失函数L(α,c)如下：

式(5)中，y_i,N表示当相匹配的默认边界框的数量为N时，第i个默认边界框的期望输出；α_i,N表示当相匹配的默认边界框的数量为N时，第i个默认边界框的实际输出；N是与实际边界框相匹配默认边界框的数量；若N＝0，则将置信度损失设置为0。设表示第i个默认边界框与类别p的第j个实际边界框相匹配，否则，若不匹配则本地化评分损失函数为：

总体目标损失函数是让本地化评分损失函数在一个渐进过程中找到一个全局极小值，使得评分差异最小以及预测值更加准确，使得对目标包围盒进行调整以更好地匹配目标对象形状。

如图4所示，为本发明的人体关键点检测算法的流程图，人体关键点检测算法流程包括：

(S410)将目标检测得到的离散化人员目标包围盒坐标作为算法的初始输入，经过一系列卷积操作提取特征得到特征图；

(S411)身体部位定位和关联程度分析是在两个分支上同时进行，前者是为了求得所有的关键点，包括：头部、颈部、右肩、右肘、右手腕、左肩、左肘、左手腕、右臀、右膝、右脚踝、左臀、左膝和左脚踝等14个关键点；后者是为了求得所有部位之间的关联程度以建立相对位置关系；

(S412)身体部位定位算法由一系列预测器组成，分成多个阶段，每个阶段为人体每个部位重复生成置信图，每一张置信图包含某一种关键点，该置信图与原始图像特征同时用作下一阶段的输入，预测各部位的位置，进而确定人体各关键点的位置；

(S413)对人体部位的位置和方向进行编码，通过在二维矢量场中矢量的方向判别多人关键点的从属问题；

(S414)利用矢量之间的位移长度建立人体各部位之间的相对位置关系，从而实现人体不可见关键点的预测与估计，最终得到人体所有关键点的详细信息。

在步骤S412中，对每个部位累加所有尺度下的置信图，得到总置信图，找出置信度最大的点，该点为相应的关键点的位置。

人体关键点检测算法在每一个尺度下对输入图像进行特征提取，获得人体各个部位的置信图，置信值越大在置信图上的颜色就越深，颜色的深度在整个置信图中是相对的。本发明的算法用各部位的置信图来表达各部位之间的空间约束，同时在多个尺度下处理输入的特征图和响应图，既能确保精度，又考虑了各个部位之间的距离关系，通过不断扩大网络的接受域来检测其他部位位置，最终实现人体所有关键点的精准检测。

具体地，根据本发明一实施例，为了避免通过目标检测得到的人员目标包围盒在一定范围内存在部分误差，导致人员目标的部位可能未能完整地显示在包围盒内的问题，本发明该实施例采取多尺度的方式扩大感知野，减小目标检测带来的误差。具体地，按照1.0：1.2的比例对原包围盒进行扩大，通过这种方式得到完整的人员目标，以便在人体关键点检测阶段检测到所有的关键点坐标。再利用卷积网络进行特征提取后，从原始图像直接预测每个部位的置信值，从而产生对应的置信图，其中包含一个背景置信图。将人体共分为P个模型部位，则共有P+1层置信图，P的预设值为14。假设x是图像中具有突出特征的像素，将原图输入网络，通过卷积操作提取图像中的突出特征，突出特征主要是指纹理特征。使用C₁表示第一个阶段的分类器，分类器可以粗略预测各部位的位置，从而产生各部位的置信图。分类器结构如下：

其中，表示图像的像素空间，x_i是图像中的每个像素的位置，p表示一个具体模型部位，表示第一阶段中部位p的置信值。

将第一阶段得到的置信图与图像特征作为第二阶段的输入数据，同时将原始图像再次作为输入，随着网络的接受域不断扩大，学习到的特征也会与前一阶段有所不同，所使用的特征函数包括图像数据特征、该阶段各各部位的置信图以及各级分类器的上下文信息。分类器C₂继续预测各部位的位置，是对前一阶段预测位置的修正，总体目标F(t)如下所示：

式(7)中，表示理想置信度在t∈T阶段取得。通过对两个阶段的不断迭代，使得预测部位位置更加精确，最终得到每个部位的较为精确的位置。

进一步需要知道的，对于多帧光流图可通过光流法设定光流阈值，提取出视频中有效的运动区域，筛选出带有人员目标的视频片段用以单帧图像转换。为了产生随机的提取帧，设定每隔24帧进行一次哈希函数计算，每次选择一个随机函数random，取每帧所在的帧编号为它的哈希地址，得到随机生成的帧编号，即为提取帧。

对于多帧光流图的约束方程，设定目标移动距离足够小，同时移动所需的时间也可以忽略不计，那么通过泰勒公式对多帧光流图的约束方程进行变换，如下所示：

I_x×V_x+I_y×V_y+I_z×V_z＝-It (8)

式(8)中，I_x,I_y,I_z,I_t分别为I(x,y,z,t)在x,y,z,t处的分量，V_x,V_y,V_z分别是I(x,y,z,t)的光流向量中x,y,z的组成，三个偏微分则是图像在x,y,z,t这一像素点上相应方向的差分来近似。

二维矢量场的形成方法，具体地为：通过在时间t上进行连续提取多帧得到光流图，给图像中的每个像素点赋予一个速度矢量形成一个运动矢量场，通过预处理操作得到连续帧之间的光流位移堆叠场而形成的二维矢量场。

进一步地，根据本发明一实施例，对于多人关键点检测的问题，检测不同人的身体部位，还需要将每个人的身体分别组合在一起，形成一个完整的人体，使用的方法就是二维矢量场。它是一个2D向量集合，每一个2D向量集合都会编码一个人体部位的位置和方向，将位置和方向信息存储在向量中，每一个向量都会在关联的两个人体部位之间有一个亲和区域，其中的每一个像素都有一个2D向量的描述方向。亲和区通过响应图的方式存在，维度是二维的。若某个点有多人重叠，则将n个人的向量求和，再除以人数。

在视频中设定检测区域，在复杂场景下通过本发明的方法进行目标检测，对人员目标进行定位、识别和跟踪，对同一人员目标在该区域内运动超过一定时间的事件进行徘徊检测，可用于银行、政府机关、大使馆、文化与宗教聚集地、高安全周界、商业区和住宅区等场所的智能监控，发现可疑目标并及时发出警告，以排除安全隐患。

而且，本发明的方法通过精确分析和定位人体的关键点，在此基础上能够进行人员的行为和姿态判别，可应用于石油、工业、医疗和安保等多个领域，这些领域面临着诸多安全隐患因素，例如石油钻采生产作业的人员不慎坠海、工业生产人员不符合规定佩戴安全设备以及老人、病人摔倒等情况。本发明的方法可以减少人工干预的时间，避免了因人身意外和违规操作生产造成的经济损失，从而保障了工业的安全生产，节省了人力物力，提高了生产管理水平。

一种基于复杂场景下的人体关键点检测系统，如图5所示，为本发明的基于复杂场景下的人体关键点检测系统的结构图，该系统包含：数据预处理模块，其对监控视频信息进行处理，以获得单帧静态图和多帧光流图；人员目标检测模块，其通过卷积操作提取数据预处理模块发送的单帧静态图的特征，使用小卷积核卷积滤波器预测每个边界框中物体的实际边界框并计算实际置信度，将实际置信度作为目标包围盒，采用SVM后验判别将实际置信度与预设置信度进行判别，以去除无效的包围盒，以修正目标包围盒位置，获得离散化人员目标包围盒；以及人体关键点检测模块，其接收人员目标检测模块发送的离散化人员目标包围盒坐标，通过卷积操作提取特征以得到特征图，并获得部位的关键点和关联程度，利用预测器为人体每个部位生成部位置信图，通过部位置信图和二维矢量场实现人体关键点的精准检测。

其中，人体关键点检测模块采用若干阶段迭代的方式，将前一阶段获得的置信图与提取的特征作为下一阶段的输入，以在若干阶段之间不断迭代，获得精确的部位置信图。具体地，该人体关键点检测模块采用上述基于复杂场景下的人体关键点检测方法中的人体关键点检测算法的步骤操作。

其中，人员目标检测模块也采用上述基于复杂场景下的人体关键点检测方法中的人员目标检测算法的步骤操作。

综上所述，本发明的基于复杂场景下的人体关键点检测系统及方法在复杂场景下对人员目标的所有关键点进行快速准确的检测，能够应用于多个领域进行定位、识别、跟踪以及行为和姿态判别。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于复杂场景下的人体关键点检测方法，其特征在于，该方法包含：

(S300)对多帧光流图采用光流堆叠来形成二维矢量场；

(S400)提取所述的离散化人员目标包围盒中特征，得到特征图，获得部位的关键点和关联程度，利用预测器为人体每个部位生成部位置信图，通过部位置信图和二维矢量场实现人体关键点的精准检测；

在所述的步骤S400中，在第一阶段，扩大离散化人员目标包围盒，以原始图像作为输入，采用卷积操作提取特征后，从原始图像通过分类器预测每个部位的置信值，产生对应的置信图，且将前一阶段获得的置信图与提取的特征作为下一阶段的输入，在若干阶段之间不断迭代，以获得精确的部位置信图。

2.根据权利要求1所述的基于复杂场景下的人体关键点检测方法，其特征在于，所述的人员目标检测算法包括：

3.根据权利要求2所述的基于复杂场景下的人体关键点检测方法，其特征在于，在所述的步骤S212中，在进行置信度判别过程中，需要计算出每个默认边界框与相对应的实际边界框的误差和相应的评分，以预测默认边界框区域内的所有目标的类别和置信度；

设定所述的预设置信度的阈值；当所述的实际置信度大于该阈值时，进行模型损失计算；当所述的实际置信度小于该阈值时，进行SVM后验判别；当判别为人员目标时，则微调目标包围盒；当判别为非人员目标时，剔除无效的包围盒。

4.根据权利要求3所述的基于复杂场景下的人体关键点检测方法，其特征在于，所述的模型损失计算通过损失函数完成，损失函数为：

式(1)中，L(e)是损失误差，y是期望输出，α为实际输出；

对y的分布进行矩估计，用α来表示y的交叉熵为：

式(2)中，α_i是第i个默认边界框的实际输出，y_i是第i个默认边界框的期望输出；

n个默认边界框的平均交叉熵为：

5.根据权利要求4所述的基于复杂场景下的人体关键点检测方法，其特征在于，在所述的步骤S212中，当存在混淆目标时，对人员目标和混淆目标进行SVM后验判别，将大量人工标注的图像数据集送入SVM预先训练好人员目标和混淆目标的分类器中，在置信度判别后进行本地SVM二分类再判别，将识别出的混淆目标作为负样本去除，人员目标作为正样本，在正样本人员类别的置信度基础上，进行评分确定是否为真实的人员目标。

6.根据权利要求5所述的基于复杂场景下的人体关键点检测方法，其特征在于，双重判别的总体目标损失函数是置信度损失和本地化评分损失的加权平均和，该总体目标损失函数为：

式(4)中，δ为初始权重项；N是与实际边界框相匹配的默认边界框的数量；L(α,c)为置信度的损失函数；L(α,f)为本地化评分损失函数；

式(5)中，y_i,N表示当相匹配的默认边界框的数量为N时，第i个默认边界框的期望输出；α_i,N表示当相匹配的默认边界框的数量为N时，第i个默认边界框的实际输出；

当N＝0时，所述的置信度损失为0；

当时，表示第i个默认边界框与类别p的第j个实际边界框相匹配；

7.根据权利要求1-6中任意一项所述的基于复杂场景下的人体关键点检测方法，其特征在于，所述的第一个阶段的分类器C₁的结构为：

其中，表示图像的像素空间，x_i表示图像中每个像素的位置，p表示具体模型部位，表示第一阶段中部位p的置信值；

式(7)中，表示理想置信度在t∈T阶段取得。

8.根据权利要求7所述的基于复杂场景下的人体关键点检测方法，其特征在于，在所述的步骤S300中，对所述的多帧光流图通过光流法设定光流阈值，提取出视频中有效运动区域，筛选出带有人员目标的视频片段以转换为单帧图像，并且设定每经任意一间隔帧进行哈希函数计算，选择一个随机函数random，取每帧所在的帧编号为其哈希地址，得到随机生成的帧编号为提取帧；

通过泰勒公式将所述的多帧光流图的约束方程转换为：

I_x×V_x+I_y×V_y+I_z×V_z＝-It (8)

式(8)中，I_x,I_y,I_z,I_t分别为I(x,y,z,t)在x,y,z,t处的分量，V_x,V_y,V_z分别是I(x,y,z,t)的光流向量中x,y,z的组成，I(x,y,z,t)为在(x,y,z)位置的体素；

9.根据权利要求8所述的基于复杂场景下的人体关键点检测方法，其特征在于，所述的人体关键点检测算法流程包括：

(S414)利用矢量之间的位移长度建立人体各部位之间的相对位置关系，实现人体不可见关键点的预测与估计，得到人体所有关键点的详细信息；

在所述的步骤S412中，对每个部位累加所有尺度下的置信图，得到总置信图，找出置信度最大的点，该点为相应的关键点的位置；

对于多人关键点检测，通过二维矢量场将每个人的身体组合在一起，形成一个完整的人体；当某个点有多人重叠时，将n个人的向量求和，再除以人数。

10.一种基于复杂场景下的人体关键点检测系统，其特征在于，该系统包含：

数据预处理模块，其对监控视频信息进行处理，以获得单帧静态图和多帧光流图；

人员目标检测模块，其通过卷积操作提取所述的数据预处理模块发送的单帧静态图的特征，使用小卷积核卷积滤波器预测每个边界框中物体的实际边界框并计算实际置信度，将实际边界框作为目标包围盒，采用SVM后验判别将实际置信度与预设置信度进行判别，以去除无效的包围盒，以修正目标包围盒位置，获得离散化人员目标包围盒；以及

人体关键点检测模块，其接收所述的人员目标检测模块发送的离散化人员目标包围盒坐标，通过卷积操作提取特征以得到特征图，并获得部位的关键点和关联程度，利用预测器为人体每个部位生成部位置信图，通过部位置信图和二维矢量场实现人体关键点的精准检测；