CN108510491B

CN108510491B - 虚化背景下人体骨骼关键点检测结果的过滤方法

Info

Publication number: CN108510491B
Application number: CN201810299569.0A
Authority: CN
Inventors: 王兴政; 李萌; 王好谦; 方璐; 戴琼海
Original assignee: Shenzhen Weilai Media Technology Research Institute; Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Weilai Media Technology Research Institute; Shenzhen Graduate School Tsinghua University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2020-07-24
Anticipated expiration: 2038-04-04
Also published as: CN108510491A

Abstract

本发明公开了一种虚化背景下人体骨骼关键点检测结果的过滤方法，包括：对RGB图像进行人体骨骼关键点的初步检测，得到初步结果；对RGB图像进行深度估计得到深度估计图；对深度估计图进行深度聚类，以将深度估计图划分为N个区域，计算每个区域的平均深度；其中，N≥1；对所述初步结果进行过滤，包括：若N＝1，则不进行过滤，将所述初步结果作为最终的检测结果；若N≥2，首先对经所述初步检测得到的每一个人，分别统计其在所述深度估计图的N个区域中的骨骼关键点数量；然后找出每个人的骨骼关键点数量最多的区域，判定相应的人属于该区域；最后将属于平均深度最大的区域的人的骨骼关键点检测结果从所述初步结果中去除，得到最终的检测结果。

Description

虚化背景下人体骨骼关键点检测结果的过滤方法

技术领域

本发明涉及计算机视觉与数字图像处理领域，尤其是涉及对虚化背景下人体骨骼关键点检测的结果进行过滤的方法。

背景技术

对图像或视频中的人体进行骨骼关键点检测，是计算机视觉领域一个非常重要的研究方向。人体骨骼关键点检测的结果可用于人体动作分类、体态特征获取等方面，是姿态识别、异常行为检测等技术的基础，对于智能安防、无人驾驶、人机交互等多个领域，都具有重要的实用价值。

目前的人体骨骼关键点检测方法主要分为两种：“自底向上”的方法和“自顶向下”的方法。

“自底向上”的方法，是指先在图像中检测出所有可能的人体骨骼关键点，再在全局条件下对图像中属于同一个人的骨骼关键点进行连接。这种方法在算法初期提供了一定的鲁棒性，即可以较为有效地检测出全部人体骨骼关键点，并可将运行时的复杂度与图像中人的数量解耦，具有较高的检测速度。然而由于这种方法仅利用了输入图像的二维平面信息，容易将图像中背景信息和前景中的人体信息混淆，通常存在检测骨骼关键点数量大于实际数量的问题。

“自顶向下”的方法，是指首先对包含人体的图像使用边缘检测、深度学习等物体检测方法，估计图像中每个人的大致位置，然后对于每个检测到的人，运行一个单独的姿态估计器，分别对每个人进行独立的关键点检测，以获取图像中全部人的骨骼关键点信息。然而由于图像中背景信息也会影响物体检测方法和姿态估计器的精度，因此也存在检测到的骨骼关键点数量与实际数量不符的问题。

现如今大多数大众设备所拍摄的人像图像均是背景虚化的图像，对背景虚化的图像进行人体骨骼关键点检测的现有方案中，其检测结果往往会包含已虚化部分的点，然而虚化部分的检测结果往往没有太大的实际意义，反而加剧了检测结果不精确的问题。可见，对虚化背景部分的检测结果进行过滤实属必要。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明的主要目的在于提出一种虚化背景下人体骨骼关键点检测结果的过滤方法，以对虚化背景图像的人体骨骼关键点检测结果进行过滤，去除不重要的、不精确的检测结果。

本发明为达上述目的提出以下技术方案：

一种虚化背景下人体骨骼关键点检测结果的过滤方法，包括：

对一含人像的RGB图像进行人体骨骼关键点的初步检测，得到人体骨骼关键点检测的初步结果；所述初步结果包括所述RGB图像中的人数以及检测到的每个人的骨骼关键点坐标集合；

对所述RGB图像进行深度估计，得到深度估计图；

对所述深度估计图进行深度聚类，以将所述深度估计图划分为N个区域，并计算每个区域的平均深度；其中，N≥1；

对所述初步结果进行过滤，包括：

若N＝1，则不进行过滤，将所述初步结果作为最终的检测结果；

若N≥2，首先对经所述初步检测得到的每一个人，分别统计其在所述深度估计图的N个区域中的骨骼关键点数量；然后找出每个人的骨骼关键点数量最多的区域，判定相应的人属于该区域；最后将属于平均深度最大的区域的人的骨骼关键点检测结果从所述初步结果中去除，得到最终的检测结果。

与现有技术相比，本发明的有益效果在于：本发明将深度估计法以及聚类方法与人体骨骼关键点检测进行结合，作为一种后处理手段，去除了图像背景信息对检测结果的影响，避免信息混淆，提高了人体骨骼关键点检测精度。

附图说明

图1是本发明实施例的虚化背景下人体骨骼关键点检测结果的过滤方法流程图。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步说明。

本发明的具体实施方式提出一种虚化背景下人体骨骼关键点检测结果的过滤方法，用于对虚化背景处的人体骨骼关键点检测结果进行过滤，以优化最终的检测结果，提高检测准确率。

参考图1，该过滤方法包括：对含人像的RGB图像(即初始图像)进行深度估计以及人体骨骼关键点的初步检测，对深度估计后的深度估计图进行深度聚类并计算聚类的每个区域的平均深度，根据深度聚类的结果对所述初步结果进行过滤。其中：

对所述RGB图像进行所述初步检测包括：采用卡内基梅隆大学开发的人体骨架关键点检测框架OpenPose，将单张RGB图像输入到OpenPose模型中，输出检测的初步结果，包括检测到的该RGB图像中含有的人数M以及M个人的骨骼关键点坐标集合J＝(J₁,J₂,…,J_M)，集合J中的元素J_i表示第i个人的骨骼关键点坐标集合，i＝1,2,...,M，

表示第i个人的第j个骨骼关键点的坐标。

对所述RGB图像进行深度估计包括：采用散焦法进行深度估计。首先，将所述RGB图像I₀(x,y)转化为灰度图I₁(x,y)；其次，对灰度图I₁(x,y)进行边缘检测，并对边缘点进行LOG滤波，计算对应的散焦参数；然后，使用所述散焦参数计算边缘点处的深度，再使用拉普拉斯抠图法插值得到所述深度估计图。

RGB彩色空间使用R、G、B三个分量分别表示红、绿、蓝三种颜色在图像中的强度，YUV彩色空间则使用亮度信号Y和色度信号U、V对图像进行表示，Y信号分量可以单独提取出来构成黑白灰度图。Y信号可由RGB信号表示为

Y＝0.299R+0.587G+0.114B (1)

根据上述公式(1)可以得到原始的RGB图像的灰度图I₁(x,y)。

对上述得到的灰度图I₁(x,y)进行边缘检测可以采用Roberts算子、Laplacian算子、Canny算子等边缘检测模型，本实施例中采用Canny算子进行边缘检测得到边缘点，并对提取出的边缘点一一进行LOG滤波，得到各边缘点处的梯度向量▽I₁(x,y)；然后在各边缘点处，分别按照正梯度方向和负梯度方向搜索灰度极大值点和灰度极小值点，并计算灰度极大值点和灰度极小值点之间的欧氏距离α，由所述欧氏距离α得到各边缘点对应的散焦参数

再利用得到的散焦参数计算边缘点处的深度

通过上述的方法和公式(2)、(3)，得到各边缘点的深度后，再使用拉普拉斯抠图法插值得到所述深度估计图D₀(x,y)。

对深度估计得到的深度估计图D₀(x,y)进行深度聚类可以采用基于最小生成树的聚类、均值平移聚类、双重域聚类、近邻传播聚类等等聚类方法，本实施例中采用均值平移聚类法对深度估计图D₀(x,y)进行深度聚类，具体包括：对深度估计图D₀(x,y)中的点根据(x,y,z)的值进行聚类，其中x、y为坐标值，z为点的深度值，并设置搜索半径为5，进行深度聚类，从而将深度估计图D₀(x,y)划分为N个区域，分别表示为d₁,d₂,…,d_N，N即为聚类数目。

根据深度聚类的结果对所述初步结果进行过滤包括：若N＝1，则不进行过滤，将所述初步结果作为最终的检测结果；若N≥2，首先对经所述初步检测得到的每一个人，分别统计其在所述深度估计图的N个区域中的骨骼关键点数量；然后找出每个人的骨骼关键点数量最多的区域，判定相应的人属于该区域；最后将属于平均深度最大的区域的人的骨骼关键点检测结果从所述初步结果中去除，得到最终的检测结果。例如检测到的M个人中第1个人在深度聚类的区域d₁中的骨骼关键点数量最多，则可以认定该第1个人属于区域d₁，第2个人在深度聚类的区域d₃中的骨骼关键点数量最多，则可以认定该第2个人属于区域d₃；再比如，在N个区域中区域d₃的平均深度最大，则说明该区域d₃是较深的背景区域，属于该区域的人的骨骼关键点其检测结果往往不重要并且精确度较低，因此将该第2个人的骨骼关键点检测信息从所述初步结果中去除，得到最终的检测结果，人数M’＝M-1，骨骼关键点坐标集合J'＝(J₁,J₃,…,J_M)。

其中，对聚类的N个区域进行平均深度计算可采用如下的公式

为N个区域中的区域d_n的平均深度，S为区域d_n中的点的总数，dep(x_n,y_n)为点(x_n,y_n)在深度估计图D₀(x,y)中的深度。

最后，将经过过滤后的骨骼关键点检测最终结果可视化地表示于RGB图像中，即：将对应的坐标点标出并连线，以骨架图的形式展示出优化后的人体骨骼关键点检测结果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。