CN110443205B

CN110443205B - 一种手部图像分割方法及装置

Info

Publication number: CN110443205B
Application number: CN201910725548.5A
Authority: CN
Inventors: 李江; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2022-09-13
Anticipated expiration: 2039-08-07
Also published as: CN110443205A

Abstract

本发明提供了一种手部图像分割方法及装置，在获取手部候选框RGB彩色图像之后，通过语义分割神经网络模型进行处理，得到手部候选框RGB彩色图像的像素分割标签，并利用得到的像素分割标签对手部候选框RGB彩色图像进行语义分割，得到前景手部深度值和彩色手部分割区域数据，避免了背景深度值对手部深度数据的干扰，再利用彩色手部分割区域数据对前景手部深度值进行修正，得到准确的手部深度数据，由于本发明采用语义分割神经网络模型对手部候选框RGB彩色图像进行语义分割，降低了基于单目深度相机的手部关键点估计技术深度图数据质量的依赖性。

Description

一种手部图像分割方法及装置

技术领域

本发明涉及图像处理技术领域，更具体的，涉及一种手部图像分割方法及装置。

背景技术

3D手势关键点估计为3D手势控制的关键技术，其中，基于双红外数据的手部关键点估计技术为一种准确度较高的3D手势关键点估计技术，利用外部参数标定好的双红外摄像头从不同角度拍摄手的姿态，从而在算法识别过程中可以有效利用不同角度的数据对算法结果进行修正，但是其算法和技术必须依赖于硬件设备(双红外摄像头)，不具有普适性。

基于单目深度相机的手部关键点估计技术不依赖双红外摄像头，直接或间接利用一个深度摄像头通过获取其红外图和彩色图，采用RGB空间的彩色图像算法识别出图像中手部关键点的二维坐标，然后在配准后的深度图像中找对应位置的深度值，作为其深度方向的数值，或直接采用单目深度图像数据算法识别出深度图像中手部关键点的三维坐标。

但是，这种基于单目深度相机的手部关键点估计技术依赖深度图数据的质量，当深度图像存在较多噪声、深度图不够精准、边缘轮廓不够平滑或背景深度值存在很大干扰等情况，使得手部前景的深度数据不够准确，影响手部关键点坐标估计的准确度。

发明内容

有鉴于此，本发明公开了一种手部图像分割方法及装置，对手部检测后得到的手部候选框RGB彩色图像进行优化处理，得到准确的手部深度数据。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种手部图像分割方法，包括：

获取手部候选框RGB彩色图像，所述手部候选框RGB彩色图像为经过手部检测后得到的RGB彩色图像；

将所述手部候选框RGB彩色图像输入语义分割神经网络模型中进行处理，得到所述手部候选框RGB彩色图像的像素分割标签；

利用得到的像素分割标签对手部候选框RGB彩色图像进行语义分割，得到前景手部深度值和彩色手部分割区域数据；

利用所述彩色手部分割区域数据对所述前景手部深度值进行修正，得到准确的手部深度数据。

可选的，所述方法还包括：

获取所述语义分割神经网络模型的训练数据，所述训练数据包括多个包含CG手部模型的合成彩色图像及其像素分割标签；

利用所述训练数据对预设神经网络模型进行训练，当所述预设神经网络模型输出结果的准确率大于阈值时，得到所述语义分割神经网络模型。

可选的，所述获取所述语义分割神经网络模型的训练数据，包括：

通过设置每个手部关键点的自由度参数，生成不同手部姿势的CG手部模型；

分别将不同手部姿势的CG手部模型渲染到不同的彩色场景图像中，得到多个合成彩色图像；

分别对每个所述合成彩色图像中CG手部模型映射在彩色场景图像中的形状进行打码，得到每个所述合成彩色图像的像素分割标签；

对每个所述合成彩色图像及其像素分割标签进行归一化处理，得到具有预设分辨率的所述语义分割神经网络模型的训练数据。

可选的，所述获取手部候选框RGB彩色图像，包括：

利用手部识别算法对目标彩色图像进行手部检测，得到包含手部图像的RGB彩色图像；

对所述RGB彩色图像进行归一化处理，得到预设分辨率的所述手部候选框RGB彩色图像。

可选的，在所述得到准确的手部深度数据之后，所述方法还包括：

对准确的手部深度数据进行关键点估计，得到每个手部关键点的三维坐标。

一种手部图像分割装置，包括：

图像获取单元，用于获取手部候选框RGB彩色图像，所述手部候选框RGB彩色图像为经过手部检测后得到的RGB彩色图像；

模型处理单元，用于将所述手部候选框RGB彩色图像输入语义分割神经网络模型中进行处理，得到所述手部候选框RGB彩色图像的像素分割标签；

语义分割单元，用于利用得到的像素分割标签对手部候选框RGB彩色图像进行语义分割，得到前景手部深度值和彩色手部分割区域数据；

数据修正单元，用于利用所述彩色手部分割区域数据对所述前景手部深度值进行修正，得到准确的手部深度数据。

可选的，所述装置还包括：

训练数据获取单元，用于获取所述语义分割神经网络模型的训练数据，所述训练数据包括多个包含CG手部模型的合成彩色图像及其像素分割标签；

模型训练单元，用于利用所述训练数据对预设神经网络模型进行训练，当所述预设神经网络模型输出结果的准确率大于阈值时，得到所述语义分割神经网络模型。

可选的，所述训练数据获取单元，具体用于：

可选的，所述图像获取单元，具体用于利用手部识别算法对目标彩色图像进行手部检测，得到包含手部图像的RGB彩色图像；对所述RGB彩色图像进行归一化处理，得到预设分辨率的所述手部候选框RGB彩色图像。

可选的，所述装置还包括：

关键点估计单元，用于对准确的手部深度数据进行关键点估计，得到每个手部关键点的三维坐标。

相对于现有技术，本发明的有益效果如下：

本发明公开的一种手部图像分割方法，在获取手部候选框RGB彩色图像之后，通过语义分割神经网络模型进行处理，得到手部候选框RGB彩色图像的像素分割标签，并利用得到的像素分割标签对手部候选框RGB彩色图像进行语义分割，得到前景手部深度值，避免了背景深度值对手部深度数据的干扰，再利用彩色手部分割区域数据对前景手部深度值进行修正，得到准确的手部深度数据，由于本发明采用语义分割神经网络模型对手部候选框RGB彩色图像进行语义分割，降低了基于单目深度相机的手部关键点估计技术深度图数据质量的依赖性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种手部图像分割方法的流程示意图；

图2为本发明实施例公开的获取语义分割神经网络模型的训练数据的方法的流程示意图；

图3为本发明实施例公开的手部关键点示意图；

图4为本发明实施例公开的合成彩色图像的合成示意图；

图5为本发明实施例公开的一种3D手势关键点估计方法的流程示意图；

图6为本发明实施例公开的一种手部图像分割装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例公开了一种手部图像分割方法，应用于3D手势控制中的3D手势关键点估计，请参阅图1，该手部图像分割方法具体包括以下步骤：

S101：获取手部候选框RGB彩色图像，所述手部候选框RGB彩色图像为经过手部检测后得到的RGB彩色图像；

具体的，利用手部识别算法对目标彩色图像进行手部检测，得到包含手部图像的RGB彩色图像，并对得到的RGB彩色图像进行归一化处理，得到预设分辨率的手部候选框RGB彩色图像。

其中，手部候选框RGB彩色图像的分辨率与下述语义分割神经网络模型的输入数据的分辨率相同。

S102：将所述手部候选框RGB彩色图像输入语义分割神经网络模型中进行处理，得到所述手部候选框RGB彩色图像的像素分割标签；

语义分割神经网络模型是预先训练好的，输入数据为包含手部图像的RGB彩色图像，输出数据为像素分割标签。

像素分割标签中手部候选框RGB彩色图像中手部前景像素的像素值为255，其他部分的像素值为0。

S103：利用得到的像素分割标签对手部候选框RGB彩色图像进行语义分割，得到前景手部深度值和彩色手部分割区域数据；

其中，前景手部深度值为深度图和彩色图中手所在的完整区域的深度值。

彩色手部分割区域数据为深度图和彩色图中除了手所在区域之外的其他所有数据。

S104：利用所述彩色手部分割区域数据对所述前景手部深度值进行修正，得到准确的手部深度数据。

其中，利用彩色手部分割区域数据对前景手部深度值进行修正，具体为判断前景手部轮廓中每个像素的深度值是否存在，若存在则不做任何处理，若不存在，则不存在深度值的像素为待修正像素，依据彩色手部分割区域数据中待修正像素的近邻像素的深度值修正待修正像素的深度值。

具体的修正方法有多种，如将待修正像素的任一近邻像素的深度值作为待修正像素的深度值，或将待修正像素中所有近邻像素的平均深度值作为待修正像素的深度值，或将待修正像素中所有近邻像素的深度值的中位数作为待修正像素的深度值等，在此不做具体限定。

需要说明的是，本实施例公开的手部图像分割方法首先需要训练得到语义分割神经网络模型，具体的，获取语义分割神经网络模型的训练数据，所述训练数据包括多个包含CG手部模型的合成彩色图像及其像素分割标签，再利用训练数据对预设神经网络模型进行训练，当预设神经网络模型输出结果的准确率大于阈值时，得到所述语义分割神经网络模型。

其中，训练数据的选取对语义分割神经网络模型至关重要，请参阅图2，获取语义分割神经网络模型的训练数据的方法包括如下步骤：

S201：通过设置每个手部关键点的自由度参数，生成不同手部姿势的CG手部模型；

请参阅图3，人的手部具有21个手部活动关节，即21个手部关键点，手部关键点的自由度参数表示手部活动关节的活动方向和活动范围，通过设置每个手部关键点的自由度参数，生成不同手部姿势的CG手部模型。

比如调节静态手势“OK”，即将拇指和食指的一级二级和三级子关节相对弯曲或旋转一定角度，达到拇指和食指的指尖接触，而其余手指保持朝内相对弯曲较小角度即可。

S202：分别将不同手部姿势的CG手部模型渲染到不同的彩色场景图像中，得到多个合成彩色图像；

请参阅图4，彩色场景图像为彩色相机采集的真实生活中手经常出现的场景图像，将CG手部模型渲染到彩色场景图像中得到一张具有特定姿势的合成彩色图像。

S203：分别对每个所述合成彩色图像中CG手部模型映射在彩色场景图像中的形状进行打码，得到每个所述合成彩色图像的像素分割标签；

对合成彩色图像中CG手部模型映射在彩色场景图像中的形状进行打码，即为将合成彩色图像中手部前景像素的像素值设置为255，其他部分的像素值设置为0。

S204：对每个所述合成彩色图像及其像素分割标签进行归一化处理，得到具有预设分辨率的语义分割神经网络模型的训练数据。

上述S202处理后得到的合成彩色图像以及S203处理后得到的像素分割标签的分辨率可能不同，为了使训练样本一致，对合成彩色图像及其像素分割标签进行归一化处理，使其分辨率都为预设分辨率。

可见，本实施例公开的一种手部图像分割方法，在获取手部候选框RGB彩色图像之后，通过语义分割神经网络模型进行处理，得到手部候选框RGB彩色图像的像素分割标签，并利用得到的像素分割标签对手部候选框RGB彩色图像进行语义分割，得到前景手部深度值，避免了背景深度值对手部深度数据的干扰，再利用彩色手部分割区域数据对前景手部深度值进行修正，得到准确的手部深度数据。

请参阅图5，本实施例将手部图像分割后得到的去除背景深度的手部深度数据作为关键点估计的输入数据，3D手势关键点估计方法具体包括如下步骤：

S501：获取手部候选框RGB彩色图像，所述手部候选框RGB彩色图像为经过手部检测后得到的RGB彩色图像；

S502：将所述手部候选框RGB彩色图像输入语义分割神经网络模型中进行处理，得到所述手部候选框RGB彩色图像的像素分割标签；

S503：利用得到的像素分割标签对手部候选框RGB彩色图像进行语义分割，得到前景手部深度值和彩色手部分割区域数据；

S504：利用所述彩色手部分割区域数据对所述前景手部深度值进行修正，得到去除背景深度的手部深度数据；

S505：利用准确的手部深度数据进行关键点估计，得到每个手部关键点的三维坐标。

下面是利用手部深度数据进行关键点估计的一种实现方式：

1、依据手部深度数据求出质心坐标(图像坐标u，v)作为掌心坐标，并依据图像采集设备内参转为世界坐标；

2、将手部深度数据参考掌心世界坐标进行归一化，设置立方体包围盒的大小(比如L表示盒子的边长)，相应的坐标标签也进行相应的位置移动和转换；

3、设计卷积神经回归网络，输入归一化后的手部区域深度数据，输出对应关键点坐标的标记数据，进行模型训练；

4、测试过程就是将归一化好的手部区域深度图数据输入3步骤训练好的网络模型中，前传计算得到其手部关键点坐标。

由于采用语义分割神经网络模型对手部候选框RGB彩色图像进行语义分割，降低了基于单目深度相机的手部关键点估计技术深度图数据质量的依赖性。

基于上述实施例公开的一种手部图像分割方法，本实施例对应公开了一种手部图像分割装置，请参阅图6，该装置包括：

图像获取单元601，用于获取手部候选框RGB彩色图像，所述手部候选框RGB彩色图像为经过手部检测后得到的RGB彩色图像；

模型处理单元602，用于将所述手部候选框RGB彩色图像输入语义分割神经网络模型中进行处理，得到所述手部候选框RGB彩色图像的像素分割标签；

语义分割单元603，用于利用得到的像素分割标签对手部候选框RGB彩色图像进行语义分割，得到前景手部深度值和彩色手部分割区域数据；

数据修正单元604，用于利用所述彩色手部分割区域数据对所述前景手部深度值进行修正，得到去除背景深度的手部深度数据。

可选的，所述装置还包括：

可选的，所述训练数据获取单元，具体用于：

可选的，所述图像获取单元601，具体用于利用手部识别算法对目标彩色图像进行手部检测，得到包含手部图像的RGB彩色图像；对所述RGB彩色图像进行归一化处理，得到预设分辨率的所述手部候选框RGB彩色图像。

可选的，所述装置还包括：

本实施例公开的一种手部图像分割装置，在获取手部候选框RGB彩色图像之后，通过语义分割神经网络模型进行处理，得到手部候选框RGB彩色图像的像素分割标签，并利用得到的像素分割标签对手部候选框RGB彩色图像进行语义分割，得到前景手部深度值，避免了背景深度值对手部深度数据的干扰，再利用彩色手部分割区域数据对前景手部深度值进行修正，得到准确的手部深度数据，由于采用语义分割神经网络模型对手部候选框RGB彩色图像进行语义分割，降低了基于单目深度相机的手部关键点估计技术深度图数据质量的依赖性。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种手部图像分割方法，其特征在于，包括：

将所述手部候选框RGB彩色图像输入语义分割神经网络模型中进行处理，得到所述手部候选框RGB彩色图像的像素分割标签；其中，所述像素分割标签中所述手部候选框RGB彩色图像的手部前景像素的像素值为255，其他部分的像素值为0；

利用得到的像素分割标签对手部候选框RGB彩色图像进行语义分割，得到前景手部深度值和彩色手部分割区域数据；所述彩色手部分割区域数据为深度图和彩色图中除了手所在区域之外的其他所有数据；

利用所述彩色手部分割区域数据对所述前景手部深度值进行修正，得到准确的手部深度数据，具体为：判断前景手部轮廓中每个像素的深度值是否存在，若存在则不做任何处理；若不存在，则不存在深度值的像素为待修正像素，依据彩色手部分割区域数据中待修正像素的近邻像素的深度值修正待修正像素的深度值；

获取所述语义分割神经网络模型的训练数据，包括：

通过设置每个手部关键点的自由度参数，生成不同手部姿势的CG手部模型；分别将不同手部姿势的CG手部模型渲染到不同的彩色场景图像中，得到多个合成彩色图像；分别对每个所述合成彩色图像中CG手部模型映射在彩色场景图像中的形状进行打码，得到每个所述合成彩色图像的像素分割标签；对每个所述合成彩色图像及其像素分割标签进行归一化处理，得到具有预设分辨率的所述语义分割神经网络模型的训练数据，所述训练数据包括多个包含CG手部模型的合成彩色图像及其像素分割标签；

2.根据权利要求1所述的方法，其特征在于，所述获取手部候选框RGB彩色图像，包括：

3.根据权利要求1所述的方法，其特征在于，在所述得到准确的手部深度数据之后，所述方法还包括：

4.一种手部图像分割装置，其特征在于，包括：

模型处理单元，用于将所述手部候选框RGB彩色图像输入语义分割神经网络模型中进行处理，得到所述手部候选框RGB彩色图像的像素分割标签；其中，所述像素分割标签中所述手部候选框RGB彩色图像的手部前景像素的像素值为255，其他部分的像素值为0；

语义分割单元，用于利用得到的像素分割标签对手部候选框RGB彩色图像进行语义分割，得到前景手部深度值和彩色手部分割区域数据；所述彩色手部分割区域数据为深度图和彩色图中除了手所在区域之外的其他所有数据；

数据修正单元，用于利用所述彩色手部分割区域数据对所述前景手部深度值进行修正，得到准确的手部深度数据；

模型训练单元，用于利用所述训练数据对预设神经网络模型进行训练，当所述预设神经网络模型输出结果的准确率大于阈值时，得到所述语义分割神经网络模型；

所述训练数据获取单元，具体用于：通过设置每个手部关键点的自由度参数，生成不同手部姿势的CG手部模型；分别将不同手部姿势的CG手部模型渲染到不同的彩色场景图像中，得到多个合成彩色图像；分别对每个所述合成彩色图像中CG手部模型映射在彩色场景图像中的形状进行打码，得到每个所述合成彩色图像的像素分割标签；对每个所述合成彩色图像及其像素分割标签进行归一化处理，得到具有预设分辨率的所述语义分割神经网络模型的训练数据；

所述数据修正单元，用于判断前景手部轮廓中每个像素的深度值是否存在，若存在则不做任何处理；若不存在，则不存在深度值的像素为待修正像素，依据彩色手部分割区域数据中待修正像素的近邻像素的深度值修正待修正像素的深度值。

5.根据权利要求4所述的装置，其特征在于，所述图像获取单元，具体用于利用手部识别算法对目标彩色图像进行手部检测，得到包含手部图像的RGB彩色图像；对所述RGB彩色图像进行归一化处理，得到预设分辨率的所述手部候选框RGB彩色图像。

6.根据权利要求4所述的装置，其特征在于，所述装置还包括：