CN107610041B

CN107610041B - 基于3d体感摄像头的视频人像抠图方法及系统

Info

Publication number: CN107610041B
Application number: CN201710705293.7A
Authority: CN
Inventors: 周晓军; 杨高峰; 李骊; 盛赞; 李朔
Original assignee: Nanjing Huajie Imi Technology Co ltd
Current assignee: Nanjing Huajie Imi Technology Co ltd
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2020-10-27
Anticipated expiration: 2037-08-16
Also published as: CN107610041A

Abstract

本发明公开了一种基于3D体感摄像头的视频人像抠图方法及系统。方法包括：利用摄像头获取目标视频图像的深度图序列帧和彩色图序列帧，对其进行时间戳标记；并对每一帧的深度图和彩色图进行同步，根据摄像头的预设参数，对同步的深度图帧和彩色图帧进行对齐插值匹配；根据深度图序列帧得到最终轮廓掩膜图；对同步的彩色图帧和最终轮廓掩膜图进行混合、优化和渲染，得到人像抠图图像，将其呈现给用户。能够实时同步的获取目标视频图像的深度图和彩色图，并且对深度图和彩色图进行同步和配准匹配，根据深度图信息和彩色图信息对图像中的前景和背景进行识别，将其实时融合到视频图像中实现人像抠图，有效的提高了实时人像抠图的效率和效果。

Description

基于3D体感摄像头的视频人像抠图方法及系统

技术领域

本发明涉及一种计算机视觉及图像处理方法，特别涉及一种基于3D体感摄像头的视频人像抠图方法和一种视频人像抠图系统。

背景技术

一般的，视频人像(包括头部和整个身体部分)抠图的方法是将视频中的图像帧以较高的精度区分为前景序列，背景序列和透明度序列，从而将视频中的前景人像提取出来。目前多数视频人像抠图算法是将静态图像抠图算法扩展到视频抠图，如贝叶斯抠图算法和迭代视频抠图算法等，抠图算法通常是采用标记关键帧，通过标记传播策略将关键帧的标记传播到其他帧上，再对各帧图像进行人像抠图。显然现有的视频抠图效果和速度直接依赖于所采用的标记传播策略和静态抠图算法的性能。总的来说，现有的视频人像抠图算法存在以下主要的问题：1)由于抠图算法和传播策略本身的缺陷，使得视频中的人像抠图效果不理想。2)由于抠图算法的运行效率较低，导致抠图速度不理想

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一，提出了一种基于3D体感摄像头的视频人像抠图方法和一种视频人像抠图系统。

为了实现上述目的，本发明的第一方面，提供了一种基于3D体感摄像头的视频人像抠图方法，所述方法包括：

利用3D体感摄像头获取目标视频图像的深度图序列帧和彩色图序列帧；

对所述深度图序列帧和彩色图序列帧进行时间戳标记；

获取每一帧的深度图，以及与每一帧所述深度图基于时间戳同步的每一帧的彩色图，根据所述3D体感摄像头的预设参数，对获得的同步的深度图帧和彩色图帧进行对齐插值匹配；

根据所述深度图序列帧确定目标视频图像中的人像的初始轮廓掩膜图，并基于所述初始轮廓掩膜图，提取所述初始轮廓掩膜图中的人像像素，且对其余像素和人像边缘的像素进行预处理，以得到最终轮廓掩膜图；

获取纹理图；

对同步的彩色图帧和所述最终轮廓掩膜图进行混合，得到初始人像抠图图像；

对所述初始人像抠图图像进行优化处理，得到中间人像抠图图像；

基于所述中间人像抠图图像，利用所述纹理图进行渲染，以得到最终人像抠图图像，将所述最终人像抠图图像呈现给用户。

优选地，所述3D体感摄像头包括深度摄像机和彩色摄像机，所述深度摄像机用于获取目标视频图像的深度图序列帧，所述彩色摄像机用于获取目标视频图像的彩色图序列帧。

优选地，所述3D体感摄像头的预设参数包括：

所述深度摄像机和所述彩色摄像机相对位置参数和视场角参数。

优选地，所述深度摄像机和所述彩色摄像机相对位置参数包括：

深度摄像机的内部参数和镜头参数、彩色摄像机的内部参数和镜头参数以及深度摄像机和彩色摄像机的夹角与相对距离中的至少一者。

优选地，所述彩色摄像机的分辨率高于所述深度摄像机的分辨率。

优选地，所述对所述深度图序列帧和彩色图序列帧进行时间戳标记的步骤中：

基于系统时钟对所述深度图序列帧和彩色图序列帧进行时间戳标记。

优选地，所述根据所述3D体感摄像头的预设参数，对获得的同步的深度图帧和彩色图帧进行对齐插值匹配的步骤包括：

根据所述深度摄像机和所述彩色摄像机的相对位置参数，将每一帧深度图信息和同步的每一帧彩色图信息进行对齐匹配和映射；其中，一个像素的深度图信息与一个或者多个像素的彩色图信息对应；

对所述深度图信息进行亚像素补插值处理，对彩色图信息进行边缘优化处理；

优选地，所述对其余像素和人像边缘的像素进行预处理，以得到最终轮廓掩膜图的步骤包括：

将其余像素全都设置成黑色，并对所述人像边缘像素进行平滑处理，以得到所述最终轮廓掩膜图形。

优选地，所述对所述初始人像抠图图像进行优化处理，得到中间人像抠图图像的步骤包括：

对所述初始人像抠图图像进行边缘优化处理和/或腐蚀膨胀处理，以得到所述中间人像抠图图像。

本发明的第二方面，提供一种视频人像抠图系统，所述视频人像抠图系统包括3D体感摄像头，图像处理模块和显示模块，其中，

所述3D体感摄像头用于获取目标视频图像的深度图序列帧和彩色图序列帧；

所述图像处理模块包括标记子模块、匹配子模块、提取子模块、混合子模块、优化子模块和渲染子模块；其中，

所述标记子模块用于对所述深度图序列帧和彩色图序列帧进行时间戳标记；

所述匹配子模块用于获取每一帧的深度图，以及与每一帧所述深度图基于时间戳同步的每一帧的彩色图，根据所述3D体感摄像头的预设参数，对获得的同步的深度图帧和彩色图帧进行对齐插值匹配；

所述提取子模块用于根据所述深度图序列帧确定目标视频图像中的人像的初始轮廓掩膜图，并基于所述初始轮廓掩膜图，提取所述初始轮廓掩膜图中的人像像素，且对其余像素和人像边缘的像素进行预处理，以得到最终轮廓掩膜图；

所述混合子模块用于对同步的彩色图帧和所述最终轮廓掩膜图进行混合，得到初始人像抠图图像；

所述优化子模块用于对所述初始人像抠图图像进行优化处理，得到中间人像抠图图像；

所述渲染子模块用于基于所述中间人像抠图图像，利用纹理图进行渲染，以得到最终人像抠图图像，将所述最终人像抠图图像呈现给用户；

所述显示模块用于获取用户输入的纹理图；以及，

向用户显示所述最终人像抠图图像。

本发明的基于3D体感摄像头的视频人像抠图方法，其能够实时同步的获取目标视频图像的深度图和彩色图，并且对深度图和彩色图进行同步和配准匹配，根据深度图信息和彩色图信息对图像中的前景和背景进行识别，将前景和背景图实时融合到视频图像中实现人像抠图，有效的提高了实时人像抠图的效率和效果。本发明的基于3D体感摄像头的视频人像抠图方法可以作为娱乐，医学，体育，虚拟现实，增强现实，混合现实等具体应用系统的输入。

本发明的视频人像抠图系统，其能够实时同步的获取目标视频图像的深度图和彩色图，并且对深度图和彩色图进行同步和配准匹配，根据深度图信息和彩色图信息对图像中的前景和背景进行识别，将前景和背景图实时融合到视频图像中实现人像抠图，有效的提高了实时人像抠图的效率和效果。本发明的基于3D体感摄像头的视频人像抠图系统可以作为娱乐，医学，体育，虚拟现实，增强现实，混合现实等具体应用系统的输入。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1为本发明第一实施例中基于3D体感摄像头的视频人像抠图方法的流程图；

图2为本发明第二实施例中视频人像抠图系统的结构示意图。

附图标记说明

100：视频人像抠图系统；

110：3D体感摄像头；

111：深度摄像机；

112：彩色摄像机；

120：图像处理模块；

121：标记子模块；

122：匹配子模块；

123：提取子模块；

124：混合子模块；

125：优化子模块；

126：渲染子模块；

130：显示模块。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

参考图1，本发明的第一方面，涉及一种基于3D体感摄像头的视频人像抠图方法S100，所述方法S100包括：

S110、利用3D体感摄像头获取目标视频图像的深度图序列帧和彩色图序列帧。

需要说明的是，对于3D体感摄像头具体的种类并没有作出限定。具体地，例如，该3D体感摄像头可以包括深度摄像机和彩色摄像机，其中，深度摄像机和彩色摄像机可以采用固定相机的组件实现固定。所述深度摄像机用于获取目标视频图像的深度图序列帧，所述彩色摄像机用于获取目标视频图像的彩色图序列帧。当然，该3D体感摄像头还可以是其他类型的摄像头，其只要能够满足获取目标视频图像的深度图序列帧和彩色图序列帧即可。

S120、对所述深度图序列帧和彩色图序列帧进行时间戳标记。

具体地，在本步骤中，其所采用的时间戳的方法可以是基于系统的时钟标记，还可以是基于模组硬件的时钟标记。当然，还可以采用其他类型的时间戳的方法。

S130、获取每一帧的深度图，以及与每一帧所述深度图基于时间戳同步的每一帧的彩色图，根据所述3D体感摄像头的预设参数，对获得的同步的深度图帧和彩色图帧进行对齐插值匹配。

具体地，在本步骤中，可以将步骤S120中的深度图时间戳标记记为T_depth，所述彩色图时间戳标记记为T_color，深度图和彩色图时间戳差的标记记为ΔT，其中ΔT＝T_depth-T_color，根据不同的时间戳记法得到视为同步的时间戳差上限ΔT_max和下限ΔT_min，如ΔT∈[ΔT_min，ΔT_max]，则视为同步的一帧，如ΔT＜ΔT_min，则视为深度图帧滞后，丢弃当前深度图帧，取下一帧深度图，如ΔT＞ΔT_max，则视为彩色图帧滞后，丢弃当前彩色图帧，取下一帧彩色图。

具体地，上述对齐插值匹配可以是基于3D体感摄像头的预设参数，将每一帧的深度图信息和同步的一帧的彩色图信息进行映射，其中，边角等特征点要对齐，深度图帧和彩色图帧进行映射，一个像素的深度图可以对应于一个或多个像素的彩色图，接着对深度图进行亚像素插值处理，亚像素插值可以是本领域内熟悉的插值方法，如快速双线性插值法，双三次样条插值法等方法。

当然，除了上述所列举的同步深度图帧和彩色图帧的方法以外，还可以采取其他的方式，在此并不作限定。

S140、根据所述深度图序列帧确定目标视频图像中的人像的初始轮廓掩膜图，并基于所述初始轮廓掩膜图，提取所述初始轮廓掩膜图中的人像像素，且对其余像素和人像边缘的像素进行预处理，以得到最终轮廓掩膜图。

具体地，可以利用深度图进行人像检测，获取人体的区域轮廓，提取出人体轮廓的像素制作成初始轮廓掩膜图，在基于深度图信息将人体轮廓分离出来时，可以先使用拉普拉斯-高斯算子等方法，对深度图像进行滤波去噪声平滑，采用噪声阈值处理。

S150、获取纹理图。

具体地，在步骤中，可以通过键盘、鼠标、触摸屏等输入设备获取用户所输入的纹理图。

S160、对同步的彩色图帧和所述最终轮廓掩膜图进行混合，得到初始人像抠图图像。

具体地，在步骤中，可以将同步的彩色图帧和所述最终轮廓掩膜图进行Alpha混合，以得到所述初始人像抠图图像。

更具体地，上述Alpha混合可以采用下述混合公式进行混合：

I(R，G，G)＝(Color(R，G，B)*Mask(R，G，B)+Texture(R，G，B)*(255-Mask(R，G，B)))/255。

其中，所述I(R，G，G)为所述初始人像抠图图像，所述Color(R，G，B)为同步的彩色图帧，所述Mask(R，G，B)为所述最终轮廓掩膜图，所述Texture(R，G，B)为所述纹理图。

当然，除了上述的Alpha混合以外，还可以采用其他的混合方式将同步的彩色图帧和所述最终轮廓掩膜图进行混合，以得到初始人像抠图图像，在此并不作限定。

S170、对所述初始人像抠图图像进行优化处理，得到中间人像抠图图像。

具体地，在本步骤中，可以检测所述初始人像抠图图像，当所述初始人像抠图图像出现明显的噪点时，可以使用OpenCV中的<cvErode>函数，定义合适的结构元素对源图像进行腐蚀，去掉多余的噪声点以后，紧接着用<cvDilate>函数对得到的结果图像进行膨胀，以此去除大多数的噪声点，得到优化后的中间人像抠图图像。

S180、基于所述中间人像抠图图像，利用所述纹理图进行渲染，以得到最终人像抠图图像，将所述最终人像抠图图像呈现给用户。

具体地，在本步骤中，首先，使用GPU通用计算并行加速有如下一些方案：CUDA、OpenCL、OpenGL(ES)，CUDA只适用到NVIDIA的GPU，对于OpenCL，虽然有不少移动GPU已经支持，比如Arm的mali系列(T628之后)，且有相应的支持库。但是，一方面由于移动设备在系统层面上没有支持，没有相应的系统API，兼容性还是比较差，另一方面，OpenCL操作完成后的内存传到OpenGL还是需要同步一下，会影响效率。最后就只剩下OpenGL(ES)，用Computeshader实现。

其次、使用Compute Shader定义相应的Shader程式，程式结构如下：

其中，SSBO为一种vbo(GL_SHADER_STORAGE_BUFFER)，用于存储自定义类型的数据，主要就是对彩色图帧和最终轮廓掩膜图帧的混合参数等，Image为一个2D Array纹理。

本实施例的基于3D体感摄像头的视频人像抠图方法，其能够实时同步的获取目标视频图像的深度图和彩色图，并且对深度图和彩色图进行同步和配准匹配，根据深度图信息和彩色图信息对图像中的前景和背景进行识别，将前景和背景图实时融合到视频图像中实现人像抠图，有效的提高了实时人像抠图的效率和效果。本实施例的基于3D体感摄像头的视频人像抠图方法可以作为娱乐，医学，体育，虚拟现实，增强现实，混合现实等具体应用系统的输入。

优选地，所述3D体感摄像头的预设参数包括：

具体地，所述深度摄像机和所述彩色摄像机相对位置参数包括：

上述深度摄像机和所述彩色摄像机相对位置参数可以通过摄像机标定获得。

优选地，上述步骤S120中，采用基于系统时钟对所述深度图序列帧和彩色图序列帧进行时间戳标记。

优选地，所述步骤S130包括：

对所述深度图信息进行亚像素补插值处理，对彩色图信息进行边缘优化处理。

具体地，对齐匹配的方法可以参考前文相关记载，在此不作赘述。

优选地，步骤S140包括：

优选地，步骤S170包括：

本发明的基于3D体感摄像头的视频人像抠图方法，能够用于各种视频人像抠图场合下的精准快速抠图，能够快速的将人像从背景中提取出来。其中，基于深度图的人像轮廓提取功能能够精确的提取出人像轮廓，从而保证了整个视频中人像抠图的质量。特别在基于时间戳的同步抠图功能，其能够实现人像移动时没有拖影，从而进一步提高了人像抠图的质量。另外，采用OpenGL(移动平台是OpenGL ES)和Compute Shader技术，依靠GPU图形处理器实现通用并行计算来加速该方法的执行，从而满足特别是在低性能的移动设备上的实时性要求。

本发明的第二方面，如图2所示，提供一种视频人像抠图系统100，所述视频人像抠图系统100包括3D体感摄像头110，图像处理模块120和显示模块130，其中，

所述3D体感摄像头110用于获取目标视频图像的深度图序列帧和彩色图序列帧。其中，所述3D体感摄像头110可以包括深度摄像机111和彩色摄像机112，其中，所述深度摄像机111用于获取深度图序列帧，所述彩色摄像机112用于获取彩色图序列帧。

所述图像处理模块120包括标记子模块121、匹配子模块122、提取子模块123、混合子模块124、优化子模块125和渲染子模块126；其中，

所述标记子模块121用于对所述深度图序列帧和彩色图序列帧进行时间戳标记；

所述匹配子模块122用于获取每一帧的深度图，以及与每一帧所述深度图基于时间戳同步的每一帧的彩色图，根据所述3D体感摄像头的预设参数，对获得的同步的深度图帧和彩色图帧进行对齐插值匹配；

所述提取子模块123用于根据所述深度图序列帧确定目标视频图像中的人像的初始轮廓掩膜图，并基于所述初始轮廓掩膜图，提取所述初始轮廓掩膜图中的人像像素，且对其余像素和人像边缘的像素进行预处理，以得到最终轮廓掩膜图；

所述混合子模块124用于对同步的彩色图帧和所述最终轮廓掩膜图进行混合，得到初始人像抠图图像；

所述优化子模块125用于对所述初始人像抠图图像进行优化处理，得到中间人像抠图图像；

所述渲染子模块126用于基于所述中间人像抠图图像，利用纹理图进行渲染，以得到最终人像抠图图像，将所述最终人像抠图图像呈现给用户；

所述显示模块130用于获取用户输入的纹理图；以及，

向用户显示所述最终人像抠图图像。

需要说明的是，对于显示模块130的具体结构并没有作出限定，例如，该显示模块130可以是液晶显示屏、OLED显示屏、具有触控功能的液晶显示屏或具有触控功能的OLED显示屏等。

本实施例的视频人像抠图系统，其能够实时同步的获取目标视频图像的深度图和彩色图，并且对深度图和彩色图进行同步和配准匹配，根据深度图信息和彩色图信息对图像中的前景和背景进行识别，将前景和背景图实时融合到视频图像中实现人像抠图，有效的提高了实时人像抠图的效率和效果。本实施例的视频人像抠图系统可以作为娱乐，医学，体育，虚拟现实，增强现实，混合现实等具体应用系统的输入。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于3D体感摄像头的视频人像抠图方法，其特征在于，所述方法包括：

对所述深度图序列帧和彩色图序列帧进行时间戳标记；

获取纹理图；

2.根据权利要求1所述的视频人像抠图方法，其特征在于，所述3D体感摄像头包括深度摄像机和彩色摄像机，所述深度摄像机用于获取目标视频图像的深度图序列帧，所述彩色摄像机用于获取目标视频图像的彩色图序列帧。

3.根据权利要求2所述的视频人像抠图方法，其特征在于，所述3D体感摄像头的预设参数包括：

4.根据权利要求3所述的视频人像抠图方法，其特征在于，所述深度摄像机和所述彩色摄像机相对位置参数包括：

5.根据权利要求2所述的视频人像抠图方法，其特征在于，所述彩色摄像机的分辨率高于所述深度摄像机的分辨率。

6.根据权利要求1至5任意一项所述的视频人像抠图方法，其特征在于，所述对所述深度图序列帧和彩色图序列帧进行时间戳标记的步骤中：

7.根据权利要求2至5任意一项所述的视频人像抠图方法，其特征在于，所述根据所述3D体感摄像头的预设参数，对获得的同步的深度图帧和彩色图帧进行对齐插值匹配的步骤包括：

8.根据权利要求1至5任意一项所述的视频人像抠图方法，其特征在于，所述对其余像素和人像边缘的像素进行预处理，以得到最终轮廓掩膜图的步骤包括：

9.根据权利要求1至5任意一项所述的视频人像抠图方法，其特征在于，所述对所述初始人像抠图图像进行优化处理，得到中间人像抠图图像的步骤包括：

10.一种视频人像抠图系统，其特征在于，所述视频人像抠图系统包括3D体感摄像头，图像处理模块和显示模块，其中，

所述显示模块用于获取用户输入的纹理图；以及，向用户显示所述最终人像抠图图像。