CN109814711B

CN109814711B - 一种基于肤色提取和卷积神经网络的虚拟交互系统及方法

Info

Publication number: CN109814711B
Application number: CN201910003074.3A
Authority: CN
Inventors: 谢巍; 张伟东; 刘亚文; 李鸿斌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2021-09-21
Anticipated expiration: 2039-01-03
Also published as: CN109814711A

Abstract

本发明公开了一种基于肤色提取和卷积神经网络的虚拟交互系统和方法，所述系统包括投影仪、近红外激光、带近红外滤光片的摄像头、普通摄像头和电脑。所述方法包括步骤：打开近红外激光形成近红外激光面，投影仪将交互界面投向近红外激光面；采集用户做出双手动作时刻的画面和作用物触及近红外激光面时的画面；通过图像处理获取作用物触及点位置信息，利用肤色在Ycbcr颜色空间中的分布特性构建高斯模型从做出双手动作时刻的画面中提取肤色区域；通过基于卷积神经网络的人手分类器在潜在区域中实现对双手位置的确定；通过双手距离与作用物初始速度的线性关系获得作用物的初始速度。本发明提高了定位的准确性和识别精度，提高用户真实感官体验。

Description

一种基于肤色提取和卷积神经网络的虚拟交互系统及方法

技术领域

本发明涉及计算机视觉和图像识别领域，具体涉及一种基于肤色提取和卷积神经网络的虚拟交互系统及方法。

背景技术

由于现代计算机视觉技术和投影显示技术的快速发展，基于视觉投影的交互系统能够营造一种使用户具有真实感官体验的交互模式。该系统利用投影仪，在特定的区域中投影一组计算机影像信息，该信息表达了此刻计算机的输出。当用户进入影像区域并与系统进行互动时，系统使用所设计的算法检测和识别用户的有效动作，作出与该动作模式相对应的响应，并在投射的影像信息中向用户反馈，从而形成由投影系统、视觉系统及图像识别算法组成的一整套视觉投影交互系统，但现有视觉投影交互系统中，无论是检测鲁棒性、抗干扰性，准确性和识别精度都有待提高。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供了一种基于肤色提取和卷积神经网络的虚拟交互系统及方法。

为实现以上目的，本发明采取如下技术方案：

一种基于肤色提取和卷积神经网络的虚拟交互系统，包括投影仪、近红外激光、带近红外滤光片的摄像头、普通摄像头和电脑，所述近红外激光沿投影面安装，上下各两个，用以形成近红外激面；所述普通摄像头与电脑相连，用于捕捉用户做出双手动作时刻的画面；所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且所述与电脑电气相连，用于捕捉用户双手动作的作用物触及近红外激光面时的画面，所述投影仪安装于相对所述投影面的支架上，用以向投影面投影交互画面。

进一步地，所述的近红外激光为一字线型激光管；所述带近红外滤光片的摄像头的近红外滤光片所虑光线波长与所述近红外激光波长相符。

一种采用如所述系统的虚拟交互方法，包括步骤：

打开近红外激光，形成近红外激光面，投影仪将交互界面投向近红外激光面；

普通摄像头采集用户做出双手动作时刻的画面；带近红外滤光片的摄像头采集用户双手动作的作用物触及近红外激光面时的画面；

通过图像处理从作用物触及近红外激光面时的画面中获取作用物触及点位置信息；利用肤色在Ycbcr颜色空间中的分布特性构建高斯模型从所述用户做出双手动作时刻的画面中提取肤色区域，进而获得双手的潜在区域；

通过基于卷积神经网络的人手分类器在潜在区域中实现对双手位置的确定；

通过双手距离与作用物初始速度的线性关系获得作用物的初始速度。

进一步地，所述通过图像处理从作用物触及近红外激光面时的画面中获取作用物触及点位置信息具体包括：

将作用物触及近红外激光面时的画面转换为灰度图像，根据灰度阈值对图像进行二值化处理；

采用腐蚀、膨胀算法对二值化处理后的图像进行降噪处理，获取作用物触及点位置信息。

进一步地，在转换灰度图像时，利用OPENCV库的cvCvtColor函数，在进行二值化时按如下公式进行：

其中y为灰度值，τ为灰度阈值；

所述步骤S32中，所述腐蚀和膨胀算法分别采用OPENCV库中的cvErode函数和cvDilate函数，

在降噪处理后，利用OPENCV库中cvFindContours函数寻找光斑位置，最终得出作用物触及点位置信息。

进一步地，所述利用肤色在Ycbcr颜色空间中的分布特性构建高斯模型从所述用户做出双手动作时刻的画面中提取肤色区域，进而获得双手的潜在区域具体包括：

将画面由RGB颜色转换为Ycbcr颜色，所述RGB颜色转换为Ycbcr的计算公式如下：

其中Y是指亮度分量，C_b指蓝色色度分量，而C_r指红色色度分量；

根据肤色在Ycbcr颜色空间中的分布特性利用高斯模型对肤色区域进行检测提取，其中，Ycbcr颜色空间的高斯模型公式如下：

其中μ_cb、μ_cr为色度分量Cb、Cr的均值，

σ_cb ²、σ_cr ²为色度分量Cb、Cr的方差；

ρ为Cb和Cr的相关系数：

肤色判断公式为：

其中ε为判断肤色的阈值。

进一步地，通过基于卷积神经网络的人手分类器在潜在区域中实现对双手位置的确定时，用大小固定的搜索框按照固定的步长对肤色区域进行搜索，每次将搜索框内的图像传给卷积神经网络人手分类器进行判断，所述卷积神经网络的人手分类器的具体网络结构如下：

采用的卷积神经网络共含有3个卷积层，两个全连接层，一个池化层。

进一步地，进行搜索时，首先按照从左到右、从上到下的方式进行搜索，当搜索框检测到手时，记录此时搜索框的中心点坐标为xr、yr，然后从左到右、从上到下进行搜索，直到搜索框中的图像不是手为止，从而确定手的右边界xmax和下边界ymax。

进一步地，所述双手位置的确定公式为：

进一步地，所述的用户双手动作为拉弓，所述的作用物为箭或弹丸，所述的初始速度为作用物的离弦速度。

相比现有技术，本发明的有益效果包括：

(1)使用卷积神经网络构建人手分类器，相比于传统双手识别算法，大大的提高了识别精度。

(2)使用近红外激光构建探测面以检测击中位置。当作用物(如弓箭或弹丸)接触到近红外激光面时，将产生高亮光斑。装有滤光片的摄像头所获取的画面中物体几乎为高亮光斑，其他的复杂投影画面背景将会被过滤掉，这样可以大大提高定位的准确性。

(3)采用Ycbcr颜色空间检测肤色，减少亮度对检测效果的影响，同时提高了对黑、白、黄种人肤色检测的鲁棒性。

(4)设计了一种同一只手的不同部分的坐标合成方法，该方法有效的提取了双手的位置信息，避免手不同部分对检测结果的干扰。

附图说明

图1是本发明实施例的虚拟交互系统结构示意图。

图2是本发明实施例的虚拟交互方法流程图。

图3是肤色在Ycbcr空间分布图。

图4是肤色在Ycbcr空间另一视角的分布图。

图5是普通摄像头捕捉的用户拉弓时刻的画面。

图6是肤色提取效果图。

图中：1-投影仪；2-带近红外滤光片的摄像头；3-普通摄像头；4-近红外激光；5-投影面；6-箭；7-弓。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

下面以拉弓射箭为例对本发明的虚拟交互系统和方法进行详细的说明。

如图1所述，一种基于肤色提取和卷积神经网络的虚拟交互系统，包括投影仪1、近红外激光4、带近红外滤光片的摄像头2、普通摄像头3和电脑，所述近红外激光4沿投影面5安装，上下各两个共四个，用以形成近红外激面；所述普通摄像头3与电脑相连，用于捕捉用户做出双手拉弓7时刻的画面；所述带近红外滤光片的摄像头2安装于相对所述投影面5的支架上且所述与电脑电气相连，用于捕捉箭6触及近红外激光面时的画面，所述投影仪1安装于相对所述投影面5的支架上，用以向投影面投影交互画面。

所述的近红外激光4为一字线型激光管。所述带近红外滤光片的摄像头2的近红外滤光片所虑光线波长与所述近红外激光4波长相符。

交互场景是使用者使用真实的弓箭射向投影到投影面5的虚拟靶标画面，虚拟交互系统将模拟弓箭的运动轨迹并将其投影出来。

如图2所示，一种基于肤色提取和卷积神经网络的虚拟交互方法，包含如下步骤：

S1、打开近红外激光4，形成近红外激光面，投影仪1将交互界面投向近红外激光面；

S2、普通摄像头3采集用户做出双手拉弓7时刻的画面(见图5)；带近红外滤光片的摄像头采集箭6触及近红外激光面时的画面；

S3、通过图像处理从箭触及近红外激光面时的画面中获取箭触及点位置信息；利用肤色在Ycbcr颜色空间中的分布特性构建高斯模型从所述双手拉弓时刻的画面中提取肤色区域，进而获得双手的潜在区域；

S4、通过基于卷积神经网络的人手分类器在潜在区域中实现对双手位置的确定；

S5、通过双手距离与箭6的离弦速度的线性关系获得箭的离弦速度。

具体地，所述通过图像处理从箭触及近红外激光面时的画面中获取箭触及点位置信息具体包括：

将箭触及近红外激光面时的画面转换为灰度图像，根据灰度阈值对图像进行二值化处理，在转换灰度图像时，利用OPENCV库的cvCvtColor函数，在进行二值化时按如下公式进行：

其中y为灰度值，τ为灰度阈值；

采用腐蚀、膨胀算法对二值化处理后的图像进行降噪处理，获取箭触及点位置信息，所述腐蚀和膨胀算法分别采用OPENCV库中的cvErode函数和cvDilate函数，在降噪处理后，利用OPENCV库中cvFindContours函数寻找光斑位置，最终得出作用物触及点位置信息。

具体地，利用肤色在Ycbcr颜色空间中的分布特性构建高斯模型从所述双手拉弓时刻的画面中提取肤色区域，进而获得双手的潜在区域具体包括：

其中Y是指亮度分量，C_b指蓝色色度分量，而C_r指红色色度分量；RGB的数据通过PIL中的Image进行读取，之后利用numpy库将数据转换为矩阵，之后利用转换公式获得cb，cr值。为了获得肤色的cb，cr分布状况，需要采集大量肤色数据进行统计，相关结果如图3和图4所示；

其中μ_cb、μ_cr为色度分量Cb、Cr的均值，

σ_cb ²、σ_cr ²为色度分量Cb、Cr的方差；

ρ为Cb和Cr的相关系数：

肤色判断公式为：

其中ε为判断肤色的阈值，肤色提取效果如图6所示。

具体地，通过基于卷积神经网络的人手分类器在潜在区域中实现对双手位置的确定时，用大小固定的搜索框按照固定的步长对肤色区域进行搜索，每次将搜索框内的图像传给卷积神经网络人手分类器进行判断，所述卷积神经网络的人手分类器的具体网络结构如下：

采用的卷积神经网络共含有3个卷积层，两个全连接层，一个池化层。该卷积网络由TensorFlow进行实现，用到的函数包括tf.placeholder、tf.Variable、tf.nn.conv2d、tf.nn.relu、tf.nn.max_pool、tf.reshape、tf.matmul、tf.train.AdamOptimizer(lr).minimize(loss)等函数来构建网络并且进行训练。

鉴于很多搜索框中的图像可能是同一只手的不同部分，进行搜索时，首先按照从左到右、从上到下的方式进行搜索，当搜索框检测到手时，记录此时搜索框的中心点坐标为xr、yr，然后从左到右、从上到下进行搜索，直到搜索框中的图像不是手为止，从而确定手的右边界xmax和下边界ymax，最终得到所述双手位置的确定公式为：

尽管参照特定的优选实施例示出并描述了本发明专利，但本领域技术人员应当理解，本说明书中列举的具体实施方案和实施例，只不过是为了理解本发明的技术内容，不是对本发明的限制。在不背离本发明的主旨和范围的情况下，本发明在形式上和细节上可以进行改变，凡本领域的普通技术人员根据上述描述所做的润饰、修改或等同替换，均属于本发明所保护的范围。

Claims

1.一种基于肤色提取和卷积神经网络的虚拟交互方法，包括投影仪、近红外激光、带近红外滤光片的摄像头、普通摄像头和电脑，所述近红外激光沿投影面安装，上下各两个，用以形成红外激光面；所述普通摄像头与电脑相连，用于捕捉用户做出双手动作时刻的画面；所述带近红外滤光片的摄像头安装于相对所述投影面的支架上且与所述电脑电气相连，用于捕捉用户双手动作的作用物触及近红外激光面时的画面，所述投影仪安装于相对所述投影面的支架上，用以向投影面投影交互画面，所述的近红外激光为一字线型激光管；所述带近红外滤光片的摄像头的近红外滤光片所虑光线波长与所述近红外激光波长相符，所述虚拟交互方法，其特征在于，包括步骤：

2.根据权利要求1所述的虚拟交互方法，其特征在于，所述通过图像处理从作用物触及近红外激光面时的画面中获取作用物触及点位置信息具体包括：

3.根据权利要求2所述的虚拟交互方法，其特征在于，在转换灰度图像时，利用OPENCV库的cvCvtColor函数，在进行二值化时按如下公式进行：