CN103226708B

CN103226708B - 一种基于Kinect的多模型融合视频人手分割方法

Info

Publication number: CN103226708B
Application number: CN201310118064.7A
Authority: CN
Inventors: 金连文; 叶植超; 张鑫
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2013-04-07
Filing date: 2013-04-07
Publication date: 2016-06-29
Anticipated expiration: 2033-04-07
Also published as: CN103226708A

Abstract

本发明提供了一种基于Kinect的多模型融合视频人手分割方法，包括如下步骤：（1）捕捉视频信息；（2）分别对视频中的图像进行分割得到深度模型、肤色模型和背景模型的分割结果，分割结果的表现形式为二值图；（3）计算三个分割结果的两两重叠率，作为衡量它们各自分割效果好坏的特征，把三个重叠率输入到神经网络；（4）神经网络输出三个系数（即置信系数），置信系数表示出三个模型各自的可靠性，三个分割结果经由置信系数进行加权；（5）对加权后的三个模型分割结果进行线性叠加；（6）叠加的结果经过阈值函数输出最终的二值图，最后分割得到的视频人手区域；（7）更新背景模型。具有成本低和灵活性好等优点。

Description

一种基于Kinect的多模型融合视频人手分割方法

技术领域

本发明涉及一种计算机图像处理及模式识别技术，特别涉及一种基于Kinect的多模型融合视频人手分割方法。

背景技术

视频人手分割是计算机视觉和人工智能的一个重要领域，它作为一系列人机交互应用如手势远程操控，虚拟书写绘画，手语识别等等的一个基础性步骤，对后续步骤有着重要的影响。传统的视频人手分割方法主要可以分为两大领域：基于2维视觉的分割方法和基于3维人手建模的分割方法，前期的研究者在2维视觉方法的尝试上都存在着各自的局限性。当中包括广泛使用的肤色模型，但是它容易受光线变化的影响，同时无法解决人手与类肤色区域重叠的情况。另一方面基于运动信息的帧差前景检测技术也被使用，但是它们的基本假设是手总处于运动的状态，这不符合一般的应用场景，对于3维人手建模的分割方法，尽管能够取得不错的结果，但是它依赖于高质量的设备，如数据手套，高精度TOF相机，这些设备造价高昂，因此制约着它们成为一种真正实用性的解决方案。

微软的Kinect传感器问世以来，研究者希望凭借Kinect这个设备提供的彩色图还有深度图信息综合2维方法和3维方法的优点，寻求一种性能优越而又实用的方法。但是Kinect提供的深度信息存在噪声、边缘不准确等缺陷。因此单纯使用深度信息往往得不到很好的分割效果，也有研究者结合肤色模型和深度模型来建立一个鲁棒性更佳的分割模型，但是Kinect由于自身成像原理，这两个信息是不同步的，因此彩色图和深度图有着一定时延，如何配准和弥补不重合部分成为新的难题。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于Kinect的多模型融合视频人手分割方法，该方法对光线变化、人手与类肤色区域重叠这些传统的基于2维视觉方法面临的难题有鲁棒性，同时有效解决了Kinect自身彩色图和深度图不同步的问题。

本发明的目的通过下述技术方案实现：一种基于Kinect的多模型融合视频人手分割方法，包括如下步骤：

（1）捕捉视频信息；包括彩色图像，还有深度图像

（2）使用深度模型、肤色模型和背景模型分别对视频中的每一帧图像进行分割，得到深度模型分割结果、肤色模型分割结果和背景模型分割结果，所述深度模型分割结果、肤色模型分割结果和背景模型分割结果均为二值图；

（3）计算三个模型分割结果的两两重叠率（共三个）作为衡量它们各自分割效果好坏的特征（重叠率越高意味着分割的效果越佳），这三个重叠率被输入到神经网络；

（4）神经网络输出三个系数，称为置信系数，置信系数表征深度模型、肤色模型和背景模型各自的可靠性，深度模型、肤色模型和背景模型的分割结果经由这三个置信系数进行加权；

（5）对加权后的深度模型分割结果、肤色模型分割结果和背景模型分割结果进行线性叠加；

（6）叠加后的结果经过阈值滤波输出二值图，得到视频人手区域；

（7）利用上一步得到的非手部的背景区域来更新背景模型。

所述步骤（1）中，所述视频信息包括彩色图像和深度图像，同时利用Kinect自身提供的标示当前成像位置里面哪些像素属于用户这一功能，将用户从背景中分离出来。

所述步骤（2）中，对所述深度模型的分割采用自适应阈值分割方法，所述自适应阈值分割方法的基本假设为人手位于人体的最前，当中利用到Kinect提供的16比特的深度图d(x,y)和8比特的用户图u(x,y),其中(x,y)为图像某一坐标点，1≤x≤w和1≤y≤h，w和h是图的宽和高，所述自适应阈值分割方法包括如下步骤：

a、预处理；将深度图里面“不可测”区域（其深度值为0，即d(x,y)=0）或者对应用户图的非用户区域(即u(x,y)=0)转至16位深度图可标志的最大值（2¹⁶-1=65535），即：

d(x,y)＝65535如果d(x,y)＝0或d(x,y)＝0；

b、在经过预处理的深度图上，寻找深度的最小值d_min，并将其设为人体的最前深度，即手的最前端；

c、对预处理后的深度图进行阈值分割，所述分割阈值随着时间变化，设定第n帧的手部深度阈值（即手最前端至手腕的一个距离范围）为τ_d(n),那么深度模型分割得到一个二值图D,其中值为1的像素被深度模型判定为手：

所述步骤（2）中，对所述深度模型的分割采用自适应阈值分割方法，所述自适应阈值分割方法包括如下步骤：

①定义深度模型的分割面积为其中D(x,y)即深度模型分割的结果。假设第n帧的分割面积为R(n)，对于第n+1帧，依然使用τ_d(n)做阈值分割，得到临时的分割面积R(n+1)′；

②更新分割阈值：

τ_{d} (n + 1) = τ_{d} (n) + (\frac{R (n)}{{R (n + 1)}^{'}} - 1) * ω,

其中ω是一个增长因子，为正数，τ_d的更新变动限制在[τ_min,τ_max]内，这个范围是一个实验的统计经验值，代表了在手的不同姿态下有可能出现的最小深度距离和最大深度距离；

③使用τ_d(n+1)对第n+1帧重新进行阈值分割，得到更正后的二值分割结果D(n+1)和二值分割面积R(n+1)。

所述步骤（2）中，对肤色模型的分割采用对肤色和非肤色分别进行单高斯建模。另外，还采用对肤色分区建模以及生成马氏距离查找表供肤色检测的方法。这种建模方法平衡考虑了有效性、储存空间还有计算代价。该方法采用YCbCr色彩空间，肤色建模时Y分量被分区为：亮区（170≤Y≤255）、正常区（85≤Y≤169）和暗区（0≤Y≤84），对于图像里面每一个输入像素：I(x,y)=(Cb(x,y),Cr(x,y))，其中Cb(x,y)和Cr(x,y)是该像素的Cb通道和Cr通道。肤色模型分割是通过计算肤色模型的马氏距离(即)和非肤色模型的马氏距离(即dis_ns)之差是否小于指定阈值。肤色模型分割得到一个二值图S,其中值为1的像素被肤色模型判定为手：

{dis}_{s}^{i} = {(I (x, y) - m_{s}^{i})}^{T} {C_{s}^{i}}^{- 1} (I (x, y) - m_{s}^{i}),

dis_ns＝(I(x,y)-m_ns)^TC_ns ^-1(I(x,y)-m_ns)，

如果则S(x,y)=1，否则，S(x,y)＝0；

其中，i∈{1,2,3}是分区肤色模型的序号，取决于待检测像素的Y分量（即亮度分量），和是第i个肤色分区模型的均值和协方差矩阵,m_ns和C_ns是非肤色模型的均值和协方差矩阵，是对应于第i个分区的阈值。当肤色分区模型和非肤色模型建模后，会生成马氏距离查找表。所述马氏距离查找表包括3个肤色分区模型的马氏距离查找表和1个非肤色模型的马氏距离查找表。在实际使用肤色模型检测人手时候，可通过直接查表法得到结果而无需重复计算马氏距离，从而达到节省计算量的目的。

所述步骤（2）中，采用了背景模型，它的原理是通过对一个基本稳定的背景进行统计建模，然后检测当中的运动物体作为前景，在我们的系统当中，人手便是作为运动前景而需要被检测出来。该背景模型分割采用了codebook模型，所述codebook模型对背景的分布变化按照码本的形式进行记录统计，它对视图里面每一个像素位置建立一个码本，码本当中包含多个码字来描述背景可能的变化情况。如果某个位置的像素值无法在其码本里面找到相对应的码字，则可以被判定为前景。背景模型分割得到一个二值图F，值为1的像素即被背景模型判定为手：

codebook背景模型会定时更新以保持与复杂变化的背景同步，还有定时清理陈旧信息以减少冗余和增快检阅速度。

所述步骤（3）中，所述两两重叠率是指计算两两模型分割结果（二值图）的重叠率。包括三个，分别是OLR_{s_d}，OLR_{s_f}，和OLR_{f_d}。它的物理意义是对二值图两两之间做与运算，并将其中一个二值图视作参考标准图，计算与运算后得到的二值图与参考标准图的重叠比例。这个重叠比例指的是与运算后的二值图里面像素值为1的像素个数与标准图里面像素值为1的像素个数的比值，公式如下：

以第一个公式为例，对于图片里面每一个位置（x,y）的像素，S(x,y)∧D(x,y)是对肤色模型分割结果和深度模型分割结果的像素值做与运算，是指对运算后得到的二值图统计其值为1的像素点个数。是统计深度模型分割结果的值为1的像素点个数，然后把前后得到的个数的比值赋给OLD_{s_d}。

所述步骤（4）中，采用神经网络模型来评估和输出深度模型的置信系数α、肤色模型的置信系数β和背景模型的置信系数γ，将三个模型对最终分割结果的“贡献度”根据各自特殊情况做了自适应调整。

所述步骤（4）中，所述的α、β、γ均被量化为三个值：α∈{1/3,1/2,2/3}、β∈{1/3,1/2,2/3}和γ∈{1/3,1/2,2/3}。

所述步骤（7）中，所述对深度模型分割结果、肤色模型分割结果和背景模型分割结果进行融合是将分割视作一种动态的多专家票决系统，所述动态的多专家票决系统指最后的分割决定于深度模型、肤色模型和背景模型的一种动态综合，对所述α、β、γ加权，再叠加并经由阈值滤波得到最终的分割结果：

当中二值图H便是三模型融合的最终分割结果，值为1的像素被判定为手。

所述步骤（7）中，将对深度模型分割结果、肤色模型分割结果和背景模型分割结果进行融合所决定的非手部区域用来更新背景模型，所述背景模型学习更新后的非手部区域，以适应快速变化的复杂背景。

本发明可运用到如下应用领域：

1、体感游戏中用户的手势控制与角色互动。

2、非接触式手势操控浏览器。

3、虚拟键盘、空中绘画和书写。

除上述的领域，还可以运用到其他非接触式人手操控交互场合。

本发明相对于现有技术具有如下的优点及效果：

1、对传统基于视觉的分割方法面临的技术难题如光线变化、人手与类肤色区域重叠等有鲁棒性。

2、解决了Kinect自身的彩色图、深度图两个信息不同步、不匹配问题。

3、使用了Kinect这个传感器作为三维信息的获取，无需高昂的经费，是一种具有实用性的解决方案，成本低，实用性强。

4、采用了一个神经网络作为评价系统，能够自动输出“置信系数”作为评价每个模型的可信度和衡量每个模型对最终分割各自的“贡献度”。

5、分割的决策是一个动态的多专家票决系统，最终分割结果是三个模型的有机融合，灵活性好。

附图说明

图1为本发明的系统结构框图。

图2为三模型融合使用的神经网络结构示意图，其中“1”为输入层，“2”为隐藏层，“3”为输出层。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，为本发明的系统结构框图，通过Kinect获取用户视频后，使用深度、肤色还有背景模型分别分割，计算三模型的分割结果的两两重叠率，并且输入到一个神经网络的评价系统。神经网络输出三模型各自的“置信系数”，各模型的分割结果经由置信系数加权然后进行线性累加，最后经由一个阈值函数得到最后的分割结果，在分割结果上提取非人手区域对背景模型定时更新。

神经网络评价系统的结构如图2所示，其中输入层1接受三个模型分割结果的两两重叠率作为输入，即OLR_{s_d}，OLR_{s_f}，和OLR_{f_d}。隐藏层2包含20个神经元，输出层3输出为三模型各自的置信系数，即α，β和γ。本实施例具体通过以下步骤实现：

1、Kinect获取视频；

本发明的第一步是获取用户的手写视频，系统采用了微软的Kinect作为视频采集的传感器，它提供了帧率为30fps的大小为640*480的彩色图信息和深度图信息，可以满足一个实时的系统需求，深度信息的引入可以更好地辅助人手分割，同时，Kinect向外提供API调用,其中包括标示当前成像位置里面哪些像素属于用户这一功能，这帮助将用户由复杂背景中分离出来；

2、深度模型分割；

采用的是一种自适应阈值分割的方法，其基本假设为人手应该位于人体的最前，当中利用到Kinect提供的16比特的深度图d(x,y)和8比特的用户图u(x,y),其中(x,y)为图像某一坐标点，1≤x≤w和1≤y≤h，w和h是图的宽和高，分割按如下步骤：

d(x,y)＝65535如果d(x,y)＝0或u(x,y)＝0；

c、对预处理后的深度图进行阈值分割，所述分割阈值随着时间变化，设定第n帧的手部深度阈值（即手最前端至手腕的一个距离范围）为τ_d(n),那么深度模型分割得到一个二值图D,其中值为1的像素被判定为手：

如果d(x,y,n)≤d_min(n)+τ_d(n)，则D(x,y,n)=1，否则，D(x,y,n)=0。。

考虑到人手的物理模型，视频里面用户的手处于不同的姿态下，应该伴随着不同的深度阈值。定义深度模型的分割面积为其中D(x,y)即深度模型分割的结果。经由实验和观察，可得出的规律和结论是，上述的分割面积R越大，则相应的分割阈值τ_d应该越小，深度模型分割采用的是一种自适应变化的策略。深度阈值自适应变化确定方法具体步骤如下：

i.假设第n帧的分割面积为R(n)，对于第n+1帧，依然使用τ_d(n)做阈值分割得到一个临时的分割面积R(n+1)′；

ii.更新分割阈值：

τ_{d} (n + 1) = τ_{d} (n) + (\frac{R (n)}{{R (n + 1)}^{'}} - 1) * ω,

其中ω是一个增长因子，为正数。τ_d的更新变动限制在[τ_min,τ_max]内，这个范围是一个实验的统计经验值，代表了在手的不同姿态下有可能出现的最小深度距离和最大深度距离。

iii.使用这个τ_d(n+1)对第n+1帧重新进行阈值分割得到更正后的二值分割结果D(n+1)和其面积R(n+1)；

3、肤色模型分割；

肤色模型分割采用了一种对肤色和非肤色分别进行单高斯建模。另外，还采用对肤色分区建模以及生成马氏距离查找表供肤色检测的方法。这种建模方法平衡考虑了有效性、储存空间还有计算代价。具体地，采用了YCbCr色彩空间。肤色建模时Y分量被分区为：亮区（170≤Y≤255）、正常区（85≤Y≤169）和暗区（0≤Y≤84）。对于图像里面每一个输入像素：I(x,y)=(Cb(x,y),Cr(x,y)),其中Cb(x,y)和Cr(x,y)是该像素的Cb通道和Cr通道。肤色模型分割是通过计算肤色模型的马氏距离(即)和非肤色模型的马氏距离(即dis_ns)之差是否小于指定阈值。肤色模型分割得到一个二值图S,其中值为1的像素被肤色模型判定为手：

{dis}_{s}^{i} = {(I (x, y) - m_{s}^{i})}^{T} {C_{s}^{i}}^{- 1} (I (x, y) - m_{s}^{i}),

dis_ns＝(I(x，y)-m_ns)^TC_ns ^-1(I(x，y)-m_ns)，

其中，i∈(l，2，3}是分区肤色模型的序号，取决于待检测像素的Y分量(即亮度分量）。是输入像素在第i个肤色类的马氏距离，dis_ns是输入像素在非肤色类的马氏距离。和是第i个肤色分区模型的均值和协方差矩阵,m_ns和C_ns是非肤色模型的均值和协方差矩阵。是对应于第i个分区的阈值。一旦肤色分区模型和非肤色模型建立，会生成马氏距离查找表。所述马氏距离查找表包括3个肤色分区模型的马氏距离查找表和1个非肤色模型的马氏距离查找表。在实际使用肤色模型检测人手时候，可通过直接查表法得到结果而无需重复计算马氏距离，从而达到节省计算量的目的。

4、背景模型分割；

背景模型的原理是通过对一个基本稳定的背景进行统计建模，然后检测当中的运动物体作为前景，在我们的系统当中，人手便是作为运动前景而需要被检测出来。这里的背景模型使用了codebook模型，它具有快速有效的前景检测功能。背景模型的初始化利用视频的前15帧采用深度模型和肤色模型分割后通过“与”运算合并的结果，将这得到的非手部区域投入到codebook模型做学习更新以初始化得到一个背景的统计结果。所述codebook模型对背景的分布变化按照码本的形式进行记录统计，它对视图里面每一个像素位置建立一个码本，码本当中包含多个码字来描述背景可能的变化情况。在前景检测时，如果某个位置的像素值无法在其码本里面找到相对应的码字，则可以被判定为前景。背景模型分割得到一个二值图F，值为1的像素即被背景模型判定为手：：

另外，codebook背景模型会定时更新以保持与复杂变化的背景同步，和定时清理陈旧信息以减少冗余和增快检阅速度；

5、计算三模型分割结果的两两重叠率；

三个模型之间两两重叠率特征定义为计算两两模型分割结果（二值图）的重叠率，包括三个，分别是OLR_{s_d}，OLR_{s_f}，和OLR_{f_d}。它的物理意义是对二值图两两之间做与运算，并将其中一个二值图视作参考标准图，计算与运算后得到的二值图与参考标准图的重叠比例。这个重叠比例指的是与运算后的二值图里面像素值为1的像素个数与标准图里面像素值为1的像素个数的比值，公式如下：

这三个值的意义在于，值越大意味着分割的结果与其他模型越接近，也就越可信，应该给该模型赋予更加高的“置信系数”；

6、神经网络输出置信系数，各模型分割结果被加权；

神经网络模型来评估和输出三个模型各自的“置信系数”：α、β、γ，这将三个模型对最终分割结果的“贡献度”根据各自特殊情况做了自适应调整。这里三个模型各自的“置信系数”在物理意义上取值范围应该是[0，1]；多模型融合做了两个基本的假设：首先所有模型都对分割结果有着贡献，也即模型的“置信系数”不应该为0；其次，各个模型都不会是绝对的可信，所以它们的“置信系数”不能为1，也即只有在两个模型以上都将某个像素检测为“手”的情况下，它才最终可被视为手的像素。这里α、β、γ被量化为三个值：α,β,γ∈{1/3,1/2,2/3}。这样的设定覆盖了上述两个假设的所有组合情况。在神经网络的训练期间，使用3659帧视频，从27（3*3*3）种模式中采用人工判读挑选这三个系数的最优取值并且投入训练。训练阶段，输出层的9个神经元采用3个为一组的标示方法来标志具体选值是1/3、1/2和2/3当中的哪一个。如，α通过标示为“100”、“010”或者“001”来表示1/3、1/2或者2/3。激活函数是sigmoid函数，使用弹性反馈（RPROP）神经网络模型。使用神经网络评估的时候，对于不同的输入（即输入的三个重叠率数取不同值），神经网络能够快速输出9个值（3个为一组）表示各个模型“置信系数”的选取（值最大的神经元其位置对应的置信系数）。原来的三模型分割结果（0、1二值结果）经由各自的“置信系数”进行加权；

7、将加权后的三个模型结果叠加并且经过阈值函数输出

模型融合将分割视作一种“多专家票决系统”，一般的票决系统是采用投票“是”（分割的二值结果相应像素上的值为1）或者“否”（值为0），这里使用的是一种有机的融合方法。即分割决定于三模型结果的一种动态综合。模型在用各自的“置信系数”加权动态调整各模型对最后结果的“贡献度”后，通过叠加并且经由一个阈值函数得到最终的分割结果：

8、更新背景模型；

将三模型融合分割结果决定的非手部区域用来更新背景模型，背景模型有针对性地学习更新所有非手部区域，以适应快速变化的复杂背景。同时，背景模型定时清理陈旧码字信息，以减轻对内存的压力和提高前景检测时候的码本检阅速度。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于Kinect的多模型融合视频人手分割方法，其特征在于，包括如下步骤：

(1)捕捉视频信息；

(2)使用深度模型、肤色模型和背景模型分别对视频中的每一帧图像进行分割，得到深度模型分割结果、肤色模型分割结果和背景模型分割结果，所述深度模型分割结果、肤色模型分割结果和背景模型分割结果均为二值图；

(3)计算深度模型的分割结果、肤色模型的分割结果和背景模型的分割结果的两两重叠率，把所述的三个重叠率输入到神经网络；

(4)神经网络输出置信系数，所述置信系数表征深度模型的可靠性、肤色模型的可靠性和背景模型的可靠性，所述深度模型的分割结果、肤色模型的分割结果和背景模型的分割结果经由置信系数进行加权；

(5)对加权后的深度模型分割结果、肤色模型分割结果和背景模型分割结果进行线性叠加；

(6)叠加后的结果经过阈值函数输出二值图，得到视频人手区域；

(7)利用步骤(6)得到的非手部区域更新背景模型。

2.根据权利要求1所述的多模型融合视频人手分割方法，其特征在于，步骤(1)中，所述视频信息包括彩色图像和深度图像，并且Kinect提供用户图，将用户从背景中分离出来。

3.根据权利要求1所述的多模型融合视频人手分割方法，其特征在于，步骤(2)中，对所述深度模型的分割采用自适应阈值分割方法，所述自适应阈值分割方法假设人手位于人体的最前，所述自适应阈值分割方法包括如下步骤：

a、预处理；将深度图里面不可测区域转至16位深度图可标志的最大值65535；

b、在经过预处理的深度图上，寻找深度的最小值d_min，并将深度的最小值d_min设为手的最前端；

c、对预处理后的深度图进行阈值分割，设定第n帧的手部深度阈值为τ_d(n),对于图像里面每一个点p＝(x,y),1≤x≤w和1≤y≤h，w和h是图的宽和高；分割得到一个深度模型的二值图D,其中值为1的像素被深度模型判定为手：

D (x, y, n) = \{\begin{matrix} 1 \\ 0 \end{matrix},

如果d(x,y,n)≤d_min(n)+τd(n)，则D(x,y,n)＝1，否则，D(x,y,n)＝0。

4.根据权利要求1所述的多模型融合视频人手分割方法，其特征在于，步骤(2)中，对所述深度模型的分割采用自适应阈值分割方法，所述自适应阈值分割方法包括如下步骤：

Ⅰ、定义深度模型的分割面积为：

R = Σ_{x = 1}^{w} Σ_{y = 1}^{h} D (x, y),

其中D(x,y)即深度模型分割的结果，假设第n帧的分割面积为R(n)，对于第n+1帧，依然使用τ_d(n)做阈值分割，得到临时的分割面积R(n+1)′；

Ⅱ、更新分割阈值：

τ_{d} (n + 1) = τ_{d} (n) + (\frac{R (n)}{R {(n + 1)}^{'}} - 1) * ω,

其中ω是一个增长因子，为正数，τ_d的更新变动限制在[τ_min,τ_max]内，其中，τ_min代表了在手的不同姿态下有可能出现的最小深度距离，τ_max代表了在手的不同姿态下有可能出现的最大深度距离；

Ⅲ、使用τ_d(n+1)对第n+1帧重新进行阈值分割，得到更正后的二值分割结果D(n+1)和二值分割面积R(n+1)。

5.根据权利要求1所述的多模型融合视频人手分割方法，其特征在于，步骤(2)中，对肤色模型的分割采用对肤色和非肤色分别进行单高斯建模的方法，另外，还采用对肤色分区建模以及生成马氏距离查找表供肤色检测的方法，所述对肤色分区建模以及生成马氏距离查找表供肤色检测的方法采用YCbCr色彩空间，肤色建模时Y分量被分区为：亮区、正常区和暗区，对于图像里面每一个输入像素：

I(x,y)＝(Cb(x,y),Cr(x,y))，

其中Cb(x,y)和Cr(x,y)是该像素的Cb通道和Cr通道；

肤色模型分割是通过计算肤色模型的马氏距离)和非肤色模型的马氏距离之差是否小于指定阈值，所述肤色模型的马氏距离用表示，所述非肤色模型的马氏距离用dis_ns表示，肤色模型分割得到一个二值图S，其中值为1的像素被肤色模型判定为手：

S (x, y) = \{\begin{matrix} 1 \\ 0 \end{matrix},

{dis}_{s}^{i} = {(I (x, y) - m_{s}^{i})}^{T} C_{s}^{i^{- 1}} (I (x, y) - m_{s}^{i}),

如果则S(x,y)＝1，否则，S(c,y)＝0；

其中，i∈{1,2,3}是分区肤色模型的序号，取决于待检测像素的Y分量，即亮度分量，和是第i个肤色分区模型的均值和协方差矩阵,m_ns和C_ns是非肤色模型的均值和协方差矩阵，是对应于第i个分区的阈值；当肤色分区模型和非肤色模型建立后，会生成马氏距离查找表；所述马氏距离查找表包括3个肤色分区模型的马氏距离查找表和1个非肤色模型的马氏距离查找表。

6.根据权利要求1所述的多模型融合视频人手分割方法，其特征在于，步骤(2)中，所述背景模型是通过对背景进行统计建模，检测背景中的运动物体作为前景，人手作为运动前景而需要被检测出来；对所述背景模型的分割采用codebook模型，所述codebook模型是对背景的分布变化按照码本的形式进行记录统计，所述codebook模型对视图里面每一个像素位置建立一个码本，码本当中包含多个码字来描述背景可能的变化情况，如果某个位置的像素值无法在其码本里面找到相对应的码字，则被判定为前景，对所述背景模型分割得到一个二值图F，值为1的像素即被背景模型判定为手，背景模型的表达式为：

F (x, y) = \{\begin{matrix} 0 \\ 1 \end{matrix},

当输入像数I(x,y)具有相对应的码字，则F(x,y)＝0，否则，F(x,y)＝1。

7.根据权利要求1所述的多模型融合视频人手分割方法，其特征在于，步骤(3)中，所述两两重叠率包括计算肤色模型的分割结果和深度模型的分割结果的重叠率OLR_{s_d}、肤色模型的分割结果和背景模型的分割结果的重叠率OLR_{s_f}以及背景模型的分割结果和深度模型的分割结果的重叠率OLR_{f_d}这三个重叠率，计算所述两两重叠率的方法是对三个二值图两两之间做与运算，并将其中一个二值图视作参考标准图，计算与运算后得到的二值图与参考标准图的重叠比例，所述重叠比例指的是与运算后的二值图里面像素值为1的像素个数与标准图里面像素值为1的像素个数的比值，公式如下：

对于图片里面每一个位置(x,y)的像素，S(x,y)∧D(x,y)是对肤色模型分割结果和深度模型分割结果的像素值做与运算，是指对运算后得到的二值图统计其值为1的像素点个数，是统计深度模型分割结果的值为1的像素点个数，然后把前后得到的个数的比值赋给OLR_{s_d}。

8.根据权利要求1所述的多模型融合视频人手分割方法，其特征在于，步骤(4)中，采用神经网络模型评估和输出深度模型的置信系数α、肤色模型的置信系数β和背景模型的置信系数γ。

9.根据权利要求8所述的多模型融合视频人手分割方法，其特征在于，步骤(4)中，所述的α、β、γ均被量化为三个值：α∈{1/3,1/2,2/3}、β∈{1/3,1/2,2/3}和γ∈{1/3,1/2,2/3}。

10.根据权利要求8所述的多模型融合视频人手分割方法，其特征在于，将分割视作多专家票决系统，所述多专家票决系统指最后的分割决定于深度模型、肤色模型和背景模型的一种动态综合，所述动态综合表现为三个模型分割得到的三幅二值图先乘上各自的置信系数α、β、γ，然后对乘上系数后的三幅图累加，并经由阈值函数得到最终的分割结果，公式如下：

当中二值图H(x,y)是三模型融合的最终分割结果，值为1的像素被判定为手；步骤(7)中，将对深度模型分割结果、肤色模型分割结果和背景模型分割结果进行融合所决定的非手部区域用于更新背景模型。