一种基于深度的视频感兴趣区域提取方法
技术领域
本发明涉及一种视频信号的处理方法,尤其是涉及一种基于深度的视频感兴趣区域提取方法。
背景技术
电视的出现极大的改变了人们的生活方式,有力地推动了社会的进步与发展。迄今为止,广播电视领域已经经历了两次技术革命,实现了从黑白到彩色、从模拟到数字高清的跨越。立体电视,又称3DTV(Three Dimensional Television,三维电视),因立体电视能提供从平面到立体的跨越,必将成为广播电视技术新发展方向,因此立体电视受到了国内外研究机构和产业界的高度重视。
2002年,在欧洲委员会支持的IST计划中启动了一个ATTEST(高级三维电视系统技术)项目,目标致力于建立一条完整的可向后兼容的三维数字电视广播链系统。ATTEST的目标是提出一个3DTV广播链的新理念,与现有的二维广播实现向下兼容,并广泛地支持各种不同形式的二维和三维显示。ATTEST的主要设计理念在于提出了在传统二维视频图像传输的基础上,增加深度图(Depth Map)作为增强层信息,即“二维彩色视频加深度”的数据表示,以二维彩色视频加深度的方式在显示终端解码、重建三维视频,而且业界部分先进裸眼自由立体显示终端也已支持二维彩色视频加深度的显示模式。
运动图像专家组在2001年12月成立专项工作组从事3DAV(Three Audio Visual,三维音视频)技术的核心探索实验研究。国际标准化组织JVT(联合视频专家组)2006年正式开始三维立体相关技术的标准化工作,提出了多视点视频加深度(Multi-viewvideo plus depth,MVD)的三维场景表示方式,即采用K个视点的二维彩色视频及二维彩色视频对应的深度视频信息来表达场景的三维信息。MVD能够较好地支持基于深度图的视点绘制(Depth Image Based Rendering)方法,该方法具有虚拟视点绘制质量高、绘制视角广、速度快等特点,已逐渐成为3DTV和自由立体电视等多媒体系统中主流三维表示方式。其中,深度视频的生成目前主要有两种方法,一种是通过深度获取设备直接采集景物深度,深度获取设备最为典型的如3DV Systems公司生产的深度立体摄像头Zcam;另一种是通过算法从采集到的普通二维视频中生成深度信息,具有针对多路摄像机和单路摄相机的系列处理方法。
视频感兴趣区域提取是视频压缩与通信、视频检索、模式识别等领域中基于内容的视频处理方法的核心技术之一。传统的视频感兴趣区域提取方法主要利用彩色视频的颜色、边缘以及运动等信息进行感兴趣区域分割,该提取方法的计算复杂度高,同时由于可以利用的信息量的限制导致提取的感兴趣区域的精度不高,且难以在复杂背景环境下提取符合语义特征的感兴趣区域。
发明内容
本发明所要解决的技术问题是提供一种计算复杂度低、提取的感兴趣区域的精度较高,且所提取的感兴趣区域符合语义特征的基于深度的视频感兴趣区域的提取方法。
本发明解决上述技术问题所采用的技术方案为:一种基于深度的视频感兴趣区域的提取方法,包括以下步骤:
(1)、定义纹理视频为二维彩色视频或灰度视频,定义纹理视频中各时刻的纹理视频帧的尺寸大小均为W×H,W为纹理视频中各时刻的纹理视频帧的宽,H为纹理视频中各时刻的纹理视频帧的高,记纹理视频中t时刻的纹理视频帧为Ft,定义纹理视频中t时刻的纹理视频帧Ft为当前纹理视频帧,采用运动检测方法检测当前纹理视频帧的运动区域,并提取当前纹理视频帧的运动区域的二值掩模图像,记当前纹理视频帧的运动区域的二值掩模图像为Mt m,然后采用边缘提取算子提取当前纹理视频帧的轮廓纹理,并对当前纹理视频帧的轮廓纹理进行二值化处理得到当前纹理视频帧的轮廓纹理的二值掩模图像,记当前纹理视频帧的轮廓纹理的二值掩模图像为Mt c;
(2)、定义纹理视频对应的深度视频中各时刻的深度视频帧为Z比特深度表示的灰度图,将深度视频中各时刻的深度视频帧的尺寸大小均设置为W×H,W为深度视频中各时刻的深度视频帧的宽,H为深度视频中各时刻的深度视频帧的高,记深度视频中t时刻的深度视频帧为Dt,定义深度视频中t时刻的深度视频帧Dt为当前深度视频帧,根据深度将当前深度视频帧分割成L个深度层,提取当前深度视频帧的各个深度层的二值掩模图像,记第l个深度层的二值掩模图像为MDt,l,其中,l∈[0,L-1],然后采用边缘提取算子提取当前深度视频帧的深度不连续区域,并对当前深度视频帧的深度不连续区域进行二值化处理得到当前深度视频帧的深度不连续区域的二值掩模图像,记当前深度视频帧的深度不连续区域的二值掩模图像为Mt d;
(3)、利用当前深度视频帧的各个深度层的二值掩模图像、当前纹理视频帧的运动区域的二值掩模图像及当前深度视频帧的深度不连续区域的二值掩模图像提取当前深度视频帧的各个深度层的对象层种子点,计算各个深度层的对象层种子点的深度直方图,对各个深度层的对象层种子点的深度直方图进行平滑处理,将各个平滑处理后的深度直方图划分成Γ个分段,根据各个平滑处理后的深度直方图的Γ个分段对当前深度视频帧的各个深度层的二值掩模图像进行细分并提取得到Γ个深度对象层的二值掩模图像;
(4)、利用当前深度视频帧的各个深度层的二值掩模图像、当前纹理视频帧的运动区域的二值掩模图像、当前纹理视频帧的轮廓纹理的二值掩模图像及当前深度视频帧的深度不连续区域的二值掩模图像构建当前深度视频帧的各个深度层的初步轮廓特征区域的二值掩模图像,然后采用轮廓恢复方法分别对各个深度层的初步轮廓特征区域的二值掩模图像进行断裂轮廓修复,再分别滤除断裂轮廓修复后得到的二值掩模图像中存在的孤立噪声区域,得到各个深度层的轮廓特征区域的二值掩模图像,记第l个深度层的轮廓特征区域的二值掩模图像为Mt,l T;
(5)、以当前深度视频帧的各个深度层的轮廓特征区域的二值掩模图像为特征,对各个深度层中的各个深度对象层的二值掩模图像进行扫描,清除各个深度对象层的二值掩模图像中的非感兴趣区域,得到各个深度层的各个深度对象层的二值掩模图像中的感兴趣区域;
(6)、将各个深度层的各个深度对象层的二值掩模图像中的感兴趣区域加权叠加,合并得到当前纹理视频帧的感兴趣区域,记当前纹理视频帧的感兴趣区域为Rt, 其中,r(x,y)表示当前纹理视频帧的感兴趣区域中坐标为(x,y)的像素的像素值,ηl,λ为在(0,1]范围的加权系数,ft(x,y)表示当前纹理视频帧中坐标为(x,y)的像素的像素值,RMt,l λ为第l个深度层的第λ个深度对象层的二值掩模图像中的感兴趣区域。
所述的步骤(1)中的运动检测方法的具体过程为:(1)-a、记纹理视频中与当前纹理视频帧时间上连续的t+k时刻的纹理视频帧为Ft+k,其中,k∈[-N/2,N/2],且k≠0,N为小于10的正整数;(1)-b、采用公知的图像帧差法计算当前纹理视频帧与t+k时刻的纹理视频帧Ft+k的帧差图像,记帧差图像为Ft-Ft+k;(1)-c、将帧差图像Ft-Ft+k分割成若干个尺寸大小为w1×h1的块且块与块之间互不重叠,记横坐标为ax且纵坐标为ay的块为Bax,ay 1,其中,ax∈[0,W/w1-1],ay∈[0,H/h1-1],W为当前纹理视频帧的宽,H为当前纹理视频帧的高;(1)-d、根据帧差图像Ft-Ft+k中的各个块确定当前纹理视频帧中与帧差图像Ft-Ft+k中的各个块分别对应的区域为运动区域还是非运动区域,对于块Bax,ay 1,判断块Bax,ay 1中当前纹理视频帧与t+k时刻的纹理视频帧Ft+k的各个像素的像素值之差的绝对值之和是否大于设定的第一阈值Tm,其中,0≤Tm<10×w1×h1,如果是,则将当前纹理视频帧中与块Bax,ay 1对应的区域中的所有像素的像素值置1,并确定该区域为运动区域,否则,将当前纹理视频帧中与块Bax,ay 1对应的区域中的所有像素的像素值置0,并确定该区域为非运动区域;(1)-e、提取运动区域的二值掩模图像Mt m,Mt m为 中所有像素值为1的像素的集合,其中,Θ(Ft-Ft+j)表示通过步骤(1)-d得到的当前纹理视频帧中与当前纹理视频帧与t+j时刻的纹理视频帧Ft+j的帧差图像Ft-Ft+j中的各个块分别对应的区域中所有像素值为1的像素的集合,Θ(Ft-Ft-j)表示通过步骤(1)-d得到的当前纹理视频帧中与当前纹理视频帧与t-j时刻的纹理视频帧Ft-j的帧差图像Ft-Ft-j中的各个块分别对应的区域中所有像素值为1的像素的集合。
所述的步骤(1)中的运动检测方法的具体过程为:(1)-1、记纹理视频中与当前纹理视频帧时间上连续的t+k时刻的纹理视频帧为Ft+k,其中,k∈[-N/2,N/2],且k≠0,N为小于10的正整数;(1)-2、采用公知的光流法计算当前纹理视频帧与t+k时刻的纹理视频帧Ft+k的运动矢量图像,记运动矢量图像为V;(1)-3、将运动矢量图像V分割成若干个尺寸大小为w2×h2的块且块与块之间互不重叠,记横坐标为bx且纵坐标为by的块为Bbx,by 2,其中,bx∈[0,W/w2-1],by∈[0,H/h2-1],W为当前纹理视频帧的宽,H为当前纹理视频帧的高;(1)-4、根据运动矢量图像V中的各个块确定当前纹理视频帧中与运动矢量图像V中的各个块分别对应的区域为运动区域还是非运动区域,对于块Bbx,by 2,判断块Bbx,by 2中运动矢量图像V的运动幅度的绝对值的平均值是否大于设定的第二阈值Tn,其中,0≤Tn<10×w2×h2,如果是,则将当前纹理视频帧中与块Bbx,by 2对应的区域中的所有像素的像素值置1,并确定该区域为运动区域,否则,将当前纹理视频帧中与块Bbx,by 2对应的区域中的所有像素的像素值置0,并确定该区域为非运动区域;(1)-5、提取运动区域的二值掩模图像Mt m,Mt m为 中所有像素值为1的像素的集合,其中,Φ(Ft,Ft+j)表示通过步骤(1)-4得到的当前纹理视频帧中当前纹理视频帧与t+j时刻的纹理视频帧Ft+j的运动矢量图像中的各个块分别对应的区域中所有像素值为1的像素的集合,Φ(Ft,Ft-j)表示通过步骤(1)-4得到的当前纹理视频帧中与当前纹理视频帧与t-j时刻的纹理视频帧Ft-j的运动矢量图像中的各个块分别对应的区域中所有像素值为1的像素的集合。
所述的步骤(1)中的边缘提取算子为Sobel边缘提取算子、Canny边缘提取算子、Roberts边缘提取算子、Laplace边缘提取算子中的任一种。
所述的步骤(3)的具体过程为:(3)-1、对于当前深度视频帧的第l个深度层,记第l个深度层的对象层种子点为T1,l, 其中,l∈[0,L-1],MDt,l为当前深度视频帧的第l个深度层的二值掩模图像,Mt m为当前纹理视频帧的运动区域的二值掩模图像,Mt d为当前深度视频帧的深度不连续区域的二值掩模图像;(3)-2、记第l个深度层的对象层种子点T1,l的深度直方图为h(T1,l,i),第l个深度层的对象层种子点T1,l的深度直方图h(T1,l,i)表示第l个深度层的对象层种子点T1,l中深度值di(x,y)为i的像素的个数,其中,i∈[0,2Z-1];(3)-3、对第l个深度层的对象层种子点T1,l的深度直方图h(T1,l,i)进行平滑处理,记平滑处理后的深度直方图为hsm(T1,l,i), 其中,ζj为加权系数且满足 Wj为平滑窗口的尺寸大小,Wj∈[2,10],h(T1,l,i+j)表示第l个深度层的对象层种子点T1,l中深度值dt(x,y)为i+j的像素的个数;(3)-4、将平滑处理后的深度直方图hsm(T1,l,i)划分成Γ个分段,记第λ个分段为[pλ,qλ],其中,λ∈[0,Γ-1],pλ和qλ为分段参数,且pλ和qλ满足条件 Th为设定的第三阈值, (3)-5、根据深度直方图hsm(T1,l,i)的Γ个分段对第l个深度层的二值掩模图像MDt,l进行细分并提取得到Γ个深度对象层的二值掩模图像,记第λ个深度对象层的二值掩模图像为MDt,l λ。
所述的步骤(3)-5中根据深度直方图hsm(T1,l,i)的Γ个分段对第l个深度层的二值掩模图像MDt,l进行细分并提取得到Γ个深度对象层的二值掩模图像的具体过程为:对于深度直方图hsm(T1,l,i)的第λ个分段[pλ,qλ],计算第λ个分段[pλ,qλ]的深度均值和深度平均绝对离差,记第λ个分段[pλ,qλ]的深度均值为μλ, 记第λ个分段[pλ,qλ]的深度平均绝对离差为σλ, 根据第λ个分段[pλ,qλ]的深度均值μλ和深度平均绝对离差σλ将第λ个深度对象层中深度值dt(x,y)满足条件dt(x,y)∈[μλ-ωσλ,μλ+ωσλ]的所有像素的像素值置1,将不满足条件的所有像素的像素值置0,得到第λ个深度对象层的二值掩模图像,记第λ个深度对象层的二值掩模图像为MDt,l λ, 其中,ω为加权系数,dt(x,y)为当前深度视频帧中坐标为(x,y)的像素的深度值。
所述的步骤(4)的具体过程为:(4)-1、对于当前深度视频帧的第l个深度层,利用第l个深度层的二值掩模图像MDt,l、当前纹理视频帧的运动区域的二值掩模图像Mt m、当前纹理视频帧的轮廓纹理的二值掩模图像Mt c及当前深度视频帧的深度不连续区域的二值掩模图像Mt d构建第l个深度层的初步轮廓特征区域的二值掩模图像,记第l个深度层的初步轮廓特征区域的二值掩模图像为T2,l, 其中,l∈[0,L-1],将第l个深度层的初步轮廓特征区域的二值掩模图像T2,l分割成若干个尺寸大小为w3×h3的块,块与块之间互不重叠,记横坐标为cx且纵坐标为cy的块为Bcx,cy 3,其中,cx∈[0,W/w3-1],cy∈[0,H/h3-1],W为当前深度视频帧的宽,H为当前深度视频帧的高;(4)-2、采用轮廓恢复方法对第l个深度层的初步轮廓特征区域的二值掩模图像T2,l进行断裂轮廓修复,轮廓恢复方法的具体过程为:首先判断第l个深度层的初步轮廓特征区域的二值掩模图像T2,l中的各个块是否为疑似轮廓特征区域,对于第l个深度层的初步轮廓特征区域的二值掩模图像T2,l中的块Bcx,cy 3,判断块Bcx,cy 3中像素值为1的像素的个数是否大于设定的第四阈值Tb,其中,0≤Tb≤w3×h3,如果是,则将块Bcx,cy 3中的所有像素的像素值置1,并确定该块Bcx,cy 3为疑似轮廓特征区域,否则,将块Bcx,cy 3中的所有像素的像素值置0,并确定该块Bcx,cy 3为非疑似轮廓特征区域;由各个疑似轮廓特征区域和各个非疑似轮廓特征区域构成疑似轮廓特征区域的二值掩模图像,然后采用公知的形态学膨胀和腐蚀算法,以尺寸大小为w4×h4的矩形区域为膨胀腐蚀运算的基元,对疑似轮廓特征区域的二值掩模图像进行n1次膨胀和n2腐蚀操作;(4)-3、滤除膨胀和腐蚀操作后的疑似轮廓特征区域的二值掩模图像中存在的孤立噪声区域,得到第l个深度层的轮廓特征区域的二值掩模图像,具体过程为:采用公知的连通区域计算法计算膨胀和腐蚀操作后的疑似轮廓特征区域的二值掩模图像中的疑似轮廓特征区域的八邻接连通区域,并判断疑似轮廓特征区域中的各个连通区域中像素值为1的像素的个数是否小于设定的第五阈值Ts,其中,0<Ts<W×H/100,如果是,则标记该连通区域为非轮廓特征区域,否则,标记该连通区域为轮廓特征区域,得到第l个深度层的轮廓特征区域的二值掩模图像,记第l个深度层的轮廓特征区域的二值掩模图像为Mt,l T。
所述的步骤(5)的具体过程为:(5)-1、对于当前深度视频帧的第l个深度层,将第l个深度层的轮廓特征区域的二值掩模图像Mt,l T中坐标为(x,y)的像素的像素值表示为mt,l λ(x,y),对于第l个深度层的第λ个深度对象层,记第l个深度层的第λ个深度对象层的二值掩模图像为MDt,l λ,将MDt,l λ中坐标为(x,y)的像素的像素值表示为mdt,l λ(x,y);(5)-2、以MDt,l λ的最左上角像素为起始像素,从左到右逐列对MDt,l λ进行列扫描,在列扫描过程中自上而下逐像素进行扫描,对于MDt,l λ的第p列,从该列中位于MDt,l λ的上边界的像素开始自上而下向该列中位于MDt,l λ的下边界的像素逐像素扫描,当Mt,l T中与该列中坐标为(x,y)的像素对应的像素的像素值 时,将该列中坐标为(x,y)的像素的像素值mdt,l λ(x,y)置0,并确定该列中坐标为(x,y)的像素为非感兴趣区域,继续扫描该列的下一个像素,确定该像素是否为非感兴趣区域,直至Mt,l T中与该列中坐标为(x,y)的像素对应的像素的像素值 或已扫描到该列中位于MDt,l λ的下边界的像素时停止对该列的扫描;(5)-3、对于MDt,l λ的第p+1列,重复步骤(5)-2,确定第p+1列中各个像素是否为非感兴趣区域,直至扫描完MDt,l λ的最后一列;(5)-4、以MDt,l λ的最左下角像素为起始像素,从左到右逐列对MDt,l λ进行列扫描,在列扫描过程中自下而上逐像素进行扫描,对于MDt,l λ的第p列,从该列中位于MDt,l λ的下边界的像素开始自下而上向该列中位于MDt,l λ的上边界的像素逐像素扫描,当Mt,l T中与该列中坐标为(x,y)的像素对应的像素的像素值 时,将该列中坐标为(x,y)的像素的像素值mdt,l λ(x,y)置0,并确定该列中坐标为(x,y)的像素为非感兴趣区域,继续扫描该列的下一个像素,确定该像素是否为非感兴趣区域,直至Mt,l T中与该列中坐标为(x,y)的像素对应的像素的像素值 或已扫描到该列中位于MDt,l λ的上边界的像素时停止对该列的扫描;(5)-5、对于MDt,l λ的第p+1列,重复步骤(5)-4,确定第p+1列中各个像素是否为非感兴趣区域,直至扫描完MDt,l λ的最后一列;(5)-6、以MDt,l λ的最左上角像素为起始像素,自上而下逐行对MDt,l λ进行行扫描,在行扫描过程中从左到右逐像素进行扫描,对于MDt,l λ的第q行,从该行中位于MDt,l λ的左边界的像素开始从左到右向该行中位于MDt,l λ的右边界的像素逐像素扫描,当Mt,l T中与该行中坐标为(x,y)的像素对应的像素的像素值 时,将该行中坐标为(x,y)的像素的像素值mdt,l λ(x,y)置0,并确定该行中坐标为(x,y)的像素为非感兴趣区域,继续扫描该行的下一个像素,确定该像素是否为非感兴趣区域,直至Mt,l T中与该行中坐标为(x,y)的像素对应的像素的像素值 或已扫描到该行中位于MDt,l λ的右边界的像素时停止对该行的扫描;(5)-7、对于MDt,l λ的第q+1行,重复步骤(5)-6,确定第q+1列中各个像素是否为非感兴趣区域,直至扫描完MDt,l λ的最后一行;(5)-8、以MDt,l λ的最右上角像素为起始像素,自上而下逐行对MDt,l λ进行行扫描,在行扫描过程中从右到左逐像素进行扫描,对于MDt,l λ的第q行,从该行中位于MDt,l λ的右边界的像素开始从右到左向该行中位于MDt,l λ的左边界的像素逐像素扫描,当Mt,l λ中与该行中坐标为(x,y)的像素对应的像素的像素值 时,将该行中坐标为(x,y)的像素的像素值mdt,l λ(x,y)置0,并确定该行中坐标为(x,y)的像素为非感兴趣区域,继续扫描该行的下一个像素,确定该像素是否为非感兴趣区域,直至Mt,l T中与该行中坐标为(x,y)的像素对应的像素的像素值 或已扫描到该行中位于MDt,l λ的左边界的像素时停止对该行的扫描;(5)-9、对于MDt,l λ的第q+1行,重复步骤(5)-8,确定第q+1列中各个像素是否为非感兴趣区域,直至扫描完MDt,l λ的最后一行;(5)-10、通过上述对MDt,l λ的扫描得到MDt,l λ中的感兴趣区域,记MDt,l λ中的感兴趣区域为RMt,l λ,
与现有技术相比,本发明的优点在于联合利用了时间上同步的纹理视频帧和纹理视频帧对应的深度视频帧,首先通过提取纹理视频帧的运动区域和轮廓纹理,获取运动区域的二值掩模图像和轮廓纹理的二值掩模图像,将深度视频帧分割成多个深度层,获取各个深度层的二值掩模图像,提取深度视频帧的深度不连续区域,获取深度不连续区域的二值掩模图像,然后利用各个深度层的二值掩模图像、运动区域的二值掩模图像及深度不连续区域的二值掩模图像获取各个深度层的各个深度对象层的二值掩模图像,利用各个深度层的二值掩模图像、运动区域的二值掩模图像、轮廓纹理的二值掩模图像及深度不连续区域的二值掩模图像构建当前深度视频帧的各个深度层的初步轮廓特征区域的二值掩模图像,并对各个深度层的初步轮廓特征区域的二值掩模图像进行断裂轮廓修复和孤立噪声区域滤除,得到各个深度层的轮廓特征区域的二值掩模图像,再以各个深度层的轮廓特征区域的二值掩模图像为特征,对各个深度对象层的二值掩模图像进行扫描,得到各个深度对象层的二值掩模图像中的感兴趣区域,最后加权叠加各个深度对象层的二值掩模图像中的感兴趣区域得到纹理视频帧的感兴趣区域,该方法计算复杂度低,能够从纹理复杂的背景环境中提取感兴趣区域,通过该方法获取的感兴趣区域符合人眼对运动对象感兴趣的视觉特性外,还符合人眼在立体视觉中对深度感强且距离近的对象感兴趣的深度感知特性,符合语义特征且精度较高。
附图说明
图1a为测试序列“Ballet”彩色视频中t时刻的彩色视频帧;
图1b为测试序列“Breakdancers”彩色视频中t时刻的彩色视频帧;
图1c为测试序列“Ballet”彩色视频对应的深度视频中t时刻的深度视频帧;
图1d为测试序列“Breakdancers”彩色视频对应的深度视频中t时刻的深度视频帧;
图2为本发明方法的总体流程框图;
图3a为图1a所示的彩色视频帧的运动区域的二值掩模图像;
图3b为图1a所示的彩色视频帧的轮廓纹理的二值掩模图像;
图3c为图1c所示的深度视频帧的各个深度层的二值掩模图像;
图3d为图1c所示的深度视频帧的深度不连续区域的二值掩模图像;
图4a为利用图3c所示的深度视频帧的最小深度层的二值掩模图像、图3a所示的运动区域的二值掩模图像及图3d所示的深度不连续区域的二值掩模图像提取得到的最小深度层的对象种子点;
图4b为图3c所示的深度视频帧的最小深度层的二值掩模图像的第0个深度对象层的二值掩模图像;
图4c为图3c所示的深度视频帧的最小深度层的二值掩模图像的第1个深度对象层的二值掩模图像;
图5a为利用图3c所示的深度视频帧的最小深度层的二值掩模图像、图3a所示的运动区域的二值掩模图像、图3d所示的深度不连续区域的二值掩模图像及图3b所示的轮廓纹理的二值掩模图像构建得到的最小深度层的初步轮廓特征区域的二值掩模图像;
图5b为图5a所示的最小深度层的初步轮廓特征区域的二值掩模图像经断裂轮廓修复及孤立噪声区域去除后得到的最小深度层的轮廓特征区域的二值掩模图像;
图6a为图4b所示的第0个深度对象层的二值掩模图像中的感兴趣区域;
图6b为图4c所示的第1个深度对象层的二值掩模图像中的感兴趣区域;
图7a为加权叠加图6a和图6b所示的感兴趣区域得到的“Ballet”彩色视频中t时刻的彩色视频帧中的感兴趣区域;
图7b为测试序列“Breakdancers”彩色视频中t时刻的彩色视频帧经本发明处理后得到的感兴趣区域;
图8a为测试序列“Ballet”彩色视频中t+1时刻的彩色视频帧本发明处理后得到的感兴趣区域;
图8b为测试序列“Ballet”彩色视频中t+2时刻的彩色视频帧本发明处理后得到的感兴趣区域;
图8c为测试序列“Ballet”彩色视频中t+3时刻的彩色视频帧本发明处理后得到的感兴趣区域;
图8d为测试序列“Ballet”彩色视频中t+4时刻的彩色视频帧本发明处理后得到的感兴趣区域;
图9a为测试序列“Breakdancers”彩色视频中t+1时刻的彩色视频帧本发明处理后得到的感兴趣区域;
图9b为测试序列“Breakdancers”彩色视频中t+2时刻的彩色视频帧本发明处理后得到的感兴趣区域;
图9c为测试序列“Breakdancers”彩色视频中t+3时刻的彩色视频帧本发明处理后得到的感兴趣区域;
图9d为测试序列“Breakdancers”彩色视频中t+4时刻的彩色视频帧本发明处理后得到的感兴趣区域。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明的基于深度的视频感兴趣区域的提取方法,主要联合利用了时间上同步的深度视频的信息和纹理视频的信息来提取视频的感兴趣区域,在本实施例中定义纹理视频为二维彩色视频或灰度视频。在此,纹理视频以测试序列“Ballet”彩色视频和“Breakdancers”彩色视频为例,图1a给出了“Ballet”彩色视频中t时刻的彩色视频帧,图1b给出了“Breakdancers”彩色视频中t时刻的彩色视频帧,图1c为测试序列“Ballet”彩色视频对应的深度视频中t时刻的深度视频帧,图1d为测试序列“Breakdancers”彩色视频对应的深度视频中t时刻的深度视频帧,彩色视频对应的深度视频中各时刻的深度视频帧为Z比特深度表示的灰度图,灰度图的灰度值表示深度视频帧中各像素所表示的对象到相机的相对距离。纹理视频帧的尺寸大小定义为W×H,而对于深度视频,若尺寸与纹理视频帧的尺寸不相同,则一般采用现有的尺度变换和插值等方法将深度视频帧设置为与纹理视频帧相同的尺寸,即也为W×H,W为纹理视频中各时刻的纹理视频帧的宽或深度视频中各时刻的深度视频帧的宽,H为纹理视频中各时刻的纹理视频帧的高或深度视频中各时刻的深度视频帧的高,将深度视频帧的尺寸大小设置成与纹理视频帧的尺寸大小相同,目的是为了更方便地提取视频感兴趣区域。本发明方法的总体处理流程框图如图2所示,具体包括以下步骤:
(1)、定义纹理视频为二维彩色视频或灰度视频,定义纹理视频中各时刻的纹理视频帧的尺寸大小均为W×H,W为纹理视频中各时刻的纹理视频帧的宽,H为纹理视频中各时刻的纹理视频帧的高,记纹理视频中t时刻的纹理视频帧为Ft,定义纹理视频中t时刻的纹理视频帧Ft为当前纹理视频帧,采用运动检测方法检测当前纹理视频帧的运动区域,并提取当前纹理视频帧的运动区域的二值掩模图像,记当前纹理视频帧的运动区域的二值掩模图像为Mt m,然后采用边缘提取算子提取当前纹理视频帧的轮廓纹理,并对当前纹理视频帧的轮廓纹理进行二值化处理得到当前纹理视频帧的轮廓纹理的二值掩模图像,记当前纹理视频帧的轮廓纹理的二值掩模图像为Mt c。
在该步骤中运动检测方法的具体过程为:(1)-a、记纹理视频中与当前纹理视频帧时间上连续的t+k时刻的纹理视频帧为Ft+k,其中,k∈[-N/2,N/2],且k≠0,N为小于10的正整数;(1)-b、采用公知的图像帧差法计算当前纹理视频帧与t+k时刻的纹理视频帧Ft+k的帧差图像,记帧差图像为Ft-Ft+k;(1)-c、将帧差图像Ft-Ft+k分割成若干个尺寸大小为w1×h1的块且块与块之间互不重叠,记横坐标为ax且纵坐标为ay的块为Bax,ay 1,其中,ax∈[0,W/w1-1],ay∈[0,H/h1-1],W为当前纹理视频帧的宽,H为当前纹理视频帧的高;(1)-d、根据帧差图像Ft-Ft+k中的各个块确定当前纹理视频帧中与帧差图像Ft-Ft+k中的各个块分别对应的区域为运动区域还是非运动区域,对于块Bax,ay 1,判断块Bax,ay 1中当前纹理视频帧与t+k时刻的纹理视频帧Ft+k的各个像素的像素值之差的绝对值之和是否大于设定的第一阈值Tm,其中,0≤Tm<10×w1×h1,第一阈值Tm的数值选择是因为一般由于相机噪声造成连续两帧纹理视频帧的静止区域的对应单像素值抖动绝对差值小于10,如果是,则将当前纹理视频帧中与块Bax,ay 1对应的区域中的所有像素的像素值置1,即标记该区域为运动区域,否则,将当前纹理视频帧中与块Bax,ay 1对应的区域中的所有像素的像素值置0,即标记该区域为非运动区域;(1)-e、提取运动区域的二值掩模图像Mt m,Mt m为 中所有像素值为1的像素的集合,其中,Θ(Ft-Ft+j)表示通过步骤(1)-d得到的当前纹理视频帧中当前纹理视频帧与t+j时刻的纹理视频帧Ft+j的帧差图像Ft-Ft+j中的各个块分别对应的区域中所有像素值为1的像素的集合,表示了前纹理视频帧相对于t+j时刻的纹理视频帧Ft+j的运动区域,Θ(Ft-Ft-j)表示通过步骤(1)-d得到的当前纹理视频帧中当前纹理视频帧与t-j时刻的纹理视频帧Ft-j的帧差图像Ft-Ft-j中的各个块分别对应的区域中所有像素值为1的像素的集合,表示了前纹理视频帧相对于t-j时刻的纹理视频帧Ft-j的运动区域,。在本实施例中,可取N=2,w1=h1=2,Tm=15,即采用基于2×2块的图像帧差法提取连续3帧即t-1、t和t+1时刻的纹理视频帧的运动区域,当2×2块Bax,ay 1中帧差图像Ft-Ft+1的各个像素的像素值的绝对值之和大于15并且2×2块Bax,ay 1中帧差图像Ft-Ft-1的各个像素的像素值的绝对值之和也大于15时,则标记当前纹理视频帧中与块Bax,ay 1对应的区域为运动区域,否则标记当前纹理视频帧中与块Bax,ay 1对应的区域为非运动区域,得到运动区域的运动掩模Mt m,图1a所示的彩色视频帧的运动区域的二值掩模图像Mt m如图3a所示。
运动检测方法除上述给出的过程外,也可采用以下具体过程:(1)-1、记纹理视频中与当前纹理视频帧时间上连续的t+k时刻的纹理视频帧为Ft+k,其中,k∈[-N/2,N/2],且k≠0,N为小于10的正整数;(1)-2、采用公知的光流法计算当前纹理视频帧与t+k时刻的纹理视频帧Ft+k的运动矢量图像,记运动矢量图像为V;(1)-3、将运动矢量图像V分割成若干个尺寸大小为w2×h2的块且块与块之间互不重叠,记横坐标为bx且纵坐标为by的块为Bbx,by 2,其中,bx∈[0,W/w2-1],by∈[0,H/h2-1],W为当前纹理视频帧的宽,H为当前纹理视频帧的高;(1)-4、根据运动矢量图像V中的各个块确定当前纹理视频帧中与运动矢量图像V中的各个块分别对应的区域为运动区域还是非运动区域,对于块Bbx,by 2,判断块Bbx,by 2中运动矢量图像V的运动幅度的绝对值的平均值是否大于设定的第二阈值Tn,其中,0≤Tn<10×w2×h2,第二阈值Tn的数值选择因为由于相机噪声造成连续两帧纹理视频帧的静止区域的对应像素值抖动,并由像素值抖动误差导致采用光流法进行运动检测所得的单像素运动矢量绝对误差一般小于10,如果是,则将当前纹理视频帧中与块Bbx,by 2对应的区域中的所有像素的像素值置1,即标记该区域为运动区域,否则,将当前纹理视频帧中与块Bbx,by 2对应的区域中的所有像素的像素值置0,即标记该区域为非运动区域;(1)-5、提取运动区域的二值掩模图像Mt m,Mt m为 中所有像素值为1的像素的集合,其中,Φ(Ft,Ft+j)表示通过步骤(1)-4得到的当前纹理视频帧中当前纹理视频帧与t+j时刻的纹理视频帧Ft+j的运动矢量图像中的各个块分别对应的区域中所有像素值为1的像素的集合,表示了前纹理视频帧相对于t+j时刻的纹理视频帧Ft+j的运动区域,Φ(Ft,Ft-j)表示通过步骤(1)-4得到的当前纹理视频帧中当前纹理视频帧与t-j时刻的纹理视频帧Ft-j的运动矢量图像中的各个块分别对应的区域中所有像素值为1的像素的集合,表示了前纹理视频帧相对于t-j时刻的纹理视频帧Ft-j的运动区域。
在此,运动检测方法还可采用其他现有的运动检测方法;在提取当前纹理视频帧的轮廓纹理过程中采用的边缘提取算子可采用Sobel边缘提取算子、Canny边缘提取算子、Roberts边缘提取算子、Laplace边缘提取算子中的任一种,如采用Sobel边缘提取算子对当前纹理视频帧的亮度分量作纵、横向两次运算,并取纵、横方向的较大边缘作为当前纹理视频帧的轮廓纹理,图3b给出了图1a所示的彩色视频帧经Sobel边缘提取算子提取后得到的轮廓纹理再经二值化处理后得到的二值掩模图像。
(2)、定义纹理视频对应的深度视频中各时刻的深度视频帧为Z比特深度表示的灰度图,其0到2Z-1范围的灰度值表示深度视频帧中的各个像素所表示的对象到相机的相对距离,灰度值0对应最大深度,灰度值2Z-1对应最小深度,将深度视频中各时刻的深度视频帧的尺寸大小均设置为W×H,W为深度视频中各时刻的深度视频帧的宽,H为深度视频中各时刻的深度视频帧的高,记深度视频中t时刻的深度视频帧为Dt,定义深度视频中t时刻的深度视频帧Dt为当前深度视频帧,将当前深度视频帧中坐标为(x,y)的像素的深度值记为dt(x,y),用L+1个阈值TMD w,其中,w∈[0,L], 将当前深度视频帧依据深度分割成L个深度层,提取当前深度视频帧的各个深度层的二值掩模图像,记第l个深度层的二值掩模图像为MDt,l, 其中,l∈[0,L-1],l=0时MDt,0表示最小深度层的二值掩模图像,l=L-1时MDt,L-1表示最大深度层的二值掩模图像,对于最大深度层的二值掩模图像MDt,L-1可直接确认其为非感兴趣的背景区域。在此,比特深度可以根据需要选取,如16比特深度或8比特深度等,在本实施例中深度视频帧为8比特深度的灰度图,即Z=8,另外在此为方便说明,L取值为2,这样分割当前深度视频帧的深度层的三个阈值分别为TMD 0、TMD 1和TMD 2, 和 根据深度将当前深度视频帧分割为两层,即MDt,0和MDt,1,在此认为当前深度视频帧的最小深度层的二值掩模图像MDt,0为感兴趣的前景区域,最大深度层的二值掩模图像MDt,1为非感兴趣的背景区域,将图1c所示的深度视频帧依照上述方法分割成两层深度层MDt,0和MDt,1,MDt,0如图3c的黑色区域所示,MDt,1如图3c的白色区域所示。
然后采用边缘提取算子提取当前深度视频帧的深度不连续区域即边缘,并对当前深度视频帧的深度不连续区域进行二值化处理得到当前深度视频帧的深度不连续区域的二值掩模图像,记当前深度视频帧的深度不连续区域的二值掩模图像为Mt d。在提取当前深度视频帧的深度不连续区域过程中采用的边缘提取算子可采用Sobel边缘提取算子、Canny边缘提取算子、Roberts边缘提取算子、Laplace边缘提取算子中的任一种,如采用Sobel边缘提取算子对当前深度视频帧作纵、横向两次运算,并取纵、横方向的较强边缘作为当前深度视频帧的深度不连续区域,然后可采用较大的阈值80分割方法对提取得到的深度不连续区域进行二值化处理,得到深度不连续区域的二值掩模图像,图3d给出了图1c所示的深度视频帧经Sobel边缘提取算子提取后得到的深度不连续区域再经二值化处理后得到的二值掩模图像。
(3)、在立体视频中,深度不连续区域所包含的对象能够给予用户特有的立体感或深度感,是用户感兴趣的区域之一;观看者对靠近拍摄相机(或视频观看者)的区域的感兴趣程度大于远离拍摄相机(或视频观看者)的区域的感兴趣程度;另外对于视频中的运动物体是用户感兴趣的另一主要内容,所以前景区域的中运动和深度不连续区域通常是观看者感兴趣区域的一部分,根据这些区域划分感兴趣区域所在的深度层,可以缩小感兴趣区域所在的范围。
利用当前深度视频帧的各个深度层的二值掩模图像、当前纹理视频帧的运动区域的二值掩模图像及当前深度视频帧的深度不连续区域的二值掩模图像提取当前深度视频帧的各个深度层的对象层种子点,计算各个深度层的对象层种子点的深度直方图,对各个深度层的对象层种子点的深度直方图进行平滑处理,将各个平滑处理后的深度直方图划分成Γ个分段,根据各个平滑处理后的深度直方图的Γ个分段对当前深度视频帧的各个深度层的二值掩模图像进行细分并提取提到Γ个深度对象层的二值掩模图像。具体过程为:(3)-1、对于当前深度视频帧的第l个深度层,记第l个深度层的对象层种子点为T1,l, 其中,l∈[0,L-1],MDt,l为当前深度视频帧的第l个深度层的二值掩模图像,Mt m为当前纹理视频帧的运动区域的二值掩模图像,Mt d为当前深度视频帧的深度不连续区域的二值掩模图像;图4a给出了利用图3c所示的深度视频帧的最小深度层的二值掩模图像、图3a所示的运动区域的二值掩模图像及图3d所示的深度不连续区域的二值掩模图像提取得到的最小深度层的对象种子点T1,0;(3)-2、记第l个深度层的对象层种子点T1,l的深度直方图为h(T1,l,i),第l个深度层的对象层种子点T1,l的深度直方图h(T1,l,i)表示第l个深度层的对象层种子点T1,l中深度值dt(x,y)为i的像素的个数,其中,i∈[0,2Z-1];(3)-3、对第l个深度层的对象层种子点T1,l的深度直方图h(T1,l,i)进行平滑处理,记平滑处理后的深度直方图为hsm(T1,l,i), 其中,ζj为加权系数且满足 Wj为平滑窗口的尺寸大小,Wj∈[2,10],h(T1,l,i+j)表示第l个深度层的对象层种子点T1,l中深度值dt(x,y)为i+j的像素的个数;(3)-4、将平滑处理后的深度直方图hsm(T1,l,i)划分成Γ个分段,记第λ个分段为[pλ,qλ],其中,λ∈[0,Γ-1],pλ和qλ为分段参数,且pλ和qλ满足条件 Th为设定的第三阈值, (3)-5、根据深度直方图hsm(T1,l,i)的Γ个分段对第l个深度层的二值掩模图像MDt,l进行细分并提取得到Γ个深度对象层的二值掩模图像,记第λ个深度对象层的二值掩模图像为MDt,l λ,在该步骤中细分并提取得到Γ个深度对象层的二值掩模图像的具体过程如下,对于深度直方图hsm(T1,l,i)的第λ个分段[pλ,qλ],计算第λ个分段[pλ,qλ]的深度均值和深度平均绝对离差,记第λ个分段[pλ,qλ]的深度均值为μλ,记第λ个分段[pλ,qλ]的深度平均绝对离差为σλ,根据第λ个分段[pλ,qλ]的深度均值μλ, 和深度平均绝对离差σλ, 将第λ个深度层中深度值dt(x,y)满足条件dt(x,y)∈[μλ-ωσλ,μλ+ωσλ]的所有像素的像素值置1,将不满足条件的所有像素的像素值置0,得到第λ个深度对象层的二值掩模图像,记第λ个深度对象层的二值掩模图像为MDt,l λ, 其中,ω为加权系数,ω可取值为0.6,dt(x,y)为当前深度视频帧中坐标为(x,y)的像素的深度值。对于Ballet测试序列,图3c所示的深度视频帧的最小深度层的二值掩模图像MDt,0被细分为2个深度对象层,即Γ=2,得到各个深度对象层的二值掩模图像,即MDt,0 0和MDt,0 1,MDt,0 0如图4b所示,MDt,0 1如图4c所示。
(4)、利用当前深度视频帧的各个深度层的二值掩模图像、当前纹理视频帧的运动区域的二值掩模图像、当前纹理视频帧的轮廓纹理的二值掩模图像及当前深度视频帧的深度不连续区域的二值掩模图像构建当前深度视频帧的各个深度层的初步轮廓特征区域的二值掩模图像,然后采用轮廓恢复方法分别对各个深度层的初步轮廓特征区域的二值掩模图像进行断裂轮廓修复,再分别滤除断裂轮廓修复后得到的二值掩模图像中存在的孤立噪声区域,得到各个深度层的轮廓特征区域的二值掩模图像,记第l个深度层的轮廓特征区域的二值掩模图像为Mt,l T。具体过程如下:(4)-1、对于当前深度视频帧的第l个深度层,利用第l个深度层的二值掩模图像MDt,l、当前纹理视频帧的运动区域的二值掩模图像Mt m、当前纹理视频帧的轮廓纹理的二值掩模图像Mt c及当前深度视频帧的深度不连续区域的二值掩模图像Mt d构建第l个深度层的初步轮廓特征区域的二值掩模图像,记第l个深度层的初步轮廓特征区域的二值掩模图像为T2,l, 其中,l∈[0,L-1],图5a给出了利用图3c所示的深度视频帧的最小深度层的二值掩模图像、图3a所示的运动区域的二值掩模图像、图3d所示的深度不连续区域的二值掩模图像及图3b所示的轮廓纹理的二值掩模图像构建得到的最小深度层的初步轮廓特征区域的二值掩模图像T2,0;将第l个深度层的初步轮廓特征区域的二值掩模图像T2,l分割成若干个尺寸大小为w3×h3的块且块与块之间互不重叠,记横坐标为cx且纵坐标为cy的块为Bcx,cy 3,其中,cx∈[0,W/w3-1],cy∈[0,H/h3-1],W为当前深度视频帧的宽,H为当前深度视频帧的高;(4)-2、采用轮廓恢复方法对第l个深度层的初步轮廓特征区域的二值掩模图像T2,l进行断裂轮廓修复,轮廓恢复方法的具体过程为:首先判断第l个深度层的初步轮廓特征区域的二值掩模图像T2,l中的各个块是否为疑似轮廓特征区域,对于第l个深度层的初步轮廓特征区域的二值掩模图像T2,l中的块Bcx,cy 3,判断块Bcx,cy 3中像素值为1的像素的个数是否大于设定的第四阈值Tb,其中,0≤Tb≤w3×h3,如果是,则将块Bcx,cy 3中的所有像素的像素值置1,即标记该块Bcx,cy 3为疑似轮廓特征区域,否则,将块Bcx,cy 3中的所有像素的像素值置0,即标记该块Bcx,cy 3为非疑似轮廓特征区域;由各个疑似轮廓特征区域和各个非疑似轮廓特征区域构成疑似轮廓特征区域的二值掩模图像,然后采用公知的形态学膨胀和腐蚀算法,以尺寸大小为w4×h4的矩形区域为膨胀腐蚀运算的基元,对疑似轮廓特征区域的二值掩模图像进行n1次膨胀和n2腐蚀操作;(4)-3、滤除膨胀和腐蚀操作后的疑似轮廓特征区域的二值掩模图像中存在的孤立噪声区域,得到第l个深度层的轮廓特征区域的二值掩模图像,具体过程为:采用公知的连通区域计算法计算膨胀和腐蚀操作后的疑似轮廓特征区域的二值掩模图像中的疑似轮廓特征区域的各个八邻接连通区域,并判断疑似轮廓特征区域中的各个连通区域中像素值为1的像素的个数是否小于设定的第五阈值Ts,其中,0<Ts<W×H/100,第五阈值Ts的数值的选择因为一般远小于图像面积百分之一的小面积区域可以确认为非感兴趣区域,如果是,则标记疑似轮廓特征区域的该连通区域为非轮廓特征区域,否则,标记疑似轮廓特征区域的该连通区域为轮廓特征区域,得到第l个深度层的轮廓特征区域的二值掩模图像,记第l个深度层的轮廓特征区域的二值掩模图像为Mt,l T。
在此,轮廓修复还可采用其他现有的轮廓恢复方法;在此具体实施例中,w3=h3=8,Tb=w3×h3/8;对疑似轮廓特征区域的二值掩模图像进行膨胀和腐蚀操作过程中,取尺寸大小为w4×h4=4×4的矩形区域为膨胀腐蚀运算的基元,进行3次膨胀和1腐蚀操作;采用公知的连通区域计算法计算膨胀和腐蚀操作后的疑似轮廓特征区域的二值掩模图像中的疑似轮廓特征区域中的各个八邻接连通区域,由于人们通常对较大面积的区域感兴趣,所以将连通区域中像素值为1的像素个数小于W×H/150的连通区域内的像素的像素值置0,即标记为非轮廓特征区域。对图5a所示的最小深度层的初步轮廓特征区域的二值掩模图像T2,0进行断裂轮廓修复及孤立噪声区域去除操作后,得到如图5b所示的第0个深度层即最小深度层的轮廓特征区域的二值掩模图像Mt,0 T。
(5)、以当前深度视频帧的各个深度层的轮廓特征区域的二值掩模图像为特征,对各个深度层中的各个深度对象层的二值掩模图像进行扫描,清除各个深度对象层的二值掩模图像中的非感兴趣区域,得到各个深度层的各个深度对象层的二值掩模图像中的感兴趣区域。具体过程如下:(5)-1、对于当前深度视频帧的第l个深度层,将第l个深度层的轮廓特征区域的二值掩模图像Mt,l T中坐标为(x,y)的像素的像素值表示为mt,l λ(x,y),对于第l个深度层的第λ个深度对象层,记第l个深度层的第λ个深度对象层的二值掩模图像为MDt,l λ,将MDt,l λ中坐标为(x,y)的像素的像素值表示为mdt,l λ(x,y);(5)-2、以MDt,l λ的最左上角像素为起始像素,从左到右逐列对MDt,l λ进行列扫描,在列扫描过程中自上而下逐像素进行扫描,对于MDt,l λ的第p列,从该列中位于MDt,l λ的上边界的像素开始自上而下向该列中位于MDt,l λ的下边界的像素逐像素扫描,当Mt,l T中与该列中坐标为(x,y)的像素对应的像素的像素值 时,将该列中坐标为(x,y)的像素的像素值mdt,l λ(x,y)置0,即标记该列中坐标为(x,y)的像素为非感兴趣区域,继续扫描该列的下一个像素,确定该像素是否为非感兴趣区域,直至Mt,l T中与该列中坐标为(x,y)的像素对应的像素的像素值 或已扫描到该列中位于MDt,l λ的下边界的像素时停止对该列的扫描;(5)-3、对于MDt,l λ的第p+1列,重复步骤(5)-2,确定第p+1列中各个像素是否为非感兴趣区域,直至扫描完MDt,l λ的最后一列;(5)-4、以MDt,l λ的最左下角像素为起始像素,从左到右逐列对MDt,l λ进行列扫描,在列扫描过程中自下而上逐像素进行扫描,对于MDt,l λ的第p列,从该列中位于MDt,l λ的下边界的像素开始自下而上向该列中位于MDt,l λ的上边界的像素逐像素扫描,当Mt,l T中与该列中坐标为(x,y)的像素对应的像素的像素值 时,将该列中坐标为(x,y)的像素的像素值mdt,l λ(x,y)置0,即标记该列中坐标为(x,y)的像素为非感兴趣区域,继续扫描该列的下一个像素,确定该像素是否为非感兴趣区域,直至Mt,l T中与该列中坐标为(x,y)的像素对应的像素的像素值 或已扫描到该列中位于MDt,l λ的上边界的像素时停止对该列的扫描;(5)-5、对于MDt,l λ的第p+1列,重复步骤(5)-4,确定第p+1列中各个像素是否为非感兴趣区域,直至扫描完MDt,l λ的最后一列;(5)-6、以MDt,l λ的最左上角像素为起始像素,自上而下逐行对MDt,l λ进行行扫描,在行扫描过程中从左到右逐像素进行扫描,对于MDt,l λ的第q行,从该行中位于MDt,l λ的左边界的像素开始从左到右向该行中位于MDt,l λ的右边界的像素逐像素扫描,当Mt,l λ中与该行中坐标为(x,y)的像素对应的像素的像素值 时,将该行中坐标为(x,y)的像素的像素值mdt,l λ(x,y)置0,即标记该行中坐标为(x,y)的像素为非感兴趣区域,继续扫描该行的下一个像素,确定该像素是否为非感兴趣区域,直至Mt,l T中与该行中坐标为(x,y)的像素对应的像素的像素值 或已扫描到该行中位于MDt,l λ的右边界的像素时停止对该行的扫描;(5)-7、对于MDt,l λ的第q+1行,重复步骤(5)-6,确定第q+1列中各个像素是否为非感兴趣区域,直至扫描完MDt,l λ的最后一行;(5)-8、以MDt,l λ的最右上角像素为起始像素,自上而下逐行对MDt,l λ进行行扫描,在行扫描过程中从右到左逐像素进行扫描,对于MDt,l λ的第q行,从该行中位于MDt,l λ的右边界的像素开始从右到左向该行中位于MDt,l λ的左边界的像素逐像素扫描,当Mt,l λ中与该行中坐标为(x,y)的像素对应的像素的像素值 时,将该行中坐标为(x,y)的像素的像素值mdt,l λ(x,y)置0,即标记该行中坐标为(x,y)的像素为非感兴趣区域,继续扫描该行的下一个像素,确定该像素是否为非感兴趣区域,直至Mt,l T中与该行中坐标为(x,y)的像素对应的像素的像素 或已扫描到该行中位于MDt,l λ的左边界的像素时停止对该行的扫描;(5)-9、对于MDt,l λ的第q+1行,重复步骤(5)-8,确定第q+1列中各个像素是否为非感兴趣区域,直至扫描完MDt,l λ的最后一行;(5)-10、通过上述对MDt,l λ的扫描得到MDt,l λ中的感兴趣区域,记MDt,l λ中的感兴趣区域为RMt,l λ, 对于图4b所示的第0个深度对象层的二值掩模图像中的感兴趣区域如图6a所示,对于图4c所示的第1个深度对象层的二值掩模图像中的感兴趣区域如图6b所示。
(6)、将各个深度层的各个深度对象层的二值掩模图像中的感兴趣区域加权叠加,合并得到当前纹理视频帧的感兴趣区域,记当前纹理视频帧的感兴趣区域为Rt, 其中,r(x,y)表示当前纹理视频帧的感兴趣区域中坐标为(x,y)的像素的像素值,ηl,λ为在(0,1]范围的加权系数,在此实施例中取ηl,λ=1,ft(x,y)表示当前纹理视频帧中坐标为(x,y)的像素的像素值,RMt,l λ为第l个深度层的第λ个深度对象层的二值掩模图像中的感兴趣区域。将图6a和图6b所示的感兴趣区域加权叠加,合并得到图1a的彩色视频帧的感兴趣区域,图1a的彩色视频帧的感兴趣区域如图7a所示。
图7b给出了图1b所示的测试序列“Breakdancers”彩色视频中t时刻的彩色视频帧经本发明处理后得到的感兴趣区域。图8a给出了测试序列“Ballet”彩色视频中t+1时刻的彩色视频帧本发明处理后得到的感兴趣区域;图8b给出了测试序列“Ballet”彩色视频中t+2时刻的彩色视频帧本发明处理后得到的感兴趣区域;图8c给出了测试序列“Ballet”彩色视频中t+3时刻的彩色视频帧本发明处理后得到的感兴趣区域;图8d给出了测试序列“Ballet”彩色视频中t+4时刻的彩色视频帧本发明处理后得到的感兴趣区域。图9a给出了测试序列“Breakdancers”彩色视频中t+1时刻的彩色视频帧本发明处理后得到的感兴趣区域;图9b给出了测试序列“Breakdancers”彩色视频中t+2时刻的彩色视频帧本发明处理后得到的感兴趣区域;图9c给出了测试序列“Breakdancers”彩色视频中t+3时刻的彩色视频帧本发明处理后得到的感兴趣区域;图9d给出了测试序列“Breakdancers”彩色视频中t+4时刻的彩色视频帧本发明处理后得到的感兴趣区域。