CN102609958A

CN102609958A - 视频对象提取的方法及设备

Info

Publication number: CN102609958A
Application number: CN2012100175609A
Authority: CN
Inventors: 任昊宇; 王琳; 熊君君
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2012-01-19
Filing date: 2012-01-19
Publication date: 2012-07-25

Abstract

一种视频对象提取的方法，包括：对视频的单帧图像进行检测，获取相邻两帧中每帧图像的特征点，并对相邻两帧中的特征点进行匹配，确定相邻两帧中视频对象的运动方程；选择视频对象的表示模型，根据概率填充方法对所述表示模型进行填充，得到所述视频对象的区域模型；根据所述运动方程，对所述视频对象的区域模型计算出初始的种子区域，使用图分割方法分割得到所述种子区域，获取所述视频对象。本发明提出的上述方案，通过使用高效的运动估计算法进行种子区域的选择，保证了视频对象提取的实时性，解决了之前目标提取效率低下的问题；此外，还能有效提升了目标提取的准确率。

Description

视频对象提取的方法及设备

技术领域

本发明涉及多媒体技术领域，具体而言，本发明涉及视频对象提取的方法及设备。

背景技术

近些年来，随着移动互联网的发展和多媒体技术的普及，视频流媒体技术越来越受到青睐，视频处理技术广泛应用于视频通话、远程监控、实时通信等诸多领域，并涵盖了现阶段所有的信息设备，例如家庭电脑、手机、平板电脑等。对感兴趣对象进行提取是视频处理技术的基本要素之一，根据用户的需要将视频中的某个对应目标或者对应区域分割出来，可以进行一系列后续处理。图1所示为视频感兴趣对象提取的一个简单应用——背景替换。从左图用户通话视频中将用户“切下来”，然后配以右图的背景中以得到全新的视觉效果。

现有视频感兴趣对象提取技术主要有两类解决方案。第一类针对视频的每一帧选择某个区域作为“感兴趣对象”的种子，然后结合颜色、边缘等信息将对应的感兴趣对象提取出来。如图2所示，左图中虚线选择了一个区域作为种子，右图是根据这个种子区域提取的感兴趣对象。选择种子的方法主要有两种，第一种主要依赖用户自己选择，常见于图像处理、视频处理软件中，例如PhotoShop，Primere等软件中的“套索”“魔术棒”等工具；第二种是通过机器学习算法得到一个分类器，然后使用这个分类器处理每一帧视频以得到这个种子区域。

第二类技术主要依赖于局部区域分析处理技术。该技术会将视频的每一帧划分为一系列子区域，然后在每一个子区域中进行感兴趣对象识别，最后通过一系列准则将每一个子区域的感兴趣对象组合起来以得到完整的感兴趣对象。如图3所示，左图为对每个子区域处理之后的结果，右图为各个子区域的组合结果。

现阶段以上两类技术都存在一定的问题。基于种子区域的感兴趣对象技术的核心是种子点的选择。如果用户手动选择的话固然可以达到较高的准确率，但是效率非常低，只适用于视频处理软件，完全不符合实时系统的需求；采用机器学习方法获得分类器虽然可以极大程度上缓解用户的操作复杂性，但是其准确率相对比较低，效率也不算特别高(大约300ms/帧)。尽管现阶段也有一些技术考虑使用运动信息，但只将其作为选择种子区域后的可选项，忽略了其在选择种子区域的重要性。

第二类基于局部区域的算法的优势在于较高的准确率，但是该类方法效率相对于基于种子区域的算法要低很多，离实时的要求相距甚远。所以这类技术更多地应用于离线应用中，例如视频制作等。

此外，这两类方法都存在一个共同的问题：如果两个相邻区域的颜色非常类似，如图2、图3中头发部分，在最后的分割结果中，不是感兴趣对象的头发区域也会被错误地统一分割出来。这个问题也是当前感兴趣对象提取领域的公认难题之一。

因此，有必要提出一种有效的技术方案，解决现有技术中视频感兴趣对象提取的问题。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一，特别通过使用高效的运动估计算法进行种子区域的选择，提高视频感兴趣对象提取的效率。

为了实现本发明之目的，本发明实施例一方面提出了一种视频对象提取的方法，包括以下步骤：

对视频的单帧图像进行检测，获取相邻两帧中每帧图像的特征点，并对相邻两帧中的特征点进行匹配，确定相邻两帧中对象的运动方程；

选择视频对象的表示模型，根据概率填充方法对所述表示模型进行填充，得到所述视频对象的区域模型；

根据所述运动方程，对所述视频对象的区域模型计算出初始的种子区域，利用目标检测技术对所述种子区域进行修正，使用图分割方法分割得到所述种子区域，获取所述视频对象。

本发明实施例另一方面还提出了一种视频对象提取的设备，包括检测模块、匹配模块、选择模块、计算模块和分割模块，

所述检测模块，用于对视频的单帧图像进行检测，获取相邻两帧中每帧图像的特征点；

所述匹配模块，用于对相邻两帧中的特征点进行匹配，确定相邻两帧中对象的运动方程；

所述选择模块，用于选择视频对象的表示模型，根据概率填充方法对所述表示模型进行填充，得到所述视频对象的区域模型；

所述计算模块，用于根据所述运动方程，对所述视频对象的区域模型计算出初始的种子区域；

所述分割模块，用于使用图分割方法分割得到所述种子区域，获取所述视频对象。

本发明提出的上述方案，通过使用高效的运动估计算法进行种子区域的选择，保证了视频对象提取的实时性，解决了之前目标提取效率低下的问题。此外，上述方案通过目标检测与帧间处理的方式，保证了其准确率不低于现阶段的主流分割方案的同时，还可以处理大部分相邻区域的颜色类似的情况，有效提升了目标提取的准确率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为基于感兴趣对象提取的背景替换系统；

图2为基于种子区域的感兴趣对象提取；

图3为基于局部区域的感兴趣对象提取；

图4为本发明实施例视频对象提取的方法流程图；

图5为视频单帧图像特征点检测；

图6为相邻两帧间的特征点匹配；

图7为感兴趣对象描述模型；

图8为相邻两帧种子区域更新；

图9为基于局部模型的种子区域校正策略；

图10为图分割(左图)与后处理修正后的结果(右图)；

图11为本发明实施例视频对象提取的设备结构示意图；

图12为发明应用于视频聊天系统；

图13为发明应用于交通监控中。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

为了实现本发明之目的，本发明提出了基于运动估计的感兴趣对象提取技术。通过使用高效的运动估计算法进行种子区域的选择，保证了感兴趣对象提取技术的实时性，解决了之前效率低下的问题。此外，为了提升感兴趣对象提取的准确率，通过结合全局运动、颜色信息与局部的运动、颜色、边缘信息，集成了目标检测与帧间处理方法，可以处理大部分相邻区域的颜色类似的情况。

为了实现本发明之目的，本发明提出了一种视频对象提取的方法，包括以下步骤：

根据所述运动方程，对所述视频对象的区域模型计算出初始的种子区域，使用图分割方法分割得到所述种子区域，获取所述视频对象。

进一步而言，对所述视频对象的区域模型计算出初始的种子区域之后，还包括：利用目标检测技术对所述种子区域进行修正。

如图4所示，为本发明实施例视频对象提取的方法流程图，包括以下步骤：

S110：对视频的单帧图像进行检测，确定相邻两帧中对象的运动方程。

具体而言，在步骤S110中，对视频的单帧图像进行检测，获取相邻两帧中每帧图像的特征点，并对相邻两帧中的特征点进行匹配，确定相邻两帧中对象的运动方程。

作为本发明的实施例，对视频的单帧图像进行检测包括：

通过定尺度特征变换算法(SIFT，Scale-invariant feature transform)、快速鲁棒特征算法(SURF，Speeded Up Robust Features)、快速分割测试特征算法(FAST，Features from Accelerated Segment Test)对视频的单帧图像进行检测，并使用二值独立元算法(BRIEF，Binary Robust IndependentElementary Features)对特征点进行描述。

具体而言，使用FAST描述子(或者其他方法)检测图像中的感兴趣点Ins[0]-Ins[N]，用BRIEF算法来描述该感兴趣点，每个点计算一个32维的特征向量，Ins_Fea[0][0]，Ins_Fea[0][1]，...，Ins_Fea[0][31]，Ins_Fea[1][0]，...，Ins_Fea[N][31]，图示如图5所示。该方法的优势在于高效，在同等准确率情况下，FAST与BRIEF的组合相对于其它特征点提取方法速度上有近20倍的提升。

匹配相邻的两帧之间的特征点，根据各个特征点的位置与对应特征向量Ins_Previous_Fea[i]，Ins_Current_Fea[i]计算各个特征点的对应关系。首先计算相邻两帧所有特征点对(Ins_Previous_Fea[i]，Ins_Current_Fea[j]，i＝1，2，...，m，j＝1，2，...，n)的汉明距离(Hamming Distance)

HD (Ins_Previous_Fea [i], Ins_Current_Fea [j]) =

Σ_{k = 1}^{32} XOR (Ins_Previous_Fea [i] [k], Ins_Current_Fea [j] [k]),

根据取汉明距离最小的原则得到特征点的对应关系。如图6所示，相邻两帧之间各个特征点的连线表示该对特征点属于对应关系。

其后，基于特征点匹配的运动信息估计算法，得到相邻两帧间视频中各个对象的运动方程，用公式表示为：x′＝ax+by，y′＝cx+dy。该方程将会用于之后的模型更新。

S120：选择视频对象的表示模型，根据任意一种概率填充方法对表示模型进行填充，得到视频对象的区域模型。

具体而言，选择视频对象的表示模型包括以下一种或多种方式：

用户根据需要手动选择表示模型；或者，根据目标检测器的检测结果选择表示模型。

具体而言，每一个视频对象表示模型对应一个或者多个目标检测器，例如视频对象为猫时，对应“猫头”与“猫”这两个目标检测器；视频对象为“车辆”时，对应“小轿车”“中巴”与“公交车”这三类目标检测器。选择视频对象的表示模型通常有以下两种方式，一是用户根据所需手动选择表示模型，例如在交通监控场景下，表示模型限定为车辆与行人；二是系统自动选择表示模型。在输入视频第一帧后，使用所有表示模型对应的目标检测器进行目标检测，取其置信度最高的一个作为该视频的感兴趣对象。

每一个视频对象表示模型可以表示为{K，F，D，C，m，n，p，q}，K＝{K₁，K₂，...，K_m}，K_i＝{x_i，y_i}表示该模型结构点的位置，F＝{F₁，F₂，...，F_n}为所对应的目标检测器，D＝{D₁，D₂，...，D_p}表示该模型的填充图，用于表示各个点属于感兴趣对象的概率，C＝{C₁，C₂，...，C_q}表示由各个结构点构成的轮廓。m、n、p、q分别对应结构点的数目、目标检测器的数目、整个模型的像素点数目与由各个结构点构成的轮廓的像素数目。D的计算基于任意一种概率填充(Probability Filling方法)对整个模型进行填充。概率填充方法的要求就是填充后的模型可以反映各部分的置信度，可以采用任意有类似性质的函数进行填充，例如高斯函数填充、指数函数填充、sigmoid函数等等。这里以比较常用的距离变换(Distance Transform)为例。首先计算各个像素距离该轮廓各点的距离，d₁，d₂，...，d_q，并取其中最小值d_i＝min(d_j，j＝1，2，...，p)作为该点到轮廓C的距离。对于轮廓包围区域内的点，模型填充值为T_i＝min(D_i/tv1，1)×255；对于轮廓包围区域外的点，其模型填充值为T_i＝min(1-D_i/tv2，0)×255。其中tv1，tv2为填充比例因子。

以感兴趣对象为人体为例进行说明，表示模型如图7所示，人体模型包含10个结构点，分别位于头部四周、面部中心、颈部中心、双肩上沿与双肩下沿；然后依据这些结构点根据特定规则生成轮廓，并进一步模型填充得到最后的感兴趣对象模型。对于不同的感兴趣视频对象，生成轮廓的规则均不同。采用该模型可以有效地提高对感兴趣对象的描述能力，进而提高准确率。

S130：修正种子区域，使用图分割方法分割获取视频对象。

具体而言，在步骤S130中，根据所述运动方程，对所述视频对象的区域模型计算出初始的种子区域，利用目标检测技术对所述种子区域进行修正，使用图分割方法分割得到修正后的所述种子区域，获取所述视频对象

作为本发明的实施例，利用目标检测技术对所述种子区域进行修正包括以下步骤：

修正种子区域的位置信息；

根据运动方程对位置信息和种子区域的大小尺寸进行修正；

对种子区域的轮廓进行修正。

具体而言，首先根据感兴趣对象模型{K，F，D，C，m，n，p，q}对应的目标分类器F，对于当前帧中每一个感兴趣对象可能出现的位置O，计算F(O)。如果F(O)＞0则认为对象可能出现在该位置。据此得到一系列可能的位置O₁，O₂，...，O_k，使用K均值聚类方法得到最终该对象在当前帧中的位置O_c＝(O_cx，O_cy，O_cw O_ch)，分别对应对象的横轴方向位置，纵轴方向位置，长度与高度。如图8中图所示，由于感兴趣对象为“头肩”，对应两个目标分类器“人脸分类器”与“头肩分类器”。虚线方框所示为头肩分类器输出结果，实线圆圈所示为人脸分类器输出结果。

其次，根据目标检测的结果，结合S110中得到的运动方程x′＝ax+by，y′＝cx+dy，更新模型各个结构点的位置，将各个结构点通过平移与尺度变换转移到以目标检测结果为中心的位置。转换公式如下：

x_inew＝s×(ax_iold+by_iold+(O_cnew-O_cold))

y_inew＝s×(cx_iold+dy_iold+(O_cnew-O_cold))；

其中s为尺度因子。根据更新后的结构点，进而生成新的轮廓C新的模型填充D。

最后，针对轮廓C上的每一个点Ci，在其邻域使用混合高斯模型(GMM，Gaussian Mixture Models)构建颜色子图，如图9四方图左上，并使用Canny算子构建邻域的边缘子图，如图9四方图右上。使用一个平均核函数，分别对颜色子图与边缘子图进行卷积得到卷积子图，如图9四方图左下，公式如下：

Conv(x，y)＝w_c×Conv_color(x，y)+(1-w_c)×Conv_edge(x，y)+w_d×D(x，y)；

其中，Conv_color(x，y)与Conv_edge(x，y)分别表示颜色子图与边缘子图的卷积图，D(x，y)为距离惩罚因子。在该卷积子图中选择最大的点更新轮廓点Ci的位置。

通过上述处理方式，可以避免前文提到的，将颜色相色的不同区域错误划分为同一区域的问题。即使相邻两个区域颜色完全相同，也会因为边缘项与距离惩罚因子的存在而避免种子区域误划分。

例如，一种快速的种子区域更新策略为，该策略基于运动方程与目标检测技术，首先根据相邻两帧之间的运动方程计算出初始的种子区域，然后根据目标检测技术对种子区域进一步规范。所有种子区域均采用图6所示的模型来表示。示意图如图8所示，左图为前一帧的种子区域，中图为目标检测的结果，右图为更新后的当前帧的种子区域。

此外，作为本发明的实施例，还包括：对所述种子区域基于局部边缘颜色信息与边缘信息对种子区域进行调整。

一种基于局部边缘颜色信息与边缘信息的种子区域校正策略。如图9所示，以局部区域的颜色信息(4方图左上图)与边缘信息(4方图右上图)对种子区域进行调整。

使用图分割方法得到所述视频对象之后，还包括：通过形态学滤波方法或边缘修正方法对所述视频对象进行后处理。

例如，基于最终的种子区域，使用图分割方法得到感兴趣对象提取结果，并使用形态学滤波的方法、边缘修正等方法进行后处理，如图10所示。

如图11所示，本发明实施例还提出了一种视频对象提取的设备，包括检测模块100、匹配模块200、选择模块300、计算模块400和分割模块500。

检测模块100用于对视频的单帧图像进行检测，获取相邻两帧中每帧图像的特征点。

检测模块100通过SURF算法、FAST算法或BRIEF算法对视频的单帧图像进行检测并描述图像的特征点。

匹配模块200用于对相邻两帧中的特征点进行匹配，确定相邻两帧中对象的运动方程。

选择模块300用于选择视频对象的表示模型，根据概率填充方法对表示模型进行填充，得到视频对象的区域模型。

选择模块300选择视频对象的表示模型包括以下一种或多种方式：

用户根据需要手动选择表示模型；或者，

根据目标检测器的检测结果选择表示模型。

每一个视频对象表示模型可以表示为{K，F，D，C，m，n，p，q}，K＝{K₁，K₂，...，K_m}，K_i＝{x_i，y_i}表示该模型结构点的位置，F＝{F₁，F₂，...，F_n}为所对应的目标检测器，D＝{D₁，D₂，...，D_p}表示该模型的填充图，用于表示各个点属于感兴趣对象的概率，C＝{C₁，C₂，...，C_q}表示由各个结构点构成的轮廓。m、n、p、q分别对应结构点的数目、目标检测器的数目、整个模型的像素点数目与由各个结构点构成的轮廓的像素数目。D的计算基于任意一种概率填充(Probability Filling方法)对整个模型进行填充。概率填充方法的要求就是填充后的模型可以反映各部分的置信度，可以采用任意有类似性质的函数进行填充，例如高斯函数填充、指数函数填充、sigmoid函数等等。这里以比较常用的距离变换(Distance Transform)为例。首先计算各个像素距离该轮廓各点的距离，d₁，d₂，...，d_q，并取其中最小值d_i＝min(d_j，j＝1，2，...，p)作为该点到轮廓C的距离。对于轮廓包围区域内的点，模型填充值为T_i＝min(D_i/tv1，1)×255；对于轮廓包围区域外的点，其模型填充值为T_i＝min(1-D_i/tv2，0)×255，其中tv1，tv2为填充比例因子。

计算模块400用于根据运动方程，对视频对象的区域模型计算出初始的种子区域。

还包括修正模块600，用于利用目标检测技术对计算模块400得到的种子区域进行修正。

进一步而言，修正模块600利用目标检测技术对种子区域进行修正包括以下步骤：

修正种子区域的位置信息；

根据运动方程对位置信息和种子区域的大小尺寸进行修正；

对种子区域的轮廓进行修正。

x_inew＝s×(ax_iold+by_iold+(O_cnew-O_cold))

y_inew＝s×(cx_iold+dy_iold+(O_cnew-O_cold))；

Conv(x，y)＝w_c×Conv_color(x，y)+(1-w_c)×Conv_edge(x，y)+w_d×D(x，y)；

还包括：修正模块600对种子区域基于局部边缘颜色信息与边缘信息对种子区域进行调整。

分割模块500用于使用图分割方法分割得到修正后的种子区域，获取视频对象。

分割模块500使用图分割方法得到视频对象之后，还包括：修正模块600通过形态学滤波方法或边缘修正方法对视频对象进行后处理。

形态学滤波使用一个K×K的核与视频对象进行卷积，通过对卷积结果的图像形态学分析，进而消除视频对象的突出部分与填充视频对象的凹陷部分，如图10左图人头上的缺失处。边缘修正首先使用哈夫变换(HoughTransform)提取图像中较长边缘，计算局部斜率，然后根据该斜率修正边缘上每一点的位置。

为了进一步阐述本发明，下面以感兴趣对象为人体为例，举例说明采用本发明提出的上述方法或设备在具体应用过程中，可能涉及的过程：

(1)采用自动或半自动(交互)的方法得到视频中t时刻，感兴趣对象的模型类型与初始位置。半自动的方法包括但不限于如下的方法：用户手动选择感兴趣对象模型并采用交互的方法确定其位置；自动的方法包括但不限于如下的方法：使用多目标检测器检测t时刻中的对象并确定其类型；

(2)提取视频图像中的特征点，根据相邻两帧的相关性，得到视频的运动信息。该运动信息可以采用特征点跟踪的方法，但不限于特征点跟踪的方法。特征点可以采用FAST、SIFT、SURF、BRIEF等方法，但不限于上面的方法。

(3)基于相邻两帧的运动关系，更新t+1时刻的感兴趣对象模型，包括但不限于以下三步：1)使用目标检测与特征点匹配得到的运动信息更新模型结构点2)更新轮廓点与模型填充值3)根据局部区域的颜色、边缘进一步细化轮廓点。

(4)根据t+1时刻的感兴趣对象模型，得到t+1时刻的种子区域信息，将对象从t+1时刻的视频背景中分割出来。分割的方法可以采用图割的方法，但不限于图割的方法。其他方法如轮廓跟踪(Contour tracking)、基于颜色概率的边缘检测(Edge detection based on color probability)等等。

(5)将提出出来的对象与一新的背景进行合成操作。新的背景可以是静态图片，也可以是动态视频；可以是2D的也可以是3D的。分割出的主体可以与新背景处于不同的光照条件。

(6)对合成后的图像进行后处理，得到好的视觉效果。合成后的图像进行后处理，后处理的方法包括形态学滤波，alpha-matting等方法，但不限于上面的方法。后处理用来消除闪烁、前景边缘的毛刺等细节部分。

如图12所示，为本发明在视频聊天系统的一个简单应用。该系统提取视频聊天中的聊天者，左图为通过摄像头采取的实时场景，右图为在另一方设备上看到的效果图。

如图13所示，为本发明应用于交通监控中，限定感兴趣对象为某人或者某个特定车辆。

作为本发明的实施例，将本发明提出的方案应用于终端设备中，例如，终端设备包括通信单元和视频对象提取单元。

通信单元，用于与其他终端设备进行通信，并获取视频信息输入所述视频对象提取单元。

视频对象提取单元完成本发明提出的上述视频对象提取功能，包括检测模块、匹配模块、选择模块、计算模块和分割模块。

检测模块用于对视频的单帧图像进行检测，获取相邻两帧中每帧图像的特征点；

匹配模块用于对相邻两帧中的特征点进行匹配，确定相邻两帧中对象的运动方程；

选择模块用于选择视频对象的表示模型，根据概率填充方法对所述表示模型进行填充，得到所述视频对象的区域模型；

计算模块用于根据所述运动方程，对所述视频对象的区域模型计算出初始的种子区域；

分割模块用于使用图分割方法分割得到修正后的所述种子区域，获取所述视频对象。更进一步的技术细节，参考前文披露的内容。

作为本发明的实施例，将本发明提出的方案应用于视频监控系统，包括视频输入设备和视频对象提取的设备。

视频输入设备包括以下任意一种设备：相机、摄像头、摄像机或录像机；

视频对象提取的设备为本发明前文描述的具体视频对象提取的设备模块。

作为本发明的实施例，将本发明提出的方案应用于视频通信系统，包括通信设备和视频对象提取的设备。

通信设备用于向用户提供语音或数据服务，以及获取视频信息输入视频对象提取单元；

在实际应用中，例如，本发明披露的上述方案体现为具体的应用方案包括但不限于以下情况：

1、集成了视频对象提取功能的终端设备，例如，该终端设备除了具有上述视频对象提取的设备具有的功能外，该终端设备还具有语音或数据通信模块。例如，可以通过该终端设备进行用户视频通话，将通话者从当前背景中提取出来放到一幅全新的背景中。此时在另一通话对象的系统屏幕上会显示背景替换后的视频图像。具体操作流程如下：

启动视频通话-自动检测当前通话者-自动提取当前通话者-使用新背景替换当前背景-传输到通话对象的设备。

2、半自动的感兴趣对象选择系统。该系统可以集成入任意包括摄像头的设备中，其根据摄像头输入视频，根据本发明披露的上述方案，自动检测视频中的感兴趣对象主体并将其提取出来。同时，用户也可以手动选择一系列感兴趣对象以获得更好的效果。操作步骤如下：

自动选择：通过摄像头输入视频-自动检测感兴趣对象-自动提取感兴趣对象-输出；

手动选择：通过摄像头输入视频-手动选择感兴趣对象-自动提取感兴趣对象-输出。

3、视频通话/视频会议系统。该系统与视频通讯设备的通话模块相结合，在用户视频通话过程中，将通话者从当前背景中提取出来放到一幅全新的背景中。此时在另一通话对象的系统屏幕上会显示背景替换后的视频图像。具体操作流程如下：

启动通话系统-自动检测当前通话者-自动提取当前通话者-使用新背景替换当前背景-传输到通话对象的设备。本发明公开的上述方案，提出了基于运动估计的感兴趣对象提取技术。通过使用高效的运动估计算法进行种子区域的选择，保证了感兴趣对象提取技术的实时性，解决了之前效率低下的问题。此外，通过结合全局运动、颜色信息与局部的运动、颜色、边缘信息，集成了一系列目标检测(例如人脸检测、头肩检测)与帧间处理方法，可以处理大部分相邻区域的颜色类似的情况，能够有效提升感兴趣对象提取的准确率。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频对象提取的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的视频对象提取的方法，其特征在于，对所述视频对象的区域模型计算出初始的种子区域之后，还包括：

利用目标检测技术对所述种子区域进行修正。

3.如权利要求2所述的视频对象提取的方法，其特征在于，对视频的单帧图像进行检测包括：

通过SURF算法、FAST算法或BRIEF算法对视频的单帧图像进行检测并描述图像的特征点。

4.如权利要求2所述的视频对象提取的方法，其特征在于，选择视频对象的表示模型包括以下一种或多种方式：

用户根据需要手动选择表示模型；或者，

根据目标检测器的检测结果选择表示模型。

5.如权利要求2所述的视频对象提取的方法，其特征在于，利用目标检测技术对所述种子区域进行修正包括以下步骤：

修正所述种子区域的位置信息；

根据运动方程对所述位置信息和所述种子区域的大小尺寸进行修正；

对所述种子区域的轮廓进行修正。

6.如权利要求5所述的视频对象提取的方法，其特征在于，还包括：对所述种子区域基于局部边缘颜色信息与边缘信息对种子区域进行调整。

7.如权利要求2所述的视频对象提取的方法，其特征在于，使用图分割方法得到所述视频对象之后，还包括：通过形态学滤波方法或边缘修正方法对所述视频对象进行后处理。

8.一种视频对象提取的设备，其特征在于，包括检测模块、匹配模块、选择模块、计算模块和分割模块，

9.如权利要求8所述的视频对象提取的设备，其特征在于，还包括修正模块，

所述修正模块，用于利用目标检测技术对所述种子区域进行修正。

10.如权利要求9所述的视频对象提取的设备，其特征在于，所述检测模块通过SURF算法、FAST算法或BRIEF算法对视频的单帧图像进行检测并描述图像的特征点。

11.如权利要求9所述的视频对象提取的设备，其特征在于，所述选择模块选择视频对象的表示模型包括以下一种或多种方式：

用户根据需要手动选择表示模型；或者，

根据目标检测器的检测结果选择表示模型。

12.如权利要求9所述的视频对象提取的设备，其特征在于，所述修正模块利用目标检测技术对所述种子区域进行修正包括以下步骤：

修正所述种子区域的位置信息；

对所述种子区域的轮廓进行修正。

13.如权利要求12所述的视频对象提取的设备，其特征在于，还包括：所述修正模块对所述种子区域基于局部边缘颜色信息与边缘信息对种子区域进行调整。

14.如权利要求9所述的视频对象提取的设备，其特征在于，所述分割模块使用图分割方法得到所述视频对象之后，还包括：所述修正模块通过形态学滤波方法或边缘修正方法对所述视频对象进行后处理。

15.一种终端设备，其特征在于，包括通信单元和视频对象提取单元，

所述通信单元，用于与其他终端设备进行通信，并获取视频信息输入所述视频对象提取单元；

所述视频对象提取单元，包括检测模块、匹配模块、选择模块、修正模块和分割模块，

16.一种视频监控系统，其特征在于，包括视频输入设备和视频对象提取的设备，

所述视频输入设备包括以下任意一种设备：相机、摄像头、摄像机或录像机；

所述视频对象提取的设备为权利要求8至权利要求14任意之一所述的设备。

17.一种视频通信系统，其特征在于，包括通信设备和视频对象提取的设备，

所述通信设备，用于向用户提供语音或数据服务，以及获取视频信息输入所述视频对象提取单元；