CN101375312B

CN101375312B - 多模式关注区视频对象分割

Info

Publication number: CN101375312B
Application number: CN2007800037837A
Authority: CN
Inventors: 哈立德·希勒米·厄勒-马列; 王浩宏
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2006-02-07
Filing date: 2007-02-07
Publication date: 2013-03-20
Anticipated expiration: 2027-02-07
Also published as: KR100997064B1; JP4819912B2; WO2007092906A1; EP1984896A1; JP2009526331A; EP2378486B1; US8150155B2; ATE520102T1; CN101375312A; EP1984896B1; EP2381420A1; KR20080100242A; EP2381420B1; EP2378486A1; US20070183661A1; US20120189168A1; US8605945B2

Abstract

本发明针对用于从视频序列自动分割关注区(ROI)视频对象的技术。ROI对象分割使得能够从视频序列的非ROI或“背景”区域中提取所述视频序列中观看者可能关注的选定ROI或“前景”对象。ROI对象的实例是人类面部或人体的头部及肩部区域。所揭示的技术包括组合ROI特征检测、区分割和背景减除的混合技术。以此方式，所述揭示的技术可生成准确的前景对象和从所述视频序列中对所述前景对象实施低复杂性提取。ROI对象分割系统可实施本文所描述的技术。另外，ROI对象分割可用于各种各样的利用视频序列的多媒体应用程序，例如视频电话应用程序和视频监视应用程序。

Description

多模式关注区视频对象分割

技术领域

本发明涉及视频对象分割，且更明确地说，涉及用于多媒体应用程序的从视频序列中自动分割关注区(ROI)视频对象的技术。

背景技术

自动关注区(ROI)视频对象分割可用于各种各样的利用视频序列的多媒体应用程序。ROI对象可称为视频帧内的“前景”对象，且非ROI区域可称为所述视频帧内的“背景”区域。ROI对象分割使得能够从视频序列的背景中提取所述视频序列中观看者可能关注的选定前景对象。多媒体应用程序可接着优先利用从视频序列分割的ROI对象。ROI对象的典型实例是人类面部或人体的头部及肩部区域。

举例来说，在视频监视应用程序中，可将从所俘获的视频序列分割的ROI对象输入到面部数据库系统中。所述面部数据库系统可使用所分割的ROI对象(例如，人类面部)以准确匹配存储于数据库内的目标面部对象。执法机构可利用此ROI对象分割应用程序来从监视视频序列中识别嫌疑犯。

作为另一实例，在视频电话(VT)应用程序中，可将从所俘获的视频序列分割的ROI对象输入到视频序列编码器。所述视频序列编码器可将更多资源分配给所分割的ROI对象以用更高质量编码所述ROI对象以供传输到接收方。VT应用程序准许用户共享视频和音频信息以支持例如视频会议等应用程序。在VT系统中，用户可发送和接收视频信息，仅接收视频信息，或仅发送视频信息。接收方通常以从发送方传输视频信息的形式观看所接收的视频信息。通过优先编码所分割的ROI对象，接收方能够比视频序列的非ROI区域更清楚地观看ROI对象。

其它实例包括其中人员播送信息视频的视频广播应用程序，例如现场或预录新闻或娱乐广播。在此类应用程序中，可能需要优先编码对应于演播员(例如新闻记者或访谈节目主持人)的面部的ROI对象。

常规上，自动ROI对象分割集中在运动分析、运动分割和区分割。在一种情况下，基于统计模型的对象分割算法将ROI对象概括为基于斑点(blob-based)的统计区模型和形状模型。因此，ROI对象分割问题可转换为模型检测和追踪问题。在另一情况下，可基于来自立体相机设置的两个视图之间的差别估计而从视频帧提取前景对象。又一情况提议一种ROI对象分割算法，其包括基于区的分割途径和基于特征的分割途径两者。所述算法使用区描述符来表示对象区，所述对象区相对于运动、颜色和纹理特征来说为同类的，且在整个视频序列上对所述对象区进行追踪。

发明内容

本发明针对于用于从视频序列自动分割关注区(ROI)视频对象的技术。ROI对象分割使得能够从视频序列的非ROI或“背景”区域中提取所述视频序列的选定ROI或“前景”对象。ROI对象的实例是人类面部或人体的头部及肩部区域。所揭示的技术包括组合ROI特征检测、区分割和背景减除的混合技术。以此方式，所揭示的技术可提供准确的前景对象生成和从视频序列提取前景对象的低复杂性提取。

所揭示的技术还包括用于基于面部特征的固有特性(例如对称位置和形状特点)而检验在视频序列的视频帧内所检测到的面部特征的技术。另外，所揭示的技术包括用于在视频序列的视频帧内分离多个个别面部的所检测到的面部特征的技术。如本文描述的，多面部分离技术可映射成最大匹配图形理论问题，其可将计算复杂性从指数降低到多项式。以此方式，所述技术提供对视频序列的帧内的每一面部的准确特征检测。

举例来说，ROI对象分割系统可实施本文所描述的技术。ROI对象分割系统支持帧内模式分割和帧间模式分割。帧内模式分割是高复杂性分割模式，其在不使用ROI对象运动信息的情况下独立于视频序列中的其它帧来处理视频序列的帧。帧间模式分割是低复杂性分割模式，其基于ROI对象的运动信息而处理视频序列的帧，所述运动信息指示当前帧与视频序列的先前帧或后续帧之间的运动。ROI对象分割系统可支持多模式分割。明确地说，所述ROI对象分割系统可基于一个或一个分割模式决策因素而决定对所接收的帧执行帧内模式分割还是帧间模式分割，所述分割模式决策因素指示需要高复杂性分割还是低复杂性分割。

所揭示的技术可进一步包括用于在帧内模式分割期间通过从整个帧内的一组候选区中自动选择视频帧的位于ROI对象形状内的界定区而生成前景对象的技术。所揭示的技术还包括用于在帧间模式分割期间基于背景建模和减除而检测前景对象内的移动区的技术。成功检测移动前景区可改进帧间模式分割期间的ROI特征检测的执行速度。

在一个实施例中，本发明提供一种方法，其包含：接收视频序列的视频帧；以及向所述视频帧应用一个或一个以上分割模式决策因素。所述方法还包含：当所述一个或一个以上分割模式决策因素选择高复杂性分割模式时，在不参考所述视频帧的运动信息的情况下从所述视频帧分割ROI对象；以及当所述一个或一个以上分割模式决策因素选择低复杂性分割模式时，基于所述视频帧和所述视频序列的不同视频帧的运动信息而从所述视频帧分割ROI对象。

在另一实施例中，本发明提供一种计算机可读媒体，其包含使可编程处理器执行以下操作的指令：接收视频序列的视频帧；以及向所述视频帧应用一个或一个以上分割模式决策因素。所述指令还使可编程处理器执行以下操作：当所述一个或一个以上分割模式决策因素选择高复杂性分割模式时，在不参考所述视频帧的运动信息的情况下从所述视频帧分割ROI对象；以及当所述一个或一个以上分割模式决策因素选择低复杂性分割模式时，基于所述视频帧和所述视频序列的不同视频帧的运动信息而从所述视频帧分割ROI对象。

在另一实施例中，提供一种包括处理器的视频编码装置，所述处理器经编程以执行以下操作：向视频序列的视频帧应用一个或一个以上分割模式决策因素以选择高复杂性分割模式或低复杂性分割模式；当选择高复杂性分割模式时，在不参考所述视频帧的运动信息的情况下从所述视频帧分割关注区(ROI)对象；以及当选择低复杂性分割模式时，基于所述视频帧和所述视频序列的不同视频帧的运动信息而从所述视频帧分割ROI对象。

本文描述的技术可在硬件、软件、固件或其任何组合中实施。如果在软件中实施，那么所述技术可部分地由包含程序代码的计算机可读媒体实现，所述程序代码含有在由可编程处理器执行时执行一种或一种以上本文描述的方法的指令。

附图和以下描述中陈述一个或一个以上实施例的细节。将从描述和附图以及权利要求书中容易了解其它特征、目的和优点。

附图说明

图1是说明实施用于从视频序列自动分割ROI视频对象的技术的关注区(ROI)对象分割系统的方框图。

图2A和2B是说明视频序列的视频帧内的ROI对象和非ROI区域的界定的图。

图3说明视频序列的ROI对象内所呈现的对象移动/旋转变化和对象形状变形。

图4说明视频序列的ROI对象内的人员的面部表情变化。

图5A是说明来自图1的ROI对象分割系统的示范性操作的流程图。

图5B是更详细说明来自图5A的分割模式决策的流程图。

图6是说明在对从视频源所接收的视频序列的帧执行帧内模式分割时的ROI对象分割系统的方框图。

图7到13是说明在帧内模式分割期间由ROI对象分割系统实施的技术的示范性结果的屏幕截图。

图14是说明执行帧内模式分割的ROI对象分割系统的操作的流程图。

图15是说明在对从视频源所接收的视频序列的帧执行帧间模式分割时的ROI对象分割系统的方框图。

图16和17是说明在帧间模式分割期间由ROI对象分割系统实施的技术的示范性结果的屏幕截图。

图18是说明执行帧间模式分割的ROI对象分割系统的操作的流程图。

具体实施方式

图1是说明实施用于从视频序列自动分割ROI视频对象的技术的关注区(ROI)对象分割系统14的方框图。ROI对象分割可用于各种各样的利用视频序列的多媒体应用程序，例如视频电话(VT)应用程序和视频监视应用程序。

举例来说，在视频监视应用程序中，可将从所俘获的视频序列分割的ROI对象输入到面部数据库系统中。所述面部数据库系统可使用所分割的ROI对象(例如，人类面部)以准确匹配存储于数据库内的目标面部对象。

作为另一实例，在VT应用程序中，可将从所俘获的视频序列分割的ROI对象输入到视频序列编码器。所述视频序列编码器可将更多资源分配给所分割的ROI对象以用更高质量编码所述ROI对象以供传输到接收方。

如图1所示，系统14从视频源12接收视频序列。视频源12可以是获得视频序列的视频俘获装置(例如相机)或存储预录的视频序列的视频档案。系统14自动分割来自所接收的视频序列的ROI对象。ROI对象分割系统14在ROI对象分割过程期间将从视频源12获得的视频序列的视频帧存储到视频存储器16中。在处理视频序列的每一帧之后，系统14将所分割的视频帧的输出图像发送到多媒体应用程序18。

举例来说，ROI对象可包含人类面部或人体的头部及肩部区域。ROI对象可称为视频帧内的“前景”对象，且非ROI区域可称为所述视频帧内的“背景”区域。ROI对象分割系统14从视频序列的背景区域中提取所述视频序列的帧中多媒体应用程序18的用户可能关注的一个或一个以上选定前景对象。多媒体应用程序18可优先利用从视频序列分割的ROI对象。在一个实施例中，多媒体应用程序18可包含视频监视应用程序，其并入有面部数据库系统。在另一实施例中，多媒体应用程序18可包含视频电话(VT)应用程序，其并入有支持ROI的视频编码器-解码器(CODEC)。

在多媒体应用程序18包含视频监视应用程序的实施例中，可将从所俘获的视频序列分割的ROI对象输入到面部数据库系统中。在此情况下，视频源12可以是视频档案，其存储来自监视相机的预录视频序列。面部数据库系统可使用所分割的ROI对象(例如，人类面部)以准确匹配存储于数据库内的目标面部对象。执法机构可利用ROI对象分割系统14连同面部数据库系统以便从监视视频序列中识别嫌疑犯。

在多媒体应用程序18包含VT应用程序的实施例中，可将从所俘获的视频序列分割的ROI对象输入到支持ROI的视频编码器中。VT应用程序准许用户共享视频和音频信息以支持例如视频会议等应用程序。在VT系统中，用户可发送和接收视频信息，仅接收视频信息，或仅发送视频信息。在此情况下，视频源12可以是获得视频序列的视频俘获装置，例如相机。举例来说，视频源12可包含视频相机，视频相机包括在能够参加与另一通信装置的视频电话的通信装置内。

支持ROI的视频编码器可驻留在通信装置内，所述通信装置进一步包括恰当的传输、接收、调制解调器和处理电子元件以支持有线或无线通信。举例来说，支持ROI的视频编码器可驻留在经装备以与其它终端通信的无线移动终端或有线终端内。无线移动终端的实例包括移动无线电电话、移动个人数字助理(PDA)、移动计算机或装备有无线通信能力和视频编码和/或解码能力的其它移动装置。举例来说，支持ROI的视频编码器可驻留在VT应用程序中所使用的所谓的相机电话或视频电话内。有线终端的实例包括桌上型计算机、视频电话、网络器具、机顶盒、交互式电视等。

支持ROI的视频编码器可优先编码所分割的ROI对象，所述ROI对象包括在从ROI对象分割系统14接收的输出图像中。举例来说，支持ROI的视频编码器可向视频帧的ROI对象分配额外的编码位且向视频帧的非ROI区域分配降低数目的编码位。明确地说，在移动应用程序中，可用于编码视频帧的编码位的量可能较低且根据无线信道条件而改变。因此，向ROI对象优先分配编码位可有助于改进ROI对象的视觉质量，同时有效符合适用的位速率要求。因此，通过优先编码ROI对象，接收方能够比视频序列的非ROI区域更清楚地观看ROI对象。接着可经由有线或无线通信信道将所编码的视频帧传输到另一通信装置。

如上所述，ROI对象分割系统14可实施用于从视频序列自动分割ROI视频对象的技术。所揭示的技术包括组合检测视频序列的视频帧内的ROI特征(即，面罩和面部特征)、将视频帧分割成多个候选区和基于所述视频帧和所述视频序列的先前视频帧而执行背景(非ROI)减除的混合技术。以此方式，所揭示的技术可提供准确的前景(ROI)对象生成和从视频序列中的帧提取前景对象的低复杂性提取。

所揭示的技术还包括用于基于面部特征的固有特性(例如对称位置和形状特点)而检验在视频序列的视频帧内所检测到的面部特征的技术。另外，所揭示的技术包括用于在视频序列的视频帧内分离多个个别面部的所检测到的面部特征的技术。如本文描述的，多面部分离技术可映射成最大匹配方案问题，其可将计算复杂性从指数降低到多项式。以此方式，所述技术提供对视频序列的帧内的每一面部的准确特征检测并降低处理要求。

ROI对象分割系统14支持多个(例如，两个)分割模式：帧内模式和帧间模式。帧内模式分割独立于视频序列中的其它帧而处理所述视频序列的一个帧。在此情况下，不使用ROI对象运动信息。帧内模式分割是第一高复杂性分割模式。帧间模式分割是第二低复杂性分割模式，其基于先前或后续帧信息而处理视频序列的帧，且通常是较低复杂性分割模式。帧间模式分割利用当前帧与视频序列的一个或一个以上先前帧或后续帧之间的ROI对象的运动信息。因此，帧间模式分割是相对低复杂性分割模式。

ROI对象分割系统14可基于一个或一个以上分割模式决策因素而决定对所接收的帧执行帧内模式分割还是帧间模式分割。在选择高复杂性分割模式时，应用在不参考视频帧的运动信息的情况下分割从视频帧分割ROI对象(即，帧内模式分割)。在选择低复杂性分割模式时，应用基于视频帧和视频序列的不同视频帧的运动信息而从视频帧分割ROI对象。

所揭示的技术进一步包括用于在帧内模式分割期间通过从整个帧内的一组候选区中自动选择视频帧的位于ROI对象形状内的界定区而生成前景对象的技术。所揭示的技术还包括用于在帧间模式分割期间基于背景建模和减除而检测前景对象内的移动区的技术。成功检测移动前景区可改进帧间模式分割期间的ROI特征检测的执行速度。背景建模和减除技术对于噪声和移动背景区来说是稳固的。所述技术还大致上比采用计算密集型运动估计操作的移动对象分割途径更有效。

在帧内模式分割的情况下，ROI对象分割系统14首先检测视频帧内的面罩且接着检测所述面罩内的面部特征，例如人类眼部和嘴部。系统14接着基于人类面部特征的几何特性和形状特点而执行特征检验以移除错误的面部特征检测。此后，系统14确定所述帧是否包括一个以上人员面部并将所检测到的面部特征分离到用于各个面部的群组中。基于面部特征的几何位置和ROI几何模型，近似推得ROI对象形状。举例来说，ROI几何模型可包含人类头部及肩部几何模型。

系统14对视频帧执行区生长以生成一组候选区。系统14接着通过从整个帧的所述组候选区选择位于所得ROI对象形状内的区而生成前景对象。系统14接着确定是否存在一个以上前景对象并将多个前景对象合并在一起以形成输出图像的组合前景对象。在合并所述多个前景对象之后，如果适用的话，系统14将所述分割的帧的输出图像发送到多媒体应用程序18，例如用于在监视应用程序中进行个人身份检测或在VT应用程序中进行优先编码。

在帧间模式分割的情况下，ROI对象分割系统14使用背景建模和减除技术以利用视频序列的连续视频帧的时间相关。以此方式，本文所描述的技术提供增强的效率。系统14将ROI对象内的处于当前帧与先前帧之间的移动像素分类为前景像素。系统14接着基于所述前景像素而生成移动前景区。系统14可接着检测移动前景区内的ROI特征和先前帧内的面罩和面部特征位置。以此方式，系统14降低针对视频序列的每一帧执行区分割的计算复杂性。系统14接着将移动前景区与先前帧的前景对象合并以形成输出图像，且将所述分割的帧的输出图像发送到多媒体应用程序18。

ROI对象分割系统14可在硬件、软件、固件或其任何组合中实施。举例来说，ROI对象分割系统14的各个方面可在一个或一个以上数字信号处理器(DSP)、微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或任何其它等效集成或离散逻辑电路以及此类组件的任何组合内实施。术语“处理器”可大体上指代前述逻辑电路中的任一者(其为单独的或结合其它逻辑电路)，且可指代此类处理器中的一者或一者以上。当在软件中实施时，归因于ROI对象分割系统14的功能性可实施为计算机可读媒体上的指令，所述计算机可读媒体例如为随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性媒体、光学媒体等。执行所述指令以支持本发明中所描述的功能性的一个或一个以上方面。

图2A和2B是说明视频序列的视频帧22内的ROI对象24和非ROI区域25的界定的图。在图2B的实例中，将ROI对象描绘为头部及肩部ROI对象24。在其它实施例中，ROI对象可包含矩形ROI对象或可能具有圆形的或不规则形状的非矩形ROI对象。ROI对象24含有视频帧22中所呈现的人员的面部26。非ROI区域25(即，背景)在图2B通过阴影突出。

可通过来自图1的ROI对象分割系统14从视频序列自动分割ROI对象24。对于VT应用程序来说，通信装置可用支持ROI的编码器优先编码ROI对象24。在此情况下，ROI对象24可包含视频帧22的含有视频会议参与者的面部26的部分。其它实例包括优先编码串流视频(例如，信息视频或新闻或娱乐广播)中播送信息的人员的面部。ROI对象24的大小、形状和位置可以是固定的或可调整的，且可用多种方式界定、描述或调整。

ROI对象24准许视频发送方强调所传输的视频帧22内的个别对象，例如人员的面部26。相反，ROI对象24准许视频接收方更清楚地观看所接收的视频帧22内的所需对象。在任一情况下，用相对于非ROI区域25(例如视频帧22的背景区)的更高图像质量编码ROI对象24内的面部26。以此方式，用户能够更清楚地观看面部表情、嘴唇移动、眼部移动等。在一些实施例中，还可不仅用额外编码位而且用增强的错误检测和弹性来编码ROI对象。

图3说明视频序列的ROI对象内所呈现的对象移动/旋转和对象形状变形。明确地说，图3的帧0和1中所绘示的人员头部显著改变其位置。在图3的实例中，人员头部在帧1中相对于帧0倾斜。图4说明视频序列的ROI对象内的人员的面部表情变化。明确地说，帧0和1中所绘示的人员嘴部从大致闭合位置转变为张开位置。因此，图3和4表示视频序列的ROI对象中的大量移动的情况。

图5A是说明来自图1的ROI对象分割系统14的示范性操作的流程图。ROI对象分割系统14实施用于从视频序列自动分割ROI对象的技术。如上所述，ROI对象分割系统14支持帧内模式分割和帧间模式分割两者以处理视频序列。

ROI对象分割系统14从视频源12接收视频序列的第一帧(30)。ROI对象分割系统14对所接收的帧执行帧内模式分割(32)。帧内模式分割独立于所述视频序列中的其它帧而处理视频序列的当前帧。在帧内模式分割的情况下，ROI对象分割系统14不使用ROI对象运动信息。在执行帧内模式分割的同时，ROI对象分割系统14将视频序列的所接收帧存储在视频存储器16中。ROI对象分割系统14接着将所分割帧的输出图像发送到多媒体应用程序18(34)。

ROI对象分割系统14从视频源12接收视频序列的下一帧(36)。系统14接着作出模式决策以确定对所接收帧执行帧内模式分割还是帧间模式分割(37)。模式决策可基于一个或一个以上分割模式决策因素。举例来说，系统14可基于例如以下分割模式决策因素来决定待对所接收帧执行哪种分割模式：所接收帧的计算复杂性、所接收帧的所需分割质量、所接收帧与先前帧之间的相似量、所接收帧与先前帧之间的运动活动量、用于先前帧的分割模式和自从上一帧内模式过程以来所分割的帧数目。在其它实施例中，分割模式决策可基于额外的分割模式决策因素。

当系统14决定不执行帧内模式分割(37的否分支)时，ROI对象分割系统14基于先前帧而对所接收帧执行帧间模式分割(38)。在此情况下，ROI对象分割系统14从视频序列的先前帧(例如，从视频存储器16)检索运动信息，且使用当前帧与先前帧之间的ROI对象的运动信息。在执行帧间模式分割时，ROI对象分割系统14将视频序列的所接收帧存储在视频存储器16中。ROI对象分割系统14接着将所分割帧的输出图像发送到多媒体应用程序18(40)。

ROI对象分割系统14继续从视频源12接收视频序列的帧。当系统14决定执行帧间模式分割(例如37的“是”分支)时，ROI分割系统14再次对所接收帧执行帧内模式分割(32)。因此，ROI对象分割系统14对从视频源12接收的视频序列的一些帧执行帧内模式分割，且对视频序列的其它帧执行帧间模式分割。

图5B是更详细说明来自图5A的分割模式决策(步骤37)的流程图。ROI对象分割系统14可基于一个或一个以上分割模式决策因素而作出分割模式决策。系统14可执行图5中所说明的一个或一个以上步骤以确定待对所接收帧执行的分割模式。在一些实施例中，系统14可单个地执行所述步骤，或以任何次序组合一个或一个以上所述步骤。在其它实施例中，ROI对象分割系统14可在决定对所接收帧执行帧内模式分割还是帧间模式分割时考虑额外的分割模式决策因素。

系统14可确定所接收帧的计算复杂性(46)。举例来说，系统14可检查所接收的帧以确定所接收帧中所包括的候选ROI特征的数目。如果所述帧包括大量ROI特征，那么所接收帧可能对于帧间模式分割过程来说过于复杂而不能准确地从所述帧分割ROI对象。因此，系统14可在计算复杂性高于预定水平时决定执行帧内模式分割，以便处理高复杂性视频帧。系统14还可从最终用户确定所需分割质量(48)。举例来说，如果实施ROI分割系统14的视频通信装置的最终用户对于所接收的视频帧请求高于预定水平的分割质量，那么系统14可对所接收帧执行帧内模式分割。相反，如果最终用户对于所接收的视频帧请求低于预定水平的分割质量，那么系统14可对所接收帧执行帧间模式分割。

另外，系统14可确定所接收帧与先前帧之间的相似量(50)。举例来说，系统14可将所接收帧与先前帧进行比较，以确定所述两个帧的色彩直方图之间的相似量是否高于预定水平。所述两个帧之间的较大色彩变化指示场景可能有所变化。在此情况下，系统14可执行帧内模式分割以便分割所接收帧内的潜在新ROI对象。如果色彩直方图在所述两个帧之间保持大致相似，那么系统14可执行帧间模式分割。

系统14可确定所接收帧与先前帧之间的运动活动量(52)。举例来说，系统14可将所接收帧与先前帧进行比较，以确定ROI对象在所述帧内的位置之间的移动量是否高于预定水平。如果ROI对象在所述两个帧内占据显著不同区域或位置，那么系统14可执行帧内模式分割。如果ROI对象在所述两个帧内占据大致相同区域或位置，那么系统14可执行帧间模式分割。

在以上步骤中，视频序列的ROI分割过程可包括以任何次序对视频序列的视频帧执行的任何数目的帧内模式分割和帧间模式分割。举例来说，可将帧内模式分割表示为0，且可将帧间模式分割表示为1。示范性视频序列分割中的一组帧的帧内模式(0)和帧间模式状态(1)可表示为：0011011110。在此情况下，分割模式决策完全基于所接收帧的或所接收帧与先前帧之间的属性。

系统14还可基于用于分割先前帧的分割模式而确定待对所接收帧执行哪种分割模式。系统14可确定先前帧是否由帧内模式过程分割(54)。如果先前帧由帧内模式过程分割，那么系统14可决定由帧间模式过程分割所接收帧。在此步骤中，视频序列的ROI分割过程可包括对视频序列的视频帧执行的任何数目的帧内模式分割和帧间模式分割，使得帧间模式分割总是跟随帧内模式分割。示范性视频序列分割中的一组帧的帧内模式(0)和帧间模式状态(1)可表示为：0110111101。在此情况下，分割模式决策完全基于先前帧的分割模式。

另外，系统14可确定自从上一帧内模式分割帧以来所分割的帧数目(56)。举例来说，系统14可在周期性基础上(例如每N个帧)决定执行帧内模式分割。在一些情况下，第N个帧可包含第10个帧。在其它实施例中，N可等于多于或少于10个帧。在此步骤中，视频序列的ROI分割过程可包括对视频序列的视频帧执行的任何数目的帧内模式分割和帧间模式分割，使得周期性执行帧内模式分割。示范性视频序列分割中的一组帧的帧内模式(0)和帧间模式状态(1)可表示为：0111011101。在此情况下，分割模式决策是基于每隔3个帧执行帧内模式分割。

图6是说明在对从视频源12接收的视频序列的帧执行帧内模式分割时的ROI对象分割系统14的方框图。在此情况下，ROI对象分割系统14独立于所述视频序列的其它帧且在没有运动信息的情况下处理视频序列的一个帧。图7到13是说明在帧内模式分割期间由ROI对象分割系统14实施的技术的示范性结果的屏幕截图。

在图6所说明的实施例中，视频源12包括色度蓝信道(Cb)60、色度红信道(Cr)61和亮度信道(Y)62。ROI对象分割系统14实施用以从自视频源12接收的视频序列的视频帧自动分割ROI对象(例如人类头部及肩部区域)的技术。所揭示的技术包括在帧内模式分割期间将基于特征和基于模型的检测与区分割组合的混合技术。

ROI对象分割系统14包括面罩检测器64，其基于从视频源12的色度蓝信道60和色度红信道61接收的蓝和红信道色度值而检测视频帧内的皮肤颜色区。面罩检测器64接着将所检测到的皮肤颜色区的像素分类为面部像素。以此方式，面罩检测器64可通过移除所接收帧内不是面部像素的像素来获得面罩。在获得面罩之后，面罩检测器64使用膨胀与腐蚀的数学形态运算以移除面罩内由面部特征(例如眼部和嘴部区)引起的噪声和孔。图7说明对标准“母女”视频测试序列的帧执行的快速面罩检测的实例。

通常，面罩检测器64使用皮肤颜色映射，其可通过存在狭窄且相容地分布在YCbCr色彩空间中的一组特定色度值而识别视频帧内的皮肤颜色区。皮肤颜色映射对于不同类型的皮肤颜色来说是稳固的。人类种族的皮肤颜色看起来不同的主要原因是皮肤的暗度或明度。换句话说，皮肤颜色由色彩的明亮度差异表征，明亮度由Y管理而非由Cr或Cb管理。因此，可仅基于所接收帧的Cr和Cb分量而实现有效的皮肤颜色映射。面罩检测器64可利用范围为Cr∈[133，173]且Cb∈[77，127]的CbCr皮肤颜色映射来检测所接收的视频帧内的皮肤颜色区。然而，不应将Cr和Cb范围认为是限制性的，且面罩检测器64可利用具有不同Cr和Cb范围的皮肤颜色映射。

在一些情况下，面罩检测器64可能不能够专门获得人类面部。如图7中所说明，所述帧内的母亲和女儿的衣服区看起来具有与皮肤色调映射所定义的色调类似的色调。因此，面罩检测器64可能错误地将衣服区选择作为面罩的一部分。本文所描述的快速面罩检测步骤移除所述帧内的一些非面部区，但可能需要进一步处理以获得并检验准确的面部区。

系统14还包括：眼部检测器66和嘴部检测器67，其检测面罩内的候选面部特征；以及特征检验模型68，其从候选眼部和嘴部中选择面部特征。通常基于关于人类面部和其特征的常识(例如面部区的椭圆形状和面部特征间的整体空间关系限制)而建立面部过滤器。因此，定位这些面部特征可用于推导视频帧内的恰当面部位置。

眼部检测器66检测由面罩检测器64获得的面罩内的候选眼部特征。眼部检测器66基于两个观测而检测候选眼部特征。第一，眼部周围的色度分量通常含有高Cb值和低Cr值。因此，眼部检测器66可基于下文给出的等式(1)而构造所述帧的色度眼部映射。

C = \frac{{Cb}^{2} + {(225 - Cr)}^{2} + (Cb / Cr)}{3} - - - (1)

一旦获得色度眼部映射，眼部检测器66便可向所述眼部映射内的每一像素的色度(C)眼部映射值应用阈值，以定位候选眼部在眼部映射内的最明亮区。眼部检测器66接着应用形态运算以将充分接近的最明亮区合并为单个候选眼部。图8A说明“母女”视频测试序列的帧的色度眼部映射内的眼部检测的实例。

第二，眼部通常在亮度分量中含有黑暗像素和明亮像素两者。因此，灰阶形态算子可用于强调眼部区周围的亮度分量中的较明亮和较黑暗像素。眼部检测器66可基于下文给出的等式(2)而构造所述帧的亮度眼部映射。

一旦获得亮度眼部映射，眼部检测器66便可向眼部映射内的每一像素的亮度(L)眼部映射值应用阈值，以定位候选眼部在眼部映射内的最明亮区。眼部检测器66接着应用形态运算以将充分接近的最明亮区合并为单个候选眼部。图8B说明“母女”视频测试序列的帧的色度眼部映射内的眼部检测的实例。

眼部检测器66将在色度眼部映射(图8A所示)内所检测到的候选眼部与在亮度眼部映射(图8B所示)内所检测到的候选眼部组合，以找到面罩内的最终候选眼部。然而，在一些情况下，最终候选眼部仍可能含有不正确的候选眼部。可稍后在特征检验过程期间移除这些无关的候选眼部。

嘴部检测器67检测面罩检测器64所获得的面罩内的候选嘴部特征。通常，嘴部区的颜色与其它面部区相比含有较强的红分量和较弱的蓝分量。因此，在嘴部区中，色度分量Cr应大于色度分量Cb。然而，嘴部区在Cr/Cb特征中具有相对较低的响应，但在Cr²特征中具有相对较高的响应。嘴部检测器67可基于下文给出的等式(3)和(4)而构造所述帧的嘴部映射。

M = {Cr}^{2} {({Cr}^{2} - λ \frac{Cr}{Cb})}^{2},

其中(3)

一旦获得嘴部映射，嘴部检测器67便可向嘴部映射内的每一像素的嘴部(M)值应用阈值，以定位候选嘴部在嘴部映射内的最明亮区。嘴部检测器67接着应用形态运算以将充分接近的最明亮区合并为单个候选嘴部。图9说明“母女”视频测试序列的帧的嘴部映射内的嘴部检测的实例。

特征检验模块68检验由眼部检测器66和嘴部检测器67在面罩内检测到的候选面部特征，以从候选眼部和嘴部中选择正确的面部特征。特征检验模块68确保稳固的ROI特征检测过程。虽然上文描述的眼部和嘴部映射过程可有效分类眼部区和嘴部区，但一些错误分类仍可能导致错误的面部特征检测。特征检验模块68执行三个检验步骤以检验面罩内的候选面部特征并移除任何错误的面部特征检测。

第一，在面部形貌方面，观测到面部特征通常位于“凹谷”区(即，凹陷区)中，所述“凹谷”区由所述区内部的高强度对比度表征。因此，特征检验模块68通过执行灰阶接近和膨胀形态运算来识别所述凹谷区。特征检验模块68接着将所述帧内的候选面部特征的位置与所述帧内的凹谷区的位置进行比较。如果候选面部特征没有至少部分地与所检测到的凹谷区的一区域重叠，那么特征检验模块68将不考虑所述候选面部特征。因此，为了保留候选面部特征，特征检验模块68需要将所述特征与所识别的凹谷区中的一者相互关联。图10A说明在“母女”视频序列的帧内所识别的凹谷区。

第二，特征检验模块68基于双眼的固有特性(例如在所述帧内的对称位置和形状特点)而检验候选眼部特征。图10B说明具有各自质心O₁和O₂的双眼的固有特性。举例来说，双眼相对于面部的长轴A而对称，使得|AO₁|＝|AO₂|，双眼具有相似面积且双眼具有相似形状，其可通过投射到轴OA来进行比较。双眼还相对于各自PCA(主要成分分析)轴(PCA₁和PCA₂)而对称。另外，通常可在双眼上方检测到眉毛。

特征检验模块68可利用加权分值系统来检验面罩内的候选眼部特征。在此情况下，特征检验模块68基于双眼特性而核查许多基准，并为所述基准中的每一者提供分值。举例来说，特征检验模块68确定眼部质心位置是否在凹谷区内部。接下来，特征检验模块68确定眼部质心和所检测到的虹膜的位置是否充分接近。可通过将眼部中的强度值投射到横轴和纵轴上并识别对应于最小累积总强度值的点来找到虹膜位置。特征检验模块68接着确定是否在眼部上方找到了眉毛。接下来，特征检验模块68确定眼部的PCA轴是否在合理方向的范围内，这可通过典型的人类双眼的经验表征来确定。特征检验模块68接着确定所述眼部是否在合理距离内具有双眼，这同样可通过经验表征来确定。接下来，特征检验模块68确定所述双眼是否具有根据轴OA的对称PCA轴。特征检验模块68接着确定所述双眼是否具有根据轴OA的对称形状。

特征检验模块68累积来自上文描述的每一基准的分值，以便从候选特征中选择正确的面部特征且构造视频帧的面部特征映射。可对针对各种个别基准而确定的分值相同地加权，或不同地加权以强调一个或一个以上基准优于其它基准。特征检验模块68将错误检测识别为累积分值低于预设阈值的那些候选面部特征。特征检验模块68接着移除这些经检测为错误的候选面部特征。

第三，特征检验模块68检验面部特征映射内由两个候选眼部和一个候选嘴部的每种可能组合得出的眼部-嘴部三角形。特征检验模块68首先检查眼部-嘴部三角形的几何形状和方位，且不再考虑不合理的眼部-嘴部三角形。被认为不合理的眼部-嘴部三角形是未大体上匹配典型人类的一系列根据经验确定的眼部-嘴部三角形几何形状的那些眼部-嘴部三角形。图10C说明“母女”视频序列的帧的面部特征映射内的两个可能的眼部-嘴部三角形(虚线)。特征检验模块68接着使用模板来检验眼部-嘴部三角形区域的斜度特点。因为人类面部是三维(3D)对象，所以整个面部区内的亮度往往是不均匀的。合理的眼部-嘴部三角形区域应含有鼻子，这使得所述斜度信息比在其它面部区域(例如下颚)中更为复杂。通过使用可从眼部-嘴部三角形区域得到的更具区别性的斜度信息，特征检验模块68可为视频帧中的面部选择正确的候选眼部和嘴部。

系统14还包括多面部分离模块70，其将由特征检验模块68所选择的面部特征分成针对所述帧内的个别面部的群组。在视频帧中包括一个以上面部的视频序列(例如所述母女序列)中，多面部分离模块70将候选眼部和嘴部组分成对应于不同面部的群组。此任务的困难有三重。第一，视频帧内所包括的面部总数目是未知的。第二，可能尚未在视频帧中检测到某些面部特征。第三，彻底核查所有潜在面部特征群组组合具有指数计算复杂性。通过将所述问题简化为将眼部与嘴部配对的任务，可将原有问题映射为图形理论问题，所述图形理论问题具有多项式计算复杂性。所达成的计算复杂性降低可能对于许多应用来说是非常合意的，所述应用包括具有有限功率和处理资源的移动应用和需要快速且可能需要实时结果的其它应用。

通过应用图形理论，多面部分离模块70考虑两分图形G＝(V，E)，其中顶点组V＝{嘴部}+{双眼}且边缘组E＝{(v_i，v_j)}，其中v_i和v_j属于不同组，且节点v_i与v_j之间的距离在合理范围内。如果匹配S被定义为E的子集，使得S中的任何两个边缘均不入射到同一顶点或直接连接的顶点，那么所述问题变成最大匹配方案问题。以此方式，多面部分离过程是原有最大匹配方案问题的变化形式，因为在原有最大匹配方案问题定义中，对匹配的限制仅需要S中的任何两个边缘均不入射到同一顶点。

重要的是，观测将多面部分离问题转换为原有最大匹配方案问题的可能性。如果边缘组E’＝{(v_i，v_j)}，其中存在v_k，使得在将边缘组从E扩展到EUE′之后定义为(v_i，v_k)∈E，(v_j，v_k)∈E但

(v_{i}, v_{j}) &NotElement; E,

那么所述问题变成原有最大匹配方案问题，不同之处只是必须包括额外的限制以使得结果匹配必须是E而非EUE′的子集。因此，多面部分离模块70可以多项式时间复杂性解决多面部分离问题。

系统14包括对象形状近似模块72，其基于ROI对象几何模型而为视频帧内的每一面部近似推得ROI对象形状。举例来说，可基于人类头部及肩部几何模型而在所述帧内近似推得ROI对象形状。在特征检验模块68获得面部的正确眼部-嘴部三角形之后，对象形状近似模块72可基于眼部-嘴部三角形的节点之间的几何关系而建立ROI对象形状，例如头部及肩部模型。

为了在帧内模式分割期间加快执行，对象形状近似模块72可使用简单的矩形模型来近似推得ROI对象形状，例如人类头部及肩部对象形状。对于在视频帧中包括一个以上面部的视频序列，在多面部分离模块70将候选眼部和嘴部分离到用于不同面部的群组中之后，对象形状近似模块72基于单独的眼部-嘴部三角形而为所述面部的每一者近似推得ROI对象形状。举例来说，对象形状近似模块72可为包括在视频帧内的每一面部近似推得头部及肩部对象形状。图11说明针对“母女”视频测试序列的帧内的每一面部定义的头部及肩部对象形状。

ROI对象分割系统14还包括区分割模块74，其对整个帧执行分裂与合并区生长。区分割模块74将原始帧划分成多个同类候选区。当执行分裂与合并区生长时，区分割模块74将视频帧内的相邻像素之间的关系分类到相似类别和相异类别中。可基于所述区中的平均像素强度值而确定区相似性。区分割模块74接着将所连接的相似像素群集为较小区并继续合并这些区以形成最小数目的候选区。图12说明区生长过程，其中最初将视频帧分裂为1195个区，且接着将所述区合并在一起，直到生成22个候选区为止。

系统14进一步包括对象生成模块76，其从整个帧内的候选区自动选择所述帧的位于经近似推得的ROI对象形状内的区。可将选定区认为是前景区，且可将未选区认为是背景区。对象生成模块76接着基于背景区而生成前景对象。

对象生成模块76仅从由区分割模块74生成的所述组候选区中选择位于由对象形状近似模块72近似推得的ROI对象形状内的区。如上文描述，ROI对象形状可包含含有ROI对象(例如，面部)的矩形区域，且可基于所述面部的选定眼部-嘴部三角形而估计ROI对象形状的大小。以此方式，可在ROI对象形状内而非在整个视频帧内进行进一步处理。

对象生成模块76检查视频帧内由区分割模块74生成的候选区中的每一者，且确定所述区是否位于ROI对象形状内。对象生成模块76可将在ROI对象形状内具有多于预定义百分比(例如，60％)的全部像素的区认为是前景区。对象生成模块76可接着将视频帧内的在ROI对象形状内具有少于预定义百分比的全部像素的剩余区认为是背景区。以此方式，对象生成模块76从视频帧内的前景区生成前景对象。

最后，系统14包括对象融合模块78，其将所述帧内的多个前景对象合并为最终输出图像。对于包括一个以上前景对象的视频序列，对象融合模块78合并前景对象以形成输出图像。图13说明针对视频帧内的每一面部生成前景对象且通过合并所述两个前景对象而生成输出图像。ROI对象分割系统14可接着将所分割帧的输出图像发送到多媒体应用程序18。

图14是说明执行帧内模式分割的ROI对象分割系统14的操作的流程图。本文将参看图7所说明的ROI对象分割系统14而描述所述操作。ROI对象分割系统14从视频源12接收视频序列的帧(80)。在帧内模式分割的情况下，ROI对象分割系统14独立于视频序列的其它帧且在没有运动信息的情况下处理视频序列的所接收帧。

面罩检测器64基于所述视频帧内所识别的皮肤颜色区而检测所接收帧内的面罩(82)。面罩检测器64接着将所识别的皮肤颜色区的像素分类为面部像素。以此方式，面罩检测器64可通过移除所接收帧内不是面部像素的像素而获得面罩。

眼部检测器66和嘴部检测器67接着检测所述面罩内的候选面部特征(84)。眼部检测器66可基于面罩内的像素的色度值和亮度值而检测候选眼部特征。嘴部检测器67可基于面罩内的像素的色度值而检测候选嘴部特征。特征检验模块68执行由眼部检测器66和嘴部检测器67检测的候选面部特征的检验，以选择正确的面部特征(86)。

ROI对象分割系统14接着确定所接收的视频帧是否包括一个以上面部(87)。如果视频帧确实包括一个以上面部，那么多面部分离模块70将由特征检验模块68选择的面部特征分离到用于包括在所述帧中的个别面部的群组中(88)。对象形状近似模块72接着基于由特征检验模块68选择的面部特征所界定的ROI对象几何模型而为视频帧内的每一面部近似推得ROI对象形状(90)。举例来说，可基于正确的眼部-嘴部三角形的位置而为所述帧内的每一面部近似推得头部及肩部对象形状。

区分割模块74对整个帧执行分裂与合并区生长(92)。区分割模块74将原始帧划分为多个同类候选区。对象生成模块76接着从整个帧内的候选区中自动选择所述帧的位于经近似推得的ROI对象形状内的区。可将选定区认为是前景区，且可将未选区认为是背景区。对象生成模块76接着基于前景区而生成前景对象(94)。

ROI对象分割系统14确定视频帧是否包括一个以上前景对象(95)。当视频帧包括一个以上前景对象时，对象融合模块78将所述帧内的前景对象合并为最终输出图像(96)。ROI对象分割系统14接着将所分割帧的输出图像发送到多媒体应用程序18(98)。

图15是说明在对从视频源12接收的视频序列的帧执行帧间模式分割时的ROI对象分割系统14的方框图。在此情况下，ROI对象分割系统14基于当前帧和存储在视频存储器16中的视频序列的先前或后续帧之间的ROI对象的运动信息而处理所述视频序列的帧。图16和17是说明在帧间模式分割期间由ROI对象分割系统14实施的技术的示范性结果的屏幕截图。在一些实施例中，ROI对象分割系统14可基于一个或一个以上分割模式决策因素而对视频序列的一些帧执行帧内模式分割(如图6到14中描述)且对视频序列的其它帧执行帧间模式分割(下文描述)。

如上文描述，ROI对象分割系统14实施用以从自视频源12接收的视频序列的视频帧自动分割ROI对象(例如人类头部及肩部区域)的技术。ROI对象分割系统14基于ROI对象的运动信息而执行帧间模式分割。所揭示的技术包括用于基于背景建模和减除而在前景对象内检测移动区的技术。成功检测到移动前景区可改进帧间模式分割期间的ROI特征检测的执行速度。

在图15所说明的实施例中，视频源12同样包括色度蓝信道(Cb)100、色度红信道(Cr)101和亮度信道(Y)102。ROI对象分割系统14进一步包括在执行帧间模式分割时的背景减除模块112，如图15所说明。在此情况下，ROI对象分割系统14还包括在执行帧内模式分割时所使用的组件，如图6所说明。举例来说，ROI对象分割系统14包括ROI特征检测器104，其包含来自图6的面罩检测器64、眼部检测器68和嘴部检测器67。另外，ROI对象分割模块14还包括特征检验模块106、多面部分离模块108、对象形状近似模块110、区分割模块114、对象生成模块116和对象融合模块118，其可以与图6中的相应组件类似的方式进行操作。

背景减除模块112与ROI特征检测器104和区分割模块114交互，以支持帧间模式分割。通过背景减除模块112，系统14识别视频帧的移动前景区，移动前景区表示相对于视频序列中的不同视频帧的移动。明确地说，为了识别移动前景区，背景减除模块112将所述视频帧的ROI对象内的像素的第一位置与所述像素在不同视频帧(例如，所述视频序列中的先前帧)内的第二位置进行比较。

背景减除模块112接着将尚未从第二位置移动的像素分类为背景像素，且将已从第二位置移动的像素分类为前景像素。基于所识别的前景像素而识别移动前景区。系统14接着检测所述视频帧中对应于移动前景区和先前在不同(例如，先前)视频帧中所识别的前景区的组合前景区内的ROI特征。基于所检测到的ROI特征，形状近似模块110近似推得所述视频帧内的ROI对象的形状。

背景减除模块112利用视频序列的连续视频帧的时间相关。背景减除模块112对从视频源12接收的视频序列的ROI对象内的像素进行逐像素分类过程。以此方式，背景减除模块112基于当前帧与从视频存储器16检索的所述视频序列的先前或后续帧之间的运动信息而确定当前帧的哪些像素是背景像素。换句话说，背景减除模块112使用帧间模式操作中可用的额外信息来快速且有效地查找前景对象的移动区。同样，背景减除模块112将当前帧中尚未从其先前位置移动的那些像素分类为背景像素。又，背景减除模块112接着将已从其先前位置移动的那些像素分类为前景像素。以此方式，背景减除模块112更为有效且具有比基于运动估计的技术低的复杂性。

背景减除模块112可提供一个或一个以上益处。举例来说，可将面罩的搜索空间从整个图像缩减到移动前景区加上来自先前帧的面罩区，其可认为是组合前景区。另外，面部特征将位于移动前景区内部或位于与在先前帧中相同的位置处。另一可能的益处是可将连接的移动前景区视为同类区。

图16说明基于“母女”视频序列的帧之间的像素运动的前景像素分类的实例。在图16中，由于从帧8到10的前景对象的移动相当小，所以背景减除模块112仅将头部像素的部分分类为前景像素，而身体像素在前10个帧期间是静止的。

为了执行逐像素分类过程，背景减除模块112应用背景模块。明确地说，背景减除模块112采用K个高斯分布的混合来对像素强度建模(例如，K＝5)，其中根据其用以解释所观测的背景的频率来对每一高斯曲线进行加权。因此，前景区内的某一像素在时间t处具有强度X_t的概率估计为：

P (X_{t}) = Σ_{i = 1}^{K} w_{i, t} \frac{1}{\sqrt{2 π} σ_{i}} e^{\frac{1}{2} {(X_{t} - μ_{i, t})}^{T} Σ^{- 1} (X_{t} - μ_{i, t})}, - - - (5)

其中w_i，t是正规化权数，μ_i和σ_i是第i个分布的平均和标准偏差。

随着每一像素的混合模型的参数改变，背景减除模块112确定所述混合的哪些高斯曲线最有可能是由背景处理生成的。基于启发式信息，背景减除模块112选择具有最具支持性证据和最小方差的高斯分布。这是因为基于w/σ的值来对所述K个分布进行排序。所述模型的这种排序实际上是有序列表，其中最有可能的背景分布保持在顶部，且较不可能的瞬时背景分布朝向底部下降。背景减除模块112可基于下文给出的等式(6)而找出最有可能的分布模型。

B = \arg mi n_{b} (Σ_{j = 1}^{b} w_{j} > T - - - (6)

其中阈值T是给予背景的总权数的分值。

接着，背景减除模块112对照现有的K个高斯分布来核查新像素，直到找到匹配为止。背景减除模块112在分布的平均值与新像素值之间的距离在所述分布的2.5个标准偏差内时找到匹配。如果所述K个分布均不与当前像素值匹配，那么由具有当前新像素值作为平均值、初始高方差和低先前权数的新分布代替具有w/σ最小值的最不可能分布。一般来说，新像素值可始终由K个高斯分布的混合模型的主要分量中的一者表示。如果此匹配的分布是B个背景分布中的一者，那么可将新像素标记为背景。如果不是的话，将所述像素标记为前景。

为了保持所述混合模型的自适应性，背景减除模块112持续使用新的像素值来更新模型参数。对于匹配的高斯分布，背景减除模块112在时间t处用此新像素值X_t更新所有参数。另外，背景减除模块112将先前权数更新为

w_i＝(1-α)w_i-1+α (7)

且将平均值和方差更新为

μ_i＝(1-ρ)μ_i-1+ρX_i (8)

且

σ_{i}^{2} = (1 - ρ) σ_{i - 1}^{2} + ρ {(X_{i} - μ_{i})}^{2} - - - (9)

其中α是控制自适应速度的认知速率，1/α定义确定改变的时间常数，且ρ为与当前像素相关联的可能性，其由认知速率α缩放。因此，ρ可由下式表示：

ρ = α \frac{1}{\sqrt{2 π} σ_{i}} e \frac{{(x_{i} - μ_{i})}^{2}}{σ_{i}^{2}} - - - (10)

对于不匹配的分布，平均值μ_t和方差σ_t保持不变，而背景减除模块112将先前权数更新为

w_i＝(1-α)w_i-1 (11)

此更新方法的一个优点在于，当背景减除模块112允许对象成为背景的一部分时，原始背景模型未被破坏。换句话说，原始背景分布保持在所述混合中，直到其成为最不可能的分布且观测到新色彩为止。因此，如果此静止对象碰巧再次移动，那么背景减除模块112将快速地把先前背景分布重新并入到所述模型中。

一旦背景减除模块112将移动像素分类为前景像素，区分割模块114便可对前景像素执行分裂与合并区生长，以创建视频帧的移动前景区。以此方式，使用经分类的前景像素来合并从区生长途径获得的区，且进而形成前景区。明确地说，通过用分裂与合并生长技术来融合从背景减除生成的移动前景区，可获得前景对象的移动区。

检测前景像素和创建移动前景区可增加帧间模式分割过程的稳固性，并加速ROI特征检测执行。可将对ROI特征的搜索局限于组合前景区，组合前景区包括移动前景区和由先前帧的面罩形成的前景区。图17说明从“母女”视频序列的视频帧的背景区提取的移动前景区。

ROI对象分割系统14可接着使用与用于执行上文描述的帧内模式分割大致相似的技术来完成帧间模式分割过程。举例来说，ROI特征检测器100检测由移动前景区和先前帧内的面罩及面部特征位置形成的组合前景区内的面罩以及面部特征。以此方式，背景减除模块112降低在整个视频帧内执行ROI特征检测的计算复杂性。对象融合模块118接着合并所述前景对象以形成输出图像。ROI对象分割模块14将所分割帧的输出图像发送到多媒体应用程序18。

在所说明的实施例中，在所述视频序列期间没有引入新的面部或面部特征。因此，ROI对象分割系统14可在执行帧间模式分割时跳过特征检验模块108和多面部分离模块108，如在ROI特征检测器104与对象形状近似模块110之间延伸的虚线指示。明确地说，如果所检测到的面部特征位于靠近先前帧中的特征处，这意味着先前帧中的对象不呈现显著移动，那么可通过使用对象形状近似模块110和对象生成模块116来快速生成当前帧的对象，而不需要应用特征检验模块106和多面部分离模块108的功能。

否则，如果引入新的面部或面部特征，那么应用整个过程，即应用特征检验模块106、多面部分离模块108、对象形状近似模块110和对象生成模块116。在对象生成模块116中，将所连接的移动前景区视为同类区。对象融合模块118合并前景对象以形成输出图像。ROI对象分割系统14将所分割帧的输出图像发送到多媒体应用程序18。

面罩和面部特征检测器100可能会在帧间模式分割期间在视频帧内检测到额外的ROI特征。在此情况下，ROI对象分割系统14可使用特征检验模块106来检验新检测到的面部特征。另外，系统14可针对视频帧中所包括的新面部而使用多面部分离模块108，接着使用对象形状近似模块110和对象生成模块116。

图18是说明执行帧间模式分割的ROI对象分割系统14的操作的流程图。本文将参看图15中所说明的ROI对象分割系统14来描述所述操作。ROI对象分割系统14从视频源12接收视频序列的帧，且从视频存储器16检索所述视频序列的先前帧(120)。在帧间模式分割的情况下，ROI对象分割系统14基于当前帧与所述视频序列的先前帧之间的ROI对象的运动信息而处理所述视频序列的帧。在一些实施例中，ROI对象分割系统14可替代地或额外地使用指示相对于后续视频帧的ROI对象运动的运动信息。

背景减除模块112对所接收的视频帧执行背景减除，以将先前帧与当前帧之间的ROI对象内的移动像素分类为前景像素(122)。背景减除模块112进行逐像素分类过程，以便确定当前帧的哪些像素已从其在先前帧中的先前位置移动。一旦背景减除模块112将所述移动像素分类为前景像素，区分割模块114便可对前景像素执行分裂与合并区生长，以创建视频帧的移动前景区(124)。

ROI对象分割系统14可接着使用与用于执行上文描述的帧内模式分割大致类似的技术来完成帧间模式分割过程。ROI特征检测器104在包括移动前景区和来自先前帧的面罩位置两者的区内(即，在组合前景区内)检测面罩(126)。此外，ROI特征检测器104在包括移动前景区和先前帧内的面部特征位置的组合前景区内检测面部特征(例如，候选眼部和嘴部)(128)。

如果ROI特征检测器104所检测到的面部特征位于靠近在先前帧中检测到的面部特征处(130)，那么先前帧中的对象不呈现显著移动。在此情况下，可通过使用对象形状近似模块110(136)和对象生成模块116(138)来快速生成当前帧的对象，而跳过特征检验模块106(132)和多面部分离模块108(134)的功能。

否则，如果ROI特征检测器104所检测到的面部特征不位于靠近在先前帧中检测到的面部特征处，那么先前帧中的对象已经显著移动。在此情况下，应用整个过程。明确地说，特征检验模块106检验所检测到的特征(132)，且多面部分离模块108执行面部分离(134)。接着，应用对象形状近似模块110(136)，接着应用对象生成模块116(138)。在对象生成模块116中，将所连接的移动前景区视为同类区以生成所述对象(138)。对象融合模块118接着合并前景对象以形成输出图像(140)。ROI对象分割系统14将所分割帧的输出图像发送到多媒体应用程序18(142)。

本文所描述的技术可在硬件、软件、固件或其任何组合中实施。如果在软件中实施，那么所述技术可部分地通过包含程序代码的计算机可读媒体实现，所述程序代码含有在执行时执行上文描述的一种或一种以上方法的指令。在此情况下，计算机可读媒体可包含例如同步动态随机存取存储器(SDRAM)等随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体等。

所述程序代码可由可编程处理器执行，所述可编程处理器可由一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或者等效集成或离散逻辑电路的其它组合实现。在一些实施例中，本文所描述的功能性可在经配置以用于自动对象分割的专用软件模块或硬件单元内提供或并入在自动对象分割系统中。

在本发明中，已经针对从视频序列自动分割ROI对象而描述了各种技术。ROI对象分割系统可单独或组合实施一种或一种以上所揭示的技术，以提供经准确分割的ROI对象以供用于多媒体应用程序，例如VT应用程序、视频串流应用程序或视频监视应用程序。

所揭示的技术包括包含ROI特征检测、区分割和背景减除的混合技术。所揭示的技术可包括帧内模式和帧间模式对象分割两者。帧间模式分割通过使用背景建模和减除而非常规计算密集型运动估计操作来利用视频序列的连续视频帧的时间相关，以加速ROI对象分割系统的执行。所揭示的技术还包括面部特征检验、多面部分离和ROI对象生成以加速ROI对象分割系统执行帧内模式分割。这些和其它实施例属于所附权利要求书的范围内。

Claims

1.一种用于从视频序列自动分割关注区视频对象的方法，其包含：

接收视频序列的视频帧；

向所述视频帧应用一个或一个以上分割模式决策因素，以从至少第一分割模式和第二分割模式中选择分割模式，其中，所述第一分割模式和所述第二分割模式中的每一分割模式包括从所述视频帧分割关注区对象的模式；

其中，应用所述一个或多个分割模式决策因素包括通过确定所述视频帧内的关注区特征的数目来确定所述视频帧的计算复杂性，且在所述计算复杂性高于预定水平时，选择所述第一分割模式；

当选择所述第一分割模式时，在不参考所述视频帧的运动信息的情况下从所述视频帧分割关注区对象；以及

当选择所述第二分割模式时，基于所述视频帧和所述视频序列的不同视频帧的运动信息而从所述视频帧分割关注区对象。

2.根据权利要求1所述的方法，其中所述不同视频帧是所述视频序列中的先前视频帧。

3.根据权利要求1所述的方法，其中应用所述一个或一个以上分割模式决策因素包含从最终用户确定对所述视频帧的所需分割质量，且当所述所需分割质量高于预定水平时，选择所述第一分割模式。

4.根据权利要求1所述的方法，其中应用所述一个或一个以上分割模式决策因素包含确定所述视频帧与所述视频序列的所述不同视频帧之间的相似量，且当所述相似量低于预定水平时，选择所述第一分割模式。

5.根据权利要求4所述的方法，其中确定所述相似量包含将所述视频帧的第一色彩直方图与所述不同视频帧的第二色彩直方图进行比较，以确定所述第一与第二色彩直方图之间的相似量。

6.根据权利要求1所述的方法，其中应用所述一个或一个以上分割模式决策因素包含确定所述视频帧与所述视频序列的所述不同视频帧之间的运动活动量，且当所述运动活动量高于预定水平时，选择所述第一分割模式。

7.根据权利要求6所述的方法，其中确定所述运动活动量包含将所述视频帧内的所述关注区对象的第一位置与所述不同视频帧内的所述关注区对象的第二位置进行比较以确定所述第一与第二位置之间的移动量。

8.根据权利要求1所述的方法，其中所述不同视频帧紧接在所述视频序列的所述视频帧之前，其中应用所述一个或一个以上分割模式决策因素包含确定用于分割所述视频序列的所述不同视频帧的所述分割模式，且当所述不同视频帧在所述第一分割模式下分割时，选择所述第二分割模式。

9.根据权利要求1所述的方法，其中应用所述一个或一个以上分割模式决策因素包含确定所述视频序列中的在所述第二分割模式下分割的连续视频帧的数目，且当所述连续视频帧的数目高于预定水平时，选择所述第一分割模式。

10.一种用于从视频序列自动分割关注区视频对象的设备，包括：

用于接收视频序列的视频帧的装置；

用于向所述视频帧应用一个或一个以上分割模式决策因素，以从至少第一分割模式和第二分割模式中选择分割模式的装置，其中，所述第一分割模式和所述第二分割模式中的每一分割模式包括从所述视频帧分割关注区对象的模式；

其中，用于应用所述一个或多个分割模式决策因素的装置包括用于通过确定所述视频帧内的关注区特征的数目来确定所述视频帧的计算复杂性的装置以及用于在所述计算复杂性高于预定水平时选择所述第一分割模式的装置；

用于在选择所述第一分割模式时，在不参考所述视频帧的运动信息的情况下从所述视频帧分割关注区对象的装置；以及

用于在选择所述第二分割模式时，基于所述视频帧和所述视频序列的不同视频帧的运动信息而从所述视频帧分割关注区对象的装置。

11.根据权利要求10所述的设备，还包括：

用于从最终用户确定对所述视频帧的所需分割质量的装置；

用于在所述所需分割质量高于预定水平时选择所述第一分割模式的装置。

12.根据权利要求10所述的设备，还包括：

用于确定所述视频帧与所述视频序列的所述不同视频帧之间的相似量的装置；用于在所述相似量低于预定水平时选择所述第一分割模式的装置。

13.根据权利要求12所述的设备，还包括：

用于将所述视频帧的第一色彩直方图与所述不同视频帧的第二色彩直方图进行比较以确定所述第一与第二色彩直方图之间的相似量的装置。

14.根据权利要求10所述的设备，还包括：

用于确定所述视频帧与所述视频序列的所述不同视频帧之间的运动活动量的装置；

用于在所述运动活动量高于预定水平时选择所述第一分割模式的装置。

15.根据权利要求14所述的设备，还包括：

用于将所述视频帧内的所述关注区对象的第一位置与所述不同视频帧内的所述关注区对象的第二位置进行比较以确定所述第一与第二位置之间的移动量的装置。

16.根据权利要求10所述的设备，其中所述不同视频帧紧接在所述视频序列的所述视频帧之前，且其中所述设备包括用于确定用来分割所述视频序列的所述不同视频帧的所述分割模式的装置以及用于在所述不同视频帧在所述第一分割模式下分割时选择所述第二分割模式的装置。

17.根据权利要求10所述的设备，还包括：

用于确定所述视频序列中的在所述视频帧之前在所述第二分割模式下分割的连续视频帧的数目的装置；

用于在所述连续视频帧的数目高于预定水平时选择所述第一分割模式的装置。