CN101341494B

CN101341494B - 基于视频帧运动的自动关注区检测

Info

Publication number: CN101341494B
Application number: CN2006800447076A
Authority: CN
Inventors: 王浩宏; 全舒学; 哈立德·希勒米·厄勒-马列; 钱川·安德鲁·秋; 江晓云
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-10-05
Filing date: 2006-10-05
Publication date: 2013-03-06
Anticipated expiration: 2026-10-05
Also published as: CN101317185B; CN101317185A; CN101341494A

Abstract

本发明针对基于视频序列的视频帧内的低复杂性自动关注区(ROI)检测的ROI视频处理的技术。所述低复杂性自动ROI检测可基于视频通信装置内的视频传感器的特性。在其它情况下，所述低复杂性自动ROI检测可基于所述视频序列的一视频帧和一不同视频帧的运动信息。所述揭示的技术包含视频处理技术，其能够基于特定视频传感器的特性调谐并增强视频通信装置内的视频传感器校准、相机处理、ROI检测和ROI视频处理。所述揭示的技术还包含基于传感器的ROI检测技术，其使用视频传感器统计资料和相机处理侧信息来改进ROI检测准确性。所述揭示的技术还包含基于运动的ROI检测技术，其使用视频处理中运动估计期间获得的运动信息。

Description

基于视频帧运动的自动关注区检测

本申请案主张基于2005年10月5日申请的第60/724,130号美国临时申请案的权益。

技术领域

本发明涉及视频帧内的关注区(ROI)检测，且更明确地说，涉及用于自动检测多媒体应用的视频帧内的ROI的技术。

背景技术

视频序列的视频帧内的自动关注区(ROI)检测可在各种各样的多媒体应用(例如，视频监视、视频广播和视频电话(VT)应用)的ROI视频处理系统中使用。在一些情况下，ROI视频处理系统可以是ROI视频编码系统。在其它情况下，ROI视频处理系统可包括ROI视频增强系统或另一类型的视频处理系统。ROI可被称为视频帧内的“前景”区，且非ROI区可被称为视频帧内的“背景”区。ROI的典型实例是人脸。ROI视频处理系统可相对于视频序列的视频帧内的非ROI区而择优利用从所述视频帧检测到的ROI。

在ROI视频编码系统的情况下，已经提出了视频序列的视频帧内的选定部分的择优编码。举例来说，可用较高质量对视频帧内的自动检测到的ROI进行编码，以传输到视频电话(VT)应用中的接收者。在非常低位速率应用(例如移动VT)中，ROI择优编码可改进经编码的视频序列的主观质量。利用ROI的择优编码，与非ROI区域相比，接受者能够更清楚地观看ROI。可通过与视频帧的非ROI(或背景)区域相比，将更大比例的编码位分配给ROI，来对视频帧的ROI进行择优编码。跳过视频帧的非ROI区允许保存编码位以分配给ROI。前一帧的经编码的非ROI区可代替当前帧中跳过的非ROI区。

从视频俘获装置接收到的视频帧通常在被应用到启用ROI的视频编码器、启用ROI的视频增强器或类似的多媒体装置之前被处理。举例来说，视频处理方案可自动检测视频帧内的ROI。按照惯例，阻止启用ROI的视频通信系统的快速进步和广泛部署的主要障碍是自动ROI检测的稳健性。一些自动ROI检测方案提出一种简单的基于肤色的面部检测方法，其基于从输入视频图像的色度分量导出的肤色图(skin-tone map)而检测具有肤色外观的像素。其它方案提出一种照明补偿模型来校正面部检测的色彩偏差。另外，自动ROI检测方案可构造眼睛、嘴和边界图来检验面部候选物，或在人脸的重要面部特征处使用具有较大量值的特征掩模(eigenmask)来改进ROI检测准确性。

发明内容

一般来说，本发明针对基于视频序列的视频帧内的低复杂性自动关注区(ROI)检测而进行ROI视频处理的技术。所述低复杂性自动ROI检测可基于视频通信装置内的视频传感器的特性。举例来说，视频传感器可驻留在所谓的相机电话或视频电话内。在其它情况下，所述低复杂性自动ROI检测可基于视频序列的一视频帧和所述视频序列的一不同视频帧的运动信息。所述技术可能在视频电话(VT)应用(例如视频串流和视频会议)中有用，且尤其在低位速率无线通信应用(例如移动VT)中有用。

ROI视频处理涉及ROI的择优处理。举例来说，ROI视频编码算法可将额外的编码位分配给视频帧内的ROI，且将减小数目的编码位分配给视频帧内的非ROI区。ROI的典型实例是人脸。非ROI区可被称为“背景”区，但非ROI区更一般地包含视频帧的不形成ROI的一部分的任何区。因此，在整个本发明中，术语“非ROI”和“背景”可以互换使用，来指代不在ROI内的区。

所揭示的技术包含视频处理技术，其能够基于特定视频传感器的特性来调谐并增强视频通信装置内的视频传感器校准、相机处理、ROI检测和ROI视频处理。视频处理技术可普遍地应用于不同类型的视频传感器。另外，所述技术允许视频通信装置内的组件之间的灵活通信和协作。以此方式，所揭示的技术可基于与视频传感器相关联的物理特性和统计资料而增强ROI视频处理性能。

所揭示的技术还包含基于传感器的ROI检测技术，其使用视频传感器统计资料和相机处理侧信息来改进ROI检测准确性，其直接增强了ROI视频处理性能。举例来说，皮肤区域检测器使用视频传感器统计资料来准确地检测视频帧内的皮肤图，且面部检测器使用所述皮肤图来检测所述视频帧内的一个或一个以上面部。所揭示的技术还包含基于运动的ROI检测技术，其使用视频处理中的运动估计期间获得的运动信息。举例来说，面部检测器使用皮肤图和运动信息(例如，运动向量)来执行低复杂性面部检测，所述低复杂性面部检测基于运动信息而有效地提取所述皮肤图内的一个或一个以上面部(即，ROI)。

自动ROI检测技术接着可针对视频帧内检测到的面部中的每一者产生ROI。所揭示的技术将包含所产生的ROI的视频帧应用于ROI视频处理。举例来说，所述技术可将视频帧应用于ROI视频编码算法，所述ROI视频编码算法使用经加权的位分配和自适应背景跳过来提供优越的编码效率。

在一个实施例中，本发明提供一种方法，其包括：接收视频序列的视频帧的皮肤图；以及接收所述视频序列的所述视频帧和一不同视频帧的运动信息。所述方法还包括基于所述视频帧中的宏区块相对于所述视频帧的皮肤图和所述不同视频帧内的ROI的位置而自动检测所述视频帧内的ROI。

在另一实施例中，本发明提供一种计算机可读媒体，其包括致使可编程处理器接收视频序列的视频帧的皮肤图并接收所述视频序列的所述视频帧和一不同视频帧的运动信息的指令。所述指令还致使可编程处理器基于所述视频帧中的宏区块相对于所述视频帧的皮肤图和所述不同视频帧内的ROI的位置而自动检测所述视频帧内的ROI。

在另一实施例中，本发明提供一种视频处理系统，所述视频处理系统包括：皮肤区域检测器，其产生视频序列的视频帧的皮肤图；以及ROI视频处理模块，其产生所述视频序列的所述视频帧和一不同视频帧的运动信息。所述系统还包含ROI检测器，其接收所述视频帧的皮肤图和运动信息，并基于所述视频帧中的宏区块相对于所述视频帧的皮肤图和所述不同视频帧内的ROI的位置而自动检测所述视频帧内的ROI。

本文所描述的技术可在硬件、软件、固件或其任一组合中实施。如果在软件中实施，那么所述技术可部分地由包括程序代码的计算机可读媒体来实现，所述程序代码含有指令，所述指令在由可编程处理器执行时，执行本文描述的方法中的一者或一者以上。

在下文的附图和描述内容中陈述一个或一个以上实施例的细节。从描述内容和附图且从权利要求书中将了解其它特征、目的和优势。

附图说明

图1是说明并入有关注区(ROI)视频处理系统的示范性视频通信装置的框图。

图2A和图2B是说明视频序列的视频帧内的ROI和非ROI区的定义的图。

图3说明视频序列的ROI内所呈现的对象的对象移动/旋转和形状变形的变化。

图4说明视频序列的ROI内人的面部表情的变化。

图5是说明视频通信装置内基于视频传感器的特性对视频帧的ROI择优编码的ROI视频处理系统的框图。

图6A说明视频传感器的示范性肤色反射谱。

图6B说明麦克贝斯色彩测试标板(Macbeth ColorChecker)测试目标的示范性反射谱。

图6C说明检验原始与重构的肤色反射谱的一致性的示范性反射谱。

图7是说明视频通信装置中所包含的ROI视频处理系统的基于视频传感器的特性的操作的流程图。

图8是说明来自ROI视频处理系统的ROI检测器的框图。

图9A到图9G是说明在自动检测基于传感器特定统计资料而产生的视频帧的皮肤图内的ROI时由来自图8的ROI检测器实施的技术的示范性结果的屏幕截图。

图10A和图10B是说明ROI视频处理系统的ROI检测模块内的ROI检测器的操作的流程图。

具体实施方式

图1是说明并入有关注区(ROI)视频处理系统14的示范性视频通信装置10的框图。ROI视频处理系统14实施基于视频传感器12的特性的低复杂性ROI视频处理的技术。在其它情况下，ROI视频处理系统14还可实施基于视频帧的运动信息的低复杂性ROI视频处理的技术。如图1中所示，视频通信装置10包含视频俘获装置，其包含视频传感器12、ROI视频处理系统14和视频存储器16。视频传感器12俘获视频帧，且可具备相机。低复杂性ROI视频处理技术可能在视频通信装置10与另一视频通信装置之间的视频电话(VT)应用(例如视频串流和视频会议)中有用。所述技术可能在低位速率无线通信应用(例如移动VT)中尤其有用。

ROI视频处理系统14可包含许多组件，例如视频传感器校准模块、相机处理模块、ROI检测模块和ROI视频处理模块，可基于视频传感器12的传感器特定特性来调谐上述模块中的每一者，以增强ROI视频处理性能。因此，ROI视频处理系统14可基于各种视频传感器的物理特性和处理能力，来准确地处理由不同视频俘获装置产生的视频帧。在一些情况下，ROI视频处理系统14可以是ROI视频编码系统。在其它情况下，ROI视频处理系统14可包括ROI视频增强系统或另一类型的视频处理系统。

ROI视频处理系统14使用视频传感器12的特性来自动检测从视频传感器12接收的视频帧内的ROI，且相对于视频帧内的非ROI区而择优处理检测到的ROI。检测到的ROI可能是视频通信装置10的用户所关注的。举例来说，视频帧的ROI可包括人脸。ROI可被称为视频帧内的“前景”区，且非ROI区可被称为视频帧内的“背景”区。

ROI视频处理系统14执行视频传感器12的校准，其基于视频传感器12和测试目标的肤色反射谱的相关性而产生传感器特定统计资料，所述测试目标例如是可从纽约，新温莎的格灵达-麦克贝斯(GretagMacbeth)LLC购得的麦克贝斯色彩测试标板表。视频传感器12通常指代相机中所使用的感测元件阵列。在一些情况下，视频传感器12可包含互补金属氧化物半导体(CMOS)图像感测元件阵列。

ROI视频处理系统14还基于传感器特定统计资料和从与视频俘获装置11相关联的传感器12接收到的视频序列的视频帧而执行相机处理，以估计所述视频帧的照明条件。ROI视频处理系统14接着可基于传感器特定统计资料和相机处理信息自动检测视频帧内的ROI。在一些情况下，ROI视频处理系统14可基于传感器特定统计资料、相机处理信息和通过跟踪视频序列的当前视频帧与前一视频帧之间的ROI而从视频处理获得的运动信息(例如，运动向量)，来自动检测视频序列的当前视频帧内的ROI。

ROI视频处理系统14接着择优处理包含检测到的ROI的视频帧，并将所述视频帧存储在视频存储器16中。举例来说，ROI视频处理系统14可相对于视频帧内的非ROI区而择优对视频帧内的检测到的ROI进行编码。在对视频序列的每个帧进行编码之后，视频通信装置10可将包含择优处理过的ROI的输出图像位流发送到另一视频通信装置。

作为一实例，VT应用允许用户共享视频和音频信息，以支持例如视频会议的应用。在VT系统中，用户可发送和接收视频信息，只接收视频信息，或只发送视频信息。视频通信装置10可进一步包含适当的发射、接收、调制解调器和处理电子器件，以支持有线或无线通信。举例来说，视频通信装置10可包括为与其它终端通信而配备的无线移动终端或有线终端。

无线移动终端的实例包含移动无线电话、移动个人数字助理(PDA)、移动计算机或其它配备有无线通信能力和视频编码和/或解码能力的移动装置。举例来说，视频通信装置10可包括VT应用中所使用的所谓的相机电话或视频电话。有线终端的实例包含台式计算机、视频电话、网络应用、机顶盒、交互式电视或类似物。

在视频编码的实施例中，ROI视频处理系统14可基于视频传感器12的特性而择优对自动从自视频传感器12接收的视频帧检测到的ROI进行编码。举例来说，ROI视频处理系统14可将额外的编码位分配给视频帧的检测到的ROI，且将减小数目的编码位分配给视频帧的非ROI区。

在移动应用中，具体地说，可用于对视频帧进行编码的编码位的数目可能较低，且根据无线信道条件而变化。因此，编码位到ROI的择优分配可能有助于改进ROI的视觉质量，同时有效地符合可应用的位速率要求。因此，有了检测到的ROI的择优编码，与视频帧的非ROI区相比，接受者能够更清楚地观看到视频帧的ROI。视频通信装置10接着可通过有线或无线通信信道将经编码的视频帧传输到另一通信装置。

如上文所述，ROI视频处理系统14可实施用于基于视频序列的视频帧内的低复杂性自动ROI检测而执行ROI视频处理的技术。低复杂性自动ROI检测可基于视频通信装置10内的视频传感器12的特性。所揭示的技术包含视频处理技术，其能够调谐并增强视频通信装置10中所包含的ROI视频处理系统14内的组件。举例来说，视频处理技术可基于视频传感器12的特性而调谐并增强视频传感器校准模块、相机处理模块、ROI检测模块和ROI视频处理模块。

视频处理技术可普遍地应用于不同类型的视频传感器。因此，可使用视频处理技术来基于各种视频传感器的物理特性和处理能力处理由不同视频俘获装置产生的视频帧。另外，视频处理技术允许ROI视频处理系统14中所包含的组件之间的灵活通信和协作。以此方式，所揭示的技术可基于视频传感器12的物理特性和统计资料而增强ROI视频处理系统14的性能。

所揭示的技术还包含自动ROI检测技术，其使用视频传感器12的物理特性和来自视频传感器12的相机处理侧信息。举例来说，相机处理侧信息可包含：白平衡处理信息；色彩校正处理信息，其改进色彩准确性；非线性伽马处理信息，其补偿显示非线性；以及色彩转换处理信息。可在从RGB色彩空间转换到YCbCr色彩空间时产生色彩会话处理信息(color conversation processing information)，其中Y是亮度信道，且CbCr是色度信道。自动ROI检测技术改进了ROI检测准确性，其直接增强了ROI视频处理系统14的性能。举例来说，皮肤区域检测器可使用视频传感器统计资料来准确地检测视频帧内的皮肤图，且面部检测器使用所述皮肤图来检测所述视频帧内的一个或一个以上面部。

所揭示的技术还包含基于运动的ROI检测技术，其使用在视频处理中的运动估计期间获得的运动信息。举例来说，面部检测器使用皮肤图和运动信息(例如，运动向量)来执行低复杂性面部检测，所述低复杂性面部检测基于运动信息而有效地提取所述皮肤图内的一个或一个以上面部(即，ROI)。

自动ROI检测技术接着可针对视频帧内检测到的面部中的每一者而产生ROI。所揭示的技术接着将视频帧内所产生的ROI应用到ROI视频处理系统14中所包含的视频处理模块。举例来说，在视频编码的情况下，ROI处理模块可使用经加权的位分配和自适应背景跳过来提供优越的编码效率。在对视频序列的每个帧进行处理之后，视频通信装置10可将包含ROI的经择优编码的视频帧的输出图像位流发送到另一视频通信装置。

可在硬件、软件、固件或其任一组合中实施ROI视频处理系统14。举例来说，可在一个或一个以上数字信号处理器(DSP)、微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或任何其它等效集成或离散逻辑电路以及此类组件的任何组合内实施ROI视频处理系统14的各个方面。术语“处理器”通常可指代前述逻辑电路的任一者(单独或与其它逻辑电路组合)。当在软件中实施时，归因于ROI视频处理系统14的功能性可实施为计算机可读媒体上的指令，所述计算机可读媒体例如是随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性媒体、光学媒体或类似物。执行所述指令以支持本发明中所描述的功能性的一个或一个以上方面。

图2A和图2B是说明视频序列的视频帧20内的ROI 24和非ROI区26的定义的图。在图2B的实例中，将ROI描绘为人脸ROI 24。在其它实施例中，ROI可包括矩形ROI或可能具有圆形或不规则形状的另一非矩形ROI。ROI 24含有出现在视频帧20中的人的脸部22。在图2B中通过阴影法来突出显示非ROI区26(即，背景)。

可通过来自图1的ROI视频处理系统14中所包含的ROI检测模块来从视频帧20自动检测ROI 24。对于VT应用，视频通信装置(例如来自图1的视频通信装置10)可并入有ROI视频处理系统14，以自动检测视频帧20内的ROI 24，且相对于视频帧20内的非ROI区而择优对ROI 24进行编码。在所述情况下，ROI 24可包含视频帧20的含有视频会议中的参与者的脸部22的一部分。其它实例包含在串流视频(例如信息视频，或新闻或娱乐广播)中呈现信息的人的脸部的择优编码。ROI 24的大小、形状和位置可以是固定的或可调节的，且可以多种方式来定义、描述或调节。

ROI 24允许视频发送者强调所传输的视频帧20内的个别对象，例如人的脸部22。相反，ROI 24允许视频接收者更清楚地观看接收到的视频帧20内的所需对象。在任一情况下，相对于非ROI区26(例如视频帧20的背景区域)，以较高的图像质量来对ROI对象24内的脸部22进行编码。以此方式，用户能够更清楚地观看面部表情、嘴唇运动、眼睛运动等等。在一些实施例中，还可不仅以额外的编码位，而且以增强的误差检测和弹性来对ROI 24进行编码。

图3说明视频序列的ROI内所呈现的对象的对象移动/旋转和形状变形的变化。具体地说，图3的帧0和帧1中所展示的人的头部显著地改变其位置。在图3的实例中，人的头部在帧1中相对于帧0而倾斜。图4说明视频序列的ROI内人的面部表情的变化。具体地说，帧0和帧1中所展示的人的嘴从大体上闭合的位置转变到大开的位置。因此，图3和图4表示视频序列的ROI中的较大量的移动的情况。

图5是说明基于低复杂性自动ROI检测而对视频帧内的ROI进行择优处理的视频通信装置10内的ROI视频处理系统14的框图。低复杂性自动ROI检测可以基于视频传感器12的特性。ROI视频处理系统14可通过视频传感器12从视频俘获装置11接收视频帧。ROI视频处理系统14可独立于视频序列的其它帧，且在无运动信息的情况下，处理视频序列的模式内视频帧。ROI视频处理系统14可基于当前视频帧与视频存储器16中所存储的视频序列的前一视频帧之间的ROI的运动信息来处理模式间帧。

在所说明的实施例中，ROI视频处理系统14包含传感器校准模块30、传感器统计资料32、相机处理模块34、自动ROI检测模块36和ROI视频处理模块42。在传感器校准过程期间，从传感器校准模块30获得传感器统计资料32。相机处理模块34和ROI检测模块36使用传感器统计资料32来准确地检测通过视频传感器12从视频俘获装置11接收到的模式内视频帧内的ROI。ROI检测模块36还依靠在相机处理期间通过相机处理模块34检测到的信息，例如照明条件。另外，ROI检测模块36可接收当前视频帧与前一视频帧之间的由ROI视频处理模块42产生的运动信息(例如，运动向量)，以允许模式间帧内的ROI检测。

在ROI视频处理系统14中，传感器校准模块30计算特定视频传感器12的固有肤色统计资料。传感器校准模块30可针对多种视频传感器产生传感器统计资料32，使得ROI视频处理系统14可基于视频通信装置10内所包含的任一视频传感器而增强ROI视频处理性能。传感器校准模块30基于视频传感器32的肤色反射谱与测试目标(例如，麦克贝斯色彩测试标板表)的谱的相关性来获得传感器统计资料32。图6A说明视频传感器32的示范性肤色反射谱。图6B说明麦克贝斯色彩测试标板测试目标的示范性反射谱。

可假定肤色反射谱可由有限数目的麦克贝斯色彩测试标板彩色小片的反射谱的线性组合近似表示，例如：

R_{skin} (λ) = Σ_{i = 1}^{K} b_{i} * R_{i}^{Macbeth} (λ), &ForAll; λ &Element; [400 nm, 700 nm] - - - (1)

其中K是麦克贝斯色彩测试标板的反射谱的数目，λ是波长，R_skin(λ)和R_i ^Macbeth(λ)是肤色和第i个麦克贝斯色彩测试标板彩色小片的相应反射率，且{bi}(i＝1，2，...，K)是待计算的一组加权因数。在此情况下，肤色的相应RGB(红、绿、篮)信号可由相应麦克贝斯彩色小片的RGB信号的相同线性组合来表示：

{RGB}_{skin} = Σ_{i = 1}^{K} b_{i} * {RGB}_{i}^{Macbeth} - - - (2)

其中RGB_skin和RGB_i ^Macbeth是肤色和第i个麦克贝斯色彩测试标板彩色小片的相应RGB信号强度值。

上文的假定是允许的，因为对于给定的传感器和某一反射谱，相应的相机原始RGB信号理论上可由以下等式来计算：

RGB = {&Integral;}_{400 nm}^{700 nm} SS (λ) * L (λ) * R (λ) dλ - - - (3)

其中SS(λ)、L(λ)、R(λ)是传感器光谱灵敏度函数、照明光谱功率分布和对象反射谱。因此，等式(2)可从等式(1)和等式(3)导出。对于特定传感器(例如视频传感器12)，在获得所有的潜在加权因数{b_i}之后且在测量RGB_i ^Macbeth值之后，传感器校准模块30可通过使用等式(2)来计算RGB_skin的所有组合。

以此方式，传感器校准模块30可获得视频传感器12的RGB色彩空间中的肤色图，以供ROI检测模块36内的皮肤区域检测器38将来使用。传感器校准模块30可使用肤色反射谱数据库来获得对等式(1)进行求解的潜在加权因数{b_i}。通过所述数据库，等式(1)中所使用的R_skin(λ)和R_i ^Macbeth(λ)的值是可用的，且因此传感器校准模块30可获得所有种类的肤色的相应{b_i}向量。

实验结果已经指示上述假定是合理的，这意味着可将肤色反射谱分解成二十四个麦克贝斯色彩测试标板彩色小片的线性组合。另外，所导出的加权因数{b_i}通过具有原始肤色谱的成分来使所构造的肤色反射谱一致。图6C说明示范性反射谱，其检验原始与重构的肤色反射谱的一致性并证实所述假定。

上文所描述的传感器校准方法显著减小了原始问题的复杂性。一般来说，传感器校准可能较为耗时，且可能需要昂贵的设备来测量特定传感器的传感器光谱灵敏度。因此，从等式(3)直接导出肤色的RGB值可能不可行，但照明和反射数据两者是可实现的。传感器校准模块30所观察到的谱相关性可在检测传感器光谱灵敏度的同时减少ROI视频处理系统14内的资源消耗。

在一些情况下，照明条件可能影响加权因数{b_i}的范围，且因此影响所得肤色图。为了去除非均匀照明和传感器非线性响应，传感器校准模块30借助通过均匀灰色平面俘获和减去恒定黑色电平(BlackLevel)进行平场处理(flat fielding)来使每种施照体下针对麦克贝斯色彩测试标板的每一彩色小片所内插的原始RGB信号标准化，例如：

其中GrayPlane是对应于麦克贝斯色彩测试标板的灰色平面上的原始信号。另外，传感器校准模块30将照明分类成三类(例如，日光—CIE D65，钨丝灯—CIEA，和荧光灯—TL84)，且针对其中的每一者而计算相应的传感器统计资料。

因为大多数视频处理系统使用YCbCr(亮度、色度蓝、色度红)色彩空间而不是RGB，所以传感器校准模块30通过白色平衡、色彩校正和伽马校正处理来将RGB色彩图变换成YCbCr空间。经变换的色彩图包括椭圆体，其在CbCr平面中聚集但在Y轴中散布。为了避免存储大量用于3D色彩空间的数据，传感器校准模块30将Y分成多个范围。对于每个Y，传感器校准模块30接着通过高斯模型来模拟输入色度X属于肤色图的可能性：

其中x是如下定义的马氏距离(Mahalanobis distance)：

x²＝(X-μ)^T∧^-1(X-μ) (6)

且可从CbCr色彩图中的点的坐标计算出密度的均值向量μ和协方差矩阵∧。

换句话说，在给定阈值x_T ²的情况下，如果

x^{2} \leq x_{T}^{2},

那么可将X分类为皮肤色度，且否则分类为非皮肤色度。不等式

x^{2} \leq x_{T}^{2}

定义具有由μ给定的中心的椭圆区和由∧的本征向量给定的主轴。选择阈值x_T的平方根，使得其在亮度级在中间处时较大，且在远边缘处变小。因此，传感器校准模块30针对每个亮度范围保存μ和∧对，作为视频传感器12的传感器统计资料32。

相机处理模块34经由视频传感器12从视频俘获装置11接收视频序列的视频帧。相机处理模块34还接收由传感器校准模块30所产生的传感器统计资料32，如上文所述。相机处理模块34处理相机原始RGB数据产生、白色平衡、色彩校正、相机伽马校正和RGB色彩空间到YCbCr空间转换。相机处理模块34的输出呈YCbCr 4:2:0原始数据格式。

如上文所述，为了考虑照明对肤色图的影响，传感器校准模块30在三种照明(例如，日光—CIE D65，钨丝灯—CIE A，和荧光灯—TL84)下使用麦克贝斯色彩测试标板，且以标准化标度以[0.6，0.7]的亮度级范围针对每种照明获得一个肤色区域。相机处理模块34接着估计接收到的视频帧的照明，且将估计的照明分类成三种照明类型中的一种。以此方式，相机处理模块34为视频帧选择照明。ROI检测模块36内的皮肤区域检测器38接着可在检测视频帧内的肤色区域时，使用对应于选定照明的传感器统计资料。

ROI检测模块36包含皮肤区域检测器38、ROI检测控制器39和ROI检测器40。在一些情况下，ROI检测器40可被视为面部检测器，例如在VT应用或视频广播应用的情况下，其中人呈现信息视频，例如现场直播或预先录制的新闻或娱乐广播。ROI检测模块36实施自动ROI检测技术，其使用视频传感器12的物理特性和来自视频俘获装置11的相机处理侧信息。自动ROI检测技术改进了ROI检测准确性，其直接增强了ROI视频处理系统14的性能。举例来说，皮肤区域检测器38可使用传感器统计资料32来准确地检测视频帧内的皮肤图，且ROI检测器40可使用所述皮肤图来检测视频帧内的一个或一个以上面部。

皮肤区域检测器38在接收由传感器校准模块30产生的传感器统计资料32之后，可执行相对较简单的检测过程。在此情况下，皮肤区域检测器32检查色度(CbCr)值是否在由传感器相关的统计资料32表征的椭圆内。如上文所述，从传感器校准模块30获得视频帧的椭圆的参数。另外，椭圆的参数是以照明度和亮度为定向的，且与传感器相关的。因此，与在毫不知情的情况下由大量图像训练的常规肤色训练途径相比，本文所描述的皮肤区域检测过程可能更准确。皮肤区域检测器38接着从视频帧的所检测的肤色区域产生皮肤图。

ROI检测控制器39接着从皮肤区域检测器38接收皮肤图，且接收与视频帧有关的信息。在一些情况下，ROI检测控制器39还可接收来自ROI视频处理模块42的视频序列的所述视频帧和前一视频帧的运动信息。ROI检测控制器39接着可确定皮肤图的质量。如果皮肤图的质量低于预定等级，那么ROI检测控制器39可将所述皮肤图发送给ROI检测器40。如果皮肤图的质量高于预定等级，那么ROI检测控制器39可决定断开ROI检测器40。在此情况下，皮肤区域检测器38所产生的皮肤图表现为足以能够产生视频帧内的ROI。ROI检测模块36接着可直接从所述皮肤图产生所述视频帧内的ROI。

在其它情况下，ROI检测控制器39可基于接收到的当前视频帧信息和运动信息而确定视频帧的计算复杂性。如果视频帧的计算复杂性低于预定等级，那么ROI检测控制器30可决定断开ROI检测器40。ROI检测模块36接着可直接从皮肤图产生所述视频帧内的ROI。如果视频帧的计算复杂性高于预定等级，那么ROI检测控制器39可将皮肤图发送给ROI检测器40。在此情况下，视频帧可包含新的ROI或大量先前未处理的ROI特征，或视频帧可包含从视频序列的前一视频帧进行的大量移动。

根据一实施例，ROI检测器40针对实时处理(相对于图8更详细地描述)实施低复杂性ROI检测算法。如上文所述，ROI视频处理系统14允许ROI检测器40在某些情况下断开，以节省功率。ROI视频处理系统14利用高度准确的传感器优化皮肤区域检测器38，其不会错误地选择皮肤图内的潜在ROI特征，例如眼部特征候选物和嘴部特征候选物。ROI检测器40接着可自动检测视频帧的所产生的皮肤图内的一个或一个以上面部或ROI。以此方式，ROI检测器40可实施低复杂性算法，其在移动VT应用中尤其有用。然而，一些其它皮肤区域检测算法可将面部特征分类成皮肤图的一部分，以便加速皮肤区域检测器38的性能。

ROI检测模块36接着可针对视频帧内检测到的面部中的每一者产生ROI。ROI视频处理模块42接着相对于视频帧内的非ROI区而择优处理所产生的ROI。在视频编码的实施例中，ROI视频处理模块42可通过使用经加权的位分配和自适应背景跳过来择优编码视频帧内的ROI，以提供优越的编码效率。具体地说，与背景区相比，每个ROI被分配有更多的位，且对于一些帧，可完全跳过背景区。在背景跳过的情况下，来自前一个帧的背景可代替背景编码被跳过的帧的背景。在处理视频序列的每个帧之后，ROI视频处理模块42可将经择优编码的ROI的输出图像位流发送给另一视频通信装置。

图7是说明视频通信装置10中所包含的ROI视频处理系统14的基于视频传感器12的特性的操作的流程图。传感器校准模块30基于视频传感器12的肤色反射谱和测试目标(例如麦克贝斯色彩测试标板表)的反射谱而执行传感器校准(46)。传感器校准模块30接着基于校准过程而产生视频传感器12的传感器统计资料32(48)。如先前所述，在一些实施例中，传感器统计资料可包含均值向量μ，和从为视频传感器12准备的CbCr色彩图中的点的坐标计算出的协方差矩阵∧。针对每个亮度范围，μ和∧的对由传感器校准模块30存储，作为视频传感器12的传感器统计资料32。

相机处理模块34基于通过视频传感器12从视频俘获装置11接收到的视频帧以及传感器统计资料32执行相机处理(50)。相机处理模块34可估计接收到的视频帧的照明条件，并将估计出的施照体分类成三种照明类型(即日光—CIE D65，钨丝灯—CIE A，和荧光灯—TL84)中的一种。接着将从相机处理模块34选定的施照体和对应于所述选定施照体的传感器统计资料32馈送到ROI检测模块36中。ROI检测模块36包含皮肤区域检测器38、ROI检测控制器39和ROI检测器40。皮肤区域检测器38基于施照体和传感器统计资料32检测视频帧内的皮肤区域(52)，以产生皮肤图。

ROI检测控制器39接着确定是否在视频帧内执行ROI检测(53)。举例来说，如果检测到的皮肤图的质量足以产生视频帧的ROI，那么ROI检测控制器39可决定断开ROI检测器40且不执行ROI检测。另外，如果视频帧包含较小数目的潜在ROI特征或所述视频序列的所述视频帧与前一视频帧之间的最小量的移动或变化，那么ROI检测控制器可决定断开ROI检测器40且不执行ROI检测。断开ROI检测器40可减小ROI视频处理系统14内的功率消耗。

当ROI检测控制器39接收到较低质量的皮肤图或较高复杂性的视频帧时，ROI检测控制器39将皮肤图发送给ROI检测器40。ROI检测器40基于ROI特征检测和检验而检测来自皮肤区域检测器38的皮肤图内的一个或一个以上ROI(54)。不管是否执行ROI检测，ROI检测模块36都基于检测到的皮肤图或皮肤图内的检测到的ROI产生一个或一个以上ROI(56)。ROI产生模块36接着将视频帧的所产生的ROI发送给ROI视频处理模块42。ROI视频处理模块42将视频帧的ROI择优处理成用于多媒体应用的位流(58)。

图8是说明ROI视频处理系统中所包含的ROI检测器60的框图。ROI检测器60可实施低复杂性面部检测算法，其有效地从视频帧的皮肤图中提取一个或一个以上面部，即ROI。在一些情况下，ROI检测器40可被视为面部检测器。举例来说，在其中人呈现例如现场直播或预先录制的新闻或娱乐广播等VT应用或视频广播应用的情况下。

在一个实施例中，ROI检测器60可大体上类似于来自图5的ROI视频处理系统14中所包含的ROI检测器40。在此情况下，ROI检测器60可接收由皮肤区域检测器38基于视频传感器12的传感器统计资料32而产生的皮肤图，且基于传感器统计资料32而执行低复杂性ROI检测。在另一实施例中，ROI检测器60可不接收基于传感器统计资料的来自皮肤区域检测器的皮肤图。在此情况下，ROI检测器60可基于从类似于来自图5的ROI视频处理模块42的ROI视频处理模块接收到的运动信息，而执行低复杂性ROI检测。

在一些情况下，ROI检测器60可独立于视频序列的其它帧且在无运动信息的情况下，处理所述视频序列的模式内视频帧。在其它情况下，ROI检测器60可基于视频序列的当前视频帧与前一视频帧之间的ROI的运动信息而处理模式间帧。ROI检测器60用来处理模式内帧的运动信息可包括在ROI视频处理模块(例如ROI视频处理模块42)中的运动估计期间获得的运动向量。

在所说明的实施例中，ROI检测器60包含区域标记模块62、区域选择模块64、特征检测和检验模块66、ROI区域选择模块68、形态学运算模块70和ROI宏区块(MB)选择模块72。图9A到图9G是说明在自动检测基于传感器特定统计资料而产生的视频帧的皮肤图内的ROI时，由ROI检测器60实施的技术的示范性结果的屏幕截图。在其它情况下，ROI检测器60可自动检测以另一方式且在不使用传感器统计资料的情况下产生的视频帧的皮肤图内的ROI。

如上文参看图5所述，皮肤区域检测器检测视频帧内的皮肤区域，并从检测到的皮肤区域产生皮肤图。图9A说明在ROI检测模块进行任何处理之前的示范性视频帧。图9B说明由皮肤区域检测器基于传感器统计资料而产生的视频帧的示范性皮肤图。一旦皮肤区域检测器产生视频帧的皮肤图，区域标记模块62就将皮肤图分成许多不连贯的区域。在此情况下，皮肤区域检测器可假定皮肤图内的每个面部或ROI包含在连贯的区域中。换句话说，皮肤图内的ROI特征(例如，面部特征)应防止区域标记模块62将面部或ROI分成一个以上连贯区域。

另外，区域选择模块64可假定视频帧中至多存在两个ROI或面部，这对于大多数情况来说是合理的，且大大简化了ROI检测过程。区域选择模块64从皮肤图的包含视频帧内的最大区的不连贯区域选择至多达三个候选区域。ROI区域选择模块68接着基于由特征检测和检验模块66在候选区域的每一者内检测到的面部特征而从所述候选区域中选择一个或一个以上ROI区域。

特征检测和检验模块66使用一组预定规则来检查所有候选区域的面部特征。通常，面部特征位于皮肤图的由候选区域内的高强度对比表征的凹部区域中。因此，特征检测和检验模块66可通过执行灰度级关闭和扩张形态学运算来找出凹部区域。如果面部特征候选物与检测到的凹部区域不具有重叠区，那么从候选物列表中移除所述面部特征候选物。在此实施例中，特征检测和检验模块66主要执行眼部检测，其可基于两个观察结果。

第一，眼部周围的色度分量通常含有高Cb和低Cr值。因此，特征检测和检验模块66可通过以下等式来构造色度眼部图

C = \frac{{Cb}^{2} + {(255 - Cr)}^{2} + (Cb / Cr)}{3} - - - (7)

一旦获得了色度眼部图，特征检测和检验模块66就可将阈值应用于色度(C)眼部图，以使最亮的区域位于眼部候选物的眼部图内。特征检测和检验模块66接着应用形态学运算来将大体上接近的最亮区域合并成单一眼部候选物。

第二，眼部通常在亮度分量中含有暗像素和亮像素两者。因此，特征检测和检验模块66可使用灰度级形态学算子来强调眼部周围的亮度分量中的较亮和较暗像素。特征检测和检验模块66可通过以下等式来构造亮度眼部图

一旦获得亮度眼部图，特征检测和检验模块66就可将阈值应用于亮度(L)眼部图，以使最亮的区域位于眼部候选物的眼部图内。特征检测和检验模块66接着应用形态学运算以将大体上接近的最亮区域合并成单一眼部候选物。

特征检测和检验模块66接着联合所述两个眼部图，以找出最终眼部特征候选物。图9C说明由特征检测和检验模块66检测到的示范性面部特征候选物，例如眼部特征候选物。显然，其它面部特征(例如嘴、眉毛、鼻孔和下巴)也可被检测为对找出候选区域内的面部的提示。在检测视频帧内的ROI或面部时，尤其在眼部在视频帧中不可见或模糊时，这些额外面部特征可能非常有用。

一旦特征检测和检验模块66在所述候选区域的一者或一者以上内检测到面部特征候选物，就基于一组规则来检验所述面部特征以消除任何错误检测。首先，特征检测和检验模块66使检测到的眼部图与视频帧的未由皮肤区域检测器检测到的非皮肤区域重叠。上文所述的皮肤区域检测器(即，来自图5的皮肤区域检测器38)在产生皮肤图时不会错误地检测面部特征。因此，正确的眼部特征不是皮肤图的一部分。

其次，皮肤图的候选区域内的面部特征包括皮肤图中的内部孔，其意味着正确的面部特征应由皮肤区域包围。第三，含有眼部特征候选物的候选区域中的每一者的面积应在[15，500]的范围内。第四，含有眼部特征候选物的候选区域中的每一者的边界框包含在ROI区域候选物的边界框的一者中。图9D说明由特征检测和检验模块66检验到的示范性面部特征(例如眼部特征)。

ROI区域选择模块68接着选择包含最多面部特征的候选区域作为ROI区域。在一些情况下，ROI区域选择模块68可选择至多达两个ROI区域。ROI区域选择模块68基于ROI或面部区域与皮肤图内的其它区域相比通常含有最多面部特征候选物且覆盖较大面积的观察结果而选择ROI区域。因此，ROI区域选择模块68可选择对应于针对所述区域内的面部特征的数目与所述区域的面积的乘积具有最大值的最高两个候选区域的ROI区域。如果所述候选区域中任一者均不含有面部特征，那么ROI区域选择模块68选择最大的候选区域作为ROI区域。

图9E说明ROI区域选择模块68基于检测到的面部特征而选择的示范性ROI区域。形态学运算模块70接着对选定的ROI区域执行形态学运算，以填充ROI区域内对应于检测到的面部特征的孔。图9F说明在形态学运算模块70执行的形态学运算之后的示范性ROI区域。

最后，ROI MB选择模块72选择视频帧的对应于ROI的宏区块作为ROI宏区块。举例来说，如果宏区块的多于预定百分比的面积与选定ROI区域重叠，那么ROI MB选择模块72可选择宏区块作为视频帧的ROI的一部分。在一些情况下，所述预定百分比可包括10％。宏区块是形成视频帧的一部分的视频区块。MB的大小可以是16×16个像素。然而，其它MB大小是可能的。本文将出于说明的目的而描述宏区块，应了解，宏区块可具有多种不同大小。图9G说明ROI MB选择模块72基于视频帧的选定ROI区域而选择的示范性ROI宏区块。ROI检测模块36接着基于ROI MB选择模块72所选择的ROI宏区块而产生视频帧的ROI。

上文所述的ROI检测过程包括模式内ROI检测过程，其中ROI检测器60独立于视频序列的其它帧且在无运动信息的情况下，处理所述视频序列的视频帧。在其它情况下，ROI检测器60可基于视频序列的当前视频帧与前一视频帧之间的ROI的运动信息而执行低复杂性模式间ROI检测过程。ROI检测器60用来处理模式内帧的运动信息可包括在ROI视频处理模块中的运动估计期间获得的运动向量。模式内ROI检测过程可被视为较高复杂性过程。由于运动信息的缘故，模式间ROI检测过程可被视为低复杂性过程。在基于传感器特定统计资料而产生由ROI检测器60接收的皮肤图的情况下，皮肤图的经改进的质量可进一步减小模式内和模式间ROI检测过程两者的复杂性。

在模式间ROI检测过程中，ROI检测器60基于对前一个帧中的ROI的跟踪而检测当前视频帧内的ROI，且利用从ROI视频处理模块(例如来自图5的ROI视频处理模块42)接收到的运动向量。在此情况下，ROI检测器60将当前视频帧的每个宏区块与前一视频帧的相应宏区块进行比较。ROI检测器60确定前一视频帧的相应宏区块是否与前一视频帧内的ROI具有足够量的重叠。ROI检测器60还确定当前宏区块是否与当前帧的皮肤图具有足够量的重叠。举例来说，足够量的重叠可包括宏区块的多于预定百分比的面积与前一视频帧的ROI或当前视频帧的皮肤图重叠。在一些情况下，所述预定百分比可包括10％。

如果两个条件都满足，那么ROI检测器60选择当前宏区块作为ROI区域的一部分。这种解决方案可与ROI视频处理模块所实施的视频处理算法良好结合，且含有相对较简单的运算。因此，本文所描述的低复杂性模式间ROI检测过程比其它模式间途径有效得多。

低复杂性模式间ROI检测过程可能在跟踪快速移动的ROI方面具有困难。因此，连接到ROI检测器60的ROI检测控制器(大体上类似于来自图5的ROI检测控制器39)可实施自适应算法，所述自适应算法在某些情况下调用较高复杂性的模式内ROI检测过程。举例来说，ROI检测控制器可致使ROI检测器60在使用模式间ROI检测过程在其中自动检测到ROI的相继视频帧的数目高于预定等级(例如，每10个帧)时，周期性地执行模式内ROI检测。在另一实例中，ROI检测控制器可致使ROI检测器60在ROI检测控制器在视频序列的视频帧之间检测到高于预定等级的运动活动的量时执行模式内ROI检测。以此方式，自适应算法显著减小了包含ROI检测器60的ROI视频处理系统内的复杂性，但自适应算法可能不能够快速检测出现在视频帧中的新面部。

图10A和图10B是说明ROI视频处理系统的ROI检测模块内的ROI检测器60的操作的流程图。ROI检测器40接收皮肤图(80)。在一个实施例中，ROI检测器60可大体上类似于来自图5的ROI视频处理系统14中所包含的ROI检测器40。在此情况下，ROI检测器60可接收由皮肤区域检测器38基于视频传感器12的传感器统计资料32而产生的皮肤图，且基于传感器统计资料32而执行低复杂性ROI检测。在另一实施例中，ROI检测器60可不基于传感器统计资料而从皮肤区域检测器接收皮肤图。在此情况下，ROI检测器60可基于从类似于来自图5的ROI视频处理模块42的ROI视频处理模块接收到的运动信息而执行低复杂性ROI检测。

包含在ROI检测模块中的ROI检测控制器接着确定ROI检测器60执行模式内ROI检测过程还是模式间ROI检测过程(81)。ROI检测器60可独立于视频序列的其它帧且在无运动信息的情况下，对所述视频序列的视频帧执行模式内ROI检测过程。ROI检测器60可基于视频序列的当前视频帧与前一视频帧之间的ROI的运动信息而执行模式间ROI检测过程。

在一些情况下，ROI检测控制器可致使ROI检测器60每N个帧(例如，10个帧)或当在当前视频帧与前一视频帧之间检测到较大的移动或变化时，执行高复杂性模式内ROI检测过程。在其它情况下，如果使用模式内过程来处理最后一个视频帧或当在当前视频帧与前一视频帧之间检测到最小量的移动或变化时，ROI检测控制器可致使ROI检测器60执行低复杂性模式间ROI检测过程。

如图10A中所示，如果ROI检测控制器致使ROI检测器60执行模式内ROI检测过程(81的“是”分支)，那么区域标记模块62将从皮肤区域检测器38接收到的皮肤图分成多个不连贯的区域(82)。区域选择模块64接着选择在视频帧内包含最大面积的区域作为候选区域(84)。为了维持低复杂性，区域选择模块64只能选择三个候选区域。

特征检测和检验模块66在所述候选区域的每一者内执行特征检测，且接着检验面部特征候选物，以消除错误检测(86)。ROI区域选择模块68接着检测具有最多ROI特征和最大面积的候选区域作为ROI区域(88)。举例来说，ROI区域检测模块68可选择具有最大量的ROI特征的两个候选区域。在候选区域都不包含ROI特征的情况下，ROI区域选择模块68可选择具有视频帧的最大面积的候选区域作为ROI区域。

形态学运算模块70接着对一个或一个以上选定ROI区域执行形态学运算，以填充ROI区域内对应于检测到的面部特征的孔(90)。最后，ROI MB选择模块72选择视频帧的与选定ROI区域重叠的宏区块作为ROI宏区块(92)。举例来说，如果宏区块的多于预定百分比(例如，10％)的面积与选定ROI区域重叠，那么ROI MB选择模块72可选择所述宏区块作为视频帧的ROI的一部分。ROI检测模块36接着基于ROI MB选择模块72所选择的ROI宏区块而产生视频帧的ROI。

如图10B中所示，如果ROI检测控制器致使ROI检测器60执行模式间ROI检测过程(81的“否”分支)，那么ROI检测模块60从ROI视频处理模块接收前一个视频帧的运动向量和宏区块(96)。ROI检测器60接着将当前视频帧的每个宏区块与前一视频帧的相应宏区块进行比较(98)。

ROI检测器60确定前一视频帧的相应宏区块是否与前一视频帧的ROI充分地重叠(99)，以及当前视频帧的宏区块是否与从当前视频帧产生的皮肤图充分地重叠(100)。如果所述条件中的任一者都不满足，那么ROI检测器60不会将所述宏区块视为ROI的一部分(102)。如果两个条件都满足，那么ROI检测器60选择所述宏区块作为当前视频帧内的ROI的一部分(104)。包含ROI检测器60的ROI检测模块接着基于ROI检测器60所选择的ROI宏区块而产生视频帧的ROI。

返回图5，ROI视频处理系统14包含ROI视频处理模块42，其择优处理所产生的ROI。作为一实例，下文将把ROI视频处理模块42描述为通过使用经加权的位分配和自适应背景跳过来对视频帧内的ROI进行择优编码的ROI视频编码模块。在对视频序列的每个帧进行处理之后，ROI视频处理模块42可将经择优编码的ROI的输出图像位流发送给另一视频通信装置。

ROI视频处理模块42针对ROI视频编码实施经优化的ρ域位分配。在此情况下，ρ表示视频编码中宏区块中的非零量化的AC系数的数目或百分比。ρ域与QP域速率控制模型之间的主要差异是ρ域模型更准确，且因此有效地减少了速率波动。

另外，ROI视频处理模块42针对ROI视频编码使用感知质量测量。举例来说，视频帧的ROI和非ROI的标准化每像素失真可由D_R和D_NR表示，且ROI感知重要性因数可由α表示。可假定上文所提及的各方面之间的关系可简化成视频质量估算中的线性函数，因而视频帧的总体失真可表示为：

D_{Frame} = α D_{R} (f, \tilde{f}) + (1 - α) D_{NR} (f, \tilde{f}), - - - (9)

其中f和

是原始帧和重构的帧。根据等式(9)，显然，α应被指配有介于0与1之间的实值，且α的选择由视频通信装置10的最终用户基于其要求和期望来决定。而且，此测量值并非理想的度量，但其可能有助于位分配过程支持主观感知。

给定帧f的总位预算可由R_budget表示，且对帧进行编码的位速率可由R表示，因而问题可由下式表示：

求D_Frame的最小值，使得R≤R_budget。 (10)

在ROI视频编码中，N可表示帧中的宏区块的数目，且{ρ_i}、{σ_i}、{R_i}和{D_i}分别表示第i个宏区块的ρ、标准偏差、速率和失真(即，均方误差的和)的集合。因此，每个宏区块的一组权数{w_i}可定义为：

其中K是ROI内的宏区块的数目。因此，帧的经加权失真为：

D = Σ_{i = 1}^{N} w_{i} D_{i} = [α D_{RF} (f, \tilde{f}) + (1 - α) D_{NF} (f, \tilde{f})] * 255^{2} * 384 - - - (12)

因此，等式(4)可改写为：

求D的最小值，使得R≤R_budget。 (13)

ROI视频处理模块42可通过使用基于建模的位分配途径来对等式(13)求解。自然图像的AC系数的分布可由拉普拉斯分布(Laplacian distribution)最佳地近似，

p (x) = \frac{η}{2} e^{- η | x |} .

因此，第i个宏区块的速率和失真在等式(14)和等式(15)中可建模为ρ的函数，

R_i＝Aρ_i+B (14)

其中A和B是恒定建模参数，且A可被视为对非零系数进行编码所需的位的平均数目，且B可被视为由于非纹理信息而导致的位。

D_{i} = 384 σ_{i}^{2} e^{- θ ρ_{i} / 384} - - - (15)

其中θ是未知常数。

ROI视频处理模块42代替量化器来优化ρ_i，因为ROI视频处理模块42假定存在可用于从任何选定ρ_i产生相当好的量化器的足够准确的ρ-QP表。一般来说，可通过使用拉氏松弛(Lagrangian relaxation)来对等式(13)求解，在拉氏松弛中，将限定问题转换成非限定问题：

其中λ^*是允许

Σ_{i = 1}^{N} R_{i} = R_{budget}

的解。通过在等式(16)中将偏导数设置为零，通过以下等式来获得经优化的ρ_i的以下表达：

设定

\frac{{&PartialD; J}_{λ}}{{&PartialD; ρ}_{i}} = \frac{&PartialD; Σ_{i = 1}^{N} [λ ({Aρ}_{i} + B) + 384 w_{i} σ_{i}^{2} e^{- {θρ}_{i} / 384}]}{{&PartialD; ρ}_{i}} = 0, - - - (17)

其为

λA - {θw}_{i} σ_{i}^{2} e^{- {θρ}_{i} / 384} = 0, - - - (18)

因此，

e^{- {θρ}_{i} / 384} = \frac{λA}{{θw}_{i} σ_{i}^{2}}, - - - (19)

且

ρ_{i} = \frac{384}{θ} [In ({θw}_{i} σ_{i}^{2}) - In (λA)] . - - - (20)

另一方面，由于

R_{budget} = Σ_{i = 1}^{N} R_{i} = \frac{384 A}{θ} [In ({θw}_{i} σ_{i}^{2}) - In (λA) + NB] - - - (21)

所以

In (λA) = \frac{1}{N} Σ_{i = 1}^{N} In ({θw}_{i} σ_{i}^{2}) - \frac{θ}{384 NA} (R_{budget} - NB) . - - - (22)

根据等式(20)和等式(22)，获得位分配模型I：

ρ_{i} = \frac{384}{θ} [In ({θw}_{i} σ_{i}^{2}) - \frac{1}{N} Σ_{i = 1}^{N} In ({θw}_{i} σ_{i}^{2}) + \frac{θ}{384 NA} (R_{budget} - NB)]

= \frac{Rbudget - NB}{NA} + \frac{384}{θ} [In (θ w_{i} σ_{i}^{2}) - \frac{Σ_{i = 1}^{N} In ({θw}_{i} σ_{i}^{2})}{N}] - - - (23)

类似地，如果ROI视频处理模块42假定具有步长q的均匀量化器具，那么产生位分配模型II：

ρ_{i} = \frac{\sqrt{w_{i} σ_{i}}}{Σ_{j = 1}^{N} \sqrt{w_{i} σ_{i}}} ρ_{budget} - - - (24)

结果指示两个模型都如最佳解那样接近地执行。给定帧的位预算，且使用等式(23)或等式(24)，ROI视频处理模块42可在所述帧内的宏区块上最佳地分配位，以使等式(9)中所定义的感知失真减到最小。ROI视频处理模块42由于其简单性而可在ROI视频处理系统14中使用位分配模型II。

在非常低的位速率的情况下，通常对视频帧的非ROI区进行粗略编码，这导致低视觉质量。另一方面，在背景被视为非ROI区的VT应用的大多数情况下，背景中存在有限量的移动。因此，背景跳过是用于重新分配位以改进前景和经编码的背景区域的质量的潜在解决方案，只要所述跳过不会严重损害视频保真度即可。在此情况下，ROI视频处理模块42将每对帧分组成一个单元。在每个单元中，基于所预测的具有零运动向量的宏区块，对第一背景进行编码，同时跳过第二背景。在帧等级位分配中，ROI视频处理模块42假定视频序列中的视频帧的内容复杂性均匀分布，且因此位在单元之间均匀分配。在单元内，等式(24)可用于宏区块之间的位分配。

在ROI视频处理系统14中，ROI视频处理模块42基于由跳过而导致的失真(D_{NonROI_skip})而自适应地控制单元中的背景跳过。对于具有含有大量运动的背景的视频序列，重要背景信息的跳过可能会破坏ROI视频编码系统性能。ROI视频处理模块42使用失真阈值来确定背景跳过模式。所述阈值可与α和最近处理的单元的跳过失真的统计资料有关。通过将

表示为最近n个单元的平均失真，所述阈值可定义为：

\frac{{\overset{&OverBar;}{D}}_{n}}{2 (1 - α)} .

ROI视频处理模块42可如下实施自适应背景跳过算法。首先，ROI视频处理模块42通过设置

{\overset{&OverBar;}{D}}_{n} = 0

且将跳过模式设置为接通来初始化背景跳过算法。接着，ROI视频编码模块通过以下等式来为当前(第i个)单元分配ρ预算：

ρ_{uniti} = \frac{ρ_{segment} - ρ_{used}}{\frac{M}{2} - i}

其中M是速率控制片段中的帧的数目，ρ_segment是分配给所述片段的ρ的数目，且ρ_used是所述片段内直到当前单元为止所使用的ρ的数目。接下来，在当前单元内，ROI视频处理模块42通过等式(24)为每个宏区块分配位。如果跳过模式接通，那么不针对第二帧的非ROI区指配位。

在获得当前单元的失真之后，ROI视频处理模块42通过

{\overset{&OverBar;}{D}}_{n} = (1 - η) {\overset{&OverBar;}{D}}_{n - 1} + η D_{n}

来更新

其中η是学习因数(learning factor)，且其在[0，1]的范围内。接着，ROI视频处理模块42更新ρ统计资料，且获得用于下一个单元的数目。如果这是最后一个单元，那么ROI视频处理模块42可终止所述算法。如果其并非最后一个单元，那么ROI视频处理模块42计算新单元的D_{NonROI_skip}。如果

D_{NonROI_skip} > \frac{{\overset{&OverBar;}{D}}_{n}}{2 (1 - α)},

那么ROI视频处理模块42断开跳过模式。否则，ROI视频处理模块42对所述新单元重复上文所述的算法。

本文所述的技术可在硬件、软件、固件或其任一组合中实施。如果在软件中实施，那么所述技术可部分地通过包括程序代码的计算机可读媒体来实现，所述程序代码含有指令，所述指令在被执行时，执行上文所述的方法中的一者或一者以上。在此情况下，计算机可读媒体可包括随机存取存储器(RAM)(例如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体等等。

所述程序代码可由一个或一个以上处理器来执行，所述处理器例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。在一些实施例中，本文所描述的功能性可提供在经配置以用于自动对象分段的专用软件模块或硬件单元内，或并入在自动对象分段系统中。

在本发明中，已经描述了用于视频序列的视频帧内的低复杂性自动ROI检测的各种技术。在一些情况下，低复杂性自动ROI检测可基于传感器特定特性。在其它情况下，低复杂性自动ROI检测可基于所述视频序列的所述视频帧和不同的视频帧的运动信息。ROI视频处理系统可个别地或组合地实施所揭示的技术中的一者或一者以上，以提供自动检测到且经准确处理的ROI，以用于例如视频监视应用、VT应用或视频广播应用等多媒体应用。

所揭示的技术包含能够基于特定视频传感器的特性而调谐并增强视频通信装置内的视频传感器校准、相机处理、ROI检测和ROI视频处理的视频处理技术。所述视频处理技术可普遍应用于不同类型的视频传感器。以此方式，所揭示的技术可基于视频传感器物理特性和统计资料而增强ROI视频处理性能。

所揭示的技术还包含基于传感器的ROI检测技术，其使用视频传感器物理特性和相机处理侧信息来改进ROI检测准确性，其直接增强ROI视频处理性能。举例来说，皮肤区域检测器使用视频传感器统计资料来准确地检测视频帧内的皮肤图，且面部检测器使用所述皮肤图来检测所述视频帧内的一个或一个以上面部。所揭示的技术还包含基于运动的ROI检测技术，其使用在视频处理中的运动估计期间获得的运动信息。举例来说，面部检测器使用皮肤图和运动信息(例如，运动向量)来执行低复杂性面部检测，所述低复杂性面部检测基于所述运动信息而有效地提取皮肤图内的一个或一个以上面部，即ROI。这些和其它实施例在所附权利要求书的范围内。

Claims

1.一种用于自动关注区检测的方法，所述方法包括：

从视频传感器接收视频序列的视频帧；

基于所述视频传感器的肤色反射谱与测试目标的谱的相关性产生所述视频传感器的传感器统计资料；

基于所述传感器统计资料来检测所述视频帧内的皮肤区域；

基于所检测的皮肤区域产生所述视频帧的皮肤图；

使用关注区ROI检测器从皮肤区域检测器接收所述皮肤图；

使用所述ROI检测器接收所述视频序列的所述视频帧和不同视频帧的运动信息；

使用ROI检测控制器从至少第一ROI检测模式和第二ROI检测模式选择自动ROI检测模式；

如果选择的是所述第一ROI检测模式，则使用所述ROI检测器基于所述视频帧中的宏区块相对于所述视频帧的所述皮肤图的位置来自动检测所述视频帧内的ROI，而不参考所述不同视频帧的运动信息；

如果选择的是所述第二ROI检测模式，则使用所述ROI检测器基于所述视频序列的所述视频帧和不同视频帧的运动信息来自动检测所述视频帧内的ROI。

2.根据权利要求1所述的方法，其中基于所述视频帧中的宏区块相对于所述视频帧的所述皮肤图和所述不同视频帧内的ROI的位置来自动检测所述视频帧内的ROI包括：

将所述视频帧的第一宏区块与所述不同视频帧的对应于所述第一宏区块的第二宏区块进行比较；以及

当所述第二宏区块与所述不同视频帧内的ROI充分重叠且所述第一宏区块与所述视频帧的所述皮肤图充分重叠时，选择所述第一宏区块作为所述视频帧内的所述ROI的一部分。

3.根据权利要求2所述的方法，其进一步包括当所述第二宏区块不与所述不同视频帧内的ROI充分重叠或所述第一宏区块不与所述视频帧的所述皮肤图充分重叠这两种情况中的至少一者发生时，放弃将所述第一宏区块考虑作为所述视频帧内的所述ROI的一部分。

4.根据权利要求1所述的方法，其中接收运动信息包括接收通过跟踪所述视频序列的所述视频帧与所述不同视频帧之间的所述ROI的运动获得的运动向量。

5.根据权利要求1所述的方法，其进一步包括：

接收所述视频序列的另一视频帧的皮肤图；以及

基于所述视频帧中的宏区块相对于所述视频帧的所述皮肤图的位置且在不参考所述视频序列的所述另一视频帧和所述不同视频帧的运动信息的情况下，自动检测所述另一视频帧内的ROI，其中，自动检测所述另一视频帧内的ROI包括：

将所述皮肤图分成不连贯的区域；

从所述不连贯的区域中选择候选区域，所述候选区域占有所述另一视频帧的最大面积；

检测所述候选区域内的ROI特征；

从所述候选区域中选择包含最大数目的ROI特征或所述另一视频帧的所述最大面积中的至少一者的一个或多个ROI区域；

从所述另一视频帧的宏区块中选择至少部分地与所述另一视频帧内的所述一个或多个ROI区域重叠的ROI宏区块；以及

基于所选择的ROI宏区块产生所述另一视频帧内的所述ROI。

6.根据权利要求5所述的方法，其进一步包括检验所述视频帧内的所述检测到的ROI特征，以为所述ROI选择正确的特征，且将错误的特征从一组ROI特征候选物中去除。

7.根据权利要求5所述的方法，其进一步包括对所述一个或多个ROI区域执行形态学运算，以关闭所述视频帧的所述皮肤图中的来自所述检测到的ROT特征的内部孔。

8.根据权利要求1所述的方法，其进一步包括处理包含所述自动检测到的ROI的所述视频帧，其中处理所述视频帧包括相对于所述视频帧的非ROI区择优处理所述视频帧内的所述自动检测到的ROI。

9.根据权利要求1所述的方法，其进一步包括对包含所述自动检测到的ROI的所述视频帧进行编码，其中对所述视频帧进行编码包括相对于所述视频帧的非ROI区对所述视频帧内的所述自动检测到的ROI进行择优编码。

10.根据权利要求1所述的方法，其中选择所述自动ROI检测模式包括确定所述视频序列的所述视频帧与所述不同视频帧之间的运动活动的量，以及当所述运动活动的量高于预定等级时，选择所述第一ROI检测模式。

11.根据权利要求1所述的方法，其中选择所述自动ROI检测模式包括确定所述视频序列的其中在所述第二ROI检测模式中自动检测到ROI的相继视频帧的数目，以及当相继第二ROI检测模式视频帧的所述数目高于预定等级时，选择所述第一ROI检测模式。

12.一种用于自动关注区检测的设备，包括：

用于从视频传感器接收视频序列的视频帧的装置；

用于基于所述视频传感器的肤色反射谱与测试目标的谱的相关性产生所述视频传感器的传感器统计资料的装置；

用于基于所述传感器统计资料来检测所述视频帧内的皮肤区域的装置；

用于基于所检测的皮肤区域产生所述视频帧的皮肤图的装置；

用于接收所述视频序列的所述视频帧和不同视频帧的运动信息的装置；

用于至少从第一ROI检测模式和第二ROI检测模式选择自动关注区ROI检测模式的装置；

用于如果选择的是所述第一ROI检测模式，则通过所述ROI检测器基于所述视频帧中的宏区块相对于所述视频帧的所述皮肤图的位置来自动检测所述视频帧内的ROI，而不参考所述不同视频帧的运动信息的装置；以及

用于如果选择的是所述第二ROI检测模式，则通过所述ROI检测器基于所述视频序列的所述视频帧和不同视频帧的运动信息来自动检测所述视频帧内的ROI的装置。

13.根据权利要求12所述的设备，还包括：

用于将所述视频帧的第一宏区块与所述不同视频帧的对应于所述第一宏区块的第二宏区块进行比较的装置；以及

用于当所述第二宏区块与所述不同视频帧内的ROI充分重叠且所述第一宏区块与所述视频帧的所述皮肤图充分重叠时，选择所述第一宏区块作为所述视频帧内的所述ROI的一部分的装置。

14.根据权利要求13所述的设备，还包括：

用于在所述第二宏区块不与所述不同视频帧内的ROI充分重叠或所述第一宏区块不与所述视频帧的所述皮肤图充分重叠这两种情况中的至少一者发生时放弃将所述第一宏区块考虑作为所述视频帧内的所述ROI的一部分的装置。

15.根据权利要求12所述的设备，还包括：

用于接收通过跟踪所述视频序列的所述视频帧与所述不同视频帧之间的所述ROI的运动而获得的运动向量的装置。

16.根据权利要求12所述的设备，还包括：

用于接收所述视频序列的另一视频帧的皮肤图的装置；以及

用于基于所述视频帧中的宏区块相对于所述视频帧的所述皮肤图的位置且在不参考所述视频序列的所述另一视频帧和不同视频帧的运动信息的情况下，自动检测所述另一视频帧内的ROI的装置，包括：

用于将所述皮肤图分成不连贯的区域的装置；

用于从所述不连贯的区域中选择包含所述另一视频帧的最大面积的候选区域的装置；

用于检测所述候选区域内的ROI特征的装置；

用于从所述候选区域中选择一个或多个ROI区域的装置，其中，所述包含最大数目的ROI特征或所述另一视频帧的所述最大面积中的至少一者的；

用于从所述另一视频帧的宏区块中选择至少部分地与所述另一视频帧内的所述一个或多个ROI区域重叠的ROI宏区块的装置；以及

用于基于所选择的ROI宏区块产生所述另一视频帧内的所述ROI的装置。

17.根据权利要求16所述的设备还包括：

用于检验所述视频帧内的所述检测到的ROI特征以为所述ROI选择正确的特征且将错误的特征从一组ROI特征候选物中去除的装置。

18.根据权利要求16所述的设备，还包括：

用于对所述一个或多个ROI区域执行形态学运算以关闭所述视频帧的所述皮肤图中的来自所述检测到的ROT特征的内部孔的装置。

19.根据权利要求12所述的设备，还包括：

用于处理包含所述自动检测到的ROI的所述视频帧的装置，其中所述用于处理包含所述自动检测到的ROI的所述视频帧的装置相对于所述视频帧的非ROI区择优处理所述视频帧内的所述自动检测到的ROI。

20.根据权利要求12所述的设备，还包括：

用于对包含所述自动检测到的ROI的所述视频帧进行编码的装置，其中所述用于对包含所述自动检测到的ROI的所述视频帧进行编码的装置相对于所述视频帧的非ROI区对所述视频帧内的所述自动检测到的ROI进行择优编码。

21.根据权利要求12所述的设备，还包括：

用于确定所述视频序列的所述视频帧与所述不同视频帧之间的运动活动的量，且在所述运动活动的量高于预定等级时，选择所述第一ROI检测模式的装置。

22.根据权利要求12所述的设备，还包括：

用于确定所述视频序列的其中在所述第二ROI检测模式中自动检测到ROI的相继视频帧的数目，且在相继第二ROI检测模式视频帧的所述数目高于预定等级时，选择所述第一ROI检测模式的装置。

23.一种视频处理系统，其包括：

至少一个处理器；

相机处理模块，用于从视频传感器接收视频序列的视频帧；

传感器校准模块，用于产生所述视频传感器的传感器统计资料；

皮肤区域检测器，用于基于所述传感器统计资料检测所述视频帧内的皮肤区域并基于所检测的皮肤区域产生所述视频序列的视频帧的皮肤图；

关注区ROI视频处理模块，用于产生所述视频序列的所述视频帧和不同视频帧的运动信息；

ROI检测控制器，用于至少从第一ROI检测模式和第二ROI检测模式选择自动ROI检测模式；以及

ROI检测器，用于：

接收所述视频帧的所述皮肤图和所述运动信息；

如果选择的是所述第一ROI检测模式，则通过所述ROI检测器基于所述视频帧中的宏区块相对于所述视频帧的所述皮肤图的位置来自动检测所述视频帧内的ROI，而不参考所述不同视频帧的运动信息；

如果选择的是所述第二ROI检测模式，则基于所述视频序列的所述视频帧和不同视频帧的运动信息自动检测所述视频帧内的所述ROI。

24.根据权利要求23所述的系统，其中所述ROI检测器：

25.根据权利要求24所述的系统，其中所述ROI检测器在所述第二宏区块不与所述不同视频帧内的ROI充分重叠或所述第一宏区块不与所述视频帧的所述皮肤图充分重叠这两种情况中的至少一者发生时，放弃将所述第一宏区块考虑作为所述视频帧内的所述ROI的一部分。

26.根据权利要求24所述的系统，其中当所述第二宏区块的多于预定百分比的面积与前一视频帧的所述ROI重叠时，所述第二宏区块与所述不同视频帧内的所述ROI充分重叠。

27.根据权利要求24所述的系统，其中当所述第一宏区块的多于预定百分比的面积与所述视频帧的所述皮肤图重叠时，所述第一宏区块与所述视频帧的所述皮肤图充分重叠。

28.根据权利要求23所述的系统，其中所述ROI视频处理模块跟踪所述视频序列的所述视频帧与所述不同视频帧之间的所述ROI的运动，以产生运动向量。

29.根据权利要求23所述的系统，

其中所述皮肤区域检测器产生所述视频序列的另一视频帧的皮肤图；且

其中所述ROI检测器接收所述另一视频帧的所述皮肤图，并基于所述视频帧中的宏区块相对于所述视频帧的所述皮肤图的位置且在不参考所述视频序列的所述另一视频帧和所述不同视频帧的运动信息的情况下自动检测所述另一视频帧内的ROI，其中，所述ROI检测器包括：

区域标记模块，用于将所述皮肤图分成不连贯的区域；

区域选择模块，用于从所述不连贯的区域中选择候选区域，所述候选区域占有所述另一视频帧的最大面积；

特征检测和检验模块，用于检测所述候选区域内的ROI特征；

ROI区域选择模块，其从所述候选区域中选择包含最大数目的ROI特征或所述另一视频帧的所述最大面积中的至少一者的一个或多个ROI区域；

ROI宏区块选择模块，其从所述另一视频帧的宏区块中选择至少部分地与所述另一视频帧内的所述一个或多个ROI区域重叠的ROI宏区块，

其中所述ROI检测器基于所选择的ROI宏区块产生所述另一视频帧内的所述ROI。

30.根据权利要求29所述的系统，其中所述特征检测和检验模块检验所述视频帧内的所述检测到的ROI特征，以为所述ROI选择正确的特征且将错误的特征从一组ROI特征候选物中去除。

31.根据权利要求29所述的系统，其进一步包括形态学运算模块，所述形态学运算模块对所述一个或多个ROI区域执行形态学运算，以关闭所述视频帧的所述皮肤图中的来自所述检测到的ROT特征的内部孔。

32.根据权利要求23所述的系统，其中所述ROI视频处理模块处理包含所述自动检测到的ROI的所述视频帧，其中所述ROI视频处理模块相对于所述视频帧的非ROI区而择优处理所述视频帧内的所述自动检测到的ROI。

33.根据权利要求23所述的系统，其中所述ROI视频处理模块包括ROI视频编码模块，所述ROI视频编码模块对包含所述自动检测到的ROI的所述视频帧进行编码，其中所述ROI视频编码模块相对于所述视频帧的非ROI区对所述视频帧内的所述自动检测到的ROI进行择优编码。

34.根据权利要求23所述的系统，其中所述ROI检测控制器确定所述视频序列的所述视频帧与所述不同视频帧之间的运动活动的量，且在所述运动活动的量高于预定等级时，选择所述第一ROI检测模式。

35.根据权利要求23所述的系统，其中所述ROI检测控制器确定所述视频序列的其中在所述第二ROI检测模式中自动检测到ROI的相继视频帧的数目，且在相继第二ROI检测模式视频帧的所述数目高于预定等级时，选择所述第一ROI检测模式。