CN102884536B

CN102884536B - 用于视频会议压缩的肤色与特征检测

Info

Publication number: CN102884536B
Application number: CN201080066641.7A
Authority: CN
Inventors: F·多普克
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2010-04-07
Filing date: 2010-09-22
Publication date: 2016-09-21
Anticipated expiration: 2030-09-22
Also published as: KR20130015010A; CA2797500C; CA2797500A1; CN102884536A; JP2013524682A; AU2010350738B2; JP5544041B2; WO2011126500A1; EP2556464B1; EP2556464A1; US20110249756A1; US8588309B2; KR101450423B1

Abstract

在许多视频会议应用中，带宽是非常珍贵的，因而，智能地编码给定的视频帧是很重要的。常常期望更大量的信息花费在编码视频帧较重要的部分上，例如，人的脸部特征，而视频帧不太重要的部分可以用较高的比率压缩。因而，需要可以向视频编码器“建议”智能宏块压缩比的用于智能肤色与脸部特征识别视频会议压缩的装置、计算机可读介质、处理器与方法。对压缩比的建议可以至少部分地基于对给定视频帧中哪些宏块有可能包含肤色、有可能包含特征（例如，边缘)、有可能包括在肤色区域中或者其附近的特征、或者有可能既不包含肤色又不包含特征的确定。

Description

用于视频会议压缩的肤色与特征检测

由于Apple公司的iPhone 4原型机很显然被Apple公司的工程师于2010年3月25日窃取，因此本申请中公开并请求保护的发明过早地并且在没有Apple公司授权的情况下公布于众。在上述明显窃取之前尚未提交本申请所基于的美国优先权申请。

对相关申请的交叉引用

本申请是基于2010年4月7日提交的美国专利申请第12/755,551号的国际申请，所述美国申请通过引用并入于此并且要求其优先权。

背景技术

在许多视频会议应用中，带宽是非常珍贵的，因而，尽可能有效并智能地编码给定的视频帧及整个视频流是很重要的。视频压缩算法一般对数据的宏块操作，宏块即视频帧内相邻像素的方形组。宏块的大小一般是16像素乘16像素，但是，依赖于编码视频数据所使用的编解码器，例如，H.263或者H.264，帧也可以分成更小的宏块，例如一边尺寸为4、8、12或者16像素的宏块。当然，视频帧还可以分成任意尺寸的更小或更大的宏块。

在视频会议应用中，在最低可能的比特率情况下确保最高可能的视频质量是极为重要的。当今现有的视频编解码器标准既采用帧间编码又采用帧内编码技术。帧内编码技术是关于只包含在当前视频帧中的信息而不关于视频序列中的任何其它帧来执行的。帧内编码利用人眼不会像察觉到亮度变化那么容易地察觉到非常细小的颜色不同的事实。另一方面，帧间编码技术涉及时间处理，即，不是为后续的视频帧重新发送全部信息，编解码器将仅编码和发送从一个视频帧到下一个视频帧的像素位置与像素值的变化。这是一种有效的技术，因为大量像素常常在从一个视频帧到下一个时将不会变化，因而对每个视频帧重新发送全部的图像信息将是冗余的。

在编码过程中，视频压缩编解码器必须做出关于针对每个视频帧在什么地方“花费”其有限数量的比特的关键性决定，即，编解码器必须确定在哪些宏块上需要最大量的图像细节。常常期望更大量的信息用于编码视频帧最重要的部分，而视频帧不太重要的部分可以用较高比率压缩，而且仍然产生令人满意的视频质量。尤其是在视频会议应用中，视频帧最重要的部分通常是人的脸或手在视频帧中的定位，而且，更具体而言，是通信中所涉及的面部特征（例如，眼睛和嘴巴)的定位。

因而，需要可以向视频编码器“建议”宏块压缩比的用于智能肤色与面部特征识别视频会议压缩的装置、计算机可读介质、处理器与方法。对压缩比的建议可以至少部分地基于给定视频帧中哪些宏块有可能是最重要的，并因此值得在其编码中花费比在视频帧中不太重要宏块的编码中不成比例地更大量的比特。

发明内容

现有技术的视频会议压缩方法公开了，通过检查给定视频帧中的每个宏块并确定该宏块中属于预定肤色颜色区域内的像素个数，来定位所述视频帧中的脸部。如果宏块包含高于阈值个数的肤色像素，那么该宏块可以用较低的比率压缩，因为它有可能包含重要信息，例如，人脸。相反，如果给定的宏块不包含阈值个数的肤色像素，那么现有技术的视频会议压缩方法就把该宏块视为不太重要的并且用较高的比率来压缩它。仅仅基于肤色检测的压缩方案可能导致不期望的视频流，其中，当脸的外边缘只覆盖给定宏块的一小部分时，人脸的外边缘被高度压缩（因而缺乏质量)，由此造成算法认为该宏块没有“足够的肤色”，因而不值得用较低的压缩比。另外，现有技术的视频会议压缩方法将有可能花费不必要的大量信息去编码视频帧中并不真正拥有很多细节或特征的肤色区域，例如，前额和脸颊。

本公开内容涉及既考虑肤色又考虑特征检测的用于更智能视频压缩的装置、计算机可读介质、处理器与方法。例如，在一种实施方式中，赋予宏块中的每个像素一个加权值，这可以基于像素：a)在肤色区域内（例如，值为“1”)；b)是“特征”的一部分（例如，值为“2”)；c)是“特征”的一部分而且在肤色区域的阈值距离（例如，两个像素)内内（例如，值为“16”)或者d)既不在肤色区域内也不是“特征”的一部分（例如，值为“0”)。上述0:1:2:16加权方案仅仅是示例性的，只是例示与只包含肤色特征或者只包含特征的宏块相比，出现在肤色区域中或者在其附近的特征可以被认为对于视频帧的编码呈指数倍地更加重要。确定给定像素是否为“特征”的一部分可以基于任意数量的众所周知的特征检测算法，例如Viola Jones对象检测框架，或者任意数量的众所周知的边缘检测算法，例如Sobel边缘检测。

然后，可以计算用于给定宏块的加权像素值的平均值，而且，可以基于计算出的平均加权像素值赋予宏块整体“压缩得分”。采用加权平均值允许比较不同尺寸的宏块的相对重要性。压缩得分可以基于例如1至10的数值范围，其中具有压缩得分10的宏块被压缩得最少，而具有得分1的宏块被压缩得最多。因而，在此公开的智能视频压缩方案朝着对视频会议最重要的区域（即，脸、手，而且更特别地是脸部特征和脸的外边缘)优化视频帧上宏块压缩比的分布。尽管本公开内容讨论了用于视频会议应用中更智能视频压缩的一种新技术，但是，本领域的普通技术人员将认识到，在此所公开的技术还可以应用到其它的背景和应用中。

以上内容并非旨在概述本公开的每种可能的实施方式或者每个方面。

附图说明

图1至2图示根据本公开一种实施方式的多媒体设备。

图3示出了根据本公开一种实施方式的基于肤色和特征检测来压缩视频的处理。

图4示出了根据一种实施方式的分成多个宏块的视频帧。

图5至6示出了根据一种实施方式且更具体的用于基于肤色和特征检测来压缩视频的处理。

图7至8例示了根据一种实施方式的在色度空间中的预定“肤色区域”。

图9示出了根据一种实施方式的对具有各种像素的一组宏块运行的假设特征检测算法的结果。

图10示出了根据一种实施方式的作为特征的一部分而且还在肤色区域的阈值距离内的假设图像的区域。

图11示出了根据一种实施方式的用于调整处理过的帧的压缩得分的处理。

图12示出了根据一种实施方式的具有宏块离群值（outlier)的视频帧。

具体实施方式

图1中图示示出的多媒体设备100具有编程为根据本公开执行用于对视频数据计分和编码的指令的处理单元120。在这种实施方式中，多媒体设备100具有在视频会议中处理音频数据的音频编解码器130、麦克风132和扬声器134。同样，多媒体设备100具有在视频会议中处理视频数据的视频编解码器140、图像传感器142和显示器144。最后，多媒体设备100还可以包括其它部件，包括用户接口112、通信电路114、存储器116及本领域中已知的其它部件。存储器116也是计算机可读介质的一个例子，用于执行智能视频压缩方法的指令可以存储（即，有形地体现)在其中，而且它可以包括ROM、EEPROM、闪速存储器或者任何其它合适类型的存储器存储介质。

在此所公开的技术可以适用于任意数量的具有数字图像传感器的消费者电子设备。例如，多媒体设备100可以是数码照相机、数码摄像机、移动电话、个人数据助理（PDA)、便携式音乐播放器、计算机、视频会议端点或者其它设备。对于本公开而言，设备100可以称为移动电话。由此，所公开的视频压缩技术对于具有前置摄像头的电话会是有用的，因而，近端讲话者的脸可以准确地呈现在远端参与者的电话的前显示器上，反之亦然。

图像传感器142可以是包括用于拍摄视频（和静止图像)的电荷耦合器件（CCD)的传统照相机图像传感器，而且可以集成到多媒体设备100中。处理单元120可以是嵌入式处理器，例如具有v7-A架构的A8，该处理器为执行所公开的技术提供了多用途而且鲁棒的计算单元。（CORTEX和ARM是英国ARM有限公司的注册商标。)

视频编解码器140接收从图像传感器142输出的视频数据并且压缩该视频数据，用以经通信电路114在通信网络上发送。为此，视频编解码器140压缩视频数据，使得它可以根据网络的带宽限制在网络上发送。

给定以上对多媒体设备100（图1)的综述，现在讨论设备的附加细节。图2示出了例示用于图1的多媒体设备100的处理单元的图像传感器组件（Image Sensor Package,ISP)200和处理部件220的更多细节的框图。为了捕捉视频数据，ISP 200具有数字图像传感器202，该传感器202可以是CCD等。依赖于所使用的传感器的类型，视频数据可以通过去马赛克处理或者去Bayer处理（de-Bayering process)204来处置，如本领域中众所周知的。而且，可以执行各种校正处理206。例如，可以进行透镜校正，来校正各种透镜变形的视频数据，包括晕映假象，即，光朝着帧的边缘衰减，和颜色一致性。本领域中已知的RGB对比度与饱和度提升可以偏移视频数据的中点的颜色范围，而降噪滤波器可以除去由低光条件等造成的任何噪声。最后，ISP 200可以把视频数据编码到YCbCr色彩空间中，并且经接口210传递编码后的视频数据，用于进一步的处理。

如已知的，YCbCr色彩空间中的像素具有用于照度或亮度的Y分量、用于“蓝色差值”色度分量（即，B-Y)的Cb分量和用于“红色差值”色度分量（即，R-Y)的Cr分量。Cb和Cr分量一起称为“色度空间”。用于多媒体设备的许多数码照相机和数码摄像机都提供二次采样的YCbCr色彩空间中的图像数据，以节约存储器带宽。例如，利用所谓的4:2:0二次采样，Cb和Cr是以Y的一半垂直分辨率和一半水平分辨率采样的，使得四分之一数量的色度样本作为亮度样本用于图像的给定区域。尽管视频数据的处理在这里是使用这种YCbCr色彩空间讨论的，但是本公开的教习可以用于任何合适的色彩空间与采样。

从接口210，编码后的视频数据随后由多媒体设备的处理单元的附加处理部件220处理。部件220包括预处理级230，其具有亮度空间238中的特征检测232、色度空间242中的肤色检测234和计分236。在预处理之后，编码器240对视频数据进行编码，用于在通信网络上发送。这些部件220中的每一个都在随后更具体地描述。

给定对图1至2的多媒体设备100的理解，现在讨论在此公开的用于当可用带宽有限时压缩视频的技术。如前面所指出的，多媒体设备100可以是移动电话或者其它的无线便携式设备。当用于视频会议时，会议视频中期望的更多细节需要更多的比特经通信网络发送。所有这些最终都是受用于视频会议的通信网络的可用带宽支配的。本公开的技术既使用皮肤检测又使用特征检测来确定要给予视频数据的哪些部分更多或更少的压缩。以这种方式，可用于设备100（例如，移动电话)的带宽可以更好地用于把有用的视频数据发送到接收方。

参考图3，以流程图的形式示出了为利用多媒体设备100（图1至2)进行的视频会议压缩视频数据的处理300。首先，多媒体设备100的处理单元120从图像传感器142获得视频数据（块302)。处理单元120对视频数据执行肤色检测（块304)及特征检测（块306)。应当指出，在块304和块306中所描述的处理步骤可以按任何次序或者甚至同时发生。

由肤色和特征检测处理所使用的像素信息依赖于视频数据的色彩空间。在一种布置中，特征检测在亮度（Y)空间中进行，而肤色检测在色度空间（Cb/Cr)中进行。在另一种实施方式中，通过简单地直接比较像素颜色值与肤色值，肤色检测可以直接在RGB空间中进行。人与人的肤色或肉色可以不同而且可能基于照明情况而不同。因此，肤色检测根据需要可以是可配置的或者可调整的。从根本上讲，处理单元120可以利用肤色检测确定视频数据的哪些区域具有属于肤色或肉色范围内的像素值。与此同时、之前或者随后，处理单元120可以确定视频数据的哪些区域具有特征。这些特征可以包括眼睛、鼻子、嘴巴、耳朵、眉毛、手，等等。

知道了这两种类型的区域的定位之后，处理单元120就可以给构成视频数据的各个宏块中的像素的皮肤与特征结果加权或“计分”（块308)。例如，肤色区域中的像素与不在这种区域中的其它像素相比将被赋予更高的权重或者重要性。类似地，特征区域中的像素与不在这种区域中的其它像素相比将被同样地赋予更高的权重或者重要性。最后，在一个特征中而且在一个肤色区域中或者其附近的像素可以被赋予最高的权重或者重要性。

给皮肤与特征结果加权的行为可以在视频编解码器140的编码器中发生，而且可以作为把其信息（即，“压缩细节”)发送到实际编码器的预处理步骤来操作。继而，视频编解码器140的编码器又把“压缩细节”作为编码视频帧不同部分并且把压缩细节转换成它将压缩每一部分的实际比率的指示或者指令。以这种方式，处理单元120中视频编解码器140的编码器可以决定如何最好地压缩视频数据以保留细节。

根据预处理，处理单元的视频编解码器140的编码器随后基于像素的加权结果执行对区域的压缩（块310)。于是，具有肤色的区域将用更多信息（即，更低压缩)来编码，使得这种区域当在远端视频会议设备处被解码时可以更好地被识别。而且，具有特征的区域将同样用更多信息（即，更低压缩)来编码。具有特征并且在肤色区域的阈值距离内的区域将用最多的信息（即，最低压缩)来编码。缺乏肤色和特征的其它区域将用较少的信息（即，更多压缩)来编码。一旦完成，处理单元120就利用适当的协议和通信电路114把编码后的视频数据在通信网络上发送（块312)。

在探究所涉及的处理的进一步细节之前，首先讨论视频数据如何被处理部件220处理。视频数据包括一序列帧400——图4中示出了其中一个。帧400被分成像素420的块410。这些块410称为宏块而且用于处理帧400的视频压缩。通常，宏块410的像素宽度与高度是基于四的倍数，但宏块410的实际大小依赖于用于编码数据的编解码器。

在图4中示出的本例中，视频帧400是16个宏块410宽和16个宏块410高，而且每个宏块410是16x 16个像素420。依赖于所采用的二次采样方案，每个像素420又可以具有在YCbCr色彩空间中的像素信息。这使得视频帧400具有256x 256像素的像素分辨率。当然，本公开的技术可以应用到任何其它分辨率、宏块大小或者其它布置。例如，HVGA即“半尺寸视频图形阵列”可以是宽度为二十个16x 16的像素宏块，而高度为三十个16x 16的像素宏块，具有480x 320像素的整体分辨率。

如可以看到的，有些宏块（例如，430)包含对象脸部的像素信息并因此具有皮肤或脸部色调。总的来说，如在此所使用的，皮肤或脸部色调可以指与一个人的皮肤或脸关联的任何颜色值。由于人一般是视频会议的最重要的对象，因此所公开的技术集中在肤色或肉色。

如还可以看到的，有些宏块（例如，410)不包含对象脸部的像素信息。这些可能或者可能不具有肤色。例如，背景中的宏块440可能包含肤色，而其它宏块450可能不包含。还有其它宏块（例如，460)可能不包含肤色，尽管它们位于对象的脸中。例如，具有对象眼睛的区域、鼻子下方的区域等的宏块460可能在阴影中而且在捕捉到的视频数据中不反映肤色。为了确定如何压缩具有移动/变化对象的一系列帧中复杂视频帧中的各个宏块410，在此所公开的视频压缩处理的一种实施方式既使用肤色检测又使用特征检测。

转向图5至6，同时参考图2的部件来描述用于视频压缩的具体处理500。在ISP（200)捕捉到视频数据并且把它转换到YCbCr色彩空间等中之后，预处理级（230)的肤色检测处理（234)对一帧视频数据执行肤色检测（块510)。这种检测可以按本领域中已知的多种方式执行。优选的肤色检测技术的特定细节在于2009年6月5日提交的共同拥有且共同未决的美国申请第12/479,651号中公开，该申请的全部内容通过引用并入于此。

简单地说，肤色检测识别视频帧中具有肤色的区域。为此，检测处理确定帧中具有属于CbCr色彩空间的预定“肤色多边形”或者“肤色楔形”中的颜色值的区域。图7至8示出了色度空间图700和800，点702的假设阵列代表数字图像的像素。点702是相对于蓝色色度Cb和红色色度Cr来映射的。对应于肤色的色调值可以预先确定，而且这种“肤色”区域的边界参数可以编程到存储器中。在色度图700中，多边形704定义了肤色区域。另一方面，在色度图800中，从图的中心发源的“楔形”802定义肤色区域。

色度空间肤色区域确定的每种方法都有其自己的优点。例如，多边形方法更加准确，但计算上更加昂贵。区域定义多边形704的边数越大，实现起来计算就越昂贵。另一方面，定义肤色区域的楔形802不太准确，而且，尽管楔形802中的像素804有可能不是肤色，也将它看作是肤色。然而，楔形802可以利用向量处理来执行而且可以非常快速地执行。用于定义肤色区域边界的其它技术也可以使用。

对于所定义的肤色区域，肤色检测处理（234)可以基于像素的色度CbCr值针对视频帧的每个像素作出肤色决定。为此，帧中采样像素的色度值可以经向量处理来检查，以确定所采样的值把像素放到了预定肤色区域的里面还是外面。每个宏块的每个像素都可以被检查而且可以把代表其肤色决定的值（例如，“肤色”或“非肤色”的二进制决定)写到存储器（例如，存储器116)中。可选地，可以只检查一个或多个宏块中的一些像素，来提高处理速度。

回到图5，特征检测处理（232)检测在帧的视频数据中所定义的特征或者特定区域（块515)。这种检测可以在肤色检测之前、期间或者之后执行，而且也可以按本领域中已知的多种方式来执行。对给定像素是否为“特征”的一部分的确定可以基于任意数量的众所周知的特征或边缘检测算法，例如Viola Jones对象检测或者Sobel边缘检测。每个宏块的每个像素都可以被检查，并且可以把代表其特征决定的值（例如，“特征”或“非特征”的二进制决定)写到存储器（例如，存储器116)中。可选地，可以只检查一个或多个宏块中的一些像素，来提高处理速度。

简单地说，特征检测处理（232)识别帧中包含特征或边缘的像素。为此，特征检测处理可以使用亮度（Y)空间中的像素值。例如，公共边缘检测算法尝试识别数字图像中图像亮度（Y)值逐像素变化最显著或者图像有中断的点和方向。边缘检测可以设置任何数量的阈值参数，以确定给定的特征（即，边缘)在数字图像中的什么地方开始和结束。如图9中所示，数字图像900中假设定位的边缘由图像上的散列线910表示。注意，特征检测处理也有可能定位背景对象中的一些边缘或特征920。对于在此所述的方法，重要的是能够区分对视频会议压缩更加重要的特征910和对视频会议压缩不太重要的特征920，以使得包括视频流的比特可以花在最重要的位置。

如图10中所示，数字图像1000中对视频会议更重要的区域，即，图像中作为特征的一部分而且还在肤色区域的阈值距离之内的那些区域，在图像上保持由散列线910表示。数字图像1000中不太重要的区域，即，图像中不包含特征或者包含不位于肤色区域的阈值距离内的特征的那些区域，在图像上不再由散列线910表示。数字图像1000中保持由散列线910表示的区域对应于数字图像1000中将赋予最高压缩得分并将以最低比率被视频编码器压缩的宏块。

回到图5，一旦发生了肤色与特征检测，计分处理（236)就可以既使用检测到的肤色区域又使用检测到的特征来确定定义如何压缩帧的视频数据的得分或权重。首先，选择对象帧的宏块（块520)，并检查所选宏块的像素（块530)。计分处理（236)使用所存储的用于每个像素的肤色与特征决定来确定所选的像素是只在肤色区域内、只在特征区域内，还是既在特征区域内又在肤色区域的阈值距离内（判决532/534/536)。依赖于分析，计分处理（236)相应地给像素加权或计分（块540/542/544/546)。

在一个例子中，赋予宏块中的每个像素一个加权值，这是基于像素：a)是在肤色区域内（例如，值为“1”)；b)是“特征”的一部分（例如，值为“2”)；c)是“特征”的一部分并且在肤色区域的阈值距离（例如，两个像素)内（例如，值为“16”)或者d)既不在肤色区域内也不是“特征”的一部分（例如，值为“0”)。如以上所提到的，所使用的实际计分系统可以是可配置的而且可以依赖于期望的实现和带宽约束。

最后，处理500确定是否还有更多像素、宏块和帧（判决550/552/554)。处理500可以处理视频数据的每个帧或者可以只处理视频数据的选定帧，使得不需要处理每个帧来确定压缩变量。换句话说，假定视频会议中的对象没有在改变位置，那么视频数据的一帧可以由处理500来处置，然后多个后续的帧可以使用相同的确定。在给定的条件下，这可能是或者可能不是有用的。同样，不同帧中不同的宏块可以持续地利用处理500和用于进入的帧的确定来处置。

不管宏块和帧是如何处置的，处理500都可以象图6中所示出的那样继续进行。计分处理（236)取得要压缩的对象帧（块560)并取得该帧的一个宏块（块562)。利用先前确定的只在肤色区域中、只在特征中或者既在特征区域中又在肤色区域的阈值距离内的像素的得分，计分处理（236)为该宏块计算平均像素值得分。

在平均该帧的每个或者一些宏块（判决566)之后，计分处理（236)确定用于宏块的压缩得分（块570)。为此，计分处理（236)利用用于给定宏块的平均像素值来计算压缩得分。总的来说，压缩得分可以基于预定的数值范围（例如，1至10的数值范围)。在一种实施方式中，具有压缩得分10的宏块将被视频编解码器压缩最少，而具有压缩得分1的宏块将被视频编解码器压缩最多。

压缩得分可以通过把每个宏块的平均像素值线性缩放到期望的数值范围（例如，1至10)来确定。例如，给定视频帧中具有最高像素平均值的宏块可以设置成具有最高压缩得分（例如，“10”)，而剩余的宏块可以根据某种适当的函数相对于其来缩放。可选地，压缩得分可以简单地设置成用于该宏块的平均像素值。

为了节省某些附加的带宽，如果没有宏块达到某个阈值像素平均值，那么就不赋予任何宏块压缩得分“10”。以这种方式，信息将不会仅仅因为它具有当前帧中最好或最高的得分而用最低压缩来编码。这种当前帧中的最佳得分信息可能不是视频会议的参与者的信息，因此高压缩可能不合适或者不必要。例如，照相机可以指向到白色的墙壁，在这种情况下，高度压缩帧中的所有宏块将是合适的和优选的。但是，物体（即，纸张、展品等)可能实际上是视频会议的当前帧中的期望对象，因此这个特征可以可选地实现和/或是可配置的。

一旦确定了用于期望宏块的压缩得分，编码器（240)就基于该压缩得分压缩宏块（块572)并继续到下一个帧（判决574)。例如，压缩得分可以以视频帧附件的形式传递到编码器。帧中具有较少有用信息的区域比具有更多有用信息（例如，肤色和特征)的区域压缩得更多。因而，所述方法朝着对视频会议有最大利益的区域，即，脸、手而且尤其是脸部特征，优化用于视频帧上宏块的压缩比的分布。编码器240可以使用用于压缩视频会议视频的任何合适的标准格式。一些标准包括H.263和H.264视频编解码器标准。

在会议过程中，基于其对视频图像的实际重要性，在视频中可能发生一个视频帧的部分被压缩多于或少于其“应该”的情况。例如，这些部分或者“离群值宏块”可能因为属于特定宏块的对象脸的一部分位于阴影中使得该宏块被压缩多于周围宏块而出现，因为所述方法不能确定阴影区域是肤色和/或特征的一部分。这将导致给定的宏块是漏判（False Negative)。相反的情况可以称为误判（False Positive)，即，因为某种照明条件、边缘效应或者二者结合使得宏块在计分处理看起来对视频帧比实际情形更重要而使该宏块比其周围宏块压缩较少的情况。例如，图像背景中的树木或者植物可能具有带许多边缘的区域和/或离肤色足够近使得它们得到非常高的压缩得分，尽管这种确定或者是不准确的或者对整体的压缩方案无益。

为了处理这些情况，在已经赋予每个宏块初始压缩得分之后可以二次处置处理后的帧的宏块。如图11中所示，这个继续的处理1100取得已经处理过的帧（块1102)并且选择宏块（块1104)。然后，处理1100比较选定的宏块的压缩得分与其邻近宏块的得分（块1106)。这么做是为了找出离群值，例如被高压缩宏块包围的低压缩宏块（即，误判)或者被全部低压缩宏块包围的高压缩宏块（即，漏判)。

例如，图12示出了一个对象的视频帧1200，该帧具有与位于深阴影中的对象眼睛周围隔离的一组宏块1202。中央宏块1210A-B代表漏判。与其周围的邻居（即，八个相邻的宏块)的得分（例如，“5”、“7”&“10”)相比，这些宏块1210A-B具有低得分（例如，“3”)。尽管这些宏块1210A-B包括代表对象眼睛的像素，即，用于视频会议的视频帧的重要区域，但是低得分的宏块1210A-B将比其邻居压缩得多。可以假定，得分中的差异是由于深阴影、色差、不可靠的边缘检测等导致的。不管是出于什么原因，把对象的眼睛比周围的眉毛和脸颊压缩更多将是不太理想的。为此，使用所公开处理的二次进行来检测这种离群值并校正它们。

误判可能由于多种原因而在帧1200中发生。例如，帧1200可能包含背景中的森林或者树木，而且可能有或者可能没有来自树枝与树叶细节的许多特征和边缘。此外，颜色可能足够接近肤色，使得给定宏块1220的得分可以导致相对低的压缩比。例如，给定宏块1220可以类似于真正包含对象脸部部分的另一个宏块1230而被计分。如果使用这种压缩得分，那么将赋予宏块1220比所需更多的重要性。通过查看周围宏块的得分，可以智能地调整给定宏块的得分。

回到图11，继续处理1100比较选定宏块的压缩得分与其邻近宏块的得分（块1106)。选择哪些及多少邻近的宏块与选定宏块进行比较可以依赖于环境、得分之间的差异，而且可以是可配置的。如果大部分、全部或者某个水平的邻居得分高于选定宏块的得分，处理1100就确定这个宏块是漏判离群值（判决1110)，而且处理1100调整该选定宏块的得分，以反映其邻居的得分（块1114)。可选地，如果大部分、全部或者某个水平的邻居得分低于选定宏块的得分，处理1100就确定这个宏块是误判离群值（判决1112)，而且处理1100调整该选定宏块的得分，以反映其邻居的得分（块1114)。最终，在进行到下一个或某个后续的视频帧（块1102)之前，处理1100选择每个宏块（或者其某个选定集合)（判决1116)。

在一种实施方式中，可以对期望的宏块执行误判/漏判离群值得分校正处理。这个处理可以定义一个用于漏判宏块的阈值，例如“5”。然后，该处理可以检查选定宏块的每个邻近宏块的压缩得分。如果该选定宏块的邻近宏块的平均压缩得分等于或者高于漏判阈值，例如“5”，而且该选定宏块的得分小于漏判阈值，处理就把选定宏块的压缩得分设置成该选定宏块的邻近宏块的平均压缩得分。同样，校正处理可以定义另一个用于误判宏块的阈值，例如“2”。然后，该处理可以检查选定宏块的每个邻近宏块的压缩得分。如果用于该选定宏块的邻近宏块的平均压缩得分等于或者小于误判阈值，例如“2”，而且该选定宏块的得分高于误判阈值，处理就把选定宏块的压缩得分设置成该选定宏块的邻近宏块的平均压缩得分。如所期望的，用作误判和漏判阈值的值当然可以调整，用于对误判/漏判离群值宏块更积极或更不积极的处理。选择例如“2”的误判阈值以确保图像背景中的噪声不干扰误判的去除。另一方面，如果宏块具有至少例如“5”的较高压缩得分，那么就可以假定该宏块拥有处于皮肤区域内的足量肤色像素。

如以上所提到的，在调整选定宏块得分时（块1114)，处理1100可以利用邻近宏块得分的平均值并指定选定宏块具有该平均得分。可选地，如果期望的话，处理可以使用某种其它的预设得分。邻近宏块的得分还可以基于与选定宏块的接近程度和基于得分之间的差异来加权。也可以执行某种其它的确定。最终，这个二次进行的处理1100确定选定宏块是否是应当校正其压缩得分的漏判或误判离群值。

在此所述的智能肤色与脸部特征识别视频会议压缩方法还可以具有在非视频会议应用中的一些应用，例如监控摄像头。监控系统存储很长时间内的非常大量的数据，因而，可能期望以比墙壁或其它背景物体低的比率压缩人的脸（例如，银行的监控摄像头)。

以上对优选和其它实施方式的描述不是要限制或约束本申请人设想的创新概念的范围或适用性。以公开在此所包含的创新概念为交换，本申请人期望由所附权利要求提供的所有专利权。因此，所附权利要求旨在最大程度地包括对属于以下权利要求或者其等同物范围之内的全部修改与变更。

Claims

1.一种视频压缩方法，该方法包括：

确定帧中具有在预定肤色区域中的颜色的任何第一像素；

确定帧中作为至少一个面部特征的一部分的任何第二像素；

对于帧中的每个像素：

如果相应的像素是第一像素中的一个，并且该像素不是第二像素中的一个，则将第一值分配给该像素；

如果相应的像素是第二像素中的一个，并且不在第一像素中的任何一个的指定阈值距离内，则将第二值分配给该像素；

如果相应的像素在任何一个第一像素的所述指定阈值距离内，并且该像素是第二像素，则将第三值分配给该像素；

如果相应的像素不是第一像素中的一个，并且不是第二像素中的一个，则将第四值分配给该像素；

在帧内逐个宏块地对被分配的像素值求平均，以生成相应的宏块得分；以及

基于所述宏块得分来压缩帧。

2.如权利要求1所述的方法，其中，确定第一像素包括将每个像素的颜色与色度空间的多边形肤色区域进行比较。

3.如权利要求2所述的方法，其中，所述多边形肤色区域包括指示人肤色的CbCr值。

4.如权利要求2所述的方法，其中，所述多边形肤色区域包括指示人肤色的RGB值。

5.如权利要求1所述的方法，其中，确定第二像素包括对帧中的像素执行边缘检测处理。

6.如权利要求1所述的方法，其中，确定第二像素包括对亮度空间中的像素执行特征检测处理。

7.如权利要求1所述的方法，其中，第一值、第二值、第三值和第四值彼此都是不同的值。

8.如权利要求1所述的方法，其中，第二值高于第一值。

9.如权利要求8所述的方法，其中，第三值高于第二值。

10.如权利要求9所述的方法，其中，第一值高于第四值。

11.如权利要求1所述的方法，其中，所述方法还包括：

通过将相应的像素的位置与任何一个第一像素的位置进行比较，来确定该像素是否在任何一个第一像素的指定阈值距离内。

12.如权利要求10所述的方法，其中，压缩帧包括：利用比具有较低得分的宏块少的压缩来压缩具有较高得分的宏块。

13.如权利要求1所述的方法，其中，压缩帧包括：

将一个给定宏块的得分与一个或多个邻近宏块的得分进行比较；及

基于该给定宏块的得分与邻近宏块的得分之间的差异指示所述一个给定宏块是离群值，调整该给定宏块的得分。

14.如权利要求13所述的方法，其中，所述差异指示与所述一个或多个邻近宏块相比，所述给定宏块因为该给定宏块是漏判而具有更低的得分，或者指示与所述一个或多个邻近宏块相比，所述给定宏块因为该给定宏块是误判而具有更高的得分。

15.如权利要求1所述的方法，其中，压缩帧包括：

将得分与一个或多个邻近宏块的得分相差多于阈值的每个宏块的得分校正成等于邻近宏块的平均得分。

16.一种装置，包括：

图像传感器，用于获得视频数据；

存储器，操作地耦接到所述图像传感器；及

处理器，操作地耦接到所述存储器与图像传感器，并且编程为编码视频数据，该处理器配置成：

确定帧中具有在预定肤色区域中的颜色的任何第一像素；

确定帧中作为至少一个面部特征的一部分的任何第二像素；

对于帧中的每个像素：

如果相应的像素是第二像素中的一个，并且不在第一像素的任何一个的指定阈值距离内，则将第二值分配给该像素；

在帧内逐个宏块地对被分配的像素值求平均，以生成相应的宏块得分；

至少部分地基于所述宏块得分来压缩帧。

17.如权利要求16所述的装置，其中该装置包括以下至少一种：数码照相机、数码摄像机、移动电话、个人数据助理、便携式音乐播放器和计算机。

18.如权利要求16所述的装置，其中，第二值高于第一值。

19.如权利要求18所述的装置，其中，第三值高于第二值。

20.如权利要求19所述的装置，其中，第一值高于第四值。

21.如权利要求19所述的装置，其中，所述处理器被进一步配置成：

将一个给定宏块的得分与一个或多个邻近宏块的得分进行比较；

基于得分之间的差异调整给定宏块的得分。

22.如权利要求20所述的装置，其中，所述处理器被进一步配置成：

利用比具有较低得分的宏块少的压缩来压缩具有较高得分的宏块。

23.一种视频压缩设备，该设备包括：

用于确定帧中具有在预定肤色区域中的颜色的任何第一像素的装置；

用于确定帧中作为至少一个面部特征的一部分的任何第二像素的装置；

用于对于帧中的每个像素，如果相应的像素是第一像素中的一个，并且该像素不是第二像素中的一个，则将第一值分配给该像素的装置；

用于对于帧中的每个像素，如果相应的像素是第二像素中的一个，并且不在第一像素中的任何一个的指定阈值距离内，则将第二值分配给该像素的装置；

用于对于帧中的每个像素，如果相应的像素在任何一个第一像素的所述指定阈值距离内，并且该像素是第二像素，则将第三值分配给该像素的装置；

用于对于帧中的每个像素，如果相应的像素不是第一像素中的一个，并且不是第二像素中的一个，则将第四值分配给该像素的装置；

用于在帧内逐个宏块地对被分配的像素值求平均，以生成相应的宏块得分的装置；

用于基于所述宏块得分来压缩帧的装置。

24.如权利要求23所述的设备，其中，所述用于确定第一像素的装置包括用于将每个像素的颜色与色度空间的多边形肤色区域进行比较的装置。

25.如权利要求24所述的设备，其中，所述多边形肤色区域包括指示人肤色的CbCr值。

26.如权利要求24所述的设备，其中，所述多边形肤色区域包括指示人肤色的RGB值。

27.如权利要求23所述的设备，其中，所述用于确定第二像素的装置包括用于对帧中的像素执行边缘检测处理的装置。

28.如权利要求23所述的设备，其中，所述用于确定第二像素的装置包括用于对亮度空间中的像素执行特征检测处理的装置。

29.如权利要求23所述的设备，其中，第一值、第二值、第三值和第四值彼此都是不同的值。

30.如权利要求23所述的设备，其中，第二值高于第一值。

31.如权利要求30所述的设备，其中，第三值高于第二值。

32.如权利要求31所述的设备，其中，第一值高于第四值。

33.如权利要求23所述的设备，其中，还包括用于通过将相应的像素的位置与任何一个第一像素的位置进行比较，来确定该像素是否在任何一个第一像素的指定阈值距离内的装置。

34.如权利要求32所述的设备，其中，所述压缩帧的装置包括：用于利用比具有较低得分的宏块少的压缩来压缩具有较高得分的宏块的装置。

35.如权利要求23所述的设备，其中，所述压缩帧的装置包括：

用于将一个给定宏块的得分与一个或多个邻近宏块的得分进行比较的装置；及

用于基于该给定宏块的得分与邻近宏块的得分之间的差异指示所述一个给定宏块是离群值，调整该给定宏块的得分的装置。

36.如权利要求35所述的设备，其中，所述差异指示与所述一个或多个邻近宏块相比，所述给定宏块因为该给定宏块是漏判而具有更低的得分，或者指示与所述一个或多个邻近宏块相比，所述给定宏块因为该给定宏块是误判而具有更高的得分。

37.如权利要求23所述的设备，其中，用于压缩帧的装置包括：

用于将得分与一个或多个邻近宏块的得分相差多于阈值的每个宏块的得分校正成等于邻近宏块的平均得分的装置。