CN101164344A - 感兴趣区域视频编码的内容自适应背景跳过 - Google Patents

感兴趣区域视频编码的内容自适应背景跳过 Download PDF

Info

Publication number
CN101164344A
CN101164344A CN200680013746.XA CN200680013746A CN101164344A CN 101164344 A CN101164344 A CN 101164344A CN 200680013746 A CN200680013746 A CN 200680013746A CN 101164344 A CN101164344 A CN 101164344A
Authority
CN
China
Prior art keywords
roi
frame
video
district
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200680013746.XA
Other languages
English (en)
Other versions
CN101164344B (zh
Inventor
王浩宏
哈立德·希勒米·厄勒-马列
梁毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/200,407 external-priority patent/US9667980B2/en
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN101164344A publication Critical patent/CN101164344A/zh
Application granted granted Critical
Publication of CN101164344B publication Critical patent/CN101164344B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及用于感兴趣区域(ROI)视频编码的内容自适应背景跳过技术。所述技术可用于例如视频流和视频会议等视频电话(VT)应用中,并尤其用于例如移动VT等低位速率无线通信应用中。所揭示的技术分析视频帧的内容信息,以动态地决定是否跳过所述帧内的非ROI区。例如,所述跳过决定可基于内容活动,例如ROI形状变形、ROI运动、非ROI运动、非ROI纹理复杂性及因非ROI跳过而累积的失真。所述跳过决定可结合帧级或宏块级位分配来运作。

Description

感兴趣区域视频编码的内容自适应背景跳过
相关申请案交叉参考
本申请案主张于2005年3月1日申请的第60/658,008号美国临时申请案的权利。
技术领域
本发明涉及数字视频编码,且更具体而言,涉及为视频电话(VT)应用对感兴趣区域(ROI)信息进行编码的技术。
背景技术
人们已制订了许多用于编码数字视频序列的不同视频编码标准。例如,运动图像专家组(MPEG)已编制许多标准,包括MPEG-1、MPEG-2及MPEG-4。其它实例包括国际电信联盟(ITU)H.263标准和新兴的ITU H.264标准。通常,这些视频编码标准通过以压缩方式对数据进行编码来支持经改进的传输效率。
视频电话(VT)允许用户分享视频和音频信息,以支持例如电话会议等应用。实例性视频电话标准包括由对话启动协议(SIP)、ITU H.323标准及ITU H.324标准定义的标准。在VT系统中,用户可发送和接收视频信息、仅接收视频信息、或仅发送视频信息。接收者通常浏览以发送者所传输形式呈现的所接收视频信息。
人们已经建议对视频信息的已选择部分进行优先编码。例如,发送者可规定将感兴趣区域(ROI)编码成具有更高质量,以传输给接收者。发送者可能想要强调ROI是一个远程接收者。ROI的典型实例是一张人脸,不过发送者可能想要把注意力集中在视频场景内的其它物体上。通过ROI的优先编码,与非ROI区域相比,接收者能够更加清楚地浏览ROI。
通过与非ROI(或视频场景的“背景”区)相比多分配给ROI一部分编码位,可优先地对ROI进行编码。跳过视频帧的非ROI区允许转换用于分配给ROI的编码位。前一帧的经编码非ROI可替代当前帧中被跳过的非ROI。或者,可内插被跳过的非ROI。在两种情况下,帧的非ROI区域的跳过编码使ROI的编码增强。
发明内容
本发明涉及感兴趣区域(ROI)视频编码的内容自适应背景跳过的技术。所述技术在诸如视频流和视频会议等视频电话(VT)应用方面可能是有用的,且在诸如移动VT等低位速率无线通信应用方面尤其有用,在一些实施例中,可采用相对较低的复杂性来构建内容自适应非ROI跳过。
ROI视频编码涉及对ROI优先编码,例如,通过向视频帧中的ROI分配额外的编码位,并将分配给非ROI区的编码位数量减少的方式。非ROI区可称为“背景”区,不过非ROI区通常包括不形成ROI部分的视频场景的任何区。因此,贯穿本发明,术语非ROI和背景可互换使用,来指不在ROI中的区域。
所揭示的技术分析视频帧的内容信息,以动态决定是否跳过对所述帧内非ROI区的编码。例如,跳过决定可基于内容活动,例如ROI变形、ROI运动、非ROI运动、非ROI纹理复杂性及因一个或多个前面的帧内非ROI跳过导致的累积失真。跳过决定可结合帧级或宏块级位分配来运作。
可采用不同策略来执行区域和帧之间的位分配。可根据运动上下文和非ROI纹理复杂性,应用基于Bayesian模型的自学习分类方法来估计未来帧中被跳过的非ROI区的数量。通过这种方式,不必为作出当前帧的非ROI跳过决定而获得未来帧的内容信息,在实时系统中较难获得所述信息。此外,可采用加权率控制和位分配算法来给ROI和非ROI区分配位。
当视频场景帧包含高速运动时,人类视觉系统(HVS)往往对于时间变化更加敏感,且当视频场景包含低速运动时,往往对于空间细节更加敏感。通过使用HVS模型,在高速运动场景期间,可避免非ROI跳过,以保持可接受的时间质量。然而,通过在时间敏感性较低的低速运动场景期间跳过非ROI区,可为提高ROI编码节省编码位。通过这种方式,可提高非ROI区的空间质量。
在一个实施例中,本发明提供一种方法,其包括:获得视频帧、将视频帧中的感兴趣区域(ROI)编码、及根据ROI区和非ROI区的内容活动以及因跳过对一个或多个其它帧内非ROI区的编码而累积的失真来决定是否跳过对视频帧的非ROI区编码。
在另一实施例中,本发明提供一种装置,其包括:感兴趣区域映射器,其用于产生视频帧中的感兴趣区域(ROI)的界定;视频编码器,其用于将视频帧中的ROI编码;及跳过模块,其用于根据ROI和非ROI区的内容活动以及因跳过对一个或多个其它帧内非ROI区的编码而累积的失真来决定编码器是否将跳过对视频帧的非ROI区的编码。
在又一实施例中,本发明提供一种包括指令的计算机可读媒体,以执行以下操作:使处理器获得视频帧、将所述视频帧中的感兴趣区域(ROI)编码、及根据ROI和非ROI区的内容活动以及因跳过对一个或多个其它帧内非ROI区的编码而累积的失真来决定是否跳过对视频帧的非ROI区编码。
本文所述的技术可构建于硬件、软件、固件、或其任一组合中。如果构建在软件中,则所述技术可部分地通过一个计算机可读媒体来实现,所述计算机可读媒体包括含有指令的程序代码,当运行所述指令时,可执行上文所述的一个或多个方法。
在附图及下文说明中将阐述一个或多个实施例的细节。根据该说明及附图以及权利要求书,可清楚地理解本发明的其它特征、目的及优点。
附图说明
图1是方块图,其图解说明包括ROI启用视频编码器-解码器(CODEC)的视频编码和解码系统。
图2是图解说明在与无线通信装置相关联的显示器上呈现的视频场景中ROI的界定的图式。
图3A和3B是图解说明图2中所示视频场景的ROI和非ROI区域的图式。
图4是方块图,其图解说明包括具有内容自适应非ROI跳过模块的ROI启用编码器的视频通信装置。
图5图解说明视频场景的ROI中呈现的对象的对象动作/旋转变化和变形。
图6图解说明视频场景ROI中的人的脸部表情变化。
图7是流程图,其图解说明用于内容自适应非ROI跳过的技术。
图8是流程图,其详细说明用于内容自适应非ROI跳过的技术。
图9是比较使用不同位分配策略的编码技术的整体感知质量的图式。
图10是针对实例性视频序列在具有和没有帧跳过及非ROI跳过的情况下,比较使用不同位分配策略的编码技术整体感知质量的图式。
图11是图解说明由非ROI跳过和关于实例性视频序列的其它技术导致的失真。
图12是针对另一实例性视频序列在具有和没有帧跳过及非ROI跳过的情况下,比较使用不同位分配策略的编码技术整体感知质量的图式。
图13是比较使用实例性视频序列的基于单元和基于内容的非ROI跳过的编码技术的整体感知质量的图式。
图14是比较使用另一实例性视频序列的基于单元和基于内容的非ROI跳过的编码技术的整体感知质量的图式。
具体实施方式
图1是方块图,其图解说明包括ROI启用视频编码器-解码器(CODEC)的视频编码和解码系统10。如图1中所示,系统10包括第一视频通信装置12及第二视频通信装置14。通信装置12、14通过传输信道16连接。传输信道16可以是有线或无线通信媒体。系统10支持视频电话的视频通信装置12、14之间的双向视频传输。装置12、14可以基本上对称的方式运行。然而,在一些实施例中,视频通信装置12、14中的一者或两者可经配置仅用于单向通信,以支持ROI启用视频流。
视频通信装置12、14中的一者或两者可经配置以应用视频电话(VT)的ROI编码技术,如本文所述。ROI视频编码涉及对ROI优先编码,例如通过给视频帧中的ROI分配额外的编码位,且减少分配给非ROI区的编码位的数量的方式。本文所述的ROI编码技术包括非ROI区的内容自适应跳过,以保留编码位来分配给ROI。内容自适应跳过技术涉及分析视频帧的内容信息,以在逐帧基础上决定是否跳过所述帧中的非ROI区。
帧的内容自适应跳过决定可基于该帧中的内容活动,例如ROI变形、ROI运动和非ROI运动、非ROI纹理复杂性及因其它帧内非ROI跳过而累积的失真。纹理复杂性可由方差表示。此外,内容自适应跳过决定可结合帧级或宏块级位分配来运作。宏块(MB)是形成帧的一部分的视频块。MB的大小可以是16×16个像素。然而,可能是其它的MB大小。本文说明宏块是为了阐释的目的,宏块可能具有各种不同的大小。通常,宏块可指任何大小的视频块,这些宏块一起形成视频帧。
对于双向应用,可在信道16的相对端提供交互编码、解码、多路复用(MUX)及多路分用(DEMUX)组件。在图1的实例中,视频通信装置12包括MUX/DEMUX组件18、ROI启用视频CODEC 20及音频CODEC 22。类似地,视频通信装置14包括MUX/DEMUX组件26、ROI启用视频CODEC 28及音频CODEC 30。
系统10可根据对话启动协议(SIP)、ITU H.323标准、ITU H.324标准或其它标准支持视频电话。每一视频CODEC 20、28根据视频压缩标准-例如MPEG-2、MPEG-4、ITU H.263或ITU H.264-产生经编码的视频数据。如图1中进一步所显示,视频CODEC 20、28可分别与音频CODEC 22、30整合,并包括合适的MUX/DEMUX组件18、26来处理数据流的音频和视频部分。音频部分可载送声音或其它音频内容。MUX-DEMUX单元18、26可遵守ITU H.223多路复用器协议、或诸如用户数据报协议(UDP)等其它协议。
每一ROI启用视频CODEC 20、28可能能够处理由各视频通信装置12、14的本地用户本地提供的ROI信息,或由其它视频通信装置12、14的远程用户远程提供的ROI信息。例如,视频通信装置12的本地用户可在视频通信装置12本地产生的“近端”视频中规定一个ROI,以向装置14的远程用户强调所传输视频的一个区域。相反,视频通信装置12的本地用户可在视频通信装置14远程产生的“远端”视频中规定一个ROI,并将该ROI传送到远程视频通信装置。在这种情况下,视频通信装置12的用户通过视频通信装置14远程控制ROI的优先编码,例如,以更加清楚地浏览自视频通信装置14接收到的视频中的ROI。
视频通信装置12、14可构建成为视频流、视频电话或该两者配备的无线移动终端或有线终端。为此,视频通信装置12、14可进一步包括适宜的无线发射器、接收器、调制解调器及支持无线通信的处理电子装置。无线移动终端的实例包括无线移动电话、个人移动数字助理(PDA)、移动计算机、或配备有无线通信能力和视频编码及/或解码能力的其它移动装置。有线终端的实例包括台式计算机、视频电话、网络装置、电视机顶盒、交互式电视等。视频通信装置12、14均可经配置以发送视频信息、接收视频信息、或发送及接收视频信息。
对于视频电话应用而言,通常需要装置12既支持视频发送能力又支持视频接收能力。然而,还涵盖了流式视频应用。在视频电话中,尤其是在无线通信的移动视频电话中,由于通常需要极低的位速率,所以带宽是一个重要的因素。具体而言,通信信道16带宽可有限,使得在信道16上有效实时传输优质视频序列极具挑战。例如,因信道16的物理限制,或可能的服务质量(QoS)限制或由通信信道16的提供者规定的带宽分配限制,通信信道16可以是具有有限带宽的无线通信链路。
因此,给ROI选择性分配额外编码位、较强的错误保护或其它优化编码步骤可改进视频的一部分的图像质量,同时保持整体的编码效率。对于优化编码,可给ROI分配额外的位,同时可减少分配给非ROI区域(例如视频场景中的背景)的位数。非ROI区将称为“背景”区,不过非ROI区通常包括不形成ROI部分的视频场景的任何区域。因此,贯穿本发明,术语非ROI和和背景可互换使用,以表示不在规定的ROI中的区域。
通常,系统10采用视频电话(VT)应用的感兴趣区域(ROI)处理技术。然而,如上文所述,这些技术还可适用于视频流应用。出于阐释目的,假设每一视频通信装置12、14能够作为视频信息的发送者和接收者来运行,并从而作为VT对话中的全参与者来运行。对于自视频通信装置12传输到视频通信装置14的视频信息,视频通信装置12是发送者装置,且视频通信装置14是接收者装置。
相反,对于自视频通信装置14传输到视频通信装置12的视频信息,视频通信装置12是接收者装置,且视频通信装置14是发送者装置。本文所述的技术还可适用于近发送或近接收这种视频的装置。当讨论由本地视频通信装置12、14编码和传输的视频信息时,所述视频信息可称为“近端”视频,如上文所述。当讨论由远程视频通信装置12、14编码和自远程视频通信装置12、14接收的视频信息时,所述视频信息可称为“远端”视频。
根据所揭示的技术,当作为接收者装置运行时,视频通信装置12或14为自发送者装置接收的远端视频信息界定ROI信息。同样,接收到的来自发送者装置的视频信息将称为“远端”视频信息,因为所述视频信息是自位于通信信道远端的其它(发送者)装置接收到的。
同样,为自发送者装置接收的视频信息界定的ROI信息将称为“远端”ROI信息。远端ROI通常指远端视频中远端视频接收者最感兴趣的一个区域。接收者装置将远端视频信息解码,并将经解码的远端视频通过显示器装置提供给用户。用户选择由远端视频呈现的视频场景中的ROI。或者,ROI可自动界定。
接收者装置根据用户在接收者装置处选择的ROI来产生远端ROI信息,并将远端ROI信息发送给发送者装置,以便发送者装置可使用所述信息。远端ROI信息可采用ROI宏块(MB)映射的形式,所述ROI宏块映射根据驻留在ROI中的MB来界定ROI。ROI MB映射可将ROI中的MB标记为1,并将ROI外的MB标记为0,以便捷地识别MB包含(1)在ROI中,及不包含(0)在ROI中。
通过使用由接收者装置传输的远端ROI信息,发送者装置可对视频场景中的相应ROI进行优先编码。具体而言,可给ROI分配额外的编码位,而减少可给非ROI区域分配的编码位的量,从而改良了ROI的图像质量。通过这种方式,接收者装置能够远程控制通过发送者装置进行远端视频信息的ROI编码。
与非ROI区相比,优先编码对视频场景的ROI区应用质量更高的编码,例如,通过在ROI区中优化的位分配或优化量化的方式。经优化编码的ROI允许接收者装置的用户更清楚地浏览一个对象或区域。例如,接收者装置用户可能想要比视频场景的背景区域更清楚地浏览一张脸或某一其它对象。
当作为发送者装置运行时,视频通信装置12、14还可为由发送者装置传输的视频信息界定ROI信息。同样,在发送者装置中产生的视频信息将称为“近端”视频,因为所述视频信息在通信信道的近端产生。由发送者装置产生的ROI信息将称为“远端”ROI信息。
近端ROI通常指发送者想要向接收者强调的近端视频的一个区域。因此,可由接收者装置用户规定一个ROI为远端ROI信息,或由发送者装置用户规定一个ROI为近端ROI信息。发送者装置通过显示器装置向用户呈现近端视频。与发送者装置相关联的用户在近端视频呈现的视频场景中选择一个ROI。发送者装置使用用户选择的ROI来解码近端视频,以便将近端视频中的ROI优先编码,例如使用相对非ROI区质量更高的编码。
由本地用户在发送者装置处选择或界定的近端ROI允许发送者装置的用户强调视频场景中的区域或对象,并从而引导这些区域或对象成为接收者装置用户的关注点。值得注意,由发送者装置用户选择的近端ROI无需传输给接收者装置。而是发送者装置使用已选择的近端ROI信息,在将近端视频传输至接收者装置之前,将近端视频进行本地编码。然而,在一些实施例中,发送者装置可向接收者装置发送ROI信息,以允许应用优先解码技术,例如质量更高的纠错或后处理。
如果ROI信息由发送者装置和接收者装置二者提供,则发送者装置应用自接收者装置接收的远端ROI信息或本地产生的近端ROI信息来解码近端视频。在由发送者装置和接收者装置提供的近端和远端ROI选择之间,可能发生ROI冲突。这种冲突需要决定,例如由本地用户作出的主动决定,或根据指定的访问权限和等级的决定。在两种情况的任一情况下,发送者装置会根据发送者装置本地提供或接收者装置远程提供的近端ROI信息ROI来对ROI进行优先编码。
假定ROI由本地用户或远程用户来规定,则本发明通常集中在用于视频帧的非ROI区的内容自适应跳过技术上。内容自适应跳过技术可结合各种额外的ROI编码技术来应用,本文说明了许多额外的ROI编码技术是为了阐释和上下文的目的。
例如,本发明还根据视频场景内ROI与非ROI区之间的位分配来解决对ROI进行优先编码的方式。在一些实施例中,可应用ROI视频质量量度,以使ROI与非ROI区之间的加权位分配存在偏向。视频质量量度考虑了用户的偏好程度,即对ROI、ROI视频保真度、及在估计经编码的视频序列质量时的ROI感知质量感兴趣的程度。
可在rho(ρ)域中应用加权位分配,且加权位分配可依赖由帧级速率控制器提供的ρ域帧预算。通常,可单独或结合本文所述其它技术来应用非ROI跳过技术,以保留编码位来分配给ROI,同时在ROI和非ROI中保持可接受的视觉感知质量。
图2是图式,其图解说明在与无线通信装置36相关联的显示器34上呈现的视频场景32中界定一个ROI。在图2所示实例中,ROI被绘示为矩形ROI 38或非矩形ROI40。非矩形ROI 40可具有圆形或非规则形状。在每一情况下,ROI 38或ROI 40包含视频场景32中呈现的人的脸42。图3A和3B是图解说明图2中所示视频场景32的ROI 38和非ROI区43的图式。非ROI区43(即背景)由图3B中的阴影突出显示。
ROI 38或40可由用户手动界定、由装置36自动界定、或使用用户的手动ROI描述和装置36的自动ROI界定组合来界定。矩形ROI 38可由用户来选择。非矩形ROI 40可由用户来绘制,例如使用铁笔和触摸屏,或使用任何类型的对象检测或分割技术由装置36来自动选择。对于VT应用,ROI 38或40可包括含有视频会议参与者的脸42的视频场景32的一部分。ROI 38或40的大小、形状及位置可固定或可调节,且可以各种方式来界定、描述或调节。
ROI 38或40允许视频发送者强调所传输的视频场景32中单个对象,例如人脸42。相反,ROI 38或40允许视频接收者更清楚地浏览所接收的视频场景32中的所需对象。在两种情况下,与非ROI区(例如视频场景32的背景区域)相比,用更高的图像质量对ROI 38或40中的脸42进行了编码。通过这种方式,用户能够更清楚地浏览脸部表情、唇部动作、眼部动作等。
然而,可使用ROI 38或40来规定除脸以外的对象。大体而言,VT应用中的ROI可十分主观,并可因用户不同而变化。所需的ROI还取决于VT是如何使用的。在一些情况下,与视频会议不同,VT可用来浏览和估计对象。例如,用户可能想要聚焦在含有方程式或图式的白板的一个区段上,而不是演讲者的脸,尤其是当演讲者背对照相机并面向白板时。在某些情况下,视频场景可包括两个或更多个指定为优化编码的ROI。
图4是方块图,其图解说明用于视频通信装置12中的ROI允许视频编码系统44。如图4中所示,系统44包括ROI加权计算器46、ROIρ域位分配模块48、内容自适应非ROI跳过模块50、ROI宏块(MB)映射器52、帧级速率控制器54、ρ至量化参数(QP)映射器56、视频编码器58、帧分析器60及预算调节模块61。如下文所述,内容自适应非ROI跳过模块50利用帧分析器60提供的帧信息,来动态决定是否跳过所考虑的帧的非ROI区。帧信息可包括视频内容活动,例如ROI变形、ROI运动、非ROI运动、非ROI纹理复杂性、及因非ROI跳过累计的失真。
图4中所示各种组件可以各种方式形成为分立的功能模块或形成为包含每一模块具有的功能的整体模块。在任何情况下,视频编码系统44的各种组件可以硬件、软件、固件或其组合形式来实现。例如,当软件过程在下列装置上执行时-一个或多个微处理器或数字信号处理器(DSP)、一个或多个专门应用集成电路(ASIC)、一个或多个场可编程门阵列(FPGA)、或其它等价集成或分立的逻辑电路-所述组件可运行。在图4中,为了便于阐释,省略了MUX-DEMUX和音频组件。
在图4所示实例中,ROI加权计算器46可接收由视频通信装置12的本地用户或视频通信装置14的远程用户输入的用户偏好因子α。用户偏好因子α是对于ROI的感知重要性因子,其表达了从实际用户的角度来看ROI视觉质量的重要性。用户偏好因子α量化了用户重视ROI中的视觉质量的程度。如果用户极其重视ROI视觉质量,则α值高。如果ROI的视觉质量不太重要,则α值较低。根据偏好因子α,ROI加权计算器46产生一个加权wi集合,该加权wi应用于ROI ρ域位分配模块48,以使由视频编码器58编码的视频帧的非ROI与ROI区之间的加权位分配偏向。可将加权wi指定用于各个视频块,例如视频帧中的宏块(MB)。ROI加权计算器46接收来自ROI MB映射器52的ROI MB映射,并将各个加权wi安排给ROI MB映射器52识别的ROI和非ROI MB。具有较高加权wi的宏块将接收数量较多的编码位。
ρ域位分配模块48接收来自ROI加权计算器46的加权输入wi、来自内容自适应非ROI跳过模块50的跳过指示(SKIP ON/OFF)(跳过开启/关闭)、来自ROI MB映射器52的ROI MB映射、来自帧级速率控制器54的ρ域速率预算R预算、及来自视频编码器58的用于经编码MB的标准偏差σ。帧级速率预算R预算可以是所考虑的帧的ρ域预算,例如,如Z.He和S.K.Mitra在IEEE Trans.Circuits and System for VideoTechnology,2002年11月第12卷第11期970-982页的“A linear source model and aunified rate control algorithm for DCT video coding”中所述。标准偏差σ可以是运动估计后获得的实际残差的标准偏差,并可以是来自前面帧的存储残差统计。
ROI MB映射器52提供的ROI MB映射识别属于所规定ROI范围内的给定视频帧内的MB。通过使用ROI MB映射,ρ域位分配模块48将ROI MB与非ROI MB区分开来,以达到对ROI MB进行优先的位分配的目的,即,使用由ROI加权计算器46提供的加权wi。位分配模块48为每一MB生成一个ρ参数。ρ参数表示MB中非零AC系数的数量。在MB级和帧级上,ρ域中的速率控制往往比QP域中的速率控制更加准确。
出于本发明的目的,假设产生ROI MB映射的适当过程可用。例如,ROI映射过程可以是基于来自用户界定ROI的手动输入、或ROI的自动界定或检测,例如,使用诸如脸部检测、脸部分割,及具有可接受准确度的目标跟踪等常规技术。在本发明中,为了阐释,考虑了头或头肩视频序列,不过本文所述技术可适用于包含除人以外的或替代的各种对象的其它类型的视频序列。
帧级速率控制器54产生对视频序列内各帧的位的分配。具体而言,帧级速率控制器54产生ρ域值R预算,其指示可用于对现在的帧中所有MB(即ROI和非ROI MB两者)编码的位的数量。如图4中进一步所示,ρ域位分配模块48接收来自非ROI背景跳过模块50的跳过指示(跳过开启/关闭),其指示是将现在的帧中的非ROI区编码还是跳过。
如果跳过背景,则实际上ρ域位分配模块48可重新捕获否则本应该分配给非ROI的位,并将其重新分配给位库,以用于对当前帧或未来帧的ROI进行编码。因此,如果在一特定帧中跳过为开启(ON),则ρ域位分配模块48在R预算中具有更多位,以分配给ROI。因此,预算调节模块61可将帧级值R预算与非ROI跳过重新捕获的编码位数量成正比调节。如果在一特定帧中跳过了对非ROI的编码,则来自经编码的前一帧的非ROI区可取代其位置。或者,可通过内插来产生被跳过的非ROI区。
通过使用加权wi、ROI MB映射、R预算、跳过开启/关闭指示及标准偏差σ,ρ域位分配模块48产生指示每一MB的ρ预算的ρ域输出。将ρ域输出应用于ρ-QP映射器56,ρ-QP映射器56可为每一MB将ρ值映射至相对应的QP值。通过使用帧内的MB的QP值,视频编码器58将输入视频进行编码,以产生经编码的视频。此外,跳过模块50可向视频编码器58提供跳过指示(跳过开启/关闭),以在跳过为开启时引导视频编码器将帧的ROI区编码。跳过可以是自适应的,因为跳过模块50可根据帧分析器60所获得的帧信息来引导视频编码器58跳过对所选择的帧的非ROI区的编码。通过这种方式,跳过模块50可在动态基础上应用自适应跳过,以保持视觉质量。
输入视频可自视频捕获装置获得,例如与视频通信装置12相整合或可与视频通信装置12耦接的视频照相机。在一些实施例中,例如,视频捕获装置可与移动电话相整合,以形成所谓的摄像电话或视频电话。通过该方式,视频捕获装置40可支持移动的VT应用。视频既可在视频通信装置12上本地呈现,又可经传输在视频通信装置14上通过显示器装置呈现,所述显示器装置如液晶显示器(LCD)、等例子屏幕,或可与视频通信装置12或14相整合、或可与视频通信装置12或14耦接的装置。
图4所示ROI加权计算器46可形成ROI质量量度计算器的一部分。因此,这种ROI质量量度计算器的一个产物是一个加权wi集合,所述加权wi可基于用户偏好因子α,以及视频保真度、空间质量、及/或时间质量值。ROI质量量度计算器接收用户偏好值α和一个或多个视频失真值。视频失真值可分成ROI值和非ROI值,并可包括视频保真度值DRF、DNF,空间质量值DRS、DNS,及时间质量值DRT、DNT。DRF表示ROI内的视频保真度,而DNF表示非ROI区域内的视频保真度。DRS表示ROI区内的空间质量,而DNS表示非ROI区内的空间质量。DRT表示ROI区内的时间质量,而DNT表示非ROI区内的时间质量。在估计经编码的视频序列质量时,ROI质量量度联合考虑了用户的兴趣、视频保真度和感知质量(空间、时间或两者兼有)。在一些实施例中,可使用所述量度,来使ρ域位分配模块48应用的位分配算法偏向,以获得较好的主观视觉质量。
尽管已广泛研究了ROI视频编码,但是尚未足够细致地解决ROI视频的质量测量。大多数质量测量技术将峰值信噪比(PSNR)用作失真测量,以估计视频帧的ROI和非ROI部分的质量。ROI视频质量量度不仅对于分析是有用的,而且可用作对于使加权位分配技术(例如,如图4所示位分配模块48所应用的技术)偏向主观视觉支持方案的输入。通常,如上文所述,估计ROI视频质量至少考虑三个方面:用户的视觉质量兴趣或偏好α、经重组的视频数据的视频保真度、及经重组的视频数据的感知质量(空间、时间或两者兼有)。
用户的偏好α直接决定视频帧分成ROI和非ROI部分的划分,及其相关联的感知重要性因子。偏好可由近端和远端用户来规定。在视频电话应用中,发言者的脸部区域是一个典型的ROI,因为人类的脸部表情极其丰富,且较小的变化可传达大量信息。对于视频保证度因子而言,PSNR是很好的测量,其表明与原始帧相比经重组的视频帧的失真总量。经重组的帧是通过将经编码的视频帧进行解码产生的,而原始帧是编码前的视频帧。
在许多情况下,视频保真度将是视频编码最重要的考虑因素,其中任何改进可产生更好的主观视觉质量。然而,情况并非总是如此,因此在某些情况下,还应考虑感知质量因子。感知质量既考虑空间错误,又考虑时间错误。空间错误可包括存在方块化(即方块)假像、环状假像或两者兼有。时间错误可包括存在时间闪烁,即当视频帧的视觉质量不沿时间轴均匀变化时。时间错误可导致视频序列中不需要的不连贯运动。
DR和DNR表示ROI和非ROI的规范化的每一像素失真,及ROI感知重要性因子α。如果假设在视觉质量估计时可将上述各方面之间的关系简化成一个线性函数,则视频序列的整体失真可表示为:
Figure S200680013746XD00101
= α M [ β Σ i = 1 M D RF ( f i , f ~ i ) + γ Σ i = 1 M D RS ( f ~ i ) + ( 1 - β - γ ) D RT ( f ~ 1 , . . . , f ~ M ) ] +
( 1 - α ) M [ β Σ i = 1 M D NF ( f i , f ~ i ) + γ Σ i = 1 M D NS ( f ~ i ) + ( 1 - β - γ ) D NT ( f ~ 1 , . . . , f ~ M ) ] ,
(1)
其中fi
Figure S200680013746XD00104
是视频序列中M个帧内的第i个原始和经重组的帧,β和γ是加权因子,DR和DNR是ROI和非ROI的总失真,DRF、DRS及DRT是ROI在保真度、空间感知质量及时间感知质量方面的规范化错误,且DNF、DNS及DNT是非ROI区中的其对应值。α、β及γ的值应赋予0至1之间的实数值。最终的质量量度可用作一个成本函数,以将加权位分配方面的rho(ρ)参数的优化问题公式化,或用于ROI处理中的其它问题。
在低位速率视频应用中-例如无线视频电话,方块化(即方块)假像是空间感知质量的一大顾虑。这种假像由量化引起,其中去除了大多数高频率系数,即设置为零。最终作用是平滑的图像方块将方块边界变得很明确。在极低位速率情况下,仅将DC系数编码,这可形成经解码的视频片段定值方块。在本发明中,ROI空间质量值DRS(类似于DNS)被界定为规范化方块失真,可表示为:
Figure S200680013746XD00111
其中可检查方块之间的边界是否存在可感知的不连续性。一种适宜的不连续检测方法可检查跨越方块边界的强度斜率的均方差之和,所述方法在S.Minami和A.Zakhor在IEEE Trans.Circuits Systems for Video Technology刊物1995年4月第5卷第2期74-82页的“An optimization approach for removing blocking effects in transformcoding”中进行了说明,该文的全部内容以引用方式并入本文中。该方法的假设条件是方块边界两侧上的斜率应相等,且斜率的突变可能是由于量化。
在方程式(1)中,根据视频序列中所有帧的DRS(或DNS)的方差,DRT(或DNT)值界定为[0,1]范围上被赋予的分值。通过这种方式,将关于视频保真度、空间感知质量及时间感知质量的项均规范化,并可通过加权参数α、β及γ减少这些项以形成可控制的视频质量测量。这些加权参数的选择取决于用户的要求和期望。同样,该测量是有用的,可作为输入值来使位分配过程偏向支持主观感知。因此,用户在ROI编码方面可获得更加令人满意的视觉效果。
位分配模块48获得帧的ROI界定和速率预算。ROI界定可采用ROIMB映射的形式,该ROI MB映射可识别ROI内的MB或其它视频块。速率预算提供可用于对包括ROI和非ROI区的整个帧进行编码的位数。此外,位分配模块48获得来自ROI加权计算器46的ROI加权wi,所述ROI加权wi使ROI和非ROI之间的位分配偏向。通过跳过模式指示,位分配模块48能决定所有可用位是可专用于ROI(非ROI帧跳过开启)还是位必须在ROI与非ROI(非ROI帧跳过关闭)之间分享。
通过使用ROI界定、帧速率预算、加权wi及非ROI跳过模式,位分配模块48产生在ROI MB与非ROI MB之间的位的加权ρ域分配。一旦决定ρ域位分配,映射器56执行ρ至QP映射,以提供MB QP值应用于视频编码器58。映射器56可应用ρ至QP映射表,或应用为特定ρ产生QP的方程式或函数。视频编码器58使用由位分配模块48和映射器56提供的QP值,以对可适用视频帧内各个ROI和非ROI MB进行编码。所得到的位分配可不但考虑可适用的帧预算,而且考虑非ROI跳过的可用性和与视频序列中前面的一个帧或若干帧相关联的质量量度。下文将更加详细地说明位分配模块48的运行。
本发明中所说明的位分配技术通常假设可获得充分的ROI检测或界定,并可获得可接受的帧级速率控制。在此基础上,位分配技术通常聚焦在ROI与非ROI MB之间的MB级速率控制上。大多数传统ROI位分配算法是基于ITU H.263+TMN8模型的加权版,其中会产生一个成本函数,并通过使用一个预设加权集合来不同程度地对函数中各区域上的失真分量予以削减。与大多数其它视频标准一样,TMN8使用QP域速率控制方案,QP域速率控制方案用QP函数模拟了速率和失真。然而,本发明中所说明的位分配技术利用ρ域速率控制模块,其中ρ表示视频编码时一个MB中的非零量化的AC系数的数量。本文所述的采用ρ域位分配往往比QP域速率控制更加准确,且可有效地降低速率波动。
在视频编码应用中,一个典型的问题是使用视频序列的给定位预算来将失真值D序列减至最小。这一复杂问题的最佳解决方式依赖于最佳帧级速率控制算法和最佳宏块级位分配方案。然而,对于实时应用而言,例如视频电话,其中在对当前帧进行编码时,仅可获得关于未来帧的极其优先的信息,因此追求最佳帧级速率控制是不实际的或不可行的。通常,采用一种特别的速率控制算法(“贪婪”算法)。贪婪算法假设视频内容的复杂性是沿视频序列中的帧均匀分布的。在此基础上,贪婪算法将可用位的一部分分配给序列中的每一帧。在实时应用中,可获得未来帧信息有限也使得考虑速率控制的时间质量变得困难。
在本发明中,为了找到实用的解决方式并简化位分配问题,通常假设可获得良好的帧级速率控制。该假设将位分配问题简化为宏块级位分配。同时,位分配方案可采用非ROI跳过方法。非ROI跳过增加了减小时间失真项
Figure S200680013746XD00121
的值的几率,因为被跳过的区域将呈现出与前一帧相同的感知质量。因此,非ROI区的跳过可减小连续的帧之间的感知质量的波动。
为了阐释,根据方程式(1)来估计了视频帧的图像质量。然而,为简明起见,对β和γ进行了设置,使β+γ=1。将R预算表示为给定帧f的总位预算,且R是用于将帧编码的位速率,则问题可由以下函数来表示:
最小化 α [ β D RF ( f , f ~ ) + ( 1 - β ) D RS ( f ~ ) ] + ( 1 - α ) [ β D NF ( f , f ~ ) + ( 1 - β ) D NS ( f ~ ) ] ,
(3)
以使R≤R预算
可通过拉氏松弛法和动态编程来解决上述优化问题。然而,这一方法的计算复杂性会比实时系统可承受的计算复杂性高得多。因此,根据本发明,低复杂性接近最佳的解决方式是较佳的。具体而言,在本发明中采用了ρ域中的两级位分配算法。第一级涉及以下优化问题:
最小化 α D RF ( f , f ~ ) + ( 1 - α ) D NF ( f , f ~ ) , such以使R≤R预算
(4)
在获得方程式(4)的最佳编码参数之后,第二级对编码参数进行了迭代调节,以减少项 α D RS ( f ~ ) + ( 1 - α ) D NS ( f ~ ) , 直到得到局部最小值。当β是相对较大的数值时,这两级算法的结果可十分接近最佳解决方式。当β=1时,问题(3)与(4)完全一样。在本发明中,焦点在于第一级和问题(4)的解决方式。
在ROI视频编码中,N是帧中MB的数量,{ρi)、{σi)、{Ri)及{Di)分别是第i个宏块的ρ、标准偏差、速率和失真(误差平方和)的集合。因此, R = Σ i = 1 N R i . 对于帧中所有MB,加权{wi)集合定义为:
Figure S200680013746XD00131
(5)
其中,K是ROI内MB的数量。可(例如)通过ROI加权计算器46来执行方程式(5)。因此,帧的加权失真是:
D = Σ i = 1 N w i D i = [ α D RF ( f , f ~ ) + ( 1 - α ) D NF ( f , f ~ ) ] * 255 2 * 384 ,
(6)
因此,问题(4)可改写为:
最小化D,以使R≤R预算。    (7)
通过使用基于模拟的位分配方法求方程式(7)的解。自然图像的AC系数分布可通过拉普拉斯分布 p ( x ) = η 2 e - θ ρ i / 384 来最佳近似表示。因此,方程式(8)和(9)中可将第i个宏块的速率和失真模拟为ρ的函数。
例如,速率可表示为:
Ri=Aρi+B,
(8)
其中,A和B是恒定的模拟参数,且A可认为是对非零系数进行编码所需的平均位数,且B可认为是因非纹理信息所需的位。
此外,失真可表示为:
D i = 384 σ i 2 e - θ ρ i / 384
(9)
其中,θ是一个未知常量,且σ是残差数据的标准偏差。在此,位分配技术将ρi优化,而不把量化因子优化,因为假设存在充分准确的ρ-QP表,可用于从任何选择的ρi产生一个可接受的量化因子。通常,可使用拉氏松弛法来求方程式(7)的解,在拉氏松弛法中,将约束问题转换成无约束问题,如下所示:
Figure S200680013746XD00135
(10)
其中λ*是使 Σ i = 1 N R i = R 预算成立的解。通过在方程式(10)中将偏导数设置成零,可获得以下经优化ρi的表达式:
使 ∂ J λ ∂ ρ i = ∂ Σ i = 1 N [ λ ( A ρ i + B ) + 384 w i σ i 2 e - θ ρ i / 384 ] ∂ ρ i , = 0 ,
(11)
λA - θ w i σ i 2 e - θ ρ i / 384 = 0 ,
(12)
因此
e - θ ρ i / 384 = λA θ w i σ i 2 .
(13)
ρ i = 384 θ [ ln ( θ w i σ i 2 ) - ln ( λA ) ] .
(14)
另一方面,由于:
Figure S200680013746XD00145
(15)
则有以下关系,
Figure S200680013746XD00146
(16)
从方程式(14)和(16),可获得位分配模型I,如下所示:
Figure S200680013746XD00147
Figure S200680013746XD00148
(17)
然后,将所得到的ρ映射到相对应的QP,并将所得到的ρ用于将合适数量的编码位分配至各个ROI或非ROI MB。
可使用替代的失真模型来获得另一位分配模型(位分配模型II)。根据替代的失真模型,假设可获得具有步长大小q的均匀量化因子,因量化导致的失真则为:
D ( q ) = 2 ∫ 0 0.5 q p ( x ) xdx + 2 Σ i = 1 ∞ ∫ ( i - 0.5 ) q ( i + 0.5 ) q p ( x ) | x - iq | dx
= 1 η [ 1 + e - ηq 1 - e - ηq ( 2 - e - 0.5 ηq - e 0.5 ηq ) - e - 0.5 ηq ]
(18)
且下式给出了零的百分比:
ψ = ∫ - 0.5 q 0.5 q η 2 e - η | x | dx = 1 - e - 0.5 ηq .
(19)
因而,
D ( q ) = ψ η ( 2 - ψ ) .
(20)
根据Shannon的源编码定理,如纽约州,纽约市,Wiley出版社,1991年出版的T.M.Cover和J.A.Thomas的《信息论基础》(“Elements of imformation theory”)中对拉普拉斯源进行的说明,下式给出了表示一个符号所需的最小数量的位:
R ( q ) = log 2 ( 1 ηD ( q ) ) , 以使
R i = Σ i = 1 384 R ( q ) = 384 log 2 ( 1 ηD ( q ) ) = 384 log 2 2 - ψ i ψ i .
(21)
由于 ψ i = 1 - ρ i 384 , 其中4:2:0视频的第i个宏块中的系数总量为384,可使用Taylor展开法和位速率之间的关系来展开方程式(21),且ρ可近似表示为:
Ri=Aρi+B,    (22)
其中A和B是恒定的模拟参数,且A可认为是对非零系数进行编码所需的平均位数,且B可认为是因非纹理信息所需的位。
此外,系数的方差可表示为:
σ 2 = ∫ - ∞ + ∞ p ( x ) x 2 dx = ∫ - ∞ + ∞ η 2 x 2 e - η | x | dx = 2 η 2 ,
(23)
因此,第i个宏块的失真可表示为:
D i = Σ i = 1 384 D ( q ) = 384 ψ i η ( 2 - ψ i ) = 384 - ρ i 2 ( 384 + ρ i ) σ i .
(24)
与推导位分配模型I相同,最佳位分配方案可通过解决优化问题(7)(即以下问题)来实现:
Figure S200680013746XD00161
 以使R≤R预算
(25)
通常,可通过使用拉氏松弛法来求方程式(25)的解,在拉氏松弛法中,将约束问题转换成无约束问题,如下所示:
(26)
其中λ*是使
Figure S200680013746XD00163
成立的解。通过在方程式(26)中将偏导数设置成零,可获得以下经优化ρi的表达式:
使 ∂ J λ ∂ ρ i = ∂ Σ i = 1 N [ λ ( A ρ i + B ) + ( 384 - ρ i ) 2 ( 384 + ρ i ) σ i ] ∂ ρ i = 0 ,
(27)
则:
λA - 384 2 ( 384 + ρ i ) 2 σ i = 0 ,
(28)
因此
ρ i = 384 2 Aλ σ i - 384 .
(29)
另一方面,由于:
Figure S200680013746XD00167
(30)
Figure S200680013746XD00168
从方程式(28)和(30),可获得以下表达式:
Figure S200680013746XD00171
Figure S200680013746XD00172
(32)
其中ρ预算是帧的ρ总预算。尽管在方程式(32)中采用不同方式模拟了失真,但根据该模型,可获得以下位分配模型II:
(33)
方程式(33)可(例如)通过位分配模块48来执行。
跳过对视频帧的非ROI区进行编码的能力可显著节省位分配。如果非ROI区没有被编码,即被跳过,则可将本应分配给非ROI的位重新分配用于对当前帧或未来帧的ROI进行编码,以提高ROI中的MB的视觉质量。如果对于一个给定帧,跳过了非ROI,则重复为前一帧编码的非ROI,或由当前帧中经内插的非ROI区来替代。除为ROI编码保留位以外,跳过非ROI区可提高当前帧的时间质量。具体而言,在两个或更多个连续帧中呈现同一非ROI区往往会降低非ROI区中的时间闪烁。
在极低位速率下,如在32kbps下,即使位沿MB不均匀分布,通常对非ROI区域进行粗略编码,这时诸如山数等时间视觉质量变得突出。另一方面,在背景为非ROI的视频电话应用的大多数情况下,背景中有极其有限的动作。因此,背景跳过是重新分配位以提高ROI和经编码的非ROI区域质量的解决方式,只要跳过不会严重降低视频保真度。
帧跳过是用于极低位速率应用中以保留编码位的普遍方法。非ROI跳过与帧跳过之间的区别在于,在非ROI跳过方法中对每一帧的ROI进行编码,以确保ROI良好的视觉质量。在许多应用中,帧跳过非常有用。然而,在ROI视频编码中,帧跳过会有损失诸如脸部表情等重要信息的风险,尤其是在方程式(1)中α设置成较大值时,因为ROI的任何失真将产生严重影响,并可降低整体性能。因此,非ROI跳过是一个更好的选择,并通常可节省大量位,以提高ROI质量,因为在正常的视频帧中背景MB的数量是主要的。
本发明涵盖内容自适应非ROI跳过技术。此外,本发明涵盖替代的“基于单元”的非ROI跳过技术,为了与内容自适应非ROI跳过技术进行比较,本文将详细说明所述“基于单元”的非ROI跳过技术。基于单元的非ROI跳过技术涉及将相继的帧分组成一个单元,所述单元包括帧的ROI区和在多个帧之间分享的公共非ROI区。具体而言,将两个连续的帧分成一组。当非ROI背景跳过模块50经配置以应用基于单元的非ROI跳过技术时,其将帧i和i+1分到一个帧单元中,并通知视频编码器58其中非ROI区将被跳过的帧。作为响应,视频编码器58使用由位分配模块48提供的加权位分配来对帧i和帧i+1各自的ROI区进行编码。此外,视频编码器58使用加权位分配来对帧i的非ROI区进行编码。然而,视频编码器58没有对帧i+1的非ROI区进行编码。相反,帧i+1的非ROI区被跳过,且在其位置上提供了前一帧i的非ROI区。还可使用其它技术来界定被跳过的非ROI,例如在前一帧与随后帧的非ROI之间的内插。
基于单元的非ROI跳过技术可在全时基础上提供。例如,为了在交替帧基础上连续全时跳过非ROI,每两个帧可组合成一个单元。换句话说,每隔一个帧中的非ROI可能在全时基础上被跳过。作为一个替代方法,可在自适应基础上启用和停用基于单元的跳过。当由最近的前一帧产生的非ROI失真超过失真阈值时,可停用跳过。例如,如果前一帧的非ROI区中的失真小于阈值,则跳过帧i+1的非ROI,且过程继续进行到下一群组的两个相继帧,如帧增量i=i+2表示。在这种情况下,非ROI失真的水平是可接受的,且跳过启用。然而,如果非ROI失真大于失真阈值,则使用加权位分配来对帧i+1的非ROI区进行编码。在这种情况下,由于非ROI失真过大,即相关视频场景的非ROI区内的失真过大,所以跳过停用。
如基于单元的非ROI跳所例示,帧0、1、2及3表示视频序列内的相继帧。在该实例中,帧0和帧1组合成单元1,且帧2和帧3组合成单元2。每一单元分享公共的非ROI区。具体而言,在可接受失真下全时跳过或自适应跳过任意情况中,为帧1重复了帧0的非ROI区。由于为帧1重复了帧0的非ROI区,因此不必对帧1的非ROI区进行编码。将帧组合成单元可在整个视频序列上应用。例如,两个帧可组合成一个单元。然而,在一些应用中,两个或更多个帧可组合成一个单元,其中在所述单元中除一个帧外的所有帧内跳过非ROI。
一旦将相继帧0和1组合成一个单元后,分别对帧0和1中的ROI区进行编码。然而,为帧0和帧1重复了帧0非ROI区,以跳过帧1的非ROI区。通过这种方式,可避免本来对帧1非ROI进行编码所需的位消耗。在该实例中,应注意,非ROI区(尽管称为“背景”)可包括诸如人的肩等前景特征。因此,本发明中通常将背景用来指ROI之外的任何区,且不应视为严格限于视频场景内的背景图像。下文进一步详细说明了非ROI跳过。
现在将说明用于实施基于单元的非ROI跳过技术的实例性原型系统。在该原型系统中,如上文所述,将每两个帧组合成一个单元。在每一单元中,将第一非ROI区编码,而跳过第二非ROI区,例如使用预测的具有零运动向量的MB。每一单元的位分配可基于与“贪婪”帧级位分配相同的逻辑,假设一个序列中视频帧的内容复杂性沿帧均匀分布。具有这一假设,位应在两帧组成的单元之间均匀分配,如下所示:
Figure S200680013746XD00191
(34)
其中,ρ序列是视频序列中的一M个连续帧的群组的总ρ预算,ρ单元i是第i个单元的ρ分配,且ρ已用是第一(i-1)/2单元的ρ消耗。在一个单元内,任一位分配模(I或II)可用来将位分配给ROI和非ROI区内的MB。
可清楚地比较在有无基于单元的非ROI跳过情况下由加权位分配产生的失真,如下文所示:
D跳过开启=αDRF1)+(1-α)DNF2)+αDRF单元12)+(1-α)D非ROI跳过
(35)
D跳过关闭=αDRF1′)+(1-α)DNF2′)+αDRF3′)+(1-α)DNF单元1′-ρ2′-ρ3′),(36)
其中D跳过开启是当非ROI跳过模式为开启时的单元总失真,D跳过关闭是当背景跳过模式为关闭时的单元总失真,D非ROI跳过是因跳过单元的第二个帧内非ROI所导致的失真,且其中方程式(35)中的ρ1和ρ2及方程式(36)中的ρ1′、ρ2′和ρ3′是分配给ROI和非ROI的AC系数(ρ)的数量。
可从方程式(35)和(36)观察出,只有当D非ROI跳过>>DNF单元1′-ρ2′-ρ3′)时,D跳过开启>D跳过关闭才成立,因为通常以下表达式成立:
αDRF1)+(1-α)DNF2)+αDRFunlt12)<αDRF1′)+(1-α)DNF2′)+αDRF3′)
根据上文的观察,追求开启和关闭基于单元的非ROI跳过模式的标准的任务转换成寻找D非ROI跳过失真的阈值的任务。如果假设视频序列中的单元失真以平稳的方式变化,通常来说是这种情况,则最近处理的单元失真的平均值可用来推导失真阈值。将
Figure S200680013746XD00192
表示为最近n个单元的平均失真,然后如果
Figure S200680013746XD00193
成立,则根据(35)和(36),极可能使D跳过开启>D跳过关闭。换句话说,用于关闭基于单元的非ROI跳过的标准可规定为
Figure S200680013746XD00194
该标准可用作自适应非ROI跳过算法的基础。
如下所示,可进一步对自适应基于单元的非ROI跳过算法进行说明。
步骤0:将数据初始化,并设置 D ‾ n = 0 , 且跳过模式=开启。
步骤1:使用方程式(33)为当前单元分配ρ预算(两个相继帧Fn和Fn+1的群组)。
步骤2:在当前单元内,通过方程式(33)来为每一宏块分配位。如果跳过模式为开启,则不为单元内的第二个帧的非ROI分配位。
步骤3:在获得当前单元的失真后,由 D ‾ n = ( 1 - η ) D ‾ n - 1 + η D n 来更新
Figure S200680013746XD00202
其中η是学习因子,并在范围[0,1]之中。
步骤4:获得下一单元的数据;如果这是最后的单元,则转入步骤6。
步骤5:计算新单元的D非ROI跳过的失真(接下来的两个帧Fn+2和Fn+3的群组);如果则关闭跳过模式;否则,开启跳过模式。返回步骤1、返回步骤1。
步骤6:自适应基于单元的跳过算法终止。
同样,自适应基于单元的非ROI跳过算法提供了与本文所述内容自适应非ROI跳过技术的比较。下文将更为详细地说明内容自适应非ROI跳过技术。可结合ρ域帧级速率控制算法以逐帧处理顺序来应用基于内容的非ROI跳过技术。参数ρ表示视频编码时宏块中的非零量化AC系数的数量。还可结合本文所述的加权宏块级位分配算法来应用内容自适应非ROI跳过技术。
当获取一个帧时,帧级速率控制器54(图4)根据速率控制窗口内剩余位和帧的数量使用贪婪帧级速率控制算法来为所述帧分配目标ρ预算。贪婪模型基于速率控制窗口内视频帧的内容复杂性均匀分布的假设,并因此应在剩余帧之间均匀分配位。在为帧决定了目标ρ预算之后,ROI MB映射器52检测或跟踪帧的ROI,并将帧内的MB划分成ROI宏块和非ROI宏块。
视频编码器58为当前帧内的所有MB执行运动估计。所获得的运动信息可用作决定内容自适应非ROI跳过模式时内容线索的一部分。一旦作出非ROI跳过模式决定,预算调节模块61会为当前帧调节ρ域预算R预算。位分配模块48然后使用已调节预算来为优化ROI编码提供MB级位分配。然后可执行DCT变换、量化及熵编码。
对于基于单元的非ROI跳过而言,通过因被跳过的非ROI区而累积的失真来决定非ROI跳过模式。相反,对于内容自适应非ROI跳过而言,考虑了内容信息,例如背景活动和前景活动等。对于内容自适应非ROI跳过而言,界定了两个筛选程序F({xn},M,Th)和G({xn},M,Th),其中{xn}是一个实数集合,其中xn是第n个项,M是一个整数,Th是[0,1]范围内的一个阈值,且
Figure S200680013746XD00204
(37)
Figure S200680013746XD00205
(38)
筛选程序(37)检测在本地窗口内(固定长度M)是否当前值xn在顶部位置(在项的Th*100%之上)。筛选程序(38)检测是否存在自xn-M增加多于Th*100%至xn。内容自适应非ROI跳过模块50经配置以应用筛选程序(37)和(38)来检测视频内容状态或状态改变,其间接影响跳过模式决定。
帧(或最近的帧)中相加和平均运动向量值可用来表示帧运动。当运动较高时,应降低启用跳过非ROI编码的频率,以保护可能的内容转换信息。在ROI视频编码时,可考虑ROI和非ROI(背景)活动。当在非ROI区发生大量活动时,应降低非ROI跳过的频率,如上文所述。另一方面,当ROI含有大量活动时,跳过非ROI区有助于重新分配更多的为来对ROI进行编码。
术语“活动”通常指诸如运动等局部活动以及诸如形状等全局活动。运动活动的一个实例是逐帧改变脸部表情,其导致诸如眼和唇等脸部要素的相关动作。形状活动的一个实例是逐帧使人的头部或另一对象翘起,其导致形状改变。可能发生待考虑的相关活动,例如,ROI内的变形或运动,或者非ROI内的纹理复杂性的运动。在决定非ROI跳过时,还可考虑因非ROI跳过而累积的失真。
如果将值{χn}表示为非ROI活动的量,且将{ζn}表示为帧序列的ROI活动的量,则
Figure S200680013746XD00211
(39)
其中MVxi和MVyi是第n个帧内的第i个宏块的运动向量的x和y分量,及:
ζn=μn×Kn
(40)
其中{μn}是ROI变形因子且{Kn}是ROI局部动作因子,及:
Figure S200680013746XD00212
(41)
及:
κ n = Σ i ∈ ROI ( | MV x i | + | MV y i | ) .
(42)
值{ζn}可表征ROI活动的程度,因为{μn}表示诸如对象动作/旋转和变形等全局活动的程度,且{Kn}表示诸如脸部表情变化等局部活动。
图5图解说明视频场景的ROI内呈现的对象的对象动作/旋转变化和变形。具体而言,图5所示帧0和1中描绘的人的头部位置发生显著变化。图6图解说明视频场景的ROI内的人的脸部表情发生变化。具体而言,帧0和1内所描绘的人的嘴从基本闭合位置转变为张大位置。因此,图5和6表示了视频场景的ROI内的较大活动的情况。
值{σBn 2}表示了帧序列的每一帧的非ROI残差的总能量。该值还是因非ROI被跳过而导致的失真。可将跳过模式决定表示为:
Sn=F({ζn},M2,Thζ1)G({ζn},1,Thζ2:)+[1-F({ζn},M2,Thζ1)G({ζn},1,Thζ2)]
(43)
[1-G({σBn 2),p,Thσ)][1-F({χn},M1,Thχ1)][1-G({χn},1,Thχ2)],
其中Thσ、M1、Thχ1、Thχ2、M2及Thζ1是由用户界定的阈值和本地窗口大小,且p-1是被跳过背景的当前帧之前的连续帧的数量。换句话说,第(n-p)个帧对非ROI区进行了编码,但第(n-p+1)、第(n-p+2)…及第(n-1)个帧跳过了对非ROI区进行编码。当值Sn=1时,跳过对当前帧的非ROI区编码;否则,对非ROI区进行编码。从方程式(43),可看出当ROI活动量剧增或ROI包含大量活动时,非ROI跳过模块50选择跳过背景。否则,如果非ROI包含大量运动,或因其它帧内被跳过的非ROI区导致的累积失真相当高,则将对非ROI区进行编码。
图7是流程图,其图解说明用于内容自适应非ROI跳过的技术。如图7中所示,当非ROI跳过过程初始化时(62),帧级速率控制器54估计帧级ρ预算(64)。当获取下一帧时(66),ROI MB映射器52检测或跟踪为所述帧规定的ROI(68)。视频编码器58然后估计所述帧内所有MB的运动(70)。如果所获取的帧是序列中最前面两个帧之一(72),则位分配模块48应用MB级位分配(78)。否则,如果所获取的帧不是最前面两个帧之一(72),则非ROI跳过模块50决定所述帧的非ROI的跳过模式(74)。预算调节模块61然后根据由非ROI跳过模块50决定的跳过模式来调节帧级ρ预算(76)。
如果非ROI被跳过,则可调节帧级ρ预算,以使额外编码位可用于该帧或相继帧内的ROI。当调节帧级ρ预算时(76),位分配模块48应用MB级位分配,以对所述帧的ROI进行优先编码(78)。然后,视频编码器58使用位分配对所述帧内的MB进行编码(80)。如果尚未到达所述帧内最后的MB(82),则过程重复,如方块82的“否”分支所指示。如果已经到达最后的MB(82),但是尚未到达视频序列或帧级速率控制窗口中的最后帧(84),则对帧级ρ预算进行新的估计(64),并获取下一帧(66)。如果已经到达最后帧(84)的最后MB(82),则过程结束(86)。
在图7所示实例中,帧级ρ预算估计(64)可基于对整个帧进行编码的假设。然而,由于将跳过视频帧序列中的一些非ROI区,因此必须调节帧级ρ域预算(76)。在本发明中,考虑了三种不同的帧级ρ预算调节策略:(1)“贪婪”策略,(2)“银行家”策略,及(3)“投资者”策略。
“贪婪”帧级速率控制策略只是在非ROI跳过模式为开启时根据帧内的ROI和非ROI区的纹理复杂性减少了帧级ρ预算,如果非ROI跳过模式为关闭,即如果对帧的非ROI区进行编码,则不起任何作用。
当非ROI跳过模式为开启时,“银行家”帧级速率控制策略减少ρ预算,但将这些节省的ρ储备用于未来帧。如果对帧的非ROI区进行编码,则所述帧将获得从非ROI区被跳过的前面帧节省的所有ρ。
“投资者”策略根据关于视频场景内前面帧的前面的非ROI跳过历史的统计和模式来估计未来跳过事件,并然后根据所述估计来决定ρ预算。因此,预算是基于当前帧和其它帧的历史和预测跳过统计。
可选择每一帧级速率控制策略构建在预算调节模块61之内,以调节由帧级速率控制器54产生的ρ域值R预算。位分配模块48使用已调节的R预算值,以在ROI和非ROI区之间分配编码位(如果对于相关帧而言跳过为关闭)。
值{ρn 预算}表示从帧级速率控制器获得的ρ预算,{ρn 已调节}表示已调节的ρ预算,且n表示当前帧的索引。下文说明了贪婪、银行家及投资者策略的其它细节:下文说明了贪婪、银行家及投资者策略的其它细节:
1.贪婪策略。可用下式来计算使用这种策略的ρn 已调节
Figure S200680013746XD00231
(44)
其中σi表示当前帧内第i个宏块的DCT系数的标准偏差,且wi是由位分配模块48执行的宏块级加权位分配中的宏块的相关联加权。
方程式(44)是方城式(33)的展开。在方程式(33)中,界定了ROI感知重要性因子α,以减少ROI和非ROI区的失真,来形成帧的加权失真测量。因此,感知峰值信噪比(PSNR)界定为:
感知 PSNR = - 10 log 10 [ α D R ( f , f ~ ) + ( 1 - α ) D NR ( f , f ~ ) ] ,
(45)
其中f和
Figure S200680013746XD00233
是原始帧和经重组帧,且DR和DNR是ROI和非ROI区的规范化每像素失真。如上文的方程式(5)中所述,根据ρ域位分配技术的加权wi界定为:
Figure S200680013746XD00234
(i=1,2,...N),
其中K是ROI内的宏块数量,且N是帧内的宏块数量。
2.银行家的策略。这种策略是类似于传统银行操作的保守方法,其中客户可取出其帐户的总存款的最大额度。在这种情况下,具有非ROI跳过的帧中节省的ρ就像一个存款资源,用于使对其非ROI区进行编码的最近的未来帧受益。在这种情况下,可通过下式来获得已调节的ρ预算R预算的计算:
Figure S200680013746XD00241
(46)
其中p-1是非ROI区被跳过的当前帧前面的连续帧数量,而第(n-p)个ROI帧对其非ROI区进行了编码。
3.投资者策略。投资者策略是一个更加主动的方法,其中预测了未来可能的跳过事件,并根据所述预测来分配资源。在这种情况中,假设非ROI跳过为开启的未来帧具有同当前帧类似的ROI复杂性。因此,一旦估计当前帧后会有q个具有被跳过的非ROI区的帧,则可通过下式来计算已调节的ρ预算:
Figure S200680013746XD00242
(47)
在方程式(47)中,对于一系列初始帧(例如视频序列中的最前面50个帧),投资者策略运作与银行家的策略运作一样。在这个时期,收集统计以便估计未来的q值。当n>50且Sn=0时,考虑因非ROI跳过获得的前面的ρ节省值和预测未来节省值,给ρ赋予一个平均值。
可通过各种预测技术来决定q值。作为一个实例,Bayesian模型可用来将q值预测问题转换成多分类问题。在这种情况下,由q的所有可能值来表示类,例如,如果q限制为小于6,则有类0、1、2、3、4、5。用于作出分类决定的所述特征向量是 x n = ( χ n , ξ n , σ B n 2 ) . 如前文所述,值{σBn 2}表示帧序列的每一帧的非ROI残差的总能量。
Bayesian模型从自初始帧处得到的统计来了解,并利用跳过与否的跳过决定来更好地位相继帧作出更好的ρ分配。通过界定χn、ζn及σBn 2的阈值,可将{xn}的空间映射成8类{yn}(yn=0,1,...,或7)。因此,对于所考虑的当前帧而言,q值的最佳选择是将以下概率最大化的一个值:
P ( q | y n ) = P ( y n | q ) P ( q ) P ( y n ) ,
(48)
根据方程式(48),q值的最佳选择是将P(yn|q)P(q)最大化的q值,可通过基于前面经处理帧的统计的柱状图技术来获得P|yn|q)和P(q)的概率。如果值Hq(y)表示具有经编码背景的帧的计数,所述经编码的帧出现在具有特征向量y的被跳过背景的q个帧之后,则:
P ( y n | q ) = H q ( y n ) Σ y H q ( y ) ,
(49)
且可通过类似方法来获得P(q)。
图8是流程图,其更为详细地图解说明用于内容自适应非ROI跳过的技术。具体而言,图8图解说明具有投资者策略的非ROI跳过模块50及ρ预算调节模块61的运作。如图8中所示,在自帧分析器60检索帧信息时,非ROI跳过模块50决定所述帧的非ROI内的内容活动是否超过可适用阈值(90)。同样,术语“活动”通常可指运动等局部活动,以及变形等全局活动。如果ROI内容活动超过阈值,则预算调节模块61跳过帧的非ROI编码(91),并重新计算ρ域帧级预算R预算(100),例如与因非ROI跳过重新捕获的编码位数量成正比。如果ROI内容活动超过阈值(90),则ROI内的活动较高,并需要跳过非ROI,以便重新分配编码位,以确保ROI内可接受的视觉质量。
如果ROI内容活动不超过阈值(90),则非ROI跳过模块50然后决定帧的非ROI区内的内容活动是否超过可适用的阈值(92)。非ROI区内的内容活动包括运动以及纹理复杂性。如果非ROI区内的内容活动不超过可适用阈值,则可跳过非ROI编码(91),然后调节帧级预算R预算。在这种情况下,非ROI活动相对较低。因此,跳过非ROI编码将不会严重损害非ROI区内的视觉质量。然而,同时,非ROI跳过可显著有助于ROI编码。
即使非ROI内容活动较高并超过可适用的阈值,但如果因在视频序列过程上非ROI跳过导致的总累积失真不高,则仍然可跳过非ROI区。因此,如果累积的跳过失真不超过可适用的阈值(94),则可由非ROI跳过模块50来跳过非ROI编码(91),然后由预算调节模块61来重新计算帧级预算R预算(100)。因此,非ROI跳过模块根据ROI的内容活动,及因跳过对一个或多个其它帧内非ROI区进行编码而累积的失真来决定是否跳过对视频帧的非ROI区进行编码。
如果累积的跳过失真较高(94)并超过可适用的阈值,则非ROI跳过模块50更新帧统计(96),并预测视频序列中的未来被跳过帧的数量(98)。在这种情况中,正常执行在ROI与非ROI之间的位分配,无需考虑非ROI跳过。如上文关于投资者策略所述,例如对于方程式(47)-(49),帧统计可表示视频序列中的被跳过帧的数量和模式。预算调节模块61根据帧统计来预测未来被跳过的帧的数量(98),例如使用Bayesian分类。然后,预算调节模块61根据所述预测来调节帧预算R预算(100)。
如图8中所示,非ROI跳过模式决定可涉及例如运动或变形等ROI内容活动的分析,和例如运动或纹理复杂性等非ROI内容活动,及因一个或多个其它帧内的非ROI跳过而累积的失真。尽管图8中将跳过模式决定描绘为基于阈值的决定,但也可根据ROI活动对非ROI活动对因跳过导致的累积失真的平衡来代替。同样,尽管帧级速率控制描述为在ρ域内发生,但可替代地结合基于QP速率控制来采用本文所述内容自适应非ROI跳过技术。因此,图8中所示过程是实例性的。
图9是使用不同的位分配策略来比较编码技术的整体感知质量的图式。具体而言,图9对于标准的Carphone QCIF视频试验序列在以千位每秒(kbps)为单位的编码速率范围上按照以分贝(dB)为单位的感知峰值信噪比(PSNR)来比较了用于位分配的贪婪(102)、银行家(104)及投资者(106)策略。在图9所示实例中,用于宏块级位分配的用户偏好值α是0.9。相同的α值应用于图10-12。如图9中所示,在较高的位速率端,“投资者”策略稍微胜过“银行家”策略。尽管对于q估计需要额外计算复杂性,但是对于具有重复的模式或自相似特性的视频序列而言,投资者策略运作得更好。
使用15帧每秒(fps)Carphone及Foreman QCIF视频试验序列为四个不同的速率控制方法获得了实验结果。Carphone和Foreman序列是由视频编码技术领域的技术人员使用的标准试验序列。四种不同的速率控制方法如下:
1.贪婪。以均匀分布方式将位分配给宏块的宏块级贪婪算法。
2.帧跳过。编码期间每隔一个帧执行跳过的帧跳过算法。
3.基于单元。基于单元的非ROI跳过算法,如上文所述,其将每两个帧组合成一个单元,并跳过每一单元内的第二个帧的背景。
4.内容自适应。内容自适应非RO跳过算法,如本文所述,其根据帧内容和累积失真在逐帧基础上决定是否应跳过非ROI;使用了用于位分配的“投资者”策略。
第一实验在标准Carphone视频试验序列上执行,且图10和11中显示了结果。图10是针对Carphone视频试验序列在具有和没有帧跳过和非ROI跳过情况下,比较使用不同位分配策略的编码技术整体感知质量的图式。在图10中,帧跳过、基于单元的背景跳过、贪婪及内容自适应(“建议的方法”)的结果分别由参考号108、110、112及114来识别。图11是图解说明因非ROI跳过和在速率为48Kbps时关于Carphone视频序列的其它技术导致的失真的图式。在图11中,贪婪、基于单元的背景跳过及具有投资者策略的内容自适应(“建议的方法”)的结果由参考号116、118及120来标示。如图10和11中所示,建议的方法,即具有投资者策略的内容自适应非ROI跳过,胜过整个位速率范围中的所有其它方法。值得注意的是性能提高达到2dB。
图12是针对另一实例性视频序列具有和没有帧跳过和非ROI跳过情况下,比较使用不同位分配策略的编码技术整体感知质量的图式,即Foreman QCIF视频试验序列的最前面180个帧,值为0.9。在图12中,帧跳过、基于单元的背景跳过、贪婪及内容自适应(“建议的方法”)分别由参考号122、124、126及128来识别。图12显示与其它算法相比,建议的具有投资者策略位分配的内容自适应非ROI跳过具有显著提高。
图13是比较针对具有值0.7的Carphone视频试验序列使用基于单元和基于内容的非ROI跳过的编码技术的整体感知质量的图式。图14是比较针对具有值0.7的Foreman视频序列使用基于单元的和基于内容的非ROI跳过的编码技术的整体感知质量。在图13和14中,基于单元的非ROI跳过方法由参考号130来标示,而基于内容的非ROI跳过方法由参考号132来标示。如显示,基于内容的非ROI跳过方法胜过基于单元的方法。
在本发明中,已说明了各种技术来支持视频电话或视频流应用的ROI编码,尤其是当提供有极低位速率要求时,例如,在无线视频电话中。本发明提供一种用于内容自适应非ROI跳过的技术,可结合用于ROI编码的不同优化加权位分配方案(例如,在ρ域中)来采用所述内容自适应非ROI跳过技术,以获得更好的性能。内容自适应非ROI跳过方案根据诸如ROI和非ROI区的内容活动等当前帧的内容信息及诸如因一个或多个前面帧的非ROI跳过而累积的失真等前面处理的帧的统计来动态来决定非ROI跳过模式。此外,本文说明了若干种策略,以便在各帧的不同区域进行更好的位分配。
本文所述的技术可构建于硬件、软件、固件、或其任一组合中。如果构建在软件中,则所述技术可部分地通过一个计算机可读媒体来实现,所述计算机可读媒体包括含有指令的程序代码,当运行所述指令时,可执行上文所述的一个或多个方法。在这种情况中,该计算机可读媒体可包括随机存取存储器(RAM)-例如同步动态随机存取存储器(SDRAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦可编程只读存储器(EEPROM)、FLASH(快闪)存储器、磁性或光学数据存储媒体及类似装置。
程序代码可由一个或多个处理器来执行,例如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、场可编程逻辑阵列(FPGA)、或其它等效集成或离散逻辑电路。在一些实施例中,可在经配置用于编码和解码的专用软件模块或硬件单元中提供本文所述的功能,或将本文所述功能整合到经组合的视频编码器-解码器(CODEC)中。
本文已阐述了各个实施例。这些及其它实施例仍归属于以下权利要求书的范畴内。

Claims (42)

1.一种方法,其包括:
获得视频帧;
编码所述视频帧内的感兴趣区域(ROI);及
决定是否跳过对所述视频帧的非ROI区的编码,所述决定是否跳过对所述视频帧的非ROI区的编码基于所述ROI和所述非ROI区的内容活动及因跳过对一个或多个其它帧内非ROI区的编码而累积的失真。
2.如权利要求1所述的方法,其中所述内容活动包括所述ROI内的形状变形和运动。
3.如权利要求1所述的方法,其中所述内容活动包括所述非ROI区内的运动和纹理复杂性。
4.如权利要求1所述的方法,其进一步包括当未跳过对所述非ROI区的编码时,在所述ROI与所述非ROI区之间分配编码位。
5.如权利要求4所述的方法,其中分配编码位包括根据帧级位预算分配所述编码位,所述方法进一步包括根据所述视频帧和其它视频帧的非ROI区的历史和预测跳过统计来调节所述帧级位预算。
6.如权利要求5所述的方法,其进一步包括将Bayesian模型应用于所述历史跳过统计以获得所述预测跳过统计。
7.如权利要求4所述的方法,其中分配编码位包括以所述视频帧内的所述宏块级分配ρ域中的编码位。
8.如权利要求4所述的方法,其中分配编码位包括根据ρ域位预算来分配所述编码位。
9.如权利要求8所述的方法,其中分配编码位包括基于速率控制策略来应用位分配方案,所述速率控制策略基于所述帧内所述ROI和非ROI区的纹理复杂性来决定所述ρ域预算。
10.如权利要求8所述的方法,其中分配编码位包括基于速率控制策略来应用位分配方案,所述速率控制策略基于所述ROI和非ROI区的纹理复杂性及来自前面帧的ρ预算的平均值来决定所述帧级ρ预算。
11.如权利要求8所述的方法,其中分配编码位包括基于速率控制策略来应用位分配方案,所述速率控制策略基于关于视频序列中前面帧的非ROI跳过历史的统计和模式来估计未来跳过事件,并然后基于所述估计来决定所述ρ预算。
12.如权利要求1所述的方法,其中决定是否跳过对所述视频帧的非ROI区的编码包括:如果所述ROI内的所述内容活动高于阈值,则跳过对所述非ROI区的编码。
13.如权利要求1所述的方法,其中决定是否跳过对所述视频帧的非ROI区的编码包括:
如果所述ROI内的所述内容活动超过第一阈值,则跳过对所述非ROI区的编码;及
如果所述ROI内的所述内容活动不超过所述第一阈值但所述非ROI区内的所述内容活动不超过第二阈值,则跳过对所述非ROI区的编码。
14.如权利要求1所述的方法,其中决定是否跳过对所述视频帧的非ROI区的编码包括:
如果所述ROI内的所述内容活动超过第一阈值,则跳过对所述非ROI区的编码;及
如果所述ROI内的所述内容活动不超过所述第一阈值但所述非ROI区内的所述内容活动不超过第二阈值且因跳过对其它视频帧的编码而累积的失真不超过第三阈值,则跳过对所述非ROI区的编码。
15.一种装置,其包括:
感兴趣区域映射器,其产生对视频帧内感兴趣区域(ROI)的界定;
视频编码器,其编码所述视频帧内的所述ROI;及
跳过模块,其决定所述编码器是否将跳过对所述视频帧的非ROI区的编码,所述决定所述编码器是否将跳过对所述视频帧的非ROI区的编码基于所述ROI和所述非ROI区的内容活动和因跳过对一个或多个其它帧内非ROI区的编码而累积的失真。
16.如权利要求15所述的装置,其中所述内容活动包括所述ROI内的形状变形和运动。
17.如权利要求15所述的装置,其中所述内容活动包括所述非ROI区内的运动和纹理复杂性。
18.如权利要求15所述的装置,其进一步包括位分配模块,当未跳过对所述非ROI区的编码时,所述位分配模块在所述ROI与所述非ROI区之间分配编码位。
19.如权利要求18所述的装置,其中所述位分配模块基于帧级位预算来分配所述编码位,所述装置进一步包括预算调节模块,所述预算调节模块基于所述视频帧和其它视频帧的非ROI区的历史和预测跳过统计来调节所述帧级位预算。
20.如权利要求19所述的装置,其中所述预算调节模块将Bayesian模型应用于所述历史跳过统计以获得所述预测跳过统计。
21.如权利要求18所述的装置,其中所述位分配模块以所述视频帧内的所述宏块级分配所述ρ域中的编码位。
22.如权利要求18所述的装置,其中所述位分配模块基于ρ域位预算来分配所述编码位。
23.如权利要求22所述的装置,其中所述位分配模块基于速率控制策略来应用位分配方案,所述速率控制策略基于所述帧内的所述ROI和非ROI区的纹理复杂性来决定所述ρ域预算。
24.如权利要求22所述的装置,其中所述位分配模块基于速率控制策略来应用位分配方案,所述速率控制策略基于所述ROI和非ROI区的纹理复杂性及来自前面帧的ρ预算的平均值来决定所述帧级ρ域预算。
25.如权利要求22所述的装置,其中所述位分配模块基于速率控制策略来应用位分配方案,所述速率控制策略基于关于视频序列中前面帧的非ROI跳过历史的统计和模式来估计未来跳过事件,并然后基于所述估计来决定所述ρ域预算。
26.如权利要求15所述的装置,其中如果所述ROI内的所述内容活动高于阈值,则所述跳过模块引导所述视频编码器跳过对所述非ROI区的编码。
27.如权利要求15所述的装置,其中如果所述ROI内的所述内容活动高于第一阈值,则所述跳过模块引导所述视频编码器跳过对所述非ROI区的编码,且如果所述ROI内的所述内容活动低于阈值但所述非ROI区内的所述内容活动低于第二阈值,则所述跳过模块引导所述视频编码器跳过对所述非ROI区的编码。
28.如权利要求15所述的装置,其中如果所述ROI内的所述内容活动高于第一阈值,则所述跳过模块引导所述视频编码器跳过对所述非ROI区的编码,且如果所述ROI内的所述内容活动低于阈值但所述非ROI区内的所述内容活动低于第二阈值且因跳过对其它视频帧的编码而累积的失真低于第三阈值,则所述跳过模块引导所述视频编码器跳过对所述非ROI区的编码。
29.一种计算机可读媒体,其包括使处理器执行以下操作的指令:
获得视频帧;
编码所述视频帧内的感兴趣区域(ROI);及
决定是否跳过对所述视频帧的非ROI区的编码,所述决定是否跳过对所述视频帧的非ROI区的编码基于所述ROI和所述非ROI区的内容活动和因跳过对一个或多个其它帧内非ROI区的编码而累积的失真。
30.如权利要求29所述的计算机可读媒体,其中所述内容活动包括所述ROI内的形状变形和运动。
31.如权利要求29所述的计算机可读媒体,其中所述内容活动包括所述非ROI区内的运动和纹理复杂性。
32.如权利要求29所述的计算机可读媒体,其中当未跳过对所述非ROI区的编码时,所述指令使所述处理器在所述ROI与所述非ROI区之间分配编码位。
33.如权利要求32所述的计算机可读媒体,其中所述指令使所述处理器基于帧级位预算来分配编码位并基于关于所述视频帧和其它视频帧的非ROI区的历史和预测跳过统计来调节所述帧级位预算。
34.如权利要求33所述的计算机可读媒体,其中所述指令使所述处理器将Bayesian模型应用于所述历史跳过统计,以获得所述预测跳过统计。
35.如权利要求32所述的计算机可读媒体,其中所述指令使所述处理器以所述视频帧内的所述宏块级分配所述ρ域中的编码位。
36.如权利要求32所述的计算机可读媒体,其中所述指令使所述处理器基于ρ域位预算来分配所述编码位。
37.如权利要求36所述的计算机可读媒体,其中所述指令使所述处理器基于速率控制策略来应用位分配方案,所述速率控制策略基于所述帧内的所述ROI和非ROI区的纹理复杂性来决定所述ρ域位预算。
38.如权利要求36所述的计算机可读媒体,其中所述指令使所述处理器基于速率控制策略来应用位分配方案,所述速率控制策略基于所述ROI和非ROI区的纹理复杂性和来自前面帧的ρ域预算的平均值来决定所述ρ域预算。
39.如权利要求36所述的计算机可读媒体,其中所述指令使所述处理器基于速率控制策略来应用位分配方案,所述速率控制策略基于关于视频序列中前面帧的非ROI跳过历史的统计和模式来估计未来跳过事件,并然后基于所述估计来决定所述ρ域预算。
40.如权利要求29所述的计算机可读媒体,其中如果所述ROI内的所述内容活动高于阈值,则所述指令使所述处理器跳过对所述非ROI区的编码。
41.如权利要求29所述的计算机可读媒体,其中如果所述ROI内的所述内容活动高于第一阈值,则所述指令使所述处理器跳过对所述非ROI区的编码,且如果所述ROI内所述内容活动低于阈值但所述非ROI区内的所述内容活动低于第二阈值,则所述指令使所述处理器跳过对所述非ROI区的编码。
42.如权利要求29所述的计算机可读媒体,其中如果所述ROI内的所述内容活动高于第一阈值,则所述指令使所述处理器跳过对所述非ROI区的编码,且如果所述ROI内的所述内容活动低于阈值但所述非ROI区内的所述内容活动低于第二阈值且因跳过对其它视频帧的编码而累积的失真低于第三阈值,则所述指令使所述处理器跳过对所述非ROI区的编码。
CN200680013746.XA 2005-03-01 2006-03-01 感兴趣区域视频编码的内容自适应背景跳过 Expired - Fee Related CN101164344B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US65800805P 2005-03-01 2005-03-01
US60/658,008 2005-03-01
US11/200,407 US9667980B2 (en) 2005-03-01 2005-08-09 Content-adaptive background skipping for region-of-interest video coding
US11/200,407 2005-08-09
PCT/US2006/007225 WO2006094035A1 (en) 2005-03-01 2006-03-01 Content-adaptive background skipping for region-of-interest video coding

Publications (2)

Publication Number Publication Date
CN101164344A true CN101164344A (zh) 2008-04-16
CN101164344B CN101164344B (zh) 2012-04-25

Family

ID=39298314

Family Applications (4)

Application Number Title Priority Date Filing Date
CN200680013727.7A Expired - Fee Related CN101164343B (zh) 2005-03-01 2006-02-28 用于视频电话的具有背景跳过的关注区编码
CN200680013366.6A Expired - Fee Related CN101164341B (zh) 2005-03-01 2006-02-28 用于视频电话的质量度量偏移的关注区编码
CN200680013595.8A Expired - Fee Related CN101164342B (zh) 2005-03-01 2006-02-28 使用ρ域位分配的视频电话中的关注区编码方法及装置
CN200680013746.XA Expired - Fee Related CN101164344B (zh) 2005-03-01 2006-03-01 感兴趣区域视频编码的内容自适应背景跳过

Family Applications Before (3)

Application Number Title Priority Date Filing Date
CN200680013727.7A Expired - Fee Related CN101164343B (zh) 2005-03-01 2006-02-28 用于视频电话的具有背景跳过的关注区编码
CN200680013366.6A Expired - Fee Related CN101164341B (zh) 2005-03-01 2006-02-28 用于视频电话的质量度量偏移的关注区编码
CN200680013595.8A Expired - Fee Related CN101164342B (zh) 2005-03-01 2006-02-28 使用ρ域位分配的视频电话中的关注区编码方法及装置

Country Status (1)

Country Link
CN (4) CN101164343B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742296A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 降低码流数据量波动的视频编解码方法及装置
CN102427533A (zh) * 2011-11-22 2012-04-25 苏州科雷芯电子科技有限公司 视频传输装置及方法
CN101494785B (zh) * 2008-12-19 2012-05-09 无锡云视界科技有限公司 一种h.264感兴趣区域编码的方法
WO2012139275A1 (en) * 2011-04-11 2012-10-18 Intel Corporation Object of interest based image processing
CN102804791A (zh) * 2010-01-22 2012-11-28 索尼公司 接收装置、发送装置、通信系统、接收装置控制方法和程序
WO2013170590A1 (zh) * 2012-05-16 2013-11-21 华为技术有限公司 一种媒体数据处理方法及设备
CN108833915A (zh) * 2018-06-21 2018-11-16 杭州雄迈集成电路技术有限公司 一种自适应跳帧的智能编码方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2524515B1 (en) 2010-01-11 2018-05-30 Telefonaktiebolaget LM Ericsson (publ) Technique for video quality estimation
CN101854532B (zh) * 2010-05-25 2012-12-19 无锡中星微电子有限公司 一种视频编码装置及方法
CN102263943B (zh) * 2010-05-25 2014-06-04 财团法人工业技术研究院 视频位率控制装置与方法
CN101977309B (zh) * 2010-06-30 2012-07-25 无锡中星微电子有限公司 码率控制方法及装置
TWI427531B (zh) * 2010-10-05 2014-02-21 Aten Int Co Ltd 遠端管理系統及其方法
US20140254659A1 (en) 2013-03-11 2014-09-11 Mediatek Inc. Video coding method using at least evaluated visual quality and related video coding apparatus
US9832521B2 (en) * 2014-12-23 2017-11-28 Intel Corporation Latency and efficiency for remote display of non-media content
WO2016202287A1 (zh) * 2015-06-19 2016-12-22 美国掌赢信息科技有限公司 一种即时视频的传输方法和电子设备
CN105163197A (zh) * 2015-06-19 2015-12-16 美国掌赢信息科技有限公司 一种即时视频的编码方法和电子设备
CN105163125A (zh) * 2015-06-19 2015-12-16 美国掌赢信息科技有限公司 一种即时视频的编码方法和电子设备
CN105163196A (zh) * 2015-06-19 2015-12-16 美国掌赢信息科技有限公司 一种即时视频的编码方法和电子设备
CN105049947A (zh) * 2015-06-19 2015-11-11 美国掌赢信息科技有限公司 一种即时视频的传输方法和电子设备
CN105163195A (zh) * 2015-06-19 2015-12-16 美国掌赢信息科技有限公司 一种即时视频的编码方法和电子设备
CN104994405A (zh) * 2015-06-19 2015-10-21 美国掌赢信息科技有限公司 一种即时视频的传输方法和电子设备
CN106162177B (zh) * 2016-07-08 2018-11-09 腾讯科技(深圳)有限公司 视频编码方法和装置
JP7092050B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム
CN111901603B (zh) * 2020-07-28 2023-06-02 上海工程技术大学 一种用于静态背景视频的编码方法及解码方法
CN116760988B (zh) * 2023-08-18 2023-11-10 瀚博半导体(上海)有限公司 基于人类视觉系统的视频编码方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3086396B2 (ja) * 1995-03-10 2000-09-11 シャープ株式会社 画像符号化装置及び画像復号装置
US6111991A (en) * 1998-01-16 2000-08-29 Sharp Laboratories Of America Method and apparatus for optimizing quantizer values in an image encoder
US5940124A (en) * 1997-07-18 1999-08-17 Tektronix, Inc. Attentional maps in objective measurement of video quality degradation
SE513356C2 (sv) * 1998-11-20 2000-08-28 Ericsson Telefon Ab L M Förfarande och anordning för kryptering av bilder
KR100643454B1 (ko) * 2001-11-17 2006-11-10 엘지전자 주식회사 영상 데이터 전송 제어방법
JP2005538601A (ja) * 2002-09-06 2005-12-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改善された効率及び誤差回復のためのコンテンツ適応型マルチプル・ディスクリプション動き補償
JP3814592B2 (ja) * 2003-06-27 2006-08-30 キヤノン株式会社 撮像装置及びその制御方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742296A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 降低码流数据量波动的视频编解码方法及装置
CN101742296B (zh) * 2008-11-14 2016-01-20 北京中星微电子有限公司 降低码流数据量波动的视频编解码方法及装置
CN101494785B (zh) * 2008-12-19 2012-05-09 无锡云视界科技有限公司 一种h.264感兴趣区域编码的方法
CN102804791A (zh) * 2010-01-22 2012-11-28 索尼公司 接收装置、发送装置、通信系统、接收装置控制方法和程序
WO2012139275A1 (en) * 2011-04-11 2012-10-18 Intel Corporation Object of interest based image processing
US9247203B2 (en) 2011-04-11 2016-01-26 Intel Corporation Object of interest based image processing
US9871995B2 (en) 2011-04-11 2018-01-16 Intel Corporation Object of interest based image processing
CN102427533A (zh) * 2011-11-22 2012-04-25 苏州科雷芯电子科技有限公司 视频传输装置及方法
WO2013170590A1 (zh) * 2012-05-16 2013-11-21 华为技术有限公司 一种媒体数据处理方法及设备
CN108833915A (zh) * 2018-06-21 2018-11-16 杭州雄迈集成电路技术有限公司 一种自适应跳帧的智能编码方法

Also Published As

Publication number Publication date
CN101164342B (zh) 2011-03-02
CN101164344B (zh) 2012-04-25
CN101164343B (zh) 2013-02-13
CN101164343A (zh) 2008-04-16
CN101164342A (zh) 2008-04-16
CN101164341A (zh) 2008-04-16
CN101164341B (zh) 2012-05-02

Similar Documents

Publication Publication Date Title
CN101164344B (zh) 感兴趣区域视频编码的内容自适应背景跳过
US9667980B2 (en) Content-adaptive background skipping for region-of-interest video coding
Lee et al. Scalable rate control for MPEG-4 video
CN101743753B (zh) 利用视频编码中的帧复杂性、缓冲水平和内部帧位置的基于缓冲的速率控制
CN1726709B (zh) 用于对未压缩数字视频序列的图像进行编码的方法和装置
CN101164345B (zh) 用于速率受控视频编码的自适应跳帧的装置及方法
WO2021244341A1 (zh) 图像编码方法及装置、电子设备及计算机可读存储介质
CN101982977B (zh) 用于与时域边界进行数据对准的方法和装置
JP4601889B2 (ja) 圧縮ビットストリームを変換するための装置及び方法
CA2491522C (en) Efficient compression and transport of video over a network
US20060188014A1 (en) Video coding and adaptation by semantics-driven resolution control for transport and storage
CN109792540A (zh) 利用每帧参数控制的硬件加速的视频编码方法和系统
CN108574841B (zh) 一种基于自适应量化参数的编码方法及装置
JPH10257489A (ja) 映像符号化のためのビット発生量調節装置及び方法
US20190104315A1 (en) Scene Based Rate Control for Video Compression and Video Streaming
US20130251031A1 (en) Method for bit rate control within a scalable video coding system and system therefor
Saw Rate-quality optimized video coding
Chi et al. Region-of-interest video coding based on rate and distortion variations for H. 263+
Panagidi et al. Optimal Grouping-of-Pictures in IoT video streams
Ji et al. A perceptual macroblock layer power control for energy scalable video encoder based on just noticeable distortion principle
Rezaei et al. A fuzzy rate controller for variable bit rate video using foveated just-noticeable distortion model
Valenzise et al. A smoothed, minimum distortion-variance rate control algorithm for multiplexed transcoded video sequences
Chang et al. A two-layer characteristic-based rate control framework for low delay video transmission
Lan et al. Operational distortion–quantization curve-based bit allocation for smooth video quality
Kang et al. SNR-based bit allocation in video quality smoothing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120425

Termination date: 20180301

CF01 Termination of patent right due to non-payment of annual fee