CN101563925B - 解码器侧关注区视频处理 - Google Patents

解码器侧关注区视频处理 Download PDF

Info

Publication number
CN101563925B
CN101563925B CN2007800466616A CN200780046661A CN101563925B CN 101563925 B CN101563925 B CN 101563925B CN 2007800466616 A CN2007800466616 A CN 2007800466616A CN 200780046661 A CN200780046661 A CN 200780046661A CN 101563925 B CN101563925 B CN 101563925B
Authority
CN
China
Prior art keywords
roi
frequency data
video frequency
coding video
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007800466616A
Other languages
English (en)
Other versions
CN101563925A (zh
Inventor
哈立德·希勒米·埃尔-马勒
维贾伊·马哈德万
王浩洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN101563925A publication Critical patent/CN101563925A/zh
Application granted granted Critical
Publication of CN101563925B publication Critical patent/CN101563925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4621Controlling the complexity of the content stream or additional data, e.g. lowering the resolution or bit-rate of the video stream for a mobile client with a small screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/89Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder
    • H04N19/895Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder in combination with error concealment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region

Abstract

本发明涉及解码器侧关注区(ROI)视频处理。视频解码器确定ROI辅助信息是否可用。如果不可用,那么所述解码器默认为解码器侧ROI处理。所述解码器侧ROI处理可估计位流域中ROI抽取的可靠性。如果ROI可靠性有利,那么所述解码器应用位流域ROI抽取。如果ROI可靠性不利,那么所述解码器应用像素域ROI抽取。所述解码器可针对帧内编码(I)及帧间编码(P或B)的数据应用不同的ROI抽取过程。所述解码器可针对帧内编码的数据使用基于色彩的ROI产生,并针对帧间编码的数据使用基于经编码块图案(CBP)的ROI产生。ROI细化可涉及针对帧内编码数据的基于形状的细化及针对帧间编码数据的基于运动与色彩的细化。

Description

解码器侧关注区视频处理
技术领域
本发明涉及数字视频解码,且更特定来说涉及用于识别并处理视频帧的关注区(ROI)部分的技术。
背景技术
可将数字视频能力并入各种装置中,其中包括数字电视机、数字直播系统、无线通信装置、个人数字助理(PDA)、膝上型计算机、桌上型计算机、数字音乐与视频播放器、手持式游戏装置、视频游戏控制台、数码相机、数字记录装置、蜂窝式或卫星无线电电话及类似装置。数字视频装置因以提高的带宽效率处理并传输视频序列而可提供显著优于常规模拟视频系统的改进。
已针对数字视频序列的编码而建立不同的视频编码标准。举例来说,移动图像专家组(MPEG)已编制许多标准,包括MPEG-1、MPEG-2及MPEG-4。其它实例包括国际电信联盟(ITU)-T H.263标准、及ITU-T H.264标准及其配对物ISO/IEC MPEG-4的第10部分,即高级视频编码(AVC)。这些视频编码标准通过以压缩方式进行数据编码来支持视频序列的改善的传输效率。
在各种视频应用中,可能需要对ROI内容进行检测,包括视频事件分析及编辑、视频检索及浏览、视频监视、视频电话、及视频广播。ROI的一个实例是人脸部,但视频场景内的其它对象也可很重要。举例来说,在视频会议中,所述ROI可将与会者的脸部表情或图画呈现在白板上。使用优先编码,所述ROI可呈现得比其它非ROI区域更清晰及/或更详细。
发明内容
本发明涉及用于解码器侧ROI视频处理的技术。视频解码器可经配置以(例如)通过检测经编码位流中的信号或代码,检测经编码位流的特性,或检测带外侧信息来确定ROI辅助是否可用。作为实例,ROI辅助可包括识别所述ROI或色度阈值信息的ROI映射图,所述ROI或色度阈值信息识别所述ROI中的色度值范围。
所述ROI辅助信息可由编码器提供。或者,所述ROI辅助信息可由一个或一个以上位于编码器与解码器之间的中间装置(例如位于网络内或耦合到所述网络的网络装置)提供。如果ROI辅助信息可用,那么所述视频解码器可使用辅助ROI处理技术来对视频帧的ROI及/或非ROI区域应用优先解码、后处理及/或错误隐蔽。如果编码器ROI辅助不可用,那么所述视频解码器可默认为解码器侧ROI处理技术。
所述解码器侧ROI处理技术可应用估计所述位流域中的ROI抽取的可靠性的可靠性分析。如果ROI可靠性有利,那么所述解码器可在视频帧解码之前应用位流域ROI抽取过程。如果ROI可靠性不利,那么所述解码器可在视频帧解码之后应用像素域ROI抽取过程。在任一情况下,均可对所得ROI及/或非ROI区域应用优先解码、后处理及/或错误隐蔽。
对于位流域ROI抽取,所述视频解码器可应用产生粗ROI的第一级。第二级细化来自第一级的粗ROI以产生细ROI。所述视频解码器可针对帧内编码(I)或帧间编码(P或B)的视频数据应用不同的ROI抽取过程。举例来说,所述视频解码器可针对帧内编码的数据使用基于色彩的ROI遮罩产生器,并针对帧间编码的数据使用基于经编码块图案(CBP)的ROI遮罩产生器。ROI细化可通过针对帧内编码数据的基于形状的遮罩细化及针对帧间编码数据的基于运动与色彩的遮罩细化来实现。
在一个方面中,本发明提供一种方法,其包含:如果用以辅助ROI识别的信息可用,那么应用第一过程以在经编码视频数据中识别关注区(ROI);及如果用以辅助ROI识别的所述信息不可用,那么应用第二过程以在所述经编码视频数据中识别所述ROI。
在另一方面中,本发明提供一种方法,其包含:使用经编码视频数据的位流域分析来分析所述经编码视频数据的一个或一个以上特性以确定关注区(ROI)识别的可靠性;在所确定的可靠性可接受时,使用所述经编码视频数据的位流域分析来识别所述ROI;及在所确定的可靠性不可接受时,使用所述经编码视频数据的像素域分析来识别所述ROI。
在再一方面中,本发明提供一种方法,其包含:针对帧内编码的数据基于经编码视频数据的色彩特性在所述经编码视频数据中识别关注区(ROI);及针对帧间编码的数据机遇所述经编码视频数据的经编码块图案(CBP)特性来识别所述ROI。
在另一方面中,本发明提供一种装置,其包含:第一模块,其在用以辅助ROI识别的信息可用时应用第一过程以在经编码视频数据中识别关注区(ROI);及第二模块,其在用以辅助ROI识别的信息不可用时应用第二过程在所述经编码视频数据中识别所述ROI。
在额外方面中,本发明提供一种装置,其包含:第一模块,其使用经编码视频数据的位流域分析来分析所述经编码视频数据的一个或一个以上特性以确定关注区(ROI)识别的可靠性;第二模块,其在所确定的可靠性可接受时使用所述经编码视频数据的位流域分析来识别所述ROI;及第三模块,其在所确定的可靠性不可接受时使用所述经编码视频数据的像素域分析来识别所述ROI。
在再一方面中,本发明提供一种装置,其包含:第一模块,其针对帧内编码的数据基于经编码视频数据的色彩特性在所述经编码视频数据中识别关注区(ROI);及第二模块,其针对帧间编码的数据基于所述经编码视频数据的经编码块图案(CBP)特性来识别所述ROI。
本发明中所说明的技术以硬件、软件、固件或其任一组合的形式实施在数字视频解码设备中。如果实施在软件中,那么可在计算机中执行所述软件。所述软件起初可存储为指令、程序代码或类似物。因此,本发明也涵盖用于数字视频编码且包含计算机可读媒体的计算机程序产品,其中所述计算机可读媒体包含致使计算机执行根据本发明的技术的指令。
在附图及下文说明中将列举一个或一个以上实施例的细节。根据所述说明及图式以及权利要求书,将明了其它特征、目的及优点。
附图说明
图1是图解说明并入有配置用于解码器侧ROI处理的视频解码器的视频编码与解码系统的框图。
图2是图解说明在与无线通信装置相关联的显示器上呈现的视频场景中界定ROI的图表。
图3是更详细地图解说明图1的视频解码器的实例的框图。
图4是图解说明形成图3的视频解码器的一部分的解码器侧ROI模块的框图。
图5是图解说明基于色彩的ROI遮罩产生器的操作的流程图,所述ROI遮罩产生器形成图4的解码器侧ROI模块中的I数据ROI处理器的第一级。
图6是图解说明基于形状的ROI遮罩细化器的操作的流程图,所述ROI遮罩细化器形成图4的解码器侧ROI模块的I数据ROI处理器的第二级。
图7是图解说明基于CBP的ROI遮罩产生器的操作的流程图,所述ROI遮罩产生器形成图4的解码器侧ROI模块的P(或B)数据ROI处理器的第一级。
图8是图解说明基于运动及色彩的ROI遮罩细化器的操作的流程图,所述ROI遮罩细化器形成图4的解码器侧ROI模块的P(或B)数据ROI处理器的第二级。
图9是图解说明视频帧中的ROI的实例性宏块(MB)映射图的图表。
图10是图解说明P帧中的ROI的清晰度的图表。
图11A及11B是图解说明第一视频场景及CBP值与所述视频场景中的近似ROI的相关性的图表。
图12A及12B是图解说明第二视频场景及CBP值与所述第二视频场景中的近似ROI的相关性的图表。
图13A及13B是图解说明第三视频场景及CBP值与所述第三视频场景中的近似ROI的相关性的图表。
图14A、14B及14C是图解说明视频帧的ROI中MB上以运动向量(MV)均匀性衡量的运动向量一致性的图表。
图15是图解说明有选择地启动图1的视频解码器中的辅助ROI抽取或解码器侧ROI吸取的流程图。
图16是图解说明应用ROI可靠性分析及有选择地应用基于位流及像素域ROI抽取的流程图。
图17是图解说明针对I数据及P(或B)数据应用分级式ROI抽取技术的流程图。
具体实施方式
本发明涉及用于解码器侧关注区(ROI)视频处理的技术。视频解码器可经配置以(例如)通过检测经编码位流中的信号或代码、检测经编码位流的特性或检测带外侧信息来确定ROI辅助信息是否可用。一般来说,所述ROI辅助信息可包括任何添加到所述经编码视频位流或作为侧信息发送以辅助解码器识别ROI的信息。作为实例,ROI辅助信息可包括例如通过以下方式来识别ROI的ROI映射图:将视频帧中的块(例如宏块(MB)标记为ROI或非ROI块。作为替代方案,所述辅助信息可包括识别ROI中的色度值范围的色度阈值信息。所述ROI辅助信息可由编码器提供。或者,所述ROI辅助信息可由一个或一个以上位于编码器与解码器之间的中间装置(例如位于网络内或耦合到所述网络的网络装置)提供。
如果ROI辅助可用,那么所述视频解码器可使用辅助ROI处理技术来确定ROI并对视频帧的ROI及/或非ROI区域应用优先解码、后处理及/或错误隐蔽。如果ROI辅助不可用,那么所述视频解码器可默认为解码器侧ROI处理技术。在本发明中,通常可将解码、后处理及/或错误隐蔽称作处理。本发明中所用术语“优先”通常可是指相对于其它未经受优先处理的区域的正常处理得到增强、提高或另外改进的解码、后处理及/或错误隐蔽的质量及/或数量。一般来说,可制定优先处理以增强其所应用到的区域的视觉质量,且可对视频帧的ROI或非ROI区域应用所述优先处理。
所述解码器侧ROI处理技术可应用估计位流ROI抽取的可靠性的可靠性分析。如果ROI可靠性有利,那么所述解码器可在视频帧解码之前应用位流域ROI抽取过程。如果ROI可靠性不利,那么所述解码器可在视频帧解码之后应用像素域ROI抽取过程。在任一情况下,均可对所得ROI及/或所得非ROI应用优先解码、后处理及/或错误隐蔽。位流域ROI抽取可指使用可在经编码视频位流中获得的数据(包括但不限于经编码块图案(CBP)值、运动向量(MV)、色度值或类似数据)的ROI抽取。经编码块图案(CBP)指示宏块内哪些块含有编码非零系数。像素域ROI抽取可指使用可在解码并重构经编码视频位流之后获得的像素域数据(包括像素强度及色彩值)的ROI抽取。
对于压缩域ROI抽取,所述视频解码器可应用产生粗ROI的第一级。第二级细化来自第一级的粗ROI以产生细ROI。所述视频解码器可针对包括帧内编码(I)或帧间编码(P或B)的数据的帧中的ROI抽取应用不同的过程。P帧是指单向预测性帧,而B帧是指双向预测性帧。P或B数据是指帧间编码的帧或帧间编码的帧中的数据。I数据是指帧内编码的帧或帧内编码的帧中的数据。
所述视频解码器可针对帧内编码的数据使用基于色彩的ROI遮罩产生器,并针对帧间编码的数据使用基于经编码块图案(CBP)的ROI遮罩产生器。如果帧包括帧内MB,那么可将所述帧分类为I帧,而如果帧包括占主要的帧间MB,那么可将所述帧分类为P帧。在某些情况下,可对包括帧间编码的数据及帧内编码的数据两者的共用帧内的不同组MB应用基于色彩的ROI遮罩产生器及基于CBP的ROI遮罩产生器。
所述视频解码器可应用优先解码、后处理及/或错误隐蔽以增强所得ROI及/或ROI的质量。举例来说,所述视频解码器可应用优先解码、后处理及/或错误隐蔽以增强ROI的视觉质量。或者,或另外,所述视频解码器可应用优先解码、后处理及/或错误隐蔽以增强非ROI区域的视觉质量。作为实例,所述编码器或某一中间装置可能已对ROI区域应用优先编码。因此,鉴于所述ROI区域可能已被编码具有更高的质量,所述解码器可应用额外处理能力来为未受益于解码器侧的优先处理的非ROI区域提供优先解码、后处理及/或错误隐蔽。
在某些方面中,除有助于ROI识别的信息以外,ROI辅助信息还可包括指示所述编码器或某一中间装置是否已对ROI应用优先编码或其它处理的信息。此信息可由解码器用来决定是否对视频帧的ROI或非ROI区域应用优先处理。因此,所述解码器可另外经配置以分析ROI辅助信息以确定是否应对视频帧的ROI或非ROI区域应用优先处理。
图1是图解说明包括源装置12及目的地装置14的视频编码与解码系统10的框图。源装置12经由通信信道16将经编码视频传输到目的地装置14。源装置包括视频编码器18及传输器(TX)20。目的地装置14包括接收器(RX)22及由ROI启用的视频解码器24。通信信道16可以是有线或无线通信媒体。系统10(例如)针对视频电话可经由信道16来支持双向多媒体通信。或者,系统10可经配置以用于朝一个方向(例如,从源装置12到目的地装置14)的多媒体流式传输或广播。在某些方面中,可(例如)在与信道16相关联的网络中提供一个或一个以上中间装置以对由视频编码器18产生的视频帧应用ROI分析或其它视频处理。
将出于图解说明的目的说明从源装置12到目的地装置14的多媒体内容传输,且其可适用于单向或双向多媒体内容通信。对于双向通信,可在信道16的相对端上提供互逆编码、解码、多路复用(MUX)及多路分用(DEMUX)组件。特定来说,源装置12及目的地装置14各自可包括用于双向多媒体通信的(例如)布置为组合式CODEC的编码器及解码器。在此情况下,源装置12及目的地装置14可以是为视频电话以及语音电话所装备的移动无线终端。
对于单向通信,源装置12可形成向一个或一个以上订户装置广播或流式传输视频的多媒体广播装置的一部分。在此情况下,目的地装置14可体现在视频通信装置(例如经装备以用于接收多媒体广播以及支持视频电话的移动无线终端)内。由ROI启用的视频解码器24可适用于作为单向或双向通信的一部分对从源装置12接收的视频进行ROI识别。在每一情况下,由目的地装置14接收的视频可包括可能需要对其进行优先处理以增强视觉质量的ROI。
系统10可根据会话起始协议(SIP)、ITU H.323标准、ITU H.324标准或其它标准来支持视频电话或视频流式传输。视频解码器18根据视频压缩标准(例如MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264及其配对物ISO/IEC MPEG-4的第10部分,即先进视频编码)来产生经编码视频数据。尽管图1中未显示,但视频编码器18及视频解码器24可分别与音频编码器及解码器集成,且包括适当的MUX-DEMUX单元或其它硬件及软件以处置对共用数据流或单独数据流中的音频及视频两者的编码。如果适当,MUX-DEMUX单元可符合ITU H.223多路复用器协议或例如用户数据报协议(UDP)等其它协议。
在某些方面中,本发明涵盖应用于增强型H.264视频编码以在陆地移动多媒体多播(TM3)系统中使用唯正向链路(FLO)空中接口规范来输送实时视频服务,“用于陆地移动多媒体多播的唯正向链路空中接口规范”将公布为技术标准TIA-1099(“FLO规范”)。所述FLO规范包括定义位流语法及语义的实例及适用于经由FLO空中接口输送服务的解码过程。然而,本发明中所说明的ROI技术并非局限于任一特定类型的广播、多播或点对点系统。
视频编码器18及由ROI启用的视频解码器24各自可实施为一个或一个以上处理器、数字信号处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。视频编码器18及视频解码器24中的每一者均可包括在一个或一个以上编码器或解码器中,其中任一者均可作为组合式编码器/解码器(CODEC)的一部分集成在相应订户装置、广播装置、服务器或类似装置中。另外,传输器20及接收器22可各自包括用于传输并接收经编码视频的适当调制、解调制、变频、滤波及放大器组件,如果适用,包括射频(RF)无线组件及天线。然而,为便于图解说明,所述组件未显示于图1中。
如本文中所说明,系统10可经配置以支持ROI编码技术。举例来说,源装置12中的视频编码器18可经配置以识别视频帧中的ROI且包括关于经编码视频帧的ROI辅助信息以辅助视频解码器24识别所述ROI。所述ROI辅助信息可嵌入在经编码视频帧位流中,或作为带外侧信息提供。所述ROI辅助信息可由编码器18或由位于通过其源装置12与目的地装置15进行通信的网络内或耦合到所述网络的中间装置产生。所述中间装置可经配置以(举例来说)使用各种技术(包括位流域ROI抽取或像素域ROI抽取)来识别所述ROI。中间装置可具有比源装置12更大的处理能力,从而能够应用任何一种或各种有效的ROI检测技术。
作为实例,视频编码器18或中间装置可经配置以产生ROI映射图,所述ROI映射图(例如)基于用户对ROI的明确指定或使用例如肤色检测等技术的自动化ROI检测来指定视频帧中驻存在所述ROI内的块。ROI辅助信息的另一实例是色度阈值信息,其指示对应于ROI的色度值(例如对应于肤色的色度值)范围。同样,此信息可驻存在经编码视频位流内或作为带外侧信息与所述经编码视频位流分开传输。
在识别所述ROI的上下文中,术语抽取、检测及识别通常可交换使用。ROI映射图可通过以分别指定ROI及非ROI块的1或0识别个别区域(例如宏块(MB))来形成。宏块(MB)是形成帧的一部分的视频块。MB的大小可以是16x16个像素。然而,也可以是其它子块大小。举例来说,H.264标准准许使用各种不同大小(例如16x16、16x8、8x16、8x8、4x4、8x4及4x8)对块进行编码。本文将出于图解说明的目的说明宏块,其中了解宏块或其它视频块可具有各种不同大小。
使用指示驻存在所接收视频帧中的ROI内的经编码视频数据的部分的ROI映射图或其它信息,视频编码器18或中间装置可支持由ROI启用的视频解码器24进行的编码器辅助ROI检测。或者,由ROI启用的视频解码器24可应用解码器侧ROI检测而无需视频编码器18或任何中间装置的辅助。因此,解码器24可在经编码视频数据包括用以辅助ROI识别的信息的情况下应用第一过程以在所述经编码视频数据中识别关注区(ROI),并在所述经编码视频数据不包括用以辅助ROI识别的信息的情况下应用第二过程以在所述经编码视频数据中识别所述ROI。
在每一情况下,一旦在所述解码器侧检测到所述ROI,那么视频解码器24可应用优先解码、后处理及/或错误隐蔽以增强所述ROI或非ROI的视觉质量,或者可对所述ROI或非ROI应用不同等级的所述优先处理。为确定ROI辅助是否可用,视频解码器24可检测经编码位流中的信号或代码或检测所述经编码位流的特性。因此,视频编码器18或中间装置可在所述经编码位流中包括信号或代码以指示ROI辅助的可用性。在某些情况下,所述经编码位流中存在ROI映射图或其它ROI辅助信息可充当所述信号或代码以指示ROI辅助。或者,视频编码器18或中间装置可提供指示所述视频位流中存在ROI辅助信息的带外信号,或作为带外侧信息提供所述带外信号及所述ROI辅助信息。举例来说,所述信息可提供在与所述视频帧一同传输的管理标头或帧中。
如果ROI辅助不可用,那么视频解码器24应用解码器侧ROI处理技术。视频解码器24可应用可靠性分析来确定是否在所述位流域或所述重构像素域中应用ROI处理。如果发现在所述位流域中所抽取的ROI的可靠性可能不利,那么解码器24可在视频帧解码之后应用像素域ROI抽取过程。如果发现其可能可靠,那么解码器24选择压缩域ROI抽取。所述可靠性分析可涉及使用位流域分析来分析所述经编码视频数据的一个或一个以上特性以确定ROI识别的可靠性。如将说明,举例来说,解码器24所应用的可靠性分析可依赖于对接受评价视频帧的量化参数(QP)值的分析。更特定来说,解码器24所应用的可靠性分析可分析所述帧中所述经编码视频数据的亮度及色度分量的平均QP值,且在所述平均QP值超过阈值时指示不可接受的可靠性。
如果可靠性不利,那么解码器24可在视频帧解码之后应用像素域ROI抽取过程。解码器侧的重构像素域中的ROI抽取有效,但对于具有低功率消耗限制的实时应用(例如移动无线通信装置内的应用)可能并不是所期望的。因此,如果所述位流中的ROI抽取可能可靠,那么通常将更期望基于位流的ROI抽取。特定来说,与在所述重构像素域中相比,所述位流域中的ROI抽取可呈现减小的计算复杂性及功率消耗。然而,位流域ROI抽取的准确性可受用于产生所述位流的视频编码器的特性影响。
因此,系统10可实施强健性ROI抽取技术,所述技术能够在位流域ROI抽取可能因所述经编码视频数据的特性而不可靠时从位流域ROI抽取转换到像素域ROI抽取。另外,在某些方面中,系统10可在其可自动识别并调适到其中ROI辅助信息可用的情形的意义上是智能的。如果ROI辅助信息可用,那么解码器24可使用所述辅助信息来识别所述ROI。如果所述ROI辅助信息不可用,那么解码器24可默认到如上文所述基于预测的位流域ROI抽取可靠性应用于所述位流域或所述重构像素域中的解码器侧ROI抽取技术。
如果所估计的可靠性可接受,那么视频解码器24应用位流域ROI抽取过程,所述过程包括两个不同路径,一个用于帧内编码(I)的数据且另一个用于帧间编码(P或B)的数据。一个路径可处置I帧及在某些情况下来自P帧的帧内编码的MB。另一个路径处置P帧及在某些情况下P帧中的帧间编码的MB,包括帧内MB及帧间MB。另外,每一路径可包括两个级,第一级(粗ROI估计级)及细化来自第一级的粗ROI以产生细ROI的第二级(细ROI估计级)。针对例如I帧或P帧中的帧内编码的数据,视频解码器24可使用基于色彩的ROI遮罩产生器来识别粗ROI,并随后基于所述经编码视频数据的形状特性来细化所述粗ROI。针对例如P或B帧中的帧间编码的数据,视频解码器24可基于所述经编码视频数据的经编码块图案(CBP)特性来识别粗ROI,并随后基于所述经编码视频数据的运动及色彩特性来细化所述粗ROI。一旦得到辅助或解码器侧识别出ROI,那么解码器24可应用优先解码、后处理及/或错误隐蔽(其统称为优先处理)以增强所得ROI或非ROI区域的质量。
图2是图解说明在与无线通信装置34相关联的显示器32上呈现的视频场景30中ROI 28的清晰度的图表。在图2的实例中,ROI 28被描绘为具有与对象(例如人类头部36或脸部)大致一致的圆形或不规则形状的非矩形ROI。或者,可提供矩形ROI。在任一情况下,均可在有或没有ROI辅助的情况下在源装置12处(例如,在编码器18中)检测或以其它方式识别ROI 28,在中间装置中(例如,在所述网络中)检测ROI28,或在目的地装置14处(例如,在解码器24中)自动检测ROI 28。
如果源装置12经配置以提供ROI辅助,那么源装置12可基于来自用户的ROI输入手动地、使用自动化识别技术自动地或使用手动与自动ROI识别的组合来界定ROI28。ROI 28可包含视频场景30的含有头部36或脸部的一部分。然而,可使用ROI 28来规定除脸部以外的对象。ROI 28的大小及位置可固定或可调整,且可以各种方式来界定、描述或调整。ROI 28准许优先处理增强所传输视频场景30内个别对象的视觉质量。以此方式,ROI 28准许视频接收者更清楚地观看所接收视频场景30内的所需对象。举例来说,编码器18可对ROI应用优先编码以增强视觉质量,或解码器24可对ROI或非ROI应用优先处理以增强视觉质量。
在某些情况下,如果编码器18识别出ROI 28,那么所述编码器可将所述ROI编码具有相对于例如视频场景30的背景区等非ROI区域更高的图像质量。以此方式,与目的地装置14相关联的用户能够更清楚地观看由编码器18所编码视频内的脸部表情、嘴唇移动、眼睛移动及诸如此类。或者,或另外,目的地装置14中的解码器24可应用优先解码、后处理及/或错误隐蔽以增强ROI 28或未驻存在所述ROI内的区域的视觉质量。举例来说,视频解码器24可应用优先解码、后处理及/或错误隐蔽以增强所述非ROI区域的视觉质量。作为实例,编码器18或某一中间装置可能已对所述ROI区域应用优先编码。因此,鉴于可能已经将ROI 28编码具有更高质量,解码器24可应用额外处理能力以为未受益于编码器侧的优先处理的非ROI区域提供优先解码、后处理及/或错误隐蔽。在任一情况下,解码器24均可在有或没有来自由编码器18或中间装置提供的ROI辅助信息的辅助的情况下识别出ROI 28。因此,解码器24可在各种不同背景中的任何一种背景下应用优先处理。使用ROI MB映射图,举例来说,出于优先解码、后处理及/或错误隐蔽的目的,解码器24可将ROI MB与非ROI MB区分开来。
作为第一替代方案,编码器18可识别并优先编码ROI 28并向解码器24传递用于辅助检测所述ROI的信息以应用优先解码、后处理及/或错误隐蔽。作为第二替代方案,编码器18可识别ROI 28并向解码器24传递用于辅助检测所述ROI的信息但不优先编码所述ROI。作为第三替代方案,编码器18可识别并优先编码ROI 28但不向解码器24传递用以辅助ROI检测的信息。作为第四替代方案,编码器18可不识别ROI,且因此不提供优先编码或用以辅助ROI检测的信息。作为第五替代方案,编码器18可识别ROI 28,并向解码器24传递ROI辅助信息,但不对所述ROI应用优先编码。作为第六替代方案,位于源装置12与目的地装置14之间的中间装置(例如在网络中)可识别所述ROI并向解码器24传递ROI辅助信息。在某些实例中,解码器24可采用来自编码器18或中间装置的ROI辅助信息来检测ROI 28。在其它实例中,解码器24在没有任何来自编码器18或任一中间装置的辅助的情况下检测ROI 28。
如上文所提及,ROI 28可用来规定除头部36或脸部以外的对象。大体来说,视频电话(VT)应用中的ROI可十分主观,并可因用户不同而不同。所需ROI也取决于如何使用VT。在某些情况下,与视频会议不同,VT可用来观看并估计对象。举例来说,用户可能想要聚焦在白板的含有方程序或图式的区段上,而不是演讲者的脸部,尤其是当演讲者背对相机并面向白板时。在某些情况下,视频场景可包括两个或两个以上针对优化编码指定的ROI。为适应此类情况,在某些方面中,解码器24可经配置以(例如)响应于指示所述ROI是人或物体(例如白板的一部分)的用户输入而调适到不同背景。
图3是更详细地图解说明图1的由ROI启用的视频解码器24的实例的框图。如图3中所示,解码器24包括经由信道16从源装置12接收经编码视频数据的接收器22。在图3的实例中,由ROI启用的视频解码器24包括ROI辅助检测器模块40、辅助ROI模块42、解码器侧ROI模块44、解码引擎46及后处理器48。以模块形式描绘不同的特征旨在突出解码器24的不同功能方面且未必暗示必须通过单独硬件及/或软件组件来实现此类模块。而是,可将与一个或一个以上模块相关联的功能性集成到共用或单独硬件及/或软件组件中。
ROI辅助检测器模块40确定从源装置12或中间装置接收的经编码视频数据或侧信息是否包括用以辅助ROI识别的信息。举例来说,ROI辅助检测器模块40可检测ROI映射图或包括在给定视频帧或视频帧序列的位流中的信号或代码的存在。如果经编码视频数据或侧信息包括用以辅助ROI识别的信息,那么由ROI启用的视频检测器24应用第一过程以在所述经编码视频数据中识别关注区(ROI)。用以辅助ROI识别的信息可包括识别所述经编码视频数据的驻存在所述ROI内的部分的信息,可指示是否已对所述ROI应用优先编码或其它优先处理。
第一过程可由辅助ROI模块42、解码引擎46及后处理器48执行。举例来说,辅助ROI模块42基于编码器18所提供的信息来识别所述ROI,例如,通过识别落在所述ROI内的块。然后,解码引擎46及后处理器48对由辅助ROI模块42所识别的ROI应用优先解码、后处理及/或错误隐蔽。举例来说,辅助ROI模块42可产生对应对其应用优先处理的块(例如,MB或子分区)的指示,并将所述指示传递到解码引擎46及后处理器48。显示器38将对由解码引擎46及后处理器48所产生的经解码视频数据的视觉表示呈现给目的地装置14的用户。
如果所述经编码视频数据不包括用以辅助ROI识别的信息,那么由ROI启用的视频解码器24应用第二过程来识别所述经编码视频数据中的ROI。第二过程可由解码器侧ROI模块44、解码引擎46及后处理器48执行。如将说明,解码器侧ROI模块44可分析所述经编码视频数据以在没有编码器18或中间装置的辅助的情况下自动识别ROI。在此意义上,解码器侧ROI模块44可被视为唯解码器ROI模块。解码器侧ROI模块44可使用所述经编码视频数据的位流域分析来分析所述经编码视频数据的一个或一个以上特性以确定ROI识别的可靠性。
作为例示,解码器侧ROI模块44可分析所述经编码视频数据的一个或一个以上量化参数(QP)值。基于对所述QP值的分析,解码器侧ROI模块44确定是否能够可靠地从所述经编码视频数据的位流域中抽取ROI。更特定来说,解码器侧ROI模块44可分析所述经编码视频数据的亮度及色度分量的平均QP值,并在所述平均QP值超过阈值时指示不可接受的可靠性。如果视频帧的平均亮度及色度QP值高,因此指示变换系数的量化较差且因此丢失重要信号信息(例如边缘),那么抽取准确ROI的可能性往往就低。当QP值高,且位流域中的ROI可靠性低时,建议在像素域而不是位流域中执行ROI检测。
为此,解码器侧ROI模块44可经配置以在可靠性可接受时应用位流域ROI检测而在可靠性不可接受时应用像素域ROI检测。当应用基于像素的ROI抽取时,解码器侧ROI模块44可与解码引擎46互动以便能够对经解码位流应用ROI抽取。当应用位流域ROI检测时,解码器侧ROI模块44可针对帧内及帧间编码的视频数据应用两个不同的ROI检测路径,如前文所提及。每一路径可包括两个分别产生粗及细ROI估计的不同级。解码器侧ROI模块44将每一视频帧或视频帧序列的细ROI指示传递给解码引擎46及后处理器48。使用所述ROI指示,解码引擎46及后处理器48对在视频数据中所识别的ROI应用优先解码、后处理及/或错误隐蔽。显示器38将对由解码引擎46及后处理器48所产生的经解码视频数据的视觉表示呈现给目的地装置14的用户。
如上所述,ROI辅助检测器模块40确定编码器18或中间装置是否在所述经编码视频位流中已包括用于辅助ROI抽取的任何信息,或任何带外侧信息。如果包括,那么ROI辅助检测器模块40确定用以辅助ROI识别的信息可用。作为一个实例,ROI辅助检测器模块40可分析所接收的视频位流以确定是否存在信号、代码或唯一图案。唯一图案可用来用信号通知编码器18或中间装置已在所述编码器侧执行ROI抽取。所述图案可经选择以使其不出现,或极少出现在实际经编码视频数据中。举例来说,1000100010001000的图案可嵌入于经编码视频位流中以指示信息可以用来辅助解码器24抽取ROI。
嵌入所述图案可使用例如说明于M.Wu、H.Yu及A.赫尔曼(A.Gelman)的“用于数字图像及视频的多层级数据隐蔽(Multi-level data hiding for digital image andvideo)”,SPIE,第3854卷,1999中的奇偶方法来进行。举例来说,所述数据可嵌入于经编码视频位流的非零经量化AC系数中。举例来说,如果将嵌入的位为“0”,那么将所述经量化AC系数改变为偶数;否则,将所述AC系数改变为奇数。通过查看经编码视频帧的前十六个AC系数,可解码所述既定信号。如果观察到图案1000100010001000,那么解码器24可推断编码器18已嵌入用以辅助解码器识别ROI的信息。如果检测到所述图案,那么解码器24处理所述视频位流以获得所述辅助信息。然而,如果所述位流中不存在图案,那么解码器24默认为解码器侧ROI方案。
解码器24可经配置以处置来自编码器18或中间装置的不同层级的ROI辅助信息。一旦ROI辅助检测器模块40已检测到辅助信号、代码或图案,那么所述ROI辅助检测器模块也可检测辅助模式,所述辅助模式可由经编码视频位流中的另一图案指示。举例来说,编码器18可按照色度阈值模式或完整的宏块(MB)层级映射图模式来提供ROI辅助信息。举例来说,如果编码器18执行基于感测器的ROI抽取,那么其可传输将被分类为ROI的色度值阈值范围。所述色度阈值范围可对应于与所述ROI相关的肤色值范围。在此情况下,ROI辅助检测器模块40基于所述位流中的图案来检测所述色度阈值模式,并指令辅助ROI模块42应用所述色度值阈值范围来识别所述ROI。
或者,编码器18或中间装置可发送完整的MB层级ROI映射图。在此情况下,针对视频帧中的每一MB,可在所述MB是所述ROI的一部分时将旗标设定至1,或否则在所述MB不是所述ROI的一部分时设定至0。此MB ROI映射图信息也可使用各种技术中的任何一种技术(例如上文所说明的奇偶方法)嵌入道所述数据流中。如果ROI辅助检测器模块40基于所述位流中的图案检测到所述MB层级映射图模式,那么其指令辅助ROI模块40使用所述MB ROI映射图信息来识别所述ROI。在任一情况(即,色度阈值模式或MB层级映射图模式)下,辅助ROI模块42产生ROI识别,所述ROI识别由解码引擎46及后处理器48用来对所述ROI应用优先解码、后处理及/或错误隐蔽。或者,如果ROI辅助检测器模块40未在所述经压缩视频位流中检测到编码器辅助信号,那么其确定用以辅助ROI识别的信息不可用。在此情况下,由ROI启用的视频解码器24默认为(例如)由解码器侧ROI模块44应用的解码器侧ROI抽取过程。
图4是图解说明形成图3的由ROI启用的视频解码器24的一部分的解码器侧ROI模块44的框图。在图4的实例中,解码器侧ROI模块44可包括ROI可靠性分析器51、帧类型检测器52、像素域ROI检测器53、P数据ROI处理器54、I数据ROI处理器56及基于决策融合的ROI映射图产生器66。P数据ROI处理器54可包括基于经编码块图案(CBP)的ROI遮罩产生器58及基于运动与色彩的ROI遮罩细化器60。同样,以模块形式说明不同的特征旨在突出解码器24的不同功能方面且未必暗示必须通过单独硬件及/或软件组件来实现此类模块。I数据ROI处理器56可包括基于色彩的ROI遮罩产生器62及基于形状的ROI遮罩细化器64。当位流域ROI检测的可靠性可接受时,解码器侧ROI模块44为解码引擎46及后处理器48提供ROI指示。或者,当位流域ROI检测的可靠性不可接受时,解码引擎46解码所述视频并在所述像素域中应用ROI检测。
一旦在所述经编码视频数据位流中接收到视频帧,那么ROI可靠性分析器51确定所述位流域中的ROI检测是否可能准确且因此可靠。基于对ROI可靠性的预分析,ROI可靠性分析器51能够引导所述解码器侧的位流域ROI抽取或重构像素域ROI抽取。如果ROI可靠性分析器51分析所述传入位流并发现所述ROI抽取可靠性相当高,那么可使用低复杂性压缩位流域ROI检测方法。由于复杂性较低,因此所述位流域中的ROI抽取是期望的。如果ROI可靠性分析器发现ROI抽取可靠性不高,那么使用复杂性较高的重构像素域ROI检测方法。对于ROI可靠性分析,ROI可靠性分析器可使用亮度与色度QP值的组合。举例来说,所述ROI抽取可靠性可使用所述视频帧的平均QP值来加以计算。
如果所述视频帧的平均亮度与色度QP过高(即,高于预定阈值),那么预期所述位流域中的ROI抽取较差。在此情况下,ROI可靠性分析器51指示不可靠的ROI抽取并引导像素域ROI检测器53抽取所述重构像素域中的ROI。如果所述视频帧的平均亮度与色度QP未超过所述预定阈值,那么预期所述位流域中的ROI抽取可接受。在此情况下,ROI可靠性分析器51指示可靠的ROI抽取并(例如)通过致使帧类型检测器52开始解码器侧ROI位流处理来引导位流域ROI抽取。
因此,ROI可靠性分析器51所应用的可靠性分析在一些其中所得ROI将有效的情形下准许复杂性较低的处理,但在其中所得ROI可能不太准确的情形下引导所述重构像素域中的复杂性较高的处理。在此实例中,所述平均QP值充当对将阻碍所述位流域ROI抽取的有效性的经编码视频内容的指示。基于ROI可靠性的位流或像素域中的调适性ROI检测可有效地平衡处理时间消耗与检测准确性的折衷,并动态地确定是否可在压缩域或像素域中可靠地执行所述检测。所述ROI可靠性分析只有在必须避免错误ROI抽取时才可产生附加像素域ROI抽取成本。
在图4的实例中,ROI可靠性分析器51驻存在解码侧ROI模块44内。作为替代方案,所述可靠性分析可由编码器18或中间装置执行。举例来说,可靠性指示可与经编码视频位流一同或作为带外侧信息由编码器18或中间装置传输。在任一情况下,解码器侧ROI模块44可使用所接收的可靠性信息来引导位流域ROI抽取或像素域ROI抽取。
如图4中进一步所示,如果ROI可靠性分析器51认为位流域中的ROI抽取可靠,那么帧类型检测器52确定应用两个处理路径中的哪一个处理路径。特定来说,帧类型检测器52在所述视频帧是帧内编码(I)帧时选择I数据ROI处理器56而在所述视频帧是帧间编码(P或B)帧时选择P数据ROI处理器54。然而,在许多情况下,P帧可包括帧间编码的MB及帧内编码的MB两者。如果P帧包括大量帧内编码的MB,那么帧类型检测器52可引导所述帧内编码的MB由I数据ROI处理器56处理且所述帧间编码的MB由P数据ROI处理器54处理。
举例来说,如果帧内编码的MB的数目超过预定阈值,那么可对P帧应用经由I数据ROI处理器56及P数据ROI处理器54两者的组合处理。在此情况下,基于决策融合的ROI映射图产生器66可组合由I数据ROI处理器56产生的关于帧内编码的MB的ROI映射图信息与由P数据ROI处理器54产生的关于帧间编码的MB的ROI映射图信息。然而,如果P帧不包括超过所述阈值的帧内编码的MB数目,那么所述P帧可仅由P数据ROI处理器54处理。
对于每一处理路径(I帧或P帧处理),解码器侧ROI模块44应用包括产生粗ROI的第一级及细化所述粗ROI以产生最终ROI的第二级的两级过程。所述处理路径对I帧及P帧不同地起作用。针对帧内编码的数据(例如I帧或来自具有大量帧内编码的MB的P帧的帧内编码的MB),I数据ROI处理器56应用基于色彩的ROI遮罩产生器62作为第一级并应用基于形状的ROI遮罩细化器64作为第二级。对于P帧或来自具有大量帧间编码的MB的P帧的帧间编码的MB,P数据ROI处理器54应用基于CBP的ROI遮罩产生器58及基于运动与色彩的ROI遮罩细化器60。I帧域及P帧域中的混合式两级ROI检测可具有可缩放性优点,例如,使用所述CBP信息来进行快速舍入检测。
出于处理帧内编码数据的目的,基于色彩的ROI遮罩产生器62分析所述位流域中的视频帧并产生指示所述ROI的粗ROI“遮罩”。基于色彩的ROI遮罩产生器62可经配置以基于所述视频帧的色度DC分量来识别ROI宏块(MB)。皮肤区的色度分量落在所述色空间中的良好界定的区内。此信息可用来产生阈值,所述阈值可应用于给定MB中的Cr(红色色度)及Cb(蓝色色度)块的DC值。如果给定MB中的Cr及Cb块的DC值落在给定肤色范围内,那么以“1”来标记所述MB以指示其是所述ROI的一部分。
举例来说,如果Cr DC值DC(Cr)落在低Cr肤色阈值Th_Cr_低与高Cr肤色阈值Th_Cr_高之间,且Cb DC值DC(Cb)落在低Cb肤色阈值Th_Cb_低与高Cb肤色阈值Th_Cb_高之间,表示如下:
Th_Cr_低<DC(Cr)<Th_Cr_高
Th_Cb_低<DC(Cb)<Th_Cb_高
那么(例如)以1而不是0来将所述MB标记为所述ROI的一部分。如果所述MB落在所述范围以外,那么可以0来标记所述MB以指示非ROI MB。此实例关于基于肤色范围及其它色彩范围分析的ROI检测。对于不同类型的ROI,例如白板区、移动对象或诸如此类,可应用ROI抽取的替代技术(包括,举例来说,替代色彩阈值)。
因此,在此实例中,基于色彩的ROI遮罩产生器62可产生为视频帧中的相应MB指派1及0的二进制ROI映射图。一旦获得了关于视频帧的二进制ROI映射图,那么基于色彩的ROI遮罩产生器62可识别具有以1标记的连续MB的丛集。基于色彩的ROI遮罩产生器62可使用形态运算符(例如闭合运算)来填充所述丛集。换句话说,如果相应丛集包括以0标记的MB,那么基于色彩的ROI遮罩产生器62可将0改变为1以便通常将所述丛集中的所有MB识别为在所述ROI内。所述丛集的结果是一组可在由基于形状的ROI遮罩细化器64提供的过程的第二级中加以细化的潜在ROI区。
图5是图解说明图4的基于色彩的ROI遮罩产生器62的实例性操作的流程图。如图5中所示,基于色彩的ROI遮罩产生器62应用如上文所说明的阈值比较(65)。特定来说,所述阈值比较确定给定MB的DC色度值(色度DC)是否落在由低色度值阈值Th_低与高色度值阈值Th_高界定的范围内。同样,如上所述,所述DC色度值比较可涉及对红色色度(Cr)及蓝色色度(Cb)的DC色度值的单独比较。
如果MB的可适用DC色度值落在所述可适用范围内,那么基于色彩的ROI遮罩产生器62断定所述MB是ROI MB并(例如)以“1”将所述MB标记为所述ROI的一部分(66)。如果所述比较显示所述MB的DC色度值不在所述可适用范围内,那么基于色彩的ROI遮罩产生器62(例如)以“0”将所述MB标记为非ROI(68)。可针对可适用视频帧中的每一MB来实施所述ROI标记过程,从而产生将MB识别为在所述ROI中或不在所述ROI中的ROI映射图。
一旦完成所述ROI标记过程(65、66、68),那么基于色彩的ROI遮罩产生器62找到连续的ROI区(70),例如位于其中连续MB被标记为ROI的视频帧内的区。所述连续区可包括某些未识别为ROI从而形成小空穴的MB。在此情况下,基于色彩的ROI遮罩产生器62使用例如闭合运算等形态运算符来填充所述空穴(72)。基于色彩的ROI遮罩产生器62可通过以下方式来填充所述空穴:(例如)通过将驻存在连续ROI区中的MB的非ROI“0”旗标改变为ROI“1”旗标来将所述ROI连续区中的非ROI MB的标记改变为ROI MB。然后,基于色彩的ROI遮罩产生器62将所得MB映射图或“遮罩”传递给I帧处理路径的下一级。
特定来说,进一步参照图4,基于色彩的ROI遮罩产生器62将所述ROI传递给基于形状的ROI遮罩细化器64,基于形状的ROI遮罩细化器64处理由基于色彩的ROI遮罩产生器62所界定的粗ROI以产生细ROI映射图。图6是图解说明基于形状的ROI遮罩细化器64的实例性操作的流程图,基于形状的ROI遮罩细化器64形成图4的解码器侧ROI模块44的I数据ROI处理器56的第二级。基于形状的ROI遮罩细化器64使用形状限制来细化在第一级中所获得的粗ROI映射图。形状限制可聚焦于所述粗ROI区的外围周围的边缘(例如,亮度及色度边缘两者)与非平滑内部的组合。可根据所需ROI区的预期形状来修改这些限制。如果所述ROI是脸部区,那么所述脸部区通常具有明显的边界,所述边界可容易通过分析识别为具有所述ROI的MB丛集(即,粗ROI MB丛集)的外围周围的亮度及色度边缘来加以识别。
可使用各种边缘检测技术中的任一种技术来执行脸部区的识别。举例来说,合适的边缘检测技术说明于B沈(B Shen)、IK赛思(IK Sethi)的“从经压缩图像的直接特征抽取(Direct feature extraction from compressed images)”,SPIE的学报1996,1996年3月,第404-414页及张文银(Wenyin Zhang)、唐建国(Jianguo Tang)及李超(ChaoLi)的“用于图像检索的图像显著点的抽取(The Extraction of Image′s Salient Points forImage Retrieval)”,模糊系统和知识发现2005,LNAI 3613,第547-556页,2005年中。或者,如果其具有多于所规定数目的高频率纹理系数,可使用使粗ROI MB丛集的边缘与块相关联的启发式技术来执行面部区的识别。除边缘以外,预期面部具有导致内部不平滑的眼睛、鼻子及其它特征,此与因色彩可被检测为ROI的一片木材相反。因此,可通过将丛集中具有高频系数的MB的数目与阈值进行比较来施加非平滑内部限制。
如图6中所示,在一个实例中,基于形状的ROI遮罩细化器64可确定粗ROI MB丛集中具有高频系数的内部MB的百分比(75)。此百分比可表达为αint。另外,基于形状的ROI遮罩细化器64可确定具有亮度与色度边缘的外围MB的百分比(76)。此百分比可表达为αper。如果内部百分比αint大于可适用阈值Th_int,且外围百分比αper大于可适用阈值Th_per(78),那么基于形状的ROI遮罩细化器64将所述可适用丛集标示为ROI丛集(80)。如果所述百分比中的一者或两者不超过所述相关阈值(78、80),那么基于形状的ROI遮罩细化器64将所述可适用丛集标示为非ROI丛集(82)。
基于形状的ROI遮罩细化器64对所述视频帧中的每一粗ROI MB丛集应用图6中所图解说明的过程且由此细化由基于色彩的ROI遮罩产生器62所产生的ROI映射图以产生细ROI映射图。然后,基于形状的ROI遮罩细化器64将所述细ROI映射图传递给基于决策融合的ROI映射图产生器66(图4)以产生供解码引擎46及后处理器46用来应用优先解码、后处理及/或错误隐蔽的最终ROI映射图。基于决策融合的ROI映射图产生器66接收由I数据ROI处理器56所产生的ROI映射图或由P数据ROI处理器54所产生的ROI映射图并依据所述当前帧是I帧还是是P帧来输出适当的ROI映射图。所得ROI映射图可仅仅是具有ROI及非ROI旗标(例如1及0)的另一MB映射图。或者,所述ROI映射图可具有其它格式。
在某些情况下,决策融合可经配置以处置经由P数据ROI处理器54对视频帧中某些MB的处理及经由I数据ROI处理器56对同一视频帧中其它MB的处理。举例来说,除占主要的帧间编码的MB以外,某些P帧还可具有大量帧内编码的MB。在此情况下,帧类型检测器52可经配置以确定P帧是否具有多于阈值层级的帧内编码的MB。如果是,给定帧的帧内编码的MB可经由I数据ROI处理器56来传递且同一帧的帧间编码的MB可经由P数据ROI处理器54来传递。然后,基于决策融合的ROI映射图产生器66可使用从两个处理路径(即,P数据ROI处理器54及I数据ROI处理器56)获得的ROI信息来构成组合ROI映射图。特定来说,由基于决策融合的ROI映射图产生器所产生的组合映射图可包括针对给定帧由I数据ROI处理器56应用到帧内编码的MB的标记及由P数据ROI处理器54应用到帧间编码的MB的ROI标记。
进一步参照图4,如果帧检测器52指示所述当前帧是P帧,那么P数据ROI处理器54产生所述视频帧的粗及细ROI映射图。基于CBP的ROI遮罩产生器58分析与所述视频帧相关联的经编码块图案(CBP)以识别粗ROI。然后,基于运动与色彩的ROI遮罩细化器60应用运动与色彩限制以细化所述基于粗CBP的ROI映射图。因此,P数据ROI处理器54提供用于产生ROI映射图的单独路径,而基于CBP的ROI遮罩产生器58及基于运动与色彩的ROI遮罩细化器60分别提供所述路径的第一及第二级。
对于基于CBP的ROI遮罩产生,可假设编码器18提供合理的运动估计性能。以此方式,可假设运动向量至少具有可接受的准确度。对于当前先进视频CODEC(例如与ITU H.264标准一致的CODEC),使此假设成为可能,因为当前先进视频CODEC支持半个像素或甚至四分之一像素层级的运动估计。另外,在头与肩ROI视频应用(例如视频电话)中,所述ROI通常包含移动的头部。在此背景下,脸部表情的改变可由编码器18所编码的CBP值有效地捕捉。因此,可对所述MB的CBP施加限制以确定帧的已改变且因此具有一定重要性的区域。换句话说,如果所述CBP指示MB的显著变化,那么基于CBP的ROI遮罩产生器58将所述MB识别为所述ROI的一部分,但前提是此类改变可能是因改变脸部表情或头移动所致。其它未经编码或经最低限度地编码的MB不含有与所述先前帧相比新得多的信息且在进行ROI计算时不需要加以考虑。
对于所述帧中的每一MB,CBP涉及4个亮度块以及所述Cr及Cb块。如果所述亮度(Y)块中的两者或两者以上经编码,那么基于CBP的ROI遮罩产生器58考虑将被编码的MB的亮度,如下表1中所指示。可使用表1中所示的方案来排定CBP的等级。使用所述等级排定方案,基于CBP的ROI遮罩产生器58形成由帧中具有与最高的两个等级层级一致的CBP的MB构成的ROI丛集,但条件是所述丛集因其包括多于最小数目的MB而显著。按照表1,如果MB的两个或两个以上亮度块经编码,且所述两个色度块(Cb或Cr)经编码,那么所述MB具有为1的等级。如果两个或两个以上亮度块经编码,且所述色度块中的至少一者经编码,那么所述MB具有为2的等级。
只将给定帧内具有所述两个最高等级的MB视为ROI MB。举例来说,如果所述帧中的MB的所述两个最高CBP等级是1及2,那么MB必须具有将被指定为ROI MB的等级为1或2的CBP。作为另一实例,如果给定帧中的MB的所述两个最高CBP等级是2及3,那么MB必须具有将被指定为ROI MB的等级为2或3的CBP。另外,如上文所提及,在任何等级中仅考虑显著丛集。然后,可使用形态运算符来封闭空穴从而处理这些丛集。以“1”来标记所述丛集中的MB以指示其是初始粗ROI的一部分。以“0”来标记所述特定帧中其它(例如)具有低于所述两个最高等级的等级的MB以指示非ROI MB。
表1-CBP表
  Y(针对2个或2个以上块编码的亮度)   Cb   Cr   等级
  1   1   1   1   1
  2   1   1   0   2
  3   1   0   1   2
  4   1   0   0   3
  5   0   1   1   4
  6   0   1   0   5
  7   0   0   1   5
  8   0   0   0   6
图7是图解说明图4的基于CBP的ROI遮罩产生器58的操作的流程图。如图7中所示,基于CBP的ROI遮罩产生器58根据表1中的方案来关联给定MB的CBP等级(81)。逐帧考虑并追踪所述给定帧中的所述两个最高等级(83)。举例来说,如果存在具有等级为2、3及4的MB的显著丛集,那么将具有最高两个等级(2及3)的丛集指定为ROI丛集。因此,使MB获得ROI资格的最高的两个等级不必总是等级1及2。而是,最高的两个等级可根据内容逐帧而异。而且,考虑显著的MB丛集以指定所述两个最高等级。举例来说,如果帧仅包括少量具有等级1的MB(即无丛集或不显著的丛集),那么不会宣称最高等级为1。而是,在此实例中,若干MB必须具有给定等级以便出于设定给定帧的最高两个等级的目的而加以考虑。
如果MB具有最高两个CBP等级中的一者(84),那么CBP-遮罩产生器58(例如)以“1”来将所述MB标记为ROI MB。如果MB具有低于最高两个等级的CBP,那么(例如)以“0”旗标来将所述MB标记为非ROI(86)。基于CBP的ROI遮罩产生器58继续基于与所述帧的最高两个CBP等级有关的MB的可适用CBP来将所述视频帧中所述MB中的每一者标记为ROI或非ROI。在标记所有MB之后,基于CBP的ROI遮罩产生器58找到连续的ROI区(即,其中将连续MB标记为ROI MB的区),并使用例如闭合函数等形态运算符来填充所述连续区中的任何空穴(90)。这时,基于CBP的ROI遮罩产生器58将所得粗ROI映射图传递给基于运动与色彩的ROI遮罩细化器60供进一步细化。
基于运动与色彩的ROI遮罩细化器60可使用DC色度值及运动向量一致性来细化来自基于CBP的遮罩产生器58的ROI。举例来说,使用来自先前帧的经运动补偿的DC色度值,基于运动与色彩的遮罩细化器60可搜索具有与规定肤色范围相匹配的色彩的MB。另外,合理地假设人类脸部区中的大多数MB将经历类似运动,因为其已由3D刚体经由空间的运动产生。所述运动大约朝相同的方向或达到相同的程度,因为在旋转运动情况下,运动向量量值可不同,但角度类似。特殊情况是嘴部区及眼睛或其它脸部特征周围。然而,ROI遮罩细化器60可评价大多数块的运动一致性并确保其相似。
举例来说,ROI遮罩细化器60可计算粗ROI MB丛集中的运动向量的角度及量值的标准偏差并确保其比平均值小。在一个实例中,此运算可通过以下方式来表示:检验所述运动向量角度的标准偏差σ角度与所述运动向量角度的平均值μ角度的比小于0.2,或所述运动向量量值的标准偏差σmag与所述运动向量量值的平均值μmag的比小于0.2,例如,表示如下:
角度:/μ角度:<0.2]
量值;/μ量值;<0.2]
使用所述DC色度值及运动向量(MV)一致性,ROI遮罩细化器60确定是否在所述细MB ROI中保持粗MB,或将所述MB的状态改变为非ROI。
图8是图解说明基于运动与色彩的ROI遮罩细化器60的操作的流程图。如图8中所示,ROI遮罩细化器60可经配置以确定丛集中具有处于范围内(即,在低阈值Th_低与高阈值Th_高之间)的DC色度值的MB的百分比(β_色彩)(94)。另外,ROI遮罩细化器60可经配置以确定具有处于范围内的MV一致性(例如,其中所述运动向量角度的标准偏差σ角度与所述运动向量角度的平均值μ角度的比小于0.2)的MB的百分比(β_角度)(96)。如果β_色彩大于可适用DC色度值阈值(Th_色彩)且β_角度大于可适用MV一致性(Th_角度),那么ROI遮罩细化器60确认应将所述丛集标示为ROI(100)。如果不是,那么ROI遮罩细化器60将所述丛集重新标示为非ROI(102)。
ROI遮罩细化器60对已被标示为所述视频帧中的粗ROI丛集的每一丛集执行此过程。结果得到识别落在所述ROI内的MB丛集的细ROI映射图。基于运动与色彩的ROI遮罩细化器60将经细化的ROI映射图传递给基于决策融合的ROI映射图产生器66,基于决策融合的ROI映射图产生器66产生最终ROI映射图以供解码引擎46及后处理器48使用。特定来说,解码引擎46及后处理器48可对由所述ROI映射图所识别的ROI MB应用优先解码、后处理及/或错误隐蔽以改善与非ROI MB相关的视觉质量。
参照图4,如果ROI可靠性分析器51指示位流域中的ROI抽取可能可靠,那么P数据ROI处理器54及I数据ROI处理器56处理视频帧以检测所述ROI并制定ROI映射图。然而,如果所述位流域中的ROI抽取不可能可靠,那么像素域ROI检测器53在所述像素域中执行ROI抽取。举例来说,像素域ROI检测器53可与解码引擎46互动以接收经解码的像素域视频数据。解码引擎46对经编码视频位流执行解码并产生供像素域ROI检测器53使用的像素域数据。
像素域ROI检测器53可应用肤色检测或其它技术以使用从解码引擎46获得的像素数据来识别所述ROI。另外,像素域ROI检测器53可应用基于形状的运算来细化或检验初始的基于肤色的ROI映射图。后处理器48从ROI检测器53接收像素域ROI映射图,并使用所述映射图来应用优先后处理及/或错误隐蔽。因此,当需要进行像素域ROI分析时,解码经编码视频以产生像素域数据。因此,当需要对视频帧进行像素域ROI检测时,不可能提供优先解码。然而,仍可通过后处理、错误隐蔽或两者来获得优点。
像素域ROI检测器53可应用各种像素域ROI检测技术中的任一种技术。一般来说,像素域ROI检测在计算上比位流域ROI检测更密集,且增加功率消耗。因此,从复杂性及功率消耗观点出发,更期望位流ROI检测。然而,当位流域ROI检测不可能产生可接受的结果时,ROI可靠性分析器51致使解码器24从位流域ROI检测切换到像素域ROI检测。以此方式,ROI可靠性分析器平衡计算开销及功率消耗相对于视觉质量的关系。
图9是图解说明视频帧中的ROI的实例性宏块(MB)映射图的图表。在图9的实例中,ROI 104与人类脸部106相关联且包括至少部分地与所述脸部的一部分重叠的连续MB组群。同样,其它对象或多个对象(包括多张人脸)可以是所述ROI的主题。然而,对于其中涉及人类互动的VT及其它应用,将人类脸部106检测为所述ROI将是最普遍的。例如以“1”来将由ROI 104所界定的边界内的MB标记为ROI MB。所述个别MB由图9中的栅格线所界定的块识别。通过将所述MB标记为ROI或非ROIMB,可对所述ROI MB应用优先解码、后处理及/或错误隐蔽以增强视觉质量。以此方式,观看者更能够观察到所述ROI的脸部表情或其它特性。
图9的图表图解说明使用DC色度值及MV一致性的来自第一级(即,基于CBP的ROI遮罩产生器58)的对ROI的细化。使用来自先前帧N-1的经运动补偿的DC色度值,基于运动与色彩的ROI遮罩细化器60在目前帧N中识别具有与规定肤色范围相匹配的色彩的MB。在此基础上,ROI遮罩细化器60基于色度值来确认或改变基于CBP的ROI遮罩产生器基于CBP等级所识别的ROI MB的ROI状态。
图10是图解说明P帧中的ROI的清晰度的图表。图10的图表图解说明使用MV一致性的ROI细化。在图10的实例中,帧N依赖于参考帧N-1。在参考帧N-1与帧N之间,存在人类脸部106的显著移动。运动向量MV显示帧N中的块108A与先前帧N-1中的对应MB 108B之间的运动。基于运动与色彩的ROI遮罩细化器60分析在与MB 108A相同的ROI丛集内的MB的MV一致性。同样,任何对应于脸部106的块的移动均应相似,因为整个脸部往往会作为一个对象移动。如果所述ROI中MB的MV的角度及量值的标准偏差比平均值小,那么确保MV一致性,并将所述ROI MB保持作为ROI MB。如果不存在MV一致性,那么可将所述MB中的某些MB标记为非ROIMB,但条件是其MV是离群值并造成MV一致性的缺乏。图10B中的对应MB(CMB)是所述先前帧中的MB,其(例如)基于平方误差与所述当前帧(108A)中受考虑的MB 108A最紧密匹配。当所述运动未必按照所述MB长度(16个像素)时,所述CMB可出现在所述先前帧中任何地方。因此,如果已知所述运动向量MV,那么可识别所述先前帧中看起来与所述当前MB最相似的部位。
图11A及11B是图解说明第一视频场景及CBP与所述视频场景中的近似ROI的相关性的图表。第一视频场景是来自母女视频测试序列的帧。图12A及12B是图解说明第二视频场景及CBP与第二视频场景中的近似ROI的相关性的图表。第二视频场景是电影剪辑。图13A及13B是图解说明第三视频场景及CBP与第三视频场景中的近似ROI的相关性的图表。第三视频场景是来自乒乓球视频测试序列的帧。图11B、12B及13B分别描绘图11A、12A及13A中的视频帧的CBP映射图。
在图11A中,来自母女视频测试序列的帧包括用于可能的ROI检测的两个脸部区。应用如参照图4的基于CBP的ROI遮罩产生器所说明的基于CBP的ROI检测,图11A的帧的经编码视频产生如图11B中所示的CBP映射图。在所述CBP映射图中,不同的阴影块对应于不同的CBP,所述不同的CBP可与表1中的CBP进行比较以进行等级排定并包括在ROI映射图中。举例来说,图11B显示各种丛集,其具有对应于对Y的编码的第一阴影(其具有等级3)、对应于对Y、Cb及Cr的编码的第二阴影(其具有等级1)、对应于对Cb及Cr的编码的第三阴影及指示无运动且因此未作任何编码的另一阴影(具有其它更低的等级)。按照表1,将具有取得所述两个最高等级(即,等级1或等级3)中的一者资格的CBP的MB标记为ROI MB。
图11A、11B、12A、12B、13A及13B证明本发明中所说明的技术的设计中所作出假设的有效性,其根据经验使用位元流分析加以检验。将DC色度值用于I帧类似于使用所述帧的二次取样版本来从像素域中抽取ROI,其中每一MB已由其DC值替代。对于所述P帧,所述CBP与近似ROI的相关性从图11A、11B、12A、12B、13A及13B中显而易见。在图11B中,所述主丛集由来自表1的具有等级3的MB形成,因为仅Y已被编码。此丛集显示与所述帧中的母亲与女儿的脸部区的强对应性。类似地,在图12B中,所述主丛集由等级1MB形成,其中Y、Cb及Dr经编码。在图13B中,所述主丛集是运动员的整个身体,以图解说明本发明中所说明的技术可有效地检测不同于脸部区的ROI。在此类情况下,可改变由ROI遮罩细化器60所提供的基于形状的细化级以细化非脸部ROI。换句话说,ROI遮罩细化器60可使用适于所期望的对象(例如图13B的实例中的身体)的边缘及非平滑内部准则。
图14A、14B及14C是图解说明视频帧的ROI中MB上以运动向量(MV)均匀性衡量的运动向量一致性的图表。每一图表描绘具有MB栅格的视频帧,其中箭头指示与相关ROI中的MB相关联的MV的方向及量值。图14A显示来自工头(Foreman)视频测试序列的帧的脸部区中大多数MB的运动向量均匀性。图14B显示来自母女视频测试序列的帧的脸部区中大多数MB的运动向量均匀性。在图14A及14B中,在所述ROI中,大部分MB具有非常相似的MV方向及/或量值。图14C显示来自电影剪辑的帧中的MV一致性。在图14C的实例中,所述ROI(即,所述脸部)中的运动向量量值及角度变化不显著。因此,在两级方案中使用CBP与运动向量一致性的组合可有效地识别给定帧中的ROI。在具有高QP的帧的情况下,大部分MB可能“未编码”。在此情况下,CBP及MV信息不可靠,且所提出的2级方案可能失败。因此,在所述ROI可靠性分析器中检测这些情况以便绕过所述整个位流域ROI抽取过程而采用像素域ROI抽取。
图15是图解说明在图1的视频解码器24中有选择地启动编码器辅助ROI抽取或唯解码器ROI抽取的流程图。如图15中所示,视频解码器24接收经编码视频位流(112),并(例如)经由ROI信号检测器模块40(图3)来确定所述位流是否包括ROI辅助信号、代码或图案(114)。或者,如先前所提及,所述ROI辅助信号、代码或图案可提供于带外侧信息中。如果存在所述ROI辅助信号(114),那么解码器24应用辅助ROI抽取(118)。举例来说,解码器24可利用ROI MB映射图或由编码器18或中间装置提供的其它信息。或者,如果不存在所述ROI辅助信号或信息,那么解码器24(例如)根据参照图4-10所说明的技术来应用解码器侧ROI抽取(116)。在任一情况下,解码器24使用所得ROI来对所述ROI应用优先解码、后处理器及/或错误隐蔽(120),或对所述视频帧的非ROI区域应用优先解码、后处理及/或错误隐蔽。一旦应用解码、后处理及/或错误隐蔽,那么目的地装置12驱动显示器38(122)以提供对经解码视频的视觉表示。
图16是图解说明应用ROI可靠性分析及有选择地应用基于位流及像素域ROI抽取的流程图。举例来说,可通过图4中所示的组件来实施图16中所示的操作。一旦接收到经编码视频帧(126),且确定无编码器ROI辅助可用,那么解码器24应用ROI可靠性分析(128)以确定位流域ROI抽取是否将可靠(130)。如果不可靠,那么解码器24对经编码视频应用解码并对由所述解码操作所产生的像素应用像素域ROI抽取(139)。使用所述像素域ROI抽取(139),解码器24对所述ROI应用优先后处理及/或错误隐蔽(140),并驱动显示器(138)以呈现所得视频。
如果位流域ROI抽取被认为是可靠的(128、130),那么解码器24应用基于位流的ROI抽取(132)。特定来说,解码器24确定当前帧是否是I帧(133)。如果是,解码器24(例如)经由基于色彩的ROI遮罩产生器62来应用基于色彩的ROI抽取(134)。如果不是,所述帧是P(或B)帧,且解码器24(例如)经由基于CBP的ROI遮罩产生器58来应用基于CBP的ROI抽取(135)。然而,如先前所提及,在某些情况下,可使P帧中的帧内编码的MB经受基于色彩的ROI抽取(134),但条件是所述P帧包括众多I MB。解码器24可应用ROI抽取的第二级来细化根据操作134及135所产生的ROI。举例来说,如本发明中所说明,可对所述ROI应用基于形状、基于运动及/或基于色彩的细化技术。在每一情况下,解码器24对所述ROI应用优先解码、后处理及/或错误隐蔽(136),或对所述视频帧的非ROI区域应用优先解码、后处理及/或错误隐蔽,并驱动显示器138以呈现经解码的视频(138)。
图17是图解说明针对I帧及P帧应用分级式ROI抽取技术的流程图。如图17中所示,在解码器侧ROI抽取情况下,一旦接收到视频帧(142),那么解码器24确定所述帧是I帧还是是P(或B)帧(144)。针对I帧,解码器24在第一级中应用基于色彩的ROI遮罩产生器62以产生粗ROI(146),并随后应用基于形状的ROI遮罩细化器64以细化所述粗ROI。针对P(或B)帧,解码器24应用基于CBP的ROI遮罩产生器58以产生粗ROI(150),并随后应用基于运动与色彩的ROI遮罩细化器60(152)以细化所述粗ROI。解码器24应用决策融合以从所述I帧路径或所述P帧路径选择ROI,或组合来自两个路径的ROI信息,以产生所述帧的ROI映射图(154)。
另外,或或者,可在P帧具有大量帧内编码的MB的情况下应用决策融合。在此情况下,帧类型检测器52可经配置以确定P帧是否具有多于阈值层级的帧内编码的MB。如果是,给定帧的帧内编码的MB可经由I数据ROI处理器56来传递且同一帧的帧间编码的MB可经由P数据ROI处理器54来传递。然后,基于决策融合的ROI映射图产生器66可针对给定帧使用由I数据ROI处理器56应用到帧内编码的MB的ROI标记及由P数据ROI处理器54应用到帧间编码的MB的ROI标记来构成ROI映射图。另外,在某些实施方案中,基于决策融合的ROI映射图产生器66可包括(例如)使用来自先前帧的过去ROI信息来进一步证实所指定的ROI的智能。一旦所述ROI映射图可用(154),那么解码器对所述ROI应用优先解码、后处理及/或错误隐蔽(156)以增强所述ROI的视觉质量。
本发明说明各种ROI检测技术,包括用于确定编码器辅助是否可用的技术及解码器侧ROI检测技术。解码器侧ROI检测技术可包括位流域ROI检测、像素域检测及用于进行可靠性分析以确定使用位流域ROI检测还是像素域检测的技术。位流域ROI检测可包括用于帧间编码的信息及帧内编码的信息的不同技术,且可包括两级或多级ROI细化过程,包括使用基于CBP、基于色彩、基于运动及基于形状的ROI检测及细化。
可对所述ROI应用优先解码、后处理及/或错误隐蔽以增强所述ROI的视觉质量。对所述ROI区的优先解码可用于其中可针对ROI区采用高复杂性解码并针对非ROI区使用低复杂性解码的复杂性可缩放解码器。举例来说,在非ROI区中,可在计算IDCT之前修剪DCT系数,例如,如S.鹏(S.Peng)的“经由IDCT数据修剪的复杂性可缩放视频解码(Complexity scalable video decoding via IDCT data pruning)”国际消费电子产品(International Consumer Electronics),2001中所说明。视频解码的复杂性可缩放性可节省解码视频帧的非ROI区域时所涉及的计算费用,并将所述计算费用重新分配用于解码ROI区域。
如果已知或可能编码器18已经对所述ROI应用优先编码,那么解码器24也可对所述视频帧的非ROI区域应用优先解码。对非ROI区域的优先处理可(例如)在传输器侧处以较少的编码位来补偿较差的编码。换句话说,如果所述ROI已经受益于编码器侧的优先处理,那么额外处理可专用于所述非ROI区域而不是所述ROI区域。作为另一实例,可基于关于是否在所述编码器侧处应用了优先ROI处理的确定或假设来在所述解码侧处对ROI及非ROI区域应用不同层级的处理。为确定是对ROI还是对非ROI应用优先编码,解码器24可包括分析ROI及非ROI区域的量化参数(QP)值的模块。举例来说,如果非ROI MB的平均QP比ROI MB的平均QP小一预定阈值(此指示非ROI的较差量化),那么解码器24可合理地断定已经在编码器或网络中的中间装置处对所述ROI应用了优先处理。在此情况下,解码器24可对视频帧的非ROI区域应用优先处理,例如优先解码、后处理或误差隐蔽。因此,应用优先处理(例如分别属于图15、16及17的每一方框120、136或156)可进一步包括基于某一准则(例如ROI及非ROI中的相对平均QP值)来确定是对ROI还是对非ROI应用优先处理,如上所论述。在一个实例中,解码器24可将所识别的ROI的量化与视频数据的非ROI区域的量化进行比较,在所述比较指示非ROI的量化相对于ROI的量化为差时优先处理非ROI,且否则优先处理ROI。举例来说,此功能可在解码器24的后处理模块48内或在解码器24内的其它地方执行。
优先后处理可包括有选择地对ROI或者对非ROI区域应用先进后处理方案,例如解环状及脱色还原。举例来说,可有选择地对ROI但不对非ROI区域应用此类后处理方案或反之亦然,从而将更多的处理资源专用于将更多地受益于此种处理的区域。因此,在其中解码器侧资源有限且后处理代价高昂的情形下,可有选择地对ROI应用后处理操作。此确保减少图像的最重要区中的伪影。举例来说,脱色还原可对计算的要求很高。通过在脸部区(即,所述ROI)周围应用脱色还原,可减少原本会显著可见的色彩伪影。也可有选择地对ROI及/或非ROI区域应用其它后处理技术,例如锐化或解环状。
也可优先应用错误隐蔽以消除对于观看者来说最重要的区域(即,所述ROI)中的错误或在ROI已经受益于优先编码器侧处理时非ROI区域中的错误。知道给定帧以及先前帧的ROI映射图可有助于执行先进错误隐蔽。依据所述给定帧中的包丢失程度,错误隐蔽技术的范围可从巧妙操作到进取操作。举例来说,如果错误严重,例如已丢失ROI的主要部分,那么可重复先前帧。或者,如果丢失当前帧中的ROI的某一部分,那么可用来自先前帧的ROI替代所述ROI。作为另一替代方案,如果ROI区未受包丢失显著影响,那么错误隐蔽操作可涉及执行常规空间/时间错误隐蔽。
在每一情况下,解码器侧ROI检测准许解码器24将额外处理成本专用于视频帧的在视觉上最重要的区域,即,所述ROI。以此方式,解码器24可应用一个或一个以上设计用于在视觉上增强ROI并改善用户的总体观看体验的操作。当位流域ROI抽取被认为可靠时,解码器24可通过比像素域ROI抽取小得多的复杂性实现对ROI的视觉增强。解码器24可经配置以基于可靠性有选择地应用位流域或像素域ROI抽取以智能地平衡处理开销及功率消耗与视觉质量的关系。
可将本文中所说明的技术实施在硬件、软件、固件或其任一组合中。如果实施在软件中,那么所述技术可至少部分由一个或一个以上存储或传输在计算机可读媒体上的指令或代码来实现。计算机可读媒体可包括计算机存储媒体、通信媒体或两者,且可包括促进将计算机程序从一个位置传送到另一位置的任何媒体。存储媒体可以是可由计算机存取的任何可用媒体。
通过实例而并非限制的方式,此种计算机可读媒体可包含数据存储媒体,例如,RAM(例如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、ROM、电可擦除可编程只读存储器(EEPROM)、EEPROM、快闪存储器、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用来携载或存储呈指令或数据结构形式且可由计算机存取的所需程序代码的任一其它媒体。
而且,任何连接均适当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输软件,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术均包括在媒体的定义内。本文使用的磁盘及光盘包括:压缩光盘(CD)、激光盘、光学盘、数字通用光盘(DVD)、软磁盘及蓝光光盘,其中磁盘通常以磁性方式来再制数据,而光盘以光学方式(例如,使用激光)来再制数据。上述物项的组合也应包括在计算机可读媒体的范围内。
与计算机程序产品的计算机可读媒体相关联的代码可由计算机来执行,例如由一个或一个以上处理器(例如一个或一个以上数字信号处理器(DSP))、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路来执行。在某些方面中,可在配置用于编码及解码的专用软件模块或硬件模块中提供本文中所说明的功能性,或将其集成到组合式视频编码器-解码器(CODEC)中。
本文已说明了各种实施例。这些及其它实施例均归属于以上权利要求书的范围内。

Claims (23)

1.一种用于关注区视频处理的方法,其包含:
如果用以辅助关注区ROI识别的信息可用,那么应用第一过程以在经编码视频数据中识别ROI,其中,所述第一过程是基于所述用以辅助ROI识别的信息来应用的;及
如果所述用以辅助ROI识别的信息不可用,那么应用第二过程以在所述经编码视频数据中识别所述ROI,其中,所述第二过程包括:
确定位流域中ROI识别的可靠性;
在所确定的可靠性是可接受的情况下,使用所述经编码视频数据的位流域分析来识别所述ROI;
在所确定的可靠性是不可接受的情况下,使用所述经编码视频数据的像素域分析来识别所述ROI。
2.如权利要求1所述的方法,其中所述用以辅助ROI识别的信息包括:
识别所述经编码视频数据的若干部分的信息,所述经编码视频数据的若干部分驻存在所述ROI中。
3.如权利要求1所述的方法,其中所述第二过程包含使用所述经编码视频数据的位流域分析来分析所述经编码视频数据的一个或多个特性以确定ROI识别的可靠性。
4.如权利要求3所述的方法,其中分析所述一个或多个特性包括分析所述经编码视频数据的一个或多个量化参数QP值。
5.如权利要求4所述的方法,其中分析所述经编码视频数据的一个或多个量化参数QP值包括分析所述经编码视频数据的亮度及色度分量的平均QP值,所述方法进一步包含在所述平均QP值超过阈值时指示不可接受的可靠性。
6.如权利要求1所述的方法,其中识别所述ROI包含在所述所确定的可靠性可接受时使用所述经编码视频数据的位流域分析来识别所述ROI,且其中使用位流域分析来识别所述ROI包含针对帧内编码的数据基于所述经编码视频数据的色彩特性来识别所述ROI。
7.如权利要求6所述的方法,其中使用位流域分析来识别所述ROI进一步包含基于所述经编码视频数据的形状特性来细化所述所识别的ROI。
8.如权利要求1所述的方法,其中识别所述ROI包含在所述所确定的可靠性可接受时使用所述经编码视频数据的位流域分析来识别所述ROI,且其中使用位流域分析来识别所述ROI包含针对帧间编码的数据基于所述经编码视频数据的经编码块图案CBP特性来识别所述ROI。
9.如权利要求8所述的方法,其中使用位流域分析来识别所述ROI进一步包含基于所述经编码视频数据的运动与色彩特性来细化所述所识别的ROI。
10.如权利要求1所述的方法,其进一步包含使用增强型后处理及增强型错误隐蔽中的至少一者基于所述所识别的ROI来处理所述经编码视频数据的一部分以产生相对于所述经编码视频数据的若干其它部分较高的视觉质量。
11.如权利要求10所述的方法,其进一步包含将所识别的ROI的量化与所述视频数据的非ROI区域的量化进行比较,其中处理包括:
如果所述比较指示所述非ROI的量化相对于所述ROI为差,则处理所述非ROI;
如果所述比较指示所述非ROI的量化相对于所述ROI不为差,则处理所述ROI。
12.一种用于关注区视频处理的装置,其包含:
第一模块,其在用以辅助ROI识别的信息可用时应用第一过程以在经编码视频数据中识别关注区ROI,其中,所述第一过程是基于所述用以辅助ROI识别的信息来应用的;及
第二模块,其在用以辅助ROI识别的信息不可用时应用第二过程以在所述经编码视频数据中识别所述ROI,其中,所述第二过程包括:
确定位流域中ROI识别的可靠性;
在所确定的可靠性是可接受的情况下,使用所述经编码视频数据的位流域分析来识别所述ROI;
在所确定的可靠性是不可接受的情况下,使用所述经编码视频数据的像素域分析来识别所述ROI。
13.如权利要求12所述的装置,其中所述用以辅助ROI识别的信息包括:
识别所述经编码视频数据的若干部分的信息,所述经编码视频数据的若干部分驻存在所述ROI中。
14.如权利要求12所述的装置,其中所述第二模块使用所述经编码视频数据的位流域分析来分析所述经编码视频数据的一个或多个特性以确定ROI识别的可靠性。
15.如权利要求14所述的装置,其中由所述第二模块分析的所述一个或多个特性包括所述经编码视频数据的一个或多个量化参数QP值。
16.如权利要求12所述的装置,其中所述第二模块分析所述经编码视频数据的亮度及色度分量的平均QP值,并在所述平均QP值超过阈值时指示不可接受的可靠性。
17.如权利要求12所述的装置,其中所述第二模块在所述所确定的可靠性可接受时使用所述经编码视频数据的位流域分析来识别所述ROI,且针对帧内编码的数据基于所述经编码视频数据的色彩特性来识别所述ROI。
18.如权利要求17所述的装置,其中所述第二模块基于所述经编码视频数据的形状特性来细化所述所识别的ROI。
19.如权利要求12所述的装置,其中所述第二模块在所述所确定的可靠性可接受时使用所述经编码视频数据的位流域分析来识别所述ROI,并针对帧间编码的数据基于所述经编码视频数据的经编码块图案CBP特性来识别所述ROI。
20.如权利要求19所述的装置,其中所述第二模块基于所述经编码视频数据的运动与色彩特性来细化所述所识别的ROI。
21.如权利要求12所述的装置,其进一步包含后处理器模块,所述后处理器模块使用增强型后处理及增强型错误隐蔽中的至少一者基于所述所识别的ROI来处理所述经编码视频数据的一部分以产生相对于所述经编码视频数据的若干其它部分较高的视觉质量。
22.如权利要求21所述的装置,其中所述后处理器模块将所述所识别ROI的量化与所述视频数据的非ROI区域的量化进行比较,如果所述比较指示所述非ROI的量化相对于所述ROI为差,则处理所述非ROI;如果所述比较指示所述非ROI的量化相对于所述ROI不为差,则处理所述ROI。
23.一种用于关注区视频处理的装置,其包含:
用于接收经编码视频数据的装置;
用于在用以辅助ROI识别的信息可用时应用第一过程以在所述经编码视频数据中识别关注区ROI的装置,其中,所述第一过程是基于所述用以辅助ROI识别的信息来应用的;
用于在所述用以辅助ROI识别的信息不可用时应用第二过程以在所述经编码视频数据中识别所述ROI的装置,其中,所述第二过程包括:
确定位流域中ROI识别的可靠性;
在所确定的可靠性是可接受的情况下,使用所述经编码视频数据的位流域分析来识别所述ROI;
在所确定的可靠性是不可接受的情况下,使用所述经编码视频数据的像素域分析来识别所述ROI。
CN2007800466616A 2006-12-22 2007-12-20 解码器侧关注区视频处理 Active CN101563925B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/615,470 2006-12-22
US11/615,470 US8315466B2 (en) 2006-12-22 2006-12-22 Decoder-side region of interest video processing
PCT/US2007/088347 WO2008079960A2 (en) 2006-12-22 2007-12-20 Decoder-side region of interest video processing

Publications (2)

Publication Number Publication Date
CN101563925A CN101563925A (zh) 2009-10-21
CN101563925B true CN101563925B (zh) 2012-02-08

Family

ID=39291448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800466616A Active CN101563925B (zh) 2006-12-22 2007-12-20 解码器侧关注区视频处理

Country Status (7)

Country Link
US (2) US8315466B2 (zh)
EP (1) EP2123046B1 (zh)
JP (2) JP2010515300A (zh)
KR (2) KR101058759B1 (zh)
CN (1) CN101563925B (zh)
TW (1) TW200843514A (zh)
WO (1) WO2008079960A2 (zh)

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019170B2 (en) 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US8208758B2 (en) 2005-10-05 2012-06-26 Qualcomm Incorporated Video sensor-based automatic region-of-interest detection
US7974485B1 (en) * 2005-10-27 2011-07-05 Nvidia Corporation Split-frame post-processing in a programmable video pipeline
US8315466B2 (en) 2006-12-22 2012-11-20 Qualcomm Incorporated Decoder-side region of interest video processing
US8290357B2 (en) * 2007-03-15 2012-10-16 Nvidia Corporation Auto-exposure technique in a camera
US8787445B2 (en) * 2007-03-15 2014-07-22 Nvidia Corporation Allocation of available bits to represent different portions of video frames captured in a sequence
US8340512B2 (en) * 2007-03-15 2012-12-25 Nvidia Corporation Auto focus technique in an image capture device
US8483283B2 (en) * 2007-03-26 2013-07-09 Cisco Technology, Inc. Real-time face detection
US8446454B2 (en) * 2007-05-21 2013-05-21 Polycom, Inc. Dynamic adaption of a continuous presence videoconferencing layout based on video content
US8548049B2 (en) * 2007-07-02 2013-10-01 Vixs Systems, Inc Pattern detection module, video encoding system and method for use therewith
US8797377B2 (en) 2008-02-14 2014-08-05 Cisco Technology, Inc. Method and system for videoconference configuration
US8830341B2 (en) * 2008-05-22 2014-09-09 Nvidia Corporation Selection of an optimum image in burst mode in a digital camera
EP2141928A1 (en) * 2008-06-30 2010-01-06 Thomson Licensing S.A. Device and method for analysing an encoded image
US8325796B2 (en) 2008-09-11 2012-12-04 Google Inc. System and method for video coding using adaptive segmentation
EP2335419B1 (en) * 2008-09-18 2020-11-04 InterDigital Madison Patent Holdings Methods and apparatus for video imaging pruning
US8694658B2 (en) 2008-09-19 2014-04-08 Cisco Technology, Inc. System and method for enabling communication sessions in a network environment
US9602821B2 (en) * 2008-10-01 2017-03-21 Nvidia Corporation Slice ordering for video encoding
US8659637B2 (en) 2009-03-09 2014-02-25 Cisco Technology, Inc. System and method for providing three dimensional video conferencing in a network environment
US8659639B2 (en) 2009-05-29 2014-02-25 Cisco Technology, Inc. System and method for extending communications between participants in a conferencing environment
US9082297B2 (en) 2009-08-11 2015-07-14 Cisco Technology, Inc. System and method for verifying parameters in an audiovisual environment
JP5676610B2 (ja) * 2009-08-12 2015-02-25 トムソン ライセンシングThomson Licensing 画像シーケンスの関心領域に基づくアーティファクト低減のためのシステム及び方法
US8471889B1 (en) * 2010-03-11 2013-06-25 Sprint Communications Company L.P. Adjusting an image for video conference display
US9225916B2 (en) 2010-03-18 2015-12-29 Cisco Technology, Inc. System and method for enhancing video images in a conferencing environment
US9313452B2 (en) 2010-05-17 2016-04-12 Cisco Technology, Inc. System and method for providing retracting optics in a video conferencing environment
US8896655B2 (en) 2010-08-31 2014-11-25 Cisco Technology, Inc. System and method for providing depth adaptive video conferencing
US8599934B2 (en) 2010-09-08 2013-12-03 Cisco Technology, Inc. System and method for skip coding during video conferencing in a network environment
US8599865B2 (en) 2010-10-26 2013-12-03 Cisco Technology, Inc. System and method for provisioning flows in a mobile network environment
US8699457B2 (en) 2010-11-03 2014-04-15 Cisco Technology, Inc. System and method for managing flows in a mobile network environment
US8730297B2 (en) 2010-11-15 2014-05-20 Cisco Technology, Inc. System and method for providing camera functions in a video environment
US8902244B2 (en) 2010-11-15 2014-12-02 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US9338394B2 (en) 2010-11-15 2016-05-10 Cisco Technology, Inc. System and method for providing enhanced audio in a video environment
US9143725B2 (en) 2010-11-15 2015-09-22 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US8723914B2 (en) 2010-11-19 2014-05-13 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment
US9111138B2 (en) 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control
US8692862B2 (en) 2011-02-28 2014-04-08 Cisco Technology, Inc. System and method for selection of video data in a video conference environment
US9154799B2 (en) 2011-04-07 2015-10-06 Google Inc. Encoding and decoding motion via image segmentation
US8670019B2 (en) 2011-04-28 2014-03-11 Cisco Technology, Inc. System and method for providing enhanced eye gaze in a video conferencing environment
US8786631B1 (en) 2011-04-30 2014-07-22 Cisco Technology, Inc. System and method for transferring transparency information in a video environment
US8934026B2 (en) 2011-05-12 2015-01-13 Cisco Technology, Inc. System and method for video coding in a dynamic environment
US9747255B2 (en) 2011-05-13 2017-08-29 Texas Instruments Incorporated Inverse transformation using pruning for video coding
CN102238390B (zh) * 2011-08-05 2013-03-20 中国科学院深圳先进技术研究院 基于图像库的视频和图像的编码解码方法与系统
US8660305B2 (en) * 2011-10-11 2014-02-25 Technische Universitaet Ilmenau Method and apparatus for removing a visual object from a visual data stream
US8947493B2 (en) 2011-11-16 2015-02-03 Cisco Technology, Inc. System and method for alerting a participant in a video conference
US8682087B2 (en) 2011-12-19 2014-03-25 Cisco Technology, Inc. System and method for depth-guided image filtering in a video conference environment
US20130170559A1 (en) * 2011-12-28 2013-07-04 Rovi Technologies Corporation Systems and methods for region of interest video processing
US10205953B2 (en) * 2012-01-26 2019-02-12 Apple Inc. Object detection informed encoding
US9262670B2 (en) * 2012-02-10 2016-02-16 Google Inc. Adaptive region of interest
US10469851B2 (en) 2012-04-16 2019-11-05 New Cinema, LLC Advanced video coding method, system, apparatus, and storage medium
US20150312575A1 (en) * 2012-04-16 2015-10-29 New Cinema, LLC Advanced video coding method, system, apparatus, and storage medium
US9621905B2 (en) 2012-06-29 2017-04-11 Qualcomm Incorporated Tiles and wavefront parallel processing
WO2014005301A1 (en) * 2012-07-04 2014-01-09 Intel Corporation A region of interest based framework for 3d video coding
TW201717650A (zh) 2012-07-09 2017-05-16 Vid衡器股份有限公司 功綠知覺視訊解碼及串流
KR20150034723A (ko) * 2012-07-17 2015-04-03 톰슨 라이센싱 비트스트림 레벨에서 비디오 품질 평가
WO2014014238A1 (en) 2012-07-17 2014-01-23 Samsung Electronics Co., Ltd. System and method for providing image
US9979960B2 (en) * 2012-10-01 2018-05-22 Microsoft Technology Licensing, Llc Frame packing and unpacking between frames of chroma sampling formats with different chroma resolutions
US9392158B2 (en) 2012-10-04 2016-07-12 Nvidia Corporation Method and system for intelligent dynamic autofocus search
US9621780B2 (en) 2012-10-04 2017-04-11 Nvidia Corporation Method and system of curve fitting for common focus measures
US9681154B2 (en) 2012-12-06 2017-06-13 Patent Capital Group System and method for depth-guided filtering in a video conference environment
KR101552138B1 (ko) 2012-12-26 2015-09-10 국립암센터 신규한 암 병변 표지용 조성물
CN103118233A (zh) * 2013-03-01 2013-05-22 上海创建达一系统集成有限公司 一种高清音视频混合级联数字传输切换器
WO2014175919A1 (en) 2013-04-26 2014-10-30 Intel IP Corporation Shared spectrum reassignment in a spectrum sharing context
US9843621B2 (en) 2013-05-17 2017-12-12 Cisco Technology, Inc. Calendaring activities based on communication processing
US9031393B2 (en) 2013-06-12 2015-05-12 Nvidia Corporation Methods for enhancing camera focusing performance using camera orientation
CN105264904A (zh) * 2013-06-19 2016-01-20 Lg电子株式会社 信号发送和接收装置及其控制方法
US9208385B2 (en) * 2013-07-23 2015-12-08 TCL Research America Inc. System and method for moving object detection and processing
GB201318658D0 (en) 2013-10-22 2013-12-04 Microsoft Corp Controlling resolution of encoded video
US9386275B2 (en) 2014-01-06 2016-07-05 Intel IP Corporation Interactive video conferencing
EP2894852A1 (en) * 2014-01-14 2015-07-15 Alcatel Lucent Process for increasing the quality of experience for users that watch on their terminals a high definition video stream
US9392272B1 (en) 2014-06-02 2016-07-12 Google Inc. Video coding using adaptive source variance based partitioning
US9924175B2 (en) * 2014-06-11 2018-03-20 Qualcomm Incorporated Determining application of deblocking filtering to palette coded blocks in video coding
US9578324B1 (en) 2014-06-27 2017-02-21 Google Inc. Video coding using statistical-based spatially differentiated partitioning
JP6305279B2 (ja) * 2014-08-26 2018-04-04 株式会社東芝 映像圧縮装置および映像再生装置
US9854201B2 (en) * 2015-01-16 2017-12-26 Microsoft Technology Licensing, Llc Dynamically updating quality to higher chroma sampling rate
US9843761B2 (en) * 2015-02-05 2017-12-12 Polycom, Inc. System and method for brightening video image regions to compensate for backlighting
EP3286918A1 (en) * 2015-04-21 2018-02-28 VID SCALE, Inc. Artistic intent based video coding
KR20170091323A (ko) * 2016-02-01 2017-08-09 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
JP6822121B2 (ja) * 2016-12-19 2021-01-27 ソニー株式会社 画像処理装置、画像処理方法及びプログラム
US10902276B2 (en) * 2016-12-22 2021-01-26 Samsung Electronics Co., Ltd. Apparatus and method for processing image
CN107517386A (zh) * 2017-08-02 2017-12-26 深圳市梦网百科信息技术有限公司 一种基于压缩信息的肤色检测单位分析方法和系统
US10672132B2 (en) 2017-09-29 2020-06-02 Oracle International Corporation Post processing to improve motion detection results
JP6907888B2 (ja) * 2017-10-30 2021-07-21 富士通株式会社 情報処理システム、情報処理装置および情報処理プログラム
CN107920202B (zh) 2017-11-15 2020-02-21 阿里巴巴集团控股有限公司 基于增强现实的视频处理方法、装置及电子设备
US10375407B2 (en) 2018-02-05 2019-08-06 Intel Corporation Adaptive thresholding for computer vision on low bitrate compressed video streams
US11025942B2 (en) * 2018-02-08 2021-06-01 Samsung Electronics Co., Ltd. Progressive compressed domain computer vision and deep learning systems
US20200092566A1 (en) * 2018-09-19 2020-03-19 Power Diagnostic Technologies Ltd. Method and system for determining a flow rate of a fugitive fluid plume
WO2020127157A1 (en) * 2018-12-21 2020-06-25 Koninklijke Kpn N.V. Network-based assistance for receiver processing of video data
US10846551B2 (en) * 2019-02-06 2020-11-24 Apical Limited Video data processing
CN113709473B (zh) 2019-03-11 2022-11-25 杭州海康威视数字技术股份有限公司 一种编解码方法、装置及其设备
US11388423B2 (en) * 2020-03-23 2022-07-12 Alibaba Group Holding Limited Region-of-interest based video encoding
US20230171420A1 (en) * 2020-05-22 2023-06-01 Intel Corporation Technology to use video source context information in post-processing operations
NO346137B1 (en) * 2020-06-17 2022-03-14 Pexip AS Method, computer program and system for detecting changes and moving objects in a video view
WO2024014158A1 (ja) * 2022-07-13 2024-01-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法
CN115955566B (zh) * 2023-03-03 2023-06-20 浙江大华技术股份有限公司 编码方法以及解码方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6507618B1 (en) * 2000-04-25 2003-01-14 Hewlett-Packard Company Compressed video signal including independently coded regions
CN1574968A (zh) * 2003-05-15 2005-02-02 松下电器产业株式会社 运动图像解码装置及运动图像解码方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6160846A (en) * 1995-10-25 2000-12-12 Sarnoff Corporation Apparatus and method for optimizing the rate control in a coding system
KR100487986B1 (ko) * 1997-10-23 2005-05-09 미쓰비시덴키 가부시키가이샤 화상 복호화 장치
KR100328417B1 (ko) * 1998-03-05 2002-03-16 마츠시타 덴끼 산교 가부시키가이샤 화상부호화장치및화상복호화장치, 화상부보화방법 및 화상복호화방법, 및 데이터기억매체
US6256423B1 (en) * 1998-09-18 2001-07-03 Sarnoff Corporation Intra-frame quantizer selection for video compression
US6792043B1 (en) 1998-10-23 2004-09-14 Telecommunications Advancement Organization Of Japan Method, apparatus and program products for retrieving moving image
JP2001119696A (ja) 1999-10-20 2001-04-27 Canon Inc 画像符号化方法及び装置
KR100698106B1 (ko) * 2000-03-07 2007-03-26 엘지전자 주식회사 엠펙(mpeg)압축 비디오 환경에서 계층적 혼합형장면 변화 검출 방법
JP2002330951A (ja) 2001-05-11 2002-11-19 Canon Inc 画像符号化装置及び復号装置及び方法及びコンピュータプログラム及び記憶媒体
DE10300048B4 (de) * 2002-01-05 2005-05-12 Samsung Electronics Co., Ltd., Suwon Verfahren und Vorrichtung zur Bildcodierung und -decodierung
TWI273832B (en) * 2002-04-26 2007-02-11 Ntt Docomo Inc Image encoding device, image decoding device, image encoding method, image decoding method, image decoding program and image decoding program
JP3915652B2 (ja) * 2002-10-09 2007-05-16 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置
JP4013721B2 (ja) 2002-10-09 2007-11-28 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置
MXPA05007447A (es) * 2003-01-10 2005-09-12 Thomson Licensing Sa Aparato de decodificador y metodo para suavizar artefactos creados durante el ocultamiento de error.
KR20040065753A (ko) 2003-01-16 2004-07-23 엘지전자 주식회사 Roi 추출 장치 및 그 방법
US7142602B2 (en) * 2003-05-21 2006-11-28 Mitsubishi Electric Research Laboratories, Inc. Method for segmenting 3D objects from compressed videos
US20060062478A1 (en) * 2004-08-16 2006-03-23 Grandeye, Ltd., Region-sensitive compression of digital video
US7894531B1 (en) * 2005-02-15 2011-02-22 Grandeye Ltd. Method of compression for wide angle digital video
US7724972B2 (en) 2005-03-01 2010-05-25 Qualcomm Incorporated Quality metric-biased region-of-interest coding for video telephony
US8768084B2 (en) 2005-03-01 2014-07-01 Qualcomm Incorporated Region-of-interest coding in video telephony using RHO domain bit allocation
US8977063B2 (en) * 2005-03-09 2015-03-10 Qualcomm Incorporated Region-of-interest extraction for video telephony
US8019175B2 (en) 2005-03-09 2011-09-13 Qualcomm Incorporated Region-of-interest processing for video telephony
AU2006201490B2 (en) 2005-04-19 2008-05-22 Samsung Electronics Co., Ltd. Method and apparatus for adaptively selecting context model for entropy coding
KR100772868B1 (ko) * 2005-11-29 2007-11-02 삼성전자주식회사 복수 계층을 기반으로 하는 스케일러블 비디오 코딩 방법및 장치
US8315466B2 (en) 2006-12-22 2012-11-20 Qualcomm Incorporated Decoder-side region of interest video processing
US8483283B2 (en) * 2007-03-26 2013-07-09 Cisco Technology, Inc. Real-time face detection
US9313504B2 (en) * 2007-07-02 2016-04-12 Vixs Systems, Inc. Pattern detection module with region detection, video encoding system and method for use therewith

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6507618B1 (en) * 2000-04-25 2003-01-14 Hewlett-Packard Company Compressed video signal including independently coded regions
CN1574968A (zh) * 2003-05-15 2005-02-02 松下电器产业株式会社 运动图像解码装置及运动图像解码方法

Also Published As

Publication number Publication date
EP2123046A2 (en) 2009-11-25
US8744203B2 (en) 2014-06-03
WO2008079960A3 (en) 2008-11-20
JP5479504B2 (ja) 2014-04-23
US8315466B2 (en) 2012-11-20
US20080152245A1 (en) 2008-06-26
CN101563925A (zh) 2009-10-21
KR101036783B1 (ko) 2011-05-25
KR101058759B1 (ko) 2011-08-24
JP2012120199A (ja) 2012-06-21
US20120213409A1 (en) 2012-08-23
WO2008079960A2 (en) 2008-07-03
EP2123046B1 (en) 2015-09-09
KR20090094317A (ko) 2009-09-04
KR20110009271A (ko) 2011-01-27
TW200843514A (en) 2008-11-01
JP2010515300A (ja) 2010-05-06

Similar Documents

Publication Publication Date Title
CN101563925B (zh) 解码器侧关注区视频处理
Bae et al. Assessments of subjective video quality on HEVC-encoded 4K-UHD video for beyond-HDTV broadcasting services
CN104126306B (zh) 图像处理设备和方法
CN101164341B (zh) 用于视频电话的质量度量偏移的关注区编码
KR101106856B1 (ko) 비디오 인코딩 방법 및 비디오 인코딩 시스템
Li et al. A convolutional neural network-based approach to rate control in HEVC intra coding
CN104685886B (zh) 用于视频处理的装置及其方法
CN102656885B (zh) 合并编码比特流
CN100542288C (zh) 色度去块的方法
US20220030256A1 (en) Advanced video coding method, system, apparatus, and storage medium
JPWO2008084745A1 (ja) 画像符号化装置および画像復号化装置
CN106031177A (zh) 用于硬件加速的视频编码的主编码器
US8077773B2 (en) Systems and methods for highly efficient video compression using selective retention of relevant visual detail
Gunawan et al. Efficient reduced-reference video quality meter
CN100366091C (zh) 一种视频压缩方法
CN112235606A (zh) 一种多层视频处理方法、系统和可读存储介质
Boujut et al. Weighted-MSE based on Saliency map for assessing video quality of H. 264 video streams
CN113660486A (zh) 图像编码、解码、重建、分析方法、系统及电子设备
KR100785972B1 (ko) 영상 처리 장치
Stankiewicz Video coding technique with a parametric modelling of noise
Chen Advancing video compression with error resilience and content analysis
CN112352435B (zh) 用于视频编解码的环内去块滤波器设备和方法
Amirpour et al. A Real-Time Video Quality Metric for HTTP Adaptive Streaming
WO2023059689A1 (en) Systems and methods for predictive coding
Luo et al. Improving H. 264/AVC video coding with adaptive coefficient suppression

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant