CN101779465A - 使用兴趣区域(roi)信息改进视频编码的方法和设备 - Google Patents

使用兴趣区域(roi)信息改进视频编码的方法和设备 Download PDF

Info

Publication number
CN101779465A
CN101779465A CN200880103134.9A CN200880103134A CN101779465A CN 101779465 A CN101779465 A CN 101779465A CN 200880103134 A CN200880103134 A CN 200880103134A CN 101779465 A CN101779465 A CN 101779465A
Authority
CN
China
Prior art keywords
region
interest
zones
zone
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200880103134.9A
Other languages
English (en)
Inventor
陆晓安
李�真
克里斯蒂娜·戈米拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN101779465A publication Critical patent/CN101779465A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了使用兴趣区域信息的改进视频编码的方法和设备。所述设备包括:编码器(400),用于通过使用兴趣区域检测确定画面的多个区域中的每一个区域属于兴趣区域的各自可能性来对多个区域进行编码,以及基于各自可能性的值来自适应地控制多个区域中的每一个区域的各自质量。

Description

使用兴趣区域(ROI)信息改进视频编码的方法和设备
相关申请的交叉参考
本申请要求于2007年8月15日提交的美国临时申请No.60/956,098的优先权,其全部内容通过引用合并于此。
技术领域
本发明总体上涉及一种视频编码,具体地涉及使用兴趣区域(ROI)信息的改进视频编码的方法和设备。
背景技术
画面中某些兴趣区域对于人眼而言比其他区域更重要。例如,在电视电话应用中的画面的情况下,认为与肤色相对应的区域相对于其他区域是重要的,因此,这样的区域应当与兴趣区域相对应。期望在这些区域中获得高感知质量,以便于在相应显示画面中获得总的良好感知质量。在视频压缩应用的情况下,所显示的画面是解码后的画面。为了允许画面内的不同感知质量,视频编码标准,例如,国际标准化组织/国际电工委员会(ISO/IEC)运动图像专家组-2(MPEG-2)标准、以及ISO/IEC运动图像专家组-4(MPEG-4)第10部分高级视频编码(AVC)标准/国际电信联盟电信分部(ITU-T)H.264推荐标准(以下称为“MPEG-4 AVC标准”),提供了在特定区域中获得比其他区域更高质量的机制。为了解决这些区域的重要性,首先应当对这些区域进行检测,然后在这些区域中将较高感知质量定为目标。在视频压缩算法的情况下,可以通过分配更多比特以保留更多细节来获得较高感知质量。
使用这种信息的典型应用通常假定,兴趣区域(ROI)的检测是准确的并相应地分配不同的感知质量等级。该假定常常在实际应用中不成立,这是由于检测算法不适用于内容,或者由于计算复杂性约束禁止更复杂和强大的算法用于实际应用。
当应用兴趣区域检测结果来提高感知质量时,需要考虑人类视觉系统(HVS)的各种因素。一些因素涉及眼睛的光学特性和视网膜结构。这样的因素包括:人类视觉系统的颜色、空间遮蔽(masking)、时间遮蔽、以及运动跟踪属性。其他因素反应人类认知过程,如基于知识和经验的目标/图案识别。人类认知因素的一个示例在于,人类肤色的存在一般比画面中的其他区域吸引更多视觉注意。
在传统电视电话应用中,通常对脸部给予最大部分的视觉注意。在一个现有方法中,首先在画面中检测到脸部,然后向脸部分配较高感知质量。通过视频编解码测试模型近期版本8(TMN8)码率控制算法来获得较高感知质量,该算法向皮肤区域分配更精细的量化参数。在另一现有方法中,还将画面分割成属于以下区域的宏块(MB):包括脸部的前景(FG);以及背景(BG)。其他现有方法然后在视频编码器中向前景区域分配较精细量化步长Qf,并且向背景分配较粗糙量化步长Qb,公式如下:
两种现有方法通过允许以较高质量对皮肤区域进行编码,以给定比特率获得较高感知质量。
在两种现有方法中,该方案的确有助于提高针对电视电话应用的给定比特率下的解码画面质量,其中,在电视电话应用中,已经很好地开发了皮肤区域分割算法,并通常提供准确结果。然而,对于来自非视频会议应用的一般内容,皮肤分割更复杂并且检测准确度比值更低。当皮肤区域没有被检测为皮肤时(错误否定检测),或者当将非皮肤区域检测为皮肤时(错误肯定检测),发生检测错误。
在存在错误肯定检测的情况下,视频编码器向错误皮肤区域分配较高感知质量,并将较少比特留给画面中的其他区域。因此,当发生错误肯定检测时,应用以上方法可能损害感知质量。在错误否定检测的情况下,对皮肤区域的处理与其他区域相同,并分配相同感知质量。这禁止应用向吸引更多注意的位置分配较高质量。
一种使用皮肤检测结果作为兴趣区域信息来获得高感知质量的解决方案提高了皮肤检测准确度。这通常将需要并非始终在实际应用中可用的较高计算复杂性。
现在将描述兴趣区域信息的典型使用。典型兴趣区域检测算法基于应用于特征p的阈值T将画面分割成以下两种区域:(1)ROI和(2)非ROI。
在皮肤检测的情况下,特征可以是宏块(MB)属于皮肤区域的可能性,并且检测函数定义如下:
Figure GPA00001026471400031
应用然后根据二元分割结果分配感知质量。转向图1,一般由参考数字100指示针对一维特征空间的二元兴趣区域判定。
通过使用较精细量化步长将更多比特分配给兴趣区域,并且通过使用较粗糙量化步长将较少比特分配给非兴趣区域。因此,兴趣区域具有比非兴趣区域更高的质量,并且总画面具有较高感知质量。
转向图2,一般由参考数字200指示使用兴趣区域信息的典型视频编码器中量化步长分配的方法。
方法200包括开始框205,开始框205传递控制至功能框210。功能框210执行兴趣区域(ROI)检测,并传递控制至功能框215。功能框215执行编码设置,并传递控制至有限循环框220。有限循环框220使用变量i(变量i等于1,...,帧的数量(#))在输入视频序列的每个帧上执行第一循环,并传递控制至有限循环框225。有限循环框225使用变量j(变量j等于1,...,帧i中宏块的数量(#))在每个帧中的每个宏块上执行第二循环,并传递控制至判定框230。判定框230确定当前宏块是否属于兴趣区域(ROI)。如果是,则将控制传递至功能框235。否则,将控制传递至功能框240。
功能框235分配较精细量化步长,并传递控制至有限循环框245。有限循环框245结束第二循环,并传递控制至有限循环框250。有限循环框250结束第一循环,并传递控制至结束框299。
关于编码步骤参照功能框215,可以在操作员的帮助下执行这样的步骤。此外,编码器设置可以涉及目标比特率的设置以及在编码过程中涉及的任何参数集的规定。
应认识到,方法200可以是单或多通路编码方法,并且在多数情况下,方法200将遵照现有视频编码标准和/或推荐标准,包括但不限于,MPEG-2和MPEG-4AVC。当使用多通路方法时,可以在编码器的一个或多个通路中使用ROI信息。
在方法200中,当评估的当前宏块属于ROI时,应用较精细量化步长,以产生更多比特和较高感知质量。否则,当宏块不属于ROI时,应用较粗糙量化步长,以产生较少比特和较低感知质量。
遵照图2所示工作流的应用假定兴趣区域检测是准确的并相应地分配感知质量。这种应用的性能严重依赖于兴趣区域检测结果。考虑画面中使用兴趣区域信息进行编码的区域,获得以下4种可能的组合:
情况1:ROI被检测为ROI(准确);
情况2:ROI被检测为非ROI(错误否定);
情况3:非ROI被检测为非ROI(准确);
情况4:非ROI被检测为ROI(错误肯定)。
当情况2(错误否定检测)发生时,应用在兴趣区域消耗太少比特,限制应用提供高感知质量。当情况4(错误肯定检测)发生时,应用在非ROI区域中浪费太多比特。
转向图3,一般通过参考数字300指示根据现有技术的使用码率控制来将视频数据编码成产生的比特流的设备。
设备300包括:量化步长加权模块305,具有与码率控制器310的第一输入进行信号通信的输出。码率控制器310的输出以信号通信的方式与视频编码器320的第一输入连接。
量化步长加权模块305的输入可用作设备300的输入,用于接收兴趣区域(ROI)信息。视频编码器320的第二输入可用作设备300的输入,用于接收输入视频源(例如,视频序列)。码率控制器310的第二输入可用作设备300的输入,用于接收码率约束。视频编码器320的输出可用作设备300的输出,用于输出比特流。
设备300能够实现关于图2的方法200的功能框235和240描述的量化步长分配。
发明内容
本发明解决了现有技术的这些和其他不足和缺点,本发明针对使用兴趣区域(ROI)信息的改进视频编码的方法和设备。
根据本发明的第一方面,提出了一种设备。所述设备包括:编码器,用于通过使用兴趣区域检测确定画面的多个区域中的每一个区域属于兴趣区域的各自可能性,来对多个区域进行编码,并且基于各自可能性的值来自适应控制多个区域中的每一个区域的各自质量。
根据本发明的另一方面,提出了一种方法。所述方法包括:通过使用兴趣区域检测确定画面的多个区域中的每一个区域属于兴趣区域的各自可能性,来对多个区域进行编码,并且基于各自可能性的值来自适应控制多个区域中的每一个区域的各自质量。
根据结合附图阅读的示例实施例的以下详细描述,本发明的这些和其他方面、特征和优点将变得显而易见。
附图说明
根据以下示例附图将更好地理解本发明,在附图中:
图1是示出了根据现有技术的针对一维特征空间的二元兴趣区域检测的图;
图2是示出了根据现有技术的使用兴趣区域信息的典型视频编码器中量化步长分配的方法的流程图;
图3是示出了根据现有技术的使用码率控制将视频数据编码成产生的比特流的设备的框图;
图4是示出了根据本发明实施例的示例视频编码器的框图;
图5是示出了根据本发明实施例的所分配的质量和兴趣区域可能性之间的线性关系的图;
图6是示出了根据本发明实施例的、使用宏块处于兴趣区域的可能性以控制相应感知质量来对视频序列进行编码的示例方法的流程图;
图7是示出了根据本发明实施例的、所分配的质量和针对兴趣区域可能性间隔的兴趣区域可能性之间的关系的图;
图8是示出了根据本发明实施例的、基于宏块处于兴趣区域的可能性来使用多个质量等级对视频序列进行编码的示例方法的流程图;
图9是示出了根据本发明实施例的使用码率控制来将视频数据编码成产生的比特流的设备的框图。
具体实施方式
本发明针对使用兴趣区域(ROI)信息的改进视频编码的方法和设备。
本说明书示出了本发明。可以理解,尽管这里没有明确描述或示出,然而本领域的技术人员能够设想出体现本发明的原理并且包括在本发明的精神和范围内的各种设置。
这里所记载的所有示例和条件性语言均为了教导的目的,以帮助读者理解本发明的原理以及发明人对现有技术做出贡献的概念,而不应被看作限制为具体记载的示例和条件。
此外,这里对本发明的原理、方面、实施例及其特定示例做出记载的所有声明意在包括本发明的结构和功能上的等同物。另外,该等同物将包括当前已知的等同物以及将来开发出的等同物,即所开发出来的执行相同功能的任何组件,而与结构无关。
因此,本领域的技术人员可以理解,这里所示出的框图展示出体现本发明原理的示意性电路的概念图。类似地,可以理解,任何流程、流程图、状态转移图、伪代码等表现出实质上可以在计算机可读介质上表现的、并且由计算机或处理器执行的各个过程,无论是否明确示出该计算机或处理器。
可以通过使用专用硬件和能够与适合的软件一同执行软件的硬件而实现图中所示各个组件的功能。当由处理器来提供时,这些功能可以由单个的专用处理器、单个的共享处理器、或多个单独的处理器来提供,其中一些可以是共享的。此外,术语“处理器”或“控制器”的显式使用不应被解释为排他性地指代能够执行组件的硬件,而是可以隐式地包括(不限为)数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)以及非易失性存储器。
还可以包括常规和/或定制的其它硬件。类似地,图中所示的任何开关仅是概念上的。其功能可以通过程序逻辑的操作、专用逻辑、程序控制和专用逻辑的交互、或甚至是手动地而实现,实施者可以选择的具体技术可以从上下文中得到明确的理解。
在权利要求书中,表示为用于执行特定功能的装置的任何组件意在包括执行该功能的任何方式,例如包括:a)执行该功能的电路组件的组合,或b)任意形式的软件,包括固件、微代码等,以及用于执行该软件以执行该功能的适合的电路。由权利要求所限定的本发明在于如下事实:将各个记载的装置所提供的功能以权利要求所要求的方式组合在一起。因此,可以把能够提供这些功能的任意装置看作与这里所示的装置相等同。
在说明书中涉及本发明原理的“一个实施例”或“实施例”是指:结合实施例描述的特定特征、结构、特性等包括在本发明原理的至少一个实施例中。因此,贯穿说明书的不同地方出现的术语“在一个实施例中”或“在实施例中”不必均指相同的实施例。
应当认识到,举例而言,“A和/或B”和“A和B中的至少一个”情况下的术语“和/或”和“至少一个”的使用意在包括:仅选择第一个列出的选项(A)、仅选择第二个列出的选项(B)、或同时选择两个选项(A和B)。再举一例,就“A、B和/或C”和“A、B和C中的至少一个”而言,该短语意在包括:仅选择第一个列出的选项(A)、仅选择第二个列出的选项(B)、仅选择第三个列出的选项(C)、仅选择第一个和第二个列出的选项(A和B)、仅选择第一个和第三个列出的选项(A和C)、仅选择第二个和第三个列出的选项(B和C)、或选择所有三个选项(A、B和C)。所属和相关领域的普通技术人员容易理解,可以随列出项目的数量对其进行扩展。
此外,应当认识到,尽管这里关于MPEG-4AVC标准描述本发明的一个或多个实施例,但是本发明仅不限于该标准,从而可以关于其他视频编码标准、推荐标准及其扩展(包括MPEG-4AVC标准的扩展)利用本发明,同时保持本发明的精神。例如,本发明还适用于但不限于,MPEG-2标准和电影与电视工程师学会(SMPTE)视频编解码-1(VC-1)标准。
转向图4,一般由参考数字400指示示例视频编码器。
编码器400包括:帧排序缓冲器410,具有以信号通信方式与组合器485的第一非反相输入连接的输出。组合器485的输出以信号通信的方式与变换器和量化器425的输入连接。变换器和量化器425的输出以信号通信的方式与熵编码器445的第一输入和逆变换器和量化器450的输入连接。熵编码器445的输出以信号通信的方式与组合器490的第一非反相输入连接。组合器的输出以信号通信的方式与输出缓冲器435的输入连接。输出缓冲器435的第一输出以信号通信的方式与码率控制器405的输入连接。
补充增强信息(SEI)插入器430的输出以信号通信的方式与组合器490的第二输入连接。
逆变换器和量化器450的输出以信号通信的方式与组合器427的第一非反相输入连接。组合器427的输出以信号通信的方式与帧内预测器460的输入和去块滤波器465的输入连接。
去块滤波器465的输出以信号通信的方式与参考画面缓冲器480的输入连接。参考画面缓冲器480的输出以信号通信的方式与运动估计器475的输入和运动补偿器470的第一输入连接。
运动估计器的第一输出以信号通信的方式与运动补偿器470的第二输入连接。运动估计器475的第二输出以信号通信的方式与熵编码器445的第二输入连接。
运动补偿器470的输出以信号通信的方式与开关497的第一输入连接。帧内预测器460的输出以信号通信的方式与开关497的第二输入连接。宏块类型判定模块420的输出以信号通信的方式与开关497的第三输入连接。开关497的输出以信号通信的方式与组合器485的第二非反相输入和组合器427的第二非反相输入连接。
码率控制器405的输出以信号通信的方式与画面类型判定模块415的第一输入以及序列参数集(SPS)和画面参数集(PPS)插入器的输入连接。SPS和PPS插入器440的输出以信号通信的方式与组合器490的第三输入连接。
画面类型判定模块415的第一输出以信号通信的方式与宏块类型判定模块420的输入连接。画面类型判定模块415的第二输出以信号通信的方式与帧排序缓冲器410的第二输入连接。
帧排序缓冲器410的第一输入可用作编码器400的输入,用于接收输入画面401。输出缓冲器435的第一输出可用作编码器400的输出,用于输出比特流。
如上所述,本发明针对使用兴趣区域(ROI)信息的改进视频编码的方法和设备。一些兴趣区域,如电视电话应用的画面中的肤色,对于人眼而言比其他区域更重要。在实施例中,通过考虑兴趣区域检测结果的不准确性来对不同区域的重要性进行分级。这可以通过接受区域属于兴趣区域的可能性作为输入以分配感知质量来进行。本发明考虑以下事实:兴趣区域检测通常是不准确的并提供鲁棒方案来为使用兴趣区域信息的应用提供较高感知质量。优点是总感知质量的提高。
因此,根据本发明,基于不准确的兴趣区域检测结果和其他辅助信息在画面中分配不同区域的感知质量。使用肤色作为兴趣区域的示例,根据本发明对兴趣区域信息的使用进行说明。当然,应当认识到,本发明仅不限于肤色作为兴趣区域,因此根据本发明同样可以设想其他类型的兴趣区域,而同时保持本发明的精神。
在实施例中,根据本发明的方法考虑以下事实:兴趣区域检测通常是不准确的,并提供鲁棒方案来获得使用兴趣区域信息的视频编码器的较高感知质量。这可以通过接受统计的兴趣区域判定结果(即,区域属于兴趣区域的可能性)来进行。
通常基于先验知识和经验来检测兴趣区域。哪个区域应当被检测为兴趣区域同样取决于应用。例如,在电视电话应用中,一般将脸部区域视为兴趣区域。在例如足球等体育赛事中,一般将球视为兴趣区域。当检测兴趣区域时,通常考虑可能的兴趣区域的特征,例如颜色、形状等等。当不能适当识别出所述特征时,不能准确检测兴趣区域是非常可能的。例如,当将脸部区域视为兴趣区域时,由于人类肤色倾向于出现在非常有限范围的颜色空间中,因此需要对人类皮肤的颜色分量进行建模以检测兴趣区域。当该模型不适于内容并且不准确时,错误肯定检测和错误否定检测均可能会发生。
在使用兴趣区域信息的典型视频编码器中,首先将画面划分成兴趣区域和非兴趣区域(非ROI),然后编码器根据特定宏块是否被评估为属于兴趣区域来控制画面中宏块的质量。如关于图1所示出和描述的,现有技术使用兴趣区域检测的二元结果(即,关于所评估的特定区域是否与兴趣区域相对应)。现有技术不会在控制质量时考虑或使用可能性值。根据实施例,提供一种方法,允许编码器接受区域属于兴趣区域的可能性(表示为pROI(MB))作为输入以控制质量。一般地,宏块属于兴趣区域的可能性越大,编码器分配的质量越高。这在图5中示出。转向图5,一般由参考数字500指示分配的质量和兴趣区域可能性之间的线性关系。在一般应用中,该关系可以扩展为其他单调增加形式。
转向图6,一般由参考数字600指示使用宏块在兴趣区域中的可能性来控制相应感知质量以对视频序列进行编码的示例方法。具体地,方法600接受变量pROI(MB)作为输入以控制感知质量,并基于pROI(MB)判定所考虑的当前宏块应以何种质量被编码。
方法600包括开始框605,开始框605传递控制至功能框610。功能框610执行兴趣区域(ROI)检测,并传递控制至功能框615。功能框615执行编码设置,并传递控制至有限循环框620。有限循环框620使用变量i(等于1,...,帧的数量(#))在输入视频序列的每个帧上执行第一循环,并传递控制至有限循环框625。有限循环框625使用变量j(等于1,...,帧i中宏块的数量(#))在每个帧中的每个宏块上执行第二循环,并传递控制至功能框630。功能框630以基于pROI判定的质量对宏块进行编码,并传递控制至有限循环框635。有限循环框635结束第二循环,并传递控制至有限循环框640。有限循环框640结束第一循环,并传递控制至结束框699。
关于功能框630,应当认识到,可以通过主观质量评估或客观感知质量度量对感知质量进行测量。主观质量评估是仔细设计的过程,意在为给定应用确定人类观察者对特定视频序列集合的平均观点。这种测试的结果在基本系统设计和基准评估中是有价值的。然而,由于需要人类观察者,主观质量评估是耗时的。客观质量度量自动对质量进行测量,并意在在广泛应用中使用。客观质量度量的示例包括但不限于,峰值信噪比(PSNR),恰好察觉失真(JND)、以及结构相似度索引度量(SSIM)等。
在实施例中,视频编码器基于pROI(MB)判定了每个宏块的目标质量度量。在考虑获得总的高感知质量的情况下,通过用户或编码器来确定目标质量度量和pROI(MB)之间的确切关系。编码参数集然后用于对宏块进行编码以满足目标质量度量。编码参数包括但不限于,编码模式、块大小、以及量化参数,该量化参数包括但不限于量化步长,死区参数、以及量化矩阵。
这种新方法的质量改进大部分来自于其pROI(MB)在阈值附近的宏块,该阈值在针对经典编码器的兴趣区域检测中使用。在兴趣区域检测算法中阈值的判定通常是关键问题,并且任何不准确度将导致错误检测。在阈值太低(与更准确阈值相比)的情况下,发生错误肯定检测,并且视频编码器向错误兴趣区域分配更多比特并将较少比特留给画面中的其他区域。在阈值太高(与更准确阈值相比)的情况下,发生错误否定检测,并且兴趣区域的处理与其他区域相同。在两种情况下,不准确阈值导致不准确的兴趣区域检测,禁止应用向吸引更多注意的位置提供较高质量。根据本发明的实施例,基于pROI(MB)分配比特。因此,避免向其pROI(MB)在阈值附近的宏块分配太多比特或太少比特。
在上述实施例中,公开了一种根据pROI(MB)连续调整质量的编码工作流。该实施例的一个变型是,根据宏块所属pROI(MB)的间隔来以有限的质量等级对宏块编码。转向图7,一般由参考数字700指示分配的质量和针对兴趣区域可能性间隔的兴趣区域可能性之间的关系。在图7中,当pi<pROI(MB)<pi+1,i=0,...,n-1时,将以由质量度量qi指示的感知质量对宏块进行编码。使用二元兴趣区域检测结果的经典编码器是方法800的特殊情况,具体地,n=2。
转向图8,一般由参考数字800指示基于宏块是兴趣区域的可能性使用多个质量等级对视频序列进行编码的示例方法。
方法800包括开始框805,开始框805传递控制至功能框810。功能框810执行兴趣区域(ROI)检测,并传递控制至功能框815。功能框815执行编码设置,并传递控制至有限循环框820。有限循环框820使用变量i(等于1,...,帧的数量(#))在输入视频序列的每个帧上执行第一循环,并传递控制至有限循环框825。有限循环框825使用变量j(等于1,...,帧i中宏块的数量(#))在每个帧中的每个宏块上执行第二循环,并传递控制至功能框830。功能框830确定当前宏块的感知质量使得pi<pROI<pi+1,并传递控制至功能框835。功能框835以质量qi对宏块进行编码,并传递控制至有限循环框840。有限循环框840结束第二循环,并传递控制至有限循环框845。有限循环框845结束第一循环,并传递控制至结束框899。
应当认识到,方法800是关于图6所示和所描述的方法600的变型。当对当前宏块进行编码时,编码器首先读取当前宏块属于ROI的可能性pROI(MB),并判定当前宏块所属的间隔。在确定pROI(MB)在两个邻近阈值pi和pi+1之间时,当以质量qi对前宏块进行编码。该变型的优点在于,通过以由质量度量指示的有限质量等级对宏块进行编码来简化编码器。
转向图9,由参考数字900一般性地指示根据本发明实施例的使用码率控制将视频数据编码成产生的比特流的设备。
设备900包括:编码参数模块905,具有与码率控制器910的第一输入进行信号通信的输出。码率控制器910的输出以信号通信的方式与视频编码器920的第一输入连接。
编码参数模块905的输入可用作设备900的输入,用于接受兴趣区域(ROI)信息。视频编码器920的第二输入可用作设备900的输入,用于接受输入视频源(例如,视频序列)。码率控制器910的第二输入可用作设备900的输入,用于接受码率约束。视频编码器920的输出可用作设备900的输出,用于输出比特流。
设备900能够分别执行分别关于图6和图8的方法600和800的功能框630和835所描述的步骤。
现在将对本发明的许多附加优点/特征中的一些给出描述,其中的一些以上已经提到过。例如,一个优点/特征是一种具有编码器的设备,所述编码器用于通过使用兴趣区域检测确定画面的多个区域中的每一个区域属于兴趣区域的各自可能性来对多个区域进行编码,以及基于各自可能性的值来自适应地控制多个区域中的每一个区域的各自质量。
另一优点/特征是具有上述编码器的设备,其中,兴趣区域检测是基于至少一个特征,所述至少一个特征是肤色信息。
又一优点/特征是上述具有编码器的设备,其中,使用连续质量等级来对确定属于兴趣区域的多个区域中的任何区域进行编码。
又一优点/特征是具有上述编码器的设备,其中,使用连续质量等级来对确定属于兴趣区域的多个区域中的任何区域进行编码。
又一优点/特征是具有上述编码器的设备,其中,使用有限质量等级来对确定属于兴趣区域的多个区域中的任何区域进行编码。
此外,另一优点/特征是具有所述编码器的设备,其中,所述编码器遵照国际标准化组织/国际电工委员会运动图像专家组-4(MPEG-4)第10部分高级视频编码(AVC)标准/国际电信联盟电信分部H.264推荐标准将多个区域编码成比特流。
此外,另一优点/特征是具有所述编码器的设备,其中,所述编码器遵照电影和电视工程师协会视频编解码-1标准将多个区域编码成比特流。
同样,另一优点/特征是具有所述编码器的设备,其中,通过调整编码参数分别控制确定属于兴趣区域的多个区域中的任何区域的各自质量。
此外,另一优点/特征是具有所述编码器的设备,其中,编码参数包括量化参数。
基于这里的教导,相关技术领域中的技术人员可以容易地获知本发明的这些和其他特征及优点。可以理解的是,本发明的教导可以以各种形式的硬件、软件、固件、专用处理器或其组合来实现。
最为优选地,本发明的教导以硬件和软件的组合来实现。此外,软件优选地以有形地体现在程序存储单元上的应用程序来实现。该应用程序可以上载到包括任意适合架构的机器,并由该机器执行。优选地,该机器在具有例如一个或更多个中央处理单元(“CPU”)、随机存取存储器(“RAM”)、以及输入/输出(“I/O”)接口的硬件的计算机平台上实现。该计算机平台还包括操作系统和微指令代码。这里描述的各个过程和功能可以是微指令代码的一部分,或是应用程序的一部分,或是其任何组合,其可以由CPU来执行。另外,可以把各种其他外围单元与计算机平台相连,所述外围单元例如是附加的数据存储单元和打印单元。
还可以理解的是,由于附图中描述的某些构成系统的组件和方法优选地以软件来实现,所以系统组件或过程功能块之间的实际连接可能取决于本发明的实践方式而有所不同。在这里给出的教导的前提下,相关技术领域中的技术人员将能够设想本发明的这些和类似的实现或配置。
尽管已经参考附图描述了示意性实施例,然而可以理解,本发明不限于这些特定的实施例,在不背离本发明的范围或精神的前提下,相关技术领域中的技术人员可以实现各种改变和修改。所有这些改变和修改都将被看作落入所附权利要求限定的本发明的范围内。

Claims (16)

1.一种设备,包括:
编码器(400),用于通过使用兴趣区域检测确定画面的多个区域中的每一个区域属于兴趣区域的各自可能性来对多个区域进行编码,以及基于各自可能性的值来自适应地控制多个区域中的每一个区域的各自质量。
2.根据权利要求1所述的设备,其中,所述兴趣区域检测是基于至少一个特征,所述至少一个特征是肤色信息。
3.根据权利要求1所述的设备,其中,使用连续质量等级来对被确定为属于兴趣区域的多个区域中的任何区域进行编码。
4.根据权利要求1所述的设备,其中,使用有限质量等级来对被确定为属于兴趣区域的多个区域中的任何区域进行编码。
5.根据权利要求1所述的设备,其中,所述编码器遵照国际标准化组织/国际电工委员会运动图像专家组-4第10部分高级视频编码标准/国际电信联盟电信分部H.264推荐标准将多个区域编码成比特流。
6.根据权利要求1所述的设备,其中,所述编码器遵照电影和电视工程师协会视频编解码-1标准将多个区域编码成比特流。
7.根据权利要求1所述的设备,其中,通过调整编码参数分别控制被确定为属于兴趣区域的多个区域中的任何区域的各自质量。
8.根据权利要求7所述的设备,其中,编码参数包括量化参数。
9.一种方法,包括:
通过使用兴趣区域检测确定画面的多个区域中的每一个区域属于兴趣区域的各自可能性来对多个区域进行编码(630、835),以及基于各自可能性的值来自适应控制多个区域中的每一个区域的各自质量。
10.根据权利要求9所述的方法,其中,兴趣区域检测是基于至少一个特征,所述至少一个特征是肤色信息。
11.根据权利要求9所述的方法,其中,使用连续质量等级来对被确定为属于兴趣区域的多个区域中的任何区域进行编码(500)。
12.根据权利要求9所述的方法,其中,使用有限质量等级来对被确定为属于兴趣区域的多个区域中的任何区域进行编码(700):
13.根据权利要求9所述的方法,其中,所述编码步骤遵照国际标准化组织/国际电工委员会运动图像专家组-4第10部分高级视频编码标准/国际电信联盟电信分部H.264推荐标准将多个区域编码成比特流。
14.根据权利要求9所述的方法,其中,所述编码步骤遵照电影和电视工程师协会视频编解码-1标准将多个区域编码成比特流。
15.根据权利要求9所述的方法,其中,通过调整编码参数分别控制被确定为属于兴趣区域的多个区域中的任何区域的各自质量。
16.根据权利要求15所述的方法,其中,编码参数包括量化参数。
CN200880103134.9A 2007-08-15 2008-08-12 使用兴趣区域(roi)信息改进视频编码的方法和设备 Pending CN101779465A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US95609807P 2007-08-15 2007-08-15
US60/956,098 2007-08-15
PCT/US2008/009627 WO2009023188A2 (en) 2007-08-15 2008-08-12 Method and apparatus for improved video encoding using region of interest (roi) information

Publications (1)

Publication Number Publication Date
CN101779465A true CN101779465A (zh) 2010-07-14

Family

ID=40329061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880103134.9A Pending CN101779465A (zh) 2007-08-15 2008-08-12 使用兴趣区域(roi)信息改进视频编码的方法和设备

Country Status (7)

Country Link
US (1) US20100183070A1 (zh)
EP (1) EP2183921A2 (zh)
JP (1) JP2010537489A (zh)
KR (1) KR20100042645A (zh)
CN (1) CN101779465A (zh)
BR (1) BRPI0815510A2 (zh)
WO (1) WO2009023188A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945287A (zh) * 2010-10-14 2011-01-12 杭州华三通信技术有限公司 一种roi编码方法及其系统
CN102685491A (zh) * 2012-03-02 2012-09-19 中兴通讯股份有限公司 一种实现视频编码的方法和系统
CN109076229A (zh) * 2016-05-19 2018-12-21 高通股份有限公司 在图片中最感兴趣的区域
CN110428359A (zh) * 2019-08-09 2019-11-08 南京地平线机器人技术有限公司 用于处理感兴趣区域数据的装置和方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100095833A (ko) * 2009-02-23 2010-09-01 주식회사 몬도시스템즈 Roi 의존형 압축 파라미터를 이용하여 영상을 압축하는 장치 및 방법
US8994792B2 (en) * 2010-08-27 2015-03-31 Broadcom Corporation Method and system for creating a 3D video from a monoscopic 2D video and corresponding depth information
EP2661885A2 (en) * 2011-01-05 2013-11-13 Koninklijke Philips N.V. Video coding and decoding devices and methods preserving ppg relevant information
CN103404138B (zh) * 2011-01-05 2017-01-18 皇家飞利浦电子股份有限公司 保留ppg相关信息的视频编码与解码设备及方法
US10771801B2 (en) * 2012-09-14 2020-09-08 Texas Instruments Incorporated Region of interest (ROI) request and inquiry in a video chain
US10045032B2 (en) * 2013-01-24 2018-08-07 Intel Corporation Efficient region of interest detection
KR102088801B1 (ko) 2013-03-07 2020-03-13 삼성전자주식회사 가변블록 사이즈 코딩 정보를 이용한 관심영역 코딩 방법 및 장치
CN110121885B (zh) * 2016-12-29 2023-07-25 索尼互动娱乐股份有限公司 用于利用注视跟踪的vr、低等待时间无线hmd视频流传输的有凹视频链接
CN113453007A (zh) * 2020-03-24 2021-09-28 合肥君正科技有限公司 一种提高监控场景h264编码效率的方法
CN111614962B (zh) * 2020-04-20 2022-06-24 同济大学 一种基于区域块级jnd预测的感知图像压缩方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7184100B1 (en) * 1999-03-24 2007-02-27 Mate - Media Access Technologies Ltd. Method of selecting key-frames from a video sequence
JP4153202B2 (ja) * 2001-12-25 2008-09-24 松下電器産業株式会社 映像符号化装置
GB2395852B (en) * 2002-11-29 2006-04-19 Sony Uk Ltd Media handling system
US7131059B2 (en) * 2002-12-31 2006-10-31 Hewlett-Packard Development Company, L.P. Scalably presenting a collection of media objects
US7496228B2 (en) * 2003-06-13 2009-02-24 Landwehr Val R Method and system for detecting and classifying objects in images, such as insects and other arthropods
US7512286B2 (en) * 2003-10-27 2009-03-31 Hewlett-Packard Development Company, L.P. Assessing image quality
US7447337B2 (en) * 2004-10-25 2008-11-04 Hewlett-Packard Development Company, L.P. Video content understanding through real time video motion analysis

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945287A (zh) * 2010-10-14 2011-01-12 杭州华三通信技术有限公司 一种roi编码方法及其系统
CN101945287B (zh) * 2010-10-14 2012-11-21 浙江宇视科技有限公司 一种roi编码方法及其系统
CN102685491A (zh) * 2012-03-02 2012-09-19 中兴通讯股份有限公司 一种实现视频编码的方法和系统
CN102685491B (zh) * 2012-03-02 2015-01-28 中兴通讯股份有限公司 一种实现视频编码的方法和系统
CN109076229A (zh) * 2016-05-19 2018-12-21 高通股份有限公司 在图片中最感兴趣的区域
CN109076229B (zh) * 2016-05-19 2022-04-15 高通股份有限公司 在图片中最感兴趣的区域
CN110428359A (zh) * 2019-08-09 2019-11-08 南京地平线机器人技术有限公司 用于处理感兴趣区域数据的装置和方法
CN110428359B (zh) * 2019-08-09 2022-12-06 南京地平线机器人技术有限公司 用于处理感兴趣区域数据的装置和方法

Also Published As

Publication number Publication date
WO2009023188A2 (en) 2009-02-19
US20100183070A1 (en) 2010-07-22
BRPI0815510A2 (pt) 2015-02-10
EP2183921A2 (en) 2010-05-12
JP2010537489A (ja) 2010-12-02
KR20100042645A (ko) 2010-04-26
WO2009023188A3 (en) 2009-04-16

Similar Documents

Publication Publication Date Title
CN101779465A (zh) 使用兴趣区域(roi)信息改进视频编码的方法和设备
CN101658035B (zh) 用于质量受控编码的方法和系统
CN103975590B (zh) 用于针对图像的重建样本的集合提供补偿偏移的方法和装置
CN101171843B (zh) 用于多媒体处理的内容分类
Meddeb et al. Region-of-interest-based rate control scheme for high-efficiency video coding
CN105706449A (zh) 样本自适应偏移控制
CN101960491A (zh) 自适应感兴趣特征颜色模型参数估计的方法和设备
CN113766226A (zh) 图像编码方法、装置、设备及存储介质
CN104885455A (zh) 用于高效下一代视频编码的通过使用帧层次敏感的量化的内容自适应比特率和质量控制
CN110149513A (zh) 选择运动向量精度
CN103155553A (zh) 从多个相邻量化参数中确定量化参数预测值的方法和装置
CN101164344A (zh) 感兴趣区域视频编码的内容自适应背景跳过
CN101326809A (zh) 在视频串流中用于拍摄检测的方法和设备
WO2006004605B1 (en) Multi-pass video encoding
WO2018095890A1 (en) Methods and apparatuses for encoding and decoding video based on perceptual metric classification
CN108769696A (zh) 一种基于Fisher判别式的DVC-HEVC视频转码方法
Fu et al. Fast intra coding of high dynamic range videos in SHVC
Hadizadeh et al. Saliency-preserving video compression
Ma et al. An adaptive lagrange multiplier determination method for dynamic texture in HEVC
CN109644274A (zh) 利用样本自适应偏移的视频译码的方法和装置
CN113676729A (zh) 一种视频编码的方法、装置、计算机设备及存储介质
CN110611815A (zh) 一种视频输出方法、装置以及存储装置
Deng et al. Complexity control of HEVC based on region-of-interest attention model
Gao et al. An Optimal Rate Control Algorithm for HEVC Inter Frame Based on SVM
US20230412807A1 (en) Bit allocation for neural network feature channel compression

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100714