CN102656886A - 知晓对象的视频编码策略 - Google Patents

知晓对象的视频编码策略 Download PDF

Info

Publication number
CN102656886A
CN102656886A CN2010800570289A CN201080057028A CN102656886A CN 102656886 A CN102656886 A CN 102656886A CN 2010800570289 A CN2010800570289 A CN 2010800570289A CN 201080057028 A CN201080057028 A CN 201080057028A CN 102656886 A CN102656886 A CN 102656886A
Authority
CN
China
Prior art keywords
frame
skew
frames
masking
confirm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800570289A
Other languages
English (en)
Other versions
CN102656886B (zh
Inventor
斯塔拉姆·巴加瓦蒂
琼·利亚奇
张冬青
杰瑟斯·巴肯斯-帕劳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
International Digital Madison Patent Holding SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN102656886A publication Critical patent/CN102656886A/zh
Application granted granted Critical
Publication of CN102656886B publication Critical patent/CN102656886B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/21Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with binary alpha-plane coding for video objects, e.g. context-based arithmetic encoding [CAE]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

提供了一种知晓对象的视频编码方法,该方法包括如下步骤:接收具有多个帧的视频序列;选择至少两帧;确定所选帧中的每一个中的至少一个感兴趣的对象的全部区域;将全部区域与阈值区域相比较;将至少两帧中每一个分类为低对象加权帧或高对象加权帧,该低对象加权帧是具有超过阈值区域的全部区域的帧,该高对象加权帧是具有未超过阈值区域的全部区域的帧;以及根据一种编码模式来对每个低对象加权帧进行编码,并且,根据不同的编码模式来对每个高对象加权帧进行编码。

Description

知晓对象的视频编码策略
相关申请的交叉引用
本申请要求2009年12月14日递交的美国临时申请序列号为61/284151的优先权,其全部内容通过引用被结合于此。
技术领域
本发明涉及知晓对象(object-aware)的视频编码。
背景技术
在许多视频编码应用中,必须在限制比特率的情况下对视频进行编码,例如,50-400kbps对于传送到移动设备而言是典型的。用低比特率来编码视频导致可视信息的丢失,并且因此,影响其主观质量或观看体验。在这种存在丢失的编码条件下,通过减少在显著或重要区域中的质量损失可提升主观质量。
在某些系统中,诸如图1中所示的对象高亮系统,检测到感兴趣的对象或区域,并且,通过预处理和/或使用知晓对象的编码器来更好地保留重要的对象,其编码后的质量被提升。由于对于观看者而言,能够清晰地看到视频中感兴趣的对象(诸如,在足球视频中的球或球员)是重要的,因此要这样做。
典型的知晓对象的编码器能够接收关于视频中的各种对象或区域的信息并使用该信息以便更好地保留重要的对象,并且因此,提升用户的观看体验。这种编码器通常通过利用对象信息来工作,以便引导诸如资源分配和模式判决之类的编码操作。
存在多种能够保留对象的方法,但是,针对给定的视频,选择一个方法可能不产生针对整个视频的最佳对象保留。如此,存在对如下对象保留方法的需要:该方法具有足够的反映性(reflexible)以最佳地保留整个视频。
发明内容
提供了一种知晓对象的视频编码方法,该方法包括如下步骤:接收具有多个帧的视频序列;选择至少两帧;确定所选帧中的每一个中的至少一个感兴趣的对象的全部区域;将全部区域与阈值区域相比较;将至少两帧中每一个分类为低对象加权帧或高对象加权帧,该低对象加权帧是具有超过阈值区域的全部区域的帧,该高对象加权帧是具有未超过阈值区域的全部区域的帧;以及根据一种编码模式来对每个低对象加权帧进行编码,并且,根据不同的编码模式来对每个高对象加权帧进行编码。该方法还包括:确定帧中哪些宏块包含所述至少一个感兴趣的对象;确定所述至少两帧中的每一个的初始QP;对所述低对象加权帧的初始QP应用偏移;以及响应于应用步骤,增加对包含在所述至少一个感兴趣的对象中的宏块的比特分配。另外的步骤可包括针对那些连续的高对象加权帧,从帧处的时间掩蔽效应量来确定(106)每帧的QP偏移贡献(ΔQPMasking);将ΔQPMasking与从帧类型所获得的QP偏移贡献(ΔQPType)相组合(110);以及利用如下比特率来编码连续的高对象加权帧(114),该比特率是通过利用与从帧类型所获得的QP偏移贡献(ΔQPType)相组合所算出的ΔQPMasking来获得;计算(102)连续的高对象加权帧的帧复杂度;基于连续的高对象加权帧的每个GOP的GOP边界和GOP编码图样来选择(104)帧类型;以及基于帧类型来计算(106)每帧的QP偏移贡献(ΔQPType),其中,所述从帧处的时间掩蔽效应量来确定(106)每帧的QP偏移贡献(ΔQPMasking)的步骤是利用ΔQPMasking(n)=a·ComplMasking(n)来执行的,其中,ComplMasking(n)包括被计算为高对象加权帧的预定大小的窗口中的当前帧的邻近帧的均值的帧的时间掩蔽复杂度。该方法还包括如下步骤:在所有高对象加权帧上计算(108)平均ΔQPMasking;归一化(110)ΔQPMasking;以及计算(110)最终的每帧ΔQP;利用所计算的最终的每帧ΔQP来计算(112)所分配的比特预算和速率控制。所述计算高对象加权帧的每帧的帧复杂度(102)的步骤可通过利用前向帧间预测来执行。
知晓对象的视频编码方法的另一实施例包括如下步骤:接收具有多个帧的视频序列;选择至少两帧;确定所选帧中的每一个中的至少一个感兴趣的对象的全部区域;将全部区域与阈值区域相比较;将至少两帧中每一个分类为低对象加权帧或高对象加权的帧;根据一种编码模式来对每个低对象加权帧进行编码,并且,根据不同的编码模式来对每个高对象加权帧进行编码;针对那些连续的高对象加权帧,从帧处的时间掩蔽效应量来确定(106)每帧的QP偏移贡献(ΔQPMasking);将ΔQPMasking与从帧类型所获得的QP偏移贡献(ΔQPType)相组合(110);以及利用比特率来编码(114)连续的高对象加权帧,该比特率通过利用与从帧类型所获得的QP偏移贡献(ΔQPType)相组合所算出的ΔQPMasking来获得;确定帧中哪个宏块包含所述至少一个感兴趣的对象;确定所述至少两帧中的每一个的初始QP;以及针对所述低对象加权帧,将偏移应用到所述初始QP,使得包含在所述至少一个感兴趣的对象中的宏块的比特分配增加。
该方法的其他实施例可包括如下步骤:接收具有多个帧的视频序列;选择至少两帧;确定所选帧中的每一个中的至少一个感兴趣的对象的全部区域;将全部区域与阈值区域相比较;将至少两帧中每一个分类为低对象加权帧或高对象加权帧;根据一种编码模式来对每个低对象加权帧进行编码,并且,根据不同的编码模式来对每个高对象加权帧进行编码;针对所述低对象加权帧的多于一个编码模式,确定原始宏块像素和编码后的宏块像素之间的绝对差之和(SAD);选择在所述低对象加权帧的绝对差之和确定步骤中具有比至少另一个编码模式的绝对差之和更低的绝对差之和的编码模式;以及根据在选择步骤中所选出的各自编码模式来对所述低对象加权帧进行编码。此处,这些实施例可包括在绝对差之和确定步骤中应用编码器权重阵列,使得对象像素比非对象像素被指派更大的权重。
本发明的其他实施例包括一种用于编码视频序列的编码器,其中,该编码器被适配为包括用于确定视频帧中的感兴趣的对象的区域的部件;用于设定模式选择阈值区域的部件;用于比较对象区域和多个帧的阈值区域的部件;用于响应于比较部件来选择编码模式的部件,其中,选择部件被适配为针对不同帧选择不同的编码模式;以及用于编码的部件,其中,编码部件被适配为用所述不同的编码模式来对所述不同帧进行编码。确定部件可确定组成所述感兴趣的对象的像素数。所述选择部件可针对具有超过所述阈值区域的像素数的区域的帧使用感知量化参数偏移确定,所述编码部件用响应于所述感知量化参数偏移确定的编码模式来对帧进行编码。所述选择部件能可替换地使用天真QP偏移确定,其中,所述选择部件被适配为确定具有未超过阈值的像素数的区域的所述至少两帧中的每一个的初始QP,针对所述至少两帧将偏移应用到所述初始QP,以及响应于所述偏移以增加包含在所述至少一个感兴趣的对象中的宏块的比特分配,所述编码部件用响应于所述偏移的编码模式来对具有未超过阈值帧的像素数的区域的所述至少两帧进行编码。所述选择部件还可使用天真QP偏移确定,其中,所述选择部件被适配为确定具有未超过阈值的像素数的区域的所述至少两帧中的每一个的初始QP,针对所述至少两帧将偏移应用到所述初始QP,以及响应于所述偏移以增加包含在所述至少一个感兴趣的对象中的宏块的比特分配,所述编码部件用响应于所述偏移的编码模式来对具有未超过阈值帧的像素数的区域的所述至少两帧进行编码。
附图说明
现将通过示例并参照附图来描述本发明:
图1是本发明中所使用的用于增强所构造的数字视频中的对象的可视性的系统的框图;
图2示出了图1的系统所提供的近似对象定位;
图3是根据本发明的对象高亮显示的流程图;
图4在(a)和(b)中示出了对象友好的宏块(MB)的示例,并且,在(c)中示出了“不友好”MB的示例;
图5是本发明中所使用的利用基于全局优化的R-QP模型的帧级比特分配中的感知帧级QP偏移的对整个视频片段的编码处理的示例性流程图;以及
图6是本发明中所使用的能够实现比特分配的示例性标准视频编码器的框图。
具体实施方式
本发明涉及通过混合方法来改进对象保留,该混合方法包括量化参数(QP)偏移,加权失真度量和感知量化(QP)偏移。
本发明适用于各种类型的知晓对象的编码器,并且,可涉及减小组成重要对象或区域的宏块的QP或量化步长,并且,还可涉及减少组成不重要对象或区域的宏块的QP或量化步长。
在发明的实施例中,方法保留视频中的重要对象。基于某些标准,编码器例如可使用相关宏块(MB)的QP偏移、加权失真度量和感知QP偏移(或其组合)。介绍了一种新型的加权失真度量,其允许对象信息来影响编码模式判决。
图1示出了适用于本发明的实施例的对象高亮显示系统。具体地,根据本发明所构造的对象增强系统可将所有组件布置在发送机10中,或者对象增强组件可在接收机20中。在可执行对象高亮显示的处理链中存在三个阶段:(1)预处理,在编码(即,压缩)阶段之前,对象在发送机10中被增强;(2)编码,通过对关于对象和其位置的信息的提炼,包括对象的感兴趣的区域在发送机10中被给予特殊的处理;以及(3)后处理,通过利用通过比特流作为元数据从发送机10发送的关于对象和其位置的边信息,在解码后,对象在接收机20中被增强。根据本发明所构造的对象增强系统可被布置以仅在以上所标识的阶段中的一个中提供对象高亮显示,或在以上所标识的阶段中的两个中提供对象高亮显示,或在以上所标识的所有三个阶段中提供对象高亮显示。
用于增强数字图片中的对象的可视性的图1的系统包括用于提供包括感兴趣的对象的输入视频的部件。包括将要增强其可视性的对象的数字图片的来源可以是具有惯常构造和操作的电视相机,并且,其由箭头12所示。
图1的系统还包括用于存储代表感兴趣的对象的性质和特征的信息(例如,对象模板)并响应于视频输入和代表对象的性质和特征的信息而开发标识并定位对象的对象定位信息的部件。在图1中标识为对象定位模块14的这种部件包括用于逐帧地扫描输入视频以在具有类似于所存储的代表感兴趣的对象的性质和特征的信息的性质和特征的图片中标识对象(即,对象是什么)并定位该对象(即,对象在哪里)的部件。对象定位模块14可以是具有惯常构造和操作的单元,其逐帧扫描输入视频的数字图片并比较所扫描的输入视频的数字图片的扇区和代表感兴趣的对象的性质和特征的所存储的信息,以便当从对特定扇区的扫描所开发出的信息类似于代表对象的性质和特点的所存储的信息时,通过数字图片的网格坐标来标识并定位感兴趣的对象。
一般而言,在标识和定位感兴趣的对象时,对象定位模块14实现以下方法中的一个或多个:
●对象追踪-对象追踪器的目标是定位视频中的运动对象。通常,给定来自之前帧的运动对象的历史,追踪器估计当前帧中的对象参数(例如,位置,大小)。追踪方式例如可基于模板匹配、光学流、卡尔曼滤波器、均值漂移分析、隐马尔科夫模型和粒子滤波器。
●对象检测-对象检测的目标是基于关于对象的现有知识来检测图像或视频帧中的对象的存在和位置。对象检测方法一般利用自上而下和自下而上方式的组合。在自上而下方式中,对象检测方法是基于从对检测到的对象的认知所导出的规则的。在自下而上方式中,对象检测方法将对象与低级结构特征或模式相关联,并且然后,通过搜索这些特征或模式来定位对象。
●对象分割-在该方式中,图像或视频被分解为组成“对象”,其可包括语义实体或可视结构,诸如,色渍(color patch)。该分解一般基于对象的运动、颜色和纹理属性。对象分割具有若干应用,其包括紧致视频编码、自动和半自动基于内容的描述、影片后期制作和场景诠释。具体地,分割通过提供对场景的基于对象的描述来简化了对象定位问题。
图2示出了由对象定位模块14所提供的近似对象定位。例如,用户在对象所位于的区域周围画椭圆来近似定位该对象。最终,可提炼近似对象定位信息(即,椭圆的中心点、长轴和短轴参数)。
理想情况下,对象定位模块14运行在全自动模式中。但是,在实践中,可能需要某些手动帮助来校正系统所做出的错误,或者至少为系统定义要定位的重要的对象。增强非对象区域可导致观看者被分散注意力并错过真实的动作。为了避免或最小化该问题,如上所述,用户可在对象周围画椭圆,并且,系统随后从所指定的位置追踪对象。如果在帧中成功定位了对象,则对象定位模块14输出对应的椭圆参数(即,中心点、长轴和短轴)。理想情况下,该边界椭圆的轮廓将与对象的轮廓一致。
但是,当参数可能仅是近似的并且结果椭圆并未紧密包含对象并且应用了对象增强时,可能出现两个问题。首先,对象可能未被完全增强,因为椭圆并未包含整个对象。其次,非对象区域可能被增强。因为这两种结果都是不希望的,因此,在这种情形下在增强之前提炼对象区域是有用的。以下更加详细地考虑了对对象定位信息的提炼。
图1中的系统还包括用于响应于视频输入和从对象定位模块14所接收的对象定位信息来开发包含感兴趣的对象和对象所位于的区域的数字图片部分的增强视频的部件。在图1中被标识为对象增强模块16的这种部件可以是惯常构造和操作的单元,其通过向该区域应用惯常的图像处理操作来增强包含感兴趣的对象的数字图片的区域的可视性。逐帧从对象定位模块14接收的对象定位信息包括感兴趣的对象所位于的具有预定大小的区域的网格坐标。另外,如上所述,对象增强有助于降低在编码阶段期间的对象劣化,该编码阶段在增强阶段之后,并且,以下描述了该编码阶段。至此,图1中的系统的操作对应于上述操作的预处理模式。
当增强对象时,通过在感兴趣的对象所位于的区域中应用图像处理操作来提升对象的可视性。可沿着对象边界(例如,边缘锐化)、在对象内部(例如,纹理增强)并甚至可能在对象外部(例如,对比增加、模糊对象区域的外部)来应用这些操作。例如,一种更加关注对象的方式是锐化对象内的并沿着对象轮廓的边缘。这使得对象中的细节更加可见,并且,还使得对象从背景中突出出来。另外,更加锐化的边缘易于更好地幸免于编码。另一种可能是例如通过迭代地应用平滑、锐化和对象提炼操作(并不必以该次序来进行)来放大对象。
在图3中以更加简化的示图使出的对象高亮显示系统在输入视频305中检测重要的对象310,通过合适的预处理315来执行对象增强,并且,具有保留对象的知晓对象的编码器320。该知晓对象的编码器利用来自对象定位模块的对象信息,以便在编码处理期间更好地保留感兴趣的对象。
视频帧的对象信息由“编码器权重阵列”W(x,y)来表示,其为值序列,每个值针对帧中的每个像素(x,y)。更重要的对象的组成像素具有更大的权重。通常,背景像素权重可被设置为0。
为了更好地保留对象,可在知晓对象的视频编码器中使用若干方法。这些保留方法可以是天真QP偏移、加权失真度量和感知QP偏移。
天真QP偏移方法通常涉及利用编码器权重阵列,使得可以确定帧中的哪些宏块(MB)包括感兴趣的对象。取决于MB中的对象权重和对象像素数,可以应用合适的偏移来减少MB的QP。这将更多比特分配给这些MB,其导致更好的感知质量。
加权失真度量涉及使得编码器针对每个MB做出若干模式判决(诸如,内/间/跳/直接编码)和图4中所示的MB分割方法(16×16、8×8、4×4等)。这些判决基于速率-失真(R-D)折衷,其中,速率对应于所分配的比特数,而失真是对编码保真度的度量。失真一般被计算为原始MB像素值和编码后的MB像素值之间的绝对差之和(SAD)。为了更好地保留对象,该处理反之使用加权SAD,其中,对象像素处的差异比非对象像素被加权更高(即,与大于1的值相乘)。对象像素权重是从编码器权重阵列获得的。像素(x,y)的权重由W(x,y)+1所给出。通过在对象像素处强调失真,加权失真度量导致更好的对象保留,因为R-D优化试图选择最小化整个MB失真的模式。
感知QP偏移方法可被特征描述为感知帧级QP偏移方式。当将要保留的对象跨越许多MB时,感知QP偏移特别有用。本质上,感知QP偏移在参考帧(I帧和P帧)中产生更好的质量,并且随后,产生更好的整体编码效率。感知QP偏移的前提是以下关系:
QPI<QPP<QPB.                (1)
其中,QPI、QPP和QPB分别表示I帧、P帧和B帧的QP。速率控制与恒定帧QP和帧的最终QP的公式是所假定的恒定QP(即,对所有帧都是相同的)与该帧的特定QP偏移之和。在该情形中,每个帧类型的优选QP偏移等同于:
ΔQPI<ΔQPP<ΔQPB.          (2)
其中,ΔQPI、ΔQPP和ΔQPB分别表示I帧、P帧和B帧的QP偏移。
帧级QP偏移计算的另一重要因素是人类视觉系统(HVS)的时间或运动掩蔽效应。基本上,人眼队高运动帧的质量劣化比对低运动帧的质量劣化更加不敏感。如此,由于其更高的时间掩蔽效应,与低运动帧相比,更小的QP应当被应用到高运动帧中,而相同的感知质量水平仍可在编码后的视频中感知到。
该方式试图有效地从帧处的时间掩蔽效应量来计算每帧的QP偏移贡献,并且然后,适当地将来自每帧的QP偏移贡献与来自帧类型的原始QP偏移贡献相组合。结果的帧级QP偏移考虑帧类型和时间掩蔽效应二者,并且因此更加全面。该方式调整了离线视频编码中的整个视频剪辑或序列的帧比特分配(FBA)。尽管如此,该方式一般还适用于在线实时视频编码,取决于所涉及的前看时间(look-ahead time),其具有各种程度的质量提升。大量的实验已经表明,为了确保来自离线视频编码中的全局优化FBA的显著的可视质量提升,将时间掩蔽效应考虑到每帧QP偏移中是比考虑帧类型因素更加必要和关键的。
大多数用于在线或离线视频编码的速率控制机制仅在FBA中考虑帧类型因素,而根本不考虑来自HVS掩蔽效应的任何影响。因此,在离线编码情形中,即便在平均峰值信噪比(PSNR)中所测量的目标编码效率可经由基于帧类型的每帧QP偏移在在线编码上显著提升,仍旧无法观察到显著的感知质量提升。已经发现,由于对序列的所有帧的比特分配的全局优化,与器在在线编码中的情形相比,高运动帧被用更多的比特来分配和编码。在在线编码情形中,比特首先被分配到每个GOP(图片群组),并且,为了确保恒定的比特率(CBR),GOP所分配的比特仅与所涉及的帧数(即,GOP大小)成正比,而不受其不同的编码复杂度(例如,高运动或低运动等)影响。因此,在离线编码情形中,给定更多比特,与其在在线编码中相比,高运动帧被用更高的PSNR编码。在另一方面,由于比特总量是相同的,因此,低运动帧被用更低的PSNR编码。在该情形中,PSNR变化确实被极大地减少了。但是,更加恒定的PSNR并不意味着更加恒定的感知质量。由于HVS时间掩蔽效应,高运动帧PSNR增益比低运动帧PSNR下降更加难感知到。因此,整体的感知质量通常比在线编码差。如此,该方式认定在整个剪辑的全局FBA中考虑时间掩蔽效应对于感知质量增强而言是必要和关键的。
值得注意的是:涉及考虑时间掩蔽的FBA的特定方式通常具有潜在的速率模型,该速率模型或者是基于分类的,或者是基于帧复杂度的,其并不如针对速率控制所广泛采用的R-QP建模方式那样准确和通用。另外,广泛采用的考虑时间掩蔽的方式并不是经由FBA中的每帧QP偏移的,并且因此,不能被应用于基于R-QP模型的速率控制解决方案。
因此,感知帧级QP偏移方式实际上是由于时间掩蔽所带来的QP偏移部分(由ΔQPMasking表示)与由于帧类型所带来的部分(由ΔQPType表示)的适当的组合。该机制对于在实时单通编码上呈现在线多通编码的显著感知质量提升是关键的。
带有帧复杂度度量的时间掩蔽效应被定义如下:
Cmpl = R ‾ mv + MAD ‾ ( Inter _ pred _ residue _ MBs ) - - - ( 3 )
Cmpl=max(0.1,Compl-2)        (4)
其中,Cmpl表示帧的复杂度。
Figure BPA00001564766300102
表示帧的每个MB的平均MV编码比特。
Figure BPA00001564766300103
表示帧中的所有MB上的预测残余的平均绝对差均值(MAD)。因此,它们的和确实表示当前帧的运动强度,其还等同表示编码复杂度和帧间变化。(3)中的简单求和形式经由大量实验从好的试探法中导出。
在编码器中,
Figure BPA00001564766300111
和由此的Cmpl都是基于原始的输入帧在对帧进行编码之前计算的,并且,
Figure BPA00001564766300112
仅占有Luma分量。该计算在简化的编码处理之后,其包括:仅检查16×16间和16×16内模式,并且,仅搜索整数运动向量。
从(3)所计算的帧的复杂度经由(4)被进一步限制。当复杂度低于0.1时,由于内在的图像噪声,预测残余将被看作是存在的,并且因此,可将最低复杂度设置为0.1,其还用作防止可能的“除以零”错误。另外,即便没有运动向量差,(3)中的最小平均运动向量比特
Figure BPA00001564766300113
仍旧是2。因此,该部分总被移除。
注意,这里,针对每帧,仅经由前向帧间预测来计算帧复杂度,因为帧显示或观看次序遵循前向方向。即,针对任意帧,不管其帧类型是什么(即,I帧、P帧或B帧),将仅利用(3)中所计算的帧复杂度来测量器运动强度以及由此的运动掩蔽效应。
如可从以下方程(10)中看出的,最终的QP偏移实际上是由于时间掩蔽(由ΔQPMasking表示)所导致的QP偏移部分和由于帧类型(由ΔQPType表示)所导致的部分的适当的组合。该机制对于在实时单通编码上呈现离线多通编码的显著感知质量提升是关键的。该机制涉及以下计算:
●针对帧n,计算ΔQPMasking
Compl Masking ( n ) = 1 2 K + 1 Σ i = n - K n + K Compl ( i ) . - - - ( 5 )
●如果帧n是场景变更帧,不进行(5),而是:
Compl Masking ( n ) = 1 K + 1 ( min ( Compl max , Compl ( n ) ) + Σ i = n + 1 n + K Compl ( i ) ) - - - ( 6 )
ΔQPMasking(n)=a·ComplMasking(n)               (7)
ΔQP Masking ‾ = 1 N Σ i = 1 N ΔQ P Masking ( i ) - - - ( 8 )
Δ QP Masking ( n ) = min ( Δ QP Masking , max , max ( Δ QP Masking , min , Δ QP Masking ( n ) - ΔQP Masking ‾ ) ) - - - ( 9 )
此处,K=1.2K+1=3是窗口大小。Complmax=40.a=0.5。N表示视频剪辑中的总帧数。ΔQPMasking.max=8,
ΔQPMasking.min=-8。
●针对帧n,计算ΔQPType
●如果是I帧:
Figure BPA00001564766300121
●如果是P帧:
如果其被用于对B帧的预测→ΔQPType(n)=-2
否则→ΔQPType(n)=0
●如果是B帧:→ΔQPType(n)=+4
此处,GOPAvgCompl是除了第一个I帧以外的当前GOP的平均帧复杂度。
●计算最终的ΔQP:针对帧n,
ΔQP(n)=min(ΔQPmax,max(ΔQPmin,ΔQPMasking(n)+ΔQPType(n))).(10)
此处,ΔQPmax=15,ΔQPmin=-15。
在(5)中,帧的时间掩蔽复杂度被计算为某窗口大小(即,2K+1)中的当前帧的邻近帧的平均帧复杂度。这是要应用某些低通滤波来避免由于可能的帧复杂度的高动态变更所带来的帧的时间掩蔽效应的高动态变更。
针对场景变更帧,其帧复杂度将是非常高的。因此,其时间掩蔽复杂度特别按照(6)来计算,其中,针对帧复杂度应用最大约束,并且,求平均仅适用于相同场景中的前向邻近帧。
给定时间掩蔽帧复杂度,来自时间掩蔽效应的QP偏移部分经由(7)中的线性映射被计算。这是从好的试探法导出的,其与复杂度度量一起高效工作。来自(7)的ΔQPMasking(n)随后被用平均ΔQPMasking归一,并且,如(9)所示,被限制在某合理范围内。
本发明的ΔQPType计算体现了(2)中所描述的试探规则。具体地,如果GOP具有更多帧,或者如果GOP具有更低的运动,则将更偏好GOP中的第一I帧的更多比特,因为这将为GOP中的后续帧带来更多的编码效率益处。因此,在这些情形中,将希望更加负的QP偏移,反之亦然。
来自时间掩蔽效应和帧类型影响二者的QP偏移随后经由(10)中的简单相加和限界被组合到一起。结果的来自(10)的每帧QP偏移将随后被用于基于R-QP建模的速率控制解决方案中,以计算序列中每帧所分配的比特,同时假定针对比特分配中的恒定质量,QP是恒定的。
以下描述了对这种用于帧级比特分配的速率控制解决方案的简要描述。
1.搜索最优QP,其表示为QPOpt,s.t.
min QP | R Total - Σ i = 1 N R i ( QP + Δ QP i ) | . - - - ( 11 )
2.基于QPOpt,计算每帧所分配的比特预算:
Ri,alloc=Ri(QPOpt+ΔQPi).              (12)
此处,RTotal表示整个视频序列的总比特数。N是视频序列中的总帧数。Ri是帧i的比特数。ΔQPi是按照(8)所计算的感知帧级QP偏移。Ri.alloc是帧i所分配的比特数。
图5的流程图中示出了在基于全局优化R-QP模型的帧级比特分配中利用感知帧级QP偏移的整个视频序列的处理500的示例。如所示,整个输入视频序列被接收,并且,针对每帧,利用上述简化的编码(方程(3)和(4))来计算帧复杂度(502)。然后,针对每帧,利用关于每个GOP的GOP边界和GOP编码模式的判决来选择帧类型(504)。然后,针对每帧,利用上述方程(7)和ΔQPType来计算ΔQPMasking(506)。然后,在所有帧上计算平均ΔQPMasking(508)。针对每帧,利用方程(9)来归一化ΔQPMasking,并且,利用方程(10)来计算最终的ΔQP。利用所计算的最终ΔQP,关于方程(11)和(12),再次利用上述基于R-QP的速率控制来计算每帧所分配的比特预算(512)。在该阶段,整个序列被用通过利用MB级速率控制和编码所获得的每帧所分配的比特预算来编码。
大量的实验结果显示:不考虑时间掩蔽效应,仅将ΔQPType用作帧QP偏移,带有方程(9)和(10)中可获得的整个序列的全局优化速率控制没有仅带有一个当前可用的GOP的本地优化速率控制的性能好。但是,通过还考虑如在本发明的实施例中所提出的时间掩蔽效应,可获得显著的感知质量提升。具体地,与GOP优化速率控制相比,带有所提出的帧级QP偏移方式的序列优化速率控制在如下帧中可获得更好的编码质量:(i)与高运动帧邻近的低运动帧;以及(ii)在场景结束处的低运动短GOP,但是,在低运动GOP上质量稍差。总体而言,对编码后的视频的可视体验总是更好的。
图6示出了可应用到本发明中的示例性视频编码器600的框图。初始时,处理器601和存储器602与编码器的所有元件进行信号通信,并且,操作于控制编码器的所有元件。到视频编码器600的输入通过信号通信被连接至求和结点610的非反相输入。求和结点610的输出通过信号通信被连接至转换器/量化器620。转换器/量化器620的输出通过信号通信被连接至熵编码器640。熵编码器640的输出作为编码器600的输出可用。
转换器/量化器620的输出还通过信号通信被连接至反相转换器/量化器650。反相转换器/量化器650的输出通过信号通信被连接至去块滤波器660的输入。去块滤波器660的输出通过信号通信被连接至参考图片仓库670。参考图片仓库670的第一输出通过信号通信被连接至运动估计器680的第一输入。到编码器600的输入还通过信号通信被连接至运动估计器680的第二输入。运动估计器680的输出通过信号通信被连接至运动补偿器690的第一输入。参考图片仓库670的第二输出通过信号通信被连接至运动补偿器690的第二输入。运动补偿器的输出通过信号通信被连接至求和结点610的反相输入。
关于天真QP偏移处理,在帧级速率控制方法已经确定了MB的QP之后,其变更QP。但是,通过这种方式变更许多MB可导致速率控制处理中的不稳定并减低整体的感知质量。已经确定,在帧级速率控制处理之前(基于其所希望的感知质量)指定每个MB所希望的QP偏移是更佳的。速率控制处理随后考虑所有信息,以便相应地向每个MB分配资源。
通过以上三种处理(即,天真量化参数(QP)偏移、加权失真度量和感知量化(QP)偏移)的组合,可确定根据本发明的保留感兴趣的对象的策略。该组合可依赖于若干标准,该标准考虑将要保留的对象和场景的特征。
一种策略涉及考虑帧中感兴趣的对象的所有区域。如果带有超过0的编码器权重(即,W(x,y)>0)的多个像素涵盖小于预定阈值区域(Tarea)的区域,则应当使用感知QP偏移方法。
第二种策略涉及考虑包含对象像素的MB的总数或对象像素数。如果包含对象像素的MB的总数或对象像素数具有小于阈值(Tarea)的区域,则使用天真QP偏移方法或加权失真测量。
这两种策略基于如下预期:当将要保留的MB的数量大时,感知QP偏移方法更加鲁棒。但是,当仅涉及一些MB时,天真QP偏移方法和加权失真测量方法提供更好的结果。
确定策略的标准基于对象的数量和场景特征来确定,诸如,感兴趣的对象的区域、对象的重要性、对象的速度和对象保留的历史(例如,之前帧中的对应MB是否被给予更高的QP)。
在本发明的一个应用中,脸部区域在视频会议视频中被检测到并被用于控制背景区域的量化粒度。
前述示出了实践本发明的一些可能。在本发明的范围和精神内,许多其他实施例是可能的。因此,意欲前述描述被看作是阐释性的而非限制性的,并且,本发明的范围由所附权利要求及其等同物的完整范围所给定。

Claims (16)

1.一种方法,包括如下步骤:
从具有多个帧的视频序列选择至少两帧;
确定所选帧中的每一个中的至少一个感兴趣的对象的全部区域;
将每个全部区域与阈值区域相比较;
将具有超过所述阈值区域的全部区域的每个所选帧分类为低对象加权帧;
将具有未超过所述阈值区域的全部区域的每个所选帧分类为高对象加权帧;以及
根据第一编码模式来对每个低对象加权帧进行编码,并且,根据不同的编码模式来对每个高对象加权帧进行编码。
2.根据权利要求1所述的方法,包括:
确定帧中哪些宏块包含所述至少一个感兴趣的对象;
确定所述至少两帧中的每一个的初始QP;
向所述低对象加权帧的初始QP应用偏移;以及
响应于应用步骤,增加对包含在所述至少一个感兴趣的对象中的宏块的比特分配。
3.根据权利要求1所述的方法,包括:
针对那些连续的高对象加权帧,从帧处的时间掩蔽效应量来确定(106)每帧的QP偏移贡献(ΔQPMasking);
将ΔQPMasking与从帧类型所获得的QP偏移贡献(ΔQPType)相组合(110);以及
利用如下比特率来编码(114)连续的高对象加权帧,该比特率是通过利用与从帧类型所获得的QP偏移贡献(ΔQPType)相组合所算出的ΔQPMasking来获得。
4.根据权利要求3所述的方法,还包括如下步骤:
计算(102)连续的高对象加权帧的帧复杂度;
基于连续的高对象加权帧的每个GOP的GOP边界和GOP编码图样来选择(104)帧类型;
计算(106)基于帧类型的每帧QP偏移贡献(ΔQPType)。
5.根据权利要求4所述的方法,还包括如下步骤:
在所有高对象加权帧上计算(108)平均ΔQPMasking
归一化(110)ΔQPMasking;以及
计算(110)最终的每帧ΔQP。
6.根据权利要求5所述的方法,还包括:
利用所计算的最终的每帧ΔQP来计算(112)所分配的比特预算和速率控制。
7.根据权利要求3所述的方法,其中,所述从帧处的时间掩蔽效应量来确定(106)每帧的QP偏移贡献(ΔQPMasking)的步骤是利用ΔQPMasking(n)=a·ComplMasking(n)来执行的,其中,ComplMasking(n)包括被计算为高对象加权帧的预定大小的窗口中的当前帧的邻近帧的均值的帧的时间掩蔽复杂度。
8.根据权利要求4所述的方法,其中,所述计算(102)高对象加权帧的每帧的帧复杂度的步骤是通过利用前向帧间预测来执行的。
9.根据权利要求3所述的方法,包括
确定帧中哪些宏块包含所述至少一个感兴趣的对象;
确定所述至少两帧中的每一个的初始QP;
向所述低对象加权帧的初始QP应用偏移,使得对包含在所述至少一个感兴趣的对象中的宏块的比特分配增加。
10.根据权利要求4所述的方法,包括
确定帧中哪些宏块包含所述至少一个感兴趣的对象;
确定所述至少两帧中的每一个的初始QP;
向所述低对象加权帧的初始QP应用偏移,使得对包含在所述至少一个感兴趣的对象中的宏块的比特分配增加。
11.根据权利要求1所述的方法,包括
针对所述低对象加权帧的多于一个编码模式,确定原始宏块像素和编码后的宏块像素之间的绝对差之和(SAD);
选择在所述低对象加权帧的绝对差之和确定步骤中具有比至少另一个编码模式的绝对差之和更低的绝对差之和的编码模式;
根据在选择步骤中所选出的各个编码模式来对所述低对象加权帧进行编码。
12.根据权利要求11所述的方法,包括
在绝对差之和确定步骤中应用编码器权重阵列,使得对象像素比非对象像素被指派更大的权重。
13.一种用于编码视频序列的编码器,所述编码器包括
用于确定视频帧中的感兴趣的对象的区域的装置;
用于设定模式选择阈值区域的装置;
用于比较多个帧的对象区域和阈值区域的装置;
用于响应于比较装置来选择编码模式的装置,其中,选择装置被适配为针对不同帧选择不同的编码模式;以及
用于编码的装置,其中,该编码装置被适配为用所述不同的编码模式来对所述不同帧进行编码。
14.根据权利要求13所述的编码器,其中
所述确定装置确定组成所述感兴趣的对象的像素数;
所述选择装置针对具有超过所述阈值区域的像素数的区域的帧使用感知量化参数偏移确定;并且
所述编码装置用响应于所述感知量化参数偏移的编码模式来对帧进行编码。
15.根据权利要求14所述的编码器,其中
所述确定装置确定组成所述感兴趣的对象的像素数;
所述选择装置使用天真QP偏移确定,其中,所述选择装置被适配为确定具有未超过阈值的像素数的区域的至少两帧中的每一个的初始QP,对所述至少两帧的初始QP应用偏移,以及响应于所述偏移而增加对包含在所述至少一个感兴趣的对象中的宏块的比特分配;并且
所述编码装置用响应于所述偏移的编码模式来对具有未超过阈值帧的像素数的区域的所述至少两帧进行编码。
16.根据权利要求13所述的编码器,其中
所述确定装置确定组成所述感兴趣的对象的像素数;
所述选择装置使用天真QP偏移确定,其中,所述选择装置被适配为确定具有未超过阈值的像素数的区域的至少两帧中的每一个的初始QP,对所述至少两帧的初始QP应用偏移,以及响应于所述偏移而增加对包含在所述至少一个感兴趣的对象中的宏块的比特分配;并且
所述编码装置用响应于所述偏移的编码模式来对具有未超过阈值帧的像素数的区域的所述至少两帧进行编码。
CN201080057028.9A 2009-12-14 2010-12-08 知晓对象的视频编码策略 Expired - Fee Related CN102656886B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US28415109P 2009-12-14 2009-12-14
US61/284,151 2009-12-14
PCT/US2010/003110 WO2011081639A2 (en) 2009-12-14 2010-12-08 Object-aware video encoding strategies

Publications (2)

Publication Number Publication Date
CN102656886A true CN102656886A (zh) 2012-09-05
CN102656886B CN102656886B (zh) 2016-08-10

Family

ID=44168390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080057028.9A Expired - Fee Related CN102656886B (zh) 2009-12-14 2010-12-08 知晓对象的视频编码策略

Country Status (6)

Country Link
US (1) US9118912B2 (zh)
EP (1) EP2514207A2 (zh)
JP (1) JP5969389B2 (zh)
KR (1) KR101882024B1 (zh)
CN (1) CN102656886B (zh)
WO (1) WO2011081639A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104272737A (zh) * 2013-03-08 2015-01-07 联发科技股份有限公司 通过从多个预定义的候选比特预算中选择目标比特预算进行速率控制的图像编码方法和装置及其相关图像解码方法和装置
WO2015143619A1 (en) * 2014-03-25 2015-10-01 Owtware Holdings Limited, BVI Video content classification
CN106664409A (zh) * 2014-07-30 2017-05-10 英特尔公司 视频编码中的黄金帧选择
CN106920255A (zh) * 2015-12-24 2017-07-04 航天信息股份有限公司 一种针对图像序列的运动目标提取方法及装置
CN108347607A (zh) * 2017-01-25 2018-07-31 联咏科技股份有限公司 固定码率且基于行的嵌入式视频压缩方法和图像处理设备
CN116614631A (zh) * 2023-05-17 2023-08-18 北京百度网讯科技有限公司 视频处理方法、装置、设备及介质

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510644B2 (en) * 2011-10-20 2013-08-13 Google Inc. Optimization of web page content including video
US9236024B2 (en) 2011-12-06 2016-01-12 Glasses.Com Inc. Systems and methods for obtaining a pupillary distance measurement using a mobile computing device
US9235929B2 (en) 2012-05-23 2016-01-12 Glasses.Com Inc. Systems and methods for efficiently processing virtual 3-D data
US9286715B2 (en) 2012-05-23 2016-03-15 Glasses.Com Inc. Systems and methods for adjusting a virtual try-on
US9483853B2 (en) 2012-05-23 2016-11-01 Glasses.Com Inc. Systems and methods to display rendered images
US10045032B2 (en) 2013-01-24 2018-08-07 Intel Corporation Efficient region of interest detection
GB201312382D0 (en) 2013-07-10 2013-08-21 Microsoft Corp Region-of-interest aware video coding
US20150288965A1 (en) * 2014-04-08 2015-10-08 Microsoft Corporation Adaptive quantization for video rate control
FR3022095B1 (fr) 2014-06-06 2017-09-01 Daniel Elalouf Dispositif et procede de transmission de donnees multimedia
EP3098774A4 (en) * 2015-01-30 2017-03-15 DS Global System and method for virtual photography service
US10735755B2 (en) * 2015-04-21 2020-08-04 Arris Enterprises Llc Adaptive perceptual mapping and signaling for video coding
EP3225026A4 (en) * 2015-07-31 2017-12-13 SZ DJI Technology Co., Ltd. Method of sensor-assisted rate control
WO2017020184A1 (en) * 2015-07-31 2017-02-09 SZ DJI Technology Co., Ltd. Methods of modifying search areas
JP6537396B2 (ja) * 2015-08-03 2019-07-03 キヤノン株式会社 画像処理装置、撮像装置および画像処理方法
CN106231303B (zh) * 2016-07-22 2020-06-12 上海交通大学 一种hevc编码中使用预测模式进行复杂度控制的方法
CN106331707B (zh) * 2016-08-30 2020-03-13 上海大学 基于恰可觉察失真模型的非对称感知视频编码系统及方法
KR102683294B1 (ko) * 2018-09-10 2024-07-10 삼성전자주식회사 객체를 인식하는 전자 장치 및 그 전자 장치를 제어하는 방법
KR20210072344A (ko) * 2019-12-09 2021-06-17 삼성전자주식회사 전자장치 및 그 제어방법
CN113011210B (zh) * 2019-12-19 2022-09-16 北京百度网讯科技有限公司 视频处理方法和装置
US11263261B2 (en) 2020-02-14 2022-03-01 Alibaba Group Holding Limited Method and system for characteristic-based video processing
CN114979610A (zh) * 2021-02-26 2022-08-30 微软技术许可有限责任公司 用于3d场景重构的图像传输
WO2023140446A1 (ko) * 2022-01-19 2023-07-27 한화비전 주식회사 영상처리장치 및 그의 영상처리방법
WO2024040535A1 (zh) * 2022-08-25 2024-02-29 深圳市大疆创新科技有限公司 视频处理方法、装置、设备和计算机存储介质
WO2024076273A1 (en) * 2022-10-07 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Object-based qp adaptation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1227684A2 (en) * 2001-01-19 2002-07-31 Motorola, Inc. Encoding of video signals
CN101494785A (zh) * 2008-12-19 2009-07-29 无锡亿普得科技有限公司 一种h.264感兴趣区域编码的方法
WO2009126261A2 (en) * 2008-04-11 2009-10-15 Thomson Licensing System and method for enhancing the visibility of an object in a digital picture

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05227524A (ja) 1991-09-30 1993-09-03 Victor Co Of Japan Ltd データ圧縮装置
US5214507A (en) 1991-11-08 1993-05-25 At&T Bell Laboratories Video signal quantization for an mpeg like coding environment
JP2646921B2 (ja) 1991-11-15 1997-08-27 日本ビクター株式会社 適応量子化装置
JP3258840B2 (ja) 1994-12-27 2002-02-18 シャープ株式会社 動画像符号化装置および領域抽出装置
US6192075B1 (en) 1997-08-21 2001-02-20 Stream Machine Company Single-pass variable bit-rate control for digital video coding
WO2009126258A1 (en) 2008-04-11 2009-10-15 Thomson Licensing System and method for enhancing the visibility of an object in a digital picture
US6782135B1 (en) * 2000-02-18 2004-08-24 Conexant Systems, Inc. Apparatus and methods for adaptive digital video quantization
US6944224B2 (en) * 2002-08-14 2005-09-13 Intervideo, Inc. Systems and methods for selecting a macroblock mode in a video encoder
US20060109902A1 (en) * 2004-11-19 2006-05-25 Nokia Corporation Compressed domain temporal segmentation of video sequences
EP1872590B1 (en) * 2005-04-19 2014-10-22 Telecom Italia S.p.A. Method and apparatus for digital image coding
US8149909B1 (en) * 2005-10-13 2012-04-03 Maxim Integrated Products, Inc. Video encoding control using non-exclusive content categories
JP4993676B2 (ja) * 2006-09-01 2012-08-08 キヤノン株式会社 画像符号化装置及び画像符号化方法
WO2009045682A2 (en) * 2007-09-28 2009-04-09 Athanasios Leontaris Treating video information
WO2010057170A1 (en) * 2008-11-17 2010-05-20 Cernium Corporation Analytics-modulated coding of surveillance video
US8634436B2 (en) * 2008-11-25 2014-01-21 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for statistical multiplexing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1227684A2 (en) * 2001-01-19 2002-07-31 Motorola, Inc. Encoding of video signals
WO2009126261A2 (en) * 2008-04-11 2009-10-15 Thomson Licensing System and method for enhancing the visibility of an object in a digital picture
CN101494785A (zh) * 2008-12-19 2009-07-29 无锡亿普得科技有限公司 一种h.264感兴趣区域编码的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAI BING YIN, XIANG ZHONG FANG, YAN CHENG: "A Perceptual Two-Pass VBR MPEG-2 Video Encoder", 《IEEE TRANSACTIONS ON CONSUMER ELECTRONICS》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104272737A (zh) * 2013-03-08 2015-01-07 联发科技股份有限公司 通过从多个预定义的候选比特预算中选择目标比特预算进行速率控制的图像编码方法和装置及其相关图像解码方法和装置
CN104272737B (zh) * 2013-03-08 2017-10-10 联发科技股份有限公司 图像编码方法和装置及其相关图像解码方法和装置
US10080018B2 (en) 2014-03-25 2018-09-18 Owtware Holdings Limited, BVI Video content classification
WO2015143619A1 (en) * 2014-03-25 2015-10-01 Owtware Holdings Limited, BVI Video content classification
CN107079155A (zh) * 2014-03-25 2017-08-18 云巅控股有限公司 视频内容分类
CN106664409A (zh) * 2014-07-30 2017-05-10 英特尔公司 视频编码中的黄金帧选择
CN106664409B (zh) * 2014-07-30 2020-07-14 英特尔公司 视频编码中黄金帧选择的方法、系统、设备和介质
CN106920255A (zh) * 2015-12-24 2017-07-04 航天信息股份有限公司 一种针对图像序列的运动目标提取方法及装置
CN106920255B (zh) * 2015-12-24 2020-06-05 航天信息股份有限公司 一种针对图像序列的运动目标提取方法及装置
CN108347607A (zh) * 2017-01-25 2018-07-31 联咏科技股份有限公司 固定码率且基于行的嵌入式视频压缩方法和图像处理设备
CN108347607B (zh) * 2017-01-25 2020-08-18 联咏科技股份有限公司 固定码率且基于行的嵌入式视频压缩方法和图像处理设备
CN116614631A (zh) * 2023-05-17 2023-08-18 北京百度网讯科技有限公司 视频处理方法、装置、设备及介质
CN116614631B (zh) * 2023-05-17 2024-03-19 北京百度网讯科技有限公司 视频处理方法、装置、设备及介质

Also Published As

Publication number Publication date
KR20120114263A (ko) 2012-10-16
US9118912B2 (en) 2015-08-25
KR101882024B1 (ko) 2018-07-25
JP5969389B2 (ja) 2016-08-17
WO2011081639A3 (en) 2011-09-09
US20120224629A1 (en) 2012-09-06
EP2514207A2 (en) 2012-10-24
CN102656886B (zh) 2016-08-10
JP2013513998A (ja) 2013-04-22
WO2011081639A2 (en) 2011-07-07

Similar Documents

Publication Publication Date Title
CN102656886A (zh) 知晓对象的视频编码策略
Lei et al. Fast intra prediction based on content property analysis for low complexity HEVC-based screen content coding
CN110139109B (zh) 图像的编码方法及相应终端
KR101739432B1 (ko) 구역 기반의 톤 매핑
US20100295922A1 (en) Coding Mode Selection For Block-Based Encoding
US10701359B2 (en) Real-time content-adaptive perceptual quantizer for high dynamic range images
US20130107956A1 (en) Generation of high dynamic range images from low dynamic range images
JP2009501479A (ja) テクスチャの領域のための画像コーダ
US20140321552A1 (en) Optimization of Deblocking Filter Parameters
CN104871209A (zh) 减少数字视频流中的随机噪声的方法和设备
CN108141599B (zh) 在视频编解码器中保留纹理/噪声一致性
CN101317185B (zh) 基于视频传感器的自动关注区检测
Sanchez et al. Rate control for lossless region of interest coding in HEVC intra-coding with applications to digital pathology images
CN106664404A (zh) 视频编码中的块分割方式处理方法和相关装置
JP5950605B2 (ja) 画像処理システム、及び、画像処理方法
KR102602690B1 (ko) 화질에 기반한 적응적 부호화 및 복호화를 위한 방법 및 장치
US10771820B2 (en) Image encoding method and apparatus using artifact reduction filter, and image decoding method and apparatus using artifact reduction filter
Kuang et al. Fast intraprediction for high-efficiency video coding screen content coding by content analysis and dynamic thresholding
Kavitha et al. A survey of image compression methods for low depth-of-field images and image sequences
CN106295587B (zh) 一种视频感兴趣区域快速标定方法
Paul et al. Pattern-based video coding with dynamic background modeling
Farah et al. Full-reference and reduced-reference quality metrics based on SIFT
WO2019109988A1 (en) Face region detection based light field video compression
Chao Feature-preserving image and video compression.
KR101656160B1 (ko) 인식 표현을 사용한 인코딩 및 디코딩

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: I Si Eli Murli Nor, France

Patentee after: THOMSON LICENSING

Address before: The French Yixilaimu Leo City

Patentee before: THOMSON LICENSING

CP02 Change in the address of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20190203

Address after: Paris France

Patentee after: International Digital Madison Patent Holding Co.

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING

Effective date of registration: 20190203

Address after: I Si Eli Murli Nor, France

Patentee after: THOMSON LICENSING

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160810

Termination date: 20201208

CF01 Termination of patent right due to non-payment of annual fee