CN101053258A - 用于处理编码的视频数据的方法和设备 - Google Patents

用于处理编码的视频数据的方法和设备 Download PDF

Info

Publication number
CN101053258A
CN101053258A CNA2005800377562A CN200580037756A CN101053258A CN 101053258 A CN101053258 A CN 101053258A CN A2005800377562 A CNA2005800377562 A CN A2005800377562A CN 200580037756 A CN200580037756 A CN 200580037756A CN 101053258 A CN101053258 A CN 101053258A
Authority
CN
China
Prior art keywords
frame
burst
frames
image
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005800377562A
Other languages
English (en)
Inventor
D·布拉泽罗维克
M·巴比里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101053258A publication Critical patent/CN101053258A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/129Scanning of coding units, e.g. zig-zag scan of transform coefficients or flexible macroblock ordering [FMO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本发明涉及一种处理数字编码的视频数据的方法,该数字编码视频数据可以以一个包含划分成分片的接连帧的视频流的形式而得到。这些帧至少包括:不参照其它帧而被编码的I帧、在时间上位于所述I帧之间并至少从以前的I或P帧预测的P帧、以及B帧,这些B帧在时间上位于I帧与P帧之间或位于两个P帧之间并从它们所处在其间的至少这些双帧被双向预测。处理方法包括以下步骤:对于当前帧的每个分片确定有关的分片编码参数和与在每个分片中被编码的各区域之间的空间关系有关的参数;收集对当前帧的所有接连的分片的所述参数,以便传递与所述参数有关的统计特性;分析所述统计特性以便确定在所述当前帧中的感兴趣区域(ROI);以及使得能选择性地使用以这样确定的感兴趣区域为目标的编码的数据。

Description

用于处理编码的视频数据的方法和设备
发明领域
本发明涉及处理数字编码视频数据的方法,该视频数据可以以一个包含被划分成分片的接连的帧的视频流的形式而得到,所述帧至少包括:不参照其它帧而被编码的I帧、在时间上位于所述I帧之间并至少从以前的I或P帧预测的P帧、以及B帧,这些B帧在时间上位于I帧与P帧之间或位于两个P帧之间并且这些B帧从它们所处在其间的至少这些双帧被双向预测。
发明背景
内容分析技术是基于诸如多媒体处理(图像和音频处理),模式识别和人工智能等算法的,它们的目的是自动创建视频材料的解释。这些解释从诸如彩色和纹理结构那样的与低级别信号有关的特性到诸如面部的呈现和位置那样的高级别信息。这样进行的内容分析的结果被用于诸如广告检测、基于情景的分章节、视频预览和视频概要那样的许多基于内容的应用。
已建立的标准(例如,MPEG-2,H.263)和正出现的标准(例如,H.264/AVC,例如在“Emerging H.264 Standard:Overview(正出现的H.264标准:综述)”中和在TMS320C64x数字媒体平台实施方案--白皮书中简要地描述的,见: http://www.ubvideo.com/public)固有地使用基于块的运动补偿编码的概念。因此,视频被表示为语义单元的分级结构,它描述图像属性(例如,尺寸和速率)和空间-时间相互关系,以及用于构建将最终组成原始信号的近似版本的2D数据块的译码过程。得到这样的表示的第一步骤是把图像的RGB数据矩阵变换成YUV矩阵(RGB彩色空间表示法最常用于图像获取和呈现),以使得亮度(Y)和两个色度分量(U,V)可被分开地编码。通常,U和V帧首先在水平方向和垂直方向以二分之一的因数被下采样,得到所谓的4:2:0格式,由此要编码的数据量被减半(这是由人眼对于彩色改变比起对于亮度改变的相对较低的感知度所证实为合理的)。每个帧还被划分成多个非重叠的块,其大小对亮度为16×16像素和对缩减的色度为8×8像素。16×16亮度块和两个相应的8×8色度块的组合被称为宏块(或MB),即基本编码单元。这些惯例对于所有的标准是共同的,各种编码标准(MPEG-2,H.263,和H.264/AVC)之间的差别主要涉及用于把MB划分成较小的方块、用于将子块编码、和用于组织比特流的各种任选方案、技术与处理过程。
不必详细说明所有的编码技术的细节,就可以指出,所有的标准使用两种基本类型的编码:内部的和相互的(运动补偿)。在内部模式中,图像块的像素用它们本身进行编码,而不用参照其它像素,或可能基于(仅仅在H.264)来自在同一个图像中的以前编码的和重建的像素的预测。相互模式固有地使用时间预测,由此在图像块中,某些图像根据以前编码的和重建的参考图像中它的“最好的匹配”而被预测。这里,在实际的块和它的估值与相对于实际的块的坐标的该估值相对位移(或运动向量)之间的面向像素的差值(或预测误差)是分别编码的。
取决于编码类型,规定了三种基本类型的图像(或帧):只允许内部编码的I图像、也允许根据前向预测的相互间编码的P图像、和还允许根据后向或双向预测的相互间编码的B图像。图1例如显示B图像的从两个参考P帧Pi+1和Pi+3的双向预测,运动向量由弯曲的箭头表示,以及Ii和Ii表示其间有这些P帧和B帧的两个接连的I图像。任何B图像的每个块可以由来自过去的P帧的块、来自将来的P帧的块、或由每个来自不同的P图像的两个块的平均值而预测。为了提供对于快速搜索、编辑、错误恢复等等的支持,一系列编码的视频图像通常被划分成一系列图像组,或GOP(图1显示所考虑的视频序列的第i个GOP)。每个GOP从I图像开始,接着是对P图像和任选的对B图像的安排。在图1上,Ii是所显示的第i个GOP的开始图像,而Ii是下一个GOP的开始的图像(未示出)。另外,每个图像被划分成非重叠的一系列的接连的MB,即分片,这样,同一个图像的不同的分片可以互相独立编码(分片也可以包含整个图像)。在MPEG2中,图像的左面边缘常常是新分片的开始,且分片在图像上总是从左到右排列。在其它的标准中,也可以实行更加灵活的分片结构,对于H.264,这将在下面更详细地说明。
因此,编码的视频序列被规定为具有分层的分级结构(图2显示在H.263的情形下的这种结构),包括:序列层、GOP层、图像层、分片层、宏块层、和块层,其中每层包括说明性标题数据。例如,图像层PL将包括:22个比特的图像开始代码(PSC),用于表示图像的开始;8比特的时间基准(TR),用于以它们的原先的次序(当使用B图像时,编码次序是与显示次序不同的)来对准译码的图像等。分片层或本例中的块组的层或GOBL(一个GOB包括图像的k×16行)包括:码字,用于表示GOB的开始(GBSC);图像中GOB的数目(GN),用于GOB的图像标识(GFID)等等。最后,宏块层(MBL)和块层(BL)将包括编码类型信息和实际的视频数据,诸如在宏块级别的运动向量数据(MVD)和在块层级别的变换系数(TCCOEF)。
H.264/AVC是ITU-T和ISO/IEC MPEG的最新的联合视频编码标准,它最近由官方批准为ITUT建议H.264/AVC和ISO/IEC国际标准14496-10(MPEG-4第10部分)先进视频编码(AVC)。H.264/AVC标准化的主要目标是要大大地提高压缩效率(通过使对于达到给定的视频保真度所需要的比特数减半)和网络匹配性。当前,H.264/AVC被广义地认为用于达到这些目标,并且它当前通过诸如DVB、DVD论坛、3GPP等那样的论坛,被考虑在几个应用(下一代无线通信、视频电话、HDTV贮存和广播、VOD等等)领域中所采用。在因特网中,有越来越多的网址提供有关H.264/AVC的信息,在其中ITU-T/MPEGJVT[联合视频小组]的官方数据库(官方H.264文件和JVT的软件,见:ftp://ftp.imtc-file.org/jvt-experts/)提供自由接入到反映包括草案更新的H.264/AVC的开发和状态的文件。
为适配于各种各样的网络和对于数据错误/丢失适配性和鲁棒性提供鲁棒性的上述H.264的灵活性是通过几个设计方面而达到的,在这些设计中间,以下的一些对于在以后某些段落中要描述的本发明是最相关的:
(a)NAL单元(NAL=网络字摘取层):NAL单元(NALU)是在H.264/AVC中基本逻辑数据单元,实际上由包括视频和非视频数据的整数个字节组成。每个NAL单元的第一字节是标题字节,它表示在NAL单元中数据的类型,而其余字节包含由标题表示的那种类型的有用负荷数据。NAL单元结构定义规定了在面向分组(例如RTP)和面向比特流(例如,H.320和MPEG-2|H.222)的输送系统中使用的一般格式,并且由编码器生成的一系列NALU被称为NALU流。
(b)参数组:参数组将包含预期很少改变的信息,并可应用于更大数量的NAL单元。因此,参数组可以与其它数据分开,以用于更灵活和鲁棒的处理(在以前的标准中,标题信息在流中更经常地重复,这样的信息中几个关键比特的丢失可能对译码处理过程具有严重的负面影响)。有两种类型的参数组:应用于被称为序列的一系列接连的编码的图像的序列参数组,和应用于序列内的一个或多个图像的译码的图像参数组。
(c)灵活的宏块排序(FMO):FMO涉及到把图像划分成被称为分片组的区域的新的能力,每个分片变为一个分片组中可独立地译码的子组。每个分片组是由宏块到分片组的映射所规定的宏块组,它由图像参数组的内容(见以上)和来自分片标题的某些信息所规定。通过使用FMO,图像可被分割成许多宏块扫描图案,例如图3所示的那些图案(给出当使用FMO时把图像再划分成分片的某些例子),这可显著增强对在每个分片中被编码的区域之间的空间关系的管理能力。
在计算、通信和数字数据贮存中的最新进展导致在专业和消费者环境下大容量数字归档的巨大增长。因为这些归档的特征在于稳定地增加的容量和内容的多样性,所以找到有效的方法以便快速检索所存储的感兴趣信息是特别重要的。然而,人工地搜索数以太拉(1012)字节计的无组织地存储的数据是冗长的和费时的,因此迫切需要把信息搜索和检索任务转移到自动化系统。
在大的非结构性视频内容的归档中的搜索和检索通常是在通过使用内容分析技术给内容加索引后根据诸如上述的那样的算法来执行的。检测所提到的目标(例如,面部、叠加的文本)的存在和位置,以及在视频帧中跟踪它们,是用于对内容进行自动注解和寻址的重要任务。在没有目标的可能位置的任何已有知识的情况下,目标检测算法需要扫描整个帧,所以,相当消耗计算资源。
发明概要
本发明的目的是提出一种允许通过查看流语义而以更好的计算效率来检测在H.264/AVC视频中感兴趣区域(ROI)编码的使用的方法。
为此,本发明涉及诸如在本说明的引言段落中规定的处理方法,该方法包括以下步骤:
-对于当前帧的每个分片,确定有关的分片编码参数和与在每个分片中被编码的各区域之间的空间关系有关的参数;
-收集对于当前帧的所有接连的分片的所述参数,以便传递与所述参数有关的统计特性;
-分析所述统计特性,以便确定在所述当前帧中的感兴趣区域(ROI);
-使得能选择性地使用以这样确定的感兴趣区域为目标的编码数据。
包括这种技术解决方案的内容分析算法(例如,面部检测,对象检测等等)可以把焦点集中在感兴趣区域,而不是盲目地扫描整个图像。替换地,内容分析算法可以并行地应用于不同区域,这将提高计算效率。
附图简述
现在参照附图作为例子描述本发明,其中:
图1显示视频序列的GOP的例子,并显示所述GOP的B图像的双向预测;
图2显示在H.263比特流语义的情形下在这些层中使用的序列和某些码字各层的分级结构;
图3给出当使用灵活的宏块排序时把图像再划分成分片的某些例子;
图4是为实施按照本发明的处理方法的设备的例子的框图;
图5显示一个来自视频序列的摘录,其中使用FMO的ROI编码是方便的;
图6和7显示在H.264视频中对可能的感兴趣区域进行定位的策略的例子和能够检测感兴趣区域编码的处理步骤。
发明详细说明
考虑到所描述的FMO灵活地把图像分片的能力,预期FMO将广泛地用于ROI编码类型。这种编码涉及到视频或图像分段的、取决于内容的非均等的编码(例如,在视频会议应用中:获取讲话人的面部的图像区域比起背景可以用更好的质量被编码)。FMO在这里可以下列方式来应用,即在每个图像中分开的分片被指定给包括面部的区域,并且在这样的分片中还可以选择更小的量化步骤来增强图像质量。
根据这个考虑,建议分析在视频流中FMO的使用以作为一个表明ROI编码被应用于视频流的某些部分的措施。为了增强ROI指示和最终使能检测ROI边界,把FMO信息与从分片标题提取的信息和可能在视频流中表征分片的其它数据相组合。这个附加信息可以涉及到分片的物理属性,诸如大小和图像中的相对位置,或涉及编码判决,诸如在分片中包含的宏块的缺省的量化尺度(例如,图2上的“GQUANT”)。因此,中心思想是分析在一系列接连的图像中与FMO有关的语义单元的统计特性和分片层的信息。一旦观察到在这些统计特性中某些一致性或模式,这就是对该部分内容中ROI编码的一个良好的指示。例如,在视频会议中使用上述FMO可以通过这样的方法而容易地被检测。
从所建议的ROI编码的检测可以很大地获益的一个应用是内容分析。例如,在许多应用中内容分析的典型目标是面部识别,在这之前的通常是分开地执行的面部检测。这里描述的方法特别地可以在后被利用,以使得面部检测算法目标以几个最重要的分片为目标,而不是盲目地应用到整个图像。替换地,算法可以并行地应用于不同的分片,这提高计算效率。ROI编码也可用于除了视频会议以外的其它应用。例如,在电影情景下,部分内容常常是焦点对准的,而其它内容是焦点没有对准的,这常常相应于情景中的前景和背景的区分。因此,可以相信这些部分可以被分开和在编辑处理过程期间被不等地编码。藉助于本方法检测ROI编码可以有助于使得更能选择性地使用内容分析算法。
用于实施按照本发明的方法处理设备显示于图4,图上显示例如在H.264/AVC比特流的情形下的以前说明的概念(然而,所述例子并不是限制本发明的范围)。在所显示的设备中,多路分接器41接收输送流TS,并生成分接的音频和视频流AS和VS。音频流AS被发送到音频译码器52,它生成如在说明中在后面描述的(在电路44和45中)经过处理的译码音频流DAS。视频流VS由H.264/AVC译码器42接收,以便传递出一个也由电路44接收的译码的视频流DVS。这个译码器42主要包括熵译码电路421、逆量化电路422、逆变换电路423(逆DCT电路)和运动补偿电路424。在译码器42中,视频流VS也由所谓的网络摘取单元(NALU)425所接收,后者是提供来收集与FMO有关的所接收的编码参数用的。
所述单元425的输出信号是与FMO有关的统计信息。所述信息由ROI检测和识别电路43接收,该电路把这个FMO信息与从熵译码电路421提取的和与图像的分片的某些结构属性(诸如它们的大小和它们在图像上的相对位置、在某个分片内宏块的缺省量化尺度、表征FMO的宏块到组的映射等等,所述属性被称为分片编码参数)有关的信息相组合。可以指出,FMO信息是由一个参数组传送的,该参数组取决于应用和输送协议而可以被复接到H.264/AVC流或被分开地输送到可靠的信道RCH,如图4的虚线所示。
如上所述,本发明的原理是分析在一系列接连的图像内与FMO有关的语义单元的统计特性和分片层信息(和有可能在流中表征分片的其它数据),所述分析例如是基于与预定的阈值的比较结果。例如,将检查FMO的存在,并且将分析沿多个接连的图像的分片的数目、相对位置和大小可能改变的量,考虑到在编码流中ROI使用的检测和识别的所述分析是在ROI检测和识别电路43中完成的。在H.264标准的情形下,本发明的中心思想是通过检测沿一系列接连的H.264编码的图像的FMO的使用来检测潜在的ROI,和利用对数量的统计分析(这样的灵活的分片的数目、相对位置和大小的数量是会随不同的图像而改变的)。所有的相关的信息可以通过分析来自H.264比特流的相关的语义单元而被提取。下面的图5到7显示一个例子。
图5显示来自视频序列的摘录,其中ROI编码可能是方便的(在说明性例子中,该摘录包括序列的帧号1,10,50和100)。ROI(在这种情形下,是面部)可以通过使用例如在(a)和(b)上显示的那样的FMO分片而与背景分开,任选项(a)对于每个面部明显地会提供改变编码判决即图像质量的更多任选项。ROI到FMO分片结构的几个映射是可以做到的。显然,ROI(在本例中,是面部)和它们在每个图像上的空间位置在大量图像内可以是相当静止的。因此,FMO分片结构(即,每个分片组的相对大小和位置)也预期随不同的图像不会有太多改变。
图6和7粗略地显示了能够如建议的那样检测ROI编码的处理步骤。基本上,它们显示在H.264视频中用于定位潜在的ROI的可能的策略(并且尤其是用于在视频会议和视频电话应用中的面部跟踪),以及它们给出图4的ROI检测和识别电路43的更详细的视图,这里重新使用了其中的某些符号表示。在本例中,通过分析一个到来的H.264比特流所提取的“FMO与分片信息”将主要涉及到:
-在流中任何图像的大小,或多个接连的图像的大小和速率(经由图像参数组分别被输送);
-有关指定图像中每个宏块给分片组的信息(被包含在宏块分配映射中,即,在MBA映射中);
-有关图像中每个宏块的编码质量的信息,例如关于宏块量化尺度的编码判决;
通过使用这个信息和下列事实,即宏块的尺寸是固定的和已知是16×16像素,可以得出相关的信息,诸如:
-在每个图像中分片的数目;
-在每个分片中宏块扫描模式,例如“棋盘板”对“矩形与填充的”(见图3);
-在图像上每个“矩形与填充的”分片的大小和相对位置(即,与图像边界的距离);
-在单个分片内宏块级别编码判决的统计特性(例如,宏块量化参数);
-在分片级别编码判决中的类似性/差异性(例如,在分片中所有的宏块的平均量化参数)。
上述的信息显然对于检测按照图5的面部的ROI编码是足够的。
通过查看如何评估相关的信息以达到最后的判决的更多的细节,可以得到不同的策略。在显示电路43的例子的图6上,作为一个选项显示了在一个或多个分析61(1),...,61(i),...,61(N)之间的切换(实际上,在同一个设备上特别是用软件来实现不同的分析器肯定是可行的)。监管选择分析器用的外部信息例如可以是该应用的表示法或知识。所以,可以设想本系统可以事先知道到来的H.264比特流究竟是相应于,比如说,视频会议的记录还是来自DVD电影情景的对话(如上所述,这样的线索也可以通过施加“外部”内容分析而获得,而且这也牵涉到与H.264视频伴随的音频数据)。
现在描述专用ROI分析器的可能的实施例的例子。图7给出显示的实施方案的简化图,取视频会议/视频电话作为例子(这个例子显然不是对本发明的范围的限制,根据该确切的应用可以设想其它的例子)。对判决逻辑的说明是直截了当的,因为考虑到在这些应用中,最常见的是在一定时间内只有一个说话者是在图像内,而且在摄取图像时照相机的少量移动。由于ROI编码典型地被利用来把讲话人与背景分隔开,可以预期图像分片结构仅仅随时间逐渐改变。“棋盘板”宏块排序的重要性通过下列事实来说明:即使在丢失两个分片组(图3的分片组#0或分片组#1)之一时,每个丢失的(靠内部的)MB也具有四个相邻的MB可被用来抵消丢失的信息。所以,这种结构对于在易于出错的环境下的ROI编码似乎非常有吸引力。显然,对于电影对话中的面部检测可以采用不同的策略,这取决于预期数目的说话者(例如,藉助于语音检测和说话者跟踪/验证而被预先估计)。另外,在同时组合更多的准则和判决时,可以实施更加复杂的判决逻辑。
在图6的分析器61(1)到61(N)的任一项中的判决逻辑例如可以通过图7所示的一组步骤被显示。在所述的图7上,QUANT是用于量化参数的符号表示,它的选择直接反映编码处理的质量,即,图像质量(通常,量化步距越小,质量越好)。所以,如果在给定的分片中对于所有的块的平均量化是一致地和充分地低于在图像上任何地方的平均量化,则这意味着这个分片可能以更好的质量被精细地编码,所以可以包含ROI(在图5的例子中,如果平均QUANT例如对于分片组#0是24.43和对于分片组#1是16.2,并且阈值例如被设置为1.5,则条件满足,因为24.43/16.2=1.5;然而,用于测试QUANT的其它结构也是可能的)。还可以附加上:QUANT的选择仅仅是直接反映图像质量的可能的编码判决之一。另一个选择例如是用于宏块或其子块的内部的/相互的判决:如果大量宏块在同一个分片中被重复地内部编码,即,即使在相互的B和P图像中也无需在时间上参考相邻的图像,这可以表明分片是更经常被刷新的以避免积累运动估计误差,并且因而可以对应于一个ROI。其它可能的编码判决仍旧可以在H.264中被选择以便反映编码质量。
在参照图7显示的例子中,分析器61(1)到61(N)的任一项中的判决逻辑例如可以包括以下步骤:
输入:序列P={Pi-N,…,Pi-2,Pi-1,Pi};
701:在所述序列中具有相同数目分片的接连的图像数目大于给定的阈值T吗?
如果不是,退出或取新的输入序列(=步骤710);
如果是的话,则进行步骤702(即,考虑子序列Q={Pj,...,Pk}),接着进行步骤703:
703:在Q的图像中分片数目大于2吗?
如果不是,进行步骤710;
如果是的话,则进行步骤704(即,考虑在Q中来自Pk的分片Sj),接着进行步骤705:
705:沿着Q的所有的图像测量的Sj的尺寸和相对位置的方差低于数值Y?
如果不是,进行步骤706(或步骤707);
如果是的话,则进行步骤708:
706:分片Sj具有棋盘板MB分配吗?
如果不是,进行步骤707;
如果是的话,则进行步骤708:
707:在Sj中的QUANT数值是否相对地更大(它是按照一个大于阈值R的倍数而增大的)?
如果是的话,则进行步骤708:
708:(从步骤705,706,707的输出中)接收到3个“是”中的至少2个“是”吗?
如果不是,进行步骤710;
如果是的话,则进行步骤709,即,已经检测到:“在子序列Q的分片Si中包括潜在的ROI”。
不过,从以上可以看到,这些例子不限制本发明的范围,并且可以实施更精巧的判决逻辑(例如,模糊逻辑)。
一旦确定统计特性的一致性,它就是在该部分内容中ROI编码的一个良好的指示:即分片与ROI一致,并且把这个信息传送去增强在内容分析电路44中执行的内容分析。所以,电路44接收电路43的输出(藉助于连接(1)而发送的控制信号)、由译码器42的运动补偿电路424传递的译码的视频流DVS、以及由音频译码器52传递的译码的音频流DAS,并根据所述信息来识别某些内容的类型(诸如,新闻、音乐片段、体育运动等等)。内容分析电路44的输出由元数据组成,即,由例如以通常所使用的CPI(特征点信息)表的形式被存储在文件45中的被包含在译码流中的不同的信息级别的描述数据组成。这些元数据于是对于诸如视频概要和自动分章节那样的应用是可利用的(然而,可以回忆,本发明在视频会议的情形下是特别有用的,其中通常的方法是检测和跟踪讲话人的面部,以使得相应于面部的图像区域比起相应于背景的区域来说,可以以更好的质量或更鲁棒地被编码)。
在改进的实施例中,内容分析电路44的输出可以(藉助于连接(2))被发回到ROI检测和识别电路43,这可提供有关例如ROI编码在该内容中的可能性的附加线索。

Claims (4)

1.一种处理数字编码的视频数据的方法,该数字编码的视频数据可以以一个包含被划分成分片的接连的帧的视频流的形式而得到,所述帧至少包括:不参照其它帧而被编码的I帧、在时间上位于所述I帧之间并至少从以前的I或P帧预测的P帧、以及B帧,这些B帧在时间上位于I帧与P帧之间或位于两个P帧之间并且这些B帧从它们所处在其间的至少这些双帧被双向预测,所述处理方法包括以下步骤:
-对于当前帧的每个分片,确定有关的分片编码参数和与在每个分片中被编码的各区域之间的空间关系有关的参数;
-收集对于当前帧的所有接连的分片的所述参数,以便传递与所述参数有关的统计特性;
-分析所述统计特性,以便确定在所述当前帧中的感兴趣区域(ROI);
-使得能选择性地使用以这样确定的感兴趣区域为目标的编码的数据。
2.按照权利要求1的处理方法,其中所处理的视频流的句法和语义是H.264/AVC标准的句法和语义。
3.一种用于处理数字编码视频数据的设备,该数字编码视频数据可以以一个包含被划分成分片的接连的帧的视频流的形式而得到,所述帧至少包括不参照其它帧而被编码的I帧、在时间上位于所述I帧之间并至少从以前的I或P帧预测的P帧、以及B帧,这些B帧在时间上位于I帧与P帧之间或位于两个P帧之间并且这些B帧从它们所处在其间的至少这些双帧被双向预测,所述设备包括以下装置:
-确定装置,被提供来用于对当前帧的每个分片确定有关的分片编码参数和与在每个分片中被编码的各区域之间的空间关系有关的参数;
-收集装置,被提供来用于收集对于当前的帧的所有的接连的分片的所述参数,以便传递与所述参数有关的统计特性;
-分析装置,被提供来用于分析所述统计特性以便确定在所述当前帧中的感兴趣区域(ROI);
-驱动装置,被提供来使得能选择性地使用以这样确定的感兴趣区域为目标的编码的数据。
4.一种用于被安排来处理数字编码的视频数据的视频处理设备的计算机程序产品,该数字编码的视频数据可以以一个包含被划分成分片的接连的帧的视频流的形式而得到,所述帧至少包括:不参照其它帧而被编码的I帧、在时间上位于所述I帧之间并至少从以前的I或P帧预测的P帧、以及B帧,这些B帧在时间上位于I帧与P帧之间或在两个P帧之间并且这些B帧从它们所处在其间的至少这些双帧被双向预测,所述计算机程序产品包括一组可以由计算机执行的指令,这些指令在装载到视频处理设备时使得所述视频处理设备实现以下步骤:
-对于当前帧的每个分片,确定有关的分片编码参数和与在每个分片中被编码的各区域之间的空间关系有关的参数;
-收集对于当前帧的所有接连的分片的所述参数,以便传递与所述参数有关的统计特性;
-分析所述统计特性,以便确定在所述当前帧中的感兴趣区域(ROI);
-使得能选择性地使用以这样确定的感兴趣区域为目标的编码的数据。
CNA2005800377562A 2004-11-04 2005-10-28 用于处理编码的视频数据的方法和设备 Pending CN101053258A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04300758.2 2004-11-04
EP04300758 2004-11-04

Publications (1)

Publication Number Publication Date
CN101053258A true CN101053258A (zh) 2007-10-10

Family

ID=35871129

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005800377562A Pending CN101053258A (zh) 2004-11-04 2005-10-28 用于处理编码的视频数据的方法和设备

Country Status (6)

Country Link
US (1) US20090052537A1 (zh)
EP (1) EP1813117A1 (zh)
JP (1) JP2008521265A (zh)
KR (1) KR20070085745A (zh)
CN (1) CN101053258A (zh)
WO (1) WO2006048807A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375986A (zh) * 2010-08-09 2012-03-14 索尼公司 生成用于对象类别的区分码字的方法和设备
WO2015058718A1 (en) * 2013-10-25 2015-04-30 Mediatek Inc. Method and apparatus for controlling transmission of compressed picture according to transmission synchronization events
CN105282553A (zh) * 2014-06-04 2016-01-27 鸿富锦精密工业(深圳)有限公司 视频编码装置及方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101345295B1 (ko) * 2007-06-11 2013-12-27 삼성전자주식회사 인트라 픽처만을 이용한 동영상 시퀀스의 부호화시의비트율 제어 방법 및 장치
JP2009141815A (ja) * 2007-12-07 2009-06-25 Toshiba Corp 画像符号化方法、装置及びプログラム
US8542748B2 (en) 2008-03-28 2013-09-24 Sharp Laboratories Of America, Inc. Methods and systems for parallel video encoding and decoding
US8331446B2 (en) * 2008-08-31 2012-12-11 Netlogic Microsystems, Inc. Method and device for reordering video information
JP5063548B2 (ja) * 2008-09-25 2012-10-31 キヤノン株式会社 符号化装置および符号化方法
EP2485490B1 (en) * 2009-10-01 2015-09-30 SK Telecom Co., Ltd. Method and apparatus for encoding/decoding image using split layer
US9313514B2 (en) * 2010-10-01 2016-04-12 Sharp Kabushiki Kaisha Methods and systems for entropy coder initialization
CN103379333B (zh) * 2012-04-25 2018-12-04 浙江大学 编解码方法、视频序列码流的编解码方法及其对应的装置
US9967583B2 (en) 2012-07-10 2018-05-08 Qualcomm Incorporated Coding timing information for video coding
US20140341302A1 (en) * 2013-05-15 2014-11-20 Ce Wang Slice level bit rate control for video coding
US20150032845A1 (en) * 2013-07-26 2015-01-29 Samsung Electronics Co., Ltd. Packet transmission protocol supporting downloading and streaming
US10003811B2 (en) 2015-09-01 2018-06-19 Microsoft Technology Licensing, Llc Parallel processing of a video frame
KR102343648B1 (ko) 2017-08-29 2021-12-24 삼성전자주식회사 영상 부호화 장치 및 영상 부호화 시스템
US10523947B2 (en) 2017-09-29 2019-12-31 Ati Technologies Ulc Server-based encoding of adjustable frame rate content
US10594901B2 (en) * 2017-11-17 2020-03-17 Ati Technologies Ulc Game engine application direct to video encoder rendering
US11290515B2 (en) 2017-12-07 2022-03-29 Advanced Micro Devices, Inc. Real-time and low latency packetization protocol for live compressed video data
US11089297B2 (en) * 2018-08-31 2021-08-10 Hulu, LLC Historical motion vector prediction with reset list
US11100604B2 (en) 2019-01-31 2021-08-24 Advanced Micro Devices, Inc. Multiple application cooperative frame-based GPU scheduling
US11418797B2 (en) 2019-03-28 2022-08-16 Advanced Micro Devices, Inc. Multi-plane transmission
CN110636332A (zh) * 2019-10-21 2019-12-31 山东小桨启航科技有限公司 一种视频处理方法、装置及计算机可读存储介质
US11488328B2 (en) 2020-09-25 2022-11-01 Advanced Micro Devices, Inc. Automatic data format detection

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5896176A (en) * 1995-10-27 1999-04-20 Texas Instruments Incorporated Content-based video compression
FI114433B (fi) * 2002-01-23 2004-10-15 Nokia Corp Otossiirtymän koodaaminen videokoodauksessa

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375986A (zh) * 2010-08-09 2012-03-14 索尼公司 生成用于对象类别的区分码字的方法和设备
WO2015058718A1 (en) * 2013-10-25 2015-04-30 Mediatek Inc. Method and apparatus for controlling transmission of compressed picture according to transmission synchronization events
CN105659593A (zh) * 2013-10-25 2016-06-08 联发科技股份有限公司 依据传输同步事件来控制压缩图像的传输的方法与装置
AU2014339383B2 (en) * 2013-10-25 2017-03-30 Mediatek Inc. Method and apparatus for controlling transmission of compressed picture according to transmission synchronization events
US10038904B2 (en) 2013-10-25 2018-07-31 Mediatek Inc. Method and apparatus for controlling transmission of compressed picture according to transmission synchronization events
CN105659593B (zh) * 2013-10-25 2018-12-11 联发科技股份有限公司 依据传输同步事件来控制压缩图像的传输的方法与装置
CN105282553A (zh) * 2014-06-04 2016-01-27 鸿富锦精密工业(深圳)有限公司 视频编码装置及方法
CN105282553B (zh) * 2014-06-04 2018-08-07 南宁富桂精密工业有限公司 视频编码装置及方法

Also Published As

Publication number Publication date
WO2006048807A1 (en) 2006-05-11
EP1813117A1 (en) 2007-08-01
JP2008521265A (ja) 2008-06-19
US20090052537A1 (en) 2009-02-26
KR20070085745A (ko) 2007-08-27

Similar Documents

Publication Publication Date Title
CN101053258A (zh) 用于处理编码的视频数据的方法和设备
CN1943247A (zh) 应用于多媒体数据的编码方法
US9350990B2 (en) Systems and methods of encoding multiple video streams with adaptive quantization for adaptive bitrate streaming
CN102804773B (zh) 在mpeg‑2系统中组合多视角视频译码子位流
CN104641652A (zh) 用于视频译码的帧封装立体三维(3d)视频数据的指示
CN104412600A (zh) 译码用于视频译码的sei nal单元
CN1220065A (zh) 从经压缩的正常播放图像比特流中建立特技播放图像流的系统和方法
CN1226786A (zh) 用于立体视频编码的视图偏移估算
TW201008289A (en) Fragmented reference in temporal compression for video coding
CN1121673A (zh) 视频解压缩处理器中存储器的定址方法及装置
US8139877B2 (en) Image processing apparatus, image processing method, and computer-readable recording medium including shot generation
JP4520994B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
US20070206931A1 (en) Monochrome frame detection method and corresponding device
CN106162190A (zh) 一种视频图像压缩和读取的方法、装置及系统
CN109963176A (zh) 视频码流处理方法、装置、网络设备和可读存储介质
US7792373B2 (en) Image processing apparatus, image processing method, and image processing program
CA2871668A1 (en) Macroblock partitioning and motion estimation using object analysis for video compression
US11743477B1 (en) Video-stream format for machine analysis using NPU
JP2007518303A (ja) シーン変化検出を用いる処理方法及び装置
US11831887B1 (en) Scalable video coding for machine
US20090016441A1 (en) Coding method and corresponding coded signal
CN118176728A (zh) 特征编码/解码方法和装置以及存储比特流的记录介质
WO2023059689A1 (en) Systems and methods for predictive coding
CN118176726A (zh) 基于编译结构的信道间参考的特征编码/解码方法和装置以及存储比特流的记录介质、以及比特流发送方法
KR100931269B1 (ko) H.264/avc 압축영역에서의 실시간 에지 검출 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication