CN1774931A - 对编码视频数据的内容分析 - Google Patents

对编码视频数据的内容分析 Download PDF

Info

Publication number
CN1774931A
CN1774931A CNA2004800103110A CN200480010311A CN1774931A CN 1774931 A CN1774931 A CN 1774931A CN A2004800103110 A CNA2004800103110 A CN A2004800103110A CN 200480010311 A CN200480010311 A CN 200480010311A CN 1774931 A CN1774931 A CN 1774931A
Authority
CN
China
Prior art keywords
video
content analysis
video coding
video data
data encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800103110A
Other languages
English (en)
Inventor
D·布拉泽罗维
J·A·D·内斯瓦巴
F·斯尼德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1774931A publication Critical patent/CN1774931A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7864Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种用于内容分析的系统(101)。该系统(101)包括一个接收遵循第一编码标准(比如H.264)的视频信号的接口。该接口与提取处理器(107)相耦合,该提取处理器从视频信号中提取视频编码数据。将视频编码数据馈送给转换处理器(109),该转换处理器将该视频编码数据转换成遵循第二视频编码标准(比如MPEG-2)的视频编码数据。例如通过对较小的块进行组合并且对视频参数求平均来提供与较大块大小相关的视频编码参数,该转换过程将所提取的视频编码数据转换成与一个公共编码块大小相关的视频编码数据。将经转换的数据馈送给内容分析处理器(111),该内容分析处理器根据该经转换的数据进行内容分析。因此可以将用于一种视频编码标准的内容分析算法用于不同的视频编码标准。

Description

对编码视频数据的内容分析
发明领域
本发明涉及一种用于内容分析的方法和设备,并且尤其涉及一种基于视频编码参数进行内容分析的方法和设备。
发明背景
近年来,数字存储和视频信号分发的应用变得越来越普及。为了减小发送数字视频信号所需的带宽,公知的方法是使用包括视频数据压缩的高效数字视频编码,从而可以充分减小数字视频信号的数据速率。
为了确保互操作性,在推动数字视频在很多专业和民用应用中的采用方面,视频编码标准扮演着很重要的角色。最有影响的标准传统上是由国际电信联盟(ITU-T)或ISO/IEC(国际标准化组织/国际电工学委员会)的MPEG(运动画面专家组)委员会开发的。ITU-T标准(称为推荐)典型地针对实时通信(例如电视会议),而大多数MPEG标准是针对存储(例如针对数字通用盘(DVD))和广播(例如针对数字视频广播(DVB)标准)而优化的。
当前,得到最广泛采用的视频压缩技术中的一种称为MPEG-2(运动画面专家组)标准。MPEG-2是基于块的压缩方案,其中将帧分为多个块,每个块包括八个垂直像素和八个水平像素。为了压缩亮度数据,使用离散余弦变换(DCT)单独对各个块进行压缩,随后进行量化,从而将大量经过变换的数据的值减小为零。为了压缩色度数据,通常首先通过下采样减少色度数据量,以使得对于每四个亮度块得到两个色度块(4:2:0格式),然后使用DCT和量化对其进行类似的压缩。仅仅基于帧内压缩的帧称为内部帧(I帧)。
除了帧内压缩之外,MPEG-2使用帧间压缩来进一步减小数据速率。帧间压缩包括根据先前的I帧产生预测帧(P帧)。此外,在I帧和P帧之间一般来说还会插入双向预测帧(B帧),其中压缩是通过仅仅传输B帧和周边的I帧和P帧之间的差异来实现的。此外,MPEG-2使用运动估计,其中在处于不同位置上的后续帧中找出的一帧的宏块的图像是简单地利用运动矢量进行传送的。
这些压缩技术的结果是,能够以大约2-4Mbps的数据速率发送标准电视工作室广播质量水平的视频信号。
近来,推出了一种新的ITU-T标准,称为H.26L。H.26L正在逐渐受到广泛关注,因为它与现有的标准(比如MPEG-2)相比具有更高的编码效率。虽然H.26L的增益一般会与画面大小成比例地减小,但是它用在大范围的应用中的潜力是确定无疑的。这种潜力已经通过联合视频组(JVT)论坛的形成得到了认可,该论坛负责将H.26L最终确定为新的联合ITU-T/MPEG标准。新的标准称为H.264或MPEG-4AVC(高级视频编码)。而且,基于H.264的解决方案正不断在其它标准化团体中受到考虑,比如IDVB和DVD论坛。
H.264标准采用与从已经建立起来的标准(比如MPEG-2)获知的基于块的运动补偿混合变换编码相同的原理。因此H.264语法是按照报头(比如画面、片段和宏块报头)和数据(比如运动矢量、块变换系数、量化器标度等)的通常的分级结构组织的。不过,H.264标准将视频编码层(VCL)(代表视频数据的内容)和网络适配层(NAL)(格式化数据并提供报头信息)分开。
而且,H.264为编码参数的更多选择做好了准备。例如,它为16×16宏块的更细划分和操作做好了准备,从而例如能够对小到4×4的宏块分段进行运动补偿处理。而且,用于对样本块的运动补偿预测的选择处理可以涉及多个已存储的、之前进行过解码的画面(也称为帧),而不仅仅是相邻的画面(或帧)。即使在单一帧内的帧内编码的情况下,也有可能使用来自同一帧的之前经过解码的样本形成对块的预测。而且,伴随着运动补偿而最终得到的预测误差也可以基于4×4块大小加以变换和量化,而不是传统的8×8大小。
数字视频标准的出现以及数据和信号处理技术的进步已经允许在视频处理和存储设备中实现额外的功能。例如,近几年在视频信号内容分析领域所取得的研究成果是有目共睹的。这种内容分析能够实现对视频信号内容的自动确定或估计。所确定的内容可以用于提供包括对内容项的过滤、分类或组织的用户功能。例如,可以从例如TV广播中得到的视频内容的可用性和可变性近年来已经得到了充分提高,并且内容分析可用于将可用内容自动过滤和组织到适当的类别中。而且,可以响应于对内容的检测结果来改变视频设备的操作。内容分析可基于视频编码参数,并且已经针对尤其根据MPEG-2视频编码参数进行内容分析的算法进行了大量研究。对于个人应用,MPEG-2是目前最广泛采用的视频编码标准,因此基于MPEG-2的内容分析很有可能得到广泛实施。
随着新的视频编码标准(比如H.264)的推出,在很多应用场合下,将会需要或期望进行内容分析。因此,必须开发适于新的视频编码标准的内容分析算法。这需要大量的研发工作,很费时费钱。因此,缺乏适当的内容分析算法将会拖延或阻碍对于新的视频编码标准的领会,或者严重减少可为这种标准提供的功能。
而且,为了引入新的内容分析算法,需要对现有的视频系统进行替换和更新。这也是很费钱的,并且延缓了对新视频编码标准的引入。或者,必须引入额外的设备来按照新的视频标准对信号进行解码,之后按照MPEG-2视频编码标准对其进行重新编码。这样的设备是很复杂的,成本很高,并且计算资源要求很高。
由此,经过改进的内容分析方法应该是很有优势的,并且尤其是复杂度低、有助于设备的互操作性、灵活性高、研发资源要求低、计算要求低和/或有助于引入新视频编码标准的内容分析方法应该是非常有优势的。
发明概要
由此,本发明优选地试图单独地或者以任何组合方式减轻、缓解和消除上面提到的缺点中的一个和多个。
按照本发明的第一个方面,提供了一种用于内容分析的设备,包括:用于接收按照第一视频编码格式编码的第一视频信号的装置;用于从第一视频信号中提取第一视频编码数据的装置,该第一视频编码数据遵循第一视频编码格式;用于将第一视频编码数据转换成遵循第二视频编码格式的第二视频编码数据的装置;和用来响应于第二视频编码数据执行内容分析的装置。
第一视频编码格式可以是第一视频编码标准,并且其中第二视频编码格式可以是第二视频编码标准。
这样就实现了一种可能具有低复杂度的用于内容分析的设备。该设备例如不需要按照第一视频编码格式进行完全解码,并且不需要之后按照第二视频编码格式进行完全编码。具体来说,在应用中不需要进行完全转码,因为所述内容分析和按照两种格式进行的格式转换可能仅需要所涉及的编码参数的一部分。该设备此外还可以具有高度的灵活性,并且例如允许对于相同的内容分析算法使用不同的视频编码格式。该设备此外还有助于设备的互操作性,并且能够将现有的内容分析算法用于新出现的视频编码格式,而不需要完全转码为现有的视频编码格式。因此该设备有助于将新的设备引入到现有的视频系统中。而且,与内容分析相关的研发成本能够得到明显降低,这尤其是通过使得现有内容分析算法能够得到完全或部分再利用。具体来说,MPEG-2内容分析算法可以用于H.264信号,从而使得与MPEG-2内容分析相关的所有研究和核心技术都能够得到应用。
按照本发明的一个特征,所述用于转换的装置适于通过将与第一块编码大小相关的第一视频编码数据的至少一部分视频编码参数转换为与遵循第二视频编码格式的第二编码块大小相关的视频编码参数来产生第二视频编码数据。这能够实现视频编码参数的适当转换,并且允许对于用不同编码块大小编码的视频信号使用基于第二编码块大小的内容分析。
按照本发明的另一个特征,所述用于转换的装置适于为第一和第二视频编码格式确定一个公共编码块大小,和将第一视频编码数据的不与该公共编码块大小相应的至少一部分视频编码参数转换为与该公共编码块大小相应的视频编码参数。两种视频格式可以具有一个公共编码块大小,并且将视频编码参数转换成这种编码块大小提供了特别简单并且易于实现的转换方式,从而往往会提供最佳的转换精度。该公共编码块大小可以例如通过分析所涉及的信号和视频编码格式来确定,或者可以简单地从与第一和第二视频编码格式的公共编码块大小相对应的预定值来确定。
按照本发明的另一种特征,第一和第二编码块大小是变换块大小。例如,编码块大小可以是用于编码和/或解码的离散余弦变换(DCT)所用的块的大小。这能够实现对视频编码参数的精确且实用的转换,并且适用于很多利用变换块参数的内容分析算法。
按照本发明的另一种特征,第一和第二编码块大小是预测块大小。例如,编码块大小可以是用于按照所述视频编码格式的运动估计和预测的块的大小。这能够实现对视频编码参数的精确且实用的转换,并且适用于很多利用预测块参数的内容分析算法。
按照本发明的另一种特征,第一编码块大小小于第二编码块大小,并且所述至少一部分视频编码参数的转换包括对多个编码块进行组合和为该组确定一个公共视频编码参数。该公共参数可以包括多个子参数。例如,该公共参数可以包括多个经平均的视频编码参数,其中所述平均延伸到包括在一个组中的编码块。这种特征能够实现非常有效、精确和/或低复杂度的变换,这种变换可以很容易地实现。
按照本发明的另一种特征,该公共视频编码参数包括一个变换系数。这能够实现对视频编码参数的有效转换,从而适于在内容分析中使用。
按照本发明的另一种特征,该变换系数是一个DC(直流)系数。公共DC分量提供在很多内容分析算法中都很有用的视频编码参数。它是非常适合于对视频信号的内容分析特征进行组合和确定的视频编码参数。在反映不同频率下的信号分布的变换系数当中,DC系数对应于基本为零的频率,换句话说,DC系数代表已经对其应用了变换的信号的平均值。
按照本发明的另一种特征,所述用于转换的装置适于通过对所述组中的每个编码块的至少一个DC系数求平均来至少部分地确定该公共视频编码参数。DC系数的平均值提供了对已组合编码块的DC属性的非常适当的表示,因此对内容分析尤其有用。
按照本发明的另一种特征,所述变换系数是AC系数。公共AC系数提供在很多内容分析算法中都非常有用的视频编码参数。它是非常适合于对视频信号的内容分析特征进行组合和确定的视频编码参数。具体来讲,AC系数可以是除了DC系数之外的任何其它系数。
按照本发明的另一种特征,所述用于转换的装置适于通过对所述组中的每个编码块的至少一个AC系数进行缩放来至少部分地确定该公共视频编码参数。对AC系数的缩放提供了尤其适于产生一个公共视频编码参数的措施,并且尤其可以补偿与不同块大小的变换相关的不同缩放比例。该缩放可以取决于变换块大小和/或AC系数在变换块中的位置。
按照本发明的另一种特征,该公共视频编码参数包括一个运动矢量。公共运动矢量提供了在很多内容分析算法中都很有用的视频编码参数。它是非常适于对视频信号的内容分析特征进行组合和确定的视频编码参数。
按照本发明的另一种特征,所述用于转换的装置适于通过对所述组中的每个编码块的至少一个运动矢量求平均来至少部分地确定该公共视频编码参数。对运动矢量求平均提供了与已组合编码块相关的运动属性的非常适当的表示,因此对内容分析尤其有用。
按照本发明的另一种特征,所述内容分析装置适于仅根据第二视频编码格式所允许的视频编码参数来进行内容分析。因此,本发明使得仅为了与第二视频编码格式一起使用而专门开发的内容分析算法可与第一视频编码格式一起使用,而不需要修改所述内容分析算法。
按照本发明的另一种特征,所述内容分析装置可用来响应于第一视频编码数据的视频编码参数来进行内容分析。例如,所述内容分析可进一步考虑与按照第二视频编码格式可以得到的不同的参考画面信息、预测模式与块大小以及帧内画面模式和块大小。这能够实现内容分析的改善,因为可以利用附加的信息。同时,可以使用仅仅按照第二视频编码格式开发的现有内容分析算法和/或标准。因此,可以对现有算法逐渐加以改进,以考虑按照第一视频编码格式可得到的附加信息。
按照本发明的另一种特征,第一视频编码格式是国际电信联盟推荐H.264,并且/或者第二视频编码格式是国际标准化组织/国际电工学委员会运动画面专家组MPEG-2标准。具体来说,本发明因此使得内容分析能够根据为MPEG-2信号开发的内容分析算法和/或标准来对H.264信号进行内容分析。
按照本发明的第二个方面,提供了一种内容分析方法,包括以下步骤:接收按照第一视频编码格式编码的第一视频信号;从第一视频信号中提取第一视频编码数据,该第一视频编码数据遵循第一视频编码格式;将第一视频编码数据转换成遵循第二视频编码格式的第二视频编码数据;和响应于第二视频编码数据执行内容分析。
通过下文中介绍的(多种)实施例,本发明的这些和其它的方面、特征和优点将会显而易见,并且将参照下文中介绍的(多种)实施例阐述本发明的这些和其它的方面、特征和优点。
附图简述
下面将参照附图仅以示例的方式介绍本发明的一种实施例,其中
附图1表示按照本发明一个实施例的用于内容分析的设备的框图;和
附图2表示按照本发明一个实施例的内容分析方法的流程图。
具体实施例描述
下面的说明将注意力集中在一个实施例上,其中本发明可应用于基于MPEG-2视频编码参数的内容分析、尤其是可应用于基于MPEG-2视频编码参数的H.264编码视频信号的内容分析。不过,应意识到,本发明并不局限于这种应用形式,而是可与很多其它的视频编码算法、规格或标准相结合地使用,其中包括例如:H.263、MPEG-4ASP(高级简化规格)、Real Player、Quick Time、Windows Media Player和DivX标准。
在下文中,H.264包括等价的ISO/IEC 14496-10AVC标准,其通常称为MPEG-4AVC(高级视频编码)或MPEG-4第10部分。
近几年,内容分析吸引了很多注意力,并且已经开展了大量的研究来开发适用于视频信号内容分析的算法。
一般来说,内容分析基于检测对于一类内容来说很典型的特定特征。例如,可以通过具有很高的绿色平均集中度和频繁的侧向运动而将视频内容项检测为与足球比赛有关。动画片的特征是一般具有很强的主色、很高的亮度级和锐利的颜色过渡。
这样,可以很方便地使用视频编码参数来确定视频信号的内容。例如,DCT变换块中有很高的AC系数相对值表明在该变换块中很可能包括锐利的过渡。这样的过渡对动画片是很典型的,并且因此可以作为表明当前内容为动画片的视频编码参数而包含于其中。一般来说,要考虑大量的参数,并且可以将内容确定为与所确定的特征最密切相关的内容类别。这样,可以进一步包括色饱和度和亮度,以判定当前内容是否是动画片。例如,如果视频编码数据表现出很高的色饱和度、很高亮度、高频DCT系数中很高的能量集中度以及很大的均匀或平坦画面区域,则内容分析算法可以确定当前内容是动画片。
可能对内容分析有用的视频编码参数的另一个例子是运动数据,比如运动矢量。例如,如果画面区域包括采用很小的相关运动矢量的程度非常高的预测,则这可能表明,对于这个区域来说画面是静止的,并且因此这个区域的内容很可能是叠加文字或屏幕上的标识(例如台标)。
一般来说,可以一起使用视频编码参数和非视频编码参数来进行内容分析。例如,很高的运动程度、很强的亮度和相关音轨的节奏特性可能表明当前内容是音乐电视。
本领域技术人员可以得到关于内容分析的更多信息。例如C.Djeraba的“Content-Bases Multimedia Indexing and Retrieval(基于内容的多媒体索引和检索)”(IEEE Multimedia,2002年4月-6月,电气和电子工程师协会)、A.Yoshika等人的“A Survey on Content-Based Retrieval for Multimedia Databases(对基于内容的多媒体数据库检索的研究)”(IEEE Transactions on Knowledge and DataEngineering,第11卷,第1期,1999年1月/2月,电气和电子工程师协会)、N.Dimitrova等人的“Applications of Video-Content Analysis andRetrieval(视频内容分析和检索的应用)”(IEEE Multimedia,2002年7月-9月,电气和电子工程师协会)以及其中的参考文献给出了对内容分析的介绍。
已经开发出了根据由MPEG-2视频编码器产生的参数检测不同视频内容的有效、精确且可靠的算法。因此,在出现新的视频编码标准的时候,能够再利用这些算法应该是很有益处的。例如,对于新的视频编码标准H.264完全或部分地再利用一个、多个或所有已经开发出来的算法或标准应该是很有益处的。在H.264中也存在一些MPEG-2参数。不过,H.264还使用与MPEG-2不兼容的附加语法系,比如附加的预测或变换块大小或者较宽的预测画面范围。H.264和MPEG-2之间的完全转码可以实现对MPEG-2的视频内容算法的再利用。不过,这伴有缺点。具体地讲,相关的处理(尤其是编码处理)往往很复杂且计算强度大。
附图1表示按照本发明一个优选实施例的用于内容分析的设备101的框图。应注意到,为了清楚起见,附图1和下面的说明介绍分开的功能模块或实体。不过,可以以任何适当的方式对用于内容分析的设备101的功能加以分割和分配。
该转码器包括接口103,它能够接收H.264编码视频信号。按照所示的实施例,H.264视频信号是从外部视频源105接收的。按照其它一些实施例,视频信号可以从其它的源接收,比如内部视频源。
接口103与提取处理器107相耦合,该处理器可以从H.264视频信号中提取视频编码数据。所提取出来的视频编码数据是包括在H.264视频信号中的H.264视频编码数据的一部分或全部。因此,所提取出来的第一视频编码数据在本优选实施例中是遵循H.264标准的视频编码数据。具体来说,提取处理器107可以被实现为H.264解码器,并且视频编码数据可以通过H.264视频解码操作而提取出来。
提取处理器107与转换处理器109相耦合,该转换处理器109可以将遵循H.264标准的视频编码数据转换为遵循MPEG-2标准的视频编码数据。因此,在H.264视频编码数据的一部分或全部的基础上,产生遵循MPEG-2标准的相应视频编码数据。该转换优选地尽可能多地保留来自H.264视频编码数据的信息。具体来说,所述转换处理和算法优选地保留对内容分析有用的信息,只要该信息在特定应用的约束下是实用的。所述转换算法和标准优选地被选择成在保持视频编码设备具有很低的复杂度的同时,保留合乎要求的信息。这样,由该转换处理器109通过对第一视频编码数据的转换而产生了遵循MPEG-2视频编码标准的第二视频编码数据。优选地,使用预定的关系来进行转换。例如,可以使用预定的数学公式或计算来将一个或多个H.264视频编码参数转换成MPEG-2视频编码参数。
例如,MPEG-2和H.264视频编码对视频数据使用达到宏块层次的类似语法。在这个层次上,这两种视频编码标准的主要的不同之处在于,H.264增加了将宏块分割成比MPEG-2的可能分割更小的子块的可能性。这样,例如可以在最高块层次上提取要用于内容分析的编码参数,在这个层次上所述参数可以存在于两种标准当中(即在公共编码块大小下)。例如,可以将诸如运动矢量或DC变换系数之类的参数转换成宏块层次。为了实现这种转换,可以使用复杂度有限的计算,比如求平均和缩放。
由转换处理器109进行的转换可以被考虑成对于H.264参数和对于MPEG-2参数实现相同的内容分析参数粒度的一种方式。这个粒度可以是宏块层次上的。
转换处理器109与内容分析处理器111相耦合,该内容分析处理器111能够根据经过转换的视频编码数据进行内容分析。这样,内容分析处理器111能够基于MPEG-2视频编码参数执行内容分析。在不脱离本发明的前提下,可以使用考虑了视频编码数据的任何用于内容分析的适当算法或标准。例如在N.Dimitrova、S.Jeannin、J.Nesvadba、T.McGee、L.Agnihotri、G.Mekenkamp的“Real timecommercial detection using MPEG-2features(使用MPEG-2特征的实时广告检测)”(Conference Proceedings of the 9th InternationalConference on Information Processing and Management of Uncertaintyin Knowledge-Based System,2002)中介绍的内容分析。
按照该优选实施例,用于内容分析的设备因此可以提供实现当前基于MPEG-2的内容分析算法和标准的向前兼容性的装置。同样,该用于内容分析的设备可以提供实现新的视频编码标准(比如H.264)的向后兼容性的装置.这样的兼容将有助于现有的基于MPEG-2的解决方案在更广的应用范围内得到采纳,并且/或者有助于H.264设备在现有的视频系统中得到采纳。
附图2表示按照本发明一个优选实施例的内容分析方法的流程图。该方法可应用于附图1的设备,下面将参照该附图介绍该方法。
该方法开始于步骤201,其中用于内容分析的设备101的接口103接收来自外部视频源105的H.264视频信号。
步骤201之后是步骤203,其中将H.264视频信号从接口103馈送到提取处理器107,该提取处理器107从H.264视频信号中提取H.264视频编码数据。具体来说,步骤203可以包括对H.264信号进行解码,以便提取相关视频编码数据。用于解码H.264的算法和方法在本领域中是公知的,并且可以使用任何适当的方法和算法。
步骤203之后是步骤205,其中将H.264视频编码数据转换成遵循MPEG-2视频编码标准的视频编码数据。
按照该优选实施例,所述转换包括将与MPEG-2所允许的编码块大小不同的编码块大小相关的视频编码参数转换成MPEG-2所允许的编码块大小。例如,可以将与四个4×4编码块相关的视频编码参数加到一起来形成与一个8×8MPEG-2DCT块相关的视频编码参数。
按照该优选实施例,对于所涉及的视频编码标准确定一个公共编码块大小。例如,MPEG-2和H.264都包括16×16像素编码块(宏块)。该公共编码块大小的确定可以简单地通过使用一个预定公共编码块大小来实现。例如,与公共编码块大小相关的信息可以被包括在查询表中,或者可以作为预定值被包含在软件例程中。在确定了公共编码块大小之后,将所述视频编码参数转换成与该公共编码块大小相应的视频编码参数。例如,将H.264数据转换成与16×16宏块相应的数据。
按照某些实施例,用于内容分析的设备101可以接收遵循多种不同标准的视频信号。在这种情况下,该设备可以进一步包括用于自动确定所接收到的信号的视频编码标准(例如通过尝试按照多种视频编码标准对视频信号进行解码)的装置,并且可以响应于所检测到的视频编码标准来确定该公共编码块大小。
按照该优选实施例,编码块大小可以与变换块大小相关。替换地或者附加地,编码块大小可以与预测块大小相关。
MPEG-2和H.264都使用离散余弦变换(DCT)来将信号转换到空间频域中,这对本领域技术人员而言是公知的。不过,与MPEG-2规定基于8×8像素块的DCT变换不同,H.264允许使用更多种的基于DCT的变换。特别可以对小到4×4的块进行DCT变换。
按照该优选实施例,宏块的DCT系数是从H.264信号中提取的。然后确定在这个宏块中使用的变换块大小,并且将变换块组合在一起以形成8×8变换块。例如,如果宏块的一个8×8区域包括四个4×4DCT块,则将这四个块组合在一起。从而针对这组4×4DCT块确定单个公共视频编码参数。该公共视频编码参数可以包括多个子参数(或者等价地可以确定多个公共视频编码参数)。
具体来说,可以通过对四个DCT块的四个DC系数求平均来为该组4×4DCT块确定一个公共DC DCT系数。该平均值包括对该DC系数的值的一个可靠度量,其中如果本来使用8×8DCT的话则本应获得该值。
类似地,通过考虑所有块中的相应频率系数而将AC系数组合在一起。不过,在本领域中公知的是,对AC系数的缩放取决于变换块大小和系数的位置,从而相应地缩放AC系数。这样,按照该优选实施例,根据变换块的大小和系数在变换块中的位置对AC系数进行缩放或加权。优选地,对于每个系数的缩放是根据包括预定缩放因子的查询表确定的。
类似地,MPEG-2运动补偿基于宏块大小,而H.264能够实现预测块的更细粒度。具体来说,H.264能够实现小到大小为4×4像素的预测块。这样,H.264的宏块可能具有与多个较小预测块相应的多个相关运动矢量。
按照该优选实施例,将预测块组合在一起,并且针对该组确定单个运动矢量。优选地,公共运动矢量是通过对该组的各预测块的运动矢量求平均来产生的。这样,宏块运动矢量是通过对包含在该宏块中的各预测块的运动矢量求平均来产生的。优选地,依据预测块的大小对运动矢量进行加权。替换地或附加地,可以依据参考画面选择对运动矢量进行加权。
这样,按照该优选实施例,产生了与本应从依照MPEG-2标准的视频信号编码得到的视频编码参数估计相对应的运动矢量和变换系数。
步骤205之后是步骤207,其中内容分析处理器111响应于经转换的MPEG-2数据执行内容分析。可以使用任何适当的内容分析算法。
按照某些实施例,使用了仅针对MPEG-2的内容分析。不过,按照其它一些实施例,可以使用其它的参数,尤其是可以使用不与MPEG-2兼容的参数。例如,H.264引入了一些新的编码参数类型,这些参数可以提高内容分析精度。特别地,通过考虑这些附加的参数,可以提高对象区分和跟踪能力。例如,可以将下述的附加视频编码参数传递给内容分析处理器111,并且与MPEG-2转换视频编码数据结合使用:
帧间模式
较小的用于运动补偿的编码块大小能够检测到较小的且快速运动的对象,而较大的编码块大小能够实现对较大且静止的对象(例如背景)的更好检测。因此,可以使用与H.264的较小块大小相关的信息来改善内容分析,尤其是对较小的快速运动的对象的检测。
帧内模式
H.264允许预测块处于同一画面当中。与帧内模式相关的信息可以例如用于细化由其它方法得到的决定。例如,边缘和对象边界的存在可以由该区域内的有限数量的帧内模式的间断来表示。
参考画面信息
H.264允许使用更大范围的参考画面进行预测,并且这能够实现内容分析的改善,例如在画面区域被覆盖和露出的情况下。因此,主要集中于更远参考画面的一个局部区域内的宏块可用于检测对象和背景的覆盖和露出。
本发明可以以任何适当的形式实现,包括硬件、软件、固件或它们的任意组合。不过,优选地,将本发明实现为运行在一个或多个数据处理器和/或数字信号处理器上的计算机软件。本发明的实施例的各元件或组件可以以任何适当的方式在物理上、功能上和逻辑上实现。实际上,所述功能可以在单个单元中、在多个单元中或作为其它功能单元的一部分来实现。这样,本发明可以在单个单元中实现,或者可以在物理上和功能上分布于不同的单元和处理器之间。
虽然已经结合优选实施例对本发明进行了介绍,但是这并非想要将本发明限制于本文所给出的具体形式。相反地,本发明的范围仅仅由所附权利要求书限定。在权利要求书中,术语“包括”并不排除其它元件或步骤的存在。而且,虽然是单独列出的,但是多个装置、元件或方法步骤可以由例如单个单元或处理器来实现。此外,虽然各单独特征可以包括在不同的权利要求中,但是有可能将这些特征有益地组合,并且这些特征被包括在不同权利要求中这一事实并不意味着这些特征的组合是不可行的和/或没有益处的.除此之外,单数并不排除多个。因此“一个”、“第一”、“第二”等用语并不排除多个的情况。

Claims (19)

1、一种用于内容分析的设备(101),包括:
用于接收按照第一视频编码格式编码的第一视频信号的装置(103);
用于从该第一视频信号中提取第一视频编码数据的装置(107),该第一视频编码数据遵循该第一视频编码格式;
用于将该第一视频编码数据转换成遵循第二视频编码格式的第二视频编码数据的装置(109);和
响应于该第二视频编码数据来执行内容分析的装置(111)。
2、按照权利要求1所述的设备(101),其中该第一视频编码格式是第一视频编码标准,并且其中该第二视频编码格式是第二视频编码标准。
3、按照权利要求1所述的设备(101),其中该用于转换的装置(109)适于通过将与第一块编码大小相关的该第一视频编码数据的至少一些视频编码参数转换为与兼容于该第二视频编码格式的第二编码块大小相关的视频编码参数来产生该第二视频编码数据。
4、按照权利要求3所述的设备(101),其中该用于转换的装置(109)适于为该第一和第二视频编码格式确定一个公共编码块大小,以及将不与该公共编码块大小相应的该第一视频编码数据的所述至少一些视频编码参数转换为与该公共编码块大小相应的视频编码参数。
5、按照权利要求3所述的设备(101),其中该第一和第二编码块大小是变换块大小。
6、按照权利要求3所述的设备(101),其中该第一和第二编码块大小是预测块大小。
7、按照权利要求3所述的设备(101),其中该第一编码块大小小于该第二编码块大小,并且对所述至少一些视频编码参数的转换包括对多个编码块进行组合以及为该组确定一个公共视频编码参数。
8、按照权利要求7所述的设备(101),其中该公共视频编码参数包括变换系数。
9、按照权利要求8所述的设备(101),其中该变换系数是DC系数。
10、按照权利要求9所述的设备(101),其中该用于转换的装置(109)适于至少部分地通过对所述组中的每个编码块的至少一个DC系数求平均来确定该公共视频编码参数。
11、按照权利要求8所述的设备(101),其中该变换系数是AC系数。
12、按照权利要求11所述的设备(101),其中该用于转换的装置(109)适于至少部分地通过对所述组中的每个编码块的至少一个AC系数进行缩放来确定该公共视频编码参数。
13、按照权利要求7所述的设备(101),其中该公共视频编码参数包括运动矢量。
14、按照权利要求13所述的设备(101),其中该用于转换的装置(109)适于至少部分地通过对所述组中的每个编码块的至少一个运动矢量求平均来确定该公共视频编码参数。
15、按照权利要求1所述的设备(101),其中该用于执行内容分析的装置(111)适于仅根据该第二视频编码格式所允许的视频编码参数来执行内容分析。
16、按照权利要求1所述的设备(101),其中该用于执行内容分析的装置(111)响应于该第一视频编码数据的视频编码参数来执行内容分析。
17、一种内容分析方法,包括以下步骤:
接收(201)按照第一视频编码格式编码的第一视频信号;
从该第一视频信号中提取(203)第一视频编码数据,该第一视频编码数据遵循该第一视频编码格式;
将该第一视频编码数据转换(205)成遵循第二视频编码格式的第二视频编码数据;和
响应于该第二视频编码数据来执行(207)内容分析。
18、一种能够执行如权利要求17所述的方法的计算机程序。
19、一种包括如权利要求18所述的计算机程序的记录载体。
CNA2004800103110A 2003-04-17 2004-04-13 对编码视频数据的内容分析 Pending CN1774931A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03101053.1 2003-04-17
EP03101053 2003-04-17

Publications (1)

Publication Number Publication Date
CN1774931A true CN1774931A (zh) 2006-05-17

Family

ID=33185943

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800103110A Pending CN1774931A (zh) 2003-04-17 2004-04-13 对编码视频数据的内容分析

Country Status (6)

Country Link
US (1) US20070041447A1 (zh)
EP (1) EP1618743A1 (zh)
JP (1) JP2006524460A (zh)
KR (1) KR20050122265A (zh)
CN (1) CN1774931A (zh)
WO (1) WO2004093462A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170017707A1 (en) 2015-07-13 2017-01-19 Fujitsu Limited Non-transitory computer-readable recording medium, searching method, and searching device

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140849B2 (en) * 2004-07-02 2012-03-20 Microsoft Corporation Security for network coding file distribution
US7756051B2 (en) * 2004-07-02 2010-07-13 Microsoft Corporation Content distribution using network coding
IL185414A0 (en) * 2005-10-26 2008-01-06 Igal Raichelgauz Large-scale matching system and method for multimedia deep-content-classification
US8233535B2 (en) * 2005-11-18 2012-07-31 Apple Inc. Region-based processing of predicted pixels
JP5087624B2 (ja) * 2006-08-30 2012-12-05 トムソン ライセンシング 解析的且つ実験的な複合型の符号化歪みモデル化のための方法及び装置
US20080137741A1 (en) * 2006-12-05 2008-06-12 Hari Kalva Video transcoding
JP2008160398A (ja) * 2006-12-22 2008-07-10 Matsushita Electric Ind Co Ltd 動画像符号化装置および動画像符号化方法
US8204955B2 (en) 2007-04-25 2012-06-19 Miovision Technologies Incorporated Method and system for analyzing multimedia content
US8098732B2 (en) 2007-10-10 2012-01-17 Sony Corporation System for and method of transcoding video sequences from a first format to a second format
JP2010288080A (ja) * 2009-06-11 2010-12-24 Sony Corp 画像処理装置及び画像処理方法
US8751687B2 (en) 2010-04-30 2014-06-10 Microsoft Corporation Efficient encoding of structured data
JP5549431B2 (ja) * 2010-07-02 2014-07-16 日本電気株式会社 サーバ装置、移動ベクトル検出方法及びプログラム
CN102065297B (zh) * 2011-01-05 2012-10-24 宁波大学 一种mpeg-2到h.264的快速视频转码方法
JP6164840B2 (ja) * 2012-12-28 2017-07-19 キヤノン株式会社 符号化装置、符号化方法、及びプログラム
CN103997650B (zh) * 2014-05-30 2017-07-14 华为技术有限公司 一种视频解码的方法和视频解码器
EP3082338A1 (en) * 2015-04-14 2016-10-19 Harmonic Inc. A method and device for just-in-time transcoding

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6493386B1 (en) * 2000-02-02 2002-12-10 Mitsubishi Electric Research Laboratories, Inc. Object based bitstream transcoder
US6404814B1 (en) * 2000-04-28 2002-06-11 Hewlett-Packard Company Transcoding method and transcoder for transcoding a predictively-coded object-based picture signal to a predictively-coded block-based picture signal
JP4622077B2 (ja) * 2000-10-11 2011-02-02 ソニー株式会社 画像処理装置及び画像処理方法
EP1380173A1 (en) * 2001-04-12 2004-01-14 Koninklijke Philips Electronics N.V. Watermark embedding
IES20030840A2 (en) * 2002-11-08 2004-05-05 Aliope Ltd Multimedia management

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170017707A1 (en) 2015-07-13 2017-01-19 Fujitsu Limited Non-transitory computer-readable recording medium, searching method, and searching device
CN106354746A (zh) * 2015-07-13 2017-01-25 富士通株式会社 搜索方法和搜索设备
US10664491B2 (en) 2015-07-13 2020-05-26 Fujitsu Limited Non-transitory computer-readable recording medium, searching method, and searching device
CN106354746B (zh) * 2015-07-13 2020-07-07 富士通株式会社 搜索方法和搜索设备

Also Published As

Publication number Publication date
KR20050122265A (ko) 2005-12-28
JP2006524460A (ja) 2006-10-26
WO2004093462A1 (en) 2004-10-28
US20070041447A1 (en) 2007-02-22
EP1618743A1 (en) 2006-01-25

Similar Documents

Publication Publication Date Title
CN101189882B (zh) 用于视频压缩的编码器辅助帧率上变换(ea-fruc)的方法和装置
TWI625962B (zh) 取樣自適應偏移解碼方法
CN1774931A (zh) 对编码视频数据的内容分析
CN103369321B (zh) 图像处理设备和方法
US8494056B2 (en) Method and system for efficient video transcoding
JP5088594B2 (ja) データ変換装置および方法
CA2805900C (en) Image signal decoding apparatus, image signal decoding method, image signal encoding apparatus, image signal encoding method, and program
CN1774930A (zh) 视频转码
Gao et al. Recent standard development activities on video coding for machines
CN105432083A (zh) 混合向后兼容的信号编码和解码
CN1943247A (zh) 应用于多媒体数据的编码方法
CN1757240A (zh) 视频编码
CN103313057A (zh) 用于比特深度可分级的视频编解码器的色调映射
CN1926884A (zh) 视频编码方法和装置
Shen et al. Ultra fast H. 264/AVC to HEVC transcoder
CN1757237A (zh) 视频编码
CN1717051A (zh) 高级视频编码帧内预测的系统和方法
CN105359522A (zh) 图像解码装置和方法
CN103493481A (zh) 基于场景的适应性比特率控制
CN103546754B (zh) 从h.264/avc到svc空间可分级的转码方法及系统
CN101313582A (zh) 使用各种运动模型的编码器辅助式帧速率提升转换
CN1926879A (zh) 视频信号编码器、视频信号处理器、视频信号分发系统及其操作方法
CN1310519C (zh) 视频编码和解码方法以及相应信号
CN100337481C (zh) 一种mpeg-2到avs视频码流格式转换方法及其装置
CN1703911A (zh) 降低已压缩多媒体的比特率

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication