CN1902938A

CN1902938A - 使用场景变化检测的处理方法和设备

Info

Publication number: CN1902938A
Application number: CNA200480039816XA
Authority: CN
Inventors: D·布拉泽罗维; M·巴比里
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-01-05
Filing date: 2004-12-28
Publication date: 2007-01-24
Also published as: WO2005074297A1; KR20060127024A; EP1704722A1; JP2007518303A

Abstract

本发明涉及一种处理以连续帧组成的视频流形式可获得的数字编码视频数据的方法。这些帧被分为宏块，包括至少I帧(内部)和P帧(预测的)、以及B帧，B帧在时间上位于I帧和P帧之间或者两个P帧之间并且从它所放置于其间的至少这两个帧双向预测得到。通过用从过去和将来的不相同的量的加权预测来执行所述预测。根据本发明，该处理方法包括步骤：对于当前帧的每个连续宏块确定表征所述加权预测(如果有的话)的相关编码参数；对于当前帧的所有连续宏块收集所述参数，以传送涉及所述参数的统计量；分析所述统计量，以确定预测方向的优先变化；每当优先变化被确定时就检测帧序列中平缓场景变化的出现。

Description

使用场景变化检测的处理方法和设备

技术领域

本发明涉及一种允许自动检测H.264/AVC视频流中的平缓场景转变的方法。该方法基于使用H.264引入的新的编码参数，能够获得非常有效的和节省成本的检测。

背景技术

在最近几年，国际视频编码标准已经在促进数字视频在各种专业和用户应用中采用扮演了关键的角色。大多数有影响的标准由两个组织发展：ITU-T和ISO/IEC MPEG，有时由两个组织联合发展(例如：MPEG-2/H.262)。最新的联合标准是H.264/AVC，其被期待在2003年作为推荐H.264/AVC被ITU-T正式批准，并且作为国际标准14496-10(MPEG-4第10部分)改进的视频编码(AVC)被ISO/IEC正式批准。H.264/AVC标准化的主要目的是获得压缩性能中的显著成果并且提供“网络友好的”视频表示寻址“会话式的”(电话)和“非会话式的”(存储，广播，流传送)应用。目前，H.264/AVC被广泛承认相对于现存的标准能够提供显著改进的速度失真效率(rate-distortion efficiency)，并且在其它的标准化实体诸如DVB-和DVD-论坛中也考虑基于H.264/AVC的解决方法。H.264/AVC编码器/解码器的实施已经是可得到的，例如参见：“新兴H.264标准：概述和TMS320C64x数字媒体平台实施-白皮书(Emerging H.264 standard：overview and TMS320c64xDigital Media Platform Implementation-white paper)”，网址： http：///www.ubvideo.com/public.在互联网上还存在不断增长的站点，提供关于H.264/AVC的信息，其中ITU-T/MPEG JVT[联合视频组]的官方数据库(官方H.264文献和JVT的软件在 ftp：//ftp.imtc-files.org/jvt-experts/)提供对于反映H.264/AVC的发展和状态(包括草图更新)的文献的自由访问。

这里可以回忆H.264/AVC句法和编码工具。首先，H.264/AVC采用基于块的运动补偿转换编码的相同原理，其从现有的标准诸如MPEG-2中可得知。因此，H.264句法被组织为通常的分层结构，包括标题(诸如图像-、片段-和宏块标题)和数据(诸如运动矢量，块转换系数，量化尺度等等)。虽然保留了与数据结构有关的大部分已知概念(例如，I，P，或B图像，内部和中间宏块)，但是在标题和数据层中也引入了一些新概念。H.264/AVC主要分离视频编码层(VCL)和网络抽象层(NAL)，视频编码层被限定为有效地表示视频数据的内容，网络抽象层格式化数据并且以适合于由更高级(传送)系统传送的方式提供标题信息。

H.264/AVC在数据级的一个主要特性同样是使用更精细的分割和操作的16×16宏块(一个宏块MB包括一个16×16亮度块和相应的8×8色度块，但是许多操作，例如运动估计，实际上只需用亮度并且将结果投射在色度上)。因此，使用准确度高达四分之一采样栅格的运动矢量，运动补偿处理可以形成小至4×4尺寸的MB的分割。同样，用于采样块的运动补偿预测的选择处理可以包含多个存储的先前解码的图像，而不是只有邻近的一个。即使使用内部编码，使用先前从相邻块解码的采样现在也可能形成一个块的预测(用于基于空间的预测的原理通过所谓的内部预测模式来描述)。在运动补偿或基于空间的预测之后，得到的预测误差通常基于4×4的块尺寸被变换和量化，而不使用传统的8×8尺寸。这方面与在下文中限定的本发明尤其相关，并且在下文中突出描述。H.264/AVC还使用其它的具体实现(例如熵编码)，它们中的大多数是固定的或者可以在图像级或在图像级之上改变。

关于运动补偿，H.264/AVC的一般概念和特性同样被调用，大部分现有的视频编码标准，诸如MPEG-2，固有地使用基于块的运动补偿作为利用视频中连续图像之间的相关性的有用方法。该方法通过在邻近的、以前解码的参考帧中它的“最佳匹配”来设法预测给定图像中的每个宏块。如果宏块和它的预测之间的逐像素的差值足够小，对这个差值(或残差)进行编码，而不是编码宏块本身。相对于实际MB的栅格位置的预测块的相对位移以运动矢量表示，其被独立编码。图1示出双向预测的例子，其中使用两个参考图像P_i和P_i+1，一个在过去并且一个在将来(以显示顺序)。以这种方式预测的图像(诸如图1中的B_i)叫做B图像。否则，仅仅参考过去的图像而被预测的图像叫做P图像。

使用H.264/AVC，这些基本概念被进一步详细描述。首先，H.264/AVC中的运动补偿是基于多个参考图像预测的：在更远的过去或将来的图像中观测用于给定块的匹配，而不是仅仅在相邻图像中。其次，H.264/AVC允许将MB分割为更小的块，并且分别预测这些块中的每一个块。这意味着用于给定MB的预测可以原则上由不同的块组成，其是用不同的运动矢量并且从不同的参考图像重新得到的。预测块的数量、尺寸和方向由中间模式的选择唯一确定。限定了几个这样的模式，允许块尺寸16×8、8×8等等直到4×4。

H.264/AVC中的另一个改进允许运动补偿的预测信号被加权并且偏移由编码器指定的量。这意味着在与从先前帧P(i-n)和P(i-1)和后面的帧P(i+j)和P(i+m)预测的帧B(i)有关的双向预测的情况中，编码器可以选择不同的量，来自过去的预测块和来自将来的预测块按照所述量而贡献于总的预测中。这个特性允许显著地改进包含图像衰减的场景的编码效率。

但是问题在于接下来的这个。最近在计算、通信和数字数据存储中的进展已经导致大的数字档案的极大的增长，其特征在于不断增长的容量和内容种类。因此找到迅速恢复感兴趣的存储信息的有效方法是很重要的。由于手动搜索无组织存储的千兆字节的数据是乏味的和耗费时间的，因此存在传递信息搜索和恢复任务到自动系统的日益增长的需要。通常在已经使用内容分析技术对内容进行索引之后，才在未结构化的视频内容的大的档案中执行搜索和恢复。这些技术是基于诸如图像处理、模式识别和人工智能的算法，其目的在于考虑到所述视频内容的描述来自动建立视频素材的注释(这样的注释包含从诸如色彩和纹理等特性的低级信号到诸如脸的出现和位置的高级信息)。

最重要的内容描述符之一是镜头边界指示符，例如参见国际专利申请WO01/03429(PHF99593)。一个镜头是使用单个摄像机连续拍摄的视频片段，并且镜头通常被认为是组成视频的基本单元。检测镜头边界从而意味着恢复这些基本视频单元，其依次又提供用于几乎所有现存的视频抽象和高级视频分段算法的背景(参见例如文献“视频提取(video abstracting)”，作者R.Lienhart等，ACM通信，40(12)，1997，第55至62页)。

在视频编辑期间，使用镜头过渡连接镜头，可以分为至少两类过渡：突然的过渡和平缓的过渡。突然的过渡，也叫做硬切换并且对于两个镜头没有任何修改而获得，是相当容易检测的，并且在所有种类的视频产品中它们构成了大多数。平缓的过渡，诸如衰减、逐渐消隐和划变(wipe)是通过对所涉及的两个镜头施加一些变换而获得的。在视频产生期间，仔细选择每个过渡类型以便支持视频序列的内容和前后关系。因此，自动地恢复所有它们的位置和种类可以帮助机器减少高级语义。例如，在故事片中，通常使用逐渐消隐来表示时间过渡。而且，与新闻广播、运动、喜剧和展览相比，逐渐消隐更经常出现在放映电影、记录片、传记体的和舞台的视频素材中。而对于划变情形正好。因此，过渡和它们的种类的自动检测可以用于视频种类的自动识别。

因为对于即将到来的H.264/AVC标准的大的应用范围，对于H.264/AVC视频内容分析的有效解决方法存在着日益增长的需要。最近几年，几个有效的内容分析算法和方法已经在MPEG-2视频中得到了论证，其几乎专门在压缩中操作。由于H.264/AVC限定了MPEG-2语法超集，所以多数这种方法能够扩展到H.264/AVC，如上所述。但是，由于MPEG-2的限制，这些现存的方法不能给出足够的或可靠的性能，这是一种缺陷，典型地通过包括额外的和通常成本高的操作在像素或音频域的方法来解决。

发明内容

因此本发明的目的是提供一种能够避免在以下情况中的所有缺陷的方法，其中以要被预测的帧的过去和将来的不同预测量来进行帧的加权预测。

为此目的，本发明涉及一种处理可以视频流的形式获得的数字编码视频数据的方法，所述视频流由分割为宏块的连续帧组成，所述帧包括至少独立编码的I帧、时间上位于所述I帧之间并且从至少一个先前I或P帧预测的P帧、以及B帧，B帧在时间上位于I帧和P帧之间或者两个P帧之间并且从它被放置于其间的至少这两个帧双向预测得到，通过一个对来自过去和将来的预测具有不相同的量的加权预测来执行所述预测，所述处理方法包括步骤：

-对于当前帧的每个连续宏块确定表征所述加权预测(如果有的话)的相关的编码参数；

-对于当前帧的所有连续宏块收集所述参数，以传送涉及所述参数的统计量；

-分析所述统计量，以确定预测方向的优先变化；

-每当优先变化被确定时就检测帧序列中平缓场景变化的出现。

更准确地，根据本发明，分析步骤被提供用于将具有相同方向优先选择和相似加权的宏块的数量与针对当前帧中的宏块总数量而导出的预定阈值相比较。优选地，产生与每个场景变化的位置和持续时间有关的信息并将其存储在一个文件中。

本发明的另一目的是提供一种能够执行上述方法的处理设备。

为此目的，本发明涉及一种用于处理可以视频流形式获得的数字编码视频数据的设备，所述视频流由分割为宏块的连续帧组成，所述帧包括至少独立编码的I帧、时间上位于所述I帧之间并且从至少一个先前I或P帧预测的P帧、以及B帧，B帧在时间上位于I帧和P帧之间或者两个P帧之间并且从它被放置于其间的至少这两个帧双向预测得到，通过一个对来自过去和将来的预测具有不相同的量的加权预测来执行所述预测，所述设备包括下列装置：

-确定装置，用于对于当前帧的每个连续宏块确定表征所述加权预测(如果有的话)的相关的编码参数；

-收集装置，用于对当前帧的所有连续宏块收集所述参数，以传送涉及所述参数的统计量；

-分析装置，用于分析所述统计量，以确定预测方向的优先变化；

-检测装置，用于每当优先变化被确定时就检测帧序列中平缓场景变化的出现。

附图说明

现在参照附图，通过示例描述本发明，其中：

图1示出双向预测的传统示例；

图2示出在H.264/AVC标准的情况下B帧的加权预测的基本原理；

图3是根据本发明的处理方法的实施的框图。

具体实施方式

如上所述，回想关于运动预测的H.264/AVC的一般概念和特性，运动补偿的预测信号可以被加权一个由编码器指定的量。加权预测可以用于实现双向预测(B图像)，其中来自过去和将来的预测块按照不同的量出现在总预测中(对于MPEG-2，限于由因数加权两个预测信号的一种可能性)。

本发明的原理在于由于这种不相等，平缓的镜头过渡的出现可以由从一个方向到另一个方向的预测的优先选择中的逐渐变化表示。这样的预测方向的优先选择的变化可以通过分析表征加权预测的有关编码参数的统计量来检测。例如，该分析可以包括将具有相同方向优先选择和相似加权的宏块的数量与一个给定阈值相比较，该给定阈值是针对图像中宏块的总数量而被导出的。此外，这样的宏块分布的(局部)均匀性可以被检查以便确保预测的方向优先选择中的变化实际上是平缓场景过渡的结果。一些另外的分析也可以被执行以便考虑子宏块运动预测的可能使用，并且在加权预测中，例如在H.264/AVC中同样是被允许的。

图2中示出例如在H.264/AVC中双向预测的例子，示出从先前和后面的图像P_i-n、P_i-1、P_i+j、P_i+m的图像B_i的预测。用于宏块MB的预测叫做MB_Pred并等于B₁“+”B₂“+”B₃，由三个预测块组成，以致宏块MB_Pred的下半部分由两个8×8块B₂和B₃预测，并且上半部分由一个8×16块B₁预测，其中B₁＝alpha1.b₁+alpha2.b₂(其中alpha 1和alpha 2是系数)。这些预测块的每一个都涉及不同的参考图像并且具有各别的运动矢量MV，如H.264中允许的。不像B₂和B₃，块B₁是使用加权预测获得的，也就是通过执行两个块b₁和b₂的总和来获得，在该总和中按照由相应加权参数alpha 1和alpha 2控制的不等量来提供块b₁和b₂。对于所有的宏块收集这些加权参数的统计量(绝对值和符号)，并且分析在多个宏块上的统计量分布来实现平缓场景过渡的检测。

根据本发明的处理方法的实施例示出在图3的框图中，其示出例如在H.264/AVC比特流的情况下先前解释的概念，然而所述实施例不限制本发明的范围。在示出的解码设备中，解多路复用器21接收传送流TS并且产生解多路复用的音频和视频流AS和VS。视频流由H.264/AVC解码器22接收，用于照常传送解码的视频流DVS。所述解码器22主要包括逆量化电路221(Q^-1)、逆变换电路222(T^-1)(在本例中是一个逆DCT电路)以及一个运动补偿电路223。它还包括一个所谓的网络抽象层单元(NALU)224，用于收集所接收的编码参数，这些编码参数表征所执行的加权预测(例如，一些相关的编码参数可以是“luma_weight”、“luma_offset”、“luma_log2_weight_denom”等等，其被用在表征预测采样的加权和偏移的等式中)。所述单元224的输出信号是加权的预测参数统计量WPPS，其被分析电路23接收用于合适的处理。接着在电路23中执行的处理操作产生关于原始接收的流中的平缓场景变化的位置和持续时间的信息，并且该信息然后存储在文件24中，其形式例如是通常使用的CPI(特征点信息)表。现在该输出信息对于诸如视频概括、自动章节等应用是可获得的。

附加的，借助于硬件或软件或两者可以有多种方式来实施功能(本发明的方法可以通过用语处理单元的、包括一组指令的计算机程序产品实现，当该计算机程序产品装载到所述处理单元中时使该处理单元执行上述的方法)。在这方面，附图是非常概略的并且仅示出本发明的一个可能的实施例。因此，虽然附图(在本例中是图3)将不同功能视为不同块，决不排除单个硬件或软件项执行几个功能的情形。也不排除多件硬件或软件或两者的集成执行一个功能。这些注释意图调用详细的描述，参照附图，示例而不是限制本发明，并且在所附权利要求范围内有多种可选择的备选方式。词语“包括”不排除存在未在权利要求中列出的其它元件或步骤。一个元件或步骤之前的词语“一个”不排除存在多个这样的元件或步骤。

Claims

1、一种处理可以视频流的形式获得的数字编码视频数据的方法，所述视频流由分割为宏块的连续帧组成，所述帧包括至少独立编码的I帧、时间上位于所述I帧之间并且从至少一个先前I或P帧预测的P帧、以及B帧，B帧在时间上位于I帧和P帧之间或者两个P帧之间并且从至少它放置于其间的这两个帧双向预测得到，通过一个对来自过去和将来的预测具有不相同的量的加权预测来执行所述P和B帧的预测，所述处理方法包括步骤：

-对于当前帧的每个连续宏块确定表征所述加权预测，如果有的话，的相关编码参数；

-分析所述统计量，以确定预测方向的优先变化；

2、根据权利要求1的处理方法，其中分析步骤被提供用于将具有相同方向优先选择和相似加权的宏块的数量与针对当前帧中宏块总数量而导出的预定阈值相比较。

3、根据权利要求2的处理方法，其中产生关于每个场景变化的位置和持续时间的信息并将其存储在一个文件中。

4、根据权利要求1至3中任何一个的处理方法，其中所处理的视频流的语法和语义是H.264/AVC标准的语法和语义。

5、一种用于处理可以视频流的形式获得的数字编码视频数据的设备，所述视频流由分割为宏块的连续帧组成，所述帧包括至少独立编码的I帧、时间上位于所述I帧之间并且从至少一个先前I或P帧预测的P帧、以及B帧，B帧在时间上位于I帧和P帧之间或者两个P帧之间并且从它所放置于其间的至少这两个帧双向预测得到，通过一个对来自过去和将来预测具有不相同的量的加权预测来执行所述P和B帧的预测，所述设备包括下列装置：

-确定装置，用于对于当前帧的每个连续宏块确定表征所述加权预测，如果有的话，的相关编码参数；

-收集装置，用于对于当前帧的所有连续宏块收集所述参数，以传送涉及所述参数的统计量；

6.一种用于数字视频数据解码设备的计算机程序产品，其包括一组指令，当装载到所述解码设备中时，其使所述解码设备执行根据权利要求1至4中任何一个的处理方法的步骤。