CN1902937A

CN1902937A - 编码方法以及相应的已编码信号

Info

Publication number: CN1902937A
Application number: CNA2004800398121A
Authority: CN
Inventors: D·布拉泽罗威; M·巴比里
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-01-05
Filing date: 2004-12-28
Publication date: 2007-01-24
Also published as: WO2005074296A1; JP2007522698A; EP1704721A1; US20090016441A1; KR20060127022A

Abstract

本发明涉及一种用于对数字视频数据进行编码的编码方法，该数字视频数据可以以包含被划分为宏块的连续帧的视频流的形式获得。所述帧至少包括：独立编码的I帧；或者P帧，其在时间上位于所述I帧之间并且从至少一个先前I帧或P帧预测得到；或者B帧，其在时间上位于I帧和P帧之间或者两个P帧之间，并且从位于其两侧的至少这两个帧双向预测得到。所述对P帧和B帧的预测是通过利用来自过去和将来的不等量预测的加权预测的方式来执行的。根据本发明，所述编码方法包含如下步骤：结构化步骤，用于捕获编码参数，所述编码参数表征所述加权预测；计算步骤，用于提供与所述参数相关的统计量；分析步骤，用于确定关于预测方向的优选项的改变；检测步骤，用于检测逐渐场景改变的出现；用于针对所述逐渐场景改变的出现而产生描述数据步骤；以及用于对如此获得的描述数据以及原始数字视频数据进行编码的步骤。

Description

编码方法以及相应的已编码信号

发明领域

本发明涉及一种用于编码数字视频数据的编码方法，该数字视频数据可以以包含被划分为宏块的连续帧的视频流的形式获得，所述帧被至少编码为以下形式：独立编码的I帧；或者P帧，其在时间上位于所述I帧之间并且从至少一个先前I帧或P帧预测得到；或者B帧，其在时间上位于I帧和P帧之间或者两个P帧之间，并且从位于其两侧的至少这两个帧双向预测得到。所述对P帧和B帧的预测是通过利用来自过去和将来的不等量预测的加权预测的方式来执行的。

本发明也涉及一种相应的编码设备，还涉及相应的计算机可执行的处理步骤，所述步骤被存储在计算机可读存储介质上并且包含在所述编码方法中定义的步骤，并且本发明还涉及一种可传输的已编码信号，其是通过依照所述编码方法对数字视频数据进行编码而产生的。

发明背景

现在出现了越来越多的数字广播服务，因此让用户能够充分利用多媒体信息资源将是非常有帮助的，这些用户通常都不是信息技术领域的专家。所述的多媒体信息通常包含自然的和合成的音频、视觉和对象数据，所述数据预定将以诸如流送、压缩和用户交互之类的操作而被操纵，并且MPEG-4标准是提供大量允许实施所述操作的功能的最被认可的解决方案之一。MPEG-4的最重要的一个方面是其通过“对象”的概念来支持交互性，所谓“对象”表示视听场景的任意单元：所述场景的对象作为几个比特流(通常所说的基本流)被独立编码，并且同时以压缩后的形式被存储或传输。MPEG-4的规范包含一个对象描述框架，其用于标识并描述这些基本流(音频、视频等等)，并且以合适的方式将它们相关联以便获得场景描述，以及构造一个有意义的多媒体场景并将其呈现给终端用户：作为对象的合成的MPEG-4模型的多媒体数据。然而，这一标准的巨大成功是由于以下事实：现在有越来越多的信息可以以数字形式获得。因此，对于人类用户以及出于任何特定目的来对视听数据进行操作的自动化系统而言，找到并选择正确的信息变得更加困难，二者都需要与所述信息的内容有关的信息，以便作出与所述内容有关的决定。

MPEG-7标准(仍未固定)的目的是要描述所述的内容，也就是找到一种描述不同的多媒体素材的标准化的方式，以及找到一种描述这些元素是如何被组织在一个多媒体文档中的方式，其中所述不同多媒体素材包括语音、音频、视频、静止画面、3D模型或其他素材。因此，MPEG-7标准希望定义多个规范化元素，这些元素被称为描述符D(每一个描述符都能够表征内容的一个具体特征，例如图像的颜色、对象的运动、电影的标题等等)、描述方案DS(所述描述方案定义了所述描述符的结构和描述符之间的关系)、描述定义语言DDL(用于指定描述符及描述方案)以及用于这些描述的编码方案。附图1给出了MPEG-7的这些规范化元素以及它们之间的关系的一个图形总览。人们仍然在讨论在MPEG中是否需要将描述符和描述方案标准化。但是看起来至少最为广泛地使用的一组描述符和描述方案将被标准化。

发明概要

因此，本发明的一个目的是提出一种新的描述符，其关于MPEG-7标准将会非常有用。

为此，本发明涉及一种例如在本说明书的引言部分所定义的编码方法，并且该方法的进一步的特征在于其包含如下步骤：

-结构化步骤，用于为当前帧的所有连续宏块捕获相关的编码参数，如果有的话，所述编码参数表征所述加权预测；

-计算步骤，用于为所述当前帧提供与所述参数相关的统计量；

-分析步骤，用于分析所述的统计量并且确定关于预测方向的优选项(preference)的改变；

-检测步骤，用于在每次确定了优选项改变时检测在帧序列中的逐渐场景改变的出现；

-描述步骤，用于针对所述逐渐场景改变的出现而产生描述数据；

-编码步骤，用于对如此获得的描述数据以及原始数字视频数据进行编码。

本发明还涉及一种用于对数字视频数据进行编码的编码设备，该数字视频数据可以以包含被划分为宏块的连续帧的视频流的形式获得，所述帧至少被编码为以下形式：独立编码的I帧；或者P帧，其在时间上位于所述I帧之间并且从至少一个先前I帧或P帧预测得到；或者B帧，其在时间上位于I帧和P帧之间或者两个P帧之间，并且从位于其两侧的至少这两个帧双向预测得到。所述对P帧和B帧的预测是通过利用来自过去和将来的不等量预测的加权预测的方式来执行的，所述编码设备包含：

-结构化装置，用于为当前帧的所有连续宏块捕获相关的编码参数，如果有的话，所述编码参数表征所述加权预测；

-计算装置，用于为所述当前帧提供与所述参数相关的统计量；

-分析装置，用于分析所述统计量并且确定关于预测方向的优选项的改变；

-检测装置，用于在每次确定了优选项改变时检测在帧序列中的逐渐场景改变的出现；

-描述装置，用于针对所述逐渐场景改变的出现而产生描述数据；

-编码装置，用于对如此获得的描述数据以及原始数字视频数据进行编码。

本发明还涉及用于存储在计算机可读存储介质上的计算机可执行的处理步骤，所述处理步骤被使用在用于对数字视频数据进行编码的编码设备中，该数字视频数据可以以包含被划分为宏块的连续帧的视频流的形式获得，所述帧至少被编码为以下形式：独立编码的I帧；或者P帧，其在时间上位于所述I帧之间并且从至少一个先前I帧或P帧预测得到；或者B帧，其在时间上位于I帧和P帧之间或者两个P帧之间，并且从位于其两侧的至少这两个帧双向预测得到。所述对P帧和B帧的预测是通过利用来自过去和将来的不等量预测的加权预测的方式来执行的。所述处理步骤包含如下步骤：

-分析步骤，用于分析所述的统计量并且确定关于预测方向的优选项的改变；

附图简述

现在将结合附图通过示例的方式对本发明进行说明，其中：

图1是MPEG-7规范化元素及其关系的图形总览，其用于定义MPEG-7环境，用户可以在该环境中配置其他描述符(可以是该标准中的或者不在该标准中的)；

图2和图3示出了用于编码和解码多媒体数据的编码和解码方法。

发明的具体描述

依照本发明对多个多媒体数据进行编码的方法在图2中示出，其包含如下步骤：获取步骤(CONV)，用于将可获得的多媒体数据转换成一个或几个比特流；结构化步骤(SEGM)，用于通过分析和分段来捕获所述比特流(或多个比特流)中的不同级别的信息；描述步骤，用于产生针对所获得的信息级别的描述数据；以及编码步骤(COD)，其允许对如此获得的描述数据进行编码。更准确地说，该描述步骤包含一个定义子步骤(DEF)，其用于存储与所述多个多媒体数据有关的一组描述符；并且该描述步骤还包含一个描述子步骤(DESC)，其用于选择将被编码的描述数据，该选择是依照在该结构化步骤中基于原始多媒体数据而获得的每一个信息级别来进行的。编码后的数据随后被传输和/或存储。相应的解码方法在图3中示出，其包含如下步骤：对通过上文中描述的编码方法而被编码的信号进行解码(DECOD)；存储(STOR)如此获得的解码信号；基于用户(USER)发送的搜索命令在由所述解码信号组成的数据中进行搜索(SEARCH)；以及向所述用户发送回在所存储的数据中进行的所述搜索的检索结果。

在关于所有可能的多媒体内容存储的描述符中，根据本发明所提出的描述符是基于将来的标准H.264/AVC的，这一标准有望在2003年由ITU-T正式批准为H.264/AVC推荐，并且由ISO/IEC批准为国际标准14496-10(MPEG-4第10部分)高级视频编码(AVC)。这一新的标准采用和从已有的诸如MPEG-2的标准中获知的基于块的运动补偿变换编码相同的原理，其确实将基于块的运动补偿作为一种利用视频中的连续画面之间的相关性的实际方法。该方法试图通过在相邻的、先前解码的基准画面中的“最佳匹配”来预测一个给定画面中的每一个宏块。如果一个宏块和它的预测之间的像素方面的差别足够小，则编码这一差别(残留)而不是宏块本身。所述预测相对于实际MB的栅格位置的相对位移由运动矢量表示，所述运动矢量被单独编码。图2示出了双向预测时的情况，其中使用了两个基准图像，一个在过去而另一个在将来(以显示顺序而言)。以这种方式预测的画面被称为B画面。相反，只参考过去而被预测的画面被称为P画面。

下面将结合H.264/AVC对这些基本概念做进一步的阐述。首先，在H.264/AVC中的运动补偿是基于多个基准画面预测：对一个给定块的匹配可以在更远的过去或将来的画面中进行搜索，而不是仅在相邻的画面中搜索。其次，H.264/AVC允许将一个MB划分为更小的块，并且允许单独预测这些块当中的每一个。这意味着对一个给定MB的预测在原理上可以包含不同的子块，这些子块是使用不同的运动矢量从不同的基准画面中检索得到的。预测块的数量、大小和指向由内部模式的选择唯一地确定。指定了几种这样的模式，从而允许16×8、8×8等等一直到4×4的块大小。H.264/AVC的另一项创新是允许将运动补偿后的预测信号加权和偏移编码器指定的量。这意味着在涉及从先前的P(i-n)帧和P(i-1)帧预测得到的并且位于P(i+j)和P(i+m)之后的B(i)帧的双向预测的情况中，编码器能够选择不相等的量，藉此，来自过去的预测块和来自将来的预测块将对总的预测作出贡献。这一特征能够显著地提高包含渐弱的场景的编码效率。

然而问题也随之出现。由于在专业以及消费环境中的较大数字档案的巨大增长(其表现为容量和内容多样性的稳定增长)，找到快速检索出感兴趣的所存储信息的有效方式是非常重要的。在包含未结构化的视频内容的较大档案中进行的搜索和检索通常是在利用内容分析技术对所述内容进行索引后执行的，所述索引是基于诸如图像处理、模式识别以及人工智能之类的算法，其目的是自动创建视频素材的注释(这些注释从低级别信号相关属性(诸如颜色和纹理)到更高级别的信息(诸如面部的存在和位置)变化)。

最重要的内容描述符之一是镜头(shot)边界指示符，例如在国际专利申请WO 01/03429(PHF99593)中所看到的那样。一个镜头是一个视频段，其是连续使用单个摄影机拍摄的，并且镜头通常被看作是组成视频的基本单元。因此，检测镜头边界意味着恢复这些基本视频单元。在视频编辑期间，使用镜头过渡来连接各镜头，所述镜头过渡至少可以被分为两类：突然过渡和逐渐过渡。突然过渡也被称之为硬剪切，其是在对两个镜头不作任何修改的情况下而获得的，所述突然过渡非常容易被检测，并且在所有类型的视频制作中这种过渡占据主要地位。逐渐过渡(诸如渐弱(fade)、淡入淡出(dissolve)和划入划出(wipe))是通过对两个相关的镜头应用某种转换而获得的。在视频制作的过程中，每一种过渡类型是慎重地选择的，以便支持视频序列的内容和情境。因此，自动恢复它们的所有位置和类型能够帮助机器推导出高级别语义。例如，在故事片中，淡入淡出经常被用来传达时间的流逝。此外，和新闻、体育、喜剧以及演出秀相比较而言，淡入淡出更多地出现在故事片、记录片、传记片和风景视频素材中。对于划入划出而言又是相反的。因此，自动检测镜头过渡以及它们的类型可以用于自动识别视频种类。

因为即将出现的H.264/MPEG-4AVC标准具有广泛的应用领域，所以将日益需要对于H.264/AVC视频内容分析的高效解决方案。在过去的几年中，对于MPEG-2视频已经论证了几种高效的内容分析算法和方法，这些算法和方法几乎只在压缩领域中操作。这些方法中的大多都可以容易地扩展至H.264/AVC，因为如前所述，H.264/AVC在某种程度上指定了MPEG-2语法的超集合。然而，由于MPEG-2的限制，这些现有方法中的一些可能无法给出足够的(可靠的)性能，这是一个缺陷，通常通过引入在像素或音频域中操作的附加的且经常高成本的方法来解决该缺陷。

和本申请同一天提交的一个欧洲专利申请提出了一种允许避免所述缺点的方法。更准确的说，所述欧洲专利申请涉及一种处理数字编码的视频数据的方法(以及相应的设备)，该数字编码的视频数据可以以包含被划分为宏块的连续帧的视频流的形式获得，所述帧至少包括：独立编码的I帧；或者P帧，其在时间上位于所述I帧之间并且从至少一个先前I帧或P帧预测得到；以及B帧，其在时间上位于I帧和P帧之间或者两个P帧之间，并且从位于其两侧的至少这两个帧双向预测得到。所述对P帧和B帧的预测是通过利用来自过去和将来的不等量预测的加权预测的方式来执行的。所述处理步骤包含如下步骤：为当前帧的所有连续宏块确定相关的编码参数，如果有的话，所述编码参数表征所述加权预测；对于当前帧的所有连续宏块收集所述参数，以用于提供与所述参数相关的统计量；分析所述统计量以用于确定对应于预测方向的优选项的改变；以及在每次确定了优选项改变时检测在帧序列中的逐渐场景改变的出现(更准确的说，依照所述方法，所述分析步骤用于将具有相同方向优选项以及类似加权的宏块的数量与一个预定义的阈值相比较，该阈值是相对于该帧中的宏块的总数推导出来的，此外，优选地产生关于每一个场景改变的位置和持续时间的信息并将其存储在文件中)。

依照MPEG-7标准草案ISO/IEC JTC 1/SC 29N 4242(2001年10月23日)，指定了用于描述由视频编辑工作创建的可视内容段的工具。视频编辑工作包括组装并合成视频段，并且对这样的工作的分析性描述相应于这些视频段的分级结构(三级或更多级)以及在编辑处理期间产生的过渡。所述分析性已编辑视频段可以分为两类：分析性剪辑(镜头、合成镜头、内部合成镜头)和分析性过渡(全局过渡、合成过渡、内部过渡)。在同一文献的规范化附录B中，利用参照一个预定义MPEG-7分类方案(EvolutionTypeCS)的一组给定名称来指定过渡的类型。如此定义的用于逐渐镜头过渡的描述符可以是应用在依照本发明的编码方法中的描述符，以便产生针对逐渐场景改变的出现的描述数据。

如前所述，在H.264/AVC中的经运动补偿的预测可以基于来自过去和将来的预测块，这些预测块以不相等的量存在于总的预测中。因为该不等性，逐渐镜头过渡的存在可以通过从一个方向到另一个方向的预测的优选项的逐渐改变来表示，在解码侧，通过分析表征所述加权预测的所传输编码参数的统计量来检测预测方向的优选项的改变(例如，这一分析可以包含将具有相同方向优选项以及类似加权的宏块的数量与一个给定的阈值进行比较以及检查这种宏块的分布的均匀性，以确保预测的方向优选项的改变确实是逐渐场景过渡的结果，其中所述阈值可以相对于该画面中的宏块的总数而推导出来)。

下面将说明依照本发明的编码方法的定义。将要被编码的数字视频数据可以以包含被划分为宏块的连续帧的视频流的形式获得。所述帧至少被编码为以下形式：独立编码的I帧；或者P帧，其在时间上位于所述I帧之间并且从至少一个先前I帧或P帧预测得到；或者B帧，其在时间上位于I帧和P帧之间或者两个P帧之间，并且从位于其两侧的至少这两个帧双向预测得到。所述对P帧和B帧的预测是通过利用来自过去和将来的不等量预测的加权预测的方式来执行的。该编码方法包含以下步骤：

-分析步骤，用于分析所述统计量并且确定关于预测方向的优选项的改变；

-编码步骤本身，用于对如此获得的描述数据以及原始数字视频数据进行编码。

依照本发明，这些步骤可以通过计算机可执行的处理步骤实现，所述处理步骤被存储在计算机可读的存储介质上，并且更准确地说包含如下步骤：

-为当前帧的所有连续宏块捕获相关的编码参数，如果有的话，所述编码参数表征所述加权预测；

-为所述当前帧提供与所述参数相关的统计量；

-分析所述统计量以用于确定预测方向的优选项的改变；

-在每次确定了优选项改变时检测在帧序列中的逐渐场景改变的出现；

这些步骤之后是：描述步骤，其用于针对所述逐渐场景改变的出现而产生描述数据；以及相关的编码步骤，其用于对如此获得的描述数据以及原始数字视频数据进行编码。

本发明还涉及一种允许实现这些步骤的编码设备，该编码设备包含：

本发明最后还涉及一种可传输的已编码信号，诸如可以在所述编码设备的输出端上获得的并且通过按照之前描述的编码方法对数字视频数据进行编码而产生的信号。

Claims

1、一种用于对数字视频数据进行编码的编码方法，该数字视频数据可以以包含被划分为宏块的连续帧的视频流的形式获得，所述帧被至少编码为以下形式：独立编码的I帧；或者P帧，其在时间上位于所述I帧之间并且从至少一个先前I帧或P帧预测得到；或者B帧，其在时间上位于I帧和P帧之间或者两个P帧之间，并且从位于其两侧的至少这两个帧双向预测得到，所述对P帧和B帧的预测是通过利用来自过去和将来的不等量预测的加权预测的方式来执行的，所述编码方法包含如下步骤：

2、一种用于对数字视频数据进行编码的编码设备，该数字视频数据可以以包含被划分为宏块的连续帧的视频流的形式获得，所述帧至少被编码为以下形式：独立编码的I帧；或者P帧，其在时间上位于所述I帧之间并且从至少一个先前I帧或P帧预测得到；或者B帧，其在时间上位于I帧和P帧之间或者两个P帧之间，并且从位于其两侧的至少这两个帧双向预测得到，所述对P帧和B帧的预测是通过利用来自过去和将来的不等量预测的加权预测的方式来执行的，所述编码设备包含：

3、存储在计算机可读存储介质上的计算机可执行的处理步骤，所述处理步骤被使用在用于对数字视频数据进行编码的编码设备中，该数字视频数据可以以包含被划分为宏块的连续帧的视频流的形式获得，所述帧至少被编码为以下形式：独立编码的I帧；或者P帧，其在时间上位于所述I帧之间并且从至少一个先前I帧或P帧预测得到；或者B帧，其在时间上位于I帧和P帧之间或者两个P帧之间，并且从位于其两侧的至少这两个帧双向预测得到，所述对P帧和B帧的预测是通过利用来自过去和将来的不等量预测的加权预测的方式来执行的，所述处理步骤包含如下步骤：

4、一种用于数字视频数据编码设备的计算机程序产品，其包含一组指令，当所述指令被加载到所述编码设备中时其能够使所述编码设备实施如权利要求3所述的各步骤。

5、一种可传输的已编码信号，其是通过按照如权利要求1所述的编码方法对数字视频数据进行编码而产生的。