CN1943247A

CN1943247A - 应用于多媒体数据的编码方法

Info

Publication number: CN1943247A
Application number: CNA2005800108674A
Authority: CN
Inventors: M·巴比里; D·布拉泽罗维克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-04-08
Filing date: 2005-04-04
Publication date: 2007-04-04
Also published as: JP2007533197A; KR20070032633A; WO2005099274A1; EP1751986A1; US20080267290A1

Abstract

本发明涉及一种编码方法，用于编码以视频流形式可用的数字视频数据，所述视频流包括被划分成宏块的连续帧，宏块本身可被子划分为相连的块。这些帧以至少独立编码的I帧、根据至少先前的I或P帧预测的P帧、以及根据它们所被布置于其间的至少两个帧被双向预测的B帧的形式被编码。根据本发明，该编码方法包括下列步骤：结构化步骤，用于根据预定帧内预测模式来为当前帧的所有宏块捕获有关的编码参数，所述编码参数表征所述宏块是否已经被编码；计算步骤，用于递送与所述参数有关的统计；分析步骤，用于分析所述统计，并确定展示或未展示所述帧内预测模式的块的数量；检测步骤，用于当每次所述数量大于给定阈值时检测图像或图像的子区域的出现，图像或图像的子区域要么是单色要么具有重复的图案；描述步骤，用于生成所述图像或子图像的出现的描述数据，所述图像或子图像要么是单色要么具有重复的图案；编码步骤，用于编码描述数据和原始数据。

Description

应用于多媒体数据的编码方法

技术领域

本发明涉及一种编码方法，用于编码以视频流形式可用的数字视频数据，所述视频流由被划分成宏块的连续帧组成，所述帧以至少I帧、或P帧、或B帧的形式被编码，所述I帧根据所述帧内编码模式被独立地编码，所述P帧被时间布置在所述I帧之间并至少根据先前的I或P帧来预测，所述B帧被时间布置在I帧和P帧之间，或者在两个P帧之间、并且根据它们所被布置于其间的至少这些两个帧来被双向预测。

本发明还涉及对应的计算机可执行处理步骤，所述步骤被提供存储在计算机可读存储介质上并包括在所述编码中定义的步骤，并且涉及通过根据这种编码方法编码的数字视频数据产生的可传输编码信号。

背景技术

现在有越来越多的数字广播服务可用，并因此这显得对于用户能够良好地开发多媒体信息资源来说有用，所述用户一般都不是信息技术专家。所述多媒体信息一般由固有和合成音频、视觉和对象数据构成，其中视觉和对象数据用于鉴于诸如流送、压缩和用户交互这样的操作被操纵，并且MPEG-4标准是提供许多允许执行所述操作的功能的最一致的解决方案之一。MPEG-4最重要的方面是支持依据对象概念的交互性：情景的对象被独立编码并同时以压缩格式作为若干比特流被存储或传输，所述比特流即所谓的基本流。

MPEG-4的规范包括对象描述架构，用于识别和描述这些基本流(音频、视频等等)以及将它们以适当的方式相关联以便获得情景描述并向最终用户构建和呈现有意义的多媒体情景：MPEG-4将多媒体数据作为对象的成分来建模，对象指明了音频-可视情景的任何元素。但是，该标准的巨大成功有助于现在越来越多的信息可以数字形式可用的事实。对于人类用户以及对用于任何特定目的的音频-视觉数据进行操作的自动系统来说，寻找和选择正确的信息因此变得更加困难，这两者都需要与所述信息的内容有关的信息，以便例如判定与所述内容的关系。

MPEG-7标准的目标(还未确定)将是描述所述内容，即寻找描述各种不同多媒体材料，比如语音、音频、视频、静态图片、3D模型或其它多媒体材料的标准方式，以及描述这些元素如何被组成在多媒体文档中的方式。MPEG-7因此用于定义多个标准化元素，被称为描述符D(每个描述符能够特征化内容的特定特征，例如图像的颜色、对象的运动、电影的标题等等...)、描述方案DS(描述方案定义描述符的结构和关系)、描述定义语言DDL(用于规定描述符和描述方案)、以及这些描述的编码方案。图1给出了这些MPEG-7标准化元素及其关系的图像概观。是否需要标准化描述符和描述方案仍然在MPEG中讨论。但是，标准化至少一组最广泛使用的是很可能的。

发明内容

因此，本发明的目的是提出一种新的描述符，旨在对于MPEG-7标准十分有用。

为此，本发明涉及如在说明书的介绍部分中定义的编码方法，该编码方法进一步特征在于其包括以下步骤：

-结构化步骤，用于根据预定帧内预测模式来为当前帧的所有连续宏块捕获有关的编码参数，所述编码参数表征所述连续宏块是否已经被编码；

-计算步骤，用于为所述当前帧递送与所述参数有关的统计；

-分析步骤，用于分析所述统计，以便确定所述当前帧中展示或未展示所述帧内预测模式的块的数量；

-检测步骤，用于当每次所述数量大于给定阈值时检测图像或图像的子区域的出现，图像或图像的子区域要么是单色要么具有重复的图案；

-描述步骤，用于生成所述图像或子图像的出现的描述数据，所述图像或子图像要么是单色要么具有重复的图案；

-编码步骤，用于编码如此获得的描述数据以及原始的数字视频数据。

本发明的另一个目的是提供一组允许执行所述方法的计算机可执行处理步骤。

为此，为在一种编码设备中使用，所述编码设备用于编码以视频流形式可用的数字视频数据，所述视频流由被划分成宏块的连续帧组成，所述帧以至少I帧、P帧和B帧的形式被编码，所述I帧根据所述帧内编码模式被独立地编码，所述P帧被时间布置在所述I帧之间并至少根据先前的I或P帧来预测，所述B帧被时间布置在I帧和P帧之间，或者在两个P帧之间、并且根据它们所被布置于其间的至少这些两个帧来被双向预测，本发明涉及计算机可执行处理步骤，该计算机可执行处理步骤被提供存储在计算机可读存储介质上并包括步骤：

-计算步骤，用于为所述当前帧递送与所述参数有关的统计；

附图说明

现在将通过举例的方式，参考附图来描述本发明，其中：

图1给出了用于定义MPEG-7环境的MPEG-7标准化元素及其关系的图形概观，在MPEG-7环境中，用户可接着部署其它的描述符(要么按照标准，或者可能不按照)；

图2和3说明了允许编码和解码多媒体数据的编码和解码方法。

具体实施方式

如图2所示的根据本发明的编码多个多媒体数据的方法包括下列步骤：采集步骤(CONV)，用于将可用的多媒体数据转换成一个或多个比特流，结构化步骤(SEGM)，用于借助分析和分段来捕获所述比特流中不同层的信息，描述步骤，用于生成所获得层的信息的描述数据，和编码步骤(COD)，允许编码如此获得的描述数据。更精确的是，描述步骤包括定义子步骤(DEF)，用于存储与所述多个多媒体数据有关的一组描述符，以及描述子步骤(DESC)，用于根据基于原始多媒体数据而在结构化步骤中获得的每一层信息来选择要编码的描述数据。编码的数据接着被传输和/或被存储。如图3所示的对应编码方法包括解码步骤(DECOD)，其借助上述编码方法编码的信号、存储(STOR)如此获得的编码信号、基于由用户(USER)发送的搜索命令，在由所述解码信号构成的数据中进行搜索(SEARCH)，并且向所述用户发送回在存储数据中的所述搜索的检索结果。

在与所有可能的多媒体内容相关联存储的描述符中，根据本发明提出的一个基于的是将来的标准H.264/AVC，其预期在2003年由ITU-I正式批准作为推荐H.264/AVC，以及由ISO/IEC批准作为国际标准14496-10(MPEG-4部分10)先进视频编码(AVC)。这个新标准应用非常相同原理的基于块的运动补偿变换编码，其可以从已确立的标准，例如MPEG-2中得知。H.264语法因此被组织成头部的通常层次(比如图片-、片段-和宏块头部)和数据(比如运动矢量、块变换系数、量化器刻度等等)。维持了与数据结构化(例如I、P或B图片、帧内和帧间的宏块)有关的大多数已知概念的同时，在头部和数据层也引入了一些新的概念，这被定义为有效地表示视频数据的内容，和网络抽象层(NAL)，其以适于由高层(传输)系统传送的方式来格式化数据和提供头部信息。

在数据层上的H.264/AVC的主要特性之一也是使用更多精细地分区和操纵16×16个宏块(宏块MB包括亮度的16×16个块和相应的色度的8×8个块，但是许多操作例如运动估计，实际上只采用亮度并且不能将结果投影到色度上)。因此，运动补偿处理可形成在尺寸上有4×4那么小的MB的分段，使用达到四分之一的样本格(samplegrid)的运动矢量精确度。并且，样本块的运动补偿预测的选择处理可涉及多个先前存储的解码图片，而不只是邻近的解码图片。即使使用帧内编码，现在可能使用来自相邻块的先前解码的样本来形成对块的预测(该基于空间的预测的规则是由所谓的帧内预测模式描述的)。该方面尤其与这里定义的本发明有关，并且之后在本说明中突出。在运动补偿或基于空间的预测之后，通常基于4×4的块大小，而不是传统8×8的大小来变换和量化所得的预测误差。所述H.264/AVC标准仍然使用在其它编码阶段(例如熵编码)的其它特定实现，其大多数是固定的或者只可在图片级或在图片级之上才能改变。

因为是利用先前标准的情况，所以H.264/AVC允许图像块以帧内模式被编码，即不需要使用根据相邻图像的时间预测。H.264/AVC帧内编码的新颖性是使用空间预测，允许通过在相同图片中由先前编码和重构的样本所形成的块P来预测帧内块。在编码之前，从实际图像块减去该预测块P，这不同于现存的标准(例如MPEG-2、MPEG-4ASP)，其中实际图像块被直接编码。帧内模式的选择必须被信号通知给解码器，为此目的，H.264定义有效的编码过程(中心思想是通过应用相邻4×4个块的模式通常将是高度相关的观察来避免分开编码4×4种模式)。

最近在计算、通信和数字数据存储中的进展引导专业和消费者环境向大的数字档案的巨大增长，其特征是稳定地增加了容量和内部多样性。寻找有效的方式来快速检索存储的感兴趣信息因此是十分重要的。因为在千兆字节的没有组织存储的数据中进行手工搜索是乏味和费时的。因此存在对传输信息搜索和检索任务给自动系统的增加的需要。在没有结构化的视频内容的大档案中搜索和检索通常是在已经利用内容分析技术对内容进行索引后执行。这些技术包括旨在对于视频内容的描述来自动创建视频材料的注释的算法(所述注释从与诸如颜色和纹理的属相有关的低级别信号变化到诸如面部表情和位置的高级别信息)。

一个重要的内容描述符是所谓的单色，或“单颜色”帧指示符。如果帧完全用同一颜色填充(实际上，因为信号链的噪声从产生到递送，单色帧通常表示单个颜色，例如蓝色、暗灰色、黑色的不可察觉的变化)，那么将该帧认为是单色的。在许多基于内容的检索应用中，检测单色帧的是重要的步骤。例如，如专利申请公开US2002/0186768中所描述的，商业检测器和程序边界检测器依赖于对存在的单色帧的识别，单色帧通常是黑色，并且被插入广播符(broadcaster)以将两个连续的节目或来自商业广告的节目分开。单色帧判定还用于从内容视觉表中滤出无信息的关键帧。

因为即将来到的H.246/MPEG-4AVC标准的较大应用范围，存在对有效解决H.246/AVC视频内容分析的不断需求。在最近几年，对于MPEG-2视频，已经证明了若干有效内容分析算法和方法，其在压缩域几乎是排他地操作。大多数这些方法可扩展到H.246/AVC，因为从上面可以看出，H.246/AVC以一种方式规定了MPEG-2语法的超集。但是，由于MPEG-2的限制，这些现有方法中的一些可能不给出适当或可靠的性能，这是通过包括附加并且通常是昂贵的方法来解决的缺陷，所述方法在像素或音频域中操作。

于2004年4月8日提交的欧洲专利申请，官方提交号为04300189.0(PHFR040040)，接着提出了一种用于避免所述缺陷的方法。更精确地，所述欧洲专利申请涉及检测方法(和对应的检测设备)，其应用于以视频流形式可用的数字编码视频数据，所述视频流包括被划分成宏块的连续帧，宏块本身可子划分成连续的块，所述帧包括至少I帧、P帧和B帧，所述I帧独立于其它帧被直接或者借助空间预测而被独立编码，所述空间预测根据在同一帧中至少一个由先前编码或重构的样本而形成的块进行的，所述P帧被时间布置在所述I帧之间并且或根据至少先前的I或P帧被预测，所述B帧被时间布置在I帧和P帧之间，或者两个P帧之间，并且根据它们所被布置于其间的至少这些两个帧来被双向预测，所述检测方法还包括步骤：

-根据预定的帧内预测模式来为当前帧的每个连续的块确定它是否被编码；

-为当前帧的所有连续的块收集类似的信息，以便传递与所述预定的帧内预测模式有关的统计；

-分析所述统计，以确定所述当前帧中展示或未展示所述帧内预测模式的块的数量；

-检测步骤，用于当每次所述数量大于给定阈值时检测图像或图像的子区域的出现，图像或图像的子区域要么是单色要么具有重复的图案。

在所述欧洲专利申请中描述的技术方案的原理基于帧内预测模式可方便地用于单色帧检测的目的的事实，其中所述帧内预测模式是H.264/AVC的新颖编码工具。主要思想是观察构成图像的宏块的帧内预测模式的分布。当大多数块展示相同或类似的预测模式时，单色图像或子图像被检测：这些块的数量可例如与固定的阈值比较。当根据特定帧内预测模式来编码图像(或子图像)中的多数块时，图像(或子图像)呈现非常低的空间变化，并且其要么是单色的，要么包含重复的图案(对于早先提到的该算法对生成内容表的应用于或者对于关键帧的提取，两种类型的图像或子图像——单色和具有重复图案——必须被丢弃)。

根据MPEG-7标准草案ISO/IEC/ 1/SC 29 N 4242(2001年10月23日)，规定了用于描述多媒体内容、尤其是描述符D和描述方案DS的特征的工具。

那么，根据本发明的编码方法的定义如下。要编码的数字视频数据以视频流形式可用，所述视频流包括被划分成宏块的连续帧，宏块本身可被子划分为相连的块，并且所述帧以至少I帧、P帧和B帧的形式被编码，所述I帧根据所述帧内编码模式被独立地编码，所述P帧被时间布置在所述I帧之间并根据至少先前的I或P帧来预测，所述B帧被时间布置在I帧和P帧之间，或者在两个P帧之间，并且根据它们所被布置于其间的至少这些两个帧来被双向预测。该编码方法还可包括下列步骤：

-计算步骤，用于为所述当前帧递送与所述参数有关的统计；

-分析步骤，用于分析所述统计，并确定所述当前帧中展示或未展示所述帧内预测模式的块的数量；

这些步骤可根据本发明借助于编码设备来实现，所述编码设备用于编码以视频流形式可用的数字视频数据，所述视频流包括被划分成宏块的连续帧，宏块本身可被子划分为相连的块，并且所述帧以至少I帧、P帧和B帧的形式被编码，所述I帧根据所述帧内编码模式被独立地编码，所述P帧被时间布置在所述I帧之间并至少根据先前的I或P帧来预测，所述B帧被时间布置在I帧和P帧之间，或者在两个P帧之间，并且根据它们所被布置于其间的至少这些两个帧来被双向预测。所述编码设备包括：

-结构化装置，用于根据预定帧内预测模式来为当前帧的所有连续宏块捕获有关的编码参数，所述编码参数表征所述连续宏块是否已经被编码；

-计算步骤，用于为所述当前帧递送与所述参数有关的统计；

根据本发明的编码方法的步骤还可借助计算机可执行处理步骤来实现，所述计算机可执行处理步骤存储在计算机可读存储介质上并且类似地包括步骤：

-根据预定帧内预测模式来为当前帧的所有连续宏块捕获有关的编码参数，所述编码参数表征所述连续宏块是否已经被编码；

-为所述当前帧递送与所述参数有关的统计；

-分析所述统计，以便确定所述当前帧中展示或未展示所述帧内预测模式的块的数量；

-当每次所述数量大于给定阈值时检测图像或图像的子区域的出现，图像或图像的子区域要么是单色要么具有重复的图案；

这些步骤之后是描述步骤，用于生成所述图像或子图像的出现的描述数据，以及关联的编码步骤，用于编码如此获得的描述数据以及原始的数字视频数据。

本发明还涉及可传输的编码信号，比如在所述编码设备的输出端可得的以及通过根据先前描述的编码方法编码数字视频数据而产生的编码信号。

在这里必须指出的是，本发明不限于前面提到的实施例，可作出变化和修改而不会偏离本发明在所附权利要求中所定义的精神和范围。

例如可注意到，在说明书或权利要求中使用的词语“宏块”和“块”不仅旨在如在诸如MPEG-2或MPEG-4的标准中使用的那样来描述帧的矩形子区域的层次，而且描述帧的任何类型的任意形状的子区域，如在基于不规则形状的块的编码或解码方案中遇到的。

还必须注意到，存在许多方式来借助硬件项或软件项或两者的方式实现功能。在这方面，附图是非常概略的，并且当附图将不同功能显示为不同模块时，这不意味着排除了单个硬件项或软件项执行若干功能。这也不排除硬件项或软件项或两者的组合执行一个功能。

还指出，词语“包括”不排除权利要求中所列出之外的其它元件或步骤的存在。元件或步骤前的词语“一”或“一个”不排除多个这种元件或步骤的存在。

Claims

1.一种编码方法，用于编码以视频流形式可用的数字视频数据，所述视频流包括被划分成宏块的连续帧，宏块本身可被子划分为相连的块，并且所述帧以至少I帧、P帧和B帧的形式被编码，所述I帧根据所述帧内编码模式被独立地编码，所述P帧被时间布置在所述I帧之间并根据至少先前的I或P帧来预测，所述B帧被时间布置在I帧和P帧之间，或者在两个P帧之间，并且根据它们所被布置于其间的至少这些两个帧来被双向预测，该编码方法包括下列步骤：

-计算步骤，用于为所述当前帧递送与所述参数有关的统计；

2.一种编码设备，用于编码以视频流形式可用的数字视频数据，所述视频流包括被划分成宏块的连续帧，宏块本身可被子划分为相连的块，并且所述帧以至少I帧、P帧和B帧的形式被编码，所述I帧根据所述帧内编码模式被独立地编码，所述P帧被时间布置在所述I帧之间并至少根据先前的I或P帧来预测，所述B帧被时间布置在I帧和P帧之间，或者在两个P帧之间，并且根据它们所被布置于其间的至少这些两个帧来被双向预测，所述编码设备包括：

-计算装置，用于为所述当前帧递送与所述参数有关的统计；

-分析装置，用于分析所述统计，并确定所述当前帧中展示或未展示所述帧内预测模式的块的数量；

-检测装置，用于当每次所述数量大于给定阈值时检测图像或图像的子区域的出现，图像或图像的子区域要么是单色要么具有重复的图案；

-描述装置，用于生成所述图像或子图像的出现的描述数据，所述图像或子图像要么是单色要么具有重复的图案；

-编码装置，用于编码如此获得的描述数据以及原始的数字视频数据。

3.为在一种编码设备中使用，所述编码设备用于编码以视频流形式可用的数字视频数据，所述视频流包括被划分成宏块的连续帧，宏块本身可被子划分为相连的块，并且所述帧以至少I帧、P帧和B帧的形式被编码，所述I帧根据所述帧内编码模式被独立地编码，所述P帧被时间布置在所述I帧之间并至少根据先前的I或P帧来预测，所述B帧被时间布置在I帧和P帧之间，或者在两个P帧之间，并且根据它们所被布置于其间的至少这些两个帧来被双向预测，所述编码设备包括：

-计算装置，用于为所述当前帧递送与所述参数有关的统计；

4.一种用于数字视频数据编码设备的计算机程序产品，包括当被加载到所述编码设备中时使其执行如权利要求3中所述的步骤的指令集。

5.由根据权利要求1所述的编码方法的编码数字视频数据所产生的可传输的编码信号。