CN107431807A

CN107431807A - 内容自适应b‑图像模式视频编码

Info

Publication number: CN107431807A
Application number: CN201680015090.9A
Authority: CN
Inventors: 卡勒德·马姆欧; 伊哈卜·M·A·阿梅尔; 亚历山大·O·博布罗夫尼克; 弗拉迪斯拉夫·S·扎哈尔千科
Original assignee: ATI Technologies ULC; Advanced Micro Devices Inc
Current assignee: ATI Technologies ULC; Advanced Micro Devices Inc
Priority date: 2015-03-04
Filing date: 2016-02-26
Publication date: 2017-12-01
Also published as: EP3266203A4; US20160261869A1; KR20170126934A; JP2018511237A; WO2016140883A1; EP3266203A1

Abstract

揭露一种内容自适应的视频编码的方法。所述编码方法自动调整以优化所述编码，所述调整取决于正在编码的图像的内容。还揭露了一种实现所述方法的系统和一种用于存储所述方法的指令的非暂时性计算机可读存储介质。

Description

内容自适应B-图像模式视频编码

相关申请的交叉引用

本申请请求2015年3月4日提交的美国临时专利申请No.14/638,503的权益，所述申请的内容特此以引用方式并入本文。

发明领域

本发明总体涉及视频，并且更具体说来涉及数字视频处理。

背景

视频编码器通过减少空间和时间冗余来压缩视频图像或帧的序列。这是通过在空间和/或时间域中执行预测过程来进行。如果预测过程只使用当前图像中的信息，那么其就被称为帧内预测，且正在编码的图像被称为I-图像。相比之下，如果预测过程使用不同图像之间的相关性，那么其就被称为帧间预测。大多数编码器支持两种类型的帧间预测，称为P(预测)预测和B(双向)预测。主要区别是P-预测仅基于一个预测块来预测当前块的值，而B预测允许基于两个先前编码块来基于插值预测当前块。

宏块(MB)是16X16像素块。I-图像中的所有宏块都是帧内预测，而P图像中的MB可能是P-帧间预测或者是帧内预测(效率更高即可)。最后，允许B图像中的MB为B-帧间、P-帧间，或帧内预测。

在视频压缩中，图像组(GOP)指定帧内-和帧间-图像排列的次序。GOP是编码视频流中连续图像组。每个编码的视频流由连续GOP组成。

基于预测结构对图像编码。预测结构描述使用GOP中哪些图像来编码GOP中的给定图像和每个预测类型：I、P或B。现有编码方法使用固定的预测结构，而不考虑图像内容的性质。这可能会导致编码并非最优。

概要

揭露了一种内容自适应的视频编码的方法，即，编码方法自动调整编码程序的一个或多个方面，以优化编码。调整取决于正在编码的图像的内容。在一个实施方案中，调整的方面可能是图像组的大小和预测结构。还揭露了一种实现方法的系统和一种用于存储方法的指令的非暂时性计算机可读存储介质。

附图简述

可从以下结合附图的例子的描述来更详细地理解本发明，其中：

图1示出图像组分解的例子；

图2示出预测结构的两个例子；

图3A和图3B示出视频编码的方法的例子；和

图4是其中可实现一个或多个揭露的实施方案的示例性设备或系统的框图。

详细描述

现在将详细描述内容自适应视频编码的方法和系统。方法包括选择图像组(GOP)和预测结构，以优化组成移动视频图像的图像或帧的编码。可用于优化编码的优化度量是率失真(RD)成本。这些术语将在下文中解释。

率失真成本代表的是编码图像或图像组所需的比特率或比特数量和编码引入的图像失真的组合。一般来说，减少用于编码图像的比特数量将倾向于产生更大的失真–编码图像中的信息更少。因此需要比率和失真的组合，以合理度量编码优化。本文下文中讨论确定失真的方法。

不应被视为限制，图1示出了GOP和GOP分解的例子。视频序列中示出了12个连续图像。示出将12个连续图像分解成两个不同的GOP分解110和120。在分解110中，示出将12个图像分解成四个GOP，即具有两个图像、三个图像、三个图像和四个图像的各自大小的115a-115d。在分解120中，所述12个图像被分解成三个GOP，即具有四个图像、三个图像和五个图像的各自大小的125a-125c。GOP的数量和每个GOP中图像的数量不固定。

不应被视为限制，图2示出了被应用到包含九个图像的示例性GOP的两个不同预测结构，即205A和205B，的例子。在205A中，只有第一图像被编码成I图像，而所有其他图像被编码成P图像，每个图像代表之前的图像。当例如正在编码的图像包括快速移动的对象时，预测结构205A可提供接近最优编码，但当图像包括缓慢移动的对象时，预测结构205A可提供次优的编码。

相比之下，如果图像包括例如缓慢移动的对象，因此表现出高度的时空相关性，那么预测结构205B可提供比205A更接近最优编码。预测结构205B使用B帧，且被称为分层B-结构(HBS)。因此，如由RD成本测量产生优化编码的预测结构取决于正在编码的图像的内容。

因此，使其预测结构适应图像内容的编码方法可提供优于具有固定预测结构的编码方法的编码优化。此外，使用HBS的内容自适应视频编码方法可提供更好的编码。

图3A和图3B示出了用于内容自适应视频编码的方法300的实施方案。图3A传达了方法300的概述，而图3B示出了在315确定GOP分解的RD成本的方法的实施方案的细节。整体方法可描述如下。选择预定数量的连续图像的一组GOP分解。对于所述组中每个GOP分解而言，通过确定所述GOP分解中每个GOP的GOP RD成本来确定GOP分解RD成本。选择来自所述组具有最小GOP分解RD成本的GOP分解用于编码连续图像。

参考图3A，方法300通过从预定数量的连续图像的所有可能GOP组成选择一组GOP分解(305)来初始化。所述组可例如通过选择本领域已知的少量GOP分解来选择。或者，可能只选择预定尺寸范围内的GOP分解。在另一替代性方法中，可使用已知场景变换算法来指导GOP尺寸的选择。

方法300进一步通过存储所存储的GOP分解RD成本的初始值和存储GOP RD成本的初始值(305)来初始化。方法300进一步通过将数量TOTAL设置为等于零(305)来初始化。使用数量TOTAL来将GOP RD成本求和，以获得GOP分解RD成本。

方法300进一步通过从GOP的可能预测结构限定一组预测结构(305)来初始化。一组预测结构可包括至少一个分层B结构。限定一组预测结构可包括选择满足用以存储先前解码图像的解码图像缓冲器(DFB)约束的预测结构。由于解码器可在内存和处理能力方面受到限制，故对DFB的尺寸可能有限制。或者，可使用已知场景变换算法来指导一组预测结构的预测结构的选择。

在初始化之后，从一组GOP分解中选择GOP分解(310)。确定所选择的GOP分解的GOP分解RD成本(315)。将这个GOP分解RD成本比存储GOP分解RD成本作比较(320)。如果GOP分解RD成本不小于存储的值，那么方法返回到310并且选择新的GOP分解。另一方面，如果GOP分解RD成本小于存储的值，那么就存储这个新的GOP分解RD成本(325)，从而取代当前存储的值。

然后方法检查所述组中是否有任何剩余的GOP分解(330)。如果有，那么方法返回到310，以从所述组中选择新的GOP分解。如果没有，那么存储的GOP分解RD成本最小，且使用具有最小GOP分解RD成本的GOP分解来编码连续图像(335)。

图3B示出了在图3A中315确定GOP分解RD成本的细节。总之，这个方法实施方案中确定GOP分解RD成本可总结如下。如上文所述，在初始化(305)中限定一组预测结构。对于GOP分解中的每个GOP，确定所述组中每个预测结构的预测结构RD成本。选择所有所述确定预测结构RD成本中的最小预测结构RD成本作为GOP的GOP RD成本。通过将GOP分解中所有GOP的GOP RD成本求和来确定GOP分解RD成本。

参考图3B，确定GOP分解RD成本的细节如下。选择当前GOP分解中的GOP(345)。(图3A中310已选择了当前GOP分解。)从先前初始化一组预测结构选择预测结构(350)。确定所选择的预测结构的GOP中每个图像的RD成本(355)。

在一个实施方案中，每个图像的RD成本可通过确定失真和比特率和使用公式来确定：

RD成本＝失真+L*比特率等式(1)

其中L是取决于图像类型和编码参数(例如量化参数)的参数。失真可通过将运动估计程序应用于当前GOP和当前预测结构来确定。所应用的运动估计程序通过使用称为参考图像的一组先前编码的图像而使得有可能预测GOP中每个图像的内容。这个预测过程通常会产生接近原始图像但又与原始图像不同的预测图像。预测图像与原始图像之间的差异称为预测误差或预测失真。通常，预测失真越大，需要被编码来表示原始图像的信息量就越大。失真可通过使用例如绝对误差和(SAD)、绝对转换误差和(SATD)或平均绝对误差(MAD)的本领域已知的度量来测量。比特率也可使用已知方法来确定。确定GOP中每个图像的RD成本可包括使用例如二次率失真模型的率失真模型从失真估计比特率。确定RD成本可被应用到原始输入图像，而非重建的图像，或应用到视频的下采样版本。

返回图3B，将GOP中所有图像的RD成本求和，以确定GOP RD成本(360)。将这个GOPRD成本与存储的GOP RD成本作比较(365)。(存储的GOP RD成本在图3A的305初始化。)如果GOPRD成本不小于存储的GOP RD成本，那么方法返回到350，其中选择新的预测结构。另一方面，如果GOP RD成本小于存储的GOP RD成本，那么就存储这个新的GOP RD成本(370)，从而取代当前存储的值。

然后方法检查是否有任何剩余的预测结构(375)。如果有，那么方法返回到350，以选择新的预测结构。如果没有，那么存储的GOP RD成本包含整个预测结构上的最小RD成本。然后将所存储的GOP RD成本添加到数量TOTAL(380)。

然后方法确定当前GOP分解中是否有剩余的GOP(385)。如果有，那么方法返回到345，并且选择新的GOP。如果没有剩余的GOP，那么TOTAL的总和是GOP分解RD成本。这个GOP分解RD成本被传递到图3A中的320，且图3A中示出的整体方法继续。

为了降低计算复杂度，在方法的实施方案中可实现基于每个图像或每个GOP最大RD成本的提前终止策略。

如刚刚描述的方法也可通过以下伪代码来描述：

GOP分解且将其RD成本初始化为较大值

RD_Optimal_Decomposition＝MAX_RD_COST(用于初始化)

Optimal_Decomposition＝one GOP IPPPPP(用于初始化)

//找到导致最小RD成本的分解成的一组GOP

针对下一MAX_NUM_LOOKAHEAD_PICTURES图像到一组GOP(即,(GOP_i))的任何可能分解D

//通过累积其GOP的RD成本来计算分解D的RD成本

RD_D＝0

For every GOP_i

//找到导致最小RD成本的GOP_i的预测结构

Optimal_Prediction_Strcture＝IPPPPP GOP structure(用于初始化)

RD_Optimal_Prediction_Structure＝MAX_RD_COST

针对满足DBP约束的GOP_i的PS每一个预测结构

RD_PS＝RD cost of PS

If(RD_PS<RD_Optimal_Prediction_Structure)

Optimal_Prediction_Structure＝PS

RD_Optimal_Prediction_Structure＝RD_PS

End

RD_D＝RD_D+RD_Optimal_Prediction_Structure

End

//如果RD成本低于目前为止的最佳RD成本，选择该D作为最优分解

If(RD_D<RD_Optimal_Deptimal_Decomposition＝D

End

图4是其中可实现一个或多个揭露的实施方案的示例性设备或系统400的框图。系统400可包括例如计算机、游戏设备、手持设备、机顶盒、电视、手机或平板计算机。系统400包括处理器402、内存404、存储器406、一个或多个输入设备408，和一个或多个输出设备410。系统400还可能可选地包括输入驱动程序412和输出驱动程序414。应理解，系统400可包括图4中未示出的额外的组件。

处理器402可包括中央处理单元(CPU)、图形处理单元(GPU)(CPU和GPU位于相同的模具上)，或一个或多个处理器内核，其中每个处理器内核可为CPU或GPU。内存404可能与处理器402位于相同的模具上，或者可与处理器402分开设置。内存404可包括易失性或非易失性内存，例如，随机存取内存(RAM)、动态RAM，或高速缓存。内存404可包括被配置以存储先前解码的图像的解码图像缓冲器(DFB)。这些存储的图像可由处理器402用于编码，以形成后续图像的预测变量。

存储器406可包括固定或可移除的存储器，例如，硬盘、固态硬盘、光盘或闪存驱动器。输入设备408可包括键盘、小键盘、触摸屏、触摸板、探测器、麦克风、加速度计、陀螺仪、生物识别扫描仪或网络连接(例如，用于传输和/或接收无线IEEE 802信号的无线局域网络卡)。输入设备也可包括视频信息源，例如但不限于，摄像机或视频播放设备，例如但不限于，蓝光播放器。输出设备410可包括显示器、扬声器、打印机、触觉反馈设备、一个或多个灯、天线，或网络连接(例如，用于传输和/或接收无线IEEE 802信号的无线局域网络卡)，或视频显示器。

输入驱动程序412与处理器402和输入设备408通信，并允许处理器402从输入设备408接收输入。输出驱动程序414与处理器402和输出设备410通信，并允许处理器402向输出设备410发送输出。应注意，输入驱动程序412和输出驱动程序414是可选组件，且系统400将以与如果不存在输入驱动程序412和输出驱动程序414的情况下相同的方式来操作。

系统400可被配置以如下实现例如上文所述的内容自适应视频编码的方法。处理器402可被配置以执行所述方法。输入设备408可被配置以向处理器402提供例如连续图像的视频信息。内存设备404可被配置以与处理器402交换视频信息并存储视频信息。

处理器402可获得输入设备408提供的预定数量的连续图像。处理器402可从内存设备404检索连续图像的一组GOP分解。处理器402然后可继续进行以通过确定所述GOP分解中每个GOP的RD成本来确定所述组中每个GOP分解的RD成本。处理器402可从所述组中选择具有最小RD成本的GOP分解以用于编码连续图像。处理器402可被配置以执行如本文所述的内容自适应视频编码的方法的每个实施方案的所有步骤。

应理解，基于本文的揭露，许多变化是可能的。虽然上文描述了特定组合的特征和元件，但是每个特征和元件可在没有其他特征和元件的情况下单独使用，或者在具有或不具有其他特征和元件的情况下进行各种组合。

所提供的方法可在通用计算机、处理器或处理器内核中实现。合适的处理器以举例的方式包括通用处理器、专用处理器，传统处理器、数字信号处理器(DSP)、多个微处理器、结合DSP内核的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其他类型的集成电路(IC)，和/或状态机。所述处理器可通过使用加工的硬件描述语言(HDL)指令和包括网表的其他中介的数据(所述指令能够被存储在计算机可读介质上)的结果配置制造过程来制造。这种处理的结果可能是掩膜作品，所述掩膜作品然后用于半导体制造过程以制造实现本发明的方面的处理器。

本文提供的方法或流程图可在并入计算机可读存储介质以供一般用途计算机或处理器执行的计算机程序、软件或固件中实现。计算机可读存储介质的例子包括只读内存(ROM)、随机存取内存(RAM)、寄存器、缓存内存、半导体内存设备、例如内部硬盘和可移动磁盘的磁介质、磁光介质，和例如CD-ROM盘和数字多功能光盘(DVD)的光学介质。

Claims

1.一种内容自适应的视频编码的方法，所述方法包括：

选择一组连续的图像；

将所述组连续的图像分解成一个或多个图像组(GOP)，以形成所述组连续的图像的第一GOP分解；

重复所述分解，从而形成所述组连续的图像的多个不同的GOP分解，所述多个包括所述第一GOP分解；

对于所述多个不同的GOP分解中的每个GOP分解，通过确定所述GOP分解中每个GOP的GOP RD成本来确定GOP分解率失真(RD)成本；和

从所述多个不同的GOP分解中选择具有最小GOP分解RD成本的GOP分解，以用于编码所述组连续的图像中的所述连续图像。

2.如权利要求1所述的方法，其中确定每个GOP分解的所述GOP分解RD成本包括将每个GOP分解中所有GOP的GOP RD成本求和。

3.如权利要求1所述的方法，其中所述确定GOP RD成本包括对于每个GOP分解中每个GOP：

限定一组预测结构；

确定所述组中每个预测结构的预测结构RD成本；和

在所述预测结构RD成本中选择最小的作为所述GOP的所述RD成本。

4.如权利要求3所述的方法，其中所述组预测结构包括至少一个分层B结构。

5.如权利要求3所述的方法，其中限定一组预测结构包括选择满足解码图像缓冲器约束的预测结构。

6.如权利要求3所述的方法，其中确定每个GOP的所述RD成本包括对于每个预测结构将每个GOP中每个图像的RD成本求和。

7.如权利要求6所述的方法，其中每个图像的所述RD成本从以下公式确定

RD成本＝失真+L*比特率，

其中L是取决于图像类型和编码参数的参数。

8.如权利要求3所述的方法，其中失真是通过对当前GOP和当前预测结构应用运动估计程序来确定。

9.如权利要求8所述的方法，其中失真是使用以下中至少一个来确定：绝对误差和(SAD)、绝对转换误差和(SATD)或平均绝对误差(MAD)。

10.如权利要求1所述的方法，其中确定RD成本包括使用率失真模型从失真估计比特率。

11.如权利要求1所述的方法，其应用到原始输入图像或应用到视频的下采样版本的方法。

12.一种内容自适应视频编码的系统，包括：

处理器；

输入设备，所述输入设备被配置以将视频信息提供给所述处理器；和

内存设备，所述内存设备被配置以与所述处理器交换视频信息；

其中所述处理器被配置以执行内容自适应视频编码的方法，所述方法包括：

选择所述输入设备提供的一组连续的图像；

将所述组连续的图像分解成一个或多个图像组(GOP)，以形成所述组连续的图像的第一GOP分解，其中所述第一GOP分解的指令从所述内存设备检索；

重复所述分解，从而形成所述组连续的图像的多个不同的GOP分解，所述多个包括所述第一GOP分解，其中所述多个中每个GOP分解的指令从所述内存设备检索；

对于所述多个中每个GOP分解，通过确定所述GOP分解中每个GOP的RD成本来确定率失真(RD)成本；和

从所述多个中选择具有最小RD成本的GOP分解，以用于编码所述组连续的图像中的所述连续图像。

13.如权利要求12所述的系统，其中所述处理器还被配置以通过进一步包括以下步骤的所述方法来确定每个GOP分解中每个GOP的RD成本：

从所述内存设备检索一组预测结构；

确定所述组中每个预测结构的预测结构RD成本；和

14.如权利要求13所述的系统，其中所述处理器还被配置以通过进一步包括以下步骤的所述方法来确定每个GOP的所述RD成本：对于每个预测结构将每个GOP中每个图像的RD成本求和。

15.如权利要求14所述的系统，其中所述处理器还被配置以通过进一步包括使用以下所述公式的所述方法来确定每个图像的所述RD成本：

RD成本＝失真+L*比特率，

其中L是取决于图像类型和编码参数的参数。

16.如权利要求13所述的系统，其中所述处理器还被配置以通过进一步包括以下步骤的所述方法来确定失真：对当前GOP和当前预测结构应用运动估计程序。

17.如权利要求16所述的系统，其中所述处理器还被配置以使用以下中至少一个来确定失真：绝对误差和(SAD)、绝对转换误差和(SATD)或平均绝对误差(MAD)。

18.如权利要求12所述的系统，其中所述处理器还被配置以通过进一步包括以下步骤的所述方法来确定所述RD成本：使用率失真模型从失真估计比特率。

19.如权利要求12所述的系统，其中所述处理器被配置以将所述方法应用到原始输入图像或应用到视频的下采样版本。

20.一种非暂时性计算机可读存储介质，其包括当在处理系统中执行时使所述系统执行内容自适应视频编码的方法的指令，所述方法包括：

选择一组连续的图像；