CN101389032A

CN101389032A - 一种基于图像插值的帧内预测编码方法

Info

Publication number: CN101389032A
Application number: CN 200810171693
Authority: CN
Inventors: 姚春莲; 高丽华; 陈谊
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2008-10-24
Filing date: 2008-10-24
Publication date: 2009-03-18

Abstract

本发明提供一种基于图像插值的帧内预测编码方法，将输入图像分割为若干子图，通过插值运算构造各子图的预测参考帧，以子图作为基本预测单元直接与参考帧进行差分编码，避免了传统方法逐像素点多模式预测过程。利用本发明进行帧内预测不仅大幅度减小了计算负担，而且预测精度较高，此外，该方法还可与其他编码方法相结合，以取得更好的压缩效果。实验结果表明该方法能够在显著降低计算开销的同时，取得了较好的预测效果。

Description

一种基于图像插值的帧内预测编码方法

技术领域

本发明涉及一种帧内预测编码方法，尤其涉及一种避免穷举式搜索时的计算开销、提高帧内预测准确性的方法，属于计算机视觉技术领域。

背景技术

帧内预测作为视频处理领域中一项关键的技术，已广泛应用于视频中I帧的压缩与处理。帧内预测用于获得当前图像内部的相关性。目前常用的帧内预测中多模式帧内预测方法是依据图像的空域相关特性，认为图像上各点与其空间相邻点具有相似性，通过沿多方向进行搜索得到待编码点的预测点，该方法虽然具有适用范围广、预测精度高等优点但是近乎穷举的预测点搜索方法在图像质量有所提高的同时，运算复杂度也急剧上升。

视频帧一般分为I(Intra-frame)、P(Predictive-frame)、B(Bidirectionallypredicted-frame)三种类型：I帧通过变换、量化等过程完成编码；P帧以前向已编码帧的重建图像为参考，进行运动补偿后编码残差；B帧则以前后双向已编码帧的重建图像为参考，进行运动补偿后编码残差。在三种类型的视频帧中，虽然I帧的个数比较少，但其每帧编码位数却远高于P、B帧，在最终生成的码流中也占有相当比例。对于输出码率恒定的视频流，I帧的码率突然增大，将直接导致后续P/B帧的编码位数的下降，进而影响到恢复图像和预测图像的质量。MPEG-4及其后的标准中，引入了“跳帧”策略，I帧码率的突然增大常导致其后出现连续跳帧，致使视频图像帧率下降，画面不流畅。以上现象在低带宽条件下尤为显著，因此在恒定低带宽下，提高I帧压缩比，对视频质量影响较大。预测是视频中提高I帧压缩比常用的方法，根据图像特点，利用视频帧之间及其内部的相关性，以已编码对象为参考，保留较少的差分信息，减少最终编码位数。如何在已编码的图像中找到当前待预测对象的最佳匹配源，最大限度地去除对象间冗余使差分信息量达到最小值，这是预测的关键所在。I帧编码相对独立，不能象B、P帧那样在前后已编码图像帧中搜索最佳匹配源，因此I帧只能采用帧内预测，即在当前图像内部寻找相似对象。因此帧内预测是视频压缩领域中的研究热点。

传统的多模式帧内预测方法以16×16的宏块及4×4的块为基本预测单元，对块内各点沿含DC预测在内的九个方向，取周围点，用适当的预测公式计算预测值，与原始采样值做差分，差值最小的模式为最终预测模式。这种近乎穷举的预测点搜索方法在图像质量有所提高的同时，运算复杂度也急剧上升。同时，若图像相邻点间相关性很差，这种预测不仅不会使图像数据量减少还会因记录模式信息等因素引入更多的冗余信息。

实际应用中，尤其针对存储和计算资源有限的应用环境，一种好的帧内预测方法必须同时考虑预测的准确性和运行效率。

发明内容

本发明的目的是提供一种基于图像插值的帧内预测编码方法。该方法通过抽取采样点将输入图像分割为若干子图，对其中的一幅子图直接采用变换、量化、熵编码等方法进行压缩，然后利用所述子图编码压缩后的重构图像，通过插值运算构造其他各子图的预测参考帧，以其他各子图作为基本预测单元直接与所述各预测参考帧进行差分编码；利用本发明所述方法进行帧内预测避免了传统方法逐像素点的多模式预测过程不仅大幅度减小了计算负担，而且预测精度较高，此外，该方法还可与其他许多编码方法相结合，以取得更好的压缩效果。实验结果表明该方法能够在显著降低计算开销的同时，取得较好的预测效果。

为实现上述目的，本发明采用下述的技术方案。其特征在于包括以下步骤：

步骤一：对输入的图像，按栅格扫描顺序等间隔抽取采样点，将所述输入图像分割为若干个大小相等的子图，选取其中任意一个子图作为基本预测单元，对该基本预测单元直接进行压缩；

步骤二：对所述压缩后的基本预测单元进行重构，获得重构图像，采用某种插值方法对所述重构图像做插值运算，得到其余各子图的预测参考图，将其余各子图与相对应的各预测参考图分别做差分，得到各子图的残差系数，对每个残差系数，进行编码压缩。

较优的，所述步骤一进一步包括：

11.为减少误差，所述子图大小应不小于所述输入图像的1/8；

12.由于摄像机多多数视频序列垂直插值图像失真度大于水平插值图像，因此，在所述按栅格扫描顺序等间隔抽取采样点的过程中，水平方向间隔应大于垂直方向间隔；

13.所述选取任一子图作为基本预测单元的过程中，所述基本预测单元的选取不受扫描顺序的限制；

较优的，所述步骤二进一步包括：

21.所述对重构图像做插值运算得到其余各子图的预测参考图是通过插值运算将所述重构图像放大到与输入图像大小一致；

本发明所提供的一种基于图像插值的帧内预测编码方法可以有效减小传统多模式搜索帧内预测时的计算开销，避免了盲目搜索，并且不受图像内相关性特点的影响。有关的测试结果表明，本方法对于各类场景图像的帧内预测都能获得较好的效果。

附图说明

图1是本发明基于图像插值的帧内预测编码流程图。

图2是按扫描顺序进行图像分割的示意图。

图3是物体运动对采样数据的影响示意图。

具体实施方式

前已述及，本发明为解决由图像特点决定预测效的问题，从“构造相似点”出发，由预测点构造相似点，直接确定相似点的位置，避免了盲目搜索，实现了快速准确的帧内预测。

下面结合附图说明本发明的实现方式，图1中明确表示了本发明的过程。首先，按扫描顺序，以等间隔进行下采样，将图像分割为多个大小相等的子图，以这些子图作为基本预测单元；将其中一个子图进行编码，得到该子图的重建图像；对重建图像进行插值，获得与输入图像大小相等的预测参考图像，将其余子图与其位置对应的参考图像进行差分，进行预测，进而完成整个图像的编码。

步骤一：获取基本预测单元及其重建图像

预测编码是通过已编码图像预测待编码图像的过程，因此图像中各部分编码的先后顺序决定预测点的范围，并影响预测效果。在传统基于块的预测过程中，先将图像分为大小相等的块，已编码块作为基本预测单元，根据不同的块扫描顺序进行预测编码，扫描顺序不同，预测效果也略有不同。此外，图像中是否存在足够相似的点，将直接决定预测的效果；如何找到相似点的位置，将决定整个预测过程中的运算复杂度。若仅从输入图像本身考虑，相似点的存在性由图像特点决定而与具体预测算法无关，因此同一预测算法应用于不同的图像，其预测效果可能存在很大差别。避免由图像特点影响预测效果的情况，提高预测的精度，是实现准确帧内预测的关键。与现有的帧内预测编码不同的是，本发明中，基本预测单元不是一个宏块或子宏块，为避免穷举式搜索和由图像特点影响预测效果的问题，提出了一种由构造相似点进行预测的方案。下面就对该方案展开详细的说明。在本发明中获取基本预测单元及其重建图像分为二个步骤：首先，划分原始输入图像；然后，选取预测单元并进行编码。

步骤一的具体实施步骤如下：

(1)划分原始输入图像

对输入的图像按栅格扫描顺序等间隔抽取采样点，分割成大小相等的子图。设原始图像S大小为m×n，分别以水平间距h，垂直间距v，按栅格扫描顺序抽取采样点，得到大小为

的子图S₁、S₂、S₃……(如图2)。为减少后续在进行预测时的估值误差，必须保证子图不能太小。由于摄像机多做水平运动且物体的水平运动多于垂直运动，因此对多数视频序列垂直插值图像失真度大于水平插值图像。因此，水平分割可大一些，垂直分割要小一些。如图3(a)中，空间上a、b、c三点相邻，以a、c插值b结果较为精确；而如图3(b)中，若物体存在速度V，由于摄像机CCD元件上各点存在一定的感光时差，得到的a、b、c三点位置略有偏差，b的空间相邻点已经不是a、c，这种采样误差将造成后续插值误差的增大。通过比较水平、垂直插值图像，通常情况下，垂直插值失真更为严重，这与物体相对摄像机的运动方向存在一定关系。在本发明进行的实验中，采用如式(1)进行插值时，h值取为2，v值取为1。

f(x，y)＝(f(x-1，y)+f(x+1，y))/2＝(f(x-1，y)+f(x+1，y))>>1 (1)

(2)对选取的预测单元进行编码

选取子图中的一帧，如子图S₁作为预测单元，不经任何预测，直接进行变换编码，采用常规的编码过程，即以宏块或子宏块为编码单位，进行DCT变换、量化、熵编码等处理过程。在编码完成后经过反量化、IDCT变换生成其重建图像。当然也可选取其他的子图作为预测单元，预测单元的选取不受扫描顺序的影响。

步骤二：得到预测图像并进行预测编码

传统的多模式帧内预测方法对预测单元在多个方向采用穷举式进行搜索，并应用率失真理论选取最佳预测模式。该方法在预测单元的选取部分很简单，但预测过程很复杂，对每个待预测的单元都要进行多方向的预测及模式选择过程。而在本发明中，为了实现对其他子图的预测编码，需要对预测单元的重建图像进行插值处理，以生成一个预测图像，这样其余子图就可以与预测图像中的对应位置的像素点作残差，实现预测处理，编码时，只需对残差系数进行处理即可。该方法通过对预测单元的重建图像进行插值处理，直接构造出其余子图的相似点，避免了因多模式预测而引起的计算负担，以及因图像特点而不能很好预测的问题。该步骤可分为两个步骤：首先，通过插值处理生成预测图像；其次，通过预测图像进行预测编码。

步骤二的具体实施步骤如下：

(1)生成预测图像

生成预测图像的过程，实际是由大小的子图S₁的重建图像恢复m×n大小的原图S的过程，可以看作是图像放大的过程。

在进行图像放大时，通常的做法是根据已知采样点预测逼近未采样点。插值是函数逼近的一种重要方法，在图像处理中常用来放大图像。根据采样定理，当采样间隔足够小，即：

τ \leq \frac{1}{2 s_{0}}

(τ:采样间隔，s₀:采样函数的截止频率)时，采样函数可以完全无失真地从采样数据中恢复。但实际采样频率通常达不到以上标准，因此通过插值不可能完全无损地得到未采样点。插值函数与实际采样函数之差称为估值误差。估值误差是反映恢复图像失真度的一个重要参数，估值误差越小，恢复图像失真度越小。估值误差大小由采样图像分辨率和插值函数核决定。通常情况下，采用同一插值函数，图像采样分辨率越高，采样间距越小，插值效果越精确，估值误差越小。在采样分辨率确定的条件下，可通过改进插值函数，使其进一步逼近采样函数从而减小估值误差。

设：(x，y)为S中的点；r(x，y)为(x，y)点的象素值；П₁为S₁中点的集合；П₂为S_i中点的集合；f(П₁)为插值函数；

通过插值函数计算其近似值r′(x，y)＝f(П₁)。Δ(x，y)＝r′(x，y)-r(x，y)为估值误差，当插值函数足够精确时有：Δ(x，y)→0，也即以r′(x，y)作为r(x，y)的预测点将取得很好的预测效果。

图像处理中常用的插值算法有：邻近象素复制、线性插值、立方卷积等，一些精度更高的，自适应的插值算法在医学、遥感等领域应用也非常普遍。这些算法中，双线性插值因计算复杂度低，插值精度相对较高而被广泛采用。在本发明进行的实验中，对预测单元的重建图像应用双线性插值处理生成预测图像。

(2)预测编码

在生成预测图像之后，即可实现对其余子图S_i(i∈[2，h×v])的预测编码。该过程是得到其余子图在预测图像中的对应位置，对应位置的点即为原始像素点的预测点，无需搜索，两者做差，实现预测。对子图S_i逐帧进行预测差分编码，S_i之间的编码顺序可随机选取且不影响预测效果。

以上公开的仅为本发明的具体实例，根据本发明提供的思想，本领域的技术人员能思及的变化，都应落入本发明的保护范围内。

Claims

1.一种基于图像插值的帧内预测编码方法，其特征在于：步骤一：对输入的图像，按栅格扫描顺序等间隔抽取采样点，将所述输入图像分割为若干个大小相等的子图，选取其中任意一个子图作为基本预测单元，对该基本预测单元直接进行压缩；步骤二：对所述压缩后的基本预测单元进行重构，获得重构图像，采用插值方法对所述重构图像做插值运算，并将得到的插值后图像作为其余各子图的预测参考图，然后将其余各子图与所述预测参考图分别做差分，得到所述其余各子图的残差系数，对每个残差系数进行编码压缩。

2.如权利要求1所述的基于图像插值的帧内预测编码方法，其特征在于：为减少误差，所述子图大小应不小于所述输入图像大小的1/8。

3.如权利要求1所述的基于图像插值的帧内预测编码方法，其特征在于：所述基本预测单元的选取不受扫描顺序的影响。

4.如权利要求1所述的基于图像插值的帧内预测编码方法，其特征在于：在所述按栅格扫描顺序等间隔抽取采样点的过程中，水平方向间隔应大于垂直方向间隔。

5.如权利要求1所述的基于图像插值的帧内预测编码方法，其特征在于：所述对重构图像做插值运算得到其余各子图的预测参考图是通过插值运算将所述重构图像放大到与所述输入图像大小一致。