CN101783956A

CN101783956A - 基于时空邻居信息的后向预测方法

Info

Publication number: CN101783956A
Application number: CN 201010107371
Authority: CN
Inventors: 胡瑞敏; 陈皓; 钟睿; 毛丹
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2010-02-03
Filing date: 2010-02-03
Publication date: 2010-07-21
Anticipated expiration: 2030-02-03
Also published as: CN101783956B

Abstract

本发明涉及视频编码技术领域，尤其涉及一种基于时空邻居点的后向预测方法。本发明包括选择局部空域邻居像素的步骤、选择局部时域邻居像素的步骤、设置时空样本训练窗口的步骤、求解线性预测权值矩阵的步骤、进行基于时空邻居点的后向预测的步骤、预测模式集成的步骤。本发明通过增加一种基于后向预测的帧间宏块预测模式，结合现有标准中的前向预测模式，从而提高了帧间预测效率。

Description

基于时空邻居信息的后向预测方法

技术领域

本发明涉及视频编码技术领域，尤其涉及一种基于时空邻居信息的后向预测方法。

背景技术

最新的国际视频标准H.264/AVC与以往的视频编码标准相比，在压缩性能方面取得了明显的进步，H.264标准之所以能取得如此大的增益，是因为它引入了很多先进的视频编码技术，其中最重要的技术之一是基于块匹配的帧间预测技术。

基于块匹配的帧间预测技术为一种“前向预测”技术，该方法的特点是编码端通过对原始图像进行运动估计，得到对应的运动矢量并将其打包传输到解码端；解码端通过解析运动矢量信息，结合残差数据可恢复出对应的重建图像。前向预测由于具有位移跟踪能力强、实现简单等优点，在一系列视频编码标准中得以使用，但是也存在着一定的缺陷：虽然对描述线性运动具有很好的精确度，但是当图像中物体运动更为复杂时，该方法就无法得到很好的效果；并且，当最优编码模式是小块模式时，编码器需要编码并传输更多的运动矢量信息，导致增加了较多的比特数。

为了改善这一问题，“后向预测”技术获得了国内外学者越来越多的关注。后向预测不需要将运动矢量嵌入码流中，编、解码器事先设计好对应的计算规则，解码器可以利用编码器传输过来的隐含信息计算出对应的运动信息。

Xin Li提出了一种基于时空局部自学习模型(Spatio-Temporal Adaptive Localized Learning，STALL)的像素级视频处理框架(参见文献1)，在该框架下通过局部时空线性预测来计算当前像素点的值，从而构建起一套基于像素级的视频编解码器。不过当前视频编码标准的有损压缩应用中都是基于块级的处理框架，使得Xin Li提出的这种像素级后向预测技术还无法适用于当前视频编码标准的有损压缩中。

文献1：Li Xin，“Video Processing Via Implicit and Mixture Motion Models，”IEEETransactions on Circuits and Systems for Video Technology，vol.17，no.8，pp.953-963，2007.

发明内容

本发明的目的是提供一种基于时空邻居点的后向预测方法，改善前向预测必须编码运动矢量边信息而导致增加编码比特数、降低压缩效率的问题。

为达到上述目的，本发明采用如下的技术方案：

①选择局部空域邻居像素的步骤，该步骤选择当前图像中当前编码块周围的已编码块的像素点来进行线性预测；

②选择局部时域邻居像素的步骤，该步骤选择当前图像的参考帧中的像素点用来进行线性预测；

③设置时空样本训练窗口的步骤，该步骤把当前图像的参考帧中至少一帧的若干像素点设置为样本训练点，从而组成样本训练集合；

④求解线性预测权值矩阵的步骤，该步骤在步骤③所设置的训练样本集内，依据求解最小二乘问题的方法求得线性预测权值矩阵的局部最优解；

⑤进行基于时空邻居点的后向预测的步骤，该步骤用步骤④中求得的线性预测权值矩阵作为线性加权的权值，对步骤①中确定的空域邻居像素点和步骤②中确定的时域邻居像素点进行线性加权，从而预测出当前图像的当前编码块中每个像素的预测值；

⑥预测模式集成的步骤，该步骤把步骤⑤中当前编码块的线性预测值，作为一种新的宏块帧间预测模式集成到视频编码框架中的帧间预测模式集合中。

所述步骤①中，选择周围的已编码块的像素点，分别来自当前编码块的左边块、上边块、左上边块中的9个像素点。

选择局部时域邻居像素点，为当前图像的前一参考帧中3×3大小的9个像素点。

所述步骤③中，设置样本训练集，为当前图像的若干参考帧中范围为：

W(T₁，T₂)＝[-T₁，T₁]×[-T₁，T₁]×[-T₂，-1]的区域，其中，T₁表示训练集的空域范围，T₂表示训练窗口的时域范围，单位为像素个数。

所述步骤④中线性预测权值矩阵求解，为将M个训练样本数据记为一个M×1大小的列向量

将N个时空邻居像素点记为一个1×N大小的行向量

利用

和

生成一个M×N的协方差矩阵C，根据公式：

\overset{&RightArrow;}{α} = {(C^{T} C)}^{- 1} C^{T} \overset{&RightArrow;}{y}

计算得到线性预测权值矩阵

所述步骤⑤中的后向预测，为将线性预测权值矩阵

和N个时空域邻居像素点

根据公式：

X ({\overset{&RightArrow;}{n}}_{0}) = Σ_{k = 1}^{N} α_{k} X ({\overset{&RightArrow;}{n}}_{k})

进行线性加权，从而预测出当前图像的当前编码块中每个像素的预测值。

本发明具有以下优点和积极效果：

1)通过增加一种基于后向预测的帧间宏块预测模式，减少了码流中运动矢量边信息的比特数；

2)结合现有标准中的前向预测模式，提高了帧间预测的压缩效率；

附图说明

图1是本发明提供的基于时空邻居点的后向预测方法的流程图。

图2是本发明提供的基于时空邻居点的后向预测方法的一个实施例的示意图。

图3是本发明中空域邻居像素点选择示意图。

图4是本发明中时域邻居像素点选择示意图。

具体实施方式

本发明提出的基于时空邻居信息的后向预测方法，根据视频在小范围内属于稳态分布、具有时空相似性的特点，利用当前图像总当前编码块的时域、空域邻居像素的内容相似性来线性预测当前编码块的像素值，具体采用如下技术方案，如图1所示，包括以下步骤：

1、选择局部空域邻居像素(11)，该步骤选择当前图像中当前编码块周围的已编码块的像素点来进行线性预测；

2、选择局部时域邻居像素(12)，该步骤选择当前图像的参考帧中的像素点用来进行线性预测；

3、设置时空样本训练窗口(13)，该步骤把当前图像的参考帧中至少一帧的若干像素点设置为样本训练点，从而组成样本训练集合；

4、求解线性预测权值矩阵(14)，该步骤在步骤3所设置的训练样本集内，依据求解最小二乘问题的方法求得线性预测权值矩阵的局部最优解；

5、进行基于时空邻居点的后向预测(15)，该步骤用步骤4中求得的线性预测权值矩阵作为线性加权的权值，对步骤1中确定的空域邻居像素点和步骤2中确定的时域邻居像素点进行线性加权，从而预测出当前图像的当前编码块中每个像素的预测值；

6、预测模式集成(16)，该步骤把步骤5中当前编码块的线性预测值，作为一种新的宏块帧间预测模式集成到视频编码框架中的帧间预测模式集合中。

上述所述的基于时空邻居点的后向预测方法，在步骤1中，选择局部空域邻居像素点，分别来自当前编码块的左边块、上边块、左上边块中的9个像素点；

步骤2中，选择局部时域邻居像素点，为当前图像的前一参考帧中3×3大小的9个像素点；

步骤3中，设置样本训练集，为当前图像的若干参考帧中范围为：

W(T₁，T₂)＝[-T₁，T₁]×[-T₁，T₁]×[-T₂，-1]的区域，其中，T₁表示训练集的空域范围，T₂表示训练窗口的时域范围，单位为像素个数；

步骤4中线性预测权值矩阵求解，为将训练样本数据(共M个)记为一个M×1大小的列向量将时空邻居像素点(共N个)记为一个1×N大小的行向量

利用

和

生成一个M×N的协方差矩阵C，根据公式：

\overset{&RightArrow;}{α} = {(C^{T} C)}^{- 1} C^{T} \overset{&RightArrow;}{y}

计算得到线性预测权值矩阵

步骤5中的后向预测，为将线性预测权值矩阵和N个时空域邻居像素点

根据公式：

X ({\overset{&RightArrow;}{n}}_{0}) = Σ_{k = 1}^{N} α_{k} X ({\overset{&RightArrow;}{n}}_{k})

下面再以具体实施例结合附图2对本发明提供的基于时空邻居点的后向预测方法作进一步说明：

采用H.264的参考软件JM12.4作为编码器，编码类型为IPPPPP，参考帧个数为3，打开RDO选项，选取QCIF分辨率大小(176×144)的claire序列作为测试序列，以编码claire序列中第4帧图像的第13个宏块为例，具体实施步骤如下：

1、局部空域邻居像素的选择(23)

对于第4帧图像的第13个宏块首先以4×4块为单元将宏块分成16个4×4块。对于每个4×4块而言，选择9个点作为空域邻居点，如图3所示，4×4块为当前编码块；9个黑色圆点为局部空域邻居像素点，分别来自当前编码块周围已编码完的左边块、上边块和左上块；

当前编码4×4块内部的所有16个待编码的像素点都使用这9个邻居像素点来进行线性预测。

2、局部时域邻居像素的选择(24)

在参考帧队列中对第3帧参考帧进行相似度搜索，从而找到当前编码块中待编码像素的最近似像素点，设为当前编码4×4块中待编码像素点的配准像素点，如图4所示。对于当前编码4×4块内部的每个待编码像素点而言，选择以配准像素点为中心的3×3面积大小的9个像素作为时域邻居点来进行线性计算。

3、设置时空样本训练窗口(25)

定义一个三维长度为(3，3，2)的训练集合W：

W＝[-3₁，3₁]×[-3₁，3₁]×[-2，-1]

4、线性预测权值矩阵求解(26)

将训练样本数据(共7×7×2＝98个)记为一个98×1大小的列向量

将18个(9+9＝18)时/空邻居像素点记为一个1×18大小的行向量利用和

生成一个98×18的协方差矩阵C。根据公式：

\overset{&RightArrow;}{α} = {(C^{T} C)}^{- 1} C^{T} \overset{&RightArrow;}{y}

计算得到18×1大小的线性预测权值矩阵

5、基于时空邻居点的后向预测(17)

将线性预测权值矩阵

和18个时/空域邻居像素点

根据公式：

X ({\overset{&RightArrow;}{n}}_{0}) = Σ_{k = 1}^{N} α_{k} X ({\overset{&RightArrow;}{n}}_{k})

进行线性加权，从而预测出当前图像中正在编码的4×4块中每个像素的预测值。依此来推，可得到16个4×4块的像素预测值，从而得到当前编码宏块的预测值。

6、预测模式集成

将本发明的后向预测方法作为H.264标准中针对P帧的一种新的帧间预测模式(LSP模式)，编码器基于率失真选择策略从H.264标准中现有的各种帧间预测模式和新增加的LSP模式中选择出最优编码模式，率失真代价函数如下所示：

J(s，c，mode|QP，λ_mode)＝D(s，c，mode|QP)+λ_mode·R(s，c，mode|QP)

为了验证本发明后向预测方法的有效性，将本发明方法和H.264标准进行比较，表1给出了3个QCIF和3个416×240序列的编码图像峰值信噪比PSNR增益和码率节省结果，从中可以看出本发明具有更佳的压缩效率：

表1 QCIF、416×240序列亮度分量测试结果

QCIF序列	BDPSNR(dB)	BD-BitRate(％)	416×240序列	BDPSNR(dB)	BD-BitRate(％)
QCIF序列	BDPSNR(dB)	BD-BitRate(％)	416×240序列	BDPSNR(dB)	BD-BitRate(％)	Claire	0.18	-3.27	BQSquare	0.19	-4.27
Foreman	0.08	-1.47	Flowervase	0.14	-2.97	Claire	0.18	-3.27	BQSquare	0.19	-4.27
Foreman	0.08	-1.47	Flowervase	0.14	-2.97	News	0.14	-2.34	Nuts3	0.29	-5.43