CN102984520A

CN102984520A - 视频压缩方法及系统

Info

Publication number: CN102984520A
Application number: CN 201210524506
Authority: CN
Inventors: 梁久祯; 王婷婷; 柴志雷
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2012-12-04
Filing date: 2012-12-04
Publication date: 2013-03-20

Abstract

本发明揭露了一种用于提高视频压缩比的视频压缩的方法及系统，所述方法包括对输入视频，采取帧间预测而非帧内预测的帧中，由同一帧预测而来，即参考帧为同一帧的P(单向预测)或B(双向预测)帧中，再以时间轴为第三维，对残差进行三维离散余弦变换变换，替代原H.264视频压缩编码标准中的二维离散余弦变换。变换后进行三维Z字型扫描，替换原标准中的二维Z字型扫描。本发明可以达到在不影响主观质量的前提下，提高视频压缩比，减小视频数据量的功能。

Description

视频压缩方法及系统

【技术领域】

本发明涉及视频压缩领域，特别涉及一种视频的帧间变换编码方法及系统。

【背景技术】

视频之所以需要压缩，是因为它原来的形式占用的空间大得惊人。视频经过压缩后，存储时会更方便。视频压缩以后并不影响作品的最终视觉效果，因为它只影响人的视觉不能感受到的那部分视频。例如，有数十亿种颜色，但是我们只能辨别大约1024种。因为我们觉察不到一种颜色与其邻近颜色的细微差别，所以也就没必要将每一种颜色都保留下来。还有一个冗余图像的问题-如果在一个60秒的视频作品中每帧图像中都有位于同一位置的同一把椅子，就没有必要在每帧图像中都保存这把椅子的数据。视频图像数据有极强的相关性，也就是说有大量的冗余信息。其中冗余信息可分为空域冗余信息和时域冗余信息。压缩技术就是将数据中的冗余信息去掉(去除数据之间的相关性)，压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。

压缩视频的过程实质上就是去掉我们感觉不到的那些东西的数据。标准的数字摄像机的压缩率为5比1，有的格式可使视频的压缩率达到100比1。但过分压缩也不是件好事。因为压缩得越多，丢失的数据就越多。如果丢弃的数据太多，产生的影响就显而易见，导致主管质量下降。过分压缩的视频会导致无法辨认。

压缩视频的时候，需要尝试多种压缩设置。目的是尽可能将数据压缩到最小，当数据丢失到从画面中能够明显看到时，再将压缩率稍微提高。这样就可以在文件大小和画面质量之间达到最佳平衡。每个视频作品都各不相同，有些视频经过高度压缩后看上去仍不错，有些却不是，所以需要通过试验才能得到最好的效果。

在实现本发明的过程中，尝试多种压缩技术，最终采用该视频压缩的方法与系统，能显著提高视频的压缩比，同时将对视频主观质量的影响降到最小。

【发明内容】

本发明的目的在于提供一种视频压缩的方法及系统，所述视频压缩方法及系统可以提高视频压缩的压缩比。

为了达到本发明的目的，根据本发明的一个方面，本发明提供一种视频压缩方法，所述方法包括：对输入视频的当前帧进行判断得到本帧是否是帧间预测帧，若是帧内预测帧，则读取下一帧为当前帧，直至取到帧间预测帧；获取输入视频当前帧的参考帧帧号；若当前帧为P(单向预测)帧，且周围的P帧中有参考帧帧号与当前帧参考帧帧号相同的帧时，合并做三维离散余弦变换；若当前帧为B(双向预测)帧，且周围的B帧中有参考帧帧号与当前帧参考帧帧号相同的帧时，合并做三维离散余弦变换；对变换得到的系数进行三维Z字型扫描，得到系数的一维表示；根据H.264视频编码标准对该一维系数依次进行量化，Run-Level编码，熵编码等。

进一步地，所述对输入视频的每一个宏块的每一个像素点分别进行拉格朗日乘子法率失真编码优化：

拉格朗日乘子法转化为一个元约束的求极小值问题，即：

min{D(X，M)+λR(X，M)}

其中，失真D(X，M)和数据速率R(X，M)的计算分别如下式所示：

D (X, M) = Σ_{i = 1}^{N} D (X_{i}, M)

R (X, M) = Σ_{i = 1}^{N} R (X_{i}, M)

D为失真量，N为信源长序列，N趋于无穷大。

失真的衡量方法采用误差衡量函数为绝对误差和(SAD)函数，它的计算方法如下式所示：

D_{SAD} (X_{i}, M) = \underset{s &Element; X_{i}}{Σ} | Y (s) - {\hat{Y}}_{M} (s) |

进一步地，所述对输入视频的图像头结构中，图像参数集中取出该帧参考帧号：

其中，取出ref_pic_num，得到其参考帧的总帧号。

进一步地，所述对P帧为单项预测帧，B帧为双向预测帧：

P帧表示的是当前帧跟之前的一个关键帧或P帧的残差，解码时需要用缓存的前向参考帧叠加本帧定义的差别，生成最终视频。即也就是残差帧，P帧没有完整视频数据，只有与前向参考帧的画面残差的数据。

B帧是双向预测帧，即B帧记录的是本帧与前后帧的差别，换言之，要解码B帧，不仅要取得前向参考帧的缓存视频，还要解码后向参考帧的视频，通过前后参考帧视频的与本帧数据的叠加取得最终的视频。B帧压缩率较P帧高，但是解码时占用更多资源。

进一步地，所述三维离散余弦变换：

F (u, v) = \frac{2 c (u) c (v)}{N} Σ_{x = 0}^{N - 1} Σ_{y = 0}^{N - 1} f (x, y) \cos [\frac{π (2 x + 1) u}{2 N}] \cos [\frac{π (2 y + 1) v}{2 N}],

u，v＝0，1，...，N

其中，为了提高编码效率，对其变换矩阵进行了针对性优化，变换是

Y = C_{f} {XC}_{f}^{T} &CircleTimes; E_{f} = ([\begin{matrix} 1 & 1 & 1 & 1 \\ 2 & 1 & - 1 & - 2 \\ 1 & - 1 & - 1 & 1 \\ 1 & - 2 & 2 & - 1 \end{matrix}] [X] [\begin{matrix} 1 & 2 & 1 & 1 \\ 1 & 1 & - 1 & - 2 \\ 1 & - 1 & - 1 & 2 \\ 1 & - 2 & 1 & - 1 \end{matrix}]) &CircleTimes; [\begin{matrix} a^{2} & ab / 2 & a^{2} & ab / 2 \\ ab / 2 & b^{2} / 4 & ab / 2 & b^{2} / 4 \\ a^{2} & ab / 2 & a^{2} & ab / 2 \\ ab / 2 & b^{2} / 4 & ab / 2 & b^{2} / 4 \end{matrix}]

a = \frac{1}{2}

其中，

b = \sqrt{\frac{2}{5}}

d = \frac{1}{2}

进一步地，所述对变换得到的系数进行三维Z字型扫描，得到系数的一维表示；

根据H.264视频编码标准对提取出的该一维变换系数依次进行量化，Run-Level编码，熵编码等。

与现有技术相比，本发明中的视频压缩方法及系统通过可以三维离散余弦变换运算实现了原本二维离散余弦变换的效果，以及三维Z字形扫描有效累计将数据转化为一维数据，使得能够更加高效地对输入的每一个视频帧内像素点压缩提取变换系数，同时保证主观画面质量不下降，能够满足相关应用系统的高压缩比需求。

【附图说明】

结合参考附图及接下来的详细描述，本发明将更容易理解，其中同样的附图标记对应同样的结构部件，其中：

图1为本发明中的视频压缩方法在一个实施例中的方法流程图。

【具体实施方式】

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种视频压缩方法及系统，所述视频压缩方法及系统可以连续地压缩由视频采集设备采集的连续视频，当所述视频压缩方法及系统处理一段输入视频时，最终可以获得该输入视频的高效压缩视频码流。

请参考图1，其示出了本发明中的视频压缩方法在一个实施例中的方法流程图。所述视频压缩方法包括：

步骤100，对对输入视频的每一个宏块的每一个像素点分别进行拉格朗日乘子法率失真编码优化：

比如在一个具体的实施例中，首先按拉格朗日乘子法转化为一个元约束的求极小值问题，即：

min{D(X，M)+λR(X，M)}

其中，失真D(X，M)和数据速率R(X，M)的计算分别如下式所示：

D (X, M) = Σ_{i = 1}^{N} D (X_{i}, M)

R (X, M) = Σ_{i = 1}^{N} R (X_{i}, M)

D为失真量，N为信源长序列，N趋于无穷大。

D_{SAD} (X_{i}, M) = \underset{s &Element; X_{i}}{Σ} | Y (s) - {\hat{Y}}_{M} (s) |

步骤102，对输入视频的图像头结构中，图像参数集中取出该帧参考帧号：

其中，取出ref_pic_num，得到其参考帧的总帧号。

步骤104，分别累计对P帧为单项预测帧，B帧为双向预测帧：

步骤106，根据所述三维离散余弦变换：

F (u, v) = \frac{2 c (u) c (v)}{N} Σ_{x = 0}^{N - 1} Σ_{y = 0}^{N - 1} f (x, y) \cos [\frac{π (2 x + 1) u}{2 N}] \cos [\frac{π (2 y + 1) v}{2 N}],

u，v＝0，1，...，N

Y = C_{f} {XC}_{f}^{T} &CircleTimes; E_{f} = ([\begin{matrix} 1 & 1 & 1 & 1 \\ 2 & 1 & - 1 & - 2 \\ 1 & - 1 & - 1 & 1 \\ 1 & - 2 & 2 & - 1 \end{matrix}] [X] [\begin{matrix} 1 & 2 & 1 & 1 \\ 1 & 1 & - 1 & - 2 \\ 1 & - 1 & - 1 & 2 \\ 1 & - 2 & 1 & - 1 \end{matrix}]) &CircleTimes; [\begin{matrix} a^{2} & ab / 2 & a^{2} & ab / 2 \\ ab / 2 & b^{2} / 4 & ab / 2 & b^{2} / 4 \\ a^{2} & ab / 2 & a^{2} & ab / 2 \\ ab / 2 & b^{2} / 4 & ab / 2 & b^{2} / 4 \end{matrix}]

a = \frac{1}{2}

其中，

b = \sqrt{\frac{2}{5}}

d = \frac{1}{2}

步骤108，所述对变换得到的系数进行三维Z字型扫描，得到系数的一维表示；

综上所述，所述视频压缩方法及系统通过可以三维离散余弦变换运算实现了原本二维离散余弦变换的效果，以及三维Z字形扫描有效累计将数据转化为一维数据，使得能够更加高效地对输入的每一个视频帧内像素点压缩提取变换系数，同时保证主观画面质量不下降，能够满足相关应用系统的高压缩比需求。

比如在一个具体的实施例中，输入视频同时经过2个三维离散余弦变换(也即四个矩阵运算)，并行计算出该宏块的变换系数；三维离散余弦变换模块的计算结果立即进入Z字形扫描模块，并行计算各个系数点的一维表示；各个有效点的一维表示的Run-Level对编码；以及各个有效点的熵编码。当第一组图像序列组计算完毕，结果立即送入三维离散余弦变换计算模块进行变换系数计算。

因此，实现所述视频压缩系统的硬件结构不需要等前一阶段计算结果完全得到并存储后才开始后一阶段计算，而是经过一定时间的初始延时后，所有阶段同时并行进行。在第一个有效点的变换系数计算完成后，每一个时钟周期都可以完成一个有效点的相关变换系数计算。

需要说明的是：上述实施例提供的视频压缩系统在本文描述时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频压缩系统与视频压缩方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明已经充分揭露了本发明的具体实施方式。需要指出的是，熟悉该领域的技术人员对本发明的具体实施方式所做的任何改动均不脱离本发明的权利要求书的范围。相应地，本发明的权利要求的范围也并不仅仅局限于所述具体实施方式。