CN102025999B

CN102025999B - 基于支持向量机的视频转码快速帧内预测方法

Info

Publication number: CN102025999B
Application number: CN 201010618333
Authority: CN
Inventors: 贾克斌; 吕卓逸; 孙中华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2010-12-31
Filing date: 2010-12-31
Publication date: 2012-05-16
Anticipated expiration: 2030-12-31
Also published as: CN102025999A

Abstract

基于支持向量机的视频转码快速帧内预测方法，属于数字视频转码技术领域。本发明具体包括以下步骤：(1)将输入的高分辨率视频码流解码来提取编码信息，组成多维特征向量训练支持向量机模型，建立高分辨率视频编码信息与降尺寸视频中宏块的帧内编码模式之间的相关性；(2)构建分层式SVM分类器，对降尺寸视频中宏块的帧内预测模式进行分类，以此减少预测模式数量；(3)利用缩减后的帧内模式对降尺寸视频进行编码，实现转码再编码过程中率失真优化算法的提前终止，达到降低转码运算复杂度的目的，实现一个低复杂度的H.264视频转码器；(4)输出转码后的低分辨率视频码流。本方法既能够保证转码后视频质量，又有效解决了降尺寸视频转码实时性问题。

Description

基于支持向量机的视频转码快速帧内预测方法

技术领域

本发明属于数字视频转码技术领域，具体涉及一种基于支持向量机的视频转码快速帧内预测的方法。

背景技术

近年来，多媒体通信随着网络技术的飞速发展广泛融入到社会和个人生活中。由于网络种类的多样性(如Internet网、电信网和蜂窝无线网等)，终端设备性能(如显示分辨率、处理能力和存储能力等)的差异，使得提高视频码流在不同应用环境之间的兼容性变得十分重要。转换空间分辨率的视频转码，为支持各类视频显示设备提供了有效的解决方法，它将原始分辨率的视频码流转换为适合接收端显示的目标分辨率码流。H.264在压缩高效性和传输可靠性方面优于其它视频编码标准，并在各个领域中得到了广泛应用，基于H.264的视频编码及转码技术成为近年来国内外研究的热点。

理想的视频转码器应具备低运算复杂度，高转码质量等性能。H.264帧内编码充分利用图像空间相关性，结合率失真优化技术选择最优帧内模式。高效的帧内预测编码极大降低了空间冗余，提高视频编码压缩率，同时也大大增加了编码器的计算复杂度，影响到算法的实时性。因此，如何有效利用输入码流中的编码信息来提高转码速度成为视频转码研究中的关键问题。对此，众多科研人员做了大量工作来优化帧内编码算法。包括降低率失真优化运算复杂度，以及利用边界方向分析宏块特性等等。然而，这些帧内优化算法没有充分利用输入的编码信息来提高转码效率，无法在视频转码中达到理想的效果。因此，如何提高视频转码效率，同时保证图像质量仍然是一个有待探索的课题。

发明内容

本发明的目的是充分利用从输入的高分辨率视频码流中提取的编码信息，组成多维特征向量训练支持向量机(Support Vector Machine，SVM)分类器模型，构建分层式SVM分类器，对降尺寸视频中宏块的帧内预测模式进行分类，降低转码运算复杂度。

为了解决上述技术问题，本发明提供了一种基于支持向量机的视频转码快速帧内预测方法，其特征在于：首先从输入的高分辨率视频码流中提取模式特征组成多维特征向量训练支持向量机(Support Vector Machine，SVM)分类器模型，建立高分辨率视频编码信息与降尺寸视频宏块帧内编码模式之间的相关性。然后设计构建出分层式SVM分类器，对降尺寸视频中宏块的帧内预测模式进行分类，以此减少预测模式数量，实现转码再编码过程中率失真优化算法的提前终止。具体包括下述步骤：

1)将输入的高分辨率视频码流解码来提取编码信息，包括：帧内编码模式、残差宏块和离散余弦变换系数，利用编码信息计算得到表征宏块特征的参量来组成多维特征向量训练支持向量机模型，通过该模型建立高分辨率视频编码信息与降尺寸视频中宏块的帧内编码模式之间的相关性；

2)由顶层分类器，中间层分类器和下层分类器构建成分层式SVM分类器架构，分三步对降尺寸视频中宏块的帧内预测模式进行分类，首先划分Intra 16×16和Intra 4×4，其次对Intra4×4中的模式{0，1，2}和其它模式进行划分，最后划分Intra 4×4中的垂直预测模式和水平预测模式，以此减少预测模式数量；

3)利用缩减后的帧内模式对降尺寸视频进行编码，实现率失真优化算法的提前终止，避免转码中再编码过程中的穷举式全搜索，实现一个低复杂度的H.264视频转码器；

4)输出转码后的低分辨率视频码流。本方法既能够保证转码后视频质量，又有效解决了降尺寸视频转码实时性问题。

在本发明所提供的基于支持向量机的视频转码快速帧内预测方法中，所述的支持向量机特征向量的选取，包括下述步骤：

1)顶层分类器：实验数据表明，在原始高分辨率视频的四个相邻宏块中出现频率最高的编码模式往往就是通过率失真优化算法计算获得的最优编码模式。本方法选择Intra 16×16和Intra 4×4在当前宏块所对应的原始高分辨率视频的四个相邻宏块中的出现次数作为特征向量之一。此外，鉴于残差块不为零的离散余弦变换(DCT)系数的个数(nzcoef)与宏块空间特征的紧密联系，且提取方法简单，无需进行DCT逆变换，因此将不为零的离散余弦变换系数的个数选作顶层分类器的另一个特征向量；

2)中间层分类器：本方法利用如下公式中定义的方向差值参量来衡量宏块的亮度分布特征，进而划分出采用模式{0，1，2}的宏块。

C_V＝|E₀-E₂|+|E₁-E₃|，C_H＝|E₀-E₁|，|E₂-E₃|

C_P＝2min{|E₁-E₂|，|E₀-E₃|}，

C_{DC} = 0.5 Σ_{n = 0}^{3} | E_{n} - \overset{&OverBar;}{E} |,

E_{n} = Σ_{i, j = 0}^{3} | D_{n} (i, j) |,

n＝0，1，2 and 3

其中，C_V，C_H，C_P和C_DC分别代表垂直、水平、平面和DC的方向差值参量，D_n(i，j)表示(i，j)上的DCT系数，E_n表示宏块亮度值；

3)下层分类器：本方法利用DCT系数计算获得4×4块的边界方向tanθ，将与tanθ最接近的预测方向作为该块的候选预测方向。其中，θ表示边界方向与水平方向的夹角，F_u，v代表4×4块(u，v)的AC系数。

\tan θ = \frac{F_{0,1} + F_{0,2} + F_{0,3}}{F_{1,0} + F_{2,0} + F_{3,0}}

为了得到更加准确的预测结果，将第一行的AC系数绝对值之和定义为ac_sum_h，第一列AC系数绝对值之和定义为ac_sum_v，结合边界方向tanθ对4×4块进行预测。如果ac_sum_h小于ac_sum_v，则该4×4块采用垂直预测模式的机会较小，去除模式{0，3，5，7}；相反，如果ac_sum_v小于ac_sum_h，则该4×4块采用水平预测模式的机会较小，去除模式{1，4，6，8}。

ac_sum_h = Σ_{j = 1}^{3} | AC [0, j] |,

ac_sum_h = Σ_{j = 1}^{3} | AC [i, 0] |

在本发明所提供的基于支持向量机的视频转码快速帧内预测方法中，所述的支持向量机核函数的选择，为了选取适用于视频转码帧内预测算法的最优核函数，本方法按如下步骤定义了核函数性能参数J：

1)假设输入空间中的两类样本：(x₁，x₂，...，x_l)和(x_l+1，x_l+2，...，x_2l)分别属于类别C₁和C₂，其中l为样本数量。各类中心点在特征空间中表示为：

C_{1} = \frac{1}{l} Σ_{i = 1}^{l} φ (x_{i}),

C_{2} = \frac{1}{l} Σ_{i = l + 1}^{2 l} φ (x_{i})

2)用核函数K(x_i，x_j)替代映射函数Φ，计算类中心的二次范数：

{| | C_{1} | |}^{2} = < C_{1}, C_{1} > = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} < φ (x_{i}), φ (x_{j}) > = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j})

{| | C_{2} | |}^{2} = < C_{2}, C_{2} > = \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} < φ (x_{i}), φ (x_{j}) > = \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} K (x_{i}, x_{j})

3)由下式计算获得各类紧凑度参数δ² ₁和δ² ₂：

{δ^{2}}_{s} = \frac{1}{l} Σ_{m = 1}^{l} {| | φ (x_{m}) - C_{s} | |}^{2} = \frac{1}{l} Σ_{m = 1}^{l} K (x_{m}, x_{m}) + \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j}),

s＝1 or 2

4)类别间的中心距离为：

{| | C_{1} - C_{2} | |}^{2} = < C_{1}, C_{1} > + < C_{2}, C_{2} > - 2 < C_{1}, C_{2} >

= \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j}) + \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} K (x_{i}, x_{j}) - \frac{2}{l} Σ_{i = 1}^{l} Σ_{j = l + 1}^{2 l} K (x_{i}, x_{j})

5)最后，得到核函数性能参数J，其中，分子为类别间的中心距离，分母为同类内的紧凑度，选择J值最大的作为最优核函数：

J = \frac{{| | C_{1} - C_{2} | |}^{2}}{δ_{1}^{2} + δ_{2}^{2}}

在本发明所提供的基于支持向量机的视频转码快速帧内预测方法中，所述的分层式SVM分类器的构建，包括下述步骤：

1)顶层分类器划分Intra 16×16模式和Intra 4×4模式。如果当前宏块被划分为Intra 16×16模式，则仅预测Intra 16×16模式。换而言之，此分类器用于划分出位于纹理分布较均匀或运动平缓区域内的宏块；

2)中间层分类器划分Intra 4×4中的模式{0，1，2}和其它模式；

3)下层分类器对Intra 4×4中的9种预测模式进行细分，划分为垂直预测模式和水平预测模式。垂直预测模式仅对模式{0，3，5，7}进行预测，水平预测模式仅对模式{1，4，6，8}进行预测。

附图说明

图1是本发明采用的基于支持向量机的视频转码快速帧内预测方法的框架图；

图2是本发明采用的基于支持向量机的视频转码快速帧内预测方法的流程图；

图3是foreman序列实验结果PSNR-Bitrate曲线图；

图4是silent序列实验结果PSNR-Bitrate曲线图；

图5是耗费运算时间的实验结果对比图；

具体实施方式

本发明提供了一种基于支持向量机的视频转码快速帧内预测方法，其具体实施例详细步骤如下：

采用H.264/AVC的测试模型JM12.2，实验平台采用Visual C++6.0。首先将CIF格式(352×288)的标准测试序列缩小为QCIF格式(176×144)；其次对CIF格式视频在JM12.2上编码再解码，在解码过程中读取编码信息并将其写入TXT格式的外部文件中，在对降尺寸以后的视频进行编码时通过读取外部文件获得编码信息；然后调用本发明中提到的方法来完成对降尺寸视频具体的编码工作。每个序列选取前50帧进行转码，编码方式全部采用帧内编码(I帧)。

具体实施中，在计算机中完成以下程序：

第一步：读取TXT文件中的编码信息，包括：帧内编码模式，残差宏块和离散余弦变换(DCT)系数；

第二步：支持向量机特征向量的选取按照如下步骤进行：

1)顶层分类器：实验数据表明，在原始高分辨率视频的四个相邻宏块中出现频率最高的编码模式往往就是通过率失真优化算法计算获得的最优编码模式。本方法选择Intra 16×16和Intra 4×4在当前宏块所对应的原始高分辨率视频的四个相邻宏块中的出现次数作为特征向量之一。此外，鉴于残差块不为零的离散余弦变换(DCT)系数(nzcoef)与宏块空间特征的紧密联系，且提取方法简单，无需进行DCT逆变换，因此选作顶层分类器的另一个特征向量；

C_V＝|E₀-E₂|+|E₁-E₃|，C_H＝|E₀-E₁|，|E₂-E₃|

C_P＝2min{|E₁-E₂|，|E₀-E₃|}，

C_{DC} = 0.5 Σ_{n = 0}^{3} | E_{n} - \overset{&OverBar;}{E} |,

E_{n} = Σ_{i, j = 0}^{3} | D_{n} (i, j) |,

n＝0，1，2 and 3

\tan θ = \frac{F_{0,1} + F_{0,2} + F_{0,3}}{F_{1,0} + F_{2,0} + F_{3,0}}

ac_sum_h = Σ_{j = 1}^{3} | AC [0, j] |,

ac_sum_h = Σ_{j = 1}^{3} | AC [i, 0] |

第三步：支持向量机核函数的选择，为了选取适用于视频转码帧内预测算法的最优核函数，本发明按如下步骤定义了核函数性能参数J：

C_{1} = \frac{1}{l} Σ_{i = 1}^{l} φ (x_{i}), C_{2} = \frac{1}{l} Σ_{i = l + 1}^{2 l} φ (x_{i})

{| | C_{1} | |}^{2} = < C_{1}, C_{1} > = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} < φ (x_{i}), φ (x_{j}) > = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j})

{| | C_{2} | |}^{2} = < C_{2}, C_{2} > = \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} < φ (x_{i}), φ (x_{j}) > = \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} K (x_{i}, x_{j})

3)由下式计算获得各类紧凑度参数δ² ₁和δ² ₂：

{δ^{2}}_{s} = \frac{1}{l} Σ_{m = 1}^{l} {| | φ (x_{m}) - C_{s} | |}^{2} = \frac{1}{l} Σ_{m = 1}^{l} K (x_{m}, x_{m}) + \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j}),

s＝1 o r2

4)类别间的中心距离为：

{| | C_{1} - C_{2} | |}^{2} = < C_{1}, C_{1} > + < C_{2}, C_{2} > - 2 < C_{1}, C_{2} >

= \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j}) + \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} K (x_{i}, x_{j}) - \frac{2}{l} Σ_{i = 1}^{l} Σ_{j = l + 1}^{2 l} K (x_{i}, x_{j})

J = \frac{{| | C_{1} - C_{2} | |}^{2}}{δ_{1}^{2} + δ_{2}^{2}}

第四步：分层式SVM分类器的构建，包括下述步骤：

1)顶层分类器划分Intra 16×16模式和Intra 4×4模式。如果当前宏块被划分为Intra 16×16模式，则仅预测Intra 16×16模式。换而言之，此分类器用于划分出位于纹理分布较均匀或运动平缓区域的宏块；

2)中间层分类器划分Intra 4×4中的模式{0，1，2}和其它模式；

第五步：通过分层式SVM分类器对降尺寸视频中宏块的帧内预测模式进行分类，以此减少预测模式数量。

第六步：利用缩减后的帧内模式对降尺寸视频进行编码，实现转码再编码过程中率失真优化算法的提前终止，达到降低转码运算复杂度的目的，实现一个低复杂度的H.264视频转码器。

第七步：输出转码后的低分辨率视频码流。

为了验证本发明所提出方法的普遍适用性和高效性，以下给出实验结果。实验选取分辨率格式CIF，具有不同运动程度及纹理特征的测试序列训练SVM分类器模型。首先将高分辨率视频利用JM12.2进行编码再解码，以便提取编码信息训练SVM模型。然后将CIF格式视频Foreman，Mother-daughter，Paris和Silent以1/4尺寸缩小。编码全部采用帧内编码(I帧)，QP值设置从24到32。

本发明提出的基于支持向量机的视频转码快速帧内预测算法(3-SVM)，与全搜索算法(JM72.2)和参考文献中提出的主导模式(Majority Method.MM)结合HVDC修正算法(MM+HVDC)在转码质量，比特率和转码速度三方面进行比较。如图3，4，5和表1(正值表示增加，负值表示减小)所示，基于SVM的帧内预测算法比全搜索算法(JM12.2)平均节省65.29％运算时间，并保证PSNR仅下降0.065dB，比特率增加6.33％。文献提出的算法MM+HVDC比JM12.2方法平均节省55.69％运算时间，PSNR下降0.123dB，比特率增加10.52％。

表1

综合衡量运算复杂度、转码质量和压缩率等因素，本文提出的算法在有效提高降尺寸转码速度的同时，与现有算法相比，取得了更优的编码效果和更广泛的适用性。

Claims

1.基于支持向量机的视频转码快速帧内预测方法，其特征在于：首先从输入的视频码流中提取编码信息组成多维特征向量训练支持向量机SVM分类器模型，建立高分辨率视频编码信息与降尺寸视频中宏块的编码模式之间的联系；然后搭建阶梯式SVM分类器对降尺寸视频中宏块帧内编码模式进行分层式预测，具体包括下述步骤：

1)将输入的高分辨率视频码流解码来提取编码信息，包括：帧内编码模式、残差宏块和离散余弦变换系数；

2)分别为三层SVM分类器选取特征向量，即利用编码信息计算获得表征宏块特征的参量来组成多维特征向量；

3)通过定义的核函数性能参数来选择核函数，训练支持向量机分类器模型，通过该模型建立高分辨率视频编码信息与降尺寸视频中宏块的帧内编码模式之间的相关性；

4)由顶层分类器、中间层分类器和下层分类器构建成分层式SVM分类器架构，分三步对降尺寸视频中宏块的帧内预测模式进行分类，首先划分Intra 16×16和Intra 4×4，其次对Intra 4×4中的模式{0，1，2}和其它模式进行划分，最后划分Intra 4×4中的垂直预测模式和水平预测模式；

5)利用缩减后的帧内模式对降尺寸视频进行编码，提前终止率失真优化算法，避免转码中再编码过程中的穷举式全搜索，实现一个低复杂度的H.264视频转码器；

6)输出转码后的低分辨率视频码流。

2.根据权利要求1所述的基于支持向量机的视频转码快速帧内预测方法，其特征在于所述的支持向量机特征向量的选取，包括下述步骤：

1)顶层分类器：选择Intra 16×16和Intra 4×4在当前宏块所对应的原始高分辨率视频的四个相邻宏块中的出现次数作为特征向量之一；将不为零的离散余弦变换系数的个数选作顶层分类器的另一个特征向量；

2)中间层分类器：利用如下公式中定义的方向差值参量来衡量宏块的亮度分布特征，

进而划分出采用模式{0，1，2}的宏块；

C_V＝|E₀-E₂|+|E₁-E₃|，C_H＝|E₀-E₁|+|E₂-E₃|，

C_{P} = 2 \min {| E_{1} - E_{2} |, | E_{0} - E_{3} |}, C_{DC} = 0.5 Σ_{n = 0}^{3} | E_{n} - \overset{&OverBar;}{E} |,

E_{n} = Σ_{i, j = 0}^{3} | D_{n} (i, j) |, n = 0,1,2 and 3 .

其中，C_V，C_H，C_P和C_DC分别代表垂直、水平、平面和DC的方向差值参量，D_n(i，j)表示位置(i，j)上的DCT系数，E_n表示宏块亮度值；

3)下层分类器：利用离散余弦变换系数计算获得4×4块的边界方向tanθ，将与tanθ最接近的预测方向作为该块的候选预测方向，其中，θ表示边界方向与水平方向的夹角，F_u，v代表4×4块(u，v)的交流AC系数；

\tan θ = \frac{F_{0,1} + F_{0,2} + F_{0,3}}{F_{1,0} + F_{2,0} + F_{3,0}}

同时，按照下面的公式将第一行的AC系数绝对值之和定义为ac_sum_h，第一列AC系数绝对值之和定义为ac_sum_v，结合边界方向tanθ对4×4块进行预测；

ac_sum_h = Σ_{j = 1}^{3} | AC [0, j] |, ac_sum_v = Σ_{i = 1}^{3} | AC [i, 0] |

如果ac_sum_h小于ac_sum_v，则该4×4块采用垂直预测模式的机会较小，去除模式{0，3，5，7}；相反，如果ac_sum_v小于ac_sum_h，则该4×4块采用水平预测模式的机会较小，去除模式{1，4，6，8}。

3.根据权利要求1所述的基于支持向量机的视频转码快速帧内预测方法，其特征在于所述的支持向量机核函数的选择，按如下步骤定义了核函数性能参数J：

1)假设输入空间中的两类样本：(x₁，x₂，...，x_l)和(x_l+1，x_l+2，...，x_2l)分别属于类别C₁和C₂，其中l为样本数量，各类中心点在特征空间中表示为如下形式，其中Φ为映射函数：

C_{1} = \frac{1}{l} Σ_{i = 1}^{l} φ (x_{i}),

C_{2} = \frac{1}{l} Σ_{i = l + 1}^{2 l} φ (x_{i})

{| | C_{1} | |}^{2} = < C_{1}, C_{1} > = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} < φ (x_{i}), φ (x_{j}) > = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j})

{| | C_{2} | |}^{2} = < C_{2}, C_{2} > = \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} < φ (x_{i}), φ (x_{j}) > = \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} K (x_{i}, x_{j})

3)由下式计算获得各类紧凑度参数

和

{δ^{2}}_{s} = \frac{1}{l} Σ_{m = 1}^{l} {| | φ (x_{m}) - C_{s} | |}^{2} = \frac{1}{l} Σ_{m = 1}^{l} K (x_{m}, x_{m}) + \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j}), s = 1 or 2

4)类别间的中心距离为：

{| | C_{1} - C_{2} | |}^{2} = < C_{1}, C_{1} > + < C_{2}, C_{2} > - 2 < C_{1}, C_{2} >

= \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j}) + \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} K (x_{i}, x_{j}) - \frac{2}{l} Σ_{i = 1}^{l} Σ_{j = l + 1}^{2 l} K (x_{i}, x_{j})

J = \frac{{| | C_{1} - C_{2} | |}^{2}}{δ_{1}^{2} + δ_{2}^{2}} .

4.根据权利要求1所述的基于支持向量机的视频转码快速帧内预测方法，其特征在于所述的分层式SVM分类器的构建，包括下述步骤：

1)顶层分类器划分Intra 16×16模式和Intra 4×4模式，如果当前宏块被划分为Intra 16×16模式，则仅预测Intra 16×16模式，换而言之，此分类器用于划分出位于纹理分布较均匀或运动平缓区域内的宏块；

2)中间层分类器划分Intra 4×4中的模式{0，1，2}和其它模式；

3)下层分类器对Intra 4×4中的9种预测模式进行细分，划分为垂直预测模式和水平预测模式；垂直预测模式仅对模式{0，3，5，7}进行预测，水平预测模式仅对模式{1，4，6，8}进行预测。