CN103338369A

CN103338369A - 基于avs和神经网络的立体视频编码方法

Info

Publication number: CN103338369A
Application number: CN2013102199104A
Authority: CN
Inventors: 王翀; 崔恒志; 江灏; 贺敬伟; 黄倩
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2013-06-03
Filing date: 2013-06-03
Publication date: 2013-10-02

Abstract

本发明公开了一种基于AVS和神经网络的立体视频编码方法，其特征在于，包括以下步骤:1)左路参考视频编码：左路视频序列作为参考序列，通过AVS视频编码方法进行编码，产生后缀为avs的比特流；2)两级神经分类器处理：为了覆盖所有可能的分块和预测源，右路视频每帧的图像使用两级神经分类器来完成模式确定,第一级分类器完成背景类、遮挡类、变动类三种分类结果，第二级分类器估计出采用前向运动预测或是空间视差预测;3)右路目标图像编码：通过二级神经分类器处理后的数据，根据确定的预测类型进行相应的运动或是视差补偿,最后产生后缀为avs的比特流。本发明可增加视差匹配率，提高编码效率。

Description

基于AVS和神经网络的立体视频编码方法

技术领域

本发明涉及一种立体视频编码方法,属于视频编码技术领域。

背景技术

立体视频是一种能使人眼观看时产生立体感的视频。它的原理是通过传输两路视频信号，根据人眼的双目视差原理，以一定的方式送到人眼，在大脑中形成立体的效果。立体视频能使观众得到更真实强烈的视觉冲击效果，在数字电视、远程教育、视频会议、虚拟显示等方面有着广泛的应用。但是传输两路视频信号会带来比原来单通道信号大一倍的传输量。因此，必须通过有效的方法对其进行编码传输。

立体视频中有两类重要的冗余信息，一个是运动矢量，描述了单个通道中连续帧之间时域上的相关性；一个是视差矢量，描述了同一时刻同一场景在两个不同通道投影图像之间空间上的相关性。早期的立体视频压缩方法是将两路视频图像当作不相关的两组运动序列，对它们分别进行编码处理。这种方法没有考虑到立体视频对中固有的冗余信息，编码压缩效果并不令人满意。随着对立体图像的进一步了解和研究，考虑到立体视频对的视差信息，多采用的编码方法是一路使用某种视频编码标准，比如MPEG-4、H.264等进行编码，另一路采用视差估计的算法进行编码压缩。这种方法未考虑视频内容的不同，全部使用统一的规则处理，在压缩性能上有所欠缺。

《信息技术先进音视频》国家标准（简称AVS标准）视频部分于2006年2月由国家标准化管理委员会正式颁布，编号为GB/T20090.2-2006，并从2006年3月1日起正式实施。AVS的MPEG（Moving Pictures Experts Group，活动图像编码专家组）、H.264（H.264是VCEG（视频编码专家组）和MPEG（活动图像编码专家组）的联合视频组（JVT：joint video team）开发的一个新的数字视频编码标准）。

发明内容

本发明所要解决的技术问题是设计一种高效的立体视频编码方法，既能很好地利用现有的优秀视频编码标准，又能充分考虑到立体视频内容的特点，综合运用运动估计和视差估计来提高编码效率。

为解决上述技术问题,本发明提供一种基于AVS和神经网络的立体视频编码方法,其特征在于,包括以下步骤:

1)左路参考视频编码：左路视频序列作为参考序列，通过AVS视频编码方法进行编码，产生后缀为avs的比特流；

2)两级神经分类器处理：为了覆盖所有可能的分块和预测源，右路视频每帧的图像使用两级神经分类器来完成模式确定,第一级分类器完成背景类、遮挡类、变动类三种分类结果，第二级分类器估计出采用前向运动预测或是空间视差预测;第一级分类器是将右路视频每帧的图像中分出背景类、遮挡类、变动类这三种16×16大小的块，背景类由于几乎不变动，直接进行编码，遮挡类由于没有参照源，无需预测估计，也可直接进行编码，变动类因为前后帧之间有较大变动，需要进行预测，其预测的类型是通过进入第二级分类器进行判定的；

3)右路目标图像编码：通过二级神经分类器处理后的数据，根据确定的预测类型进行相应的运动或是视差补偿,最后产生后缀为avs的比特流。

本发明所达到有益效果:

本发明的基于AVS和神经网络的立体视频编码方法,可以充分考虑到视频内容的特点，增加视差匹配率，提高编码效率。

附图说明

图1是基于AVS的快速立体视频编码算法流程图；

图2为两级神经网络分类器算法流程图；

图3为改进的SAD算法流程图；

图4为平滑Ι区和平滑ΙΙ区示意图；

图5a为原图像；

图5b为区分平滑区后的图像；

图6为Soccer序列使用本发明方法与基于H.264方法的PSNR结果比较示意图。

具体实施方式

本发明提出了一种基于AVS和神经网络的立体视频编码方法，对左路的参考图像使用AVS编码器编码，对于右路的目标图像同时在时间域和空间域进行预测，使用的是两级的神经分类器来快速确定预测模式。第一级分类的结果是产生对每一个大块的不同分割块。第二级分类在运动估计或视差估计中选出最合适的预测源。视差的计算设计了改进的SAD(sum-of-absolute-differences)算法。

AVS视频标准是一种流线型的高效视频编解码标准。所有的视频编码算法都包括了对编码和执行复杂度的优化。与其它标准相比较，AVS的设计更加优化、复杂度更低。AVS主要应用于广播电视、HD—DVD和宽带视频网络中。

AVS在编码视频数据时使用渐进的扫描格式。这种格式与视频中的所有内容都是兼容的，也能够直接处理渐进式电视电影机器的输入，还直接兼容数字领域出现的所谓“24p”标准（每秒24幅图像的电影，并且用逐行扫描方式播放）。在将来的几年中，大多数的电影和电视都会采用这样的标准。渐进式扫描的一个显著优点就是对运动估计特别有效。对同样的感知效果，渐进的内容与交织的内容相比能够用明显的低比特来编码。进一步，运动补偿的复杂性大大降低。这是AVS降低复杂度的一个重要内容。

AVS主要关注于广播电视的应用，强调了HDTV（High Definition Television高清晰度电视），所以它的主要图片格式是1920×1080pixels。然而作为一个通用的标准，AVS兼容最大到16K×16Kpixels的图片。像素以YCrCb的方式用8bits表示。在帧率上，AVS支持4:2:0和4:2:2的视频格式。

本发明中基于AVS的立体视频编码的基本原理是：确定一路视频（如左路）作为参考图像序列，通过AVS编码器进行编码。另一路目标图像序列根据某种判断方法采用运动补偿或是视差补偿，如果采用运动补偿，送入编码器的是右路图像，运动矢量。在AVS中可以只搜索前向运动矢量，为了进一步提高编码的高效性，本发明采用的运动补偿方式为前向运动补偿。如果采用视差补偿，送入编码器的是左路图像，视差矢量。为了提高精度，可以将残差图像也进行编码传输。

图1是基于AVS的快速立体视频编码方法流程图。本发明提出的编码方法通过以下三个步骤完成:

a.左路参考视频编码：左路视频序列作为参考序列，通过AVS视频编码技术进行编码，产生后缀为avs的比特流；

b.两级神经分类器处理：为了覆盖所有可能的分块和预测源，使用两级神经分类器来完成模式确定，第一级分类器完成背景类、遮挡类、变动类三种分类结果，第二级分类器估计出采用前向运动预测或是空间视差预测；

c.右路目标图像编码：通过二级神经分类器处理后的数据，根据确定的预测类型进行相应的运动或是视差补偿，最后产生后缀为avs的比特流。

二级神经分类器算法：Kohonen提出的自组织特征映射神经网络（SOFM）是一种具有侧向联想能力的两层结构网络。它采用自组织特征映射算法，其输出节点呈二维阵列分布，每个输入节点与输出节点之间有可变权连接，且每个输出节点都有一个拓扑领域，其领域的大小随时间变化。网络通过自组织的方式用大量的训练样本数据来调整网络的权值，最后可得网络输出层能反映样本数据的分布情况。SOFM具有较强的自学习、自适应能力、容错能力和模式识别能力。

图1中两级神经网络分类器就是使用的两级SOFM网络，主要包括第一级分类器特征提取、第一级分类器块分割、第二级分类器特征提取、第二级分类器模式确定共四个部分。相应的两级神经网络分类器方法框图如图6所示，具体包括以下步骤：

a.第一级分类器特征提取：第一级分类器计算当前帧和前向参考帧，计算出特征值，包括7种特征：包括大块的均值、大块的方差、顶部和底部的16×16块的均值和方差、左和右的16×16块的均值和方差、前景图像在大块中所占的比重；

b.第一级分类器块分割：第一级分类器将一个大块分成3类：背景类、遮挡类、变动类，分别使用4、6、3个神经元作为输入层、隐藏层和输出层，在充分的训练后，神经网络计算出每一个输出神经元的分数，分数的取值从0.0到1.0；一个小的分数值可以加速程序，但是会增加比特量，为了加速模式估计过程，只选择3类分割中的一种最小的分数值进入下一步的评估，不同的类在下面的处理过程中使用不同，比如背景类和遮挡类两类并不进入第二级神经分类，而变动类会在第二级神经分类中进一步分为16×8、8×16、8×8三种子块；

c.第二级分类器特征提取：第二级分类器计算当前帧和前向运动估计，空间视差估计，第二级分类器计算出的特征总共有4种特征，包括前向子块的均值、子块的方差、参考图像子块的均值、子块的方差；

d.第二级分类器预测模式确定：第二级分类器分别使用5、4、2个神经元作为输入层、隐藏层和输出层，与第一级相似，根据分数从两个输出中选取小的分数值；

最终判断出使用何种补偿模式，是前向运动补偿还是空间视差补偿，根据分数值的大小来判定，设置阈值为0.5，当第二级分类器的输出分数值小于0.5时，选择使用前向运动补偿，当第二级分类器的输出分数值大于等于0.5时，选择使用空间视差补偿。

改进的SAD视差估计方法：这是一种对传统SAD算法进行改进的方法，这样的一种方法是针对基于块算法的缺点和提高运算速度而产生的方法。

本发明的SAD视差估计方法，具体步骤为：将视差的计算分成两步实现，第一步区分图像的平滑区和非平滑区，第二步针对不同的区域分别计算视差值。算法的流程图如图7所示。

a.平滑区和非平滑区的区分：将图像分块后区分平滑区和非平滑区，这里所说的平滑区和非平滑区是针对各个块而言的，划分的原理是这样的：u(x,y)代表每块的灰度平均值，将该选定块中的每一个像素和该块的灰度平均值之差的绝对值相加求和，如果该值越趋近于0，则代表块越平滑；

具体的公式由公式(1)，公式(2)所示：

δ (x, y) = \frac{1}{(2 m + 1) (2 n + 1)} \underset{(ξ, η)}{Σ} | f (x + ξ, y + η) - u (x, y) |

式(1)

u (x, y) = \frac{1}{(2 m + 1) (2 n + 1)} \underset{(ξ, η)}{Σ} f (x + ξ, y + η)

式（2）

f (i, j) = \frac{1}{16 \times 16} Σ_{i = 1}^{16} Σ_{j = 1}^{16} \frac{R_{ij} + G_{ij} + B_{ij}}{3}

式（3）

其中，i,j表示分块中每个像素点的坐标，x,y表示每一个分块的位置坐标，m,n表示每帧图像横向和纵向分别包含的块数，ξ取值范围为[1,m]，η取值范围为[1,n]，f(i,j)代表块中每个像素点的灰度值，(R_ij,G_ij,B_ij)为每个点的红绿蓝的颜色数值，u(x,y)代表每块的灰度平均值，则每一个像素和该块的灰度平均值之差的绝对值相加求和δ(x,y)越趋近0代表块越平滑，通过灰度直方图的方法确定一幅图像中平滑区域和非平滑区域所占多少的百分比，然后通过设定百分比作为区别平滑区域和非平滑区域的阈值；

其中u(x,y)代表每块的灰度平均值，则δ(x,y)越趋近0代表块越平滑，在实际运用中，通过灰度直方图的方法确定一幅图像中平滑区域和非平滑区域所占多少的百分比，然后通过设定百分比作为区别平滑区域和非平滑区域的阈值；

b.平滑区和非平滑区的视差计算：对于非平滑区视差的求解方法是根据式（4）得到该分块各像素的视差点C(x_i,y_i,d)的和分块的视差空间C(x,y,d)，使视差空间C(x,y,d)取值最小的视差d作为该分块的视差值，

C (x, y, d_{0}) = \underset{x, y &Element; W}{Σ} DSI (x_{i}, y_{j}, d_{0})

式（4）

其中W表示支撑框架，即非平滑区中的各分块的范围，视差空间是个三维离散的空间，视差空间中的点(x,y,d)表示(x,y)具有视差d，其值被赋予具有视差d的匹配估计值，

C(x_i,y_i,d)＝λ×min(|I^t(x_i,y_i)-I^r(x_i+s·d,y_i)|) 式（5）

式中，I^t表示目标图像；I^r表示参考图像；S表示方向符号，左图像为参考图像时取-1，右图像为参考图像时取+1，d表示视差，λ表示像素匹配代价值的缩放系数，把初始的匹配代价值控制在某个范围之内。

针对平滑区分布的特点将平滑区分成两类，分别叫做平滑Ι区和平滑ΙΙ区，图4分别是平滑Ι区和平滑ΙΙ区的示意图。

图中的“1”代表非平滑区，“0”代表平滑区，所以平滑Ι区的特征是平滑块的邻域内非平滑块占大多数，平滑块被非平滑块大量包围，平滑ΙΙ区的特征是平滑块呈现集中分布并形成连通域。

对平滑Ι区的处理方法是从平滑块的邻域非平滑块的视差中选择使得该平滑块代价最小的视差作为该平滑块的视差，这样的思路的理由是基于平滑块的视差估计出错率高，所以可以从相邻块得出关于该块的视差信息，对该平滑块的视差加以矫正。

由于平滑ΙΙ区的视差相同的概率是非常大的，所以就应该找到这样的一个统一的视差。处理方法是选择出连通区域，将整块区域中出现过的各个视差值分别作为整块连通域的视差值，然后计算整块连通域的匹配代价，选择使匹配代价最小的视差值作为整块的视差值。

为了验证本发明提出方法的有效性和快速性，首先实验了改进的SAD算法的效果，然后采用两个实验来比较验证。第一个是本发明提出的方法和不使用二级神经分类进行编码方法的比较。第二个是本发明提出的方法和基于H.264使用二级神经分类进行编码方法的比较。使用视频序列“Puppy”、“Flamenco”和“Bookseller”作为训练序列，使用“Soccer”和“Race”作为实验序列。

（1）用于计算视差的改进的SAD算法实验结果

图5b是区分平滑区和非平滑区以后的图像，黑色为非平滑区，白色为平滑区，可以看到，非平滑区大部分为物体的边界轮廓。

用改进的SAD算法对标准立体图像对Map、Tsukuba和Venus进行视差计算，观察它和普通SAD算法的视差匹配率、峰值信噪比PSNR和运行时间的结果。

表1视差匹配率、峰值信噪比PSNR和运行时间的比较

从上表可以看出，区分平滑区和非平滑区的算法最大的特点就是这种算法计算当前块的视差时大量的用到周围块的视差信息，这样做的结果是可以纠正一些明显的错误，起到了相当于滤波器的作用,所以可以增加视差匹配率。从运行时间上来看，改进的SAD算法比普通的算法效率提高了很多。

（2）本发明方法和基于AVS不使用二级神经分类进行编码方法的比较

AVS编码器使用的是rm52j_R1，编码参数选择2D-VLC熵编码，使用率失真优化，2帧参考图像，2帧IBBP，图像帧/场自适应，运动补偿块大小16×16，使用环路滤波。表2显示了使用本发明提出的方法和基于AVS不使用二级神经分类进行编码方法的比较结果。可以看出，本发明提出的方法对于“Puppy”序列，在第一级分类器中增加了比特率0.12%，速度节省28.41%，在第二级分类器后比特率增加2.44%，速度节省32.10%。本发明提出的方法对于“Bookseller”序列，在第一级分类器中增加了比特率2.52%，速度节省27.93%，在第二级分类器后比特率增加6.79%，速度节省33.28%。本发明提出的方法对于“Soccer”序列，在第一级分类器中增加了比特率2.17%，速度节省27.43%，在第二级分类器后比特率增加7.68%，速度节省319%。“Puppy”属于背景不变，前景缓慢变化的序列。“Flamenco”和“Bookseller”属于背景和前景都缓慢变化的序列。而“Soccer”和“Race”属于背景和前景变化较剧烈的序列。从实验结果看到，变化剧烈的序列使用本发明提出的方法能有更好的表现，原因是变化运动的序列有更多的图像帧采用视差估计。

表2比特率和编码时间的比较

（3）本发明方法和基于H.264使用两级神经分类进行编码方法的比较

H.264编码器使用的是JM6.1e，编码参数选择CABAC熵编码，使用率失真优化，2帧参考图像，2帧IBBP，宏块帧/场自适应，使用环路滤波。AVS的量化步长选择的是28，H.264除了第一帧步长为23，其他都为26。

对于Soccer第10帧的原始图像和使用本发明提出的方法和基于H.264使用二级神经分类进行编码方法的右视解码图像，从主观视觉上来看，两种方法都可以得到较为满意的视觉效果。但是从计算实现复杂度来讲，AVS编码复杂度大致只有H.264的70％。

图6显示了在Soccer序列上使用本发明提出的方法和基于H.264使用二级神经分类进行编码方法的PSNR比较结果。从实验结果可以观察出，使用AVS编码比使用H.264编码有0.3～0.5db的性能差异，这主要是因为AVS视频标准目前只支持图像级帧/场自适应编码。

Claims

1.一种基于AVS和神经网络的立体视频编码方法,其特征在于,包括以下步骤:

2)两级神经分类器处理：为了覆盖所有可能的分块和预测源，右路视频每帧的图像使用两级神经分类器来完成模式确定,第一级分类器完成背景类、遮挡类、变动类三种分类结果，第二级分类器估计出采用前向运动预测或是空间视差预测;

2.根据权利要求1所述的基于AVS和神经网络的立体视频编码方法,其特征在于,在所述步骤2)中,两级神经网络分类器方法,具体包括以下步骤：

a.第一级分类器特征提取：第一级分类器计算当前帧和前向参考帧，计算出特征值，包括大块的均值、大块的方差、顶部和底部的16×16块的均值和方差、左和右的16×16块的均值和方差、前景图像在大块中所占的比重；

b.第一级分类器块分割：第一级分类器将一个大块分成3类：背景类、遮挡类和变动类，分别使用4、6、3个神经元作为输入层、隐藏层和输出层，在充分的训练后，神经网络计算出每一个输出神经元的分数，分数的取值从0.0到1.0；为加速模式估计过程，选择3类分割中的一种最小的分数值进入下一步的评估，不同的类在下面的处理过程中使用不同，背景类和遮挡类两类不进入第二级神经分类，而变动类在第二级神经分类中进一步分为16×8、8×16、8×8三种子块；

c.第二级分类器特征提取：第二级分类器计算当前帧和前向运动估计，空间视差估计，第二级分类器计算出的特征总共有4种特征，包括前向子块的均值、子块的方差、参考图像子块的均值和子块的方差；

d.第二级分类器预测模式确定：第二级分类器分别使用5、4、2个神经元作为输入层、隐藏层和输出层，与第一级相似，根据分数从两个输出中选取小的分数值；最终判断出使用何种补偿模式，是前向运动补偿还是空间视差补偿，当第二级分类器的输出分数值小于0.5时，选择使用前向运动补偿，当第二级分类器的输出分数值大于等于0.5时，选择使用空间视差补偿。

3.根据权利要求1所述的基于AVS和神经网络的立体视频编码方法,其特征在于,在所述步骤2)中,视差估计方法具体步骤为：将视差的计算分成两步实现，第一步区分图像的平滑区和非平滑区，第二步针对不同的区域分别计算视差值,具体步骤为:

a.平滑区和非平滑区的区分：将图像分块后区分平滑区和非平滑区，平滑区和非平滑区是针对各个块而言，划分的原理为：u(x,y)代表每块的灰度平均值，将选定块中的每一个像素和该块的灰度平均值之差的绝对值相加求和，结果值越趋近于0则代表块越平滑；

具体的公式由公式(1)、公式(2)所示：

δ (x, y) = \frac{1}{(2 m + 1) (2 n + 1)} \underset{(ξ, η)}{Σ} | f (x + ξ, y + η) - u (x, y) |

式(1)

u (x, y) = \frac{1}{(2 m + 1) (2 n + 1)} \underset{(ξ, η)}{Σ} f (x + ξ, y + η)

式（2）

f (i, j) = \frac{1}{16 \times 16} Σ_{i = 1}^{16} Σ_{j = 1}^{16} \frac{R_{ij} + G_{ij} + B_{ij}}{3}

式（3）

C (x, y, d) = \underset{(x_{i}, y_{i}) &Element; W}{Σ} DSI (x_{i}, y_{j}, d)

式（4）

C(x_i,y_i,d)＝λ×min(|I^t(x_i,y_i)-I^r(x_i+s·d,y_i)|) 式（5）

4.根据权利要求3所述的基于AVS和神经网络的立体视频编码方法,其特征在于,将平滑区分成为平滑Ι区和平滑ΙΙ区，平滑Ι区的特征是平滑块的邻域内非平滑块占大多数，平滑块被非平滑块包围，平滑ΙΙ区的特征是平滑块呈现集中分布并形成连通域;

对平滑Ι区的处理方法是从平滑块的邻域非平滑块的视差中选择使得该平滑块代价最小的视差作为该平滑块的视差;

平滑ΙΙ区的处理方法是选择出连通区域，将整块区域中出现过的各个视差值分别作为整块连通域的视差值，然后计算整块连通域的匹配代价，选择使匹配代价最小的视差值作为整块的视差值。