CN105959701B

CN105959701B - 基于三维自组织映射的立体视频视差估计方法

Info

Publication number: CN105959701B
Application number: CN201610317547.3A
Authority: CN
Inventors: 黎洪松; 程福林
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2016-05-13
Filing date: 2016-05-13
Publication date: 2019-03-19
Anticipated expiration: 2036-05-13
Also published as: CN105959701A

Abstract

本发明公开一种基于三维自组织映射的立体视频视差估计方法，包括模式库的训练和视差模式识别两个过程，先用3DSOM算法对视差序列样本进行学习训练，得到最佳匹配模式库；再用3DSOM算法对视差序列每帧进行视差模式识别，得到视差预测图。与传统的基于块的视差估计方法相比，本方法能得到更好的视差预测图，并且计算量小。

Description

基于三维自组织映射的立体视频视差估计方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于三维自组织映射的立体视频视差估计方法。

背景技术

视差估计作为立体视频编码的关键技术，已经得到越来越多的重视和关注，各种算法也相继提出。传统视差估计算法大致可分为两大类，一类是基于区域的视差估计，即把图像中的某一点或某一块作为基本匹配单元，在另一幅图像中搜索对应的点或块，从而得到各个点的视差，这类算法可以得到稠密的视差估计。根据匹配策略的不同，基于区域的视差估计可以分为局部法和全局法。代表性的局部法是基于块的方法，实现复杂度低。代表性的全局算法有动态规划法、图割法和置信度传播法等。全局法能得到比局部法更好的结果，但是其计算复杂度高，不便于硬件实现。另一类是基于特征的视差估计，即利用图像的自身特征来实现匹配，这些特征包括一些特征点(如SIFT关键点等)或几何结构。此类算法只能得到稀疏的视差估计，且特征的提取比较复杂。可见，目前视差估计技术仍未成熟，没有一种具有普适性的视差估计方法，而且计算量巨大。

发明内容

本发明所要解决的技术问题是提供一种基于三维自组织映射的立体视频视差估计方法，其能提高视差预测图像的质量。

为解决上述问题，本发明是通过以下技术方案实现的：

一种基于三维自组织映射的立体视频视差估计方法，包括如下步骤：

步骤1、对视差序列样本进行不断学习训练，得到最佳匹配模式库；

步骤1.1、对视差序列样本的每帧图像进行分块，每个图像块为一个训练矢量，共得到含L个训练矢量的训练矢量集；

步骤1.2、从训练矢量集中选择N个训练矢量来构成初始化模式库，该初始模式库中的训练矢量称为模式矢量，且初始模式库中的模式矢量排列成三维立体结构；上述N＜＜L；

步骤1.3、设定初始化邻域函数；

步骤1.4、输入一个训练矢量，并分别计算该训练矢量与初始模式库中的各个模式矢量的失真，从中选择出与训练矢量失真最小的模式矢量作为获胜模式矢量；

步骤1.5、调整获胜模式矢量及其三维邻域范围内的模式矢量；

步骤1.6、返回步骤1.3重新选择一个训练矢量，直到输入完所有的训练矢量，得到最佳匹配模式库；

步骤2、对待估计的视差序列的每帧图像进行分块处理，并将这些待估计图像块与最佳匹配模式库中的模式矢量进行视差模式匹配，得到待估计的视差序列的预测图。

上述步骤1.2中，采用随机法从训练矢量集中选择N个特征图像块来构成初始模式库。

上述步骤1.4中，采用下式计算训练矢量与模式矢量的失真d_j(t)；

d_j(t)＝||X(t)-W_j(t)||²

其中，W_j(t)为模式矢量，X(t)为训练矢量；j＝0,1,…,N-1，N为设定的三维自组织映射网络的大小；t＝0,1,…,L-1，L为训练矢量集中训练矢量的个数。

上述步骤1.5中，根据下式调整获胜模式矢量及其三维邻域范围内的模式矢量

其中，W_j(t+1)为第t+1次训练时的模式矢量，W_j(t)为第t次训练时的模式矢量，X(t)为训练矢量，j^*为获胜模式矢量，N_j*(t)为获胜模式矢量j^*在第t次训练时的邻域函数，α(t)为第t次训练时的学习速度函数；j＝0,1,…,N-1，N为设定的三维自组织映射网络的大小；t＝0,1,…,L-1，L为训练矢量集中训练矢量的个数。

上述步骤2具体为：

步骤2.1、将待估计的视差序列的每帧分块，其中待估计的视差序列的每帧分块大小与视差序列样本的每帧分块大小相一致；

步骤2.2、分别计算每一个待估计图像块与最佳匹配模式库中各模式矢量的失真，并选择具有最小失真的模式矢量作为该图像块的预测块；

步骤2.3、对待估计的视差序列的所有图像进行步骤2.2的处理，得到待估计的视差序列的预测图。

与现有技术相比，本发明包括模式库的训练和视差模式识别两个过程，先用3DSOM算法对视差序列样本进行学习训练，得到最佳匹配模式库；再用3DSOM算法对视差序列每帧进行视差模式识别，得到视差预测图。与传统的基于块的视差估计方法相比，本方法能得到更好的视差预测图，并且计算量小。

附图说明

图1为视差模式库的训练过程。

图2为视差模式识别得到视差预测图过程。

图3为Exit序列视差预测图像的PSNR分布情况。

图4为Vassar序列视差预测图像的PSNR分布情况。

具体实施方式

下面结合实施例，对本发明内容作进一步地详细说明，但本发明的实施方式不限于此。

一种基于三维自组织映射的立体视频视差估计方法，包括步骤如下：

步骤1)对视差序列样本进行不断学习训练，得到最佳匹配模式库。参见图1。

用3DSOM(三维自组织映射)算法对初始模式库进行学习训练，得到最佳匹配模式库。根据人脑神经元的组织原理所提出的自组织映射(SOM)算法，是一种具有自组织特性的人工神经网络算法。该算法模拟了人脑神经系统对某一图形或某一频率特定兴奋的特征，在模式识别和数据挖掘等领域得到了深入的研究和广泛的应用，是一种高效的数据聚类方法。SOM算法的核心是寻找最佳分类，即通过对大量的样本序列的不断学习和训练，从而得到最优匹配的模式库。

为了提高视差模式库的性能，本发明对SOM算法进行了改进，提出了一种三维自组织映射算法(3DSOM)。三维SOM网络结构及其算法能有效地将二维输入映射为三维输出，从而实现三维信号的非线性映射。三维SOM网络将映射层神经元排列成三维立体结构，三维立体结构的行数、列数和层数可根据应用的需要选取不同的值，排列成不同的三维结构以适应不同应用；通常三维邻域形状可选取球形邻域、正方形邻域或正交十字邻域，选取不同的三维邻域形状对算法的性能有一定的影响。SOM网络与普通的竞争网络一样，对于每个输入模式，在映射层都有相应的获胜节点，获胜节点代表最相似的模式，该节点及其三维邻域范围内的所有节点均按一定规则调整其权值。与二维平面结构邻域相比，三维立体结构邻域在相等邻域半径内的节点数量增多，节点被调整的机会增加，因此，更有利于得到最佳匹配的模式。

基于3DSOM算法的模式库训练步骤如下：

步骤1.1)设定SOM网络大小为(N,M)，其中N、M分别为模式库的大小、模式库中模式矢量的大小。

步骤1.2)对视差序列样本的每帧分块，块的大小一般取8×8。每个图像块为一个训练矢量，共得到含L个训练矢量的训练矢量集{X(t)；t＝0,1,…,L-1}。用随机法从训练矢量集中选择N(N＜＜L)个训练矢量来构成初始化模式库{W_j(0)；j＝0,1,…,N-1}，并将初始模式库中的模式矢量排列成三维立体结构。随机法就是从训练矢量集中按固定的间隔抽取训练矢量。

步骤1.3)将初始化邻域设定为N_j(0),j＝0,1,…,N-1。

步骤1.4)输入一个训练矢量集中的训练矢量X＝(x₁,x₂,…,x_M)^T。

步骤1.5)选择均方误差失真准则，均方误差为d_j(t)＝||X(t)-W_j(t)||²，分别计算该训练矢量与模式库中各模式矢量的失真d_j(t)；并选择具有最小失真的模式矢量为获胜模式矢量j^*。

步骤1.6)按式(1)调整获胜模式矢量j^*及其三维邻域N_j*(t)范围内的模式矢量，

其中，为邻域函数，通常选用单调递减函数A₀、A₁分别为获胜模式矢量j^*的最小邻域和最大邻域，T₁为邻域衰减常数。在训练初始阶段，邻域半径较大，随着训练次数的增加，网络逐渐趋于稳定，只需对获胜节点进行较细微的权值调整，因而邻域半径不断缩小。α(t)为学习速度函数，它反映了模式矢量调整的幅度大小，一般选用单调递减函数式中A₂为训练开始时的最大学习速度，T₂为学习衰减常数。

步骤1.7)返回步骤1.4)，直到输入完训练矢量集中所有的训练矢量，即得到最佳匹配模式库。

步骤2)对视差序列进行视差模式匹配，得到每帧的视差预测图。参见图2。

对视差序列每帧分块，块的大小一般取8×8，然后在视差模式库中寻找与子图像块最匹配的视差模式作为该子块图像的预测块。对所有子块图像进行处理后得到该帧的视差预测图。

步骤2.2、分别计算每一个待估计图像块与最佳匹配模式库中各模式矢量的失真，并选择具有最小失真的模式矢量作为该图像块的预测块；采用均方误差准则即下式来计算待估计图像块与最佳匹配模式库中各模式矢量的失真b_j(t′)；

b_j(t′)＝||Y(t′)-W_j(t′)||²

其中，W_j(t′)为模式矢量，Y(t′)为待估计图像块；j＝0,1,…,N-1，N为设定的三维自组织映射网络的大小；t′＝0,1,…,K-1，K为待估计图像块的个数。

为了说明本方法的性能，做了大量的仿真实验，实验采用标准立体视频测试序列Exit、Vassar的第1、2视点，图像分辨率为480×640，左右视点各8帧。重建图像品质的客观评价采用峰值信噪比式中E_MSE为原始图像与重建图像之间的均方误差。在基于三维自组织映射的视差估计方法(3DSOM-DPR)中，图像压缩比为式中M为模式矢量的维数，B_O为原始图像的每像素比特数，B_C为模式矢量地址比特数。例如，模式矢量大小为M＝8×8，模式库大小设为2048，压缩率为46.5。在基于块的视差估计算法中，块的大小为M＝8×8，横向搜索范围为[-31,32]，纵向搜索范围为[-15,16]，压缩率为46.5。

图3和图4给出了CFS-3DSOM-DPR方法与基于块的方法的视差预测图像的PSNR分布情况，其中图3为Exit序列，图4为Vassar序列。表1给出了3DSOM-DPR方法与基于块的方法的视差预测图像的平均PSNR对比。由表1可以看出，由3DSOM-DPR方法得到的视差预测图像的平均峰值信噪比(PSNR)较基于块的方法提高了0.14-0.48dB。

表1 3DSOM-DPR方法与基于块的方法的比较结果(平均峰值信噪比/dB)

为了克服传统视差估计算法的不足，改善视差补偿预测的性能，本发明提出了基于模式识别的视差估计算法，其视差预测编码方案采用基于自组织映射算法(SOM)的图像模式识别作为视差预测器。实验表明，3DSOM-DPR算法的视差预测图像的平均峰值信噪比较传统基于块的视差估计算法提高了0.14-0.48dB。

Claims

1.基于三维自组织映射的立体视频视差估计方法，其特征是，包括如下步骤：

步骤1.3、设定初始化邻域函数N_j(0),j＝0,1,…,N-1；

2.根据权利要求1所述基于三维自组织映射的立体视频视差估计方法，其特征是，步骤1.2中，采用随机法从训练矢量集中选择N个训练矢量来构成初始模式库。

3.根据权利要求1所述基于三维自组织映射的立体视频视差估计方法，其特征是，步骤1.4中，采用下式计算训练矢量与模式矢量的失真d_j(t)；

d_j(t)＝||X(t)-W_j(t)||²

4.根据权利要求1所述基于三维自组织映射的立体视频视差估计方法，其特征是，步骤1.5中，根据下式调整获胜模式矢量及其三维邻域范围内的模式矢量

其中，W_j(t+1)为第t+1次训练时的模式矢量，W_j(t)为第t次训练时的模式矢量，X(t)为训练矢量，j^*为获胜模式矢量，为获胜模式矢量j^*在第t次训练时的邻域函数，α(t)为第t次训练时的学习速度函数；j＝0,1,…,N-1，N为设定的三维自组织映射网络的大小；t＝0,1,…,L-1，L为训练矢量集中训练矢量的个数。

5.根据权利要求1所述基于三维自组织映射的立体视频视差估计方法，其特征是，步骤2具体为：