CN105959701B - 基于三维自组织映射的立体视频视差估计方法 - Google Patents

基于三维自组织映射的立体视频视差估计方法 Download PDF

Info

Publication number
CN105959701B
CN105959701B CN201610317547.3A CN201610317547A CN105959701B CN 105959701 B CN105959701 B CN 105959701B CN 201610317547 A CN201610317547 A CN 201610317547A CN 105959701 B CN105959701 B CN 105959701B
Authority
CN
China
Prior art keywords
vector
pattern
trained
parallax
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610317547.3A
Other languages
English (en)
Other versions
CN105959701A (zh
Inventor
黎洪松
程福林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201610317547.3A priority Critical patent/CN105959701B/zh
Publication of CN105959701A publication Critical patent/CN105959701A/zh
Application granted granted Critical
Publication of CN105959701B publication Critical patent/CN105959701B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于三维自组织映射的立体视频视差估计方法,包括模式库的训练和视差模式识别两个过程,先用3DSOM算法对视差序列样本进行学习训练,得到最佳匹配模式库;再用3DSOM算法对视差序列每帧进行视差模式识别,得到视差预测图。与传统的基于块的视差估计方法相比,本方法能得到更好的视差预测图,并且计算量小。

Description

基于三维自组织映射的立体视频视差估计方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于三维自组织映射的立体视频视差估计方法。
背景技术
视差估计作为立体视频编码的关键技术,已经得到越来越多的重视和关注,各种算法也相继提出。传统视差估计算法大致可分为两大类,一类是基于区域的视差估计,即把图像中的某一点或某一块作为基本匹配单元,在另一幅图像中搜索对应的点或块,从而得到各个点的视差,这类算法可以得到稠密的视差估计。根据匹配策略的不同,基于区域的视差估计可以分为局部法和全局法。代表性的局部法是基于块的方法,实现复杂度低。代表性的全局算法有动态规划法、图割法和置信度传播法等。全局法能得到比局部法更好的结果,但是其计算复杂度高,不便于硬件实现。另一类是基于特征的视差估计,即利用图像的自身特征来实现匹配,这些特征包括一些特征点(如SIFT关键点等)或几何结构。此类算法只能得到稀疏的视差估计,且特征的提取比较复杂。可见,目前视差估计技术仍未成熟,没有一种具有普适性的视差估计方法,而且计算量巨大。
发明内容
本发明所要解决的技术问题是提供一种基于三维自组织映射的立体视频视差估计方法,其能提高视差预测图像的质量。
为解决上述问题,本发明是通过以下技术方案实现的:
一种基于三维自组织映射的立体视频视差估计方法,包括如下步骤:
步骤1、对视差序列样本进行不断学习训练,得到最佳匹配模式库;
步骤1.1、对视差序列样本的每帧图像进行分块,每个图像块为一个训练矢量,共得到含L个训练矢量的训练矢量集;
步骤1.2、从训练矢量集中选择N个训练矢量来构成初始化模式库,该初始模式库中的训练矢量称为模式矢量,且初始模式库中的模式矢量排列成三维立体结构;上述N<<L;
步骤1.3、设定初始化邻域函数;
步骤1.4、输入一个训练矢量,并分别计算该训练矢量与初始模式库中的各个模式矢量的失真,从中选择出与训练矢量失真最小的模式矢量作为获胜模式矢量;
步骤1.5、调整获胜模式矢量及其三维邻域范围内的模式矢量;
步骤1.6、返回步骤1.3重新选择一个训练矢量,直到输入完所有的训练矢量,得到最佳匹配模式库;
步骤2、对待估计的视差序列的每帧图像进行分块处理,并将这些待估计图像块与最佳匹配模式库中的模式矢量进行视差模式匹配,得到待估计的视差序列的预测图。
上述步骤1.2中,采用随机法从训练矢量集中选择N个特征图像块来构成初始模式库。
上述步骤1.4中,采用下式计算训练矢量与模式矢量的失真dj(t);
dj(t)=||X(t)-Wj(t)||2
其中,Wj(t)为模式矢量,X(t)为训练矢量;j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t=0,1,…,L-1,L为训练矢量集中训练矢量的个数。
上述步骤1.5中,根据下式调整获胜模式矢量及其三维邻域范围内的模式矢量
其中,Wj(t+1)为第t+1次训练时的模式矢量,Wj(t)为第t次训练时的模式矢量,X(t)为训练矢量,j*为获胜模式矢量,Nj*(t)为获胜模式矢量j*在第t次训练时的邻域函数,α(t)为第t次训练时的学习速度函数;j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t=0,1,…,L-1,L为训练矢量集中训练矢量的个数。
上述步骤2具体为:
步骤2.1、将待估计的视差序列的每帧分块,其中待估计的视差序列的每帧分块大小与视差序列样本的每帧分块大小相一致;
步骤2.2、分别计算每一个待估计图像块与最佳匹配模式库中各模式矢量的失真,并选择具有最小失真的模式矢量作为该图像块的预测块;
步骤2.3、对待估计的视差序列的所有图像进行步骤2.2的处理,得到待估计的视差序列的预测图。
与现有技术相比,本发明包括模式库的训练和视差模式识别两个过程,先用3DSOM算法对视差序列样本进行学习训练,得到最佳匹配模式库;再用3DSOM算法对视差序列每帧进行视差模式识别,得到视差预测图。与传统的基于块的视差估计方法相比,本方法能得到更好的视差预测图,并且计算量小。
附图说明
图1为视差模式库的训练过程。
图2为视差模式识别得到视差预测图过程。
图3为Exit序列视差预测图像的PSNR分布情况。
图4为Vassar序列视差预测图像的PSNR分布情况。
具体实施方式
下面结合实施例,对本发明内容作进一步地详细说明,但本发明的实施方式不限于此。
一种基于三维自组织映射的立体视频视差估计方法,包括步骤如下:
步骤1)对视差序列样本进行不断学习训练,得到最佳匹配模式库。参见图1。
用3DSOM(三维自组织映射)算法对初始模式库进行学习训练,得到最佳匹配模式库。根据人脑神经元的组织原理所提出的自组织映射(SOM)算法,是一种具有自组织特性的人工神经网络算法。该算法模拟了人脑神经系统对某一图形或某一频率特定兴奋的特征,在模式识别和数据挖掘等领域得到了深入的研究和广泛的应用,是一种高效的数据聚类方法。SOM算法的核心是寻找最佳分类,即通过对大量的样本序列的不断学习和训练,从而得到最优匹配的模式库。
为了提高视差模式库的性能,本发明对SOM算法进行了改进,提出了一种三维自组织映射算法(3DSOM)。三维SOM网络结构及其算法能有效地将二维输入映射为三维输出,从而实现三维信号的非线性映射。三维SOM网络将映射层神经元排列成三维立体结构,三维立体结构的行数、列数和层数可根据应用的需要选取不同的值,排列成不同的三维结构以适应不同应用;通常三维邻域形状可选取球形邻域、正方形邻域或正交十字邻域,选取不同的三维邻域形状对算法的性能有一定的影响。SOM网络与普通的竞争网络一样,对于每个输入模式,在映射层都有相应的获胜节点,获胜节点代表最相似的模式,该节点及其三维邻域范围内的所有节点均按一定规则调整其权值。与二维平面结构邻域相比,三维立体结构邻域在相等邻域半径内的节点数量增多,节点被调整的机会增加,因此,更有利于得到最佳匹配的模式。
基于3DSOM算法的模式库训练步骤如下:
步骤1.1)设定SOM网络大小为(N,M),其中N、M分别为模式库的大小、模式库中模式矢量的大小。
步骤1.2)对视差序列样本的每帧分块,块的大小一般取8×8。每个图像块为一个训练矢量,共得到含L个训练矢量的训练矢量集{X(t);t=0,1,…,L-1}。用随机法从训练矢量集中选择N(N<<L)个训练矢量来构成初始化模式库{Wj(0);j=0,1,…,N-1},并将初始模式库中的模式矢量排列成三维立体结构。随机法就是从训练矢量集中按固定的间隔抽取训练矢量。
步骤1.3)将初始化邻域设定为Nj(0),j=0,1,…,N-1。
步骤1.4)输入一个训练矢量集中的训练矢量X=(x1,x2,…,xM)T
步骤1.5)选择均方误差失真准则,均方误差为dj(t)=||X(t)-Wj(t)||2,分别计算该训练矢量与模式库中各模式矢量的失真dj(t);并选择具有最小失真的模式矢量为获胜模式矢量j*
步骤1.6)按式(1)调整获胜模式矢量j*及其三维邻域Nj*(t)范围内的模式矢量,
其中,为邻域函数,通常选用单调递减函数A0、A1分别为获胜模式矢量j*的最小邻域和最大邻域,T1为邻域衰减常数。在训练初始阶段,邻域半径较大,随着训练次数的增加,网络逐渐趋于稳定,只需对获胜节点进行较细微的权值调整,因而邻域半径不断缩小。α(t)为学习速度函数,它反映了模式矢量调整的幅度大小,一般选用单调递减函数式中A2为训练开始时的最大学习速度,T2为学习衰减常数。
步骤1.7)返回步骤1.4),直到输入完训练矢量集中所有的训练矢量,即得到最佳匹配模式库。
步骤2)对视差序列进行视差模式匹配,得到每帧的视差预测图。参见图2。
对视差序列每帧分块,块的大小一般取8×8,然后在视差模式库中寻找与子图像块最匹配的视差模式作为该子块图像的预测块。对所有子块图像进行处理后得到该帧的视差预测图。
步骤2.1、将待估计的视差序列的每帧分块,其中待估计的视差序列的每帧分块大小与视差序列样本的每帧分块大小相一致;
步骤2.2、分别计算每一个待估计图像块与最佳匹配模式库中各模式矢量的失真,并选择具有最小失真的模式矢量作为该图像块的预测块;采用均方误差准则即下式来计算待估计图像块与最佳匹配模式库中各模式矢量的失真bj(t′);
bj(t′)=||Y(t′)-Wj(t′)||2
其中,Wj(t′)为模式矢量,Y(t′)为待估计图像块;j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t′=0,1,…,K-1,K为待估计图像块的个数。
步骤2.3、对待估计的视差序列的所有图像进行步骤2.2的处理,得到待估计的视差序列的预测图。
为了说明本方法的性能,做了大量的仿真实验,实验采用标准立体视频测试序列Exit、Vassar的第1、2视点,图像分辨率为480×640,左右视点各8帧。重建图像品质的客观评价采用峰值信噪比式中EMSE为原始图像与重建图像之间的均方误差。在基于三维自组织映射的视差估计方法(3DSOM-DPR)中,图像压缩比为式中M为模式矢量的维数,BO为原始图像的每像素比特数,BC为模式矢量地址比特数。例如,模式矢量大小为M=8×8,模式库大小设为2048,压缩率为46.5。在基于块的视差估计算法中,块的大小为M=8×8,横向搜索范围为[-31,32],纵向搜索范围为[-15,16],压缩率为46.5。
图3和图4给出了CFS-3DSOM-DPR方法与基于块的方法的视差预测图像的PSNR分布情况,其中图3为Exit序列,图4为Vassar序列。表1给出了3DSOM-DPR方法与基于块的方法的视差预测图像的平均PSNR对比。由表1可以看出,由3DSOM-DPR方法得到的视差预测图像的平均峰值信噪比(PSNR)较基于块的方法提高了0.14-0.48dB。
表1 3DSOM-DPR方法与基于块的方法的比较结果(平均峰值信噪比/dB)
为了克服传统视差估计算法的不足,改善视差补偿预测的性能,本发明提出了基于模式识别的视差估计算法,其视差预测编码方案采用基于自组织映射算法(SOM)的图像模式识别作为视差预测器。实验表明,3DSOM-DPR算法的视差预测图像的平均峰值信噪比较传统基于块的视差估计算法提高了0.14-0.48dB。

Claims (5)

1.基于三维自组织映射的立体视频视差估计方法,其特征是,包括如下步骤:
步骤1、对视差序列样本进行不断学习训练,得到最佳匹配模式库;
步骤1.1、对视差序列样本的每帧图像进行分块,每个图像块为一个训练矢量,共得到含L个训练矢量的训练矢量集;
步骤1.2、从训练矢量集中选择N个训练矢量来构成初始化模式库,该初始模式库中的训练矢量称为模式矢量,且初始模式库中的模式矢量排列成三维立体结构;上述N<<L;
步骤1.3、设定初始化邻域函数Nj(0),j=0,1,…,N-1;
步骤1.4、输入一个训练矢量,并分别计算该训练矢量与初始模式库中的各个模式矢量的失真,从中选择出与训练矢量失真最小的模式矢量作为获胜模式矢量;
步骤1.5、调整获胜模式矢量及其三维邻域范围内的模式矢量;
步骤1.6、返回步骤1.3重新选择一个训练矢量,直到输入完所有的训练矢量,得到最佳匹配模式库;
步骤2、对待估计的视差序列的每帧图像进行分块处理,并将这些待估计图像块与最佳匹配模式库中的模式矢量进行视差模式匹配,得到待估计的视差序列的预测图。
2.根据权利要求1所述基于三维自组织映射的立体视频视差估计方法,其特征是,步骤1.2中,采用随机法从训练矢量集中选择N个训练矢量来构成初始模式库。
3.根据权利要求1所述基于三维自组织映射的立体视频视差估计方法,其特征是,步骤1.4中,采用下式计算训练矢量与模式矢量的失真dj(t);
dj(t)=||X(t)-Wj(t)||2
其中,Wj(t)为模式矢量,X(t)为训练矢量;j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t=0,1,…,L-1,L为训练矢量集中训练矢量的个数。
4.根据权利要求1所述基于三维自组织映射的立体视频视差估计方法,其特征是,步骤1.5中,根据下式调整获胜模式矢量及其三维邻域范围内的模式矢量
其中,Wj(t+1)为第t+1次训练时的模式矢量,Wj(t)为第t次训练时的模式矢量,X(t)为训练矢量,j*为获胜模式矢量,为获胜模式矢量j*在第t次训练时的邻域函数,α(t)为第t次训练时的学习速度函数;j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t=0,1,…,L-1,L为训练矢量集中训练矢量的个数。
5.根据权利要求1所述基于三维自组织映射的立体视频视差估计方法,其特征是,步骤2具体为:
步骤2.1、将待估计的视差序列的每帧分块,其中待估计的视差序列的每帧分块大小与视差序列样本的每帧分块大小相一致;
步骤2.2、分别计算每一个待估计图像块与最佳匹配模式库中各模式矢量的失真,并选择具有最小失真的模式矢量作为该图像块的预测块;
步骤2.3、对待估计的视差序列的所有图像进行步骤2.2的处理,得到待估计的视差序列的预测图。
CN201610317547.3A 2016-05-13 2016-05-13 基于三维自组织映射的立体视频视差估计方法 Expired - Fee Related CN105959701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610317547.3A CN105959701B (zh) 2016-05-13 2016-05-13 基于三维自组织映射的立体视频视差估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610317547.3A CN105959701B (zh) 2016-05-13 2016-05-13 基于三维自组织映射的立体视频视差估计方法

Publications (2)

Publication Number Publication Date
CN105959701A CN105959701A (zh) 2016-09-21
CN105959701B true CN105959701B (zh) 2019-03-19

Family

ID=56912298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610317547.3A Expired - Fee Related CN105959701B (zh) 2016-05-13 2016-05-13 基于三维自组织映射的立体视频视差估计方法

Country Status (1)

Country Link
CN (1) CN105959701B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820552A (zh) * 2009-02-27 2010-09-01 索尼公司 图像处理设备、图像处理方法、程序和三维图像显示设备
CN104363460A (zh) * 2014-12-05 2015-02-18 桂林电子科技大学 一种基于三维自组织映射的立体图像编码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013145326A1 (ja) * 2012-03-30 2013-10-03 富士通株式会社 決定装置、決定プログラムおよび決定方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820552A (zh) * 2009-02-27 2010-09-01 索尼公司 图像处理设备、图像处理方法、程序和三维图像显示设备
CN104363460A (zh) * 2014-12-05 2015-02-18 桂林电子科技大学 一种基于三维自组织映射的立体图像编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
立体图像和视频编码的理论计算法研究;韩军功;《中国博士学位论文全文数据库(电子期刊)》;20050615(第02期);全文

Also Published As

Publication number Publication date
CN105959701A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN107767413B (zh) 一种基于卷积神经网络的图像深度估计方法
US20190355152A1 (en) Point cloud attribute compression method based on kd tree and optimized graph transformation
WO2019153342A1 (zh) 一种基于增强图变换的点云属性压缩方法
CN109035142B (zh) 一种对抗网络结合航拍图像先验的卫星图像超分辨方法
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN108648161A (zh) 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN109214406A (zh) 基于D-MobileNet神经网络图像分类方法
CN109598754A (zh) 一种基于深度卷积网络的双目深度估计方法
CN110163213A (zh) 基于视差图和多尺度深度网络模型的遥感图像分割方法
CN110880165A (zh) 一种基于轮廓和颜色特征融合编码的图像去雾方法
CN107341776A (zh) 基于稀疏编码与组合映射的单帧超分辨率重建方法
CN109523513A (zh) 基于稀疏重建彩色融合图像的立体图像质量评价方法
CN110351548B (zh) 一种深度学习及视差图加权指导的立体图像质量评价方法
CN116664782B (zh) 一种基于融合体素的神经辐射场三维重建方法
CN106056622B (zh) 一种基于Kinect相机的多视点深度视频复原方法
CN110070574A (zh) 一种基于改进PSMNet的双目视觉立体匹配算法
CN111583313A (zh) 一种基于PSMNet改进的双目立体匹配方法
CN105160653A (zh) 一种用于雾天图像的质量评价方法
CN114897694A (zh) 基于混合注意力和双层监督的图像超分辨率重建方法
CN114937202A (zh) 一种双流Swin Transformer遥感场景分类方法
CN117252936A (zh) 一种适配多种训练策略的红外图像彩色化方法及系统
CN113096239A (zh) 一种基于深度学习的三维点云重建方法
CN105959701B (zh) 基于三维自组织映射的立体视频视差估计方法
CN116137043A (zh) 一种基于卷积和Transformer的红外图像彩色化方法
CN113111909B (zh) 一种面向训练目标视角不完备的sar目标识别的自学习方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190319