CN110570406A

CN110570406A - 从局部到全局特征回归无参考立体图像质量评价方法

Info

Publication number: CN110570406A
Application number: CN201910798699.3A
Authority: CN
Inventors: 李素梅; 薛建伟; 王明毅
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-12-13

Abstract

本发明属于图像处理领域，为建立一种高效的无参考立体图像质量评价方法，在进行质量预测时更加准确，提高立体图像质量评价工作的效率，本发明，从局部到全局特征回归无参考立体图像质量评价方法，首先通过特征相似度FSIM算法给左右视点的图像块分别赋予不同的标签，利用计算出的标签指导左右通道的网络同时进行预训练，以此实现特征的局部回归；然后，在左右通道的基础上再添加一个融合通道，构成全局回归网络，在预训练模型的基础上，以主观评价值DMOS作为标签指导网络训练，对网络参数进行微调，以此实现特征的全局回归；立体图像的质量由训练完成的全局回归网络进行特征提取并预测。本发明主要应用于设计制造场合。

Description

从局部到全局特征回归无参考立体图像质量评价方法

技术领域

本发明属于图像处理领域，涉及到深度学习在立体图像质量评价中的应用，具体涉及基于双目融合从局部到全局特征回归的无参考立体图像质量评价方法。

背景技术

近几年，随着计算机图像、计算机视觉、多媒体及其他相关技术的发展融合，立体可视化吸引了越来越多人的兴趣。在数字信息大爆炸的今天，立体技术不断成熟，立体产品也不断丰富着人们的生活。越来越多的3D电影占据了荧幕，使人们能更加生动形象地感受到画面，视频电话、3D游戏、手机电视也越来越多的运用立体技术获得更好的视觉体验。除此以外，立体图像技术还广泛应用于工业、医疗、智能生活、教育、军事等领域。随着电视网、计算机网、电话网(固定电话网和移动电话网)的不断融合和技术的不断提高，能随时通过手机屏幕、电视屏幕、计算机屏幕等显示终端观看立体图像/视频将成为现实。

常见的立体成像技术包括立体图像的采集、编码、传输、显示等，这一系列的过程会不可避免的引入失真，影响立体图像的观看舒适度，这种现象严重制约着立体产品的推广和普及。对立体图像而言，非常需要建立一套可靠有效的质量评价机制，以说明各技术处理过程的有效性。因此，立体图像质量评价技术已成为立体成像技术中不可或缺的一部分技术内容，为观众能够获得舒适的视觉体验提供了非常重要的技术支撑，也在不断为立体产品能够尽快走进家庭提供技术保障。近年来，该技术已成为国内外研究机构的热点研究问题之一。基于此种现状，本发明提出一种基于双目融合从局部到全局特征回归的无参考立体图像质量评价方法。

立体图像的质量评价方法主要有两种：主观评价和客观评价。因为人是立体图像的最终受体，立体图像质量的主观评价结果更为准确，但费时费力，且结果易受被试疲劳度、情绪及测试环境等因素的影响，实际操作中也容易受到限制。与主观方法相比，客观方法有更强的可操作性，省时省力，更适合应用于工程中。

通常来说，立体图像质量评价方法可以分为基于传统的方法[1,2,3,4]和基于深度学习的方法[5,6,7,8]。本发明主要探究基于深度学习的方法。与传统方法中采用的手工裁剪的特征不同，卷积神经网络(CNN)模型能够自适应地提取质量感知特征。

截止到目前，已经出现了很多基于深度学习的无参考立体图像质量评价方法。文献[5]中首先提出了一个三通道五层卷积神经网络用于无参考立体图像质量评价。他们首先将立体图像的左视图、右视图和差值图分为若干块作为网络的输入，然后通过卷积运算提取立体图像的特征，最后利用多层感知机将图像的特征映射成质量分数。随后，文献[7，8]也利用深度学习来衡量立体图像的质量。文献[7]构建了一个双通道的深度卷积神经网络(DCNN)用于立体图像质量评估。他们利用孪生网络来分别提取左右视图的高级语义特征，然后通过级联层(concatenation)将左右视图的高级特征结合起来，随后进行两个卷积运算来模拟大脑的视觉交互处理，最后通过全连接层输出质量分数。文献[8]首先利用主成分分析(PCA)方法将立体图像的左右视图融合，然后对融合图像进行减均值和对比度归一化(MSCN)处理，输入到CNN以评价立体图像的质量。

通过对上述文献的分析可知，文献[5，7，8]均采用给定的平均主观得分差(DMOS)值来调整整个网络的参数。对于同一个视图中的每一个小块，或者对于非对称立体图像的每一个视图，图像的质量可能是不同的，所以根据整个立体图像的质量来标记图像小块的质量，这种方法存在一些问题。为了避免这个问题，文献[6]使用结构相似度(SSIM)算法来获取融合图像的每个小块的局部质量分数，然后使用DMOS对模型进行训练，从而获得立体图像的最终质量。在文献[6]中，他们首先通过将左右视图合成为融合图像，然后采用2D图像的质量评价方法对该图像进行处理。从文献[6]中可以看出，当立体图像是对称失真时，融合图像的质量可以代表相应左右图像的质量。然而，当立体图像为非对称失真时，给左右视图提供相同的标签是不合理的。

此外，对立体图像质量评价来说，如何处理左右视点之间的关系至关重要。通过分析，我们发现处理左右观点的关系有两种方法。文献[5，6，7]先分别对左右视图进行特征提取后，然后才考虑双目融合机制。文献[1,2,3,4,8]先形成符合人眼视觉特征的融合图像，然后再处理。无论是先分别处理两个视图，然后融合这两个特征，还是先将左右视图融合形成融合图像，然后再处理融合图像。这两种处理左右视图之间关系的方法并不完全符合人脑视觉处理机制。因为大脑的融合是一个长期的过程。在人类视觉皮层v1到v4区域，这两个来自双眼的视图被分层处理。尽管立体视觉的医学成像机制目前尚不清楚，但文献[9]表明两种视点的融合发生在每个区域。文献[10]表明立体图像的双目视差图最初形成于主要的视觉皮层v1区域，然后，深度感知通过在v2区的视差选择性神经被增强。文献[11]表明3D视觉刺激导致视觉皮层的v3激活。此外，文献[12]表明v4视觉区域在深度感知和3D成像方面同样起着至关重要的作用。因此，对立体视觉和深度感知的神经元响应存在于视觉区域的低级和高级区域。所以本发明提出的多层融合和处理可以给出一个更符合人眼视觉处理机制的方法。

发明内容

为克服现有技术的不足，本发明旨在以人类视觉系统的工作原理为参考依据，考虑立体图像质量评价目前存在的问题，建立一种高效的基于融合图像从局部到全局特征回归的无参考立体图像质量评价方法。此种立体图像质量评价方法在进行质量预测时更加准确，且无需依赖原始参考图像，一定程度上可以代替主观评价结果，提高立体图像质量评价工作的效率，且对后续工作提供一定便利。为此，本发明采取的技术方案是，从局部到全局特征回归无参考立体图像质量评价方法，首先通过特征相似度FSIM算法给左右视点的图像块分别赋予不同的标签，利用计算出的标签指导左右通道的网络同时进行预训练，将训练好的网络参数进行保存，以此实现特征的局部回归；然后，在左右通道的基础上再添加一个融合通道，构成全局回归网络，在预训练模型的基础上，以主观评价值DMOS作为标签指导网络训练，对网络参数进行微调，以此实现特征的全局回归；立体图像的质量由训练完成的全局回归网络进行特征提取并预测。

其中，局部回归：

首先使用失真图像和对应参考图像的小块作为FSIM算法的输入，运用FSIM算法分别获得左右视图小块的标签；然后，左右视图的标签分别用来指导左右通道的训练过程，在左右通道训练好后，两个网络的参数被保存下来用以优化Step 2的训练过程，两种网络的最优模型参数通过最小化损失函数L_l和L_r来获得，表示如下：

{θ_l}＝arg min L_l (1)

{θ_r}＝arg min L_r (2)

当两个子网络训练好后，模型的参数θ_l,θ_r被保存下来用以优化Step 2的训练，{θ_l},{θ_r}是两个子网络训练好的模型参数，L_l和L_r分别表示两个子网络的损失函数，使用预测得分和FSIM值间的欧几里得距离来定义损失函数：

其中，I_l和I_r分表表示左右视图；分表表示左右通道从卷积层Conv1到池化层Pool5提取的特征图；分别表示左右通道的三个全连接层；s_Fl,s_Fr是左右视图小块分别采用FSIM算法计算出的标签；

其中，全局回归：

利用从Step 1获得的模型参数作为全局回归网络的初试值，然后采用从数据库中获得的DMOS值作为全局标签来微调网络进行全局回归，同一张立体图像的左右视图分别送进具有相同结构的左右通道，用于提取对应的高级语义特征，在融合通道中，使用concatenation层来连接左右通道的特征图，然后，使用挤压和激励模块SE-block和卷积运算来进一步地融合左右视图对应的高级特征，用以模拟在大脑视觉皮层的处理机制；最后，特征图使用三个全连接层转换成立体图像质量得分输出，通过最小化全局损失函数来进行训练，公式如下：

其中，s_k是通过融合网络算出的客观得分，s是对应每个输入样本的DMOS得分，采用SE-block来模拟在人眼视觉系统中的双目竞争。

用SE-block来模拟在人眼视觉系统中的双目竞争具体地，通过自动学习每一个通道之间的重要性，然后增强有用的特征，抑制无用的特征。

本发明的特点及有益效果是：

本发明提出了一个基于双目融合从局部到全局特征回归的网络(BFCNN-L)用于无参考立体图像质量评价。通过采用两步回归策略，我们的模型给出了对于左右视图更为准确的表示；所提出的BFCNN-L能够自动的对立体图像进行融合和处理，采用SE-block模块来模拟人眼视觉系统存在的双目竞争现象，更符合人眼视觉系统的多次处理机制。实验结果显示出本发明中所提出的方法在立体图像的质量评价方面具有优良的性能。

附图说明：

图1本发明使用的网络整体框架。Step 1是局部得分回归模型，由黑色虚线框所示的网络结构；Step 2是全局得分回归模型，由与上下图串行有指示线连接的实线框所示的网络结构。

具体实施方式

本发明的网络模型包括三个通道(即左通道、右通道和融合通道)，采用两步回归进行训练。在Step 1中，首先采用FSIM算法计算出对应参考图像和失真图像小块的得分作为标签来指导CNN进行局部回归的训练。在Step 1结束后，将参数保存下来用于优化Step 2的训练。在Step 2中，从左右通道获取的特征图与融合通道相连，然后通过使用DMOS作为标签基于Step 1的模型进行全局回归。

本发明的实验是在公开的LIVE 3D图像数据库上进行的。LIVE 3D图像数据库包含phase-I和phase-II两个分开的数据库，立体图像均以左右视点的平面图像共同呈现，尺寸均为360×640。其中phase-I共包含20张参考图像对及365张失真的立体图像对，图像为对称失真，即左右视点图像的失真程度近似相等。而phase-II共包含8张参考图像对及360张失真图像对，其中既包含对称失真又包含非对称失真类型的图像，非对称失真的图像左右视点图像的失真程度差异较大。立体图像数据库(LIVE)中包含五种不同的失真类型：高斯模糊失真(BLUR)、快速衰落失真(FF)、JPEG压缩失真及JPEG2000压缩失真(JP2K)和白噪声失真(WN)。

下面结合技术方法详细说明本方法。

本发明为了解决目前存在缺乏对立体图像左右视图更为准确的表示，以及如何处理左右视图的关系这两个问题，提出了一种基于融合网络从局部到全局特征回归的无参考立体图像质量评价方法。首先通过特征相似度(FSIM)算法给左右视点的图像块分别赋予不同的标签，利用计算出的标签指导左右通道的网络同时进行预训练，将训练好的网络参数进行保存，以此实现特征的局部回归。然后，在左右通道的基础上再添加一个融合通道，构成全局回归网络，在预训练模型的基础上，以主观评价值(DMOS)作为标签指导网络训练，对网络参数进行微调，以此实现特征的全局回归。立体图像的质量由训练完成的全局回归网络进行特征提取并预测。其具体流程如图1所示。

具体步骤如下：

Step 1:局部得分回归

我们首先使用失真图像和对应参考图像的小块作为FSIM算法的输入，运用FSIM算法分别获得左右视图小块的标签。然后，左右视图的标签分别用来指导左右通道的训练过程。在左右通道训练好后，两个网络的参数被保存下来用以优化Step 2的训练过程。两种网络的最优模型参数通过最小化损失函数L_l和L_r来获得，可表示如下：

{θ_l}＝arg min L_l (1)

{θ_r}＝arg min L_r (2)

当两个子网络训练好后，模型的参数θ_l,θ_r被保存下来用以优化Step 2的训练。{θ_l},{θ_r}是两个子网络训练好的模型参数。L_l和L_r分别表示两个子网络的损失函数。我们这里使用预测得分和FSIM值间的欧几里得距离来定义损失函数：

其中，I_l和I_r分表表示左右视图；分表表示左右通道从Conv1到Pool5提取的特征图；分别表示左右通道的三个全连接层；s_Fl,s_Fr是左右视图小块分别采用FSIM算法计算出的标签。

Step 2：全局得分回归

我们利用从Step 1获得的模型参数作为全局回归网络的初试值，然后采用从数据库中获得的DMOS值作为全局标签来微调网络进行全局回归。同一张立体图像的左右视图分别送进具有相同结构的左右通道，用于提取对应的高级语义特征。在融合通道中，我们使用concatenation层来连接左右通道的特征图。然后，我们使用SE-block模块和卷积运算来进一步地融合左右视图对应的高级特征，用以模拟在大脑视觉皮层的处理机制。最后，特征图使用三个全连接层转换成立体图像质量得分输出。我们通过最小化全局损失函数来进行训练，公式如下：

其中，s_k是通过我们的融合网络算出的客观得分，s是对应每个输入样本的DMOS得分。需要注意的是我们采用SE-block来模拟在人眼视觉系统中的双目竞争。具体来说，它通过自动学习每一个通道之间的重要性，然后增强有用的特征，抑制无用的特征。立体图像在传入人眼后存在视觉多通道现象，也会产生双目竞争，这和SE-block类似。

3、立体图像质量评价结果与分析

为了验证本发明所提方法的有效性，我们选择了4个其它的基于深度学习的无参考立体图像质量评价方法，包括Zhang[8],Oh[9],Sang[11]和Fang[10]。我们采用Pearson相关系数(PLCC)、Spearman相关系数(SROCC)作为衡量图像质量评价的尺度。

在LIVE 3D数据库上进行性能比较的结果如表1-4所示。其中，最好的结果用黑色粗体突出表示，得不到的结果用“-”表示。表1和表2分别给出了在LIVE 3D phase I数据库上不同失真类型的PLCC和SROCC质量指标；表3和表4分别给出了在LIVE 3D phase II数据库上不同失真类型的PLCC和SROCC质量指标。

如表1-4所示。

表1.在LIVE phase-I数据库上PLCC比较

表2.在LIVE phase-I数据库上SROCC比较

表3.在LIVE phase-II数据库上PLCC比较

表4.在LIVE phase-II数据库上SROCC比较

本发明所提出的BFCNN-L(没有局部回归，称为BFCNN)对立体图像的质量评价与主观评价有最大的一致性。从表格中可以看出在增加局部回归后，实验性能进一步提升。本发明提出的BFCNN-L在所比较的所有无参考立体图像质量评价算法中得到了最好的相关得分，并取得了最高的准确率。需要注意的是Oh[9]的方法在phase-I上表现很好，但是在phase-II上却取得了比较差的结果。因为phase-II上包含非对称失真，用融合图像获得的得分作为左右视图的得分是不合适的。然而，本发明所提方法在phase-I和phase-II同时取得了卓越的性能。这在很大程度上要归因于我们的方法采用FSIM算法分别计算左右视图的得分。另外，与文献[10,11]相比，我们的性能也有很大地提升，这应该归因于我们的融合网络。他们的方法仅融合了一次，这不符合人眼视觉系统的多次融合处理机制。

立体图像的左右视图是不同的，尤其对非对称失真立体图像而言。图像通过视网膜传入人的大脑后，存在视觉多通道现象，同时也会产生双目融合和双目竞争。为了模拟这个现象，我们使用SE-block模块来实现特征重定向。为了验证SE-block模块的有效性，我们也做了一个对比实验，结果如表5所示。从表5可以看出，加上SE-block模块后会进一步地提升我们的性能。

表5.有无SE-block模块比较

参考文献：

[1]Y.Lin and J.Wu,“Quality assessment of stereoscopic 3d imagecompression by binocular integration behaviors,”IEEE Transactions on ImageProcessing,vol.23,no.4,pp.1527–1542,April 2014.

[2]J.Wang,A.Rehman,K.Zeng,S.Wang,and Z.Wang,“Quality prediction ofasymmetrically distorted stereoscopic 3d images,”IEEE Transactions on ImageProcessing,vol.24,no.11,pp.3400–3414,Nov 2015.

[3]Y.Lin,J.Yang,W.Lu,Q.Meng,Z.Lv,and H.Song,“Quality index forstereoscopic images by jointly evaluating cyclopean amplitude and cyclopeanphase,”IEEE Journal of Selected Topics in Signal Processing,vol.11,no.1,pp.89–101,Feb 2017.

[4]M.Karimi,M.Nejati,S.M.R.Soroushmehr,S.Samavi,N.Karimi,andK.Najarian,“Blind stereo quality assessment based on learned features frombinocular combined images,”IEEE Transactions on Multimedia,vol.19,no.11,pp.2475–2489,Nov 2017.

[5]Wei Zhang,Chenfei Qu,Lin Ma,Jingwei Guan,and Rui Huang,“Learningstructure of stereoscopic image for no-reference quality assessment withconvolutional neural network,”Pattern Recognition,vol.59,pp.176–187,2016,Compositional Models and Structured Learning for Visual Recognition.

[6]H.Oh,S.Ahn,J.Kim,and S.Lee,“Blind deep s3d image qualityevaluation via local to global feature aggregation,”IEEE Transactions onImage Processing,vol.26,no.10,pp.4923–4936,Oct 2017.

[7]Yuming Fang,Jiebin Yan,Xuelin Liu,and Jiheng Wang,“Stereoscopicimage quality assessment by deep convolutional neural network,”Journal ofVisual Communication and Image Representation,vol.58,pp.400–406,2019.

[8]Q.Sang,T.Gu,C.Li,and X.Wu,“Stereoscopic image quality assessmentvia convolutional neural networks,in 2017International Smart CitiesConference(ISC2),Sep.2017,pp.1–2.

[9]D.H.Hubel and T.N.Wiesel,“Receptive fields of single neurones inthe cat’s striate cortex,”Journal of Physiology,vol.148,no.3,pp.574,1959.

[10]Keitha.May and Zhaoping Li,“Efficient coding theory predicts atilt aftereffect from viewing untilted patterns,”Current Biology Cb,vol.26,no.12,pp.1571–1576,2016.

[11]R B Tootell,J D Mendola,N K Hadjikhani,P J Ledden,A K Liu,J BReppas,M I Sereno,and A M Dale,“Functional analysis of v3a and related areasin human visual cortex,”Journal of Neuroscience,vol.17,no.18,pp.7060–78,1997.

[12]Annaw.Roe,Leonardo Chelazzi,Charlese.Connor,Bevilr.Conway,IchiroFujita,Jackl.Gallant,Haidong Lu,and Wim Vanduffel,“Toward a unified theory ofvisual area v4,”Neuron,vol.74,no.1,pp.12–29,2012。

Claims

1.一种从局部到全局特征回归无参考立体图像质量评价方法，其特征是，首先通过特征相似度FSIM算法给左右视点的图像块分别赋予不同的标签，利用计算出的标签指导左右通道的网络同时进行预训练，将训练好的网络参数进行保存，以此实现特征的局部回归；然后，在左右通道的基础上再添加一个融合通道，构成全局回归网络，在预训练模型的基础上，以主观评价值DMOS作为标签指导网络训练，对网络参数进行微调，以此实现特征的全局回归；立体图像的质量由训练完成的全局回归网络进行特征提取并预测。

2.如权利要求1所述的从局部到全局特征回归无参考立体图像质量评价方法，其特征是，其中，局部回归：

{θ_l}＝arg minL_l (1)

{θ_r}＝arg minL_r (2)

其中，I_l和I_r分表表示左右视图；分表表示左右通道从卷积层Conv1到池化层Pool5提取的特征图；分别表示左右通道的三个全连接层；s_Fl,s_Fr是左右视图小块分别采用FSIM算法计算出的标签。

3.如权利要求1所述的从局部到全局特征回归无参考立体图像质量评价方法，其特征是，其中，全局回归：