CN109167996B

CN109167996B - 一种基于卷积神经网络的无参考立体图像质量评价方法

Info

Publication number: CN109167996B
Application number: CN201811104375.7A
Authority: CN
Inventors: 周武杰; 张爽爽; 张宇来; 邱薇薇; 周扬; 向坚
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Benxi Steel Group Information Automation Co ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2019-10-29
Anticipated expiration: 2038-09-21
Also published as: CN109167996A

Abstract

本发明公开了一种基于卷积神经网络的无参考立体图像质量评价方法，其利用卷积神经网络提取出失真立体图像的左视点图像和右视点图像各自的归一化图像的特征图；然后利用全卷积神经网络提取出两类特征图的联合特征图，并将联合特征图展平成一维向量作为特征向量；接着利用深度神经网络对用于训练的失真立体图像各自的主观评分及特征向量进行训练，得到全局最优的深度神经网络模型；最后利用全局最优的深度神经网络模型对用于测试的失真立体图像的特征向量进行测试，预测得到用于测试的失真立体图像的客观质量评价预测值；优点是其能够充分考虑到立体图像的多种特性对视觉质量的影响，从而能够有效地提高客观评价结果与双目主观感知之间的相关性。

Description

一种基于卷积神经网络的无参考立体图像质量评价方法

技术领域

本发明涉及一种图像质量评价方法，尤其是涉及一种基于卷积神经网络的无参考立体图像质量评价方法。

背景技术

随着三维(3D)技术的快速发展，越来越多的3D内容电影产生，同时也给人们带来了许多新的问题和挑战。在数字信息大爆炸的今天，立体技术不断成熟，立体产品也不断丰富着人们的生活。越来越多的立体电影占据了荧幕，使人们能更加生动形象地感受到画面，视频电话、3D游戏、手机、电视也越来越多的运用立体技术获得更好的视觉体验。除此之外，立体图像/视频技术还广泛应用于医疗、农业、智能生活、教育、军事等领域。然而，常见的立体图像处理技术包括立体图像/视频的采集、编码、传输、显示和评价等，这一系列的过程会不可避免地引入失真，从而影响了立体图像/视频的立体感及观看舒适度，并有可能带给人们错误的认知，这也严重制约着立体产品的推广及普及。因此，建立一套有效的系统来衡量立体图像的质量是非常有必要的。立体图像质量评价技术作为促进立体图像/视频技术发展的重要技术，已经成为了立体图像处理技术领域的研究热点之一。

现有的大多数立体图像质量评价方法都无法精确判断出立体图像的质量，并且现有的无参考立体图像质量评价方法还是无参考平面图像质量评价方法的简单扩展，没有考虑双目视觉特性，也没有充分学习特征数据的能力，因此，如何在评价过程中有效地提取特征信息，并有效地学习特征信息，在评价过程中进行双目视觉特性结合，并使用有效的特征学习模型，使得客观评价结果更加符合人类视觉感知系统，是对立体图像进行客观质量评价过程中需要研究解决的问题。

发明内容

本发明所要解决的技术问题是提供一种基于卷积神经网络的无参考立体图像质量评价方法，其能够充分考虑到立体图像的多种特性对视觉质量的影响，从而能够有效地提高客观评价结果与双目主观感知之间的相关性。

本发明解决上述技术问题所采用的技术方案为：一种基于卷积神经网络的无参考立体图像质量评价方法，其特征在于包括以下步骤：

步骤一：令S_dis表示待评价的失真立体图像，将S_dis的左视点图像记为{L_dis(x,y)}，将S_dis的右视点图像记为{R_dis(x,y)}；其中，1≤x≤W，1≤y≤H，W表示S_dis的宽度，H表示S_dis的高度，L_dis(x,y)表示{L_dis(x,y)}中坐标位置为(x,y)的像素点的像素值，R_dis(x,y)表示{R_dis(x,y)}中坐标位置为(x,y)的像素点的像素值；

步骤二：采用归一化方法对{L_dis(x,y)}进行归一化处理，得到{L_dis(x,y)}的归一化图像，记为将中坐标位置为(x,y)的像素点的像素值记为同样，采用归一化方法对{R_dis(x,y)}进行归一化处理，得到{R_dis(x,y)}的归一化图像，记为将中坐标位置为(x,y)的像素点的像素值记为

步骤三：利用卷积神经网络提取出的特征图，记为同样，利用卷积神经网络提取出的特征图，记为其中，卷积神经网络包括依次设置的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层，第一卷积层的卷积核的个数为16、卷积核的尺寸大小为3×3，第一卷积层使用的激活函数为ReLU，第一最大池化层的步长为2，第二卷积层的卷积核的个数为32、卷积核的尺寸大小为3×3，第二卷积层使用的激活函数为ReLU，第二最大池化层的步长为2，第三卷积层的卷积核的个数为32、卷积核的尺寸大小为3×3，第三卷积层使用的激活函数为ReLU，第三最大池化层的步长为2，1≤m_conv3≤M_conv3，1≤n_conv3≤N_conv3，M_conv3＝W/2³，N_conv3＝H/2³，表示中坐标位置为(m_conv3,n_conv3)的像素点的像素值，表示中坐标位置为(m_conv3,n_conv3)的像素点的像素值；

步骤四：利用全卷积神经网络提取出和的联合特征图，记为{F_{dis,FullConv4}(m,n)}；其中，全卷积神经网络包括依次设置的第一卷积层、第二卷积层、第三卷积层、第四卷积层，第一卷积层的卷积核的个数为64、卷积核的尺寸大小为3×3，第一卷积层使用的激活函数为ReLU，第二卷积层的卷积核的个数为32、卷积核的尺寸大小为3×3，第二卷积层使用的激活函数为ReLU，第三卷积层的卷积核的个数为16、卷积核的尺寸大小为3×3，第三卷积层使用的激活函数为ReLU，第四卷积层的卷积核的个数为1、卷积核的尺寸大小为3×3，第四卷积层使用的激活函数为ReLU，1≤m≤M，1≤n≤N，M＝W/2，N＝H/2，F_{dis,FullConv4}(m,n)表示{F_{dis,FullConv4}(m,n)}中坐标位置为(m,n)的像素点的像素值；

步骤五：将{F_{dis,FullConv4}(m,n)}展平为一维向量，作为S_dis的特征向量，记为F_dis；其中，F_dis的维数为1×(M×N)，F_dis中的第i个元素为{F_{dis,FullConv4}(m,n)}中的第i个像素点的像素值，i为正整数，1≤i≤(M×N)；

步骤六：选取n幅原始的无失真立体图像，建立其在不同失真类型不同失真程度下的失真立体图像集合，将该失真立体图像集合作为训练集，训练集包括多幅失真立体图像；然后采用主观质量评价方法评价出训练集中的每幅失真立体图像的主观评分，将训练集中的第j幅失真立体图像的主观评分记为DMOS_j；再按照步骤一至步骤五的操作，以相同的方式获取训练集中的每幅失真立体图像的特征向量，将训练集中的第j幅失真立体图像的特征向量记为F_dis,j；其中，n＞1，j的初始值为1，j为正整数，1≤j≤N'，N'表示训练集中包含的失真立体图像的总幅数，0≤DMOS_j≤100，F_dis,j的维数为1×(M×N)；

步骤七：利用深度神经网络对训练集中的所有失真立体图像各自的主观评分及特征向量进行训练，使得经过训练得到的回归函数值与主观评分之间的误差最小，得到全局最优的深度神经网络模型；其中，深度神经网络包括依次设置的第一全连接层、第二全连接层、第三全连接层，第一全连接层的神经元节点的个数为128、使用的激活函数为ReLU，第二全连接层的神经元节点的个数为64、使用的激活函数为ReLU，第三全连接层的神经元节点的个数为1，第三全连接层作为输出层；

步骤八：利用全局最优的深度神经网络模型对F_dis进行预测，预测得到S_dis的客观质量评价预测值，记为Q，其中，f()为函数表示形式，α₂(F_dis)表示全局最优的深度神经网络模型中的第二全连接层的输出，α₁(F_dis)表示全局最优的深度神经网络模型中的第一全连接层的输出，α₁(F_dis)＝f(ω₁ ^TF_dis+b₁)，为ω₃的转置，ω₃表示全局最优的深度神经网络模型中的第三全连接层的权重参数，为ω₂的转置，ω₂表示全局最优的深度神经网络模型中的第二全连接层的权重参数，ω₁ ^T为ω₁的转置，ω₁表示全局最优的深度神经网络模型中的第一全连接层的权重参数，b₃表示全局最优的深度神经网络模型中的第三全连接层的偏置参数，b₂表示全局最优的深度神经网络模型中的第二全连接层的偏置参数，b₁表示全局最优的深度神经网络模型中的第一全连接层的偏置参数。

所述的步骤三中，的获取过程为：

A1、将作为输入，输入到第一卷积层中；然后第一卷积层的输出输入到第一最大池化层中，将第一最大池化层的输出记为其中，1≤m_conv1≤M_conv1，1≤n_conv1≤N_conv1，M_conv1＝W/2，N_conv1＝H/2，表示中坐标位置为(m_conv1,n_conv1)的像素点的像素值；

A2、输入到第二卷积层中；然后第二卷积层的输出输入到第二最大池化层中，将第二最大池化层的输出记为其中，1≤m_conv2≤M_conv2，1≤n_conv2≤N_conv2，M_conv2＝M_conv1/2，N_conv2＝N_conv1/2，表示中坐标位置为(m_conv2,n_conv2)的像素点的像素值；

A3、输入到第三卷积层中；然后第三卷积层的输出输入到第三最大池化层中，第三最大池化层的输出即为其中，1≤m_conv3≤M_conv3，1≤n_conv3≤N_conv3，M_conv3＝M_conv2/2＝W/2³，N_conv3＝N_conv2/2＝H/2₃；

所述的步骤三中，的获取过程为：

B1、将作为输入，输入到第一卷积层中；然后第一卷积层的输出输入到第一最大池化层中，将第一最大池化层的输出记为其中，1≤m_conv1≤M_conv1，1≤n_conv1≤N_conv1，M_conv1＝W/2，N_conv1＝H/2，表示中坐标位置为(m_conv1,n_conv1)的像素点的像素值；

B2、输入到第二卷积层中；然后第二卷积层的输出输入到第二最大池化层中，将第二最大池化层的输出记为其中，1≤m_conv2≤M_conv2，1≤n_conv2≤N_conv2，M_conv2＝M_conv1/2，N_conv2＝N_conv1/2，表示中坐标位置为(m_conv2,n_conv2)的像素点的像素值；

B3、输入到第三卷积层中；然后第三卷积层的输出输入到第三最大池化层中，第三最大池化层的输出即为其中，1≤m_conv3≤M_conv3，1≤n_conv3≤N_conv3，M_conv3＝M_conv2/2＝W/2³，N_conv3＝N_conv2/2＝H/2³。

所述的步骤四中，{F_{dis,FullConv4}(m,n)}的获取过程为：

C1、将和作为输入，输入到第一卷积层中，将第一卷积层的输出记为{F_{dis,FullConv1}(m,n)}；其中，F_{dis,FullConv1}(m,n)表示{F_{dis,FullConv1}(m,n)}中坐标位置为(m,n)的像素点的像素值；

C2、{F_{dis,FullConv1}(m,n)}输入到第二卷积层中，将第二卷积层的输出记为{F_{dis,FullConv2}(m,n)}；其中，F_{dis,FullConv2}(m,n)表示{F_{dis,FullConv2}(m,n)}中坐标位置为(m,n)的像素点的像素值；

C3、{F_{dis,FullConv2}(m,n)}输入到第三卷积层中，将第三卷积层的输出记为{F_{dis,FullConv3}(m,n)}；其中，F_{dis,FullConv3}(m,n)表示{F_{dis,FullConv3}(m,n)}中坐标位置为(m,n)的像素点的像素值；

C4、{F_{dis,FullConv3}(m,n)}输入到第四卷积层中，第四卷积层的输出即为{F_{dis,FullConv4}(m,n)}。

与现有技术相比，本发明的优点在于：

1)本发明方法利用卷积神经网络提取左视点图像和右视点图像各自相关的特征图，由于卷积神经网络符合人眼神经学的生理特征，因此能够有效提取出与人眼感知高度一致的特征图。

2)本发明方法在充分利用了双目视觉感知特性的基础上，分别对左视点图像和右视点图像进行特征图提取，充分考虑了左视点图像和右视点图像分别对立体图像的影响，因此能有效地提高客观评价结果与主观感知之间的相关性。

3)本发明方法利用符合人脑机理特性的深度神经网络预测得到待评价的失真立体图像的客观质量评价预测值，使客观评价值能更加准确地预测失真立体图像的质量。

附图说明

图1为本发明方法的总体实现框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于卷积神经网络的无参考立体图像质量评价方法，其总体实现框图如图1所示，其包括以下步骤：

步骤一：令S_dis表示待评价的失真立体图像，将S_dis的左视点图像记为{L_dis(x,y)}，将S_dis的右视点图像记为{R_dis(x,y)}；其中，1≤x≤W，1≤y≤H，W表示S_dis的宽度，H表示S_dis的高度，L_dis(x,y)表示{L_dis(x,y)}中坐标位置为(x,y)的像素点的像素值，R_dis(x,y)表示{R_dis(x,y)}中坐标位置为(x,y)的像素点的像素值。

步骤三：利用卷积神经网络提取出的特征图，记为同样，利用卷积神经网络提取出的特征图，记为其中，卷积神经网络包括依次设置的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层，第一卷积层的卷积核的个数为16、卷积核的尺寸大小为3×3，第一卷积层使用的激活函数为ReLU，第一最大池化层的步长为2，第二卷积层的卷积核的个数为32、卷积核的尺寸大小为3×3，第二卷积层使用的激活函数为ReLU，第二最大池化层的步长为2，第三卷积层的卷积核的个数为32、卷积核的尺寸大小为3×3，第三卷积层使用的激活函数为ReLU，第三最大池化层的步长为2，1≤m_conv3≤M_conv3，1≤n_conv3≤N_conv3，M_conv3＝W/2³，N_conv3＝H/2³，表示中坐标位置为(m_conv3,n_conv3)的像素点的像素值，表示中坐标位置为(m_conv3,n_conv3)的像素点的像素值。

在本实施例中，步骤三中，的获取过程为：

A1、将作为输入，输入到第一卷积层中；然后第一卷积层的输出输入到第一最大池化层中，将第一最大池化层的输出记为其中，1≤m_conv1≤M_conv1，1≤n_conv1≤N_conv1，M_conv1＝W/2，N_conv1＝H/2，表示中坐标位置为(m_conv1,n_conv1)的像素点的像素值。

A2、输入到第二卷积层中；然后第二卷积层的输出输入到第二最大池化层中，将第二最大池化层的输出记为其中，1≤m_conv2≤M_conv2，1≤n_conv2≤N_conv2，M_conv2＝M_conv1/2，N_conv2＝N_conv1/2，表示中坐标位置为(m_conv2,n_conv2)的像素点的像素值。

A3、输入到第三卷积层中；然后第三卷积层的输出输入到第三最大池化层中，第三最大池化层的输出即为其中，1≤m_conv3≤M_conv3，1≤n_conv3≤N_conv3，M_conv3＝M_conv2/2＝W/2₃，N_conv3＝N_conv2/2＝H/2³。

在本实施例中，步骤三中，的获取过程为：

B1、将作为输入，输入到第一卷积层中；然后第一卷积层的输出输入到第一最大池化层中，将第一最大池化层的输出记为其中，1≤m_conv1≤M_conv1，1≤n_conv1≤N_conv1，M_conv1＝W/2，N_conv1＝H/2，表示中坐标位置为(m_conv1,n_conv1)的像素点的像素值。

B2、输入到第二卷积层中；然后第二卷积层的输出输入到第二最大池化层中，将第二最大池化层的输出记为其中，1≤m_conv2≤M_conv2，1≤n_conv2≤N_conv2，M_conv2＝M_conv1/2，N_conv2＝N_conv1/2，表示中坐标位置为(m_conv2,n_conv2)的像素点的像素值。

步骤四：利用全卷积神经网络提取出和的联合特征图，记为{F_{dis,FullConv4}(m,n)}；其中，全卷积神经网络包括依次设置的第一卷积层、第二卷积层、第三卷积层、第四卷积层，第一卷积层的卷积核的个数为64、卷积核的尺寸大小为3×3，第一卷积层使用的激活函数为ReLU，第二卷积层的卷积核的个数为32、卷积核的尺寸大小为3×3，第二卷积层使用的激活函数为ReLU，第三卷积层的卷积核的个数为16、卷积核的尺寸大小为3×3，第三卷积层使用的激活函数为ReLU，第四卷积层的卷积核的个数为1、卷积核的尺寸大小为3×3，第四卷积层使用的激活函数为ReLU，1≤m≤M，1≤n≤N，M＝W/2，N＝H/2，F_{dis,FullConv4}(m,n)表示{F_{dis,FullConv4}(m,n)}中坐标位置为(m,n)的像素点的像素值。

在本实施例中，步骤四中，{F_{dis,FullConv4}(m,n)}的获取过程为：

C1、将和作为输入，输入到第一卷积层中，将第一卷积层的输出记为{F_{dis,FullConv1}(m,n)}；其中，F_{dis,FullConv1}(m,n)表示{F_{dis,FullConv1}(m,n)}中坐标位置为(m,n)的像素点的像素值。

C2、{F_{dis,FullConv1}(m,n)}输入到第二卷积层中，将第二卷积层的输出记为{F_{dis,FullConv2}(m,n)}；其中，F_{dis,FullConv2}(m,n)表示{F_{dis,FullConv2}(m,n)}中坐标位置为(m,n)的像素点的像素值。

C3、{F_{dis,FullConv2}(m,n)}输入到第三卷积层中，将第三卷积层的输出记为{F_{dis,FullConv3}(m,n)}；其中，F_{dis,FullConv3}(m,n)表示{F_{dis,FullConv3}(m,n)}中坐标位置为(m,n)的像素点的像素值。

步骤五：将{F_{dis,FullConv4}(m,n)}展平为一维向量，作为S_dis的特征向量，记为F_dis；其中，F_dis的维数为1×(M×N)，F_dis中的第i个元素为{F_{dis,FullConv4}(m,n)}中的第i个像素点的像素值，i为正整数，1≤i≤(M×N)。

步骤六：选取n幅原始的无失真立体图像，建立其在不同失真类型不同失真程度下的失真立体图像集合，将该失真立体图像集合作为训练集，训练集包括多幅失真立体图像；然后采用现有的主观质量评价方法评价出训练集中的每幅失真立体图像的主观评分，将训练集中的第j幅失真立体图像的主观评分记为DMOS_j；再按照步骤一至步骤五的操作，以相同的方式获取训练集中的每幅失真立体图像的特征向量，将训练集中的第j幅失真立体图像的特征向量记为F_dis,j；其中，n＞1，如取n＝100，j的初始值为1，j为正整数，1≤j≤N'，N'表示训练集中包含的失真立体图像的总幅数，0≤DMOS_j≤100，F_dis,j的维数为1×(M×N)。

步骤七：深度神经网络(Deep Neural Network，DNN)是基于人类大脑神经网络设计的机器学习方法，其可以有效地抑制过拟合问题，充分学习特征中所包含的图像信息，因此本发明利用深度神经网络对训练集中的所有失真立体图像各自的主观评分及特征向量进行训练，使得经过训练得到的回归函数值与主观评分之间的误差最小，得到全局最优的深度神经网络模型；其中，深度神经网络包括依次设置的第一全连接层、第二全连接层、第三全连接层，第一全连接层的神经元节点的个数为128、使用的激活函数为ReLU，第二全连接层的神经元节点的个数为64、使用的激活函数为ReLU，第三全连接层的神经元节点的个数为1，第三全连接层作为输出层，第三全连接层不使用任何激活函数。

为了进一步验证本发明方法的可行性和有效性，进行实验。

在此，选用对称失真LIVE立体图像失真库来分析采用本发明方法得到的失真立体图像的客观质量评价预测值与主观评分之间的相关性。这里，利用评估图像质量评价方法的3个常用客观参量作为评价指标，即非线性回归条件下的Pearson相关系数(Pearsonlinear correlation coefficient，PLCC)、Spearman相关系数(Spearman rank ordercorrelation coefficient，SROCC)、均方误差(root mean squared error，RMSE)，PLCC和RMSE反映失真立体图像的客观质量评价预测值的准确性，SROCC反映其单调性。

采用本发明方法计算对称失真LIVE立体图像失真库中的每幅失真立体图像的客观质量评价预测值，再利用现有的主观质量评价方法获得对称失真LIVE立体图像失真库中的每幅失真立体图像的主观评分。将按本发明方法计算得到的失真立体图像的客观质量评价预测值做五参数Logistic函数非线性拟合，PLCC和SROCC值越高，RMSE值越低说明客观评价方法的客观评价结果与主观评分之间的相关性越好。反映本发明方法的质量评价性能的PLCC、SROCC和RMSE相关系数如表1所列。从表1所列的数据可知，按本发明方法得到的失真立体图像的客观质量评价预测值与主观评分之间的相关性是很好的，表明客观评价结果与人眼主观感知的结果较为一致，足以说明本发明方法的可行性和有效性。

表1采用本发明方法得到的失真立体图像的客观质量评价预测值与主观评分之间的相关性

Claims

1.一种基于卷积神经网络的无参考立体图像质量评价方法，其特征在于包括以下步骤：

步骤八：利用全局最优的深度神经网络模型对F_dis进行预测，预测得到S_dis的客观质量评价预测值，记为Q，其中，f()为函数表示形式，α₂(F_dis)表示全局最优的深度神经网络模型中的第二全连接层的输出，α₁(F_dis)表示全局最优的深度神经网络模型中的第一全连接层的输出，为ω₃的转置，ω₃表示全局最优的深度神经网络模型中的第三全连接层的权重参数，为ω₂的转置，ω₂表示全局最优的深度神经网络模型中的第二全连接层的权重参数，为ω₁的转置，ω₁表示全局最优的深度神经网络模型中的第一全连接层的权重参数，b₃表示全局最优的深度神经网络模型中的第三全连接层的偏置参数，b₂表示全局最优的深度神经网络模型中的第二全连接层的偏置参数，b₁表示全局最优的深度神经网络模型中的第一全连接层的偏置参数。

2.根据权利要求1所述的一种基于卷积神经网络的无参考立体图像质量评价方法，其特征在于所述的步骤三中，的获取过程为：

A3、输入到第三卷积层中；然后第三卷积层的输出输入到第三最大池化层中，第三最大池化层的输出即为其中，1≤m_conv3≤M_conv3，1≤n_conv3≤N_conv3，M_conv3＝M_conv2/2＝W/2³，N_conv3＝N_conv2/2＝H/2³；

所述的步骤三中，的获取过程为：

3.根据权利要求1或2所述的一种基于卷积神经网络的无参考立体图像质量评价方法，其特征在于所述的步骤四中，{F_{dis,FullConv4}(m,n)}的获取过程为：