CN111882516A - 一种基于视觉显著性和深度神经网络的图像质量评价方法 - Google Patents

一种基于视觉显著性和深度神经网络的图像质量评价方法 Download PDF

Info

Publication number
CN111882516A
CN111882516A CN202010101248.2A CN202010101248A CN111882516A CN 111882516 A CN111882516 A CN 111882516A CN 202010101248 A CN202010101248 A CN 202010101248A CN 111882516 A CN111882516 A CN 111882516A
Authority
CN
China
Prior art keywords
image
saliency
map
neural network
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010101248.2A
Other languages
English (en)
Other versions
CN111882516B (zh
Inventor
张闯
李子钰
徐盼娟
朱月凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010101248.2A priority Critical patent/CN111882516B/zh
Publication of CN111882516A publication Critical patent/CN111882516A/zh
Application granted granted Critical
Publication of CN111882516B publication Critical patent/CN111882516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉显著性和深度神经网络的图像质量评价方法,具体如下:利用视觉显著性中的颜色显著性以及中央区域显著性,建立一种基于视觉显著性的图像显著性检测模型;利用人眼对颜色及图像中央特别关注的特点,生成颜色加权显著图;利用凸包原理,得出显著性物体的区域,生成凸包显著图;将颜色加权显著图和凸包显著图融合,得到最终显著图,并给出效果图;采用LIVE3DIQD_phase 1数据库作为图像预处理库,以及后面的训练库;融合左右眼图像的生成:通过将左视图视为参考,将左图像与右视差补偿图像融合来合成独眼图像;对立体失真图像进行视觉显著图的生成,融合生成的独眼图及其显著图;将卷积与神经网络两者相结合,得出卷积神经网络。

Description

一种基于视觉显著性和深度神经网络的图像质量评价方法
技术领域
本发明属于图像处理领域,尤其是立体失真图像质量的客观评价,涉及应用显著性图及立体图像合成图的客观图像质量评价方法。
背景技术
近年来,虚拟现实(Virtual Reality,VR)技术的蓬勃发展给消费者带来了更逼真的视觉体验。作为VR技术重要组成部分的立体图像技术对VR技术的进一步发展有着极其重要的作用,而失真制约着立体图像技术的前进步伐。
立体图像的失真问题,一直是国内外研究的热点,众多科研人员在研究立体图像的失真上付诸了许多努力,以期能够掌握失真的详细原因,以此来修正失真,得到更好的立体图像效果。
对立体失真图像进行质量评价,是研究失真问题最主要的一种方法。图像质量评价(Image Quality Assessment,IQA),指的是设立一定的质量评价标准,对图像进行评价,得出图像的质量水平,通过质量水平可以看出图像的好坏。随着数字图像的发展,IQA在图像处理分析、数据压缩、存储和通信传输等领域都日益受到重视,是衡量图像质量的重要指标。现如今,人们通常利用主观质量评价辅助客观质量评价来进行对失真图像的质量评价。主观评价主要依据人眼来进行图像质量的评判,准确度较高,但效率太低。至于客观质量评价,则是通过计算机进行,利用设计的一系列算法,对图像的各个参数进行计算,赋予不同的权重,得出最终的质量分数。客观质量评价的好处在于不需要大量人员参与,一台电脑便可进行。但也有劣势,算法无法考虑到太多的影响因素,会使评测结果不够精确,准确度上不如主观评价。因此,提高客观模型的准确性是人们一直以来的探索目标,使得客观评价方法与主观的一致性更高。
图像的视觉显著性研究是研究其它计算机视觉的基础,文本检测、人脸识别等技术都有显著性的影子。最早的视觉显著性研究开始于Koch和Ullman[2],两人于1985年提出了视觉显著转移的三个特征。到了1998年,Itti[3]第一次实现了视觉显著性模型—IT模型,第一次将视觉显著性由理论变为实际。接着,Harel[4]于2016年提出一种基于图论的显著性算法(GBVS),通过马尔科夫随机场来计算特征显著图。该篇文章是对IT算法的一次重大改进,其实验效果比IT算法有了明显提高,也为显著性的跨学科研究提供了新的思路。
深度学习应用于图像的质量评价,是最近几年才开始兴起。Kang利用深度神经网络建立一个新的2D图像评价模型,集合特征提取与学习过程,是一个开拓性的工作。Gu[5]等人利用稀疏自编码器,设计了一个以自然场景统计为参数输入到神经网络的客观图像质量评价模型。
依据参考图像在客观评价中所起作用,可以把客观评价分为三类,一般最常用的是全参考方法,即需要与参考图像的所有pixel(像素点)做比较。全参考方法中基于数学误差分析的方法是从局部模拟人眼视觉特性,进而上升到整个图像整体;而SSIM方法是从整个图像的结构层面来评价其性能,复杂度降低。但SSIM算法在计算时未考虑到人眼感兴趣区域的加权问题,也忽略了HVS(人类视觉系统)的相关特性,因此,与人类感知相一致的客观质量评价方法成为研究的热点。
发明内容
本发明所要解决的技术问题基于人眼视觉特性中的中央权重特性,设计一种基于中央权重的显著性检测算法,进而通过探究人的双目视觉特性,对立体失真图像的质量进行主观评价,并借助所设计的算法最终提出一种基于视觉显著性和深度学习网络的立体失真图像质量评价方法,对立体图像的失真进行有效评价,分析出失真对人眼的影响水平,对不影响观感的冗余失真不进行处理,对影响观感的失真要进行修正,使其失真水平降低,最终不影响观感。
本发明为解决上述技术问题采用以下技术方案:
一种基于视觉显著性和深度神经网络的图像质量评价方法,具体包含如下步骤;
步骤1,利用视觉显著性中的颜色显著性以及中央区域显著性,建立一种基于视觉显著性的图像显著性检测模型;
步骤2,利用人眼对颜色及图像中央特别关注的特点,生成颜色加权显著图;
步骤3,利用凸包原理,得出显著性物体的区域,生成凸包显著图;
步骤4,将颜色加权显著图和凸包显著图融合,得到最终显著图,并给出效果图;
步骤5,图像预处理:采用LIVE3DIQD_phase 1数据库作为图像预处理库,以及后面的训练库;
步骤6,融合左右眼图像的生成:通过将左视图视为参考,将左图像与右视差补偿图像融合来合成独眼图像;
步骤7,显著图像的生成:对立体失真图像进行视觉显著图的生成,融合生成的独眼图及其显著图;
步骤8,将卷积与神经网络两者相结合,得出卷积神经网络。
作为本发明一种基于视觉显著性和深度神经网络的图像质量评价方法的进一步优选方案,在步骤2中,生成颜色加权显著图,具体如下:
利用超像素作为显著性检测估计元素,依据SLIC方法,获取输入图像的超像素;
为得到对比先验图,对于任意超像素i,计算其已经归一化到[0,1]的平均坐标pi和在CIELAB空间下的颜色均值Ci,超像素的显著值的计算如下:
Figure BDA0002386938340000031
其中,令σP为权重。
作为本发明一种基于视觉显著性和深度神经网络的图像质量评价方法的进一步优选方案,在步骤3中,凸包显著图的生成,具体如下:
步骤3.1,将待检测图像由RGB图转换为灰度图像;
步骤3.2,进行二值图像的转化,寻找图像的轮廓得到候选的凸点;
步骤3.3,调用凸包API生成凸包图像,并进行中心坐标的确定;
步骤3.4,接着用凸包的中心坐标(a0,b0)代替传统算法中的图像中心坐标;超像素的显著值计算公式如下:
Figure BDA0002386938340000032
其中ai,bi分别为超像素i归一化到[0,1]后的水平坐标均值和垂直坐标均值,并且令上式σa=σb
作为本发明一种基于视觉显著性和深度神经网络的图像质量评价方法的进一步优选方案,在步骤4中,最终显著图的具体表达式如下:
Sin=Sco(i)*Sce(i)。
作为本发明一种基于视觉显著性和深度神经网络的图像质量评价方法的进一步优选方案,在步骤8中,卷积神经网络的结构具体包含:
(1)输入网络:所设计的立体失真图像评价算法,侧重于显著性,因此依赖于显著图进行训练,生成的显著图及左右眼图像均先进行切块处理,之后三种图像块分别作为输入同时输入到网络中进行计算;
(2)卷积层:卷积层是整个深度卷积网络的最重要参数,提取特征就是利用分割后的图像与卷积核进行卷积计算,其中感受视野的大小就是卷积核的大小;
(3)池化层:池化层其实就是一个压缩的过程,其池化的输入是卷积层的输出;分为max-pooling和mean-polling;
(4)全连接层:输入的三份图像经过多层池化后,可得到一维特征向量,进而在全连接层将其进行线性拼接;
(5)激活函数:线性模型的拟合能力并不足,所以需要引入非线性映射对卷积特征图进行处理,也称为激活,常用的激活函数为sigmoid;
(6)模型具体设计参数:卷积核大小设置为3*3,使用sigmoid作为激活函数,最大池化窗口大小为2*2;输入图像数量batch_size选择64,训练次数epoch选择200,以0.5的比例在全连接层对输出值进行dropout处理,以防止过度拟合;
(7)目标函数设计:目标函数设置为数据库中图像与整体质量均值的方差之和;在最终模型确立之后,通过卷积神经网络的训练即可预测得分。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明基于人眼视觉特性中的中央权重特性,设计一种基于中央权重的显著性检测算法,进而通过探究人的双目视觉特性,对立体失真图像的质量进行主观评价,并借助所设计的算法最终提出一种基于视觉显著性和深度学习网络的立体失真图像质量评价方法,对立体图像的失真进行有效评价,分析出失真对人眼的影响水平,对不影响观感的冗余失真不进行处理,对影响观感的失真要进行修正,使其失真水平降低,最终不影响观感;
2、本发明所构建的新型质量评价模型立足于视觉显著性这一概念,运用了一种基于中央权重的显著性算法,同时考虑到了人眼感兴趣区域的加权问题及HVS的相关特性。对立体图像的失真进行了客观有效的评价。
附图说明
图1是本发明视觉过程流程图;
图2(a)是本发明原图像;
图2(b)是本发明融合显著图;
图3(a)是本发明左视图的生成;
图3(b)是本发明右视图的生成;
图3(c)是本发明独眼图像的生成;
图4(a)是本发明融合生成的独眼图;
图4(b)是本发明融合生成的独眼图的显著图;
图5是本发明深度卷积网络基本结构图;
图6是本发明客观评价模型;
图7(a)是本发明左眼图输入网络图像示例;
图7(b)是本发明右眼图输入网络图像示例;
图7(c)是本发明独眼图输入网络图像示例。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围
本发明利用University of Texas at Austin的LIVE实验室的LIVE3DIQD_phase1数据库,共365幅不同失真类型的立体图像,进行图像质量以及显著性的主观测试。其中图像质量评价采取双激励连续质量表(DSCQS)法。并进行数据处理,进一步进行分析与总结。基于人眼视觉特性重的中央权重特性,设计一种基于中央权重的显著性检测算法。通过探究人眼的视觉显著性,设计一个基于视觉显著性和深度学习网络的立体失真图像质量评价算法,并与其他算法加以比较。
显著性检测模型的建立
利用视觉显著性中的颜色显著性以及中央区域显著性,我们可建立一种基于视觉显著性的图像显著性检测模型就立体图像的视觉显著性,建立一种显著性检测模型:利用人眼对颜色及图像中央特别关注的特点,生成颜色加权显著图;利用凸包原理,得出显著性物体的区域,生成凸包显著图;将两种显著图融合,得到最终显著图,并给出效果图。
步骤一:生成颜色显著图;
此方法利用超像素(super pixel)作为显著性检测估计元素,依据SLIC方法,获取输入图像的超像素。
为得到对比先验图(Contrast Prior Map),对于任意超像素i,计算其已经归一化到[0,1]的平均坐标pi和在CIELAB空间下的颜色均值Ci,再计算出超像素的显著值Sco(i)。
步骤二:生成基于凸包的显著图;
为解决显著区域不在立体失真图像中心的问题,利用凸包的概念来估计显著性区域。利用OpenCV中的convexHull函数可以很方便地得到图像的凸包。此时可通过计算得到超像素的显著值Sce(i);
步骤三:融合生成最终显著图;
最后,通过融合上述两种显著图生成最终显著图Sin
基于视觉显著性和深度学习网络的立体失真图像质量评价模型的构建
要参与质量评价的立体失真图像,并不是直接输入到神经网络中,而是要经过预先的处理过程。采用LIVE3DIQD_phase 1数据库作为图像预处理库,以及后面的训练库。
步骤一:图像预处理
此处采用LIVE3DIQD_phase 1数据库作为图像预处理库,以及后面的训练库。
(1)融合左右眼图像的生成
通过将左视图视为参考,将左图像与右视差补偿图像融合来合成独眼图像。
(2)显著图像的生成
采取前文5.1所提供的算法,对立体失真图像进行视觉显著图的生成。融合生成的独眼图及其显著图。
步骤二:用于立体失真图像质量评价的D-CNN结构设计
此处提出一种基于视觉显著性和深度神经网络的立体失真图像质量评价模型,命名为VS_DCNN_IQA(Image Quality Assessment Based on Visual Saliency and DeepNeural Network)。其输入到卷积神经网络的3种图像为:左视图、右视图、显著图,这是为了让网络更好地学习显著性信息。
以下为该卷积神经网络的大致结构设计:
(1)输入网络
所设计的立体失真图像评价算法,侧重于显著性,因此依赖于显著图进行训练。生成的显著图及左右眼图像均先进行切块处理,之后三种图像块分别作为输入同时输入到网络中进行计算。
(2)卷积层
卷积层是整个深度卷积网络的最重要参数,提取特征就是利用分割后的图像与卷积核进行卷积计算,其中感受视野的大小就是卷积核的大小。
(3)池化层
池化层其实就是一个压缩的过程,其池化的输入是卷积层的输出。一般分为max-pooling和mean-polling。
(4)全连接层
输入的三份图像经过多层池化后,可得到一维特征向量,进而在全连接层将其进行线性拼接。
(5)激活函数
线性模型的拟合能力并不足,所以需要引入非线性映射对卷积特征图进行处理,也称为激活,常用的激活函数为sigmoid。
(6)模型具体设计参数
卷积核大小设置为3*3,使用sigmoid作为激活函数,最大池化窗口大小为2*2。输入图像数量batch_size选择64,训练次数epoch选择200。以0.5的比例在全连接层对输出值进行dropout处理,以防止过度拟合。
(7)目标函数设计
目标函数设置为数据库中图像与整体质量均值的方差之和。
在最终模型确立之后,通过卷积神经网络的训练即可预测得分。
本发明所构建的新型质量评价模型立足于视觉显著性这一概念,运用了一种基于中央权重的显著性算法,同时考虑到了人眼感兴趣区域的加权问题及HVS的相关特性。对立体图像的失真进行了客观有效的评价。
为评估所建立的客观模型的性能,下面所进行的实验采用以下三种评价指标:线性相关系数PLCC、斯皮尔曼秩序相关系数SROCC和均方根误差RMSE。
在实验结果的对比过程中,选取了一些经典算法,例如PSNR、SSIM、MSE算法等;
为保证算法的准确性,需进行多次独立测试,取中间值作为实验结果。数据训练测试比例选择为:训练库随机选择15幅参考图像及其所有失真图像,验证库随机选择剩下的5幅参考图像及其失真图像,剩余5组图像用于测试库,比例为3:1:1。在数据库中的PLCC如表1所示,在数据库中的SROCC如表2所示,在数据库中的RMSE如表3所示。
表1
Figure BDA0002386938340000071
Figure BDA0002386938340000081
表2
Figure BDA0002386938340000082
表3
Figure BDA0002386938340000083
注:用于每一种类型的失真图像的性能最好的质量评价方法已加粗由表1可以看出,对于LIVE3DIQD_phase1数据库中的五种失真,本发明所设计的算法在JP2K、JPEG、FF三种失真类型的立体图像的评价上与主观实验的线性相关性最好,性能也是最好的;
由表2可以看出,本发明所设计的算法在JP2K及FF两种失真类型的客观评价中,单调性是最好的,评价的准确性也是最高的;
由表3可以看出,本发明所设计的算法在JP2K、FF两种失真类型的客观评价中,与主观评价结果的差异是最小的。
综合上面三点以及三份表格可以看出,本发明所建立的客观模型在JP2K、FF、JPEG三种失真的评判上面具有不错的性能,WN失真的评价也与其他算法没有太大差异,总体效果理想,与人眼的主观感知保持良好的一致性。
如图1的视觉过程流图所示,场景在左右眼视网膜上形成两幅有差异的图像,人的大脑通过这种图像差异来判断空间位置,从而形成立体视觉感。这一特性我们称之为双目视差特性,也就是立体图像的原理。由于立体图像受图像采集系统、处理方法、文件传输设备、显示设备等影响,在显示器前呈现的立体图像不可避免地与原图像形成了各种失真,导致立体图像的质量在不同程度上受到损伤。这些失真将直接影响人眼观看的舒适度,并对图像的后续处理的准确性造成干扰,给人们带来错误的认识。
基于上文所述,本论文通过探究人的双目视觉特性,对立体失真图像的质量进行主观评价,并最终提一种基于深度神经网络的视觉显著性的立体失真图像质量评价方法,对立体图像的失真进行有效评价,分析出失真对人眼的影响水平,对不影响观感的冗余失真不进行处理,对影响观感的失真要进行修正,使其失真水平降低,最终不影响观感。
基于视觉权重的显著性检测算法设计
步骤一:生成颜色显著图
此方法利用超像素(super pixel)作为显著性检测估计元素,依据SLIC方法,获取输入图像的超像素。
为得到对比先验图(Contrast Prior Map),对于任意超像素i,计算其已经归一化到[0,1]的平均坐标pi和在CIELAB空间下的颜色均值Ci,超像素的显著值的计算如下:
Figure BDA0002386938340000091
其中令σP为权重,将上式中乘号前后看作两部分,乘号后面判断两超像素间的距离,距离越远则对应值越小,并减弱前面颜色差异的权重;乘号前面判断颜色是否相似,颜色差异越大,对应值越大,最终显著值越大。
步骤二:基于凸包的显著图的生成
为解决显著区域不在立体失真图像中心的问题,利用凸包的概念来估计显著性区域。利用OpenCV中的convexHull函数可以很方便地得到图像的凸包。具体做法如下:将待检测图像由RGB图转换为灰度图像,再进行二值图像的转化,寻找图像的轮廓得到候选的凸点,最后调用凸包API生成凸包图像,并进行中心坐标的确定。
接着用凸包的中心坐标(a0,b0)代替传统算法中的图像中心坐标。此时超像素的显著值计算公式如下:
Figure BDA0002386938340000101
其中ai,bi分别为超像素i归一化到[0,1]后的水平坐标均值和垂直坐标均值,并且令上式σa=σb。可简单理解为距离显著区域中心越远,其显著值越低;相反,越靠近显著区域中心,其显著性越高。
步骤三:融合生成最终显著图
最终,通过公式3融合上述两种显著图生成最终显著图,如图2所示。
Sin=Sco(i)*Sce(i) 式3
基于视觉显著性和深度学习网络的立体失真图像质量评价模型的构建
步骤一:图像预处理
此处采用LIVE3DIQD_phase 1数据库作为图像预处理库,以及后面的训练库。
(1)融合左右眼图像的生成
LIVE立体图像数据库中给出的并不是直接的立体图像,而是模拟人左右眼视觉拍摄的左眼图像、右眼图像,为得到更符合双目视觉特性的图像,需融合生成一幅模拟立体图像在大脑中的图像,称之为独眼图,即cyclopean image。
通过将左视图视为参考,将左图像与右视差补偿图像融合来合成独眼图像。所涉及公式如下:
Figure BDA0002386938340000102
其中
Figure BDA0002386938340000103
和j是像素坐标。Icyc是生成的独眼图像,
Figure BDA0002386938340000104
和Ir分别是左图像和右图像,
Figure BDA0002386938340000105
是像素
Figure BDA0002386938340000106
的视差值,表示像素从左到右视图的水平偏移。
最终生成图像示意图如图3所示。
(2)显著图像的生成
采取前文所提供的算法,对立体失真图像进行视觉显著图的生成。融合生成的独眼图及其显著图如图4所示。
步骤二:用于立体失真图像质量评价的D-CNN结构设计
一般的滤波器都是人为设置的,规定了具体的参数。但若是以随机滤波器开始,又是另一种思路。类比到卷积神经网络中,参数可自行调整的滤波器视为卷积核的卷积,调整滤波器的方法则是由神经网络提供。
基于上面的思路,将卷积与神经网络两者相结合,得出CNN(卷积神经网络)。卷积神经网络不是全连接的,下一层的输入只连接了上一层的部分输出,这样就减少了很多权值。每个神经元的权值与其他神经元共享,权值也就是卷积核,整个也不需要偏置值。极大地减少了运算量,效率大为提高。深度卷积网络的组成有五层:输入层(INPUT)、卷积层(CONV)、激活函数(sigmoid)、池化层(POOL)、全连接层(FC)[25]。给出深度卷积网络的基本结构图如图5所示。
此处提出一种基于视觉显著性和深度神经网络的立体失真图像质量评价模型,命名为VS_DCNN_IQA。其输入为3种图像:左视图、右视图、显著图,这是为了让网络更好地学习显著性信息。客观质量评价模型如图6所示。
(1)输入网络
所设计的立体失真图像评价算法,侧重于显著性,因此依赖于显著图进行训练。生成的显著图及左右眼图像均要进行切块处理,大小选择为32*32的尺寸。在完成切块后,三种图像块分别作为输入同时输入到网络中进行计算。由于所选择的图像库的失真类型均为均匀失真,所以每块图像块的质量得分,与原图像一致。至于为何选择切块处理,则是由于训练的图像库容量太小(仅365幅),训练时会导致欠耦合的现象发生。输入网络的三种图像如图7示例。
(2)卷积层
卷积层是整个深度卷积网络的最重要参数,提取特征就是利用分割后的图像与卷积核进行卷积计算,其中感受视野的大小就是卷积核的大小。
卷积层的计算公式为:
Figure BDA0002386938340000111
其中形状参数为:CONV/FC层形状参数如表4所示。
表4
Figure BDA0002386938340000121
(3)池化层
池化层其实就是一个压缩的过程,压缩特征图以此来简化网络计算的复杂度,压缩所有特征用来提取主要特征,其池化的输入是卷积层的输出。一般分为max-pooling和mean-polling。
最大池化每次池化只针对一层的深度,采用2*2的过滤器在左图区域中寻找最大值,步长为2,最终提取主要特征得到右图。至于平均池化,则是对每个2*2的区域所有元素求和,再除以4取均值。
(4)全连接层
输入的三份图像经过多层池化后,可得到一维特征向量,并将其进行线性拼接,即按公式6进行运算:
δ=α+β+γ 式6
四个参数代表四种图像:α代表原始左图像,β代表原始右图像,γ代表融合图像视觉显著图,δ代表最后的特征向量。最后将δ连接全连接层,计算图像质量。
(5)激活函数
线性模型的拟合能力并不足,所以需要引入非线性映射对卷积特征图进行处理,也称为激活,常用的激活函数为sigmoid,形式如下:
Figure BDA0002386938340000131
激活函数sigmaid可以使输出值保证在(0,1]的范围内;它的引入可以使每一层的输出有非线性的变化,而不加激活函数,无论经过多少隐含层,输出的结果其实还是线性相关的一组值,达不到训练的目的。
(6)模型具体设计参数
卷积核大小设置为3*3,使用sigmoid作为激活函数,最大池化窗口大小为2*2。输入图像数量batch_size选择64,训练次数epoch选择200。以0.5的比例在全连接层对输出值进行dropout处理,以防止过度拟合。
整个网络共计17层,从输入到输出依次为:conv3-32,conv3-32,maxpool,conv3-64,conv3-64,maxpool,conv3-128,conv3-128,maxpool,conv3-256,conv3-256,maxpool,conv3-512,conv3-512,maxpool,FC-512,FC-12
注:conv3-64表示卷积核大小为3*3,通道为64;FC-512表示全连接层有512个结点。
(7)目标函数设计
对于某一图像而言,其某一块的质量得分为yi,则总体图像的质量得分为:
Figure BDA0002386938340000132
其中pi为此块占图像面积比例。
目标函数设置为数据库中图像与整体质量均值的方差之和,公式如下:
Figure BDA0002386938340000133
在最终模型确立之后,通过卷积神经网络的训练即可预测得分。
8.3实验先期准备和实验平台的构建
8.3.1数据库DMOS的获取
为验证前面客观实验模型的性能,需知道主观评价的DMOS,并通过前面公式的计算,得到性能结果,所以获取DMOS至关重要。
1.主观实验的相关内容:
实验环境:电信院机房;
设备:机房同型号电脑30台;
实验人员:无立体失真图像评价经验的电信院学生30名;
图像库:LIVE实验室的LIVE3DIQD_phase1数据库;
实验内容:以20幅未失真参考图像为基准,共计365组图像对,做成视频形式,每对图像间隔12s。请同学根据图像质量分别对两幅图像打分,打分在12s完成,进入下一组图像对打分;
实验标准:按前文5分制绝对评分机制进行打分。
2.数据处理:
按以下公式计算出MOS及DMOS
Figure BDA0002386938340000141
LIVE3D数据库中部分图像MOS及DMOS值如表5所示。
表5
Figure BDA0002386938340000142
Figure BDA0002386938340000151
8.3.2实验环境
1.数据库:LIVE实验室LIVE3DIQD_phase1数据库。
2.实验平台
客观实验部分,采用python语言基于谷歌TensorFlow框架,在Spyder平台编译并调试。程序运行部分并未在自己电脑上面执行,而是选择了谷歌的Colaboratory工具,这是一款用于深度学习研究的工具。平台提供GPU和TPU两种硬件加速器,其中GPU为英伟达的Tesla K80,显存为12GB;TPU(Tensor Processing Units,张量处理器)是由谷歌设计专为深度学习而准备的一款处理器,显存同样为12Ghz。选择TPU进行图像训练,当训练batch-size设置为32时,365幅图片仅耗时5分钟便跑完一个epoch,速度极快
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。上面对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种基于视觉显著性和深度神经网络的图像质量评价方法,其特征在于:具体包含如下步骤;
步骤1,利用视觉显著性中的颜色显著性以及中央区域显著性,建立一种基于视觉显著性的图像显著性检测模型;
步骤2,利用人眼对颜色及图像中央特别关注的特点,生成颜色加权显著图;
步骤3,利用凸包原理,得出显著性物体的区域,生成凸包显著图;
步骤4,将颜色加权显著图和凸包显著图融合,得到最终显著图,并给出效果图;
步骤5,图像预处理:采用LIVE3DIQD_phase 1数据库作为图像预处理库,以及后面的训练库;
步骤6,融合左右眼图像的生成:通过将左视图视为参考,将左图像与右视差补偿图像融合来合成独眼图像;
步骤7,显著图像的生成:对立体失真图像进行视觉显著图的生成,融合生成的独眼图及其显著图;
步骤8,将卷积与神经网络两者相结合,得出卷积神经网络。
2.根据权利要求1所述的一种基于视觉显著性和深度神经网络的图像质量评价方法,其特征在于:在步骤2中,生成颜色加权显著图,具体如下:
利用超像素作为显著性检测估计元素,依据SLIC方法,获取输入图像的超像素;
为得到对比先验图,对于任意超像素i,计算其已经归一化到[0,1]的平均坐标pi和在CIELAB空间下的颜色均值Ci,超像素的显著值的计算如下:
Figure FDA0002386938330000011
其中,令σP为权重。
3.根据权利要求1所述的一种基于视觉显著性和深度神经网络的图像质量评价方法,其特征在于:在步骤3中,凸包显著图的生成,具体如下:
步骤3.1,将待检测图像由RGB图转换为灰度图像;
步骤3.2,进行二值图像的转化,寻找图像的轮廓得到候选的凸点;
步骤3.3,调用凸包API生成凸包图像,并进行中心坐标的确定;
步骤3.4,接着用凸包的中心坐标(a0,b0)代替传统算法中的图像中心坐标;超像素的显著值计算公式如下:
Figure FDA0002386938330000012
其中ai,bi分别为超像素i归一化到[0,1]后的水平坐标均值和垂直坐标均值,并且令上式σa=σb
4.根据权利要求1所述的一种基于视觉显著性和深度神经网络的图像质量评价方法,其特征在于:在步骤4中,最终显著图的具体表达式如下:
Sin=Sco(i)*Sce(i)。
5.根据权利要求1所述的一种基于视觉显著性和深度神经网络的图像质量评价方法,其特征在于:在步骤8中,卷积神经网络的结构具体包含:
(1)输入网络:所设计的立体失真图像评价算法,侧重于显著性,因此依赖于显著图进行训练,生成的显著图及左右眼图像均先进行切块处理,之后三种图像块分别作为输入同时输入到网络中进行计算;
(2)卷积层:卷积层是整个深度卷积网络的最重要参数,提取特征就是利用分割后的图像与卷积核进行卷积计算,其中感受视野的大小就是卷积核的大小;
(3)池化层:池化层其实就是一个压缩的过程,其池化的输入是卷积层的输出;分为max-pooling和mean-polling;
(4)全连接层:输入的三份图像经过多层池化后,可得到一维特征向量,进而在全连接层将其进行线性拼接;
(5)激活函数:线性模型的拟合能力并不足,所以需要引入非线性映射对卷积特征图进行处理,也称为激活,常用的激活函数为sigmoid;
(6)模型具体设计参数:卷积核大小设置为3*3,使用sigmoid作为激活函数,最大池化窗口大小为2*2;输入图像数量batch_size选择64,训练次数epoch选择200,以0.5的比例在全连接层对输出值进行dropout处理,以防止过度拟合;
(7)目标函数设计:目标函数设置为数据库中图像与整体质量均值的方差之和;在最终模型确立之后,通过卷积神经网络的训练即可预测得分。
CN202010101248.2A 2020-02-19 2020-02-19 一种基于视觉显著性和深度神经网络的图像质量评价方法 Active CN111882516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010101248.2A CN111882516B (zh) 2020-02-19 2020-02-19 一种基于视觉显著性和深度神经网络的图像质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010101248.2A CN111882516B (zh) 2020-02-19 2020-02-19 一种基于视觉显著性和深度神经网络的图像质量评价方法

Publications (2)

Publication Number Publication Date
CN111882516A true CN111882516A (zh) 2020-11-03
CN111882516B CN111882516B (zh) 2023-07-07

Family

ID=73154275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010101248.2A Active CN111882516B (zh) 2020-02-19 2020-02-19 一种基于视觉显著性和深度神经网络的图像质量评价方法

Country Status (1)

Country Link
CN (1) CN111882516B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488122A (zh) * 2020-11-25 2021-03-12 南京航空航天大学 一种基于卷积神经网络的全景图像视觉显著性预测方法
CN113469998A (zh) * 2021-07-21 2021-10-01 西安邮电大学 基于主观和客观特征融合的全参考图像质量评价方法
CN113781402A (zh) * 2021-08-19 2021-12-10 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 芯片表面划痕缺陷的检测方法、装置和计算机设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101506825A (zh) * 2006-08-25 2009-08-12 修复型机器人公司 用于将毛囊单位分类的系统和方法
CN102509348A (zh) * 2011-09-26 2012-06-20 北京航空航天大学 一种共享增强现实场景的真实物体多方位表示方法
CN104103082A (zh) * 2014-06-06 2014-10-15 华南理工大学 一种基于区域描述和先验知识的图像显著性检测方法
CN104994375A (zh) * 2015-07-08 2015-10-21 天津大学 一种基于立体视觉显著性的立体图像质量客观评价方法
US20170270653A1 (en) * 2016-03-15 2017-09-21 International Business Machines Corporation Retinal image quality assessment, error identification and automatic quality correction
CN108389192A (zh) * 2018-02-11 2018-08-10 天津大学 基于卷积神经网络的立体图像舒适度评价方法
CN109360178A (zh) * 2018-10-17 2019-02-19 天津大学 基于融合图像的无参考立体图像质量评价方法
CN109714593A (zh) * 2019-01-31 2019-05-03 天津大学 基于双目融合网络与显著性的立体视频质量评价方法
CN109872305A (zh) * 2019-01-22 2019-06-11 浙江科技学院 一种基于质量图生成网络的无参考立体图像质量评价方法
CN110060236A (zh) * 2019-03-27 2019-07-26 天津大学 基于深度卷积神经网络的立体图像质量评价方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101506825A (zh) * 2006-08-25 2009-08-12 修复型机器人公司 用于将毛囊单位分类的系统和方法
CN102509348A (zh) * 2011-09-26 2012-06-20 北京航空航天大学 一种共享增强现实场景的真实物体多方位表示方法
CN104103082A (zh) * 2014-06-06 2014-10-15 华南理工大学 一种基于区域描述和先验知识的图像显著性检测方法
CN104994375A (zh) * 2015-07-08 2015-10-21 天津大学 一种基于立体视觉显著性的立体图像质量客观评价方法
US20170270653A1 (en) * 2016-03-15 2017-09-21 International Business Machines Corporation Retinal image quality assessment, error identification and automatic quality correction
CN108389192A (zh) * 2018-02-11 2018-08-10 天津大学 基于卷积神经网络的立体图像舒适度评价方法
CN109360178A (zh) * 2018-10-17 2019-02-19 天津大学 基于融合图像的无参考立体图像质量评价方法
CN109872305A (zh) * 2019-01-22 2019-06-11 浙江科技学院 一种基于质量图生成网络的无参考立体图像质量评价方法
CN109714593A (zh) * 2019-01-31 2019-05-03 天津大学 基于双目融合网络与显著性的立体视频质量评价方法
CN110060236A (zh) * 2019-03-27 2019-07-26 天津大学 基于深度卷积神经网络的立体图像质量评价方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHUANG ZHANG等: "No-Reference Image Quality Assessment Using Independent Component Analysis and Convolutional Neural Network", JOURNAL OF ELECTRICAL ENGINEERING & TECHNOLOGY, vol. 14, pages 487 *
FANJIE MENG等: "Image fusion with saliency map and interest points", NEUROCOMPUTING, vol. 177, pages 1 - 8, XP029388184, DOI: 10.1016/j.neucom.2015.10.080 *
刘祥凯: "三维视频主客观质量评价方法与感知优化编码研究", 中国博士学位论文全文数据库 信息科技辑, pages 138 - 18 *
张爽爽等: "基于卷积神经网络的立体图像质量评价", 浙江科技学院学报, vol. 32, no. 01, pages 26 - 31 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488122A (zh) * 2020-11-25 2021-03-12 南京航空航天大学 一种基于卷积神经网络的全景图像视觉显著性预测方法
CN112488122B (zh) * 2020-11-25 2024-04-16 南京航空航天大学 一种基于卷积神经网络的全景图像视觉显著性预测方法
CN113469998A (zh) * 2021-07-21 2021-10-01 西安邮电大学 基于主观和客观特征融合的全参考图像质量评价方法
CN113469998B (zh) * 2021-07-21 2022-10-18 西安邮电大学 基于主观和客观特征融合的全参考图像质量评价方法
CN113781402A (zh) * 2021-08-19 2021-12-10 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 芯片表面划痕缺陷的检测方法、装置和计算机设备
CN113781402B (zh) * 2021-08-19 2024-03-26 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 芯片表面划痕缺陷的检测方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111882516B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN111709902B (zh) 基于自注意力机制的红外和可见光图像融合方法
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
Yang et al. A blind stereoscopic image quality evaluator with segmented stacked autoencoders considering the whole visual perception route
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN111882516B (zh) 一种基于视觉显著性和深度神经网络的图像质量评价方法
CN110060236B (zh) 基于深度卷积神经网络的立体图像质量评价方法
Yue et al. Blind stereoscopic 3D image quality assessment via analysis of naturalness, structure, and binocular asymmetry
CN108389192A (zh) 基于卷积神经网络的立体图像舒适度评价方法
CN109360178A (zh) 基于融合图像的无参考立体图像质量评价方法
CN108470178B (zh) 一种结合深度可信度评价因子的深度图显著性检测方法
Liu et al. Blind stereoscopic image quality assessment based on hierarchical learning
CN109523513A (zh) 基于稀疏重建彩色融合图像的立体图像质量评价方法
CN109685724A (zh) 一种基于深度学习的对称感知人脸图像补全方法
CN111709914B (zh) 一种基于hvs特性的无参考图像质量评价方法
CN107396095A (zh) 一种无参考三维图像质量评价方法
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
Liu et al. Image decolorization combining local features and exposure features
CN112991371B (zh) 一种基于着色溢出约束的图像自动着色方法及系统
CN108259893B (zh) 基于双流卷积神经网络的虚拟现实视频质量评价方法
CN113554599A (zh) 一种基于人类视觉效应的视频质量评价方法
CN113724354A (zh) 基于参考图颜色风格的灰度图像着色方法
CN108492275B (zh) 基于深度神经网络的无参考立体图像质量评价方法
CN113810683A (zh) 一种客观评估水下视频质量的无参考评价方法
Yang et al. Latitude and binocular perception based blind stereoscopic omnidirectional image quality assessment for VR system
CN111401209B (zh) 一种基于深度学习的动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant