CN111583213B

CN111583213B - 一种基于深度学习和无参考质量评价的图像生成方法

Info

Publication number: CN111583213B
Application number: CN202010358981.2A
Authority: CN
Inventors: 李晨; 田丽华; 袁田
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2022-06-07
Anticipated expiration: 2040-04-29
Also published as: CN111583213A

Abstract

本发明公开了一种基于深度学习和无参考质量评价的图像生成方法，使用深度学习神经网络模型中的特征图进行分析，找出控制图像中某个单元类的控制单元，控制单元就是神经网络中的某一层或者某几层特征图，然后通过修改网络中该层特征图的参数，如激活函数等，达到对于单元类的增强展示和抑制展示的效果，这个方法不同于传统的图像生成，也不同于深度学习中的GAN网络，传统的图像生成是对于图像的像素值进行计算处理，以及进行传统的灰度变换和裁剪平移等，GAN网络更多是随机生成的图像，不具有解释性，本发明是可以看到具体的控制单元特征图和参数的。

Description

一种基于深度学习和无参考质量评价的图像生成方法

技术领域

本发明属于计算机视觉、深度学习、图像质量评价领域，特别涉及一种基于深度学习图像编辑无参考图像质量评价的数据生成方法。

背景技术

现有的无参考图像质量评价方法主要有：

1，基于边缘分析的方法：一般来说,图像模糊会造成边缘展宽,因此有很多模糊估计算法以分析边缘的宽度为基础.为排除噪声和某些孤立点的影响,许多算法对边缘进行了数据拟合和阈值处理。根据阶跃边缘估计线扩散函数和点扩散函数,以点扩散函数的半径作为图像模糊度的度量。这个方法的缺点是对图像内容有一定的依赖性,当原始图像中缺少锐利边缘时会导致估计不准确.

2.基于变换域的方法：考虑到各种变换域对图像特征表示的有效性,以及图像模糊在频率域具有一定的表现形式(比如高频信号衰减),有许多方法在不同的数据变换域,如离散余弦变换(Discrete cosine transform,DCT)、离散小波变换(Discretewavelettransform,DWT)进行模糊评价,有些算法综合利用空间域和变换域信息.缺点是传统的方法计算量大，精确度也不高。

3.基于像素统计信息的方法：有些模糊度评价算法虽然在空间域进行估计,但不进行局部边缘展宽分析,而是依赖于图像像素的一些统计信息及其相对变化。比如图像模糊时相邻灰度差异的方差会变小,通过全图抽样和分块计算差异方差后,根据它们是否满足一定阈值条件及相互之间的关系将图像的模糊程度分为整体锐利、平均质量、整体模糊等三类。缺点是忽略了像素的位置信息,图像中的噪声(尤其是脉冲噪声)会形成较强的梯度值,从而对估计造成较大的影响。

4，近几年基于机器学习和深度学习的方法应用在无参考图像质量评价中越来越多，主要是两大类，第一类是基于监督学习的无参考图像质量评价算法，其主要包括基于传统机器学习的方法和基于深度学习的方法。基于传统机器学习的该类方法旨在设计有效的视觉特征表达方法，通过支持向量回归等传统机器学习方法学习视觉特征到图像视觉质量的映射模型，而基于深度学习的方法则主要通过构建深度神经网络，学习图像的视觉特征以构建图像质量评价模型，或直接通过端到端来学习失真图像到图像视觉质量的函数表达。第二类是类似基于监督学习的无参考图像质量评价算法，基于无监督学习的无参考图像质量评价算法主要包括基于传统机器学习的方法和基于深度学习的方法。如使用卷积神经网络进行特征提取，基于权重共享的全连接神经网络图像质量评价模型。或者使用GAN网络来生成参考图来进行图像质量评价。

现有的图像生成方法，主要有传统的图像增强和基于深度学习网络的GAN网络模型生成方法。

现有技术存在的缺点主要在于数据集比较少，传统方法具有计算量大、精确度低等缺点，而且需要消耗大量的人力物力来进行数据集收集和筛选，基于GAN和其他机器学习的方法存在生成图像质量不容易控制和人为干预的特点，导致精确度容易不理想等结果。

发明内容

本发明为了克服上述现有技术不足，提供一种基于深度学习和无参考质量评价的图像生成方法，使得图像生成更加智能，更加多样，质量更好

本发明的技术方案是这样实现的：

1，数据集收集和整理：收集目前最大的无参考图像质量评价数据集，比如koniq-10k数据集，KADID-10K数据集，TID2013数据集等。

2，使用图像编辑技术对搭建深度学习网络模型，主要设计如下：

2)首先是找到控制图片中某一对象的生成神经网络单元参数：对于一维随机向量z,将其输入到GAN网络中的生成器中，通过某一层卷积神经网络，这里用公式h(z)＝r表示，r就是对随机向量z进行特征提取得到的中间特征图，最后由于中间特征图r具有产生图像x＝f(r)所需的所有数据，因此必然包含用于推断图像中是否存在任何可见类的信息，这里的类就是指图片中所包含的某个对象，比如一张图片中里面的“树木”或者“汽车”。因此，我们要问的问题不是信息是否存在，而是如何将信息编码的那个特征图找到。尤其是，对于来自图片中的任何类，我们试图找到相应的控制这个类产生和消失的特征图以及其相应的参数。步骤如下：

a)对于由随机向量z输入后经过处理后的特征图r，对于r中每个通道的热力图单元u进行上采样，上采样的方式是通过设置阈值来生成的，生成之后的图片分成两部分，一部分是属于相应类别，一部分是不属于这类的(比如一部分是认为生成“树”这个类别的单元)。阈值的设置原则见第③步

b)对于经过相同GAN网络之后生成的图片，通过使用MASK-RCNN图像分割网络进行图像分割依然会生成一张图片，也拥有两部分，一部分是属于相应的类别，一部分是不属于，(比如一部分是“树”这个类别的像素点，另一部分是其他像素点)。

c)对于热力图的阈值设定原则是是第①步和第②步中相应属于相同类别的单元像素重叠比最大的值，就是我们确定的阈值。

3，在得到第2步的结果之后，接下来我们就确定了对于图片中某一个类别(比如图片中的树木)，它的生成的控制单元，也就是相应深度学习网络中的特征图中的参数了，接下来对该层网络进行处理，也就是对网络模型参数进行修改，有两种方式：

①增强：例如增大参数的值，也就是在深度网络参数传递中，将控制某一对象的特征图单元中的参数值调大，使得其生成后的图片更加“增强表达”这个对象类。

②抑制：减少参数的值，也就是在深度网络参数传递中，将控制某一对象的特征图单元中的参数值调小甚至调整为0，使得其生成后的图片更加“减少表达”这个对象类。

本发明通过对生成后的图像进行无参考图像质量评价，使用koncept50(19年提出的无参考图像质量评价模型)进行处理打分，由于模型输出分数在0-120之间，基于经验和官方数据集打分规律，在先验基础上，本发明取65分以上为阈值，对于打分超过的图像数据集予以保存，不符合要求的从第2步重新开始处理图片。

本发明使用深度学习神经网络模型中的特征图进行分析，找出控制图像中某个单元类的控制单元，控制单元就是神经网络中的某一层或者某几层特征图，然后通过修改网络中该层特征图的参数，如激活函数等，达到对于单元类的增强展示和抑制展示的效果，这个方法不同于传统的图像生成，也不同于深度学习中的GAN网络，传统的图像生成是对于图像的像素值进行计算处理，以及进行传统的灰度变换和裁剪平移等，GAN网络更多是随机生成的图像，不具有解释性，本发明是可以看到具体的控制单元特征图和参数的。

之前的图像生成方法中，在生成图像之后没有对图像进行打分筛选这个步骤，而是更多地进行人为挑选和简单的过滤处理，如图像分辨率，人为判断图像是否满意，泛化性比较差，本发明通过引入图像质量评价，进行自动化处理且具有很好的筛选效果。

附图说明

图1是本发明的流程图

具体实施方式

3)首先是找到控制图片中某一对象的生成神经网络单元参数：对于一维随机向量z,将其输入到GAN网络中的生成器中，通过某一层卷积神经网络，这里用公式h(z)＝r表示，r就是对随机向量z进行特征提取得到的中间特征图，最后由于中间特征图r具有产生图像x＝f(r)所需的所有数据，因此必然包含用于推断图像中是否存在任何可见类的信息，这里的类就是指图片中所包含的某个对象，比如一张图片中里面的“树木”或者“汽车”。因此，我们要问的问题不是信息是否存在，而是如何将信息编码的那个特征图找到。尤其是，对于来自图片中的任何类，我们试图找到相应的控制这个类产生和消失的特征图以及其相应的参数。步骤如下：

③增强：例如增大参数的值，也就是在深度网络参数传递中，将控制某一对象的特征图单元中的参数值调大，使得其生成后的图片更加“增强表达”这个对象类。

抑制：减少参数的值，也就是在深度网络参数传递中，将控制某一对象的特征图单元中的参数值调小甚至调整为0，使得其生成后的图片更加“减少表达”这个对象类。

Claims

1.基于深度学习和无参考质量评价的图像生成方法，其特征在于，包括以下步骤：

步骤一：数据集收集和整理：收集目前最大的无参考图像质量评价数据集，koniq-10k数据集，KADID-10K数据集，TID2013数据集；

步骤二：使用图像编辑技术搭建深度学习网络模型，步骤如下：

首先找到控制图片生成中某一对象的生成神经网络的单元参数：对于一维随机向量z,将其输入到GAN网络中的生成器中，通过某一层卷积神经网络，这里用公式h(z)＝r表示，r就是对随机向量z进行特征提取得到的中间特征图，最后由于中间特征图r具有产生图像x＝f(r)所需的所有数据，因此必然包含用于推断图像中是否存在任何可见类的信息，这里的类就是指图片中所包含的某个对象，对于一张图片中里面的“树木”或者“汽车”，将信息编码的那个特征图找到，对于来自图片中的任何类，找到相应的控制这个类产生和消失的特征图以及其相应的参数，具体步骤如下：

a)对于由随机向量z输入后经过处理后的特征图r，对于r中每个通道的热力图单元u进行上采样，上采样的方式是通过设置阈值来生成的，生成之后的图片分成两部分，一部分是属于相应类别，一部分是不属于这类的，对于一部分是认为生成“树”类别的单元，阈值的设置原则见步骤c)；

b)对于经过相同GAN网络之后生成的图片，通过使用MASK-RCNN图像分割网络进行图像分割依然会生成一张图片，也拥有两部分，一部分是属于相应的类别，一部分是不属于，对于一部分是“树”这个类别的像素点，另一部分是其他像素点；

c)对于热力图的阈值设定原则是步骤a)和步骤中b)相应属于相同类别的单元像素重叠比最大的值，就是阈值；

步骤三：在得到步骤二的结果之后，确定了对于图片中某一个类别，对于图片中的树木，它的生成的控制单元，也就是相应深度学习网络中的特征图中的参数了，接下来对该层网络进行处理，也就是对网络模型参数进行修改，有两种方式：

增强：增大参数的值，也就是在深度网络参数传递中，将控制某一对象的特征图单元中的参数值调大，使得其生成后的图片更加“增强表达”这个对象类；

抑制：减少参数的值，也就是在深度网络参数传递中，将控制某一对象的特征图单元中的参数值调小甚至调整为0，使得其生成后的图片更加“减少表达”这个对象类；

步骤四：使用无参考图像质量评价网络对图片进行打分，输出打分值score,根据打分值保存最终图片。