CN110956201B

CN110956201B - 一种基于卷积神经网络的图像失真类型分类方法

Info

Publication number: CN110956201B
Application number: CN201911079537.0A
Authority: CN
Inventors: 桑庆兵; 朱玲莹; 孙俊; 吴小俊
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2023-07-25
Anticipated expiration: 2039-11-07
Also published as: CN110956201A

Abstract

本发明提供一种基于卷积神经网络的图像失真类型分类方法，其可以快速进行分类，且自动实施，无需人工判断，判断结果更为准确。其包括步骤：S1：得到待分类失真图像；S2：搭建基于卷积神经网络的图像失真类型分类模型；模型包括依次连接的输送层、第一卷积块、第二卷积块、第三卷积块，最后连接连续的三个全连接层；每一个卷积块后面跟着一个池化层；第一卷积块包括卷积核为11×11的卷积层，第二卷积块包括卷积核为5×5的卷积层，第三个卷积块包括卷积核为3×3的卷积层；三个全连接层中最后一个全连接层设置与失真类型对应的输出单元；S3：训练分类模型，得到训练好的分类模型；S4:将待分类失真图像输入到训练好的分类模型，进行图像分类。

Description

一种基于卷积神经网络的图像失真类型分类方法

技术领域

本发明涉及图像处理技术领域，具体为一种基于卷积神经网络的图像失真类型分类方法。

背景技术

图像在采集、存储、处理、传输和接收过程中不可避免地遭受不同类型的失真，导致图像质量下降，产生失真图像。针对失真图像，首先对所有的失真图像进行分类，然后不同的失真类型对失真图像进行后续不同方式的处理。

现有技术中，对于失真图像的失真类型判断主要是通过人为进行主观判断，然而当需要处理的图片数量比较大的时候，对于失真图像的分类工作会浪费大量的人力资源；而且，而失真图像的失真类型变化多样，同种类的失真类型的失真等级存在很多种情况，不同等级的不同种失真类型可能存在相似的特征，很多时候人眼也很难辨别，非常容易出错。

发明内容

为了解决人工对失真图像分类导致费时长、容易出错的问题，本发明提供一种基于卷积神经网络的图像失真类型分类方法，其可以快速进行分类，且自动实施，无需人工判断，判断结果更为准确。

本发明的技术方案是这样的：一种基于卷积神经网络的图像失真类型分类方法，其包括以下步骤：

S1：获取所有的失真图像，进行预处理后，得到待分类失真图像；

S2：搭建基于卷积神经网络的图像失真类型分类模型；

S3：训练所述图像失真类型分类模型，得到训练好的图像失真类型分类模型；

S4:将所有的所述待分类失真图像依次输入到S3中得到的所述训练好的图像失真类型分类模型，进行图像分类，输出每一个所述待分类失真图像对应的失真类型，将分类完毕的失真图像与其失真类型整理后用于后续图像处理；

其特征在于：

步骤S2中搭建的所述图像失真类型分类模型包括依次连接的输送层、第一卷积块、第二卷积块、第三卷积块，最后连接连续的三个全连接层；每一个卷积块后面跟着一个池化层；所述第一卷积块包括卷积核为11×11的卷积层，所述第二卷积块包括卷积核为5×5的卷积层，所述第三个卷积块包括卷积核为3×3的卷积层；三个所述全连接层中最后一个所述全连接层设置与失真类型对应的输出单元。

其进一步特征在于：

所述第一卷积块包括一个卷积层；所述第二卷积块包括2个卷积层；所述第三卷积块包括2个卷积层；每个所述卷积层后面都跟着一个激活函数；

所述输出单元对应的输出类型包括：噪声失真、模糊失真、JPEG压缩失真、JPEG2000压缩失真；

所述图像失真类型分类模型中的所述池化层采用最大池化层，池化计算公式如下：

式中，μ_k为最大池化；k为卷积核的数量，k＝1,2,......,K；M表示特征图；

表示卷积后的第k个特征图；Ω为池化局部大小；

三个所述全连接层中，第一个全连接层的单元个数设置为2048个，第二个全连接层的单元个数设置为4096个；

在第一个全连接层、第二个全连接层中分别使用dropout技术，概率设置为0.5；

在最后一个全连接层后面使用多分类交叉熵损失函数：

式中，是实际值；z_i为输出值；f()是softmax激活函数；

步骤S1中，将所述失真图像边缘切除，统一图像尺寸为127×127后，得到所述待分类失真图像；

步骤S3中，训练所述图像失真类型分类模型，学习率更新方式如下：

Ir＝base_Ir*gamma^(floor(iter/stepsize)

式中，base_Ir是基础学习率；iter为当前迭代次数；gamma是学习速率变化因子，设置为0.1；stepsize设置为20000；

步骤S3中，模型参数初始化如下：

基础学习率base_Ir设为0.001，动量momentum设置为0.9，训练批量大小batchsize设置为100，重量衰减weightdecay设置为0.0005。

本发明提供的一种基于卷积神经网络的图像失真类型分类方法，把预处理后的待分类图像输入到图像失真类型分类模型中，首先通过第一卷积块中的卷积核为11×11的卷积层进行图像特征提取，后面设置包括卷积核为5×5卷积层的第二卷积块、包括卷积核为3×3卷积层的第三卷积块，通过这两个卷积块加深网络深度进而增强网络容量和复杂度，使得网络模模型可以提取高层抽象特征，因为失真图像具有不同等级的不同种失真类型可能存在相似的特征这样的特性，通过这样的卷积块结构的设置提取高层抽象特征，有针对性的确保失真图像分类的准确性；每一个卷积块后面设置一个池化层，有助于特征降维同时有特征不变性的功效，减小了下一层的输入大小，减少了计算量核参数的个数，且使模型可以抽取更广范围的特征，因为失真图像的特征之一是同种失真类型的存在多种失真等级，通过池化层的设置使被分类图像的更多的特征被抽取，进而确保分类更加准确；在对失真图像进预处理，使所有的待处理失真图像的像素都保持127×127，这个尺寸的图像块可包含较多的失真信息，且计算量在可控范围内，进一步的确保了分类结果的准确性；通过本发明的技术方案，可以对输入的失真图像进行快速自动分类，且可以确保分类的准确率。

附图说明

图1为本发明的网络模型结构示意图。

具体实施方式

如图1所示，本发明一种基于卷积神经网络的图像失真类型分类方法，其包括以下步骤。

S1：获取所有的失真图像，将失真图像边缘切除，统一图像尺寸为127×127后，得到待分类失真图像；把失真图像的设置为像素为127×127的图像块，这个尺寸的通信快中包含较多的失真信息，经过网络模型可以提取更多的图像特征，确保分类结果的准确性。

S2：搭建基于卷积神经网络的图像失真类型分类模型；

图像失真类型分类模型包括依次连接的输送层、第一卷积块、第二卷积块、第三卷积块，最后连接连续的三个全连接层；每一个卷积块后面跟着一个池化层，通过池化层降低参数防止过拟合，更方便网络模型的优化；

图像失真类型分类模型中的池化层采用最大池化层，池化层采用最大池化，通过最大池化更多地保留图像的纹理信息；池化计算公式如下：

式中：μ_k为最大池化；k为卷积核的数量，k＝1,2,......,K；M表示特征图；

表示卷积后的第k个特征图；Ω为池化局部大小；

第一卷积块包括卷积核为11×11的卷积层，第二卷积块包括卷积核为5×5的卷积层，第三个卷积块包括卷积核为3×3的卷积层；第一卷积块包括一个卷积层；第二卷积块包括2个卷积层；第三卷积块包括2个卷积层；为避免梯度消失问题，每个卷积层后面都跟着一个激活函数，激活函数使用修正线性单元(Rectified Linear Units,ReLU)；通过连续的设置两个卷积核为5×5的卷积层、两个卷积核为3×3的卷积层，在确保能够抽取更广范围的特征的基础上，减少了计算量，使模型的适用性更高；

三个全连接层中最后一个全连接层设置与失真类型对应的输出单元；三个全连接层中，第一个全连接层的单元个数设置为2048个，第二个全连接层的单元个数设置为4096个；通过全连接层整合了具有类别区分性的信息，将通过前面三个卷积块学到的“分布式特征表示”映射到样本标记空间；同时，为了防止过拟合，在第一个全连接层、第二个全连接层中分别使用dropout技术，概率设置为0.5；

在最后一个全连接层后面使用多分类交叉熵损失函数执行分类任务，通过多分类交叉熵损失函数的设置，使网络模型的计算简单，且损失仅与正确类别的概率有关，网络收敛速度快，进一步确保了通过网络可以快速且准确的进行分类；其计算公式如下所示：

式中，是实际值；z_i为输出值；

f()是softmax激活函数，其公式为：

图像失真类型分类模型的网络机构的详细参数如下表1：

表1：网络结构详细参数

表中，k代表卷积核大小或者池化层中的局部窗口大小，n为卷积核个数(通道数)，s表示步长，p表示扩充边缘大小。

S3：训练图像失真类型分类模型，得到训练好的图像失真类型分类模型；

选取不同失真类型的失真图像，对构建好的图像失真类型分类模型进行训练；选取训练图片的时候，选取单失真图像，且具有以下四种失真类型之一，即噪声失真(WN)，模糊失真(Blur)，JPEG压缩失真(JPEG)，JPEG2000压缩失真(JP2K)；将失真图像边缘切除，统一图像尺寸为127×127后，输入到网络模型中，进行训练；

模型参数初始化如下：

基础学习率base_Ir设为0.001，动量momentum设置为0.9，训练批量大小batchsize设置为100，重量衰减weightdecay设置为0.0005；网络中权重采用标准差为0.01的高斯分布初始化(gaussian)，偏置进行全零初始化；学习率更新方式如下：

Ir＝base_Ir*gamma^(floor(iter/stepsize)

式中，base_Ir是基础学习率；iter为当前迭代次数；gamma是学习速率变化因子，设置为0.1；stepsize设置为20000；在网络训练过程中，随着向全局最优点逼近，为避免跳过全局最优点，则保持学习率越来越小。本发明的技术方案中，学习策略采用均匀降低的方式，每训练20000次就将学习率降低为原来的十倍。属于非连续型的变换，使用简单，且收敛效果好。

S4:将所有的待分类失真图像依次输入到S3中得到的训练好的图像失真类型分类模型，进行图像分类，输出每一个待分类失真图像对应的失真类型，将分类完毕的失真图像与其失真类型整理后用于后续图像处理；输出单元对应的输出类型包括：噪声失真、模糊失真、JPEG压缩失真、JPEG2000压缩失真。

在美国德州大学Austin分校LIVE实验室图像质量评价数据库上进行测试；该数据库中共有779幅失真图像，其中噪声失真图像共有145幅、模糊失真图像共有145幅、JPEG压缩失真共有175幅、JPEG2000压缩失真共有169幅，选取这634幅失真图像，使用本发明的图像失真类型分类模型进行分类实验，分类结果如下表2所示：

表2：在LIVE数据库上的分类正确率

模型	分类结果
		本发明方法	96.9％

使用本发明的技术方案后，将失真图像整理为像素为127×127的图像块，输入到图像失真类型分类模型中之后，首先通过三个卷积块进行特征提取，每经过一个卷积块提取图像特征后，通过池化层进行降参优化、减少过拟合，然后通过两个全连接层把前面提取到图像特征进行重组，然后通过最后一个全连接层进行分类，输出此图片对应的失真类型。全部过程都通过网络模型自动实施，无需人工干扰，网络结构简单，准确率高。

Claims

1.一种基于卷积神经网络的图像失真类型分类方法，其包括以下步骤：

S2：搭建基于卷积神经网络的图像失真类型分类模型；

其特征在于：

步骤S2中搭建的所述图像失真类型分类模型包括依次连接的输送层、第一卷积块、第二卷积块、第三卷积块，最后连接连续的三个全连接层；每一个卷积块后面跟着一个池化层；所述第一卷积块包括卷积核为11×11的卷积层，所述第二卷积块包括卷积核为5×5的卷积层，所述第三卷积块包括卷积核为3×3的卷积层；三个所述全连接层中最后一个所述全连接层设置与失真类型对应的输出单元；

表示卷积后的第k个特征图；Ω为池化局部大小。

2.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法，其特征在于：所述第一卷积块包括一个卷积层；所述第二卷积块包括2个卷积层；所述第三卷积块包括2个卷积层；每个所述卷积层后面都跟着一个激活函数。

3.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法，其特征在于：所述输出单元对应的输出类型包括：噪声失真、模糊失真、JPEG压缩失真、JPEG2000压缩失真。

4.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法，其特征在于：三个所述全连接层中，第一个全连接层的单元个数设置为2048个，第二个全连接层的单元个数设置为4096个。

5.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法，其特征在于：在第一个全连接层、第二个全连接层中分别使用dropout技术，概率设置为0.5。

6.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法，其特征在于：在最后一个全连接层后面使用多分类交叉熵损失函数：

式中，是实际值；z_i为输出值；f()是softmax激活函数。

7.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法，其特征在于：步骤S1中，将所述失真图像边缘切除，统一图像尺寸为127×127后，得到所述待分类失真图像。

8.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法，其特征在于：步骤S3中，训练所述图像失真类型分类模型，学习率更新方式如下：

Ir＝base_Ir*gamma^∧(floor(iter/stepsize)

式中，base_Ir是基础学习率；iter为当前迭代次数；gamma是学习速率变化因子，设置为0.1；

stepsize设置为20000。

9.根据权利要求8所述一种基于卷积神经网络的图像失真类型分类方法，其特征在于：步骤S3中，模型参数初始化如下：