CN110956201B - 一种基于卷积神经网络的图像失真类型分类方法 - Google Patents

一种基于卷积神经网络的图像失真类型分类方法 Download PDF

Info

Publication number
CN110956201B
CN110956201B CN201911079537.0A CN201911079537A CN110956201B CN 110956201 B CN110956201 B CN 110956201B CN 201911079537 A CN201911079537 A CN 201911079537A CN 110956201 B CN110956201 B CN 110956201B
Authority
CN
China
Prior art keywords
convolution
layer
image distortion
image
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911079537.0A
Other languages
English (en)
Other versions
CN110956201A (zh
Inventor
桑庆兵
朱玲莹
孙俊
吴小俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201911079537.0A priority Critical patent/CN110956201B/zh
Publication of CN110956201A publication Critical patent/CN110956201A/zh
Application granted granted Critical
Publication of CN110956201B publication Critical patent/CN110956201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于卷积神经网络的图像失真类型分类方法,其可以快速进行分类,且自动实施,无需人工判断,判断结果更为准确。其包括步骤:S1:得到待分类失真图像;S2:搭建基于卷积神经网络的图像失真类型分类模型;模型包括依次连接的输送层、第一卷积块、第二卷积块、第三卷积块,最后连接连续的三个全连接层;每一个卷积块后面跟着一个池化层;第一卷积块包括卷积核为11×11的卷积层,第二卷积块包括卷积核为5×5的卷积层,第三个卷积块包括卷积核为3×3的卷积层;三个全连接层中最后一个全连接层设置与失真类型对应的输出单元;S3:训练分类模型,得到训练好的分类模型;S4:将待分类失真图像输入到训练好的分类模型,进行图像分类。

Description

一种基于卷积神经网络的图像失真类型分类方法
技术领域
本发明涉及图像处理技术领域,具体为一种基于卷积神经网络的图像失真类型分类方法。
背景技术
图像在采集、存储、处理、传输和接收过程中不可避免地遭受不同类型的失真,导致图像质量下降,产生失真图像。针对失真图像,首先对所有的失真图像进行分类,然后不同的失真类型对失真图像进行后续不同方式的处理。
现有技术中,对于失真图像的失真类型判断主要是通过人为进行主观判断,然而当需要处理的图片数量比较大的时候,对于失真图像的分类工作会浪费大量的人力资源;而且,而失真图像的失真类型变化多样,同种类的失真类型的失真等级存在很多种情况,不同等级的不同种失真类型可能存在相似的特征,很多时候人眼也很难辨别,非常容易出错。
发明内容
为了解决人工对失真图像分类导致费时长、容易出错的问题,本发明提供一种基于卷积神经网络的图像失真类型分类方法,其可以快速进行分类,且自动实施,无需人工判断,判断结果更为准确。
本发明的技术方案是这样的:一种基于卷积神经网络的图像失真类型分类方法,其包括以下步骤:
S1:获取所有的失真图像,进行预处理后,得到待分类失真图像;
S2:搭建基于卷积神经网络的图像失真类型分类模型;
S3:训练所述图像失真类型分类模型,得到训练好的图像失真类型分类模型;
S4:将所有的所述待分类失真图像依次输入到S3中得到的所述训练好的图像失真类型分类模型,进行图像分类,输出每一个所述待分类失真图像对应的失真类型,将分类完毕的失真图像与其失真类型整理后用于后续图像处理;
其特征在于:
步骤S2中搭建的所述图像失真类型分类模型包括依次连接的输送层、第一卷积块、第二卷积块、第三卷积块,最后连接连续的三个全连接层;每一个卷积块后面跟着一个池化层;所述第一卷积块包括卷积核为11×11的卷积层,所述第二卷积块包括卷积核为5×5的卷积层,所述第三个卷积块包括卷积核为3×3的卷积层;三个所述全连接层中最后一个所述全连接层设置与失真类型对应的输出单元。
其进一步特征在于:
所述第一卷积块包括一个卷积层;所述第二卷积块包括2个卷积层;所述第三卷积块包括2个卷积层;每个所述卷积层后面都跟着一个激活函数;
所述输出单元对应的输出类型包括:噪声失真、模糊失真、JPEG压缩失真、JPEG2000压缩失真;
所述图像失真类型分类模型中的所述池化层采用最大池化层,池化计算公式如下:
式中,μk为最大池化;k为卷积核的数量,k=1,2,......,K;M表示特征图;
表示卷积后的第k个特征图;Ω为池化局部大小;
三个所述全连接层中,第一个全连接层的单元个数设置为2048个,第二个全连接层的单元个数设置为4096个;
在第一个全连接层、第二个全连接层中分别使用dropout技术,概率设置为0.5;
在最后一个全连接层后面使用多分类交叉熵损失函数:
式中,是实际值;zi为输出值;f()是softmax激活函数;
步骤S1中,将所述失真图像边缘切除,统一图像尺寸为127×127后,得到所述待分类失真图像;
步骤S3中,训练所述图像失真类型分类模型,学习率更新方式如下:
Ir=base_Ir*gamma^(floor(iter/stepsize)
式中,base_Ir是基础学习率;iter为当前迭代次数;gamma是学习速率变化因子,设置为0.1;stepsize设置为20000;
步骤S3中,模型参数初始化如下:
基础学习率base_Ir设为0.001,动量momentum设置为0.9,训练批量大小batchsize设置为100,重量衰减weightdecay设置为0.0005。
本发明提供的一种基于卷积神经网络的图像失真类型分类方法,把预处理后的待分类图像输入到图像失真类型分类模型中,首先通过第一卷积块中的卷积核为11×11的卷积层进行图像特征提取,后面设置包括卷积核为5×5卷积层的第二卷积块、包括卷积核为3×3卷积层的第三卷积块,通过这两个卷积块加深网络深度进而增强网络容量和复杂度,使得网络模模型可以提取高层抽象特征,因为失真图像具有不同等级的不同种失真类型可能存在相似的特征这样的特性,通过这样的卷积块结构的设置提取高层抽象特征,有针对性的确保失真图像分类的准确性;每一个卷积块后面设置一个池化层,有助于特征降维同时有特征不变性的功效,减小了下一层的输入大小,减少了计算量核参数的个数,且使模型可以抽取更广范围的特征,因为失真图像的特征之一是同种失真类型的存在多种失真等级,通过池化层的设置使被分类图像的更多的特征被抽取,进而确保分类更加准确;在对失真图像进预处理,使所有的待处理失真图像的像素都保持127×127,这个尺寸的图像块可包含较多的失真信息,且计算量在可控范围内,进一步的确保了分类结果的准确性;通过本发明的技术方案,可以对输入的失真图像进行快速自动分类,且可以确保分类的准确率。
附图说明
图1为本发明的网络模型结构示意图。
具体实施方式
如图1所示,本发明一种基于卷积神经网络的图像失真类型分类方法,其包括以下步骤。
S1:获取所有的失真图像,将失真图像边缘切除,统一图像尺寸为127×127后,得到待分类失真图像;把失真图像的设置为像素为127×127的图像块,这个尺寸的通信快中包含较多的失真信息,经过网络模型可以提取更多的图像特征,确保分类结果的准确性。
S2:搭建基于卷积神经网络的图像失真类型分类模型;
图像失真类型分类模型包括依次连接的输送层、第一卷积块、第二卷积块、第三卷积块,最后连接连续的三个全连接层;每一个卷积块后面跟着一个池化层,通过池化层降低参数防止过拟合,更方便网络模型的优化;
图像失真类型分类模型中的池化层采用最大池化层,池化层采用最大池化,通过最大池化更多地保留图像的纹理信息;池化计算公式如下:
式中:μk为最大池化;k为卷积核的数量,k=1,2,......,K;M表示特征图;
表示卷积后的第k个特征图;Ω为池化局部大小;
第一卷积块包括卷积核为11×11的卷积层,第二卷积块包括卷积核为5×5的卷积层,第三个卷积块包括卷积核为3×3的卷积层;第一卷积块包括一个卷积层;第二卷积块包括2个卷积层;第三卷积块包括2个卷积层;为避免梯度消失问题,每个卷积层后面都跟着一个激活函数,激活函数使用修正线性单元(Rectified Linear Units,ReLU);通过连续的设置两个卷积核为5×5的卷积层、两个卷积核为3×3的卷积层,在确保能够抽取更广范围的特征的基础上,减少了计算量,使模型的适用性更高;
三个全连接层中最后一个全连接层设置与失真类型对应的输出单元;三个全连接层中,第一个全连接层的单元个数设置为2048个,第二个全连接层的单元个数设置为4096个;通过全连接层整合了具有类别区分性的信息,将通过前面三个卷积块学到的“分布式特征表示”映射到样本标记空间;同时,为了防止过拟合,在第一个全连接层、第二个全连接层中分别使用dropout技术,概率设置为0.5;
在最后一个全连接层后面使用多分类交叉熵损失函数执行分类任务,通过多分类交叉熵损失函数的设置,使网络模型的计算简单,且损失仅与正确类别的概率有关,网络收敛速度快,进一步确保了通过网络可以快速且准确的进行分类;其计算公式如下所示:
式中,是实际值;zi为输出值;
f()是softmax激活函数,其公式为:
图像失真类型分类模型的网络机构的详细参数如下表1:
表1:网络结构详细参数
表中,k代表卷积核大小或者池化层中的局部窗口大小,n为卷积核个数(通道数),s表示步长,p表示扩充边缘大小。
S3:训练图像失真类型分类模型,得到训练好的图像失真类型分类模型;
选取不同失真类型的失真图像,对构建好的图像失真类型分类模型进行训练;选取训练图片的时候,选取单失真图像,且具有以下四种失真类型之一,即噪声失真(WN),模糊失真(Blur),JPEG压缩失真(JPEG),JPEG2000压缩失真(JP2K);将失真图像边缘切除,统一图像尺寸为127×127后,输入到网络模型中,进行训练;
模型参数初始化如下:
基础学习率base_Ir设为0.001,动量momentum设置为0.9,训练批量大小batchsize设置为100,重量衰减weightdecay设置为0.0005;网络中权重采用标准差为0.01的高斯分布初始化(gaussian),偏置进行全零初始化;学习率更新方式如下:
Ir=base_Ir*gamma^(floor(iter/stepsize)
式中,base_Ir是基础学习率;iter为当前迭代次数;gamma是学习速率变化因子,设置为0.1;stepsize设置为20000;在网络训练过程中,随着向全局最优点逼近,为避免跳过全局最优点,则保持学习率越来越小。本发明的技术方案中,学习策略采用均匀降低的方式,每训练20000次就将学习率降低为原来的十倍。属于非连续型的变换,使用简单,且收敛效果好。
S4:将所有的待分类失真图像依次输入到S3中得到的训练好的图像失真类型分类模型,进行图像分类,输出每一个待分类失真图像对应的失真类型,将分类完毕的失真图像与其失真类型整理后用于后续图像处理;输出单元对应的输出类型包括:噪声失真、模糊失真、JPEG压缩失真、JPEG2000压缩失真。
在美国德州大学Austin分校LIVE实验室图像质量评价数据库上进行测试;该数据库中共有779幅失真图像,其中噪声失真图像共有145幅、模糊失真图像共有145幅、JPEG压缩失真共有175幅、JPEG2000压缩失真共有169幅,选取这634幅失真图像,使用本发明的图像失真类型分类模型进行分类实验,分类结果如下表2所示:
表2:在LIVE数据库上的分类正确率
模型 分类结果
本发明方法 96.9%
使用本发明的技术方案后,将失真图像整理为像素为127×127的图像块,输入到图像失真类型分类模型中之后,首先通过三个卷积块进行特征提取,每经过一个卷积块提取图像特征后,通过池化层进行降参优化、减少过拟合,然后通过两个全连接层把前面提取到图像特征进行重组,然后通过最后一个全连接层进行分类,输出此图片对应的失真类型。全部过程都通过网络模型自动实施,无需人工干扰,网络结构简单,准确率高。

Claims (9)

1.一种基于卷积神经网络的图像失真类型分类方法,其包括以下步骤:
S1:获取所有的失真图像,进行预处理后,得到待分类失真图像;
S2:搭建基于卷积神经网络的图像失真类型分类模型;
S3:训练所述图像失真类型分类模型,得到训练好的图像失真类型分类模型;
S4:将所有的所述待分类失真图像依次输入到S3中得到的所述训练好的图像失真类型分类模型,进行图像分类,输出每一个所述待分类失真图像对应的失真类型,将分类完毕的失真图像与其失真类型整理后用于后续图像处理;
其特征在于:
步骤S2中搭建的所述图像失真类型分类模型包括依次连接的输送层、第一卷积块、第二卷积块、第三卷积块,最后连接连续的三个全连接层;每一个卷积块后面跟着一个池化层;所述第一卷积块包括卷积核为11×11的卷积层,所述第二卷积块包括卷积核为5×5的卷积层,所述第三卷积块包括卷积核为3×3的卷积层;三个所述全连接层中最后一个所述全连接层设置与失真类型对应的输出单元;
所述图像失真类型分类模型中的所述池化层采用最大池化层,池化计算公式如下:
式中,μk为最大池化;k为卷积核的数量,k=1,2,......,K;M表示特征图;
表示卷积后的第k个特征图;Ω为池化局部大小。
2.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法,其特征在于:所述第一卷积块包括一个卷积层;所述第二卷积块包括2个卷积层;所述第三卷积块包括2个卷积层;每个所述卷积层后面都跟着一个激活函数。
3.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法,其特征在于:所述输出单元对应的输出类型包括:噪声失真、模糊失真、JPEG压缩失真、JPEG2000压缩失真。
4.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法,其特征在于:三个所述全连接层中,第一个全连接层的单元个数设置为2048个,第二个全连接层的单元个数设置为4096个。
5.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法,其特征在于:在第一个全连接层、第二个全连接层中分别使用dropout技术,概率设置为0.5。
6.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法,其特征在于:在最后一个全连接层后面使用多分类交叉熵损失函数:
式中,是实际值;zi为输出值;f()是softmax激活函数。
7.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法,其特征在于:步骤S1中,将所述失真图像边缘切除,统一图像尺寸为127×127后,得到所述待分类失真图像。
8.根据权利要求1所述一种基于卷积神经网络的图像失真类型分类方法,其特征在于:步骤S3中,训练所述图像失真类型分类模型,学习率更新方式如下:
Ir=base_Ir*gamma(floor(iter/stepsize)
式中,base_Ir是基础学习率;iter为当前迭代次数;gamma是学习速率变化因子,设置为0.1;
stepsize设置为20000。
9.根据权利要求8所述一种基于卷积神经网络的图像失真类型分类方法,其特征在于:步骤S3中,模型参数初始化如下:
基础学习率base_Ir设为0.001,动量momentum设置为0.9,训练批量大小batchsize设置为100,重量衰减weightdecay设置为0.0005。
CN201911079537.0A 2019-11-07 2019-11-07 一种基于卷积神经网络的图像失真类型分类方法 Active CN110956201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911079537.0A CN110956201B (zh) 2019-11-07 2019-11-07 一种基于卷积神经网络的图像失真类型分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911079537.0A CN110956201B (zh) 2019-11-07 2019-11-07 一种基于卷积神经网络的图像失真类型分类方法

Publications (2)

Publication Number Publication Date
CN110956201A CN110956201A (zh) 2020-04-03
CN110956201B true CN110956201B (zh) 2023-07-25

Family

ID=69976139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911079537.0A Active CN110956201B (zh) 2019-11-07 2019-11-07 一种基于卷积神经网络的图像失真类型分类方法

Country Status (1)

Country Link
CN (1) CN110956201B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639701B (zh) * 2020-05-28 2022-06-17 山东云海国创云计算装备产业创新中心有限公司 一种图像特征提取的方法、系统、设备及可读存储介质
CN111815529B (zh) * 2020-06-30 2023-02-07 上海电力大学 一种基于模型融合和数据增强的低质图像分类增强方法
CN112633402B (zh) * 2020-12-30 2024-05-03 南京大学 一种实现动态计算的高精度高比例的分类模型及分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578060A (zh) * 2017-08-14 2018-01-12 电子科技大学 一种基于可判别区域的深度神经网络用于菜品图像分类的方法
CN109272500A (zh) * 2018-09-27 2019-01-25 西安电子科技大学 基于自适应卷积神经网络的织物分类方法
CN109272988A (zh) * 2018-09-30 2019-01-25 江南大学 基于多路卷积神经网络的语音识别方法
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578060A (zh) * 2017-08-14 2018-01-12 电子科技大学 一种基于可判别区域的深度神经网络用于菜品图像分类的方法
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法
CN109272500A (zh) * 2018-09-27 2019-01-25 西安电子科技大学 基于自适应卷积神经网络的织物分类方法
CN109272988A (zh) * 2018-09-30 2019-01-25 江南大学 基于多路卷积神经网络的语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
武利秀 等.基于卷积神经网络的无参考混合失真图像质量评价.光学技术.2018,第44卷(第5期),全文. *

Also Published As

Publication number Publication date
CN110956201A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN110956201B (zh) 一种基于卷积神经网络的图像失真类型分类方法
CN110929602B (zh) 一种基于卷积神经网络的地基云图云状识别方法
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN108830330B (zh) 基于自适应特征融合残差网的多光谱图像分类方法
CN108305240B (zh) 图像质量检测方法及装置
CN111079795B (zh) 基于cnn的分片多尺度特征融合的图像分类方法
CN104462494B (zh) 一种基于无监督特征学习的遥感图像检索方法及系统
CN107464217B (zh) 一种图像处理方法及装置
CN109934826A (zh) 一种基于图卷积网络的图像特征分割方法
CN110717953B (zh) 基于cnn-lstm组合模型的黑白图片的着色方法和系统
CN113705641B (zh) 基于富上下文网络的高光谱图像分类方法
CN106228185A (zh) 一种基于神经网络的通用图像分类识别系统及方法
CN107680077A (zh) 一种基于多阶梯度特征的无参考图像质量评价方法
CN110533022B (zh) 一种目标检测方法、系统、装置及存储介质
CN109902757B (zh) 一种基于Center Loss改进的人脸模型训练方法
CN107578455B (zh) 基于卷积神经网络的任意尺寸样本纹理合成方法
CN109753996B (zh) 基于三维轻量化深度网络的高光谱图像分类方法
CN107506792B (zh) 一种半监督的显著对象检测方法
CN110136162B (zh) 无人机视角遥感目标跟踪方法及装置
CN112102176A (zh) 基于多尺度密集混合注意力神经网络的图像去雨方法
CN113887410A (zh) 一种基于深度学习的多类别食材识别系统及方法
CN110689065A (zh) 一种基于扁平混合卷积神经网络的高光谱图像分类方法
CN112487938A (zh) 一种利用深度学习算法实现垃圾分类的方法
CN112200123A (zh) 联合稠密连接网络和样本分布的高光谱开放集分类方法
CN113837191A (zh) 基于双向无监督域适应融合的跨星遥感图像语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant