CN111127360B - 一种基于自动编码器的灰度图像迁移学习方法 - Google Patents

一种基于自动编码器的灰度图像迁移学习方法 Download PDF

Info

Publication number
CN111127360B
CN111127360B CN201911328246.0A CN201911328246A CN111127360B CN 111127360 B CN111127360 B CN 111127360B CN 201911328246 A CN201911328246 A CN 201911328246A CN 111127360 B CN111127360 B CN 111127360B
Authority
CN
China
Prior art keywords
image
channel
neural network
gray
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911328246.0A
Other languages
English (en)
Other versions
CN111127360A (zh
Inventor
王慧青
胡玉坤
焦越
余厚云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201911328246.0A priority Critical patent/CN111127360B/zh
Publication of CN111127360A publication Critical patent/CN111127360A/zh
Application granted granted Critical
Publication of CN111127360B publication Critical patent/CN111127360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于自动编码器的灰度图像迁移学习方法,首先对采集到的灰度图像进行预处理包括裁剪,降噪,滤波等;然后通过数据增强方法来增加样本数量;其次搭建自动编码器,网络的结构为卷积层‑>池化层‑>卷积层‑>池化层的卷积神经网络,实现将单通道的图像转换为三通道的彩色图像;最后将转换后的三通道图像迁移学习到经典的CNN网络,实现目标的分类。总体来说,本发明算法简洁,效率较高且鲁棒性较强。

Description

一种基于自动编码器的灰度图像迁移学习方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于自动编码器的灰度图像迁移学习方法。
背景技术
迁移学习的定义如下:给定一个源域Ds和学习任务Ts,一个目标域Dt和学习任务Tt,迁移学习致力于通过使用源域Ds和源任务Ts中的知识,帮助提升目标域Dt中的目标预测函数f_T()的学习,其中Ds≠Dt,或者Ts≠Tt。
在迁移学习中主要研究以下三个问题:迁移什么;如何迁移;何时迁移。迁移指的是跨域或跨任务迁移某一部分知识。一些知识可能是特定于单个域或任务的,而一些知识可能在不同域之间是相同的,通过迁移知识的选择可以帮助提高目标域或任务的性能。在发现可以迁移的知识之后,需要开发学习算法来迁移知识,这就是“如何迁移”的问题。“何时迁移”指的是在什么情况下可以进行迁移,在哪些情况下不应该迁移。在某些情况下,当源域和目标域彼此不相关时,强行进行迁移可能会失败。而在最坏的情况下,它甚至可能损害目标域学习表现,这种情况通常称为负迁移。
近年来,深度学习在可解决的复杂问题类型上取得了长足的进步,其成果令人惊讶。然而,深度学习系统所需的训练时间和训练数据的量级,要远大于传统的机器学习系统。目前人们已经提出了各种深度学习网络,它们具有最先进的性能,有时甚至优于人类的表现。一些深度网络已经在计算机视觉和自然语言处理等领域得到开发和测试,并且其中大多数网络已完全共享给团队和研究人员使用。这些预训练的网络和模型构成了在深度学习环境中迁移学习的基础,称其为“深度迁移学习”的基础。比如应用于计算机视觉的模型包括VGG-19,VGG-16,Inception V3等等。
然而,这些经典的卷积神经网络的输入数据大都是三通道的RGB图像,对于单通道的灰度图像则需要对神经网络的结构做出改变,而且无法保证改变之后的神经网络的性能。针对此问题,常见的解决方法是构建伪RGB图像,将单通道的灰度图像转换为三个通道相同的伪RGB图像,但是此方法并没有提供合理有效的信息,反而提供了冗余信息,对整个网络的性能并不能有所改善。因此,设计一种适用于单通道灰度图像的迁移学习算法就显得非常有必要了。
发明内容
为解决上述问题,本发明公开了一种基于自动编码器的灰度图像迁移学习方法,该算法简洁,不仅提高了计算效率,还大大提升了分类的准确性。
为达到上述目的,本发明的技术方案如下:
一种基于自动编码器的灰度图像迁移学习方法,包括以下步骤:
S1,获取目标物体的灰度图像,对图像进行预处理;
S2,数据增强,增加训练集以及测试集样本的数量;
S3,下载CIFAR-100数据集,搭建自动编码器神经网络,将三通道彩色图像转换为灰度图像,作为神经网络的输入,将彩色图像作为训练集数据的标签,对网络进行训练,得出泛化误差较小的模型,实现灰度图像到彩色图像的转换;
S4,对经步骤S3自动编码器转换所得的三通道图像进行迁移学习,将其应用于经典神经网络VGG-16;
S5,对检测出来的结果进行标记,实现对象的分类。
作为本发明的一种改进,所述步骤S1进一步包括:
S11,采集灰度图像,并对图像进行空间滤波、形态学变换、阈值分割等多种方法,剔除背景噪声,确定感兴趣区域,增强图像特征,并最终使图像符合神经网络的需求;
作为本发明的一种改进,所述步骤S2所述的数据增强:
S21,通过对图像进行随机旋转一定的角度来进行数据增强。迁移学习的优势在于只需要相对较少的样本数据就能够很好的解决实际问题,在迁移学习中数据增强是另外一种很重要的数据预处理的方法。
作为本发明的一种改进,所述步骤S3中,搭建卷积神经网络,将S1,S2处理后的灰度图像转换为三通道彩色图像,具体步骤如下:
S31,搭建卷积层->池化层->卷积层->池化层卷积神经网络,卷积层的大小都为3*3,池化层都为max_pooling。在以往的研究中,损失函数都是采用的欧几里得损失函数,其定义如下:
其中Yh,w表示自动编码器的输入,表示自动编码器转换后的输出。h,w表示图像的维度,L2表示损失值。但是在我们的实际生活中,某些物体其颜色是固定的,比如橘子总是呈现出黄色或者绿色,信号灯总是红黄蓝三种颜色等等,所以要重新定义损失函数,平衡颜色稀有级别的差异性。损失函数定义如下:
其中X和分别表示编码器的输入和输出,F表示转换函数,/>表示将颜色转换为矩阵的形式,Z为颜色转换后的结果,h,w和h,w,q分别表示图像为二维图像以及三维图像,q为第三通道的数量。v代表权重,用来平衡颜色等级的稀有性差异。v的计算公式如下:
v(Zh,w)=wq*,where q*=argmaxqZh,w,q
q*表示颜色转换结果q通道中数值最大的值,λ取1/2,p为颜色的经验分布,并用高斯核平滑,Q为颜色空间ab量化的值,表示约束条件。
设置批次大小为100,优化方法为随机梯度下降(SGD),学习率为0.001,动量设置为0.25。对训练进行1000次迭代,最后确定学习参数;
其中xj表示神经网络权重值,α代表学习率,代表梯度。
S32,将S31所得神经网络的解码层的参数保留下来,实现灰度图像到三通道彩色图像的自动转换。
以往的对灰度图像转换为RGB三通道图像的实现主要采用伪彩色处理技术(如:灰度分割法、灰度级-彩色变换法、滤波法等),该技术能够识别细节、可分辨性较强,但是不能够提供额外的有价值的信息。本发明提出的自动编码器实现灰度图像到RGB图像的自动转换,相对而言能够提供更多的有效的信息,转换的准确率也有很大的提升。是一种实用且可行的方法。
作为本发明的又一种改进,所述步骤S4进一步包括:
S41,经过步骤S3,已经能够获得符合神经网络输入的三通道图像,搭建VGG-16网络,整个网络一共包含16层(不包括池化和softmax层),所有的卷积核都是用3*3大小,池化都是用大小为2*2,步长为2的最大池化,卷积层深度依次为64->128->256->512->512,训练时需要将图片放缩到224*224大小;
S42,对图像数据进行划分,合理设置训练集,测试集,评估集样本数量;选择交叉熵损失函数J(θ)(计算公式如下所示),对网络结构进行微调,提高模型的精度;
其中x(i)为样本数据,y(i)为对应的样本数据标签,hθ(x(i))为转换后的输出结果,m为样本的数量值。
本发明的有益效果是:
本发明通过将自动编码器实现灰度图像自动转换为三通道图像的自动编码,满足神经网络的输入要求,再将VGG-16等经典神经网络迁移学习到单通道灰度图像领域,避免了三通道彩色图像受光照等因素的影响,是将灰度图像着色成彩色图像的一种有效解决方案。
附图说明
图1为系统工作流程图;
图2为图像预处理结果示意图;
图3为数据增强结果示意图;
图4为卷积计算流程示意图;
图5为神经网络分类结果示意图;
图6位VGG-16卷积神经网络结构图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
一种基于自动编码器的灰度图像迁移学习方法,如图1所示,包括以下步骤:
步骤一,图像预处理。对采集到的灰度图像进行裁剪,首先找到图像的最大轮廓,然后找到东南西北四个极值点的坐标,最后剪裁图片,因为VGG-16网络的输入要求是224*224大小的图片,所以还需要将图片缩放至224*224。效果如图二。
步骤二,数据增强。由于采集的样本数量有限,还需要通过旋转,平移等方法增加样本数。通过深度学习框架Keras中的ImageDataGenerator方法,设置图片随机翻转的角度为10°,图片随机水平偏移的幅度为0.05,图片随机垂直翻转的幅度为0.05,亮度随机变换的范围为[0.1,1.5]。增强效果如图三。
步骤三,将灰度图像编码为彩色图像。搭建卷积层->池化层->卷积层->池化层卷积神经网络,卷积层的大小都为3*3,池化层都为max_pooling,设置批次大小为100,优化方法为随机梯度下降(SGD),学习率为0.001,动量设置为0.25。对训练进行1000次迭代,调整参数直至测试集上的损失不在降低时,停止训练。将训练所得神经网络的卷积参数保存下来,通过计算解码网络与输入图像的卷积就可以得到三通道的彩色图像。卷积计算过程如图4所示。
步骤四,迁移预训练模型。将处理后的图片随机分成训练集和测试集,分别包括0分类以及1分类样本。加载VGG-16在ImageNet训练集上的权重初始值,其网络结构如图6所示,在VGG-16网络之后加一层平滑层,将多维的输入一维化,再添加“dropout”层,避免过拟合,最后添加一层“dense”网络进行多分类,采用“sigmoid”激活函数。将经过处理的训练集样本结合起来,固定全部卷积层的参数,重新训练全连接层。设置批次大小为50,优化方法为随机梯度下降(SGD),学习率为0.0005,还是采用以前早停的方法,精确调整最后全连接层的参数,当连续30个回合测试集上的损失不在下降时,停止训练。最终的测试集的预测结果表现如图5所示。测试集上准确度为98.2%。
步骤五,对分类出来的结果进行标记,得出最后的分类值。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (3)

1.一种基于自动编码器的灰度图像迁移学习方法,其特征在于:包括以下步骤:
S1,获取目标物体的灰度图像,对图像进行预处理;
S2,数据增强,增加训练集以及测试集样本的数量;
S3,下载CIFAR-100数据集,利用CIFAR-100数据集搭建自动编码器神经网络;将三通道彩色图像转换为灰度图像,将转为得到的灰度图像作为神经网络的输入,将三通道彩色图像作为训练集数据的标签,对网络进行训练,得出泛化误差较小的模型,实现灰度图像到三通道彩色图像的转换;
具体如下:
S31,搭建卷积层->池化层->卷积层->池化层卷积神经网络,卷积层的大小都为3*3,池化层都为max_pooling;
损失函数定义如下:
其中X和分别表示编码器的输入和输出,F表示转换函数,/>表示将颜色转换为矩阵的形式,Z为颜色转换后的结果,h,w和h,w,q分别表示图像为二维图像以及三维图像,q为第三通道的数量;v代表权重,用来平衡颜色等级的稀有性差异;
v的计算公式如下:
where q*=arg maxq Zh,w,q
q*表示颜色转换结果q通道中数值最大的值,λ取1/2,p为颜色的经验分布,并用高斯核平滑,Q为颜色空间ab量化的值,表示约束条件;
设置批次大小为100,优化方法为随机梯度下降(SGD),学习率为0.001,动量设置为0.25,对训练进行1000次迭代,最后确定学习参数;
其中xj表示神经网络权重值,α代表学习率,代表梯度;
S32,将S31所得神经网络的学习参数保留下来,实现灰度图像到三通道彩色图像的自动转换;
S4,对经步骤S3自动编码器转换所得的三通道图像进行迁移学习,将其应用于经典神经网络VGG-16;
具体如下:
S41,经过步骤S3,已经能够获得符合神经网络输入的三通道图像,搭建VGG-16网络,整个网络一共包含16层,所有的卷积核都是用3*3大小,池化都是用大小为2*2,步长为2的最大池化,卷积层深度依次为64->128->256->512->512,训练时需要将图片放缩到标准要求大小;
S42,对图像数据进行划分,合理设置训练集,测试集,评估集样本数量;选择交叉熵损失函数J(θ),对网络结构进行微调,提高模型的精度;
其中x(i)为样本数据,y(i)为对应的样本数据标签,hθ(x(i))为转换后的输出结果,m为样本的数量值;
S5,对检测出来的结果进行标记,实现对象的分类。
2.根据权利要求1所述的一种基于自动编码器的灰度图像迁移学习方法,其特征在于:所述步骤S1进一步包括:
S11,采集灰度图像,并对图像进行空间滤波、形态学变换、阈值分割,剔除背景噪声,确定感兴趣区域,增强图像特征,并最终使图像符合VGG-16经典神经网络的需求。
3.根据权利要求1所述的一种基于自动编码器的灰度图像迁移学习方法,其特征在于:步骤S2所述的数据增强:
S21,通过对图像进行随机旋转一定的角度来进行数据增强。
CN201911328246.0A 2019-12-20 2019-12-20 一种基于自动编码器的灰度图像迁移学习方法 Active CN111127360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911328246.0A CN111127360B (zh) 2019-12-20 2019-12-20 一种基于自动编码器的灰度图像迁移学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911328246.0A CN111127360B (zh) 2019-12-20 2019-12-20 一种基于自动编码器的灰度图像迁移学习方法

Publications (2)

Publication Number Publication Date
CN111127360A CN111127360A (zh) 2020-05-08
CN111127360B true CN111127360B (zh) 2023-08-29

Family

ID=70500806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911328246.0A Active CN111127360B (zh) 2019-12-20 2019-12-20 一种基于自动编码器的灰度图像迁移学习方法

Country Status (1)

Country Link
CN (1) CN111127360B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652352B (zh) * 2020-05-13 2023-08-04 北京航天自动控制研究所 一种针对迁移学习的神经网络模型输入通道整合方法
CN111985161B (zh) * 2020-08-21 2024-06-14 广东电网有限责任公司清远供电局 一种变电站三维模型重构方法
CN113077525A (zh) * 2021-02-06 2021-07-06 西南交通大学 一种基于频域对比学习的图像分类方法
CN113282926B (zh) * 2021-05-25 2021-11-09 贵州师范大学 一种基于三通道图像的恶意软件分类方法
CN116664454B (zh) * 2023-08-01 2023-11-03 中国海洋大学 一种基于多尺度颜色迁移参数预测的水下图像增强方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086678A (zh) * 2018-07-09 2018-12-25 天津大学 一种基于深度监督学习提取图像多级特征的行人检测方法
CN109657679A (zh) * 2018-12-19 2019-04-19 中国空间技术研究院 一种应用卫星功能类型识别方法
CN109886214A (zh) * 2019-02-26 2019-06-14 中南民族大学 一种基于图像处理的鸟鸣声特征强化方法
CN110494890A (zh) * 2017-05-24 2019-11-22 赫尔实验室有限公司 卷积神经网络从可见颜色(rbg)到红外(ir)域的迁移学习

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110494890A (zh) * 2017-05-24 2019-11-22 赫尔实验室有限公司 卷积神经网络从可见颜色(rbg)到红外(ir)域的迁移学习
CN109086678A (zh) * 2018-07-09 2018-12-25 天津大学 一种基于深度监督学习提取图像多级特征的行人检测方法
CN109657679A (zh) * 2018-12-19 2019-04-19 中国空间技术研究院 一种应用卫星功能类型识别方法
CN109886214A (zh) * 2019-02-26 2019-06-14 中南民族大学 一种基于图像处理的鸟鸣声特征强化方法

Also Published As

Publication number Publication date
CN111127360A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111127360B (zh) 一种基于自动编码器的灰度图像迁移学习方法
CN106971152B (zh) 一种基于航拍图像的检测输电线路中鸟巢的方法
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
CN109872285B (zh) 一种基于变分约束的Retinex低照度彩色图像增强方法
CN106296695B (zh) 基于显著性的自适应阈值自然目标图像分割抽取算法
CN104966085B (zh) 一种基于多显著特征融合的遥感图像感兴趣区域检测方法
CN107967695B (zh) 一种基于深度光流和形态学方法的运动目标检测方法
CN107038416B (zh) 一种基于二值图像改进型hog特征的行人检测方法
CN110119687A (zh) 基于图像处理和卷积神经网络相结合的道路表面裂痕缺陷的检测方法
CN110837870A (zh) 基于主动学习的声呐图像目标识别方法
CN109753878B (zh) 一种恶劣天气下的成像识别方法及系统
WO2023201772A1 (zh) 基于迭代域内适应和自训练的跨域遥感图像语义分割方法
CN103258332A (zh) 一种抗光照变化的运动目标检测方法
TW201308254A (zh) 適用複雜場景的移動偵測方法
CN110020658A (zh) 一种基于多任务深度学习的显著目标检测方法
CN111882555B (zh) 基于深度学习的网衣检测方法、装置、设备及存储介质
CN113989536A (zh) 一种基于布谷鸟搜索算法的番茄病害识别方法
WO2020119624A1 (zh) 一种基于深度学习的类别敏感型边缘检测方法
CN105913451B (zh) 一种基于图模型的自然图像超像素分割方法
CN113223098B (zh) 图像颜色分类的预处理优化方法
CN108038467B (zh) 一种镜像图与粗细层次结合的稀疏人脸识别方法
CN110796716B (zh) 一种基于多重残差网络和正则化迁移学习的图像着色方法
CN112270404A (zh) 一种基于ResNet64网络的紧固件产品鼓包缺陷的检测结构及其方法
CN110415816B (zh) 一种基于迁移学习的皮肤病临床图像多分类方法
CN110349119B (zh) 基于边缘检测神经网络的路面病害检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant