CN111127360B

CN111127360B - 一种基于自动编码器的灰度图像迁移学习方法

Info

Publication number: CN111127360B
Application number: CN201911328246.0A
Authority: CN
Inventors: 王慧青; 胡玉坤; 焦越; 余厚云
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-08-29
Anticipated expiration: 2039-12-20
Also published as: CN111127360A

Abstract

本发明公开了一种基于自动编码器的灰度图像迁移学习方法，首先对采集到的灰度图像进行预处理包括裁剪，降噪，滤波等；然后通过数据增强方法来增加样本数量；其次搭建自动编码器，网络的结构为卷积层‑>池化层‑>卷积层‑>池化层的卷积神经网络，实现将单通道的图像转换为三通道的彩色图像；最后将转换后的三通道图像迁移学习到经典的CNN网络，实现目标的分类。总体来说，本发明算法简洁，效率较高且鲁棒性较强。

Description

一种基于自动编码器的灰度图像迁移学习方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于自动编码器的灰度图像迁移学习方法。

背景技术

迁移学习的定义如下：给定一个源域Ds和学习任务Ts，一个目标域Dt和学习任务Tt，迁移学习致力于通过使用源域Ds和源任务Ts中的知识，帮助提升目标域Dt中的目标预测函数f_T()的学习，其中Ds≠Dt,或者Ts≠Tt。

在迁移学习中主要研究以下三个问题：迁移什么；如何迁移；何时迁移。迁移指的是跨域或跨任务迁移某一部分知识。一些知识可能是特定于单个域或任务的，而一些知识可能在不同域之间是相同的，通过迁移知识的选择可以帮助提高目标域或任务的性能。在发现可以迁移的知识之后，需要开发学习算法来迁移知识，这就是“如何迁移”的问题。“何时迁移”指的是在什么情况下可以进行迁移，在哪些情况下不应该迁移。在某些情况下，当源域和目标域彼此不相关时，强行进行迁移可能会失败。而在最坏的情况下，它甚至可能损害目标域学习表现，这种情况通常称为负迁移。

近年来，深度学习在可解决的复杂问题类型上取得了长足的进步，其成果令人惊讶。然而，深度学习系统所需的训练时间和训练数据的量级，要远大于传统的机器学习系统。目前人们已经提出了各种深度学习网络，它们具有最先进的性能，有时甚至优于人类的表现。一些深度网络已经在计算机视觉和自然语言处理等领域得到开发和测试，并且其中大多数网络已完全共享给团队和研究人员使用。这些预训练的网络和模型构成了在深度学习环境中迁移学习的基础，称其为“深度迁移学习”的基础。比如应用于计算机视觉的模型包括VGG-19，VGG-16，Inception V3等等。

然而，这些经典的卷积神经网络的输入数据大都是三通道的RGB图像，对于单通道的灰度图像则需要对神经网络的结构做出改变，而且无法保证改变之后的神经网络的性能。针对此问题，常见的解决方法是构建伪RGB图像，将单通道的灰度图像转换为三个通道相同的伪RGB图像，但是此方法并没有提供合理有效的信息，反而提供了冗余信息，对整个网络的性能并不能有所改善。因此，设计一种适用于单通道灰度图像的迁移学习算法就显得非常有必要了。

发明内容

为解决上述问题，本发明公开了一种基于自动编码器的灰度图像迁移学习方法，该算法简洁，不仅提高了计算效率，还大大提升了分类的准确性。

为达到上述目的，本发明的技术方案如下：

一种基于自动编码器的灰度图像迁移学习方法，包括以下步骤：

S1，获取目标物体的灰度图像，对图像进行预处理；

S2，数据增强，增加训练集以及测试集样本的数量；

S3，下载CIFAR-100数据集，搭建自动编码器神经网络，将三通道彩色图像转换为灰度图像，作为神经网络的输入，将彩色图像作为训练集数据的标签，对网络进行训练，得出泛化误差较小的模型，实现灰度图像到彩色图像的转换；

S4，对经步骤S3自动编码器转换所得的三通道图像进行迁移学习，将其应用于经典神经网络VGG-16；

S5，对检测出来的结果进行标记，实现对象的分类。

作为本发明的一种改进，所述步骤S1进一步包括：

S11，采集灰度图像，并对图像进行空间滤波、形态学变换、阈值分割等多种方法，剔除背景噪声，确定感兴趣区域，增强图像特征，并最终使图像符合神经网络的需求；

作为本发明的一种改进，所述步骤S2所述的数据增强：

S21，通过对图像进行随机旋转一定的角度来进行数据增强。迁移学习的优势在于只需要相对较少的样本数据就能够很好的解决实际问题，在迁移学习中数据增强是另外一种很重要的数据预处理的方法。

作为本发明的一种改进，所述步骤S3中，搭建卷积神经网络，将S1，S2处理后的灰度图像转换为三通道彩色图像，具体步骤如下：

S31，搭建卷积层->池化层->卷积层->池化层卷积神经网络，卷积层的大小都为3*3，池化层都为max_pooling。在以往的研究中，损失函数都是采用的欧几里得损失函数，其定义如下：

其中Y_h,w表示自动编码器的输入，表示自动编码器转换后的输出。_h,w表示图像的维度，L₂表示损失值。但是在我们的实际生活中，某些物体其颜色是固定的，比如橘子总是呈现出黄色或者绿色，信号灯总是红黄蓝三种颜色等等，所以要重新定义损失函数，平衡颜色稀有级别的差异性。损失函数定义如下：

其中X和分别表示编码器的输入和输出，F表示转换函数，/>表示将颜色转换为矩阵的形式，Z为颜色转换后的结果，h,w和h,w,q分别表示图像为二维图像以及三维图像，q为第三通道的数量。v代表权重，用来平衡颜色等级的稀有性差异。v的计算公式如下：

v(Z_h,w)＝w_q*,where q^*＝argmax_qZ_h,w,q

q^*表示颜色转换结果q通道中数值最大的值，λ取1/2，p为颜色的经验分布，并用高斯核平滑，Q为颜色空间ab量化的值，表示约束条件。

设置批次大小为100，优化方法为随机梯度下降(SGD)，学习率为0.001，动量设置为0.25。对训练进行1000次迭代，最后确定学习参数；

其中x_j表示神经网络权重值，α代表学习率，代表梯度。

S32，将S31所得神经网络的解码层的参数保留下来，实现灰度图像到三通道彩色图像的自动转换。

以往的对灰度图像转换为RGB三通道图像的实现主要采用伪彩色处理技术(如：灰度分割法、灰度级-彩色变换法、滤波法等)，该技术能够识别细节、可分辨性较强，但是不能够提供额外的有价值的信息。本发明提出的自动编码器实现灰度图像到RGB图像的自动转换，相对而言能够提供更多的有效的信息，转换的准确率也有很大的提升。是一种实用且可行的方法。

作为本发明的又一种改进，所述步骤S4进一步包括：

S41，经过步骤S3，已经能够获得符合神经网络输入的三通道图像，搭建VGG-16网络，整个网络一共包含16层(不包括池化和softmax层)，所有的卷积核都是用3*3大小，池化都是用大小为2*2，步长为2的最大池化，卷积层深度依次为64->128->256->512->512，训练时需要将图片放缩到224*224大小；

S42，对图像数据进行划分，合理设置训练集，测试集，评估集样本数量；选择交叉熵损失函数J(θ)(计算公式如下所示)，对网络结构进行微调，提高模型的精度；

其中x⁽ⁱ⁾为样本数据，y⁽ⁱ⁾为对应的样本数据标签，h_θ(x⁽ⁱ⁾)为转换后的输出结果，m为样本的数量值。

本发明的有益效果是：

本发明通过将自动编码器实现灰度图像自动转换为三通道图像的自动编码，满足神经网络的输入要求，再将VGG-16等经典神经网络迁移学习到单通道灰度图像领域，避免了三通道彩色图像受光照等因素的影响，是将灰度图像着色成彩色图像的一种有效解决方案。

附图说明

图1为系统工作流程图；

图2为图像预处理结果示意图；

图3为数据增强结果示意图；

图4为卷积计算流程示意图；

图5为神经网络分类结果示意图；

图6位VGG-16卷积神经网络结构图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

一种基于自动编码器的灰度图像迁移学习方法，如图1所示，包括以下步骤：

步骤一,图像预处理。对采集到的灰度图像进行裁剪，首先找到图像的最大轮廓，然后找到东南西北四个极值点的坐标，最后剪裁图片，因为VGG-16网络的输入要求是224*224大小的图片，所以还需要将图片缩放至224*224。效果如图二。

步骤二，数据增强。由于采集的样本数量有限，还需要通过旋转，平移等方法增加样本数。通过深度学习框架Keras中的ImageDataGenerator方法，设置图片随机翻转的角度为10°，图片随机水平偏移的幅度为0.05，图片随机垂直翻转的幅度为0.05，亮度随机变换的范围为[0.1,1.5]。增强效果如图三。

步骤三，将灰度图像编码为彩色图像。搭建卷积层->池化层->卷积层->池化层卷积神经网络，卷积层的大小都为3*3，池化层都为max_pooling，设置批次大小为100，优化方法为随机梯度下降(SGD)，学习率为0.001，动量设置为0.25。对训练进行1000次迭代，调整参数直至测试集上的损失不在降低时，停止训练。将训练所得神经网络的卷积参数保存下来，通过计算解码网络与输入图像的卷积就可以得到三通道的彩色图像。卷积计算过程如图4所示。

步骤四，迁移预训练模型。将处理后的图片随机分成训练集和测试集，分别包括0分类以及1分类样本。加载VGG-16在ImageNet训练集上的权重初始值，其网络结构如图6所示，在VGG-16网络之后加一层平滑层，将多维的输入一维化，再添加“dropout”层，避免过拟合，最后添加一层“dense”网络进行多分类，采用“sigmoid”激活函数。将经过处理的训练集样本结合起来，固定全部卷积层的参数，重新训练全连接层。设置批次大小为50，优化方法为随机梯度下降(SGD)，学习率为0.0005，还是采用以前早停的方法，精确调整最后全连接层的参数，当连续30个回合测试集上的损失不在下降时，停止训练。最终的测试集的预测结果表现如图5所示。测试集上准确度为98.2％。

步骤五，对分类出来的结果进行标记，得出最后的分类值。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.一种基于自动编码器的灰度图像迁移学习方法，其特征在于：包括以下步骤：

S1，获取目标物体的灰度图像，对图像进行预处理；

S2，数据增强，增加训练集以及测试集样本的数量；

S3，下载CIFAR-100数据集，利用CIFAR-100数据集搭建自动编码器神经网络；将三通道彩色图像转换为灰度图像，将转为得到的灰度图像作为神经网络的输入，将三通道彩色图像作为训练集数据的标签，对网络进行训练，得出泛化误差较小的模型，实现灰度图像到三通道彩色图像的转换；

具体如下：

S31，搭建卷积层->池化层->卷积层->池化层卷积神经网络，卷积层的大小都为3*3，池化层都为max_pooling；

损失函数定义如下：

其中X和分别表示编码器的输入和输出，F表示转换函数，/>表示将颜色转换为矩阵的形式，Z为颜色转换后的结果，h,w和h,w,q分别表示图像为二维图像以及三维图像，_q为第三通道的数量；v代表权重，用来平衡颜色等级的稀有性差异；

v的计算公式如下：

where q^*＝arg max_q Z_h,w,q

q^*表示颜色转换结果_q通道中数值最大的值，λ取1/2，p为颜色的经验分布，并用高斯核平滑，Q为颜色空间ab量化的值，表示约束条件；

设置批次大小为100，优化方法为随机梯度下降(SGD)，学习率为0.001，动量设置为0.25，对训练进行1000次迭代，最后确定学习参数；

其中x_j表示神经网络权重值，α代表学习率，代表梯度；

S32，将S31所得神经网络的学习参数保留下来，实现灰度图像到三通道彩色图像的自动转换；

具体如下：

S41，经过步骤S3，已经能够获得符合神经网络输入的三通道图像，搭建VGG-16网络，整个网络一共包含16层，所有的卷积核都是用3*3大小，池化都是用大小为2*2，步长为2的最大池化，卷积层深度依次为64->128->256->512->512，训练时需要将图片放缩到标准要求大小；

S42，对图像数据进行划分，合理设置训练集，测试集，评估集样本数量；选择交叉熵损失函数J(θ)，对网络结构进行微调，提高模型的精度；

其中x⁽ⁱ⁾为样本数据，y⁽ⁱ⁾为对应的样本数据标签，h_θ(x⁽ⁱ⁾)为转换后的输出结果，m为样本的数量值；

S5，对检测出来的结果进行标记，实现对象的分类。

2.根据权利要求1所述的一种基于自动编码器的灰度图像迁移学习方法，其特征在于：所述步骤S1进一步包括：

S11，采集灰度图像，并对图像进行空间滤波、形态学变换、阈值分割，剔除背景噪声，确定感兴趣区域，增强图像特征，并最终使图像符合VGG-16经典神经网络的需求。

3.根据权利要求1所述的一种基于自动编码器的灰度图像迁移学习方法，其特征在于：步骤S2所述的数据增强：

S21，通过对图像进行随机旋转一定的角度来进行数据增强。