CN111783802A

CN111783802A - 一种基于深度学习的金属断口图像识别的方法

Info

Publication number: CN111783802A
Application number: CN202010706268.2A
Authority: CN
Inventors: 刘君; 梁同
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-16

Abstract

本发明公开了一种基于深度学习的金属断口图像识别的方法，该方法包括以下步骤：第一步：将金属断口图像数据按70％、20％、10％的比例随机划分为训练集、测试集、验证集；第二步：采用数据增强技术对训练集进行数据扩充；第三步：采用迁移学习技术对卷积神经网络VGGNet16中卷积层和池化层的参数进行初始化，并在此基础上卷积神经网络VGGNet16进行训练和优化，直到VGGNet16网络收敛。本发明的方法可以实现特征的自动提取，省略传统机器学习算法中人工特征提取和选择的步骤；同时在模型训练过程中，模型自动的特征提取方式可以使得模型自动提取更容易识别对象的特征，从而获得最好的图像识别精度。

Description

一种基于深度学习的金属断口图像识别的方法

技术领域

本发明涉及金属断口图像识别领域，特别是涉及一种基于深度学习的金属断口图像识别的方法。

背景技术

金属断口图像主要分为4类:解理、韧窝、疲劳、沿晶。目前对断口图像的识别已有多种方法：第一种是采用灰度共生矩阵，灰度共生矩阵是基于统计的特征提取算法使用灰度共生矩阵进行断口图像的特征提取，分别运用局部线性嵌入的方法和相关性分析进行特征降维，均取得不错的识别效果；第二种是利用定义的模糊灰度共生矩阵进行特征提取，分类器选择隐马尔可夫模型，达到较高的识别率；第三种是利用Grouplet变换处理金属断口图像，分别结合关联向量机(Relevance Vector Machine,RVM)和核主成分分析(KernelPrincipal Component Analysis,KPCA)，提出Grouplet-RVM和GroupletKPCA的断口图像识别方法，实验表明，相比小波-RVM和小波-KPCA两种方法在识别速度和识别率上均有所提升。以上方法均采用传统的机器学习算法，需要人工进行特征提取，再选择分类器进行训练和测试。尽管传统的机器学习算法也能很好的识别金属断口图像，但这些算法在训练和测试的过程中，无法实现端到端的学习，即从输入端到输出端，就是将数据输入模型，模型自动提取数据中的特征并产生预测结果；同时在传统的机器学习算法中人工进行特征的选择，特征选择的好坏将直接影响图像识别的准确率，这会导致最终的图像识别结果可能不是最好的结果。

发明内容

针对现有方式的不足，本发明提供了一种基于深度学习的金属断口图像识别的方法，可以实现端到端的学习和训练方法，不需要人工提取特征；模型会通过卷积层自动提取需要的特征，以达到最好的预测结果，避免了在传统的机器学习算法中，因为人工特征选择的原因导致次优或不好的预测结果的发生。

本发明采用如下技术方案，一种基于深度学习的金属断口图像识别的方法，包括以下步骤：

第一步：将金属断口图像数据按70％、20％、10％的比例随机划分为训练集、测试集、验证集；

第二步：采用数据增强技术对训练集进行数据扩充；

第三步：采用迁移学习技术对卷积神经网络VGGNet16中卷积层和池化层的参数进行初始化，并在此基础上卷积神经网络VGGNet16进行训练和优化，直到VGGNet16网络收敛；

其中上述步骤中，数据增强技术包括六个步骤，具体如下：

(1)图像进行随机旋转，旋转角度为[0,40]；

(2)图像在水平或垂直方向上进行随机的平移，平移范围为[-0.2,0.2](0.2为相对于总高度的比列)；

(3)图像进行随机错切变换,角度为[-0.2,0.2]；

(4)图像进行随机缩放，缩放范围为[0.8,1.2]；

(5)图像随机将一半图像水平翻转；

(6)采用最近邻插值算法填充新创建的像素，这些新像素可能来自于旋转或宽度/高度平移。

由于采用上述技术方案，本发明与现有技术相比，具有如下突出的优点：本发明提供的基于深度学习的卷积神经网络VGG16对四类金属断口图像进行分类识别，可以实现特征的自动提取，省略传统机器学习算法中人工特征提取和选择的步骤；同时在模型训练过程中，模型自动的特征提取方式可以使得模型自动提取更容易识别对象的特征，从而获得最好的图像识别精度，避免在传统的机器学习算法中，由于人工特征选择的原因造成分类器产生不好或次优的预测结果。

附图说明

图1是本发明的卷积神经网VGGNet16的网络结构的示意图；

图2是本发明的卷积层过滤器(f i l ter)的结构示意图；

图3是本发明的卷积层的前向传播过程的示意图；

图4是本发明的ReLU函数的示意图；

图5是本发明的输出经过ReLU激活的示意图；

图6是本发明的最大池化操作过程的示意图；

图7是本发明的全连接层的向前传播过程的示意图；

图8是本发明的实验采用的四类金属断口的图像；

图9是本发明的实验的模型训练和验证的准确率；

图10是本发明的实验的模型训练和验证的损失。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

本发明提供一种基于深度学习的金属断口图像识别的方法，包括以下步骤：

第二步：采用数据增强技术对训练集进行数据扩充；

其中上述步骤中，数据增强技术包括六个步骤，具体如下：

(1)图像进行随机旋转，旋转角度为[0,40]；

(3)图像进行随机错切变换,角度为[-0.2,0.2]；

(4)图像进行随机缩放，缩放范围为[0.8,1.2]；

(5)图像随机将一半图像水平翻转；

如图1所示，一种基于深度学习的卷积神经网VGGNet16的网络结构，它包含卷积层(Conv)、池化层(Pooling)、全连接层(fully connected layers，FC)和softmax层。Conv1、Conv2分别有2个卷积层，Conv3、Conv4、Conv5分别有3个卷积层；Conv1、Conv2、Conv3、Conv4、Conv5后面都带有1个最大池化层(Max pooling)；FC6有3个全连接层；卷积层和全连接层后带有1个ReLU激活函数来增加网络的非线性；最后是1个softmax层。在图中，64filters 3×3表示每层卷积层有64个3×3尺寸的过滤器，FC6：(4096,4096,4)表示三层全连接层的输出节点分别为4096、4096、4。

卷积层(Conv):

卷积层是VGGNet16卷积神经网络的核心，它起到对输入原图像或上一层输出特征图进行特征提取的作用。卷积层的关键是过滤器(filter)，如图2所示，卷积层过滤器(filter)结构示意图，左边第一个长方体是输入原图像或是上一层输出的特征图，它是一个(height,width,channels)的三维矩阵，第1个维度、第2个维度分别表示原图像或上一层输出特征图的高和宽，第3个维度表示原图像或上一层输出特征图的通道数，比如RGB图像是一个3通道图像；左边第二个小长方体是一个过滤器，它也是一个(height,width,channels)的三维矩阵，其中height和width分别为过滤器的高和宽，过滤器的高和宽一般为相同值，通常是3或5，而过滤器的通道数与当前层的通道数相同；右边长方体中的小长方体是多个过滤器与当前层的局部区域进行逐点相乘后求和得到的结果，一个圆圈表示一个通道，也可以理解为一个过滤器与当前层的局部区域进行逐点相乘后求和得到的结果，右边长方体是多个过滤器分别与当前层的全部区域进行逐点相乘后求和得到的结果。

如图3所示，将在二维矩阵上展示卷积层的前向传播过程，左边t矩阵为输入矩阵，它可以是输入原图像或者上一层输出的特征图，w矩阵为过滤器的权重矩阵，b为一个偏置项；卷积层前向传播过程是按照右边最上面的公式进行的，i表示第i个逐点相乘后求和的输出值，x,y表示坐标点，右边第二行我们给出2*2的过滤器w与输入矩阵t中左上角局部区域的逐点相乘后求和的计算过程和结果，最后输出一个2*2的矩阵是将过滤器w作为滑动窗口，在输入矩阵t上以每次移动两格的方式进行逐点相乘后求和的卷积操作，滑动窗口的移动距离为卷积层中的参数可以被设置为任意值，一般为1或2。卷积层中三维矩阵的卷积操作，就是多个二维矩阵进行卷积操作将输出结果在第三维度上拼接到一起，输出就是一个三维矩阵。

ReLU激活函数：

在卷积层中，过滤器w和偏置项b对输入矩阵的卷积操作是一次线性变换。VGGNet16卷积神经网络中的卷积层和全连接层后面添加一个ReLU激活函数，是对卷积层和全连接层的输出进行一次非线性变换，如果不进行激活，网络的各层都只进行线性变换，这样无论网络包含多少层，最终的输出都可以用输入的线性变换表示出来，也就和1层的线性网络没有差别了。非线性激活函数可以让卷积神经网络随意逼近复杂函数，能够让网络存储的信息大大增加。ReLU激活函数的公式为f(x)＝max(x,0),如图4所示。

对图3中的输出二维矩阵进行ReLU激活，如图5所示。

池化层(Pooling)：

卷积层通过卷积操作，完成对输入图像的降维和特征提取，但特征图像的维数还是很高。维数高不仅计算耗时，而且容易导致过拟合，因此，我们引入池化操作对特征图进行降低维度，降低网络的过拟合概率，提升模型的鲁棒性。

池化层中池化操作是对图像的某一个区域用一个值代替，如最大值或平均值。如果采用最大值，即取一个区域的最大值作为输出值，就叫做最大值池化(Max pooling)；如果采用均值，即取一个区域的平均值作为输出值，就叫做均值池化(Average pooling)。池化层的池化操作除了降低图像尺寸和降低网络过拟合概率之外，带来的另外一个好处是平移、旋转不变性，因为输出值由图像的一片区域计算得到，对于平移和旋转并不敏感。如图6所示，为二维矩阵的最大池化操作过程。最大池化层的过滤器没有权重值，只是对输入矩阵中值的选择过程；过滤器的尺寸为2*2，并且以每次两个格子的距离进行滑动，从左上角到右上角，再到左下角和右下角。

全连接层(fully connected layers，FC)：

在VGGNet16卷积神经网络中卷积层和池化层的堆叠可以看作是一个特征提取器，从输入原图像中提取特征，而全连接层可以看作是一个分类器，将获得的特征进行组合，得到类别的预测结果。全连接层指的是当前层的每个节点都会与下一层的每一个节点连接。如图7所示为全连接层的前向传播过程。X1、X2、X3、X4、X5作为输入，每一条连接线都是一个输入节点乘一个权值a,下一层的一个节点是上一层所有节点分别乘一个权值后求和的结果，如C1＝X1*a1+X2*a2+X3*a3+X4*a4+X5*a5，Y1、Y2、Y3为输出的预测值。

softmax层：

softmax可以理解为归一化，softmax的输出值为一个[0,1]范围内的值，如图7所示的最后输出3个值，我们将其对应一个3分类，在输出值后添加一个softmax，会对应输出3个值，这三个值分别表示属于Y1、Y2、Y3类别的概率，并且输出3个值的和为1。softmax的计算公式为：

其中yi表示第i个输入值，k为输入值的个数。

实验方案和结果：

总共选择200张200*200的金属断口图像作为本次实验的数据，其中解理、韧窝、疲劳和沿晶四类金属断口图像各50张图像。我们分别以70％的训练集、10％的验证集和20％的测试集对四类金属断口图像进行随机划分，如表1数据划分，如图8为本次实验中四类金属断口图像。

表1.数据划分

进行模型训练100轮，1轮是训练集的所有数据被训练一次，每轮结束使用验证集进行一次测试，查看训练情况，如图9、图10为模型训练过程的预测准确率和损失。采用交叉熵损失函数计算真实值与预测值之间的差距，真实值与预测值差别越大，损失值越大，真实值与预测值差别越小，损失值越小，模型训练优化的目标就是损失值达到最小，使预测值无限接近真实值。

如图9所示，模型在第65轮后，模型在验证集上一直保持100％的预测准确率，如图10所示，模型在第65轮后，模型在训练集和验证集上的损失基本趋于0，这些说明模型训练过程正常，并且模型训练完成。模型在100轮训练结束后，将模型在测试集上进行预测，实现100％的预测准确率。

不局限于此，任何不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.一种基于深度学习的金属断口图像识别的方法，其特征在于，包括以下步骤：

第二步：采用数据增强技术对训练集进行数据扩充；

其中上述步骤中，数据增强技术包括六个步骤，具体如下：

(1)图像进行随机旋转，旋转角度为[0,40]；

(3)图像进行随机错切变换,角度为[-0.2,0.2]；

(4)图像进行随机缩放，缩放范围为[0.8,1.2]；

(5)图像随机将一半图像水平翻转；