CN111488952A

CN111488952A - 一种适用于轮毂自动化识别的深度残差模型构建方法

Info

Publication number: CN111488952A
Application number: CN202010596458.3A
Authority: CN
Inventors: 童哲铭; 高杰; 童水光
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-08-04

Abstract

本发明公开了一种适用于轮毂自动化识别的深度残差模型构建方法。首先通过相机采集不同类型的轮毂图像，构建轮毂图像数据集，并对轮毂数据集按比例分割为训练集和测试集。然后设计深度学习的残差块，并基于卷积层、池化层、归一化层、失活层以及非线性激活层构建轮毂深度学习模型。采用Xavier对权重进行随机初始化，并结合Adam优化算法与批量随机梯度下降算法对模型参数进行优化。采用本发明方法构建的模型能够实现对多种轮毂类型的识别，没有过拟合现象，识别速度快，识别精度高，能够实现工业轮毂的实时识别。

Description

一种适用于轮毂自动化识别的深度残差模型构建方法

技术领域

本发明属于深度学习领域，本发明具体涉及一种适用于轮毂自动化识别的深度残差模型构建方法。

背景技术

在工业4.0框架下，智慧工厂的感知和控制技术具备高速、高精度、模块化、智能化、无损感知等特点，能够根据不同的任务实现自主配置和自适应调节，满足定制和个性化产品的自适应制造，然而传统的感知控制技术无法满足上述需求。机器视觉技术涉及神经生物学、计算机学、图像处理学、模式识别和人工智能等多门学科，具有高效率、高精度、非接触和易集成等特点，是实现现代集成制造技术的基础。将机器视觉技术应用到轮毂生产之中，可以在很大程度上提高生产过程的机械化和智能化水平。应用机器视觉检测与控制技术代替人眼、人脑、人手来进行检测、测量、分析、判断和决策控制，以满足智慧工厂对环境感知和自主控制的多项需求。

传统的轮毂制造业想要搭建上述的智慧工厂，就必须完成轮毂的生产智能化。由于我国在轮毂智能工厂的建设中存在诸多问题。在传统生产流程中，汽车轮毂通常在低压铸造生产后进行型号的人工识别和统计。一方面由于这种人工识别方式工作量庞大且易造成误差，无法实现有利于系统管理的数据自动生成和报送。另一方面由于工厂生产轮毂类型数量众多，随着产线的加长，识别工人的需求量也在增大，增大了轮毂制造的生产成本，无论对人力还是物力都是一种极大的浪费。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供一种适用于轮毂自动化识别的深度残差模型构建方法。

为了实现上述目的，本发明提供以下技术方案：

一种适用于轮毂自动化识别的深度残差模型构建方法，包括以下步骤：

步骤1. 通过图像传感器采集多种类型的轮毂图像构建轮毂数据集；

步骤2. 对步骤1中的轮毂数据集采用分层采样方法取30%作为训练集，70%作为测试集，将所有图像数据统一大小为

，并进行标准化；

步骤3. 进行残差块设计，每一个残差块都由一个系列层和捷径和一个捷径连接组成，这个捷径将输入特征图像和输出图像在对应位置上的元素执行加法运算，所以需要残差模块的输入图像、输出图像的宽高要求一致；具体设计流程如下：

（3.1）构建连续的两层核尺寸为

，填充为1卷积核；

（3.2）承接上面两层卷积层，后面接两层批量归一化层，批归一化算法可以分为两个过程：1）对数据进行批归一化，2）按对批归一化的数据进行缩放和平移；

（3.3）将上述输出结果与步骤2中的图像数据相加，完成残差块设计；

步骤4. 基于残差块构建深度学习模型，模型主要包含以下组件：

（4.1）构建16个核尺寸为

，步长为2，填充为2的卷积层；

（4.2）采用批量归一化层进行连接，其原理同步骤3的（3.2）；

（4.3）采用基于Relu函数的激活层，如公式（5）对上层输出进行非线性变换，

（5）

（4.4）构建核尺寸为3，步长为2的最大池化层与上层相连接，其原理如公式（6），

（6）

其中

为对应位置

的像素点输出值，

对应池化层核的像素点位置；

为池化层核的高，

为池化层核的宽；

（4.5）构建2个残差块相连接，其中包含16个形如步骤3中（3.1）的卷积核；

（4.6）构建同本步骤（4.2）中的批量归一化层；

（4.7）采用失活层，依0.5的概率去除上一步骤（4.6）中的输出数据，进一步降低数据维度，降低过拟合风险；

（4.8）接入形如本步骤（4.5）中的2个残差块，与之不同的是该残差块中包含32个卷积核；

（4.9）采用同本步骤（4.7）中的失活层，依0.5的概率去除上一步骤（4.8）中的输出数据；

（4.10）接入形如本步骤（4.8）中的2个残差块，与之不同的是该残差块中包含64个卷积核；

（4.11）接入全局平均池化层，即对于每个特征图输出一个平均值；

（4.12）最后一层采用全连接层，对上述输出数据进行线性变换，从而转化输出轮毂的类别。

步骤5. 采用Xavier初始化上述模型所有权重，引入权重衰减系数为0.001，学习率为0.01；

步骤6. 首先采用基于自适应矩估计的批量随机梯度下降算法对模型参数优化100个时间步，保存一个训练集正确率和测试集正确率都表现较好的模型参数，注意要使测试集在模型中表现比训练集更优越；

步骤7. 使用步骤6中保存的参数初始化步骤4中的深度学习模型参数，保持所有超参数不变，改用批量梯度下降算法继续优化模型参数，此时模型能够获得最佳参数。

进一步地，步骤（3.1）具体为：构建连续的两层核尺寸为

，填充为1的卷积核，其中步长为2；对于输入高为

宽为

的图像

的每个元素与高为

宽为

的卷积核

的二维卷积计算，按照公式

计算相应的输出，其中

对应位置

的像素点输出值，

对应卷积核

的像素点位置。

进一步地，步骤（3.2）中，批归一化算法具体过程为：

1）对数据进行批归一化，使分布趋于一致，对于一个含

个样本的小批量

中的任意一个样本

,

，通过公式（1）和（2）分别计算出这个批量

的均值

和方差

，

（1）

（2）

在计算得到均值和方差以后，可以根据公式（3）计算出归一化后的样本

，

（3）

式中，

是调整因子，防止由于方差趋于0导致分母为0的数值下溢；

2）按公式（4）对批归一化的数据

进行缩放和平移；

（4）

其中

为第

个样本最终的归一化输出，

为缩放参数，

为平移参数。

本发明的有益效果是：

（1）采用本发明的方法构建的深度学习模型能够实现对多种轮毂类型的识别，没有过拟合现象，识别速度快，识别精度高，能够实现工业轮毂的实时识别。

（2）采用本发明的方法构建的模型能够自动识别多类型轮毂，有利于克服轮毂生产过程中人工识别与分拣的弊端，提高低压铸造铝合金轮毂生产过程的效率，节省人力和物力。

附图说明

图1是模型的残差块设计原理图。

图2是深度学习网络模型总图，图中Conv表示卷积层，Norm表示归一化层，Activation表示激活层，Max Pool表示最大池化层，Dropout表示失活层，Avg Pool表示平均池化层，FCN表示全连接层。

图3是本发明深度学习模型优化流程图。

具体实施方式

以下结合附图对本发明的技术方案做进一步详细说明，应当指出的是，具体实施方式只是对本发明的详细说明，不应视为对本发明的限定。

如图1-3所示，一种适用于轮毂自动化识别的深度残差模型构建方法，包括以下步骤：

步骤1. 通过图像传感器采集大小各异，形状纹理不同的轮毂图像构建轮毂数据集；

步骤2. 对步骤1中的轮毂数据集采用分层采样方法取数据集的30%作为训练集，70%作为测试集，将所有图像数据统一大小为

，将所有像素值除以255标准化到区间

中，使得数据集趋于相同的分布；

步骤3. 进行残差块设计，如图1所示，每一个残差块都由一个系列层和捷径和一个捷径连接组成，这个捷径将输入特征图像和输出图像在对应位置上的元素执行加法运算，所以需要残差模块的输入图像、输出图像的宽高要求一致；具体设计流程如图1所示，其中x为该模块的输入特征图，经过权重层weight layer以及激活函数ReLU以后映射输出

，最终输出为

；

（3.1）构建连续的两层核尺寸为

，填充为1的卷积核，其中卷积核个数在本发明中分别取16,16,32,32,64，步长均为2。对于输入高为

宽为

的图像

的每个元素与高为

宽为

的卷积核

的二维卷积计算可以按照公式

可以计算相应的输出，其中

为对应位置

的像素点输出值，

为对应卷积核

的像素点位置；

（3.2）承接上面两层卷积层，后面接两层批量归一化层，批归一化算法可以分为两个过程：

1）对数据进行批归一化，使分布趋于一致，对于一个含

个样本的小批量

中的任意一个样本

,

，通过公式（1）和（2）分别计算出这个批量

的均值

和方差

，

（1）

（2）

，

（3）

式中，

是调整因子，防止由于方差趋于0导致分母为0的数值下溢；

2）按公式（4）对批归一化的数据

进行一定的缩放和平移；批量归一化对提高模型收敛性具有很大意义；

（4）

其中

为第

个样本最终的归一化输出，

为缩放参数，

为平移参数，均采用随机初始化，在参数学习中进行调节。

（3.3）将上述输出结果与步骤2中的图像数据相加，完成残差块设计。

步骤4. 基于残差块构建深度学习模型，模型主要包含以下组件，如图2所示：

（4.1）构建16个核尺寸为

，步长为2，填充为2的卷积层；

（4.3）采用基于Relu函数的激活层，如公式（5）对上层输出进行非线性变换，增强模型的学习容量，能够拟合复杂的数据集；

（5）

（4.4）构建核尺寸为3，步长为2的最大池化层与上层相连接，其原理如公式（6），该层主要用来对特征维度的约简，降低过拟合风险；

（6）

其中

为对应位置

的像素点输出值，

为对应池化层核的像素点位置，

为池化层核的高，

为池化层核的宽；

（4.6）构建同本步骤（4.2）中的批量归一化层；

（4.7）采用失活层（Dropout），依0.5的概率去除上一步骤（4.6）中的输出数据，进一步降低数据维度，降低过拟合风险；

（4.11）接入全局平均池化层（Avg Pool），即对于每个特征图输出一个平均值；

（4.12）最后一层采用全连接层（FCN），对上述输出数据依据公式

进行线性变换，其中

为步骤（4.11）的输出结果，

为类别输出结果，

和

为学习参数。由于本实施例中对19类轮毂进行分类，所以输出维度为19，如图2所示。

步骤6. 首先采用基于自适应矩估计（Adam）的批量随机梯度下降算法对模型中的所有卷积核权重、全连接权重等学习参数优化100个时间步，保存一个训练集正确率和测试集正确率都表现较好的模型参数，注意要使测试集在模型中表现比训练集更优越；

步骤7. 使用步骤6中保存的参数初始化步骤4中的深度学习模型中的所有权重系数，保持原有的权重衰减系数以及学习率，改用批量梯度下降算法继续优化模型参数，此时该模型在训练集和测试集上分别有99.95%和99.96%的图像识别率，单张识别不超过20毫秒，且不存在过拟合现象。采用本发明方法构建的模型对轮毂类型识别效果较好，识别速度快，识别精度高，能够实现工业轮毂的实时识别。