CN114758178B

CN114758178B - 一种基于深度学习的轮毂实时分类及其气阀孔定位方法

Info

Publication number: CN114758178B
Application number: CN202210405548.9A
Authority: CN
Inventors: 潘丰; 夏辉; 董进华; 张茂彬
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2024-04-05
Anticipated expiration: 2042-04-18
Also published as: CN114758178A

Abstract

本发明公开了一种基于深度学习的轮毂实时分类及其气阀孔定位方法，涉及图像处理领域。其步骤包括：轮毂数据集采集，建立数据库，并进行数据分类与数据分割标注；采取图像增强的方法进行数据预处理；搭建轮毂检测实时分类分割模型；设计实时分类分割模型的损失函数；设计模型的评价指标；选择相应的学习率和目标优化器；训练与测试模型；模型推理加速，进一步提高模型运行速度。本发明轮毂分类分割检测精度高，实时响应速度快，融合了神经网络与向量机两者的优势，实用性更强。

Description

一种基于深度学习的轮毂实时分类及其气阀孔定位方法

技术领域

本发明涉及图像处理领域，具体涉及一种基于深度学习的轮毂实时分类及其气阀孔定位方法。

背景技术

汽车产业生产过程中，往往涉及轮毂分拣，需要进行轮毂型号分类，以及由于气阀孔质量损失造成质量分布不均，从而引起车轮旋转不平衡，最终产生车身震荡甚至更为严重的后果，需要根据气阀孔位置做转动补偿以平衡车轮。传统的人工方式检测轮毂易受主观因素影响，使得检测效率降低，越来越不能满足快、稳、准的工作需求。常规的机器学习方法利用去除背景、形态学处理、局部二值化和边缘提取算子等做特征提取，为轮毂检测提供了可靠的解决方案；但是由于轮毂自身的形状、大小和位置等以及轮毂检测环境的多变性，因此仍然存在速度慢、精度不高以及抗干扰能力较差的问题；并且人工设计的特征属于较低层次的特征表达，缺乏关联高级语义信息的能力。为了进一步实现轮毂分拣检测自动化和智能化，提升生产效率，降低生产成本，需要一种满足工业上实时性要求的轮毂检测方法来解决上述问题。

发明内容

本发明针对上述问题，提供一种基于深度学习的轮毂实时分类及其气阀孔定位方法。使用全卷积神经网络，采取下采样层和上采样层的组合，是一种端到端的网络模型，低消耗、高效率，主要由四部分组成：轻量级神经网络、金字塔池化模块、分类分支和语义分割分支。轻量级神经网络作为骨干网络，配合两个具有特定功能——分类与分割的子网组成整个网络结构。下采样过程为轻量级神经网络，上采样过程为分割分支，还有一条分支为分类。通过轻量级神经网络提取轮毂特征，将底层特征分别送入分类以及语义分割。分类中，在神经网络训练分类时添加支持向量机作为监督，辅助训练分类。分割中，由金字塔池化模块更好利用全局信息，通过特征上采样并结合多个尺度的特征检测轮毂和气阀孔两个不同尺度的物体。

一种基于深度学习的轮毂实时分类及其气阀孔定位方法，其步骤包括：

步骤1：采集各类型轮毂数据集(每类轮毂的样本数为10～20张，1024×1280像素)，建立数据库；进行数据分类标注与数据分割标注，数据分割标注包含轮毂与气阀孔的具体位置；每类轮毂的样本分成训练数据集与测试数据集(优选的按8：2的比例分为训练数据集与测试数据集)；

步骤2：采用图像增强的方法对训练数据集进行预处理，测试数据集不做预处理；轮毂的制造环境复杂多变，轮毂的样本采集受光线强弱的变化，对于整体对比度不足或局部过暗、过曝的轮毂数据，使用随机调整图像亮度、饱和度、对比度的方法进行图像增强；受相机本身信号影响产生失真的彩色杂点的轮毂数据，通过添加高斯噪声和椒盐噪声的方法进行图像增强；进一步采用添加剪裁、左右和上下翻转轮毂图片的方法扩充样本数量；

步骤3：搭建轮毂实时分类分割模型，由改进MobileNetV3网络、金字塔池化模块、分类分支和语义分割分支4部分组成，无全连接层，是一个全卷积神经网络模型；

改进MobileNetV3网络：改进MobileNetV3网络作为下采样过程，是成比例缩小特征图宽和高，同时增加特征信息的过程；由步长大于1的卷积和池化操作完成一次下采样，一共做5次下采样，得到2、4、8、16、32倍下采样的特征图，配合深度可分离卷积、批标准化层、池化层与激活函数组成整个下采样过程；在此基础上为提高语义分割的精度，进一步加入空洞卷积来提高感受野，减少参数量；为进一步将网络轻量化，卷积模块加入通道拆分的操作，将每个卷积模块的输入通道拆分为两个分组，作为两个分支，一个分组进行相应卷积、池化、激活函数操作，另一个分组直接进行短路连接与第一个分支的结果进行融合，融合操作为Concatenate，通过特征在通道上的连接实现特征重用，最后再加上1×1卷积，增强两个分组的信息交流；

金字塔池化模块：金字塔池化模型使用多种不同金字塔尺度，产生不同层次的特征，为接下来的语义分割做好全局信息的获取；

分类分支：将下采样过后的底层特征送入分类器softmax进行分类，并添加支持向量机做特征约束作为监督，分类分支中加入一层嵌入层，将嵌入层特征送入分类器支持向量机进行分类；

语义分割分支：语义分割分支为上采样过程，融合多个尺度的特征层，底层32倍分辨率的特征层由金字塔池化模块增大感受野，一次上采样后与上层特征层进行融合，继续上采样与融合直至最上层，做轮毂以及气阀孔的分割；两两融合可以利用底层定位细节信息，最后对融合结果进行卷积，消除混叠效应；

步骤4：设计轮毂实时分类分割模型的损失函数，以该损失函数来估量模型预测值与真实值的不一致程度；轮毂实时分类分割模型中存在分类与分割两个并行任务，其中分类有Softmax预测和支持向量机预测两个输出，分割有一个Softmax预测输出，故训练的损失函数需要联合分类和分割的三个输出；使用合页损失函数作为分类支持向量机预测输出的损失函数L_svm，使用交叉熵损失函数作为分类Softmax预测输出的损失函数L_clas，使用交叉熵损失函数作为分割Softmax预测输出的损失函数L_seg，轮毂实时分类分割模型的损失函数记作Loss，Loss＝L_clas+α·L_seg+β·L_svm，α,β为权重系数；

步骤5：设计轮毂实时分类分割模型的评价指标，在分类分支中，评价指标采用F1-score指标；在语义分割分支中，采用平均交并比以及气阀孔目标的交并比作为分割精度的评价指标；推理速度指标为FPS；改进MobileNetV3网络提取的底层特征送入Softmax计算分类概率C_m为：

其中m＝1,2,...,N，l＝1,2,...,N，N表示轮毂型号类别数，z_m,z_l表示轻量级神经网络的第m个和第l个分类预测输出，由此计算改进MobileNetV3网络分类的交叉熵损失函数，表示为L_clas：

其中m＝1,2,...,N，h_m表示分类标签真实值的one-hot编码中的值；

在分类中加入支持向量机做特征约束作为监督，辅助改进MobileNetV3网络训练，并为后续部署离线训练模型提供保障，改进MobileNetV3网络提取的嵌入层256维特征送入支持向量机进行分类，支持向量机构造并求解约束最优化问题：

其中w、b、x_i、y_i、n分别为权重、偏置、输入数据、分类标签真实值、样本数，i＝1,2,...,n；通过拉格朗日函数将约束条件融合到目标函数中，得到L(w,b,α)：

对w,b分别求偏导，并带入式(4)得：

由于轮毂特征复杂多变，呈现强非线性，因此支持向量机加入高斯核，并采用一对多方法，每一类设置一个分类器从而达到多分类的效果，高斯核函数k(x_i,x_j)为：

其中σ＞0为高斯核的带宽，x_j是核函数中心；

由式(5)和式(6)得到支持向量机分类的损失函数，表示为L_svm：

语义分割是对图像中的所有像素点进行分类，同样由轻量级神经网络的分割输出送入Softmax计算概率S_r：

其中r＝1,2,...,M,t＝1,2,...,M，M为分割类别数，a_r,a_t表示轻量级神经网络的分割预测输出，进一步计算分割的交叉熵损失函数，表示为L_seg：

其中H_r表示分割标签真实值的one-hot编码中的值；

进行轮毂检测时有三个子任务，轮毂型号的神经网络Softmax分类、支持向量机分类和语义分割；为了在统一的模型中实现三个任务的联合训练，将分类和分割的损失函数结合起来，则总损失函数Loss为：

Loss＝L_clas+α·L_seg+β·L_svm (10)

其中，α,β为权重系数；

步骤6：选择学习率和优化器，使用学习率自适应方法，当朝着目标最优方向移动步长较大时，选择较大学习率，当接近目标最优值时，逐步降低学习率；优化器选择Adam优化器；目标函数优化得到的模型需要进行检测效果的评价，达到指标的模型才能够投入使用，因此，分别对分类与分割输出设计相应的评价指标；

在分类分支中，首先采用Top-1准确率，评价指标采用F1-score指标，对每一类分类的结果进行统计，评价指标F1如下：

F1-score是精确率和召回率的调和平均数，其中precision,recall分别是精确率、召回率，TP为True Positive表示真阳性，FP为False Positive表示假阳性，FN为FalseNegative表示假阴性；

在语义分割分支中，采用平均交并比，对分割中每一分割类别的交并比求取平均，平均交并比mIoU为：

其中k表示分割类别，p_uv表示真实值为u，被预测为v的数量，p_uu,p_uv,p_vu分别表示真阳性，假阴性，假阳性的数量；由于检测任务主要关注气阀孔，故也加入气阀孔区域的交并比作为评价指标，记作IOU，公式如下：

推理速度评价指标为FPS为：

其中T为单张图片的推理时间；

步骤7：训练与测试模型，将训练数据集与测试数据集送入模型进行训练与测试，测试数据集能直观的反应训练数据集训练的效果，对测试数据集测试结果进行评价指标评估；神经网络反向传播更新权重；若是出现训练不充分或者训练过拟合的情况，需要及时调整网络参数；使用学习率自适应方法，当朝着目标最优方向移动步长较远时，选择较大学习率，当接近目标最优值时，逐步降低学习率，有助于训练快速收敛，避免权重梯度来回震荡；优化器选择梯度下降算法，不断更新网络模型中的参数，直到寻找到最优解，通常选择Adam和Rmsprop优化器；

步骤8：模型测试指标达到要求指标时，冻结节点参数，预留分类与分割的输出节点，保存模型；网络训练的结果一般表现为恰好拟合、欠拟合、过拟合以及完全不收敛的情况，当出现训练欠拟合的情况时，考虑增加优化数据集，进行数据清洗，加大训练迭代次数，进一步减小学习率；当出现训练过拟合的情况时，考虑减少epoch的次数，增加数据增强方案，降低网络的复杂度；当出现训练完全不收敛的情况时，考虑检查数据集、标签以及预处理，确保网络层的设计和参数设置正确；

步骤9：部署离线训练模型，并对模型进行剪枝量化等优化操作，选择基于CPU硬件的加速平台OpenVINO进行推理加速，完成工业实时性要求。离线训练使用支持向量机训练，模型预留输出节点为拥有256维度特征的嵌入层权重参数，利用这些训练完善后具有较强泛化性能的模型权重参数提取图片特征，此时单张原图片由1024×1280的三通道图像转换为具有256维度的特征集合，使得特征易于区分与训练，方便支持向量机离线训练并区分这些特征，并且当有新型号的轮毂加入库中，也无需依赖GPU重新使用神经网络训练，能够通过离线训练识别新型号轮毂，前提是权重参数泛化性能强；部署模型到设备，并利用OpenVINO工具包进行推理加速。

本发明的有益效果：本发明通过轻量级神经网络提取特征，融合分类与语义分割分支，并配合支持向量机，完成轮毂实时识别定位的one-stage检测，即经过单次检测即可直接得到最终的检测结果，在满足精度的要求下检测速度极快；离线训练采用支持向量机训练，损失函数中支持向量机的加入，为后期部署离线训练模型提供了保障，即使当有新型号轮毂加入库中，也无需依赖GPU重新使用神经网络训练，能够通过支持向量机离线训练识别新型号轮毂；由于卷积神经网络和支持向量机的融合，在人工智能以及机器学习两方面都达到了要求，意味着实用性更加广泛。

附图说明

附图1为一种基于深度学习的轮毂实时分类及其气阀孔定位的流程图。

附图2为改进MobileNetV3-large分类分割的模型结构。

附图3为MobileNetV3网络基本卷积模块改进。

附图4为轮毂检测效果。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

参照附图1，一种基于深度学习的轮毂实时分类及气阀孔定位方法，包含以下步骤：

步骤1：数据集采集

采集各类型轮毂数据集，共有203类轮毂型号，每类轮毂的样本数为10～20张(1024×1280像素)，建立数据库，共计轮毂样本3207张；进行数据标注，包括分类标注与分割标注，分割标注中包含轮毂与气阀孔的具体位置；每类轮毂的样本按8：2分成训练数据集与测试数据集，训练样本2565张，测试样本642张。

步骤2：数据预处理

采用图像增强的方法对训练数据集进行预处理，测试数据集不做预处理；图像增强通过增加微小扰动和变化，一方面增加训练数据，提高网络的泛化能力，另一方面增加噪声干扰，增强网络模型的鲁棒性；轮毂的制造环境复杂多变，轮毂的样本采集受光线强弱的变化，造成整体对比度不足或局部过暗、过曝，使用随机调整图像亮度、饱和度、对比度的方法进行图像增强；受相机本身信号影响产生失真的彩色杂点，对此添加高斯噪声和椒盐噪声的方法进行图像增强；进一步采用添加剪裁、左右和上下翻转轮毂图片的方法扩充样本数量。

步骤3：搭建实时分类分割模型

整个网络由改进MobileNetV3网络、金字塔池化模块、分类分支和语义分割分支4部分组成。整体的网络结构参照附图2。

改进MobileNetV3网络：改进MobileNetV3网络作为基础网络做特征提取，为下采样过程。MobileNet系列网络属于轻量级神经网络，随着版本迭代依次加入了深度分离可卷积、线性瓶颈的逆残差结构以及由SENet提出的注意力模型，本实例对MobileNetV3的改进如下：

1)为进一步减少参数计算量，提升模型计算效率，在基本卷积模块中加入通道拆分，如附图3中所示，输入通道拆分为两组，分为两个分支，一个分组同原始模型，进行相应卷积操作，另一个分组直接进行短路连接与第一个分支的结果进行融合，融合操作为Concatenate，通过特征在通道(channel)上的连接实现特征重用，最后再加上1×1卷积，增强两个分支的信息交流。

2)原始模型中有多层卷积层使用5×5的卷积核，增大感受野的同时增加了参数量，两个3×3的卷积核相当于一个5×5的卷积核，但是两者的参数量是不同的，一个5×5的卷积核：5×5＝25，两个3×3的卷积核：3×3×2＝18，因此将卷积核全部替换为3×3，感受野相应减小，因此使用空洞卷积提高感受野的大小，对此在特征图为16倍分辨率时设置空洞卷积来增大感受野，膨胀率(dilation rate)设置为：1，2和5，小的膨胀率关心小物体，即气阀孔，大的膨胀率关心大物体，即轮毂。

金字塔池化模块：金字塔池化模块是一种特殊的池化模型，通过由多到少的池化，可以有效增大感受野，增大全局信息的利用效率；本实例使用3种不同金字塔尺度，池化窗口分别是5×5、9×9和13×13，产生不同层次的特征，为接下来的语义分割做好全局信息的获取。

分类分支：下采样过后的底层特征设置输出维度203，与分类类别总数一致，设置嵌入层输出维度256，送入支持向量机进行分类。

分割分支：越深的网络提取到的语义信息越丰富，低层特征分辨率高，高层特征语义信息丰富，上采样过程融合8倍以及32倍分辨率两个尺度的特征层，如附图2中所示，下采样过后底层32倍分辨率的特征层由PPM增大感受野，上采样后与8倍分辨率的特征层进行融合，做轮毂以及气阀孔的分割。

步骤4：实时分类分割模型的损失函数设计

设置权重系数：α＝1,β＝1

步骤5：模型评价指标设计

分类中，使用F1-score评价指标；分割中，使用mIoU与IOU评价指标。

步骤6：学习率与优化器选择

训练刚开始时，由于模型权重参数是随机初始化的，一开始就是较大的学习率可能导致模型训练出现振荡，因此选择“warm-up”预热学习率的方式，首先选择较小的学习率，取0.001，训练5个epoch，接着设置学习率为lr＝0.01，每200个epoch降低学习率至lr/10。选择“Adam”优化器更新参数，使得目标函数取得最优值，权重初始化为截断正态分布的随机数，且指定标准差为0.01，偏置初始化为0。

步骤7：训练与测试模型

将数据送入模型进行训练，冻结最终模型训练完善的各个结点参数，保存模型。

步骤8：模型推理加速，进一步提高模型运行速度

将保存好的模型部署到设备，进行OpenVINO推理加速，进一步提高模型运行速度，由于工业上实时性的要求，模型需要在CPU、GPU平台上进行加速，GPU平台加速成本高昂，不便于产品推广，选择基于CPU硬件的加速平台OpenVINO，有效节约成本。

本发明提出的基于深度学习的轮毂实时分类及其气阀孔定位方法，最终在203类轮毂型号的测试集上，在各类指标上都达到了良好的效果。具体的来说，在分类中，CNN与SVM的F1-score值都达到了100％；在分割中，平均交并比(mIoU)达到了98.64％，气阀孔的交并比达到了97.37％，轮毂检测效果如附图4中所示；在推理加速上，对单张图片进行推理加速，在CPU：intel i5-7500 3.40Ghz上的运行速度达到21FPS。

将下采样过程换作相同改进方法的MobileNetV3-small时，也获得了很好的效果。在分类中，CNN与SVM的F1-score值达到了100％；在分割中，平均交并比(mIoU)达到了98.11％，气阀孔的交并比达到了96.24％；在推理加速上，对单张图片进行推理加速，在CPU：intel i5-7500 3.40Ghz上的运行速度达到43FPS。

Claims

1.一种基于深度学习的轮毂实时分类及其气阀孔定位方法，其特征在于，包括以下部分：

步骤1：采集各类型轮毂数据集，建立数据库；进行数据分类标注与数据分割标注，数据分割标注包含轮毂与气阀孔的具体位置；每类轮毂的样本分成训练数据集与测试数据集；

步骤2：采用图像增强的方法对训练数据集进行预处理，测试数据集不做预处理；对于整体对比度不足或局部过暗、过曝的轮毂数据，使用随机调整图像亮度、饱和度、对比度的方法进行图像增强；对于受相机本身信号影响产生失真的彩色杂点的轮毂数据，通过添加高斯噪声和椒盐噪声的方法进行图像增强；进一步采用添加剪裁、左右和上下翻转轮毂图片的方法扩充样本数量；

改进MobileNetV3网络：改进MobileNetV3网络作为下采样过程，是成比例缩小特征图宽和高，同时增加特征信息的过程；由步长大于1的卷积和池化操作完成一次下采样，一共做5次下采样，得到2、4、8、16、32倍下采样的特征图，配合深度可分离卷积、批标准化层、池化层与激活函数组成整个下采样过程；进一步加入空洞卷积来提高感受野，减少参数量；将卷积模块加入通道拆分的操作，将每个卷积模块的输入通道拆分为两个分组，作为两个分支，一个分组进行相应卷积、池化、激活函数操作，另一个分组直接进行短路连接与第一个分支的结果进行融合，融合操作为Concatenate，通过特征在通道上的连接实现特征重用，最后再加上1×1卷积，增强两个分组的信息交流；