CN111259893A

CN111259893A - 一种基于深度学习的智能工具管理方法

Info

Publication number: CN111259893A
Application number: CN202010062048.0A
Authority: CN
Inventors: 柳潆林
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-09

Abstract

一种基于深度学习的智能工具管理方法，属于机器视觉技术领域。本发明解决了现有工具管理存在效率低，人力资源浪费的问题。本发明针对多个工具箱及工具箱内的工具进行标号，所述多个工具箱内均设置有多个类型相同或不同的工具，所述工具箱内每个工具均有固定的位置；且每个工具箱内的所有工具的标号均与工具箱的标号相同；采集待检测的工具箱的内部图像，利用图像识别的方法对待检测的工具箱的内部图像进行识别，获取待检测的工具箱内缺失的工具的标号、类型及缺失工具在工具箱内的位置；将获取的待检测的工具箱内缺失的工具的标号、类型及缺失工具在工具箱内的位置信息存储至MySQL数据库中，利用MySQL数据库对工具进行智能管理。本发明适用于工具管理。

Description

一种基于深度学习的智能工具管理方法

技术领域

本发明属于机器视觉技术领域，具体涉及一种智能工具管理方法。

背景技术

工具管理是一种组织管理，是指对工具在出库、入库、使用、存储以及维护等方面所进行的管理。

传统的工具管理通常依赖于非自动化的且基于纸张文件的系统来记录工具的当前使用状态，工具仓库内的管理全部由人工实现，故而仓库管理的效率极低，可管理的仓库规模也较小，不适用大规模，这样不但浪费了大量的人力资源，还会因人为影响造成数据录入的速度慢以及准确率较低。随着生产生活水平的提高，工具的种类和数量也在快速增加，出入库的频率猛增。基于传统的人工纸张管理越来越无法适应管理规模的扩大。

发明内容

本发明的目的是为了解决现有工具管理存在效率低，人力资源浪费的问题，提出了一种基于深度学习的智能工具管理方法。

本发明所述的一种基于深度学习的智能工具管理方法，该方法的具体步骤为：

步骤一、针对多个工具箱及工具箱内的工具进行标号，所述多个工具箱内均设置有多个类型相同或不同的工具，所述工具箱内每个工具均有固定的位置；且每个工具箱内的所有工具的标号均与工具箱的标号相同；

步骤二、采集待检测的工具箱的内部图像，利用图像识别的方法对待检测的工具箱的内部图像进行识别，获取待检测的工具箱内缺失的工具的标号、类型及缺失工具在工具箱内的位置；

步骤三、将获取的待检测的工具箱内缺失的工具的标号、类型及缺失工具在工具箱内的位置信息存储至MySQL数据库中，利用MySQL数据库对工具进行智能管理。

进一步地，步骤二所述采集检测的工具箱的内部图像，利用图像识别的方法对检测的工具箱的内部图像进行识别，获取待检测的工具箱内缺失的工具的标号、类型及缺失工具在工具箱内的位置的具体方法为：

步骤S1、获取工具图像并进行标注，建立工具图像训练集，对Faster R-CNN模型进行训练；

同时获取二值化的工具图像，并对二值化的工具图像进行标号，建立二值化标号图像训练集，利用训练集对LeNet网络模型进行训练；

步骤S2、获取待检测的工具箱的内部图像；，

步骤S3、利用训练后的LeNet网络模型对待检测的工具箱的内部图像中缺失工具的标号的进行识别，获取缺失工具的标号；同时，利用训练后的Faster R-CNN模型对待检测的工具箱的内部图像中缺失的工具在工具箱内的位置及缺失工具类的型进行识别。

进一步地，步骤S3中所述获取缺失工具的标号的具体步骤为：

步骤A1、利用字符区域检测算法与字符区域分割算法对待检测的工具箱的内部图像进行字符区域检测和字符区域分割，获取缺失工具的标号的二值化图像；

A2、利用训练后的LeNet网络模型对缺失工具的标号的二值化图像进行标号识别，获取缺失工具的标号。

进一步地，步骤S3中所述利用训练后的Faster R-CNN模型对待检测的工具箱的内部图像中缺失的工具在工具箱内的位置及缺失工具类的型进行识别的具体方法为：

步骤B1、采用图像背景差分法对待检测的工具箱的内部图像进行差分处理，得到差分结果图；

步骤B2、利用训练后的Faster R-CNN模型对差分结果图进行识别，获取缺失的工具在工具箱内的位置及工具类型。

进一步地，步骤S1中所述建立工具图像训练集的具体方法为：

对工具箱中工具或工具组合进行不同角度、光照、背景条件下拍照获得图像集，采用LabelImg软件对图像集中工具的标号和缺失工具的类别进行标注，获得工具图像训练集，工具的标号和工具箱的标号相同。

进一步地，步骤S1中所述对Faster R-CNN模型进行训练的具体方法为：

步骤S101、利用ZF Net多层卷积神经网络对工具图像训练集中的每个图像分别进行特征提取，获取特征图像集；

步骤S102、将特征图像集中的特征图作为RPN网络的输入，获取特征图中每个候选区域的位置及每个候选区域的类型概率；

所述候选区域的类型包括工具区域、背景区域和工具与背景的混合区域；

步骤S103、利用ROI池化层网络对特征图中候选区域进行分割，并利用最大池化操作，获取固定尺寸的候选区域；

步骤S104、通过全连接层与Softmax函数对固定尺寸候选区内的工具类别概率进行计算；

步骤S105、利用边框回归对固定尺寸的候选区域的位置进行调整，获得多个目标框；

步骤S105、利用非最大值抑制算法获取准确的目标框，完成Faster R-CNN模型训练。

进一步地，步骤A1所述获取缺失工具的标号的二值化图像的具体方法为：

步骤A11、对待识别的工具箱图像进行灰度处理，并进行边缘检测，对检测到的边缘做形态学闭运算，获取字符区域；

步骤A12、利用霍夫变换实现对字符区域内字符的倾斜进行校正，并对字符区域进行二值化操作，突显出字符区域内的字符；

步骤A13、从上向下扫描相邻像素点黑白跳变总次数，确定字符区域中的无效区域；并删除所述无效区域；获取准确的二值化字符区域；

步骤A14、利用字符区域垂直投影的方式对准确的字符区域进行字符分割，获得完整的缺失工具标号的二值化图像。

本发明提利用Faster R-CNN网络对工具进行识别与分类。识别工具的同时，利用LeNet网络对字符进行分类识别。精确识别具有唯一字符标记工具，实现科学高效管理。且利用卷积神经网络自动提取特征，大幅度降低了人工识别的错误率。针对成箱的工具，采用图像背景差分法检查缺失工具并通过基于区域提取的目标检测算法识别缺失工

具。采用字符区域检测、字符区域分割以及经典神经网络识别工具箱编号。准确定位缺失工具类型与编号，并存储至MySQL数据库中，利用MySQL数据库对工具进行智能管理。在高频率工具租借仓库管理中替代人工检测，检测速度快，准确率高，更具实用性。

附图说明

图1为发明所述方法流程示意图；

图2为Faster R-CNN网络整体结构图；

图3为Faster R-CNN网络中选定区域流程图；

图4为Faster R-CNN网络中识别定位流程图；

图5为非最大值抑制算法的流程图；

图6为字符图像识别流程图；

图7为字符区域检测流程图；

图8为工具字符样例；

图9为闭操作效果图；

图10为字符区域中间行的灰度差分变化曲线图；

图11为非字符区域中间行的灰度差分变化曲线图；

图12为精确字符区域图；

图13为字符区域分割流程图；

图14为二值化字符图像；

图15为去除无效区域效果图；

图16为像素跳变统计图；

图17为字符分割结果图；

图18为LeNet网络结构图；

图19为工具箱固定位置图；

图20为完整工具箱图片；

图21为缺失工具的工具箱图片；

图22为差分结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

具体实施方式一：下面结合图1至图22说明本实施方式，本实施方式所述一种基于深度学习的智能工具管理方法，该方法的具体步骤为：

步骤一、针对多个工具箱及工具箱内的工具进行标号，所述多个工具箱内均设置有多个类型相同或不同的工具，所述工具箱内每个工具均有固定的位置；且每个工具箱内的所有工具的标号均与工具箱的标号相同

步骤S2、获取待检测的工具箱的内部图像；，

对工具箱中工具单独或组合进行不同角度、光照、背景条件下拍照获得图像集，采用LabelImg软件对图像集中工具的标号和缺失工具的类别进行标注，获得图像训练集。本实施方式中，工具图像集的图像来自工具箱中工具单独或组合拍照获得，包括不同角度、光照、背景、工具数量(未增强的数据集共5000张，每类平均大约500张)。为尽可能保证制作数据集的丰富性，将拍摄的数据集图像用LabelImg软件标注，标注信息包括图片ID、物体的类别和标注框的中心点坐标与尺寸(x^*,y^*,w^*,h^*)，x^*表示标注框的中心点横坐标，y^*表示标注框的中心点纵坐标，w^*表示标注框的宽度，h^*表示标注框的高度，用来作为Faster R-CNN模型的监督信息。再利用剪裁、平移、改变亮度、旋转角度、镜像、加噪声等手段对数据集进行增强操作(增强后共包含20000张，每类平均增加到4000张)，同时生成的xml文件也会随着增强操作而保存处理后图像，将图像集以8：2的比例分为训练数据集与测试数据集。训练数据集用来训练Faster R-CNN模型。测试数据集用来测试训练模型结果。

步骤S106、利用非最大值抑制算法获取准确的目标框，完成Faster R-CNN模型训练。

本实施方式中，利用Faster R-CNN中提供的ZF Net网络，输入工具图像训练集，提取工具图像中的特征，输出特征图。

然后构建Faster R-CNN网络模型；该模型包括RPN网络，ROI池化层网络和全连接层网络。如图2所示是Faster R-CNN网络整体结构。

将ZF Net网络输出的特征图作为RPN网络的输入，由特征图生成感兴趣区域ROIs，选定区域流程图如图3所示。通过共享最后一个卷积层上的卷积核，将其视为滑动窗口在输出的特征图上滑动。每个滑动窗口都被映射成一个低维向量。作为边框回归层与分类层的输入。以每个滑动窗口为中心，使用三个尺度(1:1、1:2、2:1)和(128²、256²、512²)三个纵横比，产生k＝9个锚，作为k种候选区域。

对于一个尺寸大小为W×H的特征图，(其中，W为特征图的宽度，H是特征图的高度，W和H的单位均为像素)以每个像素点为滑动窗口，一共可以生成W×H×k(k为锚的种类，约20000)个候选区域，将这些候选区域作为分类层与回归层的输入。在分类层中利用Softmax分类器初步提取候选区域属于工具(positive，正例)或背景(negative负例)的概率，属于二分类任务。在边框回归层中，通过对标注框的中心坐标、宽度和高度的拟合，调整候选区域的中心坐标、宽度和高度。使得调整结果较接近标注框位置。通过分类层与边框回归层，可以得到具有工具(positive，正例)或背景(negative，负例)概率以及较靠近标注框位置的候选区域。

在训练过程中，一张图片会生成大量的候选区域，为提高检测速度，首先将越界边框删除，再利用IoU(IoU为候选区域与标注框的交际面积与并集面积得到比值)对每个候选区域进行标注。IoU＞0.7的候选区域标注为正例(目标)，IoU＜0.3的候选区域被标注为负例(背景)。将0.3＜IoU＜0.7的候选区域删除，降低了候选区域数量(约2000个)。通过Top-N算法选出属于以1：1的比例划分正例与负例的候选区域(约256个)作为后续ROI池化层的输入ROIs。

在RPN网络的训练过程中，利用梯度下降法，不断调整网络参数，使得损失函数最小化。RPN网络的损失函数分为分类层损失函数以及边框回归层损失函数。具体如下：

L({p_i},{t_i})为总损失函数。i表示每个样本索引，即为x、y、w或h，

表示分类层损失。

表示边框回归损失。N_cls表示分类样本总数，N_reg表示回归样本总数。

表示样本标签为正例或负例时其对应标注框为正例的概率，p_i表示样本标签为正例的概率。t_i表示预测样本的4个参数化坐标的向量，

表示标注框的4个参数化坐标的向量。λ表示分类层与边框回归层的权重参数，

为平滑函数；

其中对边框回归层的参数化坐标向量为：

x,y表示预测候选区域的中心坐标，w表示预测候选区域的宽度，h表示预测候选区域的高度，x^*,y^*表示标注框的中心坐标，w^*表示标注框的宽度h^*表示标注框的高度，x_a,y_a表示经过调整后的候选区域的中心坐标，w_a表示经过调整后的候选区域的宽度，h_a表示经过调整后的候选区域的高度。t_x,t_y表示预测样本的中心坐标的参数化坐标的向量，t_w表示预测样本的宽度的参数化坐标的向量,t_h表示预测样本的高度的参数化坐标的向量。

表示标注框的中心坐标的参数化坐标的向量、

表示标注框的宽度的参数化坐标的向量，

表示标注框的高度的参数化坐标的向量。

将生成的候选区域(ROIs)与ZF Net网络输出的特征图同时作为分类层与边框回归层的输入。但值得注意的是分类层与边框回归层属于全连接层，全连接的输入必须是固定大小，所以在此之前，利用ROI池化层将特征图上的候选区域进行处理。识别定位流程图如图4所示。首先由ROI池化层将输入的候选区域划分成相同大小的部分，并对其进行最大池化操作，获得相同大小的候选区域。再将其作为全连接的输入。

全连接层包括分类层与边框回归层。分类层利用softmax分类器得到每个目标建议框属于哪个工具类别的概率，属于多分类任务。

边框回归层的目标就是找到某种关系使得输入原始的候选区域更加接近真实的标注框。即对于给定的一个(p_x,p_y,p_w,p_h)，找到一种映射f,使得：

f(P_x,P_y,P_w,P_h)＝(R_x,R_y,R_w,R_h)≈(G_x,G_y,G_w,G_h)

(P_x,P_y,P_w,P_h)表示候选区域的四个坐标位置，(R_x,R_y,R_w,R_h)表示经过调整后的候选区域四个坐标位置。(G_x,G_y,G_w,G_h)表示标注框的四个坐标位置。

在分类层与边框回归层的网络训练中，同样利用梯度下降法，不断调整网络权值。使得损失函数最小化。全连接层损失函数包括分类层损失以及边框回归层损失。具体损失函数如下：

L(p,u,t^u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t^u,v)

L_loc(t_i ^u,v_i)＝smooth_L1(t_i ^u-v_i)

L(p,u,t^u,v)表示全连接层总体损失函数，L_cls(p,u)表示分类层损失函数，L_loc(t^u,v)表示边框回归层损失函数；λ表示权重参数。p表示预测样本类别的概率。u为二值指标，表示候选区域检测到对应类别物体。N_cls表示样本总数。M_cls表示样本可能的类别总数。p_ij表示预测样本i属于j类的概率u_ij为二值指标，表示类别j是否属于样本真实类别。

预测样本的4个参数化坐标的向量，i表示每个样本索引，即为x、y、w或h，v_i表示标注框的4个参数化坐标的向量。

在边框回归的过程中，一张图片会找到多个可能是目标的矩形建议框，此时需要用到非极大值抑制算法来去除无用边框，找到最合理的边框。非最大值抑制算法的流程图如图5所示。

首先，将出现的所有边框根据分类层得出的分类概率进行排序。找到概率最大的边框并保留，计算其余边框与最大边框的IOU是否大于设定阈值0.7，IOU表示两个矩形框的交集面积与并集面积的比值。若其余边框的重叠度大于阈值，选择抛弃。若最后保留的边框多于一个，则进行重复迭代，直到只保留一个边框输出。

本实施方式中，为了使工具管理更具针对性，每个工具箱内放置工具的位置固定，为将工具进行标号，每一个工具箱具有唯一的字符标识。为了满足工具管理的数量。在工具上利用激光打印七位字符，前三位字符为大写英文字母(A-Z)的组合，后四位为数字(0-9)的组合。

本实施方式中，字符图像识别流程图如图6所示。符区域检测就是检测到带有字符的矩形区域。字符区域检测流程图如图7所示。工具字符样例如图8所示。首先对拍摄的图像进行灰度化，再进行高斯模糊以实现去噪声化。利用边缘检测，对检测到的边缘进行形态学闭操作，闭操作效果图如图9所示。由于打印字符边缘相邻很近，对图像进行形态学闭操作后，字符区域被连接成矩形区域。对获得的连通区域进进行标记。获取每块连通区域的最小外接矩形，用来筛选字符区域。

筛选字符区域的过程分为粗筛选与细筛选。首先粗筛选是利用最小外接矩形框的长宽比来筛选不符合条件的区域。七个打印字符的长宽比约为4.8。选择长宽比再3到7之间的矩形框区域都划入候选区域，再进行细筛选。

细筛选是利用候选区域水平线上的灰度特征来筛选字符区域，其中特征包括振幅、波峰与波谷的间距和数量。首先对截取出来的候选区域从上到下扫描，计算图像种每行像素的灰度差分值：

Diff(i)＝I(j,i+1)-I(j,i)

其中，I(j,i)表示第j行第i个点的灰度值，Diff(i)表示第i个点处的差分值。

字符区域与非字符区域中间行的灰度差分值如图10和图11所示，按照从大到小的顺序对差分值数组Diff(i)进行排序，取前十个元素的平均值用于判断波谷的阈值。取后十个元素的平均值用于判断波峰的阈值。对每行的像素穿过波峰波谷的次数进行统计，个数超过设定阈值范围内，则认为该行穿过字符区域。若穿过字符的行数大于设定阈值0.7，认为该区域为字符区域。从而得到准确的字符区域，字符区域如图12所示。

然后将识别出来的字符区域进行分割，将每个字符块独立的分割出来。字符分割流程如图13所示。首先利用Hough变换实现工具上字符的倾斜校正。对经过倾斜校正的字符做二值化处理，以突显字符，消除其余背景信息。再执行二值化之前，首先灰度拉伸字符灰度图来增强对比度，并使用固定20的圆形结构对图像做闭运算，获取图像背景信息。利用图像差分法使背景干扰得以弱化。之后二值化，得到黑底白字的的二值化字符图像。二值化字符图像如图14所示。由于检测出的字符可能上下存在一些背景，因此要去除这些无效区域。使字符分割得到的字符更加准确。通过从上到下的扫描二值化字符图像中每行两个相邻像素之间黑白跳变总次数。像素跳变统计图如图14所示。若跳变总次数小于设置的跳变阈值，该行所有像素置零。若跳变总次数大于设置的跳变阈值，则扫描到字符区域。保留字符区域，删除无效区域。去除无效区域效果图如图15所示。

对得到的精确字符区域进行分割。首先对精确字符区域做垂直投影，垂直投影图如图16所示。利用垂直投影分布进行字符分割。字符分割分为粗分割与精细调整两部分。粗分割算法主要分两步，先设定初始阈值0，从字符区域的投影结果自左向右进行读取，将大于设定阈值的投影区域分割出来。再标记各区域的起始坐标begin[i]与终止坐标end[i]。其中i的范围[1:n]，n表示分割得到的区域个数。若n大于等于设定字符个数7，则进入精细调整。否则自行增加设定阈值，重新分割。

精细调整会根据字符块的具体情况来对字符分割进行调整。首先计算字符块宽度，若width[i]＞1.5×perwidth×width，其中width[i]表示第i个分块宽度，width表示字符区域总宽度，perwidth表示单个字符宽度比率。则出现了字符块粘连的情况，就要进行二次分割。扫描区域中的最大投影点之间的最小值，找到其中的最小投影点，即为二次分割点。

若width[i]＜0.7×width×perwidth，则考虑该字符块是否为1，若分割块内的每列的投影值很大并且并且变化很小，判定字符为1。否则视为噪声块删除。字符分割的结果如图17所示。

字符图像来自与工具箱材质类似的钢板上打印不同大小的字符拍照，并利用二值化处理方式得到黑底白字的字符图像作为数据集。为了增加字符的多样性，使得网络模型提取更有价值的字符特征。对二值化字符图像随机添加倾斜、模糊和噪声三个元素。将最终得到字符样本总数以4：1的比例划分为训练数据集与测试数据集。字符图像统一为28×28像素。

输入字符图像训练集训练LeNet卷积网络模型，流程图如图18所示。二维图像输入后，首先通过两次的卷积层(convolutions)与池化层(subsampling)，逐步的从图像中的获取更加深层的特征。然后经过全连接层(Full connection)。在最后一层的分类层中利用全连接层与softmax分类器输出对应字符图像的类别。

在最后一层的分类层中，利用梯度下降法，不断调整网络权值，使得损失函数最小化，损失函数即为Softmax分类器损失函数，如下所示：

L(p,u)表示损失函数，N表示样本总数。M表示样本可能的类别总数。p_ij表示预测样本i属于j类的概率。u_ij为二值指标，表示类别j是否属于样本真实类别。

在对成箱的工具进行检查的过程中，需要在保存一张在指定位置放置的未缺失工具的工具箱图片。工具箱固定位置如图19所示。完整工具箱如图20所示。在工具箱进出库的过程中，对当前工具箱放置于指定位置进行拍照。当前工具箱如图21所示。利用灰度图像背景差分法，将预先保存的完整工具箱灰度化图片与当前工具箱灰度化图片进行差分相减。得到工具箱中缺失工具图片。差分结果图如图22所示。利用训练好的Faster R-CNN网络识别缺失物体类型，并利用训练好的LeNet卷积神经网络识别工具箱编号，然后在MySQL数据库中记录信息。实现智能工具管理。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims

1.一种基于深度学习的智能工具管理方法，其特征在于，该方法的具体步骤包括：

2.根据权利要求1所述一种基于深度学习的智能工具管理方法，其特征在于，步骤二所述采集检测的工具箱的内部图像，利用图像识别的方法对检测的工具箱的内部图像进行识别，获取待检测的工具箱内缺失的工具的标号、类型及缺失工具在工具箱内的位置的具体方法为：

步骤S1、获取工具图像并进行工具标号，建立工具图像训练集，对Faster R-CNN模型进行训练；

步骤S2、获取待检测的工具箱的内部图像；，

3.根据权利要求2所述一种基于深度学习的智能工具管理方法，其特征在于，步骤S3中所述获取缺失工具的标号的具体步骤为：

4.根据权利要求2所述一种基于深度学习的智能工具管理方法，其特征在于，步骤S3中所述利用训练后的Faster R-CNN模型对待检测的工具箱的内部图像中缺失的工具在工具箱内的位置及缺失工具类的型进行识别的具体方法为：

5.根据权利要求2所述一种基于深度学习的智能工具管理方法，其特征在于，步骤S1中所述建立工具图像训练集的具体方法为：

6.根据权利要求2所述一种基于深度学习的智能工具管理方法，其特征在于，步骤S1中所述对Faster R-CNN模型进行训练的具体方法为：

7.根据权利要求3所述一种基于深度学习的智能工具管理方法，其特征在于，步骤A1所述获取缺失工具的标号的二值化图像的具体方法为：