CN112164070A

CN112164070A - 基于深度学习的双层箱箱口定位算法

Info

Publication number: CN112164070A
Application number: CN202010973309.4A
Authority: CN
Inventors: 张昌华; 李豪; 徐冯杰; 郭峰; 李彪; 左琳; 刘宇; 吴云峰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-01-01

Abstract

本发明公开了一种基于深度学习的双层箱箱口定位算法，属于深度学习和计算机视觉领域。本发明所述方法利用YOLOv3目标检测算法完成对双层箱中内层箱箱口精确实时定位的任务，从而将深度神经网络应用到工业生产现场的目标定位中。本发明首先采集大量的图像数据并对该数据进行标注，然后配置参数并训练YOLOv3神经网络模型，接着利用训练好的模型输出内层箱箱口的预测框，最后通过预测框的位置信息即可获得内层箱箱口的中心位置坐标。本发明所述方法实现了内层箱箱口高精度和像素级别的定位任务，并且在光照变化范围大、光照不均匀、不同尺度等条件下仍具有很好的鲁棒性，解决了双层箱体中内层箱箱口定位困难、定位精度低等问题。

Description

基于深度学习的双层箱箱口定位算法

技术领域

本发明属于深度学习和计算机视觉领域，具体涉及基于深度学习的双层箱箱口定位算法。

背景技术

由于在化工厂产品灌装环节中存在抛洒易燃易爆药粉的情况，其产品的生产存在安全隐患。现今其具体灌装流程如下：在木制包装箱内放置用于盛放产品的铁质箱体，两个箱子之间存在10mm～15mm的间隙，箱体由人工放置在在输送轨道的起点。灌装时，木箱沿输送轨道到达灌装口附近位置，通过触发行程开关，停止输送轨道的运转并启动顶升装置，将木质包装箱顶起，让铁箱上的圆形装料口与灌装口对接。如果铁箱位置正常，则二者可形成良好的密封面，物料经灌装口流入铁箱，无漏洒。但实际上由于输送轨道的速度不能恒定，再加上铁箱在木箱内有10个毫米左右的自由移动间隙，经常导致铁箱装料口与灌装口错位。这样易燃易爆炸的成品就会从灌装口漏洒到铁箱与木箱的间隙，并掉落在输送轨道以及车间地面上。由于产品的易燃易爆性，这使得该环节存在极大的安全隐患。

为此应用深度学习来学习理解双层箱箱口可以解决现实场景中的问题，另外人工智能的应用本身就是将人类从复杂、重复、机械的劳动中解放出来，所以在生产线上采用了基于深度学习的双层箱箱口定位算法。

发明内容

发明目的：针对现有技术中存在双层箱中内层箱箱口定位比较困难，定位精度不高，受光照条件影响较大等问题，本发明提供基于深度学习的双层箱箱口定位算法。通过本发明方法构建的双层箱箱口定位算法，旨在通过深度深神经网络学习内层箱箱口的特征，化繁为简直接获取内层箱箱口的位置信息，适用于多种双层箱体，具有普适性的特点，只需要少量的双层箱箱口图像数据就能很方便的定位内层箱箱口。

技术方案：基于深度学习的双层箱箱口定位算法，提出了基于深度学习和计算机视觉学习内层箱箱口的特征来识别内层箱箱口的解决方案，具体包括以下步骤：

步骤1.标注数据集：首先用可见光摄像机拍摄一定数量包含不同背景、不同光照条件和不同尺度下的双层箱图片，再手工对每张图像的内层箱箱口区域进行标注；

步骤2.参数配置与模型训练：配置YOLOv3的参数，再利用步骤1标注好的数据集，放入YOLOv3模型中进行训练；

步骤3.输入现场拍摄的图片并获取内层箱箱口预测框：将用于现场拍摄的双层箱图片输入训练好的YOLOv3模型并分割出内层箱箱口，得到预测框的参数t_x，t_y，t_w，t_h及网格左上角坐标c_x，c_y，并且获得锚框的尺寸p_w，p_h；

步骤4.计算内层箱口的坐标：根据分割好的内层箱箱口的预测框计算内层箱箱口的精确坐标。

本发明步骤2包括：

步骤2-1.配置YOLOv3的参数：将YOLOv3模型参数按照需要进行配置，主要参数有已标注边界框(Bounding Box)的图片数据集、数据集中所标注物体的全部类别、用于迁移学习(Transfer Learning)中的微调(Fine Tune)的预训练模型、预测特征图(PredictionFeature Map)的anchor框(anchor box)集合和图片输入尺寸；

步骤2-2.训练模型：模型训练第一阶段冻结部分网络，只训练底层权重，在训练过程中，也会不断保存epoch完成的模型权重；模型训练第二阶段使用第一阶段已经训练完成的网络权重，继续训练得到最终的模型权重；

步骤2-3.在模型的训练过程中，不断调整网络中的参数，优化损失函数loss的值，并使其达到最小，完成模型的训练，YOLOv3的损失函数为：

其中loss为损失值，λ_coord、λ_noobj为常数，N×N为输出维度，K为输出维度的长度，t′_x，t′_y，t′_w，t′_h为预测数值，t_x，t_y，t_w，t_h为物体真实位置，t_x，t_y为起始坐标，t_w，t_h为框的宽和高，c为类置信度，c_i为预测框置信度，c′_i为真实框置信度，p′(c)为物体类别真实概率，p(c)为物体类别预测概率，

表示在第i个格点的第j个预测框，若有分配对应的groundtruth，则返回1，否则返回0；

相反，在第i个格点的第j个预测框中，若有分配对应的ground truth，则返回0，否则返回1；

步骤2-4.使用已经训练完成的YOLOv3模型，检测图片中的物体，得到训练的结果数据：包含预测框的参数t_x，t_y，t_w，t_h、网格左上角坐标(c_x,c_y)、以及锚框的尺寸p_w，p_h及置信度c。

本发明步骤4包括：

步骤4-1.将测试图片输入已经训练好的模型中进行测试；

步骤4-2.获取试验的结果及数据，确定双层箱中内层箱箱口的中心(b_x,b_y)，计算公式如下：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中t_x，t_y，t_w，t_h是模型预测输出，σ是激活函数，(c_x,c_y)是基于矩形框中心点左上角格点坐标，p_w，p_h分别为锚框的宽和高，b_w，b_h为预测框尺寸。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1为本发明实施例的基于深度学习的双层箱箱口定位算法总流程图；

图2为本发明实施例的模型训练、测试模型输出分割的流程图；

图3为本发明实施例的双层箱训练图像之一；

图4为本发明实施例的标注的图片；

图5为本发明实施例的进行现场运行的结果。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1、2所示，本发明方法所构建的双层箱箱口定位算法的工作流程大致分为两个阶段：第一阶段，标注数据集和训练模型；第二阶段，利用模型进行测试并寻找中心。本发明实施例中双层箱箱口定位算法的具体构建步骤如下：

步骤1.标注数据集：首先用可见光摄像机拍摄一定数量包含不同背景、不同光照条件和不同尺度下的双层箱图片，如图3所示，再手工对每张图像的内层箱箱口区域进行标注，如图4所示；

步骤3.输入现场拍摄的图片并获取内层箱箱口预测框：将用于现场拍摄的双层箱图片输入训练好的YOLOv3模型并分割出内层箱箱口，得到预测框的参数t_x，t_y，t_w，t_h及网格左上角坐标(c_x,c_y)，并且获得锚框的尺寸p_w，p_h，如图5所示；

本发明步骤2包括：

步骤2-2.训练模型：模型训练第一阶段冻结部分网络，在前185层网络中只训练底层权重，将模型的输出定义为loss，在训练过程中，不断保存epoch完成的模型权重；模型训练第二阶段使用第一阶段已经训练完成的网络权重，继续训练67层网络得到最终的模型权重；

本发明步骤4包括：

步骤4-1.将测试图片输入已经训练好的模型中进行测试；

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中t_x，t_y，t_w，t_h是模型预测输出，σ是激活函数，采用sigmoid函数，方程为

(c_x,c_y)是基于矩形框中心点左上角格点坐标，p_w，p_h分别为锚框的宽和高，b_w，b_h为预测框尺寸。

使用海康威视的DS-2ZCN2307(C)型号相机拍摄试验图片，试验图片在CPU为i5-4210U，系统为Windows10，pycharm软件中进行处理。已知箱口的实际尺寸为259mm，并且箱口所占像素为1048(pixel)，即图像分辨率为0.247mm/pixel。经过多次试验，实验结果如下表所示：

从表中可以看出，基于YOLOv3的箱口定位算法在水平移动方向上的最大误差为2pixel(0.494mm)，且其平均误差为1.07pixel(0.264mm)；在竖直方向上的最大误差为1pixel(0.247mm)，且其平均误差为0.5pixel(0.1235mm)。因此本发明实现了高精度的双层箱箱口定位。

本发明提供了基于深度学习的双层箱箱口定位算法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.基于深度学习的双层箱箱口定位算法，其特征在于，包括以下步骤：

步骤3.输入现场拍摄的图片并获取内层箱箱口预测框：将用于现场拍摄的双层箱图片输入训练好的YOLOv3模型并分割出内层箱箱口，得到预测框的参数t_x，t_y，t_w，t_h及网格左上角坐标(c_x,c_y)，并且获得锚框的尺寸p_w，p_h；

2.根据权利要求1所述的方法，其特征在于步骤2包括：

表示在第i个格点的第j个预测框，若有分配对应的ground truth，则返回1，否则返回0；

相反，在第i个格点的第j个预测框中，若有分配对应的groundtruth，则返回0，否则返回1；

3.根据权利要求1所述的方法，其特征在于步骤4包括：

步骤4-1.将测试图片输入已经训练好的模型中进行测试；

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y