CN111626120B

CN111626120B - 工业环境下基于改进的yolo-6d算法的目标检测方法

Info

Publication number: CN111626120B
Application number: CN202010330520.4A
Authority: CN
Inventors: 吴益飞; 丛宇; 郭健; 陈庆伟; 靳懿; 吴鑫煜
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2023-08-22
Anticipated expiration: 2040-04-24
Also published as: CN111626120A

Abstract

本发明公开了一种工业环境下基于改进的YOLO‑6D算法的目标检测方法，包括以下步骤：采集包含待检测目标的若干图像；构建YOLO‑6D网络的训练数据集；对YOLO‑6D网络进行改进，包括：利用ResNet‑53代替ResNet‑19的深度残差神经网络，将回归函数以及激活函数中的Softmax替换为Sigmoid；利用训练数据集对YOLO‑6D网络进行训练，获得目标检测模型；利用目标检测模型对工业环境中的待检测目标进行检测，获取目标的空间信息和分类信息。本发明通过使用层数更深的深度残差网络、增加多梯度尺寸特征图、改进回归函数和激活函数，提高了目标检测的速度和精度，特别是增强了对工业环境下的多目标与小目标物体的检测识别能力，且相对于传统算法，普适性更优。

Description

工业环境下基于改进的YOLO-6D算法的目标检测方法

技术领域

本发明涉及人工智能领域，具体涉及目标检测领域，特别涉及一种工业环境下基于改进的YOLO-6D算法的目标检测方法。

背景技术

现代社会的发展离不开各科基础科学的积淀，而在计算机视觉中，目标检测算法正如数学在基础科学中的重要性。一种高速、高精度、高识别率的目标检测算法是对整个计算机视觉领域的绝对提升。早期目标检测算法的工作原理是通过拼接强分类器从而达到区分的效果，它的缺点是无法检测到人物等一些系列非刚性目标。基于此问题，有学者提出了HOG+SVM结构，这种结构算法在早期针对道路检测以及过往行人检测的方向取得了较大的成功，但在实际使用环境下始终无法达到要求的实时性与准确性，从而导致计算机视觉的发展一度停滞。但随着深度学习的逐步发展，深度神经网络识别算法开始出现，大幅提高了目标检测算法的精度。

其中YOLO是一种全新的深度神经网络识别算法，相比初代深度学习中RCNN系列需要生成建议框后再进行分类与回归，其通过自有的结构，解决了RCNN系列步骤过多的问题。但是YOLO算法针对小物体以及对物体邻近时所进行的特征检测效果较差；其次，如果当划分的小格中出现不止一个物体时，小格子会由于设计原因而无法正确分类从而使其识别效果欠佳。此外，在之后的发展中，因为对立体物体抓取的同时需要判断目标物体的空间6D姿态，传统方法将该过程分为两步，先对物体的外形进行种类识别，但这个过程会造成计算资源浪费与时间损失，大大降低了检测的速度，实时性差。

综上所述，现阶段所采用的物体空间信息与分类识别方法主要应用于平面信息识别和6D姿态传统识别。针对平面信息识别，现有方法对立体物体的识别效果较差；针对6D姿态传统识别，现有方法会造成较长的检测时间以及较大的计算资源浪费。

发明内容

本发明的目的在于提供一种具有检测精度高、普适性高等特点的工业环境下的目标检测方法。

实现本发明目的的技术解决方案为：工业环境下基于改进的YOLO-6D算法的目标检测方法，所述方法包括以下步骤：

采集包含待检测目标的若干图像；

构建YOLO-6D网络的训练数据集；

对YOLO-6D网络进行改进，包括：利用ResNet-53代替ResNet-19的深度残差神经网络；

利用所述训练数据集对YOLO-6D网络进行训练，获得目标检测模型；

利用所述目标检测模型对工业环境中的待检测目标进行检测，获取目标的空间信息和分类信息。

进一步地，所述训练数据集包括：所述包含待检测目标的若干图像和自定义添加的若干噪声图像，以及每一幅图像对应的标注信息，所述标注信息包括：图像中是否包含待检测目标、待检测目标的空间信息和分类信息。

进一步地，所述ResNet-53包括三个输出：32倍降采样后的特征图作为第一输出，对32倍降采样后的特征图进行步长为2的上采样，获得的16倍降采样后的特征图作为第二输出，对16倍降采样后的特征进行步长为2的上采样，获得的8倍降采样后的特征作为第三输出。

进一步地，所述对YOLO-6D网络进行改进，还包括：将回归函数以及激活函数中的Softmax替换为Sigmoid。

进一步地，所述对YOLO-6D网络进行训练的过程中，所采用的置信度函数为：

式中，D_T(x)为预测的平面图片2D点的坐标值与3D空间中的实际值之间的欧式距离，d_th为预设的阈值，α为超参，取值范围为0.1～10。

进一步地，所述获取目标的分类信息，包括：

获取目标分别在ResNet-53三个尺度输出图像中所属分类的概率；

利用所述回归函数对所述概率进行多标签分类，获得目标的分类信息。

进一步地，在所述利用所述训练数据集对YOLO-6D网络进行训练、利用所述目标检测模型对工业环境中的待检测目标进行检测之前，还包括：进行坐标偏移，保证目标处于图像划分后的一个小格子cell中，所述坐标偏移公式为：

g_x＝f(x)+c_x

g_y＝f(y)+c_y

式中，g_x、g_y分别表示x，y方向的偏移量，c_x,c_y表示划分的小格子的坐标；针对目标物体的中心点，函数f(·)表示Sigmoid函数，针对目标物体的八个角点，函数f(·)则表示恒等函数。

本发明与现有技术相比，其显著优点为：1)采用层数更深的深度残差网络作为算法的主体网络，增强了检测物的细节特征，提高了检测速度和精度；2)改进ResNet-53网络，增加了多梯度尺寸的特征图来进行目标检测，能获得不同尺寸下在先验框中目标检测后不同分类的概率，提高了目标检测能力，特别是增强了对工业环境下的多目标与小目标物体的检测识别能力；3)通过改进回归函数和激活函数，提升了检测算法对检测物的标签分类能力和精度；4)适用范围广，普适性高。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为一个实施例中工业环境下基于改进的YOLO-6D算法的目标检测方法的流程图。

图2为一个实施例中改进的YOLO-6D网络模型结构示意图。

图3为一个实施例中的置信函数图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，结合图1，提供了一种工业环境下基于改进的YOLO-6D算法的目标检测方法，该方法包括以下步骤：

采集包含待检测目标的若干图像；

构建YOLO-6D网络的训练数据集；

利用训练数据集对YOLO-6D网络进行训练，获得目标检测模型；

这里，在训练开始时，将损失函数中目标物体的置信度λ_conf设置为0，即不训练置信度，之后等坐标预测的结果精度达到预设标准时，将存在物体的小格子cell设置λ_conf＝5，不存在物体的cell设置λ_conf＝0.1，以保证训练网络过拟合现象的出现。

利用目标检测模型对工业环境中的待检测目标进行检测，获取目标的空间信息和分类信息。

进一步地，在其中一个实施例中，上述训练数据集包括：包含待检测目标的若干图像和自定义添加的若干噪声图像，以及每一幅图像对应的标注信息，该标注信息包括：图像中是否包含待检测目标、待检测目标的空间信息和分类信息。

这里，标注信息可以通过LabelImg软件进行标注，能够形成YOLO-6D网络训练适用格式的标注文件。

进一步地，在其中一个实施例中，结合图2，上述ResNet-53包括三个输出：32倍降采样后的特征图作为第一输出，对32倍降采样后的特征图进行步长为2的上采样，获得的16倍降采样后的特征图作为第二输出，对16倍降采样后的特征进行步长为2的上采样，获得的8倍降采样后的特征作为第三输出。

进一步地，在其中一个实施例中，上述对YOLO-6D网络进行改进，还包括：将回归函数以及激活函数中的Softmax替换为Sigmoid。

进一步地，在其中一个实施例中，结合图3，上述对YOLO-6D网络进行训练的过程中，所采用的置信度函数为：

式中，D_T(x)为预测的平面图片2D点的坐标值与3D空间中的实际值之间的欧式距离，d_th为预设的阈值，α为超参，设置为2。

进一步地，在其中一个实施例中，上述获取目标的分类信息，包括：

利用上述回归函数对概率进行多标签分类，获得目标的分类信息。

进一步地，在其中一个实施例中，上述在利用训练数据集对YOLO-6D网络进行训练、利用目标检测模型对工业环境中的待检测目标进行检测之前，还包括：进行坐标偏移，保证目标处于图像划分后的一个小格子cell中，坐标偏移公式为：

g_x＝f(x)+c_x

g_y＝f(y)+c_y

式中，g_x、g_y分别表示x，y方向的偏移量，c_x,c_y表示划分的小格子cell的坐标；针对目标物体的中心点，函数f(·)表示Sigmoid函数，针对目标物体的八个角点，函数f(·)则表示恒等函数。

本发明对传统算法中的网络结构和回归函数进行优化改进，设计了一种端到端的工业环境下的改进YOLO-6D算法。该算法使用层数更深的深度残差网络，增强了检测物的细节特征，提高了检测速度和精度；改进ResNet-53网络，增加了多梯度尺寸特征图来进行目标检测，能获得不同尺寸下在先验框中目标检测后不同分类的概率，提高了目标检测能力，特别是增强了对工业环境下的多目标与小目标物体的检测识别能力；通过改进回归函数和激活函数，提升了检测算法对检测物的标签分类能力和精度。综上，本发明的算法相对于传统算法而言，检测效率和精度更高，普适性也更好。

Claims

1.工业环境下基于改进的YOLO-6D算法的目标检测方法，其特征在于，所述方法包括以下步骤：

采集包含待检测目标的若干图像；

构建YOLO-6D网络的训练数据集；

对YOLO-6D网络进行改进，包括：利用ResNet-53代替ResNet-19的深度残差神经网络；将回归函数以及激活函数中的Softmax替换为Sigmoid；

进行坐标偏移，保证目标处于图像划分后的一个小格子cell中，所述坐标偏移公式为：

g_x＝f(x)+c_x

g_y＝f(y)+c_y

式中，g_x、g_y分别表示x，y方向的偏移量，c_x,c_y表示划分的小格子cell的坐标；针对目标物体的中心点，函数f(·)表示Sigmoid函数，针对目标物体的八个角点，函数f(·)则表示恒等函数；

利用所述目标检测模型对工业环境中的待检测目标进行检测，获取目标的空间信息和分类信息；其中，获取目标的分类信息，具体包括：

2.根据权利要求1所述的工业环境下基于改进的YOLO-6D算法的目标检测方法，其特征在于，所述训练数据集包括：所述包含待检测目标的若干图像和自定义添加的若干噪声图像，以及每一幅图像对应的标注信息，所述标注信息包括：图像中是否包含待检测目标、待检测目标的空间信息和分类信息。

3.根据权利要求1所述的工业环境下基于改进的YOLO-6D算法的目标检测方法，其特征在于，所述ResNet-53包括三个输出：32倍降采样后的特征图作为第一输出，对32倍降采样后的特征图进行步长为2的上采样，获得的16倍降采样后的特征图作为第二输出，对16倍降采样后的特征进行步长为2的上采样，获得的8倍降采样后的特征作为第三输出。

4.根据权利要求1所述的工业环境下基于改进的YOLO-6D算法的目标检测方法，其特征在于，所述对YOLO-6D网络进行训练的过程中，所采用的置信度函数为：