CN115147642A

CN115147642A - 基于视觉的渣土车检测方法、装置、计算机及存储介质

Info

Publication number: CN115147642A
Application number: CN202210620077.3A
Authority: CN
Inventors: 莫家源; 欧阳一村; 罗富章; 王和平; 朱光强; 邓奇宝
Original assignee: Maxvision Technology Corp
Current assignee: Maxvision Technology Corp
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-10-04
Anticipated expiration: 2042-06-02
Also published as: CN115147642B

Abstract

本发明公开一种基于视觉的渣土车检测方法、装置、计算机及存储介质，涉及人工智能领域，包括：获取渣土车图像数据集；利用神经网络的特征提取网络提取渣土车特征并生成特征图；对特征图进行解耦划分为分类网络分支、定位网络分支并经卷积处理分别得到边界框的分类置信度、定位置信度；将特征图和先验框输入神经网络的预测网络中以得到预测框，并将预测框作为新的先验框和特征图再次输入神经网络的预测网络以得到渣土车检测框；利用渣土车图像数据集验证神经网络以得到训练好的神经网络；利用训练好的神经网络对待检测图像进行检测以判断待检测图像中是否包含渣土车；若判断为是，则输出提示信息。本发明可提高检测准确率，降低漏检率。

Description

基于视觉的渣土车检测方法、装置、计算机及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于视觉的渣土车检测方法、装置、计算机及存储介质。

背景技术

在工地作业区域内，采用自动识别技术检测是否有渣土车驶入，如检测到渣土车，及时报警提醒并反馈给工作人员，能够有效提高效率，减少人工成本。而随着近年来卷积神经网络(CNN)在计算机视觉和模式识别的应用，许多基于卷积神经网络的目标检测方法已经被提出，其推动了渣土车检测的学术研究和应用进展。

目前最先进的检测方法为YOLOV5，YOLOV5是一种端到端目标检测算法，其框架主要包括网络提取部分和预测部分，其中的网络提取部分用于提取图像特征并生成特征图，然而，现有的特征提取难以获得足够丰富的特征，且由于渣土车在图像中存在尺度变化和遭受部分遮挡等情形，带来许多漏检和误检问题。

发明内容

本发明针对基于现有的YOLOV5框架在检测目标时存在漏检和误检的问题，提供了一种基于视觉的渣土车检测方法、装置、计算机及存储介质。

本发明就上述技术问题而提出的技术方案如下：

第一方面，本发明提供了一种基于视觉的渣土车检测方法，所述方法包括：

获取渣土车图像数据集；

利用深度卷积神经网络的特征提取网络提取所述渣土车图像数据集中的渣土车特征并生成特征图；

对所述特征图进行解耦划分为分类网络分支、定位网络分支并经卷积处理分别得到边界框的分类置信度、定位置信度；通过获取高置信度的边界框以作为先验框；

将所述特征图和所述先验框输入所述深度卷积神经网络的预测网络中以得到预测框，并将所述预测框作为新的先验框和所述特征图再次输入所述深度卷积神经网络的预测网络以得到渣土车检测框；

利用所述渣土车图像数据集验证所述深度卷积神经网络以得到训练好的深度卷积神经网络；

利用所述训练好的深度卷积神经网络对待检测图像进行检测以判断待检测图像中是否包含渣土车；

若判断为是，则输出提示信息。

优选地，所述利用深度卷积神经网络的特征提取网络提取所述渣土车图像样本中的渣土车特征并生成特征图之前，所述方法包括：

对所述渣土车数据集进行标签处理和/或数据增强处理，其中，所述标签处理包括保留宽度和高度大于预设像素值的渣土车真实框；所述数据增强处理至少如下处理中的一种或多种：对图像进行裁剪、翻转、扭曲及亮度调整。

优选地，所述利用深度卷积神经网络的特征提取网络提取所述渣土车图像数据集中的渣土车特征并生成特征图包括：

利用所述利用深度卷积神经网络的特征提取网络提取所述渣土车图像数据集中的渣土车特征并生成三个不同尺寸的输出特征图。

优选地，所述对所述特征图进行解耦划分为分类网络分支、定位网络分支并经卷积处理分别得到边界框的分类置信度、定位置信度包括：

利用1×1卷积层对所述输出特征图进行降维以得到一低维特征图；

将所述低维特征图输入所述分类网络分支、所述定位网络分支以得到相应的分类置信度和定位置信度。

优选地，所述利用所述训练好的深度卷积神经网络对待检测图像进行检测以判断待检测图像中是否包含渣土车包括：

利用所述渣土车检测框对待检测图像进行检测；

采用非极大值抑制算法获取最佳的目标边界框；

判断所述目标边界框内的内容是否包含渣土车。

优选地，所述深度卷积神经网络基于YOLO模型架构；所述特征提取网络采用mobilenet-v2网络；所述深度卷积神经网络采用的卷积神经网络中，采用Focal Loss函数作为分类损失函数，采用G-IOU Loss函数作为定位损失函数；

所述Focal Loss函数满足如下关系式：

其中，y^～是经过激活函数的输出，在0-1之间；α是用于平衡正负样本本身的比例不匀的平衡因子；γ是用于减少易分类样本的损失；

所述G-IOU Loss函数满足如下关系式：

其中，G和P分别表示真实框和预测框；C表示G与P的最小闭包矩形。

第二方面，本发明提供一种基于视觉的渣土车检测装置，所述装置包括：

获取模块，用于获取渣土车图像数据集；

特征提取模块，用于利用深度卷积神经网络的特征提取网络提取所述渣土车图像数据集中的渣土车特征并生成特征图；

解耦划分模块，用于对所述特征图进行解耦划分为分类网络分支、定位网络分支并经卷积处理分别得到边界框的分类置信度、定位置信度；通过获取高置信度的边界框以作为先验框；

检测框生成模块，用于将所述特征图和所述先验框输入所述深度卷积神经网络的预测网络中以得到预测框，并将所述预测框作为新的先验框和所述特征图再次输入所述深度卷积神经网络的预测网络以得到渣土车检测框；

训练模块，用于利用所述渣土车图像数据集验证所述深度卷积神经网络以得到训练好的深度卷积神经网络；

检测模块，用于利用所述训练好的深度卷积神经网络对待检测图像进行检测以判断待检测图像中是否包含渣土车；

输出模块，用于在判断为是时，输出提示信息。

优选地，还包括数据处理模块，用于对所述渣土车数据集进行标签处理和/或数据增强处理，其中，所述标签处理包括保留宽度和高度大于预设像素值的渣土车真实框；所述数据增强处理至少如下处理中的一种或多种：对图像进行裁剪、翻转、扭曲及亮度调整。

第三方面，本发明还提供一种计算机，所述计算机包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述基于视觉的渣土车检测方法中的步骤。

第四方面，本发明还提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述基于视觉的渣土车检测方法的步骤。

本发明实施例提供的技术方案带来的有益效果是：

本发明提供的基于视觉的渣土车检测方法采用Focal Loss函数作为分类损失函数、采用G-IOU Loss函数作为定位损失函数更换新的损失函数，且将利用特征图与先验框输入深度卷积神经网络中得到的预测框再次与特征图输入至所述深度卷积神经网络中，得到渣土车检测框，后再利用所述渣土车检测框进行渣土车检测，可以提高对渣土车的定位精度，降低对小目标的漏检率，提升YOLOV5模型的检测准确率。与此同时，本实施方式的深度卷积神经网络可以获得不同尺度下的渣土车位置信息，满足了对不同大小规模的渣土车的有效特征提取。此外，本实施方式通过改进解耦YOLOV5模型，分别使用两个特征图分开来预测渣土车目标的定位和类别信息，提高定位框的精度和类别的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供基于视觉的渣土车检测方法在一实施方式下的流程图；

图2为本发明提供基于视觉的渣土车检测装置在一实施方式下的功能模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

参见图1，为本发明提供基于视觉的渣土车检测方法在一实施方式下的流程图。所述基于视觉的渣土车检测方法主要应用于监控系统，更具体为渣土车安全监控系统。相较传统的监控系统，能够较快且较为准确的监控渣土车的出入情况，通过输出报警信息，以实现对工作人员的安全提示。

如图1所示，本实施方式基于视觉的渣土车检测方法可包括如下步骤：

S101：获取渣土车图像数据集，所述渣土车图像数据集可包括多张渣土车图像样本及与相应样本对应的标注。

本步骤中，可从预先存储的渣土车图像库中获取所述渣土车图像数据，亦可通过爬虫软件在线从网络中爬取渣土车图像获取所述渣土车图像数据，或者也可以是二者相结合。

在本步骤后，为提高图像的易识别性和识别精准度，可对所述渣土车数据集进行标签处理和/或数据增强处理，其中：

所述标签处理包括保留宽度和高度大于预设像素值的渣土车真实框，此处，所述预设像素值可为30。

所述数据增强处理至少如下处理中的一种或多种：对图像进行裁剪、翻转、扭曲及亮度调整。

可以理解的是，可将所述渣土车图像数据集作为训练数据集对模型进行训练，还可将所述渣土车图像数据集作为检测数据集进行后续的模型检测。

S102：利用深度卷积神经网络的特征提取网络提取所述渣土车图像数据集中的渣土车特征并生成特征图。

本步骤中，所述深度卷积神经网络基于YOLO模型架构；所述特征提取网络采用mobilenet-v2网络，所述深度卷积神经网络具体基于YOLOV5模型架构，包括特征提取网络和预测网络，其中，所述特征提取网络可采用mobilenet-v2网络(为一种轻量化卷积神经网络)。提取过程中，在mobilenet-v2网络的stage3、stage4和stage5的最后一层输出三个不同尺度的输出特征图，可具体分别为(H/8)x(W/8)、(H/16)x(W/16)、(H/32)x(W/32)，其中，H和W分别为输入图像的高和宽。

此处，利用mobilenet-v2网络可提取得到图像的高级语义特征，以支持后续该高级语义特征进行降维、解耦及卷积处理，并分别通过分类网络分支、定位网络分支得到边界框的分类置信度和定位置信度信息。

S103：对所述特征图进行解耦划分为分类网络分支、定位网络分支并经卷积处理分别得到边界框的分类置信度、定位置信度；通过获取高置信度的边界框以作为先验框。

本步骤中，可利用1×1卷积层对所述输出特征图进行降维以得到一低维特征图，然后，再将所述低维特征图输入分类网络分支、定位网络分支以得到相应的分类置信度和定位置信度。

此处，分类网络分支用于对预测特征图的类别，输出类别信息；定位网络分支用于预测特征图中的特征位置，输出位置信息和置信度信息。此处，所述分类网络和定位网络分支可分别使用3×3卷积层作为预测网络。

S104：将所述特征图和所述先验框输入所述深度卷积神经网络的预测网络中以得到预测框，并将所述预测框作为新的先验框和所述特征图再次输入所述深度卷积神经网络的预测网络以得到渣土车检测框。

本步骤中，通过将生成的预测框作为一个新的先验框进行二次预测，可得到预测更为准确的渣土车检测框，有助于提高定位精度，降低对较小目标的漏检率。

S105：利用所述渣土车图像数据集验证所述深度卷积神经网络以得到训练好的深度卷积神经网络。

本步骤中，采用Focal Loss函数作为分类损失函数，采用G-IOU Loss函数作为定位损失函数，其中：

所述Focal Loss函数满足如下关系式：

其中，y^～是经过激活函数的输出，在0-1之间；α是用于平衡正负样本本身的比例不匀的平衡因子；γ是用于减少易分类样本的损失。利用Focal Loss函数，可使卷积神经网络有针对性地对困难样本、易被错分类样本进行关注及训练。

所述G-IOU Loss函数满足如下关系式：

S106：利用所述训练好的深度卷积神经网络对待检测图像进行检测以判断待检测图像中是否包含渣土车。

本步骤中，在具体实现时，首先利用所述渣土车检测框对待检测图像进行检测，其后采用非极大值抑制(non maximum suppression,NMS)算法获取最佳的目标边界框，最后再判断所述目标边界框内的内容是否包含渣土车。

S107：若判断为是，则输出提示信息。此处，所述提示信息的具体表现形式可报警声响、闪光信号提示及文字显示提示等。

本实施方式提供基于视觉的渣土车检测方法采用Focal Loss函数作为分类损失函数、采用G-IOU Loss函数作为定位损失函数更换新的损失函数，且将利用特征图与先验框输入深度卷积神经网络中得到的预测框再次与特征图输入至所述深度卷积神经网络中，得到渣土车检测框，后再利用所述渣土车检测框进行渣土车检测，可以提高对渣土车的定位精度，降低对小目标的漏检率，提升YOLOV5模型的检测准确率。与此同时，本实施方式的深度卷积神经网络可以获得不同尺度下的渣土车位置信息，满足了对不同大小规模的渣土车的有效特征提取。此外，本实施方式通过改进解耦YOLOV5模型，分别使用两个特征图分开来预测渣土车目标的定位和类别信息，提高定位框的精度和类别的准确性。

本实施方式中，可基于渣土车图像数据集制作验证数据集，来评估渣土车检测框评估模型的平均漏检率，见下表：

由表可知，相对传统采用原始的YOLOV5模型架构，本实施方式的YOLOV5模型架构在验证数据集上的平均漏检率为11.97％，漏检率明显降低。

参见图2，为本发明提供基于视觉的渣土车检测装置在一实施方式下的功能模块示意图。所述基于视觉的渣土车检测装置100包括获取模块11、特征提取模块12、解耦划分模块13、检测框生成模块14、训练模块15、检测模块16及输出模块17，各个功能模块的具体功能如下：

获取模块11，主要用于获取渣土车图像数据集。

特征提取模块12，主要用于利用深度卷积神经网络的特征提取网络提取所述渣土车图像数据集中的渣土车特征并生成特征图。

解耦划分模块13，主要用于对所述特征图进行解耦划分为分类网络分支、定位网络分支并经卷积处理分别得到边界框的分类置信度、定位置信度；通过获取高置信度的边界框以作为先验框。

检测框生成模块14，主要用于将所述特征图和所述先验框输入所述深度卷积神经网络的预测网络中以得到预测框，并将所述预测框作为新的先验框和所述特征图再次输入所述深度卷积神经网络的预测网络以得到渣土车检测框。

训练模块15，主要用于利用所述渣土车图像数据集验证所述深度卷积神经网络以得到训练好的深度卷积神经网络。

检测模块16，主要用于利用所述训练好的深度卷积神经网络对待检测图像进行检测以判断待检测图像中是否包含渣土车。

输出模块17，主要用于在判断为是时，输出提示信息。

通过各个功能模块之间的配合，可提高对渣土车的定位精度，降低对小目标的漏检率，提升YOLOV5模型的检测准确率。与此同时，本实施方式的深度卷积神经网络可以获得不同尺度下的渣土车位置信息，满足了对不同大小规模的渣土车的有效特征提取。此外，通过改进解耦YOLOV5模型，分别使用两个特征图分开来预测渣土车目标的定位和类别信息，提高定位框的精度和类别的准确性。

可理解的是，除上述的各个功能模块之外，所述基于视觉的渣土车检测装置100还可包括其他功能模块，如数据处理模块，用于对所述渣土车数据集进行标签处理和/或数据增强处理，其中，所述标签处理包括保留宽度和高度大于预设像素值的渣土车真实框；所述数据增强处理至少如下处理中的一种或多种：对图像进行裁剪、翻转、扭曲及亮度调整。

在具体应用过程中，本发明提供一种计算机，所述计算机包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现上述基于视觉的渣土车检测方法中的步骤。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

此外，本发明还提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述基于视觉的渣土车检测中的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视觉的渣土车检测方法，其特征在于，所述方法包括：

获取渣土车图像数据集；

若判断为是，则输出提示信息。

2.如权利要求1所述基于视觉的渣土车检测方法，其特征在于，所述利用深度卷积神经网络的特征提取网络提取所述渣土车图像样本中的渣土车特征并生成特征图之前，所述方法包括：

3.如权利要求1所述基于视觉的渣土车检测方法，其特征在于，所述利用深度卷积神经网络的特征提取网络提取所述渣土车图像数据集中的渣土车特征并生成特征图包括：

4.如权利要求3所述基于视觉的渣土车检测方法，其特征在于，所述对所述特征图进行解耦划分为分类网络分支、定位网络分支并经卷积处理分别得到边界框的分类置信度、定位置信度包括：

5.如权利要求3所述基于视觉的渣土车检测方法，其特征在于，所述利用所述训练好的深度卷积神经网络对待检测图像进行检测以判断待检测图像中是否包含渣土车包括：

利用所述渣土车检测框对待检测图像进行检测；

采用非极大值抑制算法获取最佳的目标边界框；

判断所述目标边界框内的内容是否包含渣土车。

6.如权利要求1所述基于视觉的渣土车检测方法，其特征在于，所述深度卷积神经网络基于YOLO模型架构；所述特征提取网络采用mobilenet-v2网络；所述深度卷积神经网络采用的卷积神经网络中，采用Focal Loss函数作为分类损失函数，采用G-IOU Loss函数作为定位损失函数；

所述Focal Loss函数满足如下关系式：

所述G-IOU Loss函数满足如下关系式：

7.一种基于视觉的渣土车检测装置，其特征在于，所述装置包括：

获取模块，用于获取渣土车图像数据集；

输出模块，用于在判断为是时，输出提示信息。

8.如权利要求7所述基于视觉的渣土车检测装置，其特征在于，还包括数据处理模块，用于对所述渣土车数据集进行标签处理和/或数据增强处理，其中，所述标签处理包括保留宽度和高度大于预设像素值的渣土车真实框；所述数据增强处理至少如下处理中的一种或多种：对图像进行裁剪、翻转、扭曲及亮度调整。

9.一种计算机，其特征在于，所述计算机包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-6中任意一项所述基于视觉的渣土车检测方法中的步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任意一项所述基于视觉的渣土车检测方法的步骤。