CN113191235B - 杂物检测方法、装置、设备及存储介质 - Google Patents

杂物检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113191235B
CN113191235B CN202110434055.3A CN202110434055A CN113191235B CN 113191235 B CN113191235 B CN 113191235B CN 202110434055 A CN202110434055 A CN 202110434055A CN 113191235 B CN113191235 B CN 113191235B
Authority
CN
China
Prior art keywords
detection
convolution
frame
inputting
repvgg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110434055.3A
Other languages
English (en)
Other versions
CN113191235A (zh
Inventor
徐梦佳
李斯
赵齐辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongpu Software Co Ltd
Original Assignee
Dongpu Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongpu Software Co Ltd filed Critical Dongpu Software Co Ltd
Priority to CN202110434055.3A priority Critical patent/CN113191235B/zh
Publication of CN113191235A publication Critical patent/CN113191235A/zh
Application granted granted Critical
Publication of CN113191235B publication Critical patent/CN113191235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种杂物检测方法、装置、设备及存储介质,其中,方法包括:获取多张带有做件台的图片;对所述多张带有做件台的图片进行目标标注,得到多个训练图像数据;将所述多个训练图像数据输入至目标检测网络中进行训练,建立检测模型,其中,所述目标检测网络为yolov3‑spp模型,包括RepVGG层、空间金字塔池化层和输出层;获取待检测的监控视频,并将所述监控视频输入至所述检测模型,得到检测结果。本发明能够避免操作环境的脏乱给快递带来的影响。

Description

杂物检测方法、装置、设备及存储介质
技术领域
本发明涉及图像识别处理技术领域,特别是涉及一种杂物检测方法、装置、设备及存储介质。
背景技术
为了更好地服务客户,快件准确、安全、无损的送到客户手中,分拨运作需要趋向于规范,工作环境需要整洁。但是也存在个别分拨中心工作环境脏乱,不符合公司的6s规定,因此有必要充分利用摄像头信息去分析做件台整洁情况。
发明内容
本发明所要解决的技术问题是提供一种杂物检测方法、装置、设备及存储介质,能够避免操作环境的脏乱给快递带来的影响。
本发明解决其技术问题所采用的技术方案是:提供一种杂物检测方法,包括以下步骤:
获取多张带有做件台的图片;
对所述多张带有做件台的图片进行目标标注,得到多个训练图像数据;
将所述多个训练图像数据输入至目标检测网络中进行训练,建立检测模型,其中,所述目标检测网络为yolov3-spp模型,包括RepVGG层、空间金字塔池化层和输出层;
获取待检测的监控视频,并将所述监控视频输入至所述检测模型,得到检测结果。
所述对所述多张带有做件台的图片进行目标标注包括:
调用图片标注工具,对所述带有做件台的图片中的杂物进行选取,并完成标注,得到训练图像数据。
所述将所述多个训练图像数据输入至目标检测网络中进行训练,建立检测模型包括:
将所述训练图像数据输入至所述RepVGG层进行特征提取,得到第一特征图;
将所述第一特征图输入至所述空间金字塔池化层进行池化处理,得到第二特征图;
将所述第一特征图和第二特征图输入至所述输出层得到多个检测框;
调用损失函数计算所述检测框的位置的回归损失,并根据回归损失对所述yolov3-spp模型的参数进行调整,直至所述yolov3-spp模型收敛,得到检测模型。
在训练时,所述RepVGG层包括多个依次连接的RepVGG区块,每个RepVGG区块均包括依次相连的3x3卷积层和ReLU层,所述3x3卷积层设置有平行的1x1卷积分支和/或恒等映射分支;在训练完成后得到的检测模型中,将RepVGG区块中的所述1x1卷积分支和所述恒等映射分支分别与所述3x3卷积层进行融合,得到3x3卷积单元。
所述将RepVGG区块中的所述1x1卷积分支和恒等映射分支与所述3x3卷积层进行融合包括:
将所述1x1卷积分支填充成3x3卷积的形式,得到第一融合单元;
将恒等映射分支等效成1x1卷积的形式,将等效后的1x1卷积的形式填充成3x3卷积的形式,得到第二融合单元;
将所述第一融合单元、所述第二融合单元与所述3x3卷积层相加。
所述将所述第二特征图输入至所述输出层得到多个检测框后还包括:
计算所述多个检测框中重叠的检测框的置信度;
选择置信度最高的检测框作为建议框进行处理,得到新的置信度得分,将置信度得分最高的检测框进行保存;
去掉所述置信度得分最高的检测框,得到N-1个重叠的检测框,并重复上一步骤直至最后一个检测框;
将保存的检测框的置信度得分与预设的阈值进行比较,去掉置信度得分小于阈值的检测框,保留置信度得分大于阈值的检测框。
所述获取待检测的监控视频,并将所述监控视频输入至所述检测模型,得到检测结果包括:
获取待检测的监控视频;
将所述监控视频输入至所述RepVGG层逐帧进行特征提取,得到第三特征图;
将所述第三特征图输入至所述空间金字塔池化层进行池化处理,得到第四特征图;
将所述第三特征图和第四特征图输入至所述输出层得到目标物体的位置。
本发明解决其技术问题所采用的技术方案是:提供一种杂物检测装置,包括:
获取模块,用于获取多张带有做件台的图片;
标注模块,用于对所述多张带有做件台的图片进行目标标注,得到多个训练图像数据;
建模模块,用于将所述多个训练图像数据输入至目标检测网络中进行训练,建立检测模型,其中,所述目标检测网络为yolov3-spp模型,包括RepVGG层、空间金字塔池化层和输出层;
检测模块,用于获取待检测的监控视频,并将所述监控视频输入至所述检测模型,得到检测结果。
本发明解决其技术问题所采用的技术方案是:提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述杂物检测方法的步骤。
本发明解决其技术问题所采用的技术方案是:提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述杂物检测方法。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明通过目标检测网络对监控视频进行识别,判断监控视频中的做件台上是否有杂物,得到识别结果,通过该方法采用图像分类和目标检测技术对做件台上的杂物进行识别,整个识别过程无需借助人工进行主观判断,全程由设备进行做件台整洁度的判断,从而提高了分拨中心的工作环境,有效的避免操作环境的脏乱给快递带来的影响。
附图说明
图1是本发明实施方式杂物检测方法的计算机设备的硬件结构图;
图2是本发明第一实施方式杂物检测方法的流程图;
图3是本发明第一实施方式杂物检测方法中建立检测模型的流程图;
图4是本发明第一实施方式杂物检测方法中抑制处理的流程图;
图5是本发明第一实施方式杂物检测方法中进行检测的流程图;
图6是本发明第二实施方式杂物检测装置的结构示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式可以在移动设备、计算机设备、或者类似的运算设备(如ECU)、系统中执行。以允许在计算机设备为例,图1是杂物检测方法的计算机设备的硬件结构图。如图1所示,该计算机设备可以包括一个或多个(图中仅示出一个)处理器101(处理器101可以包括但不限于中央处理器CPU、图像处理器GPU、数字信号处理器DSP、微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于与用户交互的输入输出接口102、用于存储数据的存储器103、以及用于通信功能的传输装置104。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机设备还可以包括比图1中所示更多或更少的组件,或者具有与图1所示不同的配置。
输入输出接口102可以连接一个或多个显示器、触控屏等,用于显示从计算机设备传送的数据,还可以连接键盘、触控笔、触控板和/或鼠标等,用于输入诸如,选择、创建、编辑等的用户指令。
存储器103可用于存储应用软件的软件程序以及模块,例如与本发明实施方式中的杂物检测方法对应的程序指令/模块,处理器101通过运行存储在存储器103内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的杂物检测方法。存储器103可包括高速随机存储器,还可包括非易失性存储器,如一个或多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器103可进一步包括相对于处理器101远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置104用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机设备的通信供应商提供的互联网。在上述运行环境下,本发明提供了杂物检测方法。
图2示出了本发明第一实施方式的杂物检测方法的流程图,具体包括以下步骤:
步骤201,获取多张带有做件台的图片。
该带有做件台的图片可以通过布置在网点或分拨中心的摄像机获得,其中获取的数量需要足够多,并且获取的带有做件台的图片中不仅要包括有杂物垃圾的图片,还要包括没有杂物的干净整洁的图片。
步骤202,对所述多张带有做件台的图片进行目标标注,得到多个训练图像数据;
本步骤中,标注带有做件台的图片时可以使用标注工具,例如labelimg标注工具。
通过labelimg标注工具,对带有做件台的图片中做件台上的杂物进行选取,并完成标注,得到训练图像数据。
本实施方式中,labelimg工具首先执行open file命令,再对带有做件台的图片中做件台上的杂物进行选取,在create rectbox信息标注框中输入类别名称,最后在保存文件的路径下生成xml文件,xml文件的名字是和标注图片的名字一致,标注图像的时候,类别名称可以用小写字母,例如:垃圾使用trash。
为了后续方便处理,可以将得到的训练图像数据集转换为VOC2007数据集的格式,并将其进行保存在一个文件夹内。该文件夹内新建有如下文件夹:labels、Imagesets、Annotations、JPEGimages、images。Images文件夹用于存放带有做件台的图片的原图,其中存放的带有做件台的图片被重命名为“000005.dng”。JPEGimages文件夹存放带有做件台的图片的原图的压缩格式,其将图像重命名为VOC2007的“000005.jpg”,与带有做件台的图片的原图的文件名一一对应。标注文件保存到Annotations文件夹,每个图像和标注得到的xml文件与JPEGImages文件夹里面的一个图像,一一对应,且命名一致。在ImageSets里再新建文件夹,命名为Main,在Main文件夹中生成四个txt文件,即:test.txt是测试集;train.txt是训练集和val.txt是验证集,其中,train是整个数据集的60%,test是整个数据集的10%,val是整个数据集的30%。txt文件中的内容为样本图像的名字(不带后缀)。例如:000002。
步骤203,将所述多个训练图像数据输入至目标检测网络中进行训练,建立检测模型,其中,所述目标检测网络为yolov3-spp模型,包括RepVGG层、空间金字塔池化层和输出层。
本步骤中采用的目标检测网络为yolov3-spp模型。yolov3-spp模型有很多不同的实现方式,本实施方式中选择yolov3-spp的pyTorch实现,其主要是为了后期能够方便部署。本实施方式中的yolov3-spp模型包括RepVGG层、空间金字塔池化层和输出层。如图3所示,其在训练时,具体步骤如下:
步骤2031,将所述训练图像数据输入至所述RepVGG层进行特征提取,得到第一特征图;
步骤2032,将所述第一特征图输入至所述空间金字塔池化层进行池化处理,得到第二特征图;
步骤2033,将所述第一特征图和第二特征图输入至所述输出层得到多个检测框;
步骤2034,调用损失函数计算所述检测框的位置的回归损失,并根据回归损失对所述yolov3-spp模型的参数进行调整,直至所述yolov3-spp模型收敛,得到检测模型。
本实施方式中将RepVGG层作为yolov3-spp模型的主干网络,用于提取训练图像数据的特征,得到第一特征图,被提取的第一特征图用于后续的空间金字塔池化层和输出层。
该RepVGG层仅由3x3卷积和ReLU的堆叠组成,而训练时间模型具有多分支拓扑。训练时间和推理时间架构的这种解耦是通过结构重新参数化技术实现。也就是说,其在训练时具有多分支模型训练时的优势,在应用时则转换为单路结构具有速度快,省内存的优势。
本实施方式中在训练时,所述RepVGG层包括多个依次连接的RepVGG区块,每个RepVGG区块均包括依次相连的3x3卷积层和ReLU层,所述3x3卷积层设置有平行的1x1卷积分支和/或恒等映射分支,因此在训练阶段RepVGG层利用这种多分支拓扑能够提高网络性能,从而提高识别精度。在训练完成后得到的检测模型中,将RepVGG区块中的所述1x1卷积分支和所述恒等映射分支分别与所述3x3卷积层进行融合,得到3x3卷积单元,如此在应用阶段时,RepVGG层则变成多个堆叠的3x3卷积单元的单路结构,如此可以确保在进行识别时具有较快的速度,且更省内存。
3x3卷积过程如下:首先将特征图进填充,然后从左上角开始做卷积运算,最终得到输出。同理,1x1卷积和3x3卷积过程一样,都是从特征图左上角开始进行卷积,最终得到输出,观察1x1卷积和3x3卷积的过程,可以发现两者都是从特征图左上角作为起点位置开始,且走过相同的路径,因此,将3x3卷积和1x1卷积进行融合,只需要将1x1卷积填充成3x3卷积的形式,然后和3x3卷积相加即可。
恒等映射分支就是输入直接等于输出,也就是说,输入中每个通道的每个元素直接输出到输出的对应的通道。卷积操作必须涉及要将每个通道加起来然后输出,此刻需要保证输入中的每个通道的每个元素等于输出,也就是说,只要令当前通道的卷积核参数为1,其余的卷积核参数为0,就可以做到,因此用1x1卷积且卷积核权重为1就能保证每次卷积不改变输入,因此,恒等映射分支可以等效成1x1的卷积形式。
基于上述原理,本实施方式中将RepVGG区块中的所述1x1卷积分支和恒等映射分支与所述3x3卷积层进行融合具体包括:
将所述1x1卷积分支填充成3x3卷积的形式,得到第一融合单元;
将恒等映射分支等效成卷积核权重为1的1x1卷积的形式,将等效后的1x1卷积的形式填充成3x3卷积的形式,得到第二融合单元;
将所述第一融合单元、第二融合单元与所述3x3卷积层相加形成3x3卷积单元。
不难发现,本实施方式中的RepVGG层中由3x3卷积堆叠而成,而3x3卷积的计算密度是1x1和5x5卷积的4倍,因此相比于其他模型,采用RepVGG层的速度更快。另外,本实施方式的RepVGG层在应用阶段为一个直筒型单路结构,单路结构由于不需要保存中间结果,因此会占更少的内存,且并行度更高。而且,多分支结构会引入网络结构的约束,这种约束导致网络不易延伸拓展,也一定程度限制了通道剪枝,本实施方式RepVGG层在应用阶段为单路结果其非常容易改变各层的宽度,具有更好的灵活性,这样剪枝后也能得到很好的加速比。
在本实施方式的yolov3-spp模型中,空间金字塔池化层由四个并行的分支构成,分别是三个5×5、9×9、13×13的最大池化和一个跳跃连接。在Darknet-53层提取出的特征经过空间金字塔池化层进行池化后的特征图重新cat起来传到下一层。
不难发现,本实施方式在传统的yolov3模型的主干网络和输出层之间增加了空间金字塔池化层(spp),该空间金字塔池化层主要由不同的池化操作组成,本实施方式中空间金字塔池化层对RepVGG层提取出的特征使用3个不同大小的最大池进行池化处理,从而将不同大小特征进行融合,有利于待检测图像中目标大小差异较大的情况,对检测的精度有了很大的提升。
为了加强算法对小目标检测的精确度,本实施方式的输出层采用类似FPN的upsample和融合做法,在多个级别的特征图上做检测,其输出了3个不同尺度的特征图,这3个不同尺度的特征图中的每一个单元都会预测3个候选框作为输出。
具体地说,经过空间金字塔池化层进行池化处理后得到的第二特征图经过输出层后得到13×13×1024的特征图,这一输出经过最多层卷积操作,包含更高级、更抽象、视野范围更大的特征,适合尺寸较大的目标检测,这一特征图再次经过卷积的特征图向两个方向传递,一个是再次经过3×3和1×1的卷积后输出13×13×75的特征图用于目标检测,另一个是进行上采样改变特征图大小后与RepVGG层的第二个输出特征图进行堆叠组成新的特征图,这个新的特征图再次进行卷积,也同样进行两个方向的传递,其中一个方向最终输出26×26×75的特征图用于目标检测中,另一个方向的是进行上采样转变尺寸后与RepVGG层的第一个输出的特征图进行堆叠后形成新的特征图进行特征提取,最终输出52×52×75的特征图,这一特征图包含了浅层网络提取的特征图对小尺寸目标检测更有一定提升。
本实施方式的yolov3-spp模型的输出层采用了对图像中的目标采用k-means聚类,这样在输出的3个不同尺度的特征图中的每一个单元都会预测3个边界框,每个边界框都会预测三个东西:(1)每个框的位置,(2)一个置信度,(3)类别。三次检测,每次对应的感受野不同,32倍降采样的感受野最大,适合检测大的目标。16倍适合一般大小的物体。8倍的感受野最小,适合检测小目标。所以当输入为416×416时,实际总共有(52×52+26×26+13×13)×3=10647个候选框,根据置信度判断候选框内是否有目标物体的存在,如果置信度过低(小于某个阈值),那么直接删除这个候选框,如此便能得到对应的多个检测框。
由于上述得到的检测框并不准确,因此还需要通过检测框进行裁剪过滤,本实施方式中采用的方式是通过线性回归来建模进行抑制处理,来实现微调,如图4所示,具体为:
步骤401,计算所述多个检测框中重叠的检测框的置信度;步骤402,选择置信度最高的检测框作为建议框进行处理,得到新的置信度得分,将置信度得分最高的检测框进行保存;步骤403,去掉所述置信度得分最高的检测框,得到N-1个重叠的检测框,并重复上一步骤直至最后一个检测框;步骤404,将保存的检测框的置信度得分与预设的阈值进行比较,去掉置信度得分小于阈值的检测框,保留置信度得分大于阈值的检测框。
例如,在检测到的带有做件台的图片中的杂物垃圾上有3个重叠的检测框,其置信度分别为0.9、0.7和0.85。首先选择得分最高的作为建议框进行处理,处理后得分变成了0.9、0.65和0.55。此时将得分最高的检测框进行保存,在剩下的两个检测框中再选择分数最高的检测框作为建议框进行处理,处理后的得分分别为0.65和0.45。最后在剩下的一个检测框中选择分数最高的检测框作为建议框进行处理,处理后得分不变。最终通过抑制处理后三个检测框的置信度分别为0.9、0.65和0.45,然后再将这些置信度分别与阈值进行比较,如果小于阈值,则将该检测框去掉,剩下的检测框则为最终检测的目标。
不难发现,通过上述方式对重叠的检测框计算置信度,将置信度最高的保存后再选出新的建议框进行计算,以此类推,如此排除了检测框叠加时各个检测框之间的影响,避免了误删检测框的可能,提高了检测的准确性。
步骤204,获取待检测的监控视频,并将所述监控视频输入至所述检测模型,得到检测结果。本步骤中,待检测的监控视频主要是是对分拨中心的监控视频。检测结果包括有杂物垃圾和无杂物垃圾,若检测结果为无杂物垃圾,则一切正常,若检测结果为有杂物垃圾,则将视频帧传输至监控终端,并判断杂物垃圾是否在预设时间内被清理,如果被清理,则一切正常,否则进行报警。如图5所示,本步骤的具体如下:
步骤2041,获取待检测的监控视频;
步骤2042,将所述监控视频输入至所述RepVGG层逐帧进行特征提取,得到第三特征图;
步骤2043,将所述第三特征图输入至所述空间金字塔池化层进行池化处理,得到第四特征图;
步骤2044,将所述第三特征图和第四特征图输入至所述输出层得到目标物体的位置。
值得一提的是,所述将所述监控视频输入所述RepVGG层逐帧进行特征提取,得到第三特征图时,可以基于预置FFmpeg框架对所述监控视频进行分帧,得到多个视频帧;对所述各视频帧依次进行去噪、对比度增强、亮度和饱和度调整,得到多个标准视频帧;依次将所述各标准视频帧输入所述Darknet-53层进行特征提取,得到所述各标准视频帧对应的第三特征图。
其中,FFmpeg框架包括编码器和解码器,FFmpeg框架通过编码器和解码器对监控视频进行视频编码和解码,从而实现对监控视频分帧,得到的视频帧噪点较多,因此需要对视频帧进行去除噪点,即降噪,再进行对比度增强、亮度和饱和度调整得到的视频帧更加清晰,使的后续进行检测时的识别度更高。
不难发现,本发明通过目标检测网络对监控视频进行识别,判断监控视频中的做件台上是否有杂物,得到识别结果,通过该方法采用图像分类和目标检测技术对做件台上的杂物进行识别,整个识别过程无需借助人工进行主观判断,全程由设备进行做件台整洁度的判断,从而提高了分拨中心的工作环境,有效的避免操作环境的脏乱给快递带来的影响。
图6示出了本发明第二实施方式的杂物检测装置的结构示意图,该装置用于执行图2所示的方法流程,且该装置包括获取模块301、标注模块302、建模模块303和检测模块304。
获取模块301,用于获取多张带有做件台的图片;
标注模块302,用于对所述多张带有做件台的图片进行目标标注,得到多个训练图像数据;具体的说,该标注模块302调用图片标注工具,对所述带有做件台的图片中的杂物进行选取,并完成标注,得到训练图像数据。
建模模块303,用于将所述多个训练图像数据输入至目标检测网络中进行训练,建立检测模型,其中,所述目标检测网络为yolov3-spp模型,包括RepVGG层、空间金字塔池化层和输出层。
其中,RepVGG层用于对所述训练图像数据进行特征提取,得到第一特征图;该RepVGG层在训练时包括多个依次连接的RepVGG区块,每个RepVGG区块均包括依次相连的3x3卷积层和ReLU层,所述3x3卷积层设置有平行的1x1卷积分支和/或恒等映射分支;在训练完成后得到的检测模型中,将RepVGG区块中的所述1x1卷积分支和所述恒等映射分支分别与所述3x3卷积层进行融合,得到3x3卷积单元。空间金字塔池化层,用于对所述第一特征图进行池化处理,得到第二特征图;输出层,用于对所述第一特征图和第二特征图进行处理得到多个检测框。训练时,调用损失函数计算所述检测框的位置的回归损失,并根据回归损失对所述yolov3-spp模型的参数进行调整,直至所述yolov3-spp模型收敛,得到检测模型。
本实施方式在输出层后还包括以下筛选单元,该筛选单元计算所述多个检测框中重叠的检测框的置信度;选择置信度最高的检测框作为建议框进行处理,得到新的置信度得分,将置信度得分最高的检测框进行保存;去掉所述置信度得分最高的检测框,得到N-1个重叠的检测框,并重复上一步骤直至最后一个检测框;将保存的检测框的置信度得分与预设的阈值进行比较,去掉置信度得分小于阈值的检测框,保留置信度得分大于阈值的检测框。
检测模块304,用于获取待检测的监控视频,并将所述监控视频输入至所述检测模型,得到检测结果。具体地说,该检测模块304获取待检测的监控视频;将所述监控视频输入至所述RepVGG层逐帧进行特征提取,得到第三特征图;将所述第三特征图输入至所述空间金字塔池化层进行池化处理,得到第四特征图;将所述第三特征图和第四特征图输入至所述输出层得到目标物体的位置。
由此可见,本发明通过目标检测网络对监控视频进行识别,判断监控视频中的做件台上是否有杂物,得到识别结果,通过该方法采用图像分类和目标检测技术对做件台上的杂物进行识别,整个识别过程无需借助人工进行主观判断,全程由设备进行做件台整洁度的判断,从而提高了分拨中心的工作环境,有效的避免操作环境的脏乱给快递带来的影响。

Claims (8)

1.一种杂物检测方法,其特征在于,包括以下步骤:
获取多张带有做件台的图片;
对所述多张带有做件台的图片进行目标标注,得到多个训练图像数据;
将所述多个训练图像数据输入至目标检测网络中进行训练,建立检测模型,其中,所述目标检测网络为yolov3-spp模型,包括RepVGG层、空间金字塔池化层和输出层;
具体包括:
将所述训练图像数据输入至所述RepVGG层进行特征提取,得到第一特征图;
将所述第一特征图输入至所述空间金字塔池化层进行池化处理,得到第二特征图;
将所述第一特征图和第二特征图输入至所述输出层得到多个检测框;
计算所述多个检测框中重叠的检测框的置信度;
选择置信度最高的检测框作为建议框进行处理,得到新的置信度得分,将置信度得分最高的检测框进行保存;
去掉所述置信度得分最高的检测框,得到N-1个重叠的检测框,并重复上一步骤直至最后一个检测框;
将保存的检测框的置信度得分与预设的阈值进行比较,去掉置信度得分小于阈值的检测框,保留置信度得分大于阈值的检测框;
调用损失函数计算所述检测框的位置的回归损失,并根据回归损失对所述yolov3-spp模型的参数进行调整,直至所述yolov3-spp模型收敛,得到检测模型;
获取待检测的监控视频,并将所述监控视频输入至所述检测模型,得到检测结果。
2.根据权利要求1所述的杂物检测方法,其特征在于,所述对所述多张带有做件台的图片进行目标标注包括:
调用图片标注工具,对所述带有做件台的图片中的杂物进行选取,并完成标注,得到训练图像数据。
3.根据权利要求1所述的杂物检测方法,其特征在于,在训练时,所述RepVGG层包括多个依次连接的RepVGG区块,每个RepVGG区块均包括依次相连的3x3卷积层和ReLU层,所述3x3卷积层设置有平行的1x1卷积分支和/或恒等映射分支;在训练完成后得到的检测模型中,将RepVGG区块中的所述1x1卷积分支和所述恒等映射分支分别与所述3x3卷积层进行融合,得到3x3卷积单元。
4.根据权利要求3所述的杂物检测方法,其特征在于,所述将RepVGG区块中的所述1x1卷积分支和恒等映射分支与所述3x3卷积层进行融合包括:
将所述1x1卷积分支填充成3x3卷积的形式,得到第一融合单元;
将恒等映射分支等效成1x1卷积的形式,将等效后的1x1卷积的形式填充成3x3卷积的形式,得到第二融合单元;
将所述第一融合单元、所述第二融合单元与所述3x3卷积层相加。
5.根据权利要求1所述的杂物检测方法,其特征在于,所述获取待检测的监控视频,并将所述监控视频输入至所述检测模型,得到检测结果包括:
获取待检测的监控视频;
将所述监控视频输入至所述RepVGG层逐帧进行特征提取,得到第三特征图;
将所述第三特征图输入至所述空间金字塔池化层进行池化处理,得到第四特征图;
将所述第三特征图和第四特征图输入至所述输出层得到目标物体的位置。
6.一种杂物检测装置,其特征在于,包括:
获取模块,用于获取多张带有做件台的图片;
标注模块,用于对所述多张带有做件台的图片进行目标标注,得到多个训练图像数据;建模模块,用于将所述多个训练图像数据输入至目标检测网络中进行训练,建立检测模型,其中,所述目标检测网络为yolov3-spp模型,包括RepVGG层、空间金字塔池化层和输出层;其中,RepVGG层用于对所述训练图像数据进行特征提取,得到第一特征图;空间金字塔池化层,用于对所述第一特征图进行池化处理,得到第二特征图;输出层,用于对所述第一特征图和第二特征图进行处理得到多个检测框;所述输出层后还包括筛选单元,所述筛选单元计算所述多个检测框中重叠的检测框的置信度;选择置信度最高的检测框作为建议框进行处理,得到新的置信度得分,将置信度得分最高的检测框进行保存;去掉所述置信度得分最高的检测框,得到N-1个重叠的检测框,并重复上一步骤直至最后一个检测框;将保存的检测框的置信度得分与预设的阈值进行比较,去掉置信度得分小于阈值的检测框,保留置信度得分大于阈值的检测框;训练时,调用损失函数计算所述检测框的位置的回归损失,并根据回归损失对所述yolov3-spp模型的参数进行调整,直至所述yolov3-spp模型收敛,得到检测模型;
检测模块,用于获取待检测的监控视频,并将所述监控视频输入至所述检测模型,得到检测结果。
7.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述杂物检测方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-5中任一项所述杂物检测方法。
CN202110434055.3A 2021-04-22 2021-04-22 杂物检测方法、装置、设备及存储介质 Active CN113191235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110434055.3A CN113191235B (zh) 2021-04-22 2021-04-22 杂物检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110434055.3A CN113191235B (zh) 2021-04-22 2021-04-22 杂物检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113191235A CN113191235A (zh) 2021-07-30
CN113191235B true CN113191235B (zh) 2024-05-17

Family

ID=76978083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110434055.3A Active CN113191235B (zh) 2021-04-22 2021-04-22 杂物检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113191235B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205856B (zh) * 2023-02-01 2023-09-08 哈尔滨市科佳通用机电股份有限公司 基于深度学习的人力制动机轴链折断故障检测方法及系统
CN116091848B (zh) * 2023-04-03 2023-07-04 青岛创新奇智科技集团股份有限公司 试管分类方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018153319A1 (zh) * 2017-02-23 2018-08-30 北京市商汤科技开发有限公司 物体检测方法、神经网络的训练方法、装置和电子设备
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN111709381A (zh) * 2020-06-19 2020-09-25 桂林电子科技大学 基于YOLOv3-SPP的道路环境目标检测方法
AU2020102091A4 (en) * 2019-10-17 2020-10-08 Wuhan University Of Science And Technology Intelligent steel slag detection method and system based on convolutional neural network
CN112364855A (zh) * 2021-01-14 2021-02-12 北京电信易通信息技术股份有限公司 一种基于多尺度特征融合的视频目标检测方法及系统
CN112686314A (zh) * 2020-12-30 2021-04-20 苏州科达科技股份有限公司 基于远距离拍摄场景的目标检测方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018153319A1 (zh) * 2017-02-23 2018-08-30 北京市商汤科技开发有限公司 物体检测方法、神经网络的训练方法、装置和电子设备
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
AU2020102091A4 (en) * 2019-10-17 2020-10-08 Wuhan University Of Science And Technology Intelligent steel slag detection method and system based on convolutional neural network
CN111709381A (zh) * 2020-06-19 2020-09-25 桂林电子科技大学 基于YOLOv3-SPP的道路环境目标检测方法
CN112686314A (zh) * 2020-12-30 2021-04-20 苏州科达科技股份有限公司 基于远距离拍摄场景的目标检测方法、装置及存储介质
CN112364855A (zh) * 2021-01-14 2021-02-12 北京电信易通信息技术股份有限公司 一种基于多尺度特征融合的视频目标检测方法及系统

Also Published As

Publication number Publication date
CN113191235A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN111027547B (zh) 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN111784685B (zh) 一种基于云边协同检测的输电线路缺陷图像识别方法
CN110163198B (zh) 一种表格识别重建方法、装置和存储介质
CN107871130A (zh) 图像处理
CN113191235B (zh) 杂物检测方法、装置、设备及存储介质
CN105654066A (zh) 一种车辆识别方法及装置
CN111681273A (zh) 图像分割方法、装置、电子设备及可读存储介质
CN111311475A (zh) 检测模型训练方法、装置、存储介质和计算机设备
CN111144215B (zh) 图像处理方法、装置、电子设备及存储介质
CN110807362A (zh) 一种图像检测方法、装置和计算机可读存储介质
CN112819796A (zh) 烟丝异物识别方法及设备
CN114519881A (zh) 人脸位姿估计方法、装置、电子设备及存储介质
CN113487610A (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN110008949B (zh) 一种图像目标检测方法、系统、装置和存储介质
CN111091122A (zh) 一种多尺度特征卷积神经网络的训练和检测方法、装置
CN114419428A (zh) 一种目标检测方法、目标检测装置和计算机可读存储介质
CN110059696B (zh) 一种图像标注方法、装置和计算机可读存储介质
CN111091550A (zh) 多尺寸自适应的pcb锡膏区域检测系统及检测方法
CN113963167B (zh) 应用于目标检测的方法、装置及计算机程序产品
CN114913330A (zh) 点云部件分割方法、装置、电子设备与存储介质
CN104392436B (zh) 一种遥感图像处理方法及装置
CN111435448B (zh) 图像显著性物体检测方法、装置、设备及介质
CN114582012A (zh) 一种骨架人体行为识别方法、装置及设备
CN112949731A (zh) 基于多专家模型的目标检测方法、装置、存储介质及设备
CN117292395B (zh) 审图模型的训练方法和训练装置及审图的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant