CN113221804A

CN113221804A - 一种基于监控视频的乱堆物料检测方法、装置及应用

Info

Publication number: CN113221804A
Application number: CN202110569562.8A
Authority: CN
Inventors: 李开民; 章东平; 吴健勇; 毛云青; 陈刚
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-06
Anticipated expiration: 2041-05-25
Also published as: CN113221804B

Abstract

本发明提供一种监控视频的乱堆物料检测方法、装置及系统，该方法包括步骤：获取监控图像中的至少一物料目标，以及，至少一与所述物料目标相关联的物料关联目标，其中所述物料关联目标用于判断物料目标是否为乱堆物料；基于所述物料目标和对应该物料目标的物料关联目标的关联性，判断所述物料目标是否为乱堆物料，该方法对物料目标和物料关联目标同时进行检测，基于物料关联目标和物料目标的位置关系判断物料目标是否是乱堆物料，减少了设备误判的情况，使方案更加贴切实际城管乱堆物料检测的需求。

Description

一种基于监控视频的乱堆物料检测方法、装置及应用

技术领域

本发明涉及城市管理领域，特别涉及一种基于监控视频的乱堆物料检测方法、装置及应用。

背景技术

在城市道路乱堆物料不仅会破坏市容环境卫生，还会影响他人的出行，甚至会引发安全隐患，为了提升城市环境面貌，一些城区已经将擅自在城市道路、公共场所堆放物料归类为违法行为。

目前，城管部门就乱堆物料此类违法行为的发现依旧是通过人力发现和设备发现两种：

人力发现，指的是派遣大量的城管人员进行路面巡逻，并对发现乱堆物料的情况进行记录和处理，而这种方式存在诸多缺陷：人员管理成本极高，工作效率低下，数据分析难度大，且实时性不强，在日常生活中经常出现：店铺在城管人员非执勤时间乱堆物料以规避城管人员的查处的现象。

设备发现，指的是通过监控设备对路面进行监测，以其主动发现乱堆物料的违法行为，但是目前的监测技术难以满足乱堆物料的精准判断，其大多是通过识别物料目标的类型来确定乱堆物料，然而这种方式对乱堆物料的检测是有限且不精准的。具体来说，并不是所有置于路面或者店铺前的物料均为乱堆物料，现有技术的方式无法对物料究竟是否为乱堆物料做出判断。

换言之，目前城管领域对乱堆物料的检测需求是紧迫且巨大的，但目前的处理方式均不能很好地兼备检测效率高、精确度高的优点。

发明内容

本发明的目的在于提供一种基于监控视频的乱堆物料检测方法、装置及应用，该方法基于物料目标及与物料有关的物联关联目标之间的位置关系，筛选判定物料目标是否真正属于乱堆物料，提高乱堆物料的检测效率。

为实现以上目的，本技术方案提供一种监控视频的乱堆物料检测方法，该方法包括步骤：

获取监控图像中的至少一物料目标，以及，至少一与所述物料目标相关联的物料关联目标，所述物料关联目标用于判断物料目标是否为乱堆物料；；

基于所述物料目标和对应该物料目标的物料关联目标的关联性，判断所述物料目标是否为乱堆物料。

第二方面，本方法提供一种监控视频的乱堆物料检测装置，包括：

目标获取单元，用于获取监控图像中的至少一物料目标，以及，至少一与所述物料目标相关联的物料关联目标，其中所述物料关联目标用于判断物料目标是否为乱堆物料；

关联判断单元，用于基于所述物料目标和对应该物料目标的物料关联目标的关联性，判断所述物料目标是否为乱堆物料。

第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上提到的监控视频的乱堆物料检测方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上提到的监控视频的乱堆物料检测方法。

相较现有技术，本技术方案具有以下特点和有益效果：对物料目标和物料关联目标同时进行检测，基于物料关联目标和物料目标的位置关系判断物料目标是否是乱堆物料，减少了设备误判的情况，使方案更加贴切实际城管乱堆物料检测的需求。

附图说明

图1和图2是本方案的基于监控视频的乱堆物料检测方法的应用示意图。

图3是本方案的基于监控视频的乱堆物料检测方法的逻辑处理框架图。

图4是本方案的基于监控视频的乱堆物料检测方法的流程示意图。

图5是本方案的基于监控视频的乱堆检测方法的模型训练逻辑图。

图6是本方案的目标检测模型的结构示意图。

图7是本方案的运行基于监控视频的乱堆物料检测方法的电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

为了解决目前城管在乱堆物料检测时存在的问题，本技术方案提供一种监控视频的乱堆物料检测方法，该方法包括步骤：

S1:获取监控图像中的至少以物料目标，以及，至少一与所述物料目标相关联的物料关联目标，其中所述物料目标为常见乱堆物料目标；

S2:基于所述物料目标和对应该物料目标的物料关联目标的关联性，判断所述物料目标是否为乱堆物料。

值得一提的是，本方案通过比较物料目标和物料关联目标之间的位置关系，来筛选误判的物料目标。该技术手段在乱堆物料堆放中有着非常广泛的意义，若是传统的城管人员人为巡逻的方式，其利用自己的主观和常识判断就可以准确区分乱堆物料亦或是短暂的物料存放情况。

值得说明的是，在日常生活中经常会出现物品短暂置于路面上但并非是乱堆物料的情况，比如：店铺门口的装卸货场景、人坐在商铺门口的椅子上休息的场景。目前的乱堆物料发现方式无法对这种情况进行区分，而恰巧这种情况对于乱堆物料场景的判断来说是至关重要的。

具体的，在本方案的一实施例中是基于深度学习技术对监控视频进行图像处理后获取监控图像中的物料目标和物料关联目标，监控图像选自监控视频，并将监控图像输入到目标检测模型中获取物料目标和物料关联目标。

步骤S1进一步包括：

利用目标检测模型对监控图像进行目标检测，输出物料目标和物料关联目标。

其中，监控图像选自监控视频中的至少一图像帧，监控视频采自装设在城市街道、社区、公共场所的各个监控摄像头，其中监控摄像头采集目标检测区域的图像，目标检测区域可以是路面、商铺或其他不允许乱堆物料的公共场所胡。

物料目标指的是放置在公共场所的阻碍行人或车辆通行、影响市容市貌的堆积物品，比如：商铺门口的桌椅板凳、餐厅门前的餐具收纳箱、商铺门口的堆积纸箱等；物料关联目标用于判断物料是否为乱堆物料，比如：商铺门口的人，货车、在路边卸货时货物旁边的工人。值得一提的是，物料目标和物料关联目标是相对应的关系，某一物料关联目标特定判断某一类物料目标是否为乱堆物料。比如，若同时检测到“商铺门口的堆积纸箱”以及“在路边卸货时货物旁边的工人”，且两者距离较近的话，则可初步判断此时处于商铺卸货的情况，则此时的商铺门口的堆积纸箱就不属于乱堆物料。

目标检测模型通过卷积神经网络对训练样本的训练得到，其上提到物料目标和物料关联目标是相关的，故在选取训练样本时也尽量选择相关的物料目标和物料关联目标，一般而言，某一物料目标相关于多个物料关联目标。在本方案中选用各个场景的城管监控图像中的n类物料目标和s类物料关联目标作为训练样本，对卷积神经网络进行训练得到目标检测模型。

在本方案提供的实施例一中，目标检测模型的训练样本选自：选取含有各种场景的监控图像中的n类物料目标和s类物料关联目标的监控图像，标记物料目标和物料关联目标，作为训练数据集以及测试数据集；

模型结构的构建：根据物料目标和物料关联目标的特性进行网络结构的设计，然后根据网络结构设置模型参数并对模型结构进行初始化；

训练模型结构：利用所述训练数据集训练所述模型结构，得到训练后的模型结构，该模型结构可输出物料目标及其矩形框，以及，物料关联目标及其矩形框；

利用测试数据集对训练后的模型结构进行测试，获取在测试集上准确率最高的模型作为最终的目标检测模型。

在本方案提供的实施例二中，目标检测模型的训练样本选自：选取含有各种场景的监控图像中的n类物料目标和s类物料关联目标的监控图像，标记物料目标与特定物料目标相关的物料关联目标，作为训练数据集；

模型结构的构建：根据物料目标和物料关联目标的特性进行网络结构的设计，然后根据网络结构设置模型参数并对模型进行初始化；

训练模型结构：利用训练数据集训练模型结构，得到目标检测模型，该目标检测模型可输出物料目标及其矩形框，以及，与该物料目标相关的物料关联目标及其矩形框。

可利用测试数据集对模型结构进行测试，获取在测试集上准确率最高的模型作为最终的模型。

该实施例二和实施例一不同之处在于：该实施例的物料关联目标和物联目标是直接相关的，比如：若物料目标为商铺门口的桌椅，则物料关联目标为人；若物料目标为纸箱，则物料关联目标为货车以及工人。此时，所述目标检测模型直接输出所述物料目标和该物料目标直接关联的所述物料关联目标，即，该物料关联目标对应特定物料目标，该特定物料目标可同时对应多个物料关联目标。

而在实施例一和实施例二中，为了使得网络训练更加充分、有更强的鲁棒性和泛化能力，本方案将获取到的包含物料目标和物料关联目标图像进行数据增强，数据增强的动作包括：旋转、缩放、转、平移、裁剪、亮度、饱和度的变化，以将数据增加到原始数据的16倍，并将数据集按照8:1:1的比例划分为训练集、验证集以及测试集。

对模型结构也进行了优化；该模型结构包括依次连接的骨干网络、特征融合网络以及分类回归结构，其中骨干网络选择为darknet53或Resnet152等，特征融合网络采用双向加权特征金字塔网络，分类回归结构选择为sigmoid和均方误差方法，本方案选用双向加权特征金字塔作为特征融合网络是充分考虑到了监控图像中物料目标和/或物料关联目标小而不清楚的问题，监控摄像头往往是装设在路边固定的位置且距离物料目标和/或物料关联目标较远，而距离越远就意味着目标越小，针对小目标难以检测的问题，该双向加权特征网络利用加权的方式融合目标位置信息较为丰富的底层特征和语义信息较为丰富的高层特征。

如图2所示，为本方案的模型结构的结构示意图，其中输入图像在进行卷积、正则化和mish激活函数后，进入残差块中进行递进处理，在经过多个残差块之后，将特征送入空间金字塔池化模块(SPPNet)，通过空间金字塔池化，使得CNN的特征不再是单一尺度的。SPPNet更适用于处理目标检测问题，首先是网络可以实现任意大小的输入，也就是说能够很方便地多尺寸训练。其次是空间金字塔池化比单纯的使用K*K最大池化更有效的增加了主干特征的接收范围，增大了感受野，显著的分离了最重要的上下文特征。图2中右边的双向加权特征金字塔网路不仅采用自上而下(top-down)方法，也结合了自下而上(bottom-up)的方法进行融合特征。在特征融合的第二层上建立跳跃连接目的是在不花更多的计算代价下融合更多的特征。最后通过分类与回归输出最终结果。

值得说明的是，目标位置信息较为丰富的底层特征是指：

当图片输入到卷积神经网络中随着网络层数的加深，所得到的图片特征分辨率是逐渐下降的，而底层特征的分辨率较大，包含了图片中物体的一些细节信息，例如物体的位置信息、边缘信息、纹理信息等局部特征，随着层数加深，所提取特征中的几何细节信息可能完全消失(感受野过大)，通过高层特征检测小物体就变得很困难，所以后续需要融合目标位置信息较为丰富的底层特征，为后续检测小目标提供帮助。

语义信息较为丰富的高层特征是指：随着网络层数的加深到后期，网络所提取图像的特征为高层特征。高层的抽象特征对物体的大小、位置和方向等敏感性更低，但是对于物体的整体的语义信息敏感性更高，从而有助于对整个物体识别性能的提高。

在特征融合阶段，由于不同的输入特征(物料目标或物料关联目标)的分辨率不同，其通常对输出特征的贡献是不平等的。而双向加权特征网络在特征融合过程中为每个输入特征(物料目标或物料关联目标)增加额外的权重，权重为随机配置的初始值，根据网络学习不断地自动调整权重的值，并让网络学习每个输入特征(物料目标或物料关联目标)的重要性，输出特征的获取公式如下：

其中P_o为输出特征，w_i为特征融合阶段第i个输入特征的可学习的权重，是一个标量；I_i为第i个输入特征，Conv为卷积操作，m表示输入特征个数，其中ε＝0.0001，以避免归一化权重时分母为0。

在模型训练阶段：将训练数据集输入到目标检测模型中，设置批大小、动量、学习衰减率以及学习率，最后加载预训练权重进行训练，并通过测试集对训练好的模型进行测试，从所有的模型中选择在测试集上准确率最高的模型作为最终的模型。

步骤S2进一步包括；

基于物料目标和物料关联目标的位置关系，判断所述物料目标是否为乱堆物料。

此时，值得一提的是，若无检测到物料关联目标，则意味着物料目标和物料关联目标的关联性为0，则直接判断该物料目标为乱堆物料。

若检测到物料关联目标，则基于物料目标和物料关联目标的位置远近，判断物料目标和物料关联目标的关联性。在一般设定条件下，物料目标和物料关联目标越近的话，认为其关联性越强。

示例性的,比如同时检测到物料目标为商铺门口的桌椅，以及，物料关联目标为人；但商铺门口的桌椅和人距离很远，则认为该人并无使用该桌椅的动机或行为，则该桌椅依旧为乱堆物料；相反的，若人就在桌椅边上甚至坐在桌椅上的话，则该桌椅就不属于乱堆物料。

具体的，本方案是通过物料目标的矩阵边框坐标(x_i，y_i，w_i，h_i)和物料关联目标的矩阵边框坐标(x_j，y_j，w_j，h_j)进行关联性计算的：

基于物料目标的矩阵边框坐标和物料关联目标的矩阵边框坐标，计算物料目标和物料关联目标的横向距离，以及，物料目标和物料关联目标的纵向距离，若横向距离或纵向距离任一值大于预设值的话，则认为物料目标和物料关联目标距离较远，认为此时关联性较弱，则判断该物料目标为乱堆物料。

具体的计算公式如下：

w＝max(x_i，x_j)-min(x_j+w_j，x_i+w_i)；

h＝max(y_i，y_j)-min(y_j+h_j，y_i+h_i)。

其中w为物料目标和物料关联目标的横向距离,h为物料目标和物料关联目标的纵向距离，若w>＝t或者h>＝t,(其中t>＝0,需要根据实际目标之间的关联情况来设定t的值)则说明物料目标和与物料关联目标之间的距离较远，表明它们之间没有关系，此时的物料目标属于乱堆物料；若w<t且h<t则说明物料目标和与物料关联目标之间距离较近,此时的物料堆放目标不属于乱堆物料。也就是说，在本方案的一实施例中，仅横向距离和纵向距离同时小于预设值时，判断物料目标和物料关联目标是相关，以在减少误判的情况下也尽可能地保证不漏判。

值得一提的是，本方案是通过额外的判断规则对其物料目标及物料关联目标进行关联性判断，而不是通过深度学习模型直接进行检测。这样的好处在于可极大程度地降低网络模型的计算压力和训练压力。而像是CN109993047A中判断物品元素之间的位置关系是通过第一机器学习模型自行进行的，一来这对于模型的训练压力提出了更高的要求，二来其确定位置关系也仅仅是为了确定该物品元素，仅仅是为了提高物品识别的准确率。

第二方面，本方案提供监控视频的乱堆物料检测装置，包括：

该监控视频的乱堆物料检测装置运行上述监控视频的乱堆物料检测方法，故涉及到的目标获取单元以及关联判断单元的执行内容参见上述描述，在此不进行累赘说明。

另外，本方案提供该监控视频的乱堆物料检测方法的具体应用示意，如图1所示，调取XX街道的路面摄像头，并获取其中的物料目标(椅子)和物料关联目标(人)，可见该图中有多处物料目标以及物料关联目标；如图2所示，基于物料目标和物料关联目标的矩形框坐标进行比对，发现某个物料目标和物料关联目标距离很近(人坐在椅子上休息)，另外个物料目标距离物料关联目标很远，则该物料目标为乱堆物料。

本实施例还提供了一种电子装置，包括存储器304和处理器302，该存储器304中存储有计算机程序，该处理器302被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器302可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecificIntegratedCircuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器304可以包括用于数据或指令的大容量存储器304。举例来说而非限制，存储器304可包括硬盘驱动器(HardDiskDrive，简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器304可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器304可在数据处理装置的内部或外部。在特定实施例中，存储器304是非易失性(Non-Volatile)存储器。在特定实施例中，存储器304包括只读存储器(Read-OnlyMemory，简称为ROM)和随机存取存储器(RandomAccessMemory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory，简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory，简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory，简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器304(FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory，简称SDRAM)等。

存储器304可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器302所执行的可能的计算机程序指令。

处理器302通过读取并执行存储器304中存储的计算机程序指令，以实现上述实施例中的监控视频的乱堆物料检测方法。

可选地，上述电子装置还可以包括传输设备306以及输入输出设备308，其中，该传输设备306和上述处理器302连接，该输入输出设备308和上述处理器302连接。

传输设备306可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备306可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

输入输出设备308用于输入或输出信息。例如，上述输入输出设备可以是显示屏、鼠标、键盘或其他设备。在本实施例中，输入设备用于输入采集得到的信息，输入的信息可以是图像、实时视频，息输出的信可以是通过监控视频的乱堆物料检测得到的乱堆物料等等。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于监控视频的乱堆物料检测方法，其特征在于，包括以下步骤：

获取监控图像中的至少一物料目标，以及，至少一与所述物料目标相关联的物料关联目标，所述物料关联目标用于判断物料目标是否为乱堆物料；

2.根据权利要求1所述的基于监控视频的乱堆物料检测方法，其特征在于，利用目标检测模型对所述监控图像进行目标检测，输出所述物料目标和所述物料关联目标。

3.根据权利要求2所述的监控视频的乱堆物料检测方法，其特征在于，

所述目标检测模型的训练方式为：

模型结构的构建：根据所述物料目标和所述物料关联目标的特性进行网络结构的设计，然后根据网络结构设置模型参数并对模型结构进行初始化；

数据集的选择：选取含有各种场景的n类物料目标和s类物料关联目标的监控图像，标记物料目标和物料关联目标，作为训练数据集以及测试数据集；

训练模型结构：利用所述训练数据集训练所述模型结构，得到训练后的模型结构；

利用测试数据集对所述训练后的模型结构进行测试，获取准确率最高的模型结构作为目标检测模型。

4.根据权利要求3所述的监控视频的乱堆物料检测方法，其特征在于，在“训练模型结构”阶段：将所述训练数据集输入到所述模型结构中，设置批大小、动量、学习衰减率以及学习率，加载预训练权重进行训练。

5.根据权利要求3所述的监控视频的乱堆物料检测方法，其特征在于，所述网络结构包括依次连接的骨干网络、特征融合网络以及分类回归结构，所述骨干网络为darknet53或Resnet152，所述特征融合网络采用双向加权特征金字塔网络，所述分类回归结构选择为sigmoid和均方误差方法，所述双向加权特征网络在特征融合过程中为每个输入特征增加额外的权重。

6.根据权利要求5所述的监控视频的乱堆物料检测方法，其特征在于，所述特征融合网络输出特征的公式如下：

其中P_o为输出特征，W_i为特征融合阶段第i个输入特征的可学习的权重，是一个标量；I_i为第i个输入特征，Conv为卷积操作，m表示输入特征个数，其中ε＝0.0001。

7.根据权利要求1所述的监控视频的乱堆物料检测方法，其特征在于，基于所述物料目标的矩阵边框坐标和所述物料关联目标的矩阵边框坐标，计算所述物料目标和所述物料关联目标的横向距离，以及，所述物料目标和所述物料关联目标的纵向距离，若所述横向距离或所述纵向距离的任一值大于预设值的话，则判断所述物料目标为乱堆物料。

8.根据权利要求2所述监控视频的乱堆物料检测方法，其特征在于，

所述目标检测模型输出所述物料目标和该物料目标直接关联的所述物料关联目标。

9.一种监控视频的乱堆物料检测装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上权利要求1到8任一所述提到的监控视频的乱堆物料检测方法。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上权利要求1到8任一所述提到的监控视频的乱堆物料检测方法。