CN112766137A

CN112766137A - 一种基于深度学习的动态场景异物入侵检测方法

Info

Publication number: CN112766137A
Application number: CN202110049881.6A
Authority: CN
Inventors: 谢巍; 卢永辉; 许练濠; 周延; 吴伟林
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-05-07
Anticipated expiration: 2041-01-14
Also published as: CN112766137B

Abstract

本发明公开了一种基于深度学习的动态场景异物入侵检测方法，该方法包括先利用监控设备采集所监控场景的RGB图像帧；然后利用训练好的目标分割模型对图像中的目标区域进行分割，获取目标区域二值化掩膜结果；利用训练好的目标检测模型对图像中的异物目标进行检测，获取异物目标的类别和位置信息；再计算出异物目标的位置边界框内目标区域像素占比P，并据此判断异物目标的入侵状态；根据异物目标的类别信息，判定异物目标的入侵等级；最后根据异物目标的入侵状态和等级，发出对应的安全预警。本发明只需单帧图像就可以完成异物入侵检测，同时获取异物目标的入侵状态和入侵等级，为动态场景下各活动的安全预告预警提供准确可靠的依据。

Description

一种基于深度学习的动态场景异物入侵检测方法

技术领域

本发明涉及数字图像处理、模式识别和计算机视觉领域，具体涉及一种基于深度学习的动态场景异物入侵检测方法。

背景技术

为了保证人们日常生产生活的安全，通常会对一些危险区域进行人为划分，并对该区域进行异物入侵检测。比如火车轨道区域，生产车间的机械加工区域和一些禁止闲人出入的区域，这些区域通常是比较危险的，如果发生异物入侵的情况，轻则导致活动无法正常进行，重则导致人身安全事故。因此，提高这些危险区域场景下的异物入侵检测能力，在发生异物入侵情况下发出准确可靠的安全预告预警，是非常有必要的。

当前，异物入侵检测技术主要还是基于背景差分法或者帧间差分法等传统图像处理方法，这些方法虽然可以检测出当前场景中的运动物体，但是有不少的限制。如背景差分法需要建立复杂的背景模型，参数比较难调教；帧间差分法比较简单，但是对噪声非常敏感，如影子变化和画面抖动等等，容易对检测结果造成影响。并且，目前上述两种方法以及基于上述两种方法的改进方法均是针对全图区域进行检测，无法针对图片中的某个区域进行分析。同时值得一提的是，上述方法均无法对检测到的异常目标进行类别判断，也就无法针对不同类别的物体进行不同的危险等级划分，容易产生比较多的误报情况，浪费人力、物力和财力。

发明内容

本发明的目的在于克服现有技术的缺点和不足，提供一种基于深度学习的动态场景异物入侵检测方法，该方法可以同时获取异物目标的入侵状态和入侵等级，且只需要单帧图像就可以完成异物入侵检测，进而可以为动态场景下各活动的安全预告预警提供准确可靠的依据。

本发明的目的通过以下所述技术方案实现：一种基于深度学习的动态场景异物入侵检测方法，包括如下步骤：

S1、利用监控设备采集所监控场景的RGB图像帧；

S2、利用训练好的目标分割模型对步骤S1采集的单帧RGB图像中的目标区域进行分割，获取目标区域二值化掩膜结果；

利用训练好的目标检测模型对步骤S1采集的单帧RGB图像中的异物目标进行检测，获取异物目标的类别和位置信息；

S3、根据目标区域二值化掩膜和异物目标位置信息，计算出异物目标的位置边界框内目标区域像素占比P；

S4、根据计算得到的目标区域像素占比P和给定阈值T的大小关系，判断异物目标的入侵状态；

S5、根据异物目标的类别信息，判定异物目标的入侵等级；

S6、根据异物目标的入侵状态和等级，发出对应的安全预警。

优选的，在步骤S1中，利用监控设备采集到RGB图像帧之后，还将RGB图像帧的高宽比调整为1:2；

在步骤S2中，以高宽比为1:2的单通道灰度图作为目标分割模型的输入，目标分割模型的输出为二值化掩膜，其为一个二维数组，尺寸与输入图片相同，数组中的每个元素的值为0或1，0表示非目标区域像素，1表示目标区域像素；

以高宽比为1:2的三通道RGB彩色图作为目标检测模型的输入，目标检测模型的输出为含有异物目标的类别和位置信息的特征图。

优选的，目标分割模型和目标检测模型均为卷积神经网络，目标分割模型的基础网络采用UNET，目标检测模型的基础网络结构采用YOLOv3。

更进一步的，目标分割模型的基本结构包括：基本卷积层、最大池化层、上采样层和级联结构；

目标分割模型的主干网络由编码器和解码器构成，编码器包含依次连接的4个第一网络单元，解码器包含依次连接的4个第二网络单元；

其中，每个第一网络单元包括依次连接的2个基本卷积层和最大池化层，2个卷积层分别为第一基本卷积层、第二基本卷积层；每个第二网络单元包括依次连接的上采样层和2个基本卷积层，2个卷积层分别为第三基本卷积层和第四基本卷积层；

按照网络连接顺序，第一个第一网络单元的第二基本卷积层与第四个第二网络单元的上采样层通过级联结构连接至第四个第二网络单元的第三基本卷积层；

第二个第一网络单元的第二基本卷积层与第三个第二网络单元的上采样层通过级联结构连接至第三个第二网络单元的第三基本卷积层；

第三个第一网络单元的第二基本卷积层与第二个第二网络单元的上采样层通过级联结构连接至第二个第二网络单元的第三基本卷积层；

第四个第一网络单元的第二基本卷积层与第一个第二网络单元的上采样层通过级联结构连接至第一个第二网络单元的第三基本卷积层；第四个第一网络单元的最大池化层通过基本卷积层连接第一个第二网络单元的上采样层。

更进一步的，基本卷积层包括依次连接的卷积层、批正则化层和ReLU激活函数层；最大池化层采用的实现方式为核尺寸和步长均为2的最大池化操作；上采样层采用的上采样实现方式为转置卷积；级联结构用于在通道维度上对输入进行叠加操作。

更进一步的，目标检测模型的基本结构包括：基本卷积层、残差模块、下采样层、RFB模块、SPP模块、上采样层和级联结构；

目标检测模型包括主干网络和连接主干网络的3个检测分支网络，其中，主干网络为依次连接的基本卷积层、下采样层、1个残差模块、下采样层、2个残差模块、下采样层、2个残差模块、RFB模块、下采样层、2个残差模块、RFB模块、下采样层、1个残差模块和SPP模块；

第一个检测分支网络从主干网络中的第一个RFB模块输出端分出，第二个检测分支网络从主干网络中的第二个RFB模块输出端分出，第三个检测分支网络从主干网络中的SPP模块输出端分出，每个检测分支网络只包含基本卷积层，第一个检测分支网络的尺寸最大，第三个检测分支网络的尺寸最小；

在每两个相邻的检测分支网络中，两个检测分支网络在经过第一个基本卷积层后，由尺寸较小的一个检测分支网络经过基本卷积层和上采样层，再通过级联结构结合到尺寸较大的另一个检测分支网络。

更进一步的，目标检测模型的输出结果维度为3×(5+C)，3对应代表每个检测分支网络输出的特征图中每个网格位置均会产生3组预测结果，每组预测结果的维度为(5+C)；5对应代表预测结果中的5个预测参数x,y,w,h,confidence，其中，(x,y)表示异物目标预测位置的矩形边界框中心坐标，w和h分别表示异物目标预测位置的矩形边界框的宽和高，confidence表示当前预测目标不属于背景的概率；C表示需要检测的目标类别数，在预测结果中对应为一个C维向量，该向量的元素为某一类别的概率，取其中的最大值所对应的类别作为最终的异物目标类别。

优选的，步骤S3中，获取目标区域二值化掩膜和异物目标位置信息后，在目标区域二值化掩膜上以异物目标位置边界框作为遍历范围进行遍历，统计出值为1的像素点个数n_t，再结合异物目标位置边界框的w和h，计算出异物目标的矩形边界框内目标区域像素占比值P：

优选的，步骤S4中，根据计算得到的目标区域像素占比P和给定阈值T的大小关系，判断异物目标的入侵状态：大于阈值表明检测到的异物出现在目标区域内，属于存在入侵状态；小于阈值则说明检测到的异物为没有出现在目标区域内，属于未入侵状态。

优选的，在步骤S5中，当异物目标属于未入侵状态时，入侵等级统一划分为最低等级。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明基于深度学习的动态场景异物入侵检测方法，可以同时获取异物目标的入侵状态和入侵等级，且只需要单帧图像就可以完成异物入侵检测，因此可以非常容易方便地实现当前场景下的异物入侵检测分析，进而可以为动态场景下各活动的安全预告预警提供准确可靠的依据。

(2)本发明结合深度学习技术，利用由卷积神经网络构成的目标分割模型对目标区域进行精确地划分，可以忽略场景下非目标区域中异物目标对检测结果的影响；利用由卷积神经网络构成的目标检测模型对场景中的异物类别和位置进行检测，可以进一步根据异物类别对异物进行精确地筛选，去除不必要的预警，同时获取的异物位置信息使得预警的内容更加精确，以便防护人员做出更加有效的防护措施。

(3)本发明方法中，由于只需要单帧图片即可完成异物检测分析，因此几乎不受监控设备位置、角度和晃动等外界因素的影响，可以很方便的在各个场景中实施应用，真正实现动态异物入侵检测分析。

附图说明

图1是基于深度学习的动态场景异物入侵检测方法的流程图。

图2是目标分割模型的卷积神经网络结构图。

图3是目标检测模型的卷积神经网络结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本实施例公开了一种基于深度学习的动态场景异物入侵检测方法，如图1所示，包括如下步骤：

S1、利用监控设备采集所监控场景的RGB图像帧，并将RGB图像帧的高宽比调整为1:2；

S2、利用训练好的目标分割模型对步骤S1采集的单帧RGB图像中的目标区域进行分割，获取目标区域二值化掩膜结果。

利用训练好的目标检测模型对步骤S1采集的单帧RGB图像中的异物目标进行检测，获取异物目标的类别和位置信息。

本实施例的目标分割模型为卷积神经网络，目标分割模型的基础网络可采用UNET，UNET网络通道数最高为256，其基本结构包括：基本卷积层(Basic conv)、最大池化层(Max pool)、上采样层(Up sample)和级联结构(Concatenate，

)。

具体来说，为满足本实施例目标分割模型的特征提取能力需求，如图2所示，设计目标分割模型的主干网络由编码器和解码器构成，编码器包含依次连接的4个第一网络单元，解码器包含依次连接的4个第二网络单元。

其中，每个第一网络单元包括依次连接的2个基本卷积层和最大池化层，2个卷积层分别为相互连接的第一基本卷积层和第二基本卷积层；每个第二网络单元包括依次连接的上采样层和2个基本卷积层，2个卷积层分别为相互连接的第三基本卷积层和第四基本卷积层。

这里，基本卷积层包括依次连接的卷积层(conv)、批正则化层(batch_norm)和ReLU激活函数层；最大池化层采用的实现方式为核尺寸和步长均为2的最大池化操作。上采样层采用的上采样实现方式为转置卷积。批正则化层可以加速模型收敛，提高模型的泛化性能。级联结构用于在通道维度上对输入进行叠加操作，使得编码器和解码器之间网络所输出的尺寸相同的特征图可以通过concatenate操作进行拼接融合。

本实施例的目标检测模型为卷积神经网络，目标检测模型的基础网络结构可采用YOLOv3，其基本结构包括：基本卷积层、残差模块、下采样层、RFB模块、SPP模块、上采样层和级联结构。

为满足本实施例目标检测模型的特征提取能力需求，如图3所示，设计目标检测模型包括主干网络和连接主干网络的3个检测分支网络。

其中，主干网络为依次连接的基本卷积层、下采样层、1个残差模块、下采样层、2个相互连接的残差模块、下采样层、2个相互连接的残差模块、RFB模块、下采样层、2个相互连接的残差模块、RFB模块、下采样层、1个残差模块和SPP模块。

第一个检测分支网络从主干网络中的第一个RFB模块输出端分出，第二个检测分支网络从主干网络中的第二个RFB模块输出端分出，第三个检测分支网络从主干网络中的SPP模块输出端分出，每个检测分支网络只包含基本卷积层，第一个检测分支网络的尺寸最大，第三个检测分支网络的尺寸最小。

在每两个相邻的检测分支网络中，两个检测分支网络在经过第一个基本卷积层后，由尺寸较小的一个检测分支网络经过基本卷积层和上采样层，再通过级联结构结合到尺寸较大的另一个检测分支网络，因此，上采样层上采样后，通过concatenate操作和尺寸较大的检测分支进行特征融合。

在本实施例中，目标分割模型以高宽比具体是为1:2的单通道灰度图作为输入。鉴于大部分监控设备获取的图像都是540×960的比例，将目标分割模型的输入高宽比调整为1:2，可以降低图像在处理时填充的边界像素数量，实现在保持模型准确率几乎不变的前提下，减少模型计算量，进而提高模型在前向推理时的效率。

目标分割模型的输出为二值化掩膜，其为一个二维数组，尺寸与输入图片的尺寸相同。数组中的每个元素的值为0或1，0表示非目标区域像素，1表示目标区域像素。

目标检测模型具体是以高宽比为1:2的三通道RGB彩色图作为输入，其输出为含有异物目标的类别和位置信息的3个特征图，输出结果维度为3×(5+C)。这里将目标检测模型的输入高宽比调整为1:2，与将目标分割模型的输入高宽比调整为1:2的目的相同，可以降低图像在处理时填充的边界像素数量，进而提高模型在前向推理时的效率。

3对应代表每个检测分支网络输出的特征图中每个网格位置均会产生3组预测结果，每组预测结果的维度为(5+C)；5对应代表预测结果中的5个预测参数x,y,w,h,confidence，其中，(x,y)表示异物目标预测位置的矩形边界框(也可称为位置边界框)中心坐标，w和h分别表示异物目标预测位置的矩形边界框的宽和高，confidence表示当前预测目标不属于背景的概率；C表示需要检测的目标类别数，在预测结果中对应为一个C维向量，该向量的元素为某一类别的概率，取其中的最大值所对应的类别作为最终的异物目标类别。

这里，下采样层为卷积参数步长为2的基本卷积层。

残差模块包括2个分支，且2个分支的输出通过一个级联结构进行结合，从而得到残差模块的输出。其中一个分支包含依次连接的一个卷积核大小为1×1的基本卷积层和一个卷积核大小为3×3的基本卷积层，另一个分支为直连结构(即残差模块的前一个网络的输出端直接连接至级联结构)。

RFB模块包含5个分支，且第一个至第四个分支进行叠加并通过一个1×1卷积层，然后再通过级联结构和第五个分支相加，最后再连接至一个ReLU激活函数，从而得到RFB模块的输出。

其中，第一个分支包含依次连接的一个卷积核为1×1的基本卷积层和一个卷积核大小为3×3、采样率为1的基本卷积层；第二个分支包含依次连接的一个卷积核为1×1的基本卷积层、一个卷积核为1×3的基本卷积层和一个卷积核大小为3×3、采样率为3的基本卷积层；第三个分支包含依次连接的一个卷积核为1×1的基本卷积层、一个卷积核为3×1的基本卷积层和一个卷积核大小为3×3、采样率为3的基本卷积层；第四个分支包含依次连接的一个卷积核为1×1的基本卷积层、一个卷积核为1×3的基本卷积层、一个卷积核为3×1的基本卷积层和一个卷积核大小为3×3、采样率为5的基本卷积层；第五个分支为直连结构(即RFB模块的前一个网络的输出端直接连接至级联结构)。

SPP模块包含4个分支，且第一个至第三个分支进行叠加并通过一个1×1基本卷积层，然后再通过级联结构和第四个分支相加，最后再连接至一个ReLU激活函数，从而得到SPP模块的输出。

第一个分支包含一个核尺寸为5、步长为1最大池化层；第二个分支包含一个核尺寸为9、步长为1的最大池化层；第三个分支包含一个核尺寸为13、步长为1的最大池化层；第四个分支为直连结构(即SPP模块的前一个网络的输出端直接连接至级联结构)。

S3、获取目标区域二值化掩膜和异物目标位置信息后，在目标区域二值化掩膜上以异物目标位置边界框作为遍历范围进行遍历，统计出值为1的像素点个数n_t，再结合异物目标位置边界框的w和h，计算出异物目标的矩形边界框内目标区域像素占比值P：

S4、根据计算得到的目标区域像素占比P和给定阈值T的大小关系，判断异物目标的入侵状态：大于阈值表明检测到的异物出现在目标区域内，属于存在入侵状态；小于阈值则说明检测到的异物为没有出现在目标区域内，属于未入侵状态。阈值的大小可以根据应用场景不同进行调整，常用值为T＝0.15。

S5、根据异物目标的类别信息，判定异物目标的入侵等级，一般的，异物目标属于未入侵状态时，入侵等级统一划分为最低等级L0。当异物目标属于入侵状态时，再根据异物目标的类别将入侵等级划分为初级L1，中级L2，特级L3等。

以铁路场景为例，该场景下的异物入侵等级划分标准可如表1所示。

表1

异物目标	入侵等级
		未入侵	L0
树枝、小动物	L1
		行人	L2
泥石流、洪水	L3

S6、根据异物目标的入侵状态和等级，发出对应的安全预警，以便在危险时刻及时通告人群，有利于及时逃生。这里的安全预警可以是通过喇叭广播、发送短信等方式通知。

可通过各种手段实施本发明描述的技术。举例来说，这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案，处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。

对于固件和/或软件实施方案，可用执行本文描述的功能的模块(例如，过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上结合附图对本发明进行了示例性描述，显然本发明具体设计并不受上述方式的限制，主要采用了本发明的构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基于深度学习的动态场景异物入侵检测方法，其特征在于，包括如下步骤：

S1、利用监控设备采集所监控场景的RGB图像帧；

S5、根据异物目标的类别信息，判定异物目标的入侵等级；

2.根据权利要求1所述的动态场景异物入侵检测方法，其特征在于，在步骤S1中，利用监控设备采集到RGB图像帧之后，还将RGB图像帧的高宽比调整为1:2；

3.根据权利要求1所述的动态场景异物入侵检测方法，其特征在于，目标分割模型和目标检测模型均为卷积神经网络，目标分割模型的基础网络采用UNET，目标检测模型的基础网络结构采用YOLOv3。

4.根据权利要求3所述的动态场景异物入侵检测方法，其特征在于，目标分割模型的基本结构包括：基本卷积层、最大池化层、上采样层和级联结构；

5.根据权利要求4所述的动态场景异物入侵检测方法，其特征在于，基本卷积层包括依次连接的卷积层、批正则化层和ReLU激活函数层；最大池化层采用的实现方式为核尺寸和步长均为2的最大池化操作；上采样层采用的上采样实现方式为转置卷积；级联结构用于在通道维度上对输入进行叠加操作。

6.根据权利要求3所述的动态场景异物入侵检测方法，其特征在于，目标检测模型的基本结构包括：基本卷积层、残差模块、下采样层、RFB模块、SPP模块、上采样层和级联结构；

7.根据权利要求6所述的动态场景异物入侵检测方法，其特征在于，目标检测模型的输出结果维度为3×(5+C)，3对应代表每个检测分支网络输出的特征图中每个网格位置均会产生3组预测结果，每组预测结果的维度为(5+C)；5对应代表预测结果中的5个预测参数x,y,w,h,confidence，其中，(x,y)表示异物目标预测位置的矩形边界框中心坐标，w和h分别表示异物目标预测位置的矩形边界框的宽和高，confidence表示当前预测目标不属于背景的概率；C表示需要检测的目标类别数，在预测结果中对应为一个C维向量，该向量的元素为某一类别的概率，取其中的最大值所对应的类别作为最终的异物目标类别。

8.根据权利要求1所述的动态场景异物入侵检测方法，其特征在于，步骤S3中，获取目标区域二值化掩膜和异物目标位置信息后，在目标区域二值化掩膜上以异物目标位置边界框作为遍历范围进行遍历，统计出值为1的像素点个数n_t，再结合异物目标位置边界框的w和h，计算出异物目标的矩形边界框内目标区域像素占比值P：

9.根据权利要求1所述的动态场景异物入侵检测方法，其特征在于，步骤S4中，根据计算得到的目标区域像素占比P和给定阈值T的大小关系，判断异物目标的入侵状态：大于阈值表明检测到的异物出现在目标区域内，属于存在入侵状态；小于阈值则说明检测到的异物为没有出现在目标区域内，属于未入侵状态。

10.根据权利要求1所述的动态场景异物入侵检测方法，其特征在于，在步骤S5中，当异物目标属于未入侵状态时，入侵等级统一划分为最低等级。