CN111583265A

CN111583265A - 基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统

Info

Publication number: CN111583265A
Application number: CN202010377760.XA
Authority: CN
Inventors: 侯卫东; 逯利军; 钱培专; 李晏; 彭浩
Original assignee: Beijing Certusnet Information Technology Co ltd; Guangdong Certusnet Information Technology Co ltd; Shanghai Certusnet Inc; CERTUSNET CORP
Current assignee: Beijing Certusnet Information Technology Co ltd; Guangdong Certusnet Information Technology Co ltd; Shanghai Certusnet Inc; CERTUSNET CORP
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-08-25

Abstract

本发明涉及一种基于编解码器结构实现钓鱼行为检测处理的方法，包括从视频监控系统中每隔一定时间抓取一幅高清图像并进行9个区块分割和尺寸归一化处理；每个区块图像输入到目标检测神经网络检测是否包含人像；对检测到人像的区块图像输入到编解码结构的语义分割网络进行鱼竿的语义分割检测；判断是否有区块图像检测到像素级分割的鱼竿且与人像的检测框存在重叠；判断是否存在钓鱼行为。本发明还涉及一种基于编解码器结构的语义分割网络系统。采用了本发明的基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统，不仅使具有长距离连续形状的强先验空间信息能在高层语义网络层的同层神经元上传播，而且增大了特征图的感受野，进一步增强对长距离上下文信息的捕获。

Description

基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统

技术领域

本发明涉及图像处理技术领域，尤其涉及深度神经网络技术领域，具体是指一种基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统。

背景技术

供电部门通常采用在靠近电力线路的水塘边安装视频监控设备，然后对视频监控图像进行智能分析，当图像智能分析系统检测到钓鱼行为时输出告警信号。

由于监控摄像头的监控景深、光照条件、监控图像背景复杂等因素，基于常规图像处理技术的智能视频分析系统对钓鱼行为的检测精度往往不高。

基于深度神经网络的目标检测技术应用于钓鱼行为检测是目前研究的热点，但是基于长方形边界框(Bounding Box)的目标检测网络如Fast-RCNN、YOLO等深度网络结构比较适合于检测紧凑的目标(如人、车等)，不适合检测边界框中具有低填充率的线状物体。由于钓鱼竿比较细长，在Bounding Box中占有极小的面积，使用Fast-RCNN、YOLO等深度神经网络进行目标检测时，依然不能很好地处理这种外观线索不多的具有强先验结构的目标，其对钓鱼竿的检测精度仍然不高，容易引起漏检和误检。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种满足检测精度高、操作简便、适用范围较为广泛的基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统。

为了实现上述目的，本发明的基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统如下：

该基于编解码器结构实现钓鱼行为检测处理的方法，其主要特点是，所述的方法包括以下步骤：

(1)从视频监控系统中每隔一定时间抓取一幅高清图像并进行9个区块分割和尺寸归一化处理；

(2)每个区块图像输入到目标检测神经网络检测是否包含人像；

(3)对检测到人像的区块图像输入到编解码结构的语义分割网络进行鱼竿的语义分割检测；

(4)判断是否有区块图像检测到像素级分割的鱼竿且与人像的检测框存在重叠，如果是，则继续步骤(5)；否则，继续步骤(1)；

(5)判断存在的钓鱼行为，继续步骤(1)。

较佳地，所述的步骤(1)具体包括以下步骤：

(1.1)从视频监控系统中每隔一定时间抓取一幅高清图像，分别按照行列方向进行9个区域的分割；

(1.2)将边界分割区域重叠划入相邻区块图像，将分割后的9个区块图像进行尺寸缩放归一化处理。

较佳地，所述的步骤(1.2)中统一区块图像大小为512×512像素。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)将每个区块图像输入到目标检测深度神经网络检测是否包含人像，丢弃没有检测到人像的区块图像；

(2.2)如果9个区块图像均未检测到人像，则返回步骤(1)继续抓取图像；如果区块图像检测到人像，则记下人像的检测矩形框坐标，继续步骤(3)。

较佳地，所述的步骤(3)具体包括以下步骤：

(3.1)将检测到人像的区块图像输入到基于编解码结构的语义分割网络，进行鱼竿的语义分割检测；

(3.2)判断区块图像是否检测到鱼竿，如果9个区块图像均未检测到鱼竿，则返回步骤(1)继续抓取图像；如果区块图像检测到鱼竿，则输出包含鱼竿的所有像素点坐标，继续步骤(4)。

较佳地，所述的步骤(4)具体包括以下步骤：

(4.1)对像素级分割出的鱼竿和检测到人像的矩形框进行重叠分析；

(4.2)判断落在人像的矩形框内的鱼竿像素点的数目是否大于阈值T，则存在钓鱼行为，继续步骤(5)；否则，没有钓鱼行为，继续判断其余区块图像；

(4.3)如果9个区块图像均未检测到钓鱼行为，则整幅图像没有检测到钓鱼行为，返回步骤(1)继续抓取图像进行检测。

较佳地，所述的步骤(5)具体为：

如果9个区块图像的任一区块图像检测到钓鱼行为，则整幅图像就判断为存在钓鱼行为，检测后继续步骤(1)，继续抓取图像进行检测。

该用于实现上述的方法的基于编解码器结构的语义分割网络系统，其主要特点是，所述的系统包括：

编码器网络，包括输入层、第一卷积层、第二卷积层、第三卷积层和第四卷积层，所述的输入层、第一卷积层、第二卷积层、第三卷积层和第四卷积层依次相连接，用于从原始图像提取特征；

解码器网络，包括空洞卷积层、空间卷积层、第一反卷积层、第二反卷积层和输出层，所述的空洞卷积层、空间卷积层、第一反卷积层、第二反卷积层和输出层依次相连接；所述的空洞卷积层的输入端与第四卷积层的输出端相连接。

较佳地，所述的第一卷积层、第二卷积层、第三卷积层和第四卷积层均由卷积核为3×3且步长为1的卷积通过批归一化、ReLU函数变换和最大值池化组成。

较佳地，所述的第一卷积层、第二卷积层和第三卷积层的下采样倍数为2，第四卷积层的下采样倍数为1。

较佳地，所述的空洞卷积层为卷积核为3×3且扩张率为2的空洞卷积，用于增大特征图感受野。

较佳地，所述的空间卷积层对空洞卷积层输出的特征图按通道数分成切片，并对每个切片分别按照特征图行和列进行从上到下、从下到上、从左到右和从右到左的卷积叠加，输出和空洞卷积层一样大小的特征图。

较佳地，所述的第一反卷积层采用卷积核为4×4且步长为2的卷积，其输出上采样倍数为2。

较佳地，所述的第二反卷积层采用卷积核为16×16且步长为4的卷积，其输出上采样倍数为4。

较佳地，所述的输出层经过1×1卷积核的变换后生成原始图像大小的二值语义分割图像，输出像素级的鱼竿二值图像。

采用了本发明的基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统，将空间卷积神经网络(Spatial CNN)应用于编解码结构的语义分割网络，使得“钓鱼竿”这种具有长距离连续形状的强先验空间信息能够在高层语义网络层的同层神经元上传播，比使用一般的卷积神经网络更能有效地识别“钓鱼竿”这种结构化对象，同时在解码器网络中使用一层空洞卷积层代替一般卷积层，又增大了特征图的感受野，从而进一步增强对长距离上下文信息的捕获。另外针对“钓鱼竿”细长且在图像中面积占比小的特点，如果直接对原始高清图像进行尺寸压缩后再处理极有可能会导致“钓鱼竿”像素点消失，本发明将原始高清图像分割成9幅区块图像进行分批检测，进一步减小了对钓鱼行为的漏检。最后本发明将检测到的像素级“钓鱼竿”区域与检测到的“人”的矩形框区域进行重叠分析，这样也进一步减小了对钓鱼行为的误检。

附图说明

图1为本发明的基于编解码器结构实现钓鱼行为检测处理的方法的流程图。

图2为本发明的基于编解码器结构的语义分割网络系统的组成框图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该基于编解码器结构实现钓鱼行为检测处理的方法，其中包括以下步骤：

(1.2)将边界分割区域重叠划入相邻区块图像，将分割后的9个区块图像进行尺寸缩放归一化处理；

(2.2)如果9个区块图像均未检测到人像，则返回步骤(1)继续抓取图像；如果区块图像检测到人像，则记下人像的检测矩形框坐标，继续步骤(3)；

(3.2)判断区块图像是否检测到鱼竿，如果9个区块图像均未检测到鱼竿，则返回步骤(1)继续抓取图像；如果区块图像检测到鱼竿，则输出包含鱼竿的所有像素点坐标，继续步骤(4)；

(4.3)如果9个区块图像均未检测到钓鱼行为，则整幅图像没有检测到钓鱼行为，返回步骤(1)继续抓取图像进行检测；

(5)判断存在的钓鱼行为，继续步骤(1)。

作为本发明的优选实施方式，所述的步骤(1.2)中统一区块图像大小为512×512像素。

作为本发明的优选实施方式，所述的步骤(5)具体为：

本发明的该用于实现上述的方法的基于编解码器结构的语义分割网络系统，其中包括：

作为本发明的优选实施方式，所述的第一卷积层、第二卷积层、第三卷积层和第四卷积层均由卷积核为3×3且步长为1的卷积通过批归一化、ReLU函数变换和最大值池化组成。

作为本发明的优选实施方式，所述的第一卷积层、第二卷积层和第三卷积层的下采样倍数为2，第四卷积层的下采样倍数为1。

作为本发明的优选实施方式，所述的空洞卷积层为卷积核为3×3且扩张率为2的空洞卷积，用于增大特征图感受野。

作为本发明的优选实施方式，所述的空间卷积层对空洞卷积层输出的特征图按通道数分成切片，并对每个切片分别按照特征图行和列进行从上到下、从下到上、从左到右和从右到左的卷积叠加，输出和空洞卷积层一样大小的特征图。

作为本发明的优选实施方式，所述的第一反卷积层采用卷积核为4×4且步长为2的卷积，其输出上采样倍数为2。

作为本发明的优选实施方式，所述的第二反卷积层采用卷积核为16×16且步长为4的卷积，其输出上采样倍数为4。

作为本发明的优选实施方式，所述的输出层经过1×1卷积核的变换后生成原始图像大小的二值语义分割图像，输出像素级的鱼竿二值图像。

本发明的具体实施方式中，本发明克服现有技术的缺点，将空间卷积神经网络(SpatialCNN)应用于编解码结构的语义分割网络中，提供一种精确的钓鱼行为检测方法。

本发明设计一种编解码结构的语义分割深度卷积神经网络，其由编码器网络和解码器网络构成。编码器网络由4个卷积层组成，其每个卷积层都包含卷积、批归一化(BN)、ReLU函数变换和最大值池化(MaxPool)，编码器网络完成从原始图像提取特征的功能。解码器网络包含1个空洞卷积层、1个空间卷积层(Spatial CNN)、2个反卷积层和1个输出层，解码器网络中先利用空洞卷积层增大特征图的感受野，以利于捕捉长距离的上下文信息，然后利用空间卷积层将特征图的行和列分别作卷积和非线性激活操作，进一步增强空间信息的特征提取进而能有效地识别结构化对象，再利用2个反卷积层完成特征图解码变换和上采样，最后输出层经过1×1卷积核的变换后生成原始图像大小的二值语义分割图像。通过标注含钓鱼竿图像样本进行训练后，保存以上编解码结构的语义分割深度卷积神经网络模型参数。每隔一段时间采集水塘边视频监控设备中的一幅高清图像，将高清图像分割成3×3＝9幅区块图像并进行尺寸归一化处理，对每个区块图像首先输入到Faster-RCNN网络进行“人”的目标检测，丢弃没有“人”的图像，对检测出含“人”的图像输入到编解码结构的语义分割深度卷积神经网络进行“钓鱼竿”的语义检测，丢弃没有“钓鱼竿”的图像，对检测到“钓鱼竿”的图像计算“钓鱼竿”区域是否与“人”的检测矩形框存在重叠，如果存在重叠，则判断区块图像上检测到钓鱼行为，当9幅区块图像中只要有一幅区块图像检测到钓鱼行为时，则判断整幅图像上检测到钓鱼行为，当9幅区块图像中没有一幅区块图像检测到钓鱼行为时，则判断整幅图像上没有检测到钓鱼行为。

本发明将空间卷积神经网络(Spatial CNN)应用于编解码结构的语义分割网络，使得“钓鱼竿”这种具有长距离连续形状的强先验空间信息能够在高层语义网络层的同层神经元上传播，比使用一般的卷积神经网络更能有效地识别“钓鱼竿”这种结构化对象，同时在解码器网络中使用一层空洞卷积层代替一般卷积层，又增大了特征图的感受野，从而进一步增强对长距离上下文信息的捕获。另外针对“鱼竿”细长且在图像中面积占比小的特点，如果直接对原始高清图像进行尺寸压缩后再处理极有可能会导致“钓鱼竿”像素点消失，本发明将原始高清图像分割成9幅区块图像进行分批检测，进一步减小了对钓鱼行为的漏检。最后本发明将检测到的像素级“钓鱼竿”区域与检测到的“人”的矩形框区域进行重叠分析，这样也进一步减小了对钓鱼行为的误检。

如图1所示为基于编解码结构的钓鱼行为检测总流程图。图1中101模块，首先从视频监控系统中每隔一定时间抓取一幅高清图像，分别按照行列方向进行3×3＝9个区域的分割，为了避免检测目标正好位于分割线上，需要将边界分割区域重叠划入相邻区块图像，将分割后的9个区块图像进行尺寸缩放归一化处理，统一区块图像大小为512×512像素。

图1中102模块，将101模块中的每个区块图像输入到目标检测深度神经网络Faster-RCNN进行“人”的检测，丢弃没有检测到“人”的区块图像，如果9个区块图像都没有检测到人，则返回到101模块继续抓取图像；如果区块图像检测到“人”，则记下“人”的检测矩形框坐标，进入103模块。

图1中103模块，将检测到“人”的区块图像输入到基于编解码结构的语义分割网络进行“鱼竿”的语义分割检测，如果9个区块图像都没有检测到“鱼竿”，则返回到101模块继续抓取图像；如果区块图像检测到“鱼竿”，则输出包含“鱼竿”的所有像素点坐标，进入到104模块。

图1中104模块，对像素级分割出的“鱼竿”和检测到的“人”的矩形框进行重叠分析，如果落在“人”的矩形框内的“鱼竿”像素点的数目大于阈值T时，则判断存在钓鱼行为，进入到105模块；否则判断没有钓鱼行为。如果9个区块图像没有一个区块图像检测到钓鱼行为，则整幅图像就判断为没有检测到钓鱼行为，返回到101模块继续抓取图像进行检测。

图1中105模块，对9个区块图像，只要判断有一个区块图像检测到钓鱼行为，则整幅图像就判断为存在钓鱼行为，检测完成后返回到101模块继续抓取图像进行检测。

其中103模块中对“鱼竿”进行像素级语义分割的基于编解码结构的语义分割网络是本发明的核心。

如图2所示为本发明设计的基于编解码结构的语义分割网络的组成框图。基于编解码结构的语义分割深度卷积神经网络由编码器网络和解码器网络构成。

编码器网络由输入层和4个卷积层组成，编码器网络完成从原始图像提取特征的功能。

输入层输入512×512像素X3通道的尺寸归一化的区块图像。

第一卷积层、第二卷积层、第三卷积层和第四卷积层都由卷积核为3×3、步长为1的卷积，批归一化(BN)，ReLU函数变换和最大值池化(MaxPool)组成，其中第一卷积层、第二卷积层、第三卷积层的下采样倍数为2，第四卷积层的下采样倍数为1，这样编码器输出特征图的总的下采样倍数为8。

解码器网络包含空洞卷积层、空间卷积层(Spatial CNN)、第一反卷积层、第二反卷积层和1个输出层。

空洞卷积层是卷积核为3×3扩张率为2的空洞卷积，空洞卷积层起增大特征图感受野的作用，从而有利于捕捉“鱼竿”长距离的上下文信息。

空间卷积层对空洞卷积层输出的特征图按通道数分成切片，然后对每个切片分别按照特征图行和列进行从上到下、从下到上、从左到右和从右到左的卷积叠加，最后输出和空洞卷积层一样大小的特征图。通过空间卷积后进一步增强空间信息的特征提取进而能有效地识别“鱼竿”结构化对象。

第一反卷积层采用卷积核为4×4，步长为2的卷积，输出上采样倍数为2。

第二反卷积层采用卷积核为16×16，步长为4的卷积，输出上采样倍数为4。2个反卷积层完成特征图解码变换和8倍上采样。

输出层经过1×1卷积核的变换后生成原始图像大小的二值语义分割图像，最后输出像素级的“鱼竿”二值图像。

以上基于编解码结构的语义分割深度卷积神经网络模型参数通过收集钓鱼样本图像经过训练学习所得。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于编解码器结构实现钓鱼行为检测处理的方法，其特征在于，所述的方法包括以下步骤：

(5)判断存在的钓鱼行为，继续步骤(1)。

2.根据权利要求1所述的基于编解码器结构实现钓鱼行为检测处理的方法，其特征在于，所述的步骤(1)具体包括以下步骤：

3.根据权利要求2所述的基于编解码器结构实现钓鱼行为检测处理的方法，其特征在于，所述的步骤(1.2)中统一区块图像大小为512×512像素。

4.根据权利要求1所述的基于编解码器结构实现钓鱼行为检测处理的方法，其特征在于，所述的步骤(2)具体包括以下步骤：

5.根据权利要求1所述的基于编解码器结构实现钓鱼行为检测处理的方法，其特征在于，所述的步骤(3)具体包括以下步骤：

6.根据权利要求1所述的基于编解码器结构实现钓鱼行为检测处理的方法，其特征在于，所述的步骤(4)具体包括以下步骤：

7.根据权利要求1所述的基于编解码器结构实现钓鱼行为检测处理的方法，其特征在于，所述的步骤(5)具体为：

8.一种用于实现权利要求1所述的方法的基于编解码器结构的语义分割网络系统，其特征在于，所述的系统包括：

9.根据权利要求8所述的基于编解码器结构的语义分割网络系统，其特征在于，所述的第一卷积层、第二卷积层、第三卷积层和第四卷积层均由卷积核为3×3且步长为1的卷积通过批归一化、ReLU函数变换和最大值池化组成。

10.根据权利要求9所述的基于编解码器结构的语义分割网络系统，其特征在于，所述的第一卷积层、第二卷积层和第三卷积层的下采样倍数为2，第四卷积层的下采样倍数为1。

11.根据权利要求8所述的基于编解码器结构的语义分割网络系统，其特征在于，所述的空洞卷积层为卷积核为3×3且扩张率为2的空洞卷积，用于增大特征图感受野。

12.根据权利要求8所述的基于编解码器结构的语义分割网络系统，其特征在于，所述的空间卷积层对空洞卷积层输出的特征图按通道数分成切片，并对每个切片分别按照特征图行和列进行从上到下、从下到上、从左到右和从右到左的卷积叠加，输出和空洞卷积层一样大小的特征图。

13.根据权利要求8所述的基于编解码器结构的语义分割网络系统，其特征在于，所述的第一反卷积层采用卷积核为4×4且步长为2的卷积，其输出上采样倍数为2。

14.根据权利要求8所述的基于编解码器结构的语义分割网络系统，其特征在于，所述的第二反卷积层采用卷积核为16×16且步长为4的卷积，其输出上采样倍数为4。

15.根据权利要求8所述的基于编解码器结构的语义分割网络系统，其特征在于，所述的输出层经过1×1卷积核的变换后生成原始图像大小的二值语义分割图像，输出像素级的鱼竿二值图像。