CN111583265A - 基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统 - Google Patents
基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统 Download PDFInfo
- Publication number
- CN111583265A CN111583265A CN202010377760.XA CN202010377760A CN111583265A CN 111583265 A CN111583265 A CN 111583265A CN 202010377760 A CN202010377760 A CN 202010377760A CN 111583265 A CN111583265 A CN 111583265A
- Authority
- CN
- China
- Prior art keywords
- layer
- image
- convolution
- semantic segmentation
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 75
- 230000011218 segmentation Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 title claims abstract description 23
- 230000006399 behavior Effects 0.000 claims abstract description 62
- 238000010606 normalization Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000012544 monitoring process Methods 0.000 claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 abstract description 7
- 210000002569 neuron Anatomy 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于编解码器结构实现钓鱼行为检测处理的方法,包括从视频监控系统中每隔一定时间抓取一幅高清图像并进行9个区块分割和尺寸归一化处理;每个区块图像输入到目标检测神经网络检测是否包含人像;对检测到人像的区块图像输入到编解码结构的语义分割网络进行鱼竿的语义分割检测;判断是否有区块图像检测到像素级分割的鱼竿且与人像的检测框存在重叠;判断是否存在钓鱼行为。本发明还涉及一种基于编解码器结构的语义分割网络系统。采用了本发明的基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统,不仅使具有长距离连续形状的强先验空间信息能在高层语义网络层的同层神经元上传播,而且增大了特征图的感受野,进一步增强对长距离上下文信息的捕获。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及深度神经网络技术领域,具体是指一种基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统。
背景技术
供电部门通常采用在靠近电力线路的水塘边安装视频监控设备,然后对视频监控图像进行智能分析,当图像智能分析系统检测到钓鱼行为时输出告警信号。
由于监控摄像头的监控景深、光照条件、监控图像背景复杂等因素,基于常规图像处理技术的智能视频分析系统对钓鱼行为的检测精度往往不高。
基于深度神经网络的目标检测技术应用于钓鱼行为检测是目前研究的热点,但是基于长方形边界框(Bounding Box)的目标检测网络如Fast-RCNN、YOLO等深度网络结构比较适合于检测紧凑的目标(如人、车等),不适合检测边界框中具有低填充率的线状物体。由于钓鱼竿比较细长,在Bounding Box中占有极小的面积,使用Fast-RCNN、YOLO等深度神经网络进行目标检测时,依然不能很好地处理这种外观线索不多的具有强先验结构的目标,其对钓鱼竿的检测精度仍然不高,容易引起漏检和误检。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足检测精度高、操作简便、适用范围较为广泛的基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统。
为了实现上述目的,本发明的基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统如下:
该基于编解码器结构实现钓鱼行为检测处理的方法,其主要特点是,所述的方法包括以下步骤:
(1)从视频监控系统中每隔一定时间抓取一幅高清图像并进行9个区块分割和尺寸归一化处理;
(2)每个区块图像输入到目标检测神经网络检测是否包含人像;
(3)对检测到人像的区块图像输入到编解码结构的语义分割网络进行鱼竿的语义分割检测;
(4)判断是否有区块图像检测到像素级分割的鱼竿且与人像的检测框存在重叠,如果是,则继续步骤(5);否则,继续步骤(1);
(5)判断存在的钓鱼行为,继续步骤(1)。
较佳地,所述的步骤(1)具体包括以下步骤:
(1.1)从视频监控系统中每隔一定时间抓取一幅高清图像,分别按照行列方向进行9个区域的分割;
(1.2)将边界分割区域重叠划入相邻区块图像,将分割后的9个区块图像进行尺寸缩放归一化处理。
较佳地,所述的步骤(1.2)中统一区块图像大小为512×512像素。
较佳地,所述的步骤(2)具体包括以下步骤:
(2.1)将每个区块图像输入到目标检测深度神经网络检测是否包含人像,丢弃没有检测到人像的区块图像;
(2.2)如果9个区块图像均未检测到人像,则返回步骤(1)继续抓取图像;如果区块图像检测到人像,则记下人像的检测矩形框坐标,继续步骤(3)。
较佳地,所述的步骤(3)具体包括以下步骤:
(3.1)将检测到人像的区块图像输入到基于编解码结构的语义分割网络,进行鱼竿的语义分割检测;
(3.2)判断区块图像是否检测到鱼竿,如果9个区块图像均未检测到鱼竿,则返回步骤(1)继续抓取图像;如果区块图像检测到鱼竿,则输出包含鱼竿的所有像素点坐标,继续步骤(4)。
较佳地,所述的步骤(4)具体包括以下步骤:
(4.1)对像素级分割出的鱼竿和检测到人像的矩形框进行重叠分析;
(4.2)判断落在人像的矩形框内的鱼竿像素点的数目是否大于阈值T,则存在钓鱼行为,继续步骤(5);否则,没有钓鱼行为,继续判断其余区块图像;
(4.3)如果9个区块图像均未检测到钓鱼行为,则整幅图像没有检测到钓鱼行为,返回步骤(1)继续抓取图像进行检测。
较佳地,所述的步骤(5)具体为:
如果9个区块图像的任一区块图像检测到钓鱼行为,则整幅图像就判断为存在钓鱼行为,检测后继续步骤(1),继续抓取图像进行检测。
该用于实现上述的方法的基于编解码器结构的语义分割网络系统,其主要特点是,所述的系统包括:
编码器网络,包括输入层、第一卷积层、第二卷积层、第三卷积层和第四卷积层,所述的输入层、第一卷积层、第二卷积层、第三卷积层和第四卷积层依次相连接,用于从原始图像提取特征;
解码器网络,包括空洞卷积层、空间卷积层、第一反卷积层、第二反卷积层和输出层,所述的空洞卷积层、空间卷积层、第一反卷积层、第二反卷积层和输出层依次相连接;所述的空洞卷积层的输入端与第四卷积层的输出端相连接。
较佳地,所述的第一卷积层、第二卷积层、第三卷积层和第四卷积层均由卷积核为3×3且步长为1的卷积通过批归一化、ReLU函数变换和最大值池化组成。
较佳地,所述的第一卷积层、第二卷积层和第三卷积层的下采样倍数为2,第四卷积层的下采样倍数为1。
较佳地,所述的空洞卷积层为卷积核为3×3且扩张率为2的空洞卷积,用于增大特征图感受野。
较佳地,所述的空间卷积层对空洞卷积层输出的特征图按通道数分成切片,并对每个切片分别按照特征图行和列进行从上到下、从下到上、从左到右和从右到左的卷积叠加,输出和空洞卷积层一样大小的特征图。
较佳地,所述的第一反卷积层采用卷积核为4×4且步长为2的卷积,其输出上采样倍数为2。
较佳地,所述的第二反卷积层采用卷积核为16×16且步长为4的卷积,其输出上采样倍数为4。
较佳地,所述的输出层经过1×1卷积核的变换后生成原始图像大小的二值语义分割图像,输出像素级的鱼竿二值图像。
采用了本发明的基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统,将空间卷积神经网络(Spatial CNN)应用于编解码结构的语义分割网络,使得“钓鱼竿”这种具有长距离连续形状的强先验空间信息能够在高层语义网络层的同层神经元上传播,比使用一般的卷积神经网络更能有效地识别“钓鱼竿”这种结构化对象,同时在解码器网络中使用一层空洞卷积层代替一般卷积层,又增大了特征图的感受野,从而进一步增强对长距离上下文信息的捕获。另外针对“钓鱼竿”细长且在图像中面积占比小的特点,如果直接对原始高清图像进行尺寸压缩后再处理极有可能会导致“钓鱼竿”像素点消失,本发明将原始高清图像分割成9幅区块图像进行分批检测,进一步减小了对钓鱼行为的漏检。最后本发明将检测到的像素级“钓鱼竿”区域与检测到的“人”的矩形框区域进行重叠分析,这样也进一步减小了对钓鱼行为的误检。
附图说明
图1为本发明的基于编解码器结构实现钓鱼行为检测处理的方法的流程图。
图2为本发明的基于编解码器结构的语义分割网络系统的组成框图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该基于编解码器结构实现钓鱼行为检测处理的方法,其中包括以下步骤:
(1)从视频监控系统中每隔一定时间抓取一幅高清图像并进行9个区块分割和尺寸归一化处理;
(1.1)从视频监控系统中每隔一定时间抓取一幅高清图像,分别按照行列方向进行9个区域的分割;
(1.2)将边界分割区域重叠划入相邻区块图像,将分割后的9个区块图像进行尺寸缩放归一化处理;
(2)每个区块图像输入到目标检测神经网络检测是否包含人像;
(2.1)将每个区块图像输入到目标检测深度神经网络检测是否包含人像,丢弃没有检测到人像的区块图像;
(2.2)如果9个区块图像均未检测到人像,则返回步骤(1)继续抓取图像;如果区块图像检测到人像,则记下人像的检测矩形框坐标,继续步骤(3);
(3)对检测到人像的区块图像输入到编解码结构的语义分割网络进行鱼竿的语义分割检测;
(3.1)将检测到人像的区块图像输入到基于编解码结构的语义分割网络,进行鱼竿的语义分割检测;
(3.2)判断区块图像是否检测到鱼竿,如果9个区块图像均未检测到鱼竿,则返回步骤(1)继续抓取图像;如果区块图像检测到鱼竿,则输出包含鱼竿的所有像素点坐标,继续步骤(4);
(4)判断是否有区块图像检测到像素级分割的鱼竿且与人像的检测框存在重叠,如果是,则继续步骤(5);否则,继续步骤(1);
(4.1)对像素级分割出的鱼竿和检测到人像的矩形框进行重叠分析;
(4.2)判断落在人像的矩形框内的鱼竿像素点的数目是否大于阈值T,则存在钓鱼行为,继续步骤(5);否则,没有钓鱼行为,继续判断其余区块图像;
(4.3)如果9个区块图像均未检测到钓鱼行为,则整幅图像没有检测到钓鱼行为,返回步骤(1)继续抓取图像进行检测;
(5)判断存在的钓鱼行为,继续步骤(1)。
作为本发明的优选实施方式,所述的步骤(1.2)中统一区块图像大小为512×512像素。
作为本发明的优选实施方式,所述的步骤(5)具体为:
如果9个区块图像的任一区块图像检测到钓鱼行为,则整幅图像就判断为存在钓鱼行为,检测后继续步骤(1),继续抓取图像进行检测。
本发明的该用于实现上述的方法的基于编解码器结构的语义分割网络系统,其中包括:
编码器网络,包括输入层、第一卷积层、第二卷积层、第三卷积层和第四卷积层,所述的输入层、第一卷积层、第二卷积层、第三卷积层和第四卷积层依次相连接,用于从原始图像提取特征;
解码器网络,包括空洞卷积层、空间卷积层、第一反卷积层、第二反卷积层和输出层,所述的空洞卷积层、空间卷积层、第一反卷积层、第二反卷积层和输出层依次相连接;所述的空洞卷积层的输入端与第四卷积层的输出端相连接。
作为本发明的优选实施方式,所述的第一卷积层、第二卷积层、第三卷积层和第四卷积层均由卷积核为3×3且步长为1的卷积通过批归一化、ReLU函数变换和最大值池化组成。
作为本发明的优选实施方式,所述的第一卷积层、第二卷积层和第三卷积层的下采样倍数为2,第四卷积层的下采样倍数为1。
作为本发明的优选实施方式,所述的空洞卷积层为卷积核为3×3且扩张率为2的空洞卷积,用于增大特征图感受野。
作为本发明的优选实施方式,所述的空间卷积层对空洞卷积层输出的特征图按通道数分成切片,并对每个切片分别按照特征图行和列进行从上到下、从下到上、从左到右和从右到左的卷积叠加,输出和空洞卷积层一样大小的特征图。
作为本发明的优选实施方式,所述的第一反卷积层采用卷积核为4×4且步长为2的卷积,其输出上采样倍数为2。
作为本发明的优选实施方式,所述的第二反卷积层采用卷积核为16×16且步长为4的卷积,其输出上采样倍数为4。
作为本发明的优选实施方式,所述的输出层经过1×1卷积核的变换后生成原始图像大小的二值语义分割图像,输出像素级的鱼竿二值图像。
本发明的具体实施方式中,本发明克服现有技术的缺点,将空间卷积神经网络(SpatialCNN)应用于编解码结构的语义分割网络中,提供一种精确的钓鱼行为检测方法。
本发明设计一种编解码结构的语义分割深度卷积神经网络,其由编码器网络和解码器网络构成。编码器网络由4个卷积层组成,其每个卷积层都包含卷积、批归一化(BN)、ReLU函数变换和最大值池化(MaxPool),编码器网络完成从原始图像提取特征的功能。解码器网络包含1个空洞卷积层、1个空间卷积层(Spatial CNN)、2个反卷积层和1个输出层,解码器网络中先利用空洞卷积层增大特征图的感受野,以利于捕捉长距离的上下文信息,然后利用空间卷积层将特征图的行和列分别作卷积和非线性激活操作,进一步增强空间信息的特征提取进而能有效地识别结构化对象,再利用2个反卷积层完成特征图解码变换和上采样,最后输出层经过1×1卷积核的变换后生成原始图像大小的二值语义分割图像。通过标注含钓鱼竿图像样本进行训练后,保存以上编解码结构的语义分割深度卷积神经网络模型参数。每隔一段时间采集水塘边视频监控设备中的一幅高清图像,将高清图像分割成3×3=9幅区块图像并进行尺寸归一化处理,对每个区块图像首先输入到Faster-RCNN网络进行“人”的目标检测,丢弃没有“人”的图像,对检测出含“人”的图像输入到编解码结构的语义分割深度卷积神经网络进行“钓鱼竿”的语义检测,丢弃没有“钓鱼竿”的图像,对检测到“钓鱼竿”的图像计算“钓鱼竿”区域是否与“人”的检测矩形框存在重叠,如果存在重叠,则判断区块图像上检测到钓鱼行为,当9幅区块图像中只要有一幅区块图像检测到钓鱼行为时,则判断整幅图像上检测到钓鱼行为,当9幅区块图像中没有一幅区块图像检测到钓鱼行为时,则判断整幅图像上没有检测到钓鱼行为。
本发明将空间卷积神经网络(Spatial CNN)应用于编解码结构的语义分割网络,使得“钓鱼竿”这种具有长距离连续形状的强先验空间信息能够在高层语义网络层的同层神经元上传播,比使用一般的卷积神经网络更能有效地识别“钓鱼竿”这种结构化对象,同时在解码器网络中使用一层空洞卷积层代替一般卷积层,又增大了特征图的感受野,从而进一步增强对长距离上下文信息的捕获。另外针对“鱼竿”细长且在图像中面积占比小的特点,如果直接对原始高清图像进行尺寸压缩后再处理极有可能会导致“钓鱼竿”像素点消失,本发明将原始高清图像分割成9幅区块图像进行分批检测,进一步减小了对钓鱼行为的漏检。最后本发明将检测到的像素级“钓鱼竿”区域与检测到的“人”的矩形框区域进行重叠分析,这样也进一步减小了对钓鱼行为的误检。
如图1所示为基于编解码结构的钓鱼行为检测总流程图。图1中101模块,首先从视频监控系统中每隔一定时间抓取一幅高清图像,分别按照行列方向进行3×3=9个区域的分割,为了避免检测目标正好位于分割线上,需要将边界分割区域重叠划入相邻区块图像,将分割后的9个区块图像进行尺寸缩放归一化处理,统一区块图像大小为512×512像素。
图1中102模块,将101模块中的每个区块图像输入到目标检测深度神经网络Faster-RCNN进行“人”的检测,丢弃没有检测到“人”的区块图像,如果9个区块图像都没有检测到人,则返回到101模块继续抓取图像;如果区块图像检测到“人”,则记下“人”的检测矩形框坐标,进入103模块。
图1中103模块,将检测到“人”的区块图像输入到基于编解码结构的语义分割网络进行“鱼竿”的语义分割检测,如果9个区块图像都没有检测到“鱼竿”,则返回到101模块继续抓取图像;如果区块图像检测到“鱼竿”,则输出包含“鱼竿”的所有像素点坐标,进入到104模块。
图1中104模块,对像素级分割出的“鱼竿”和检测到的“人”的矩形框进行重叠分析,如果落在“人”的矩形框内的“鱼竿”像素点的数目大于阈值T时,则判断存在钓鱼行为,进入到105模块;否则判断没有钓鱼行为。如果9个区块图像没有一个区块图像检测到钓鱼行为,则整幅图像就判断为没有检测到钓鱼行为,返回到101模块继续抓取图像进行检测。
图1中105模块,对9个区块图像,只要判断有一个区块图像检测到钓鱼行为,则整幅图像就判断为存在钓鱼行为,检测完成后返回到101模块继续抓取图像进行检测。
其中103模块中对“鱼竿”进行像素级语义分割的基于编解码结构的语义分割网络是本发明的核心。
如图2所示为本发明设计的基于编解码结构的语义分割网络的组成框图。基于编解码结构的语义分割深度卷积神经网络由编码器网络和解码器网络构成。
编码器网络由输入层和4个卷积层组成,编码器网络完成从原始图像提取特征的功能。
输入层输入512×512像素X3通道的尺寸归一化的区块图像。
第一卷积层、第二卷积层、第三卷积层和第四卷积层都由卷积核为3×3、步长为1的卷积,批归一化(BN),ReLU函数变换和最大值池化(MaxPool)组成,其中第一卷积层、第二卷积层、第三卷积层的下采样倍数为2,第四卷积层的下采样倍数为1,这样编码器输出特征图的总的下采样倍数为8。
解码器网络包含空洞卷积层、空间卷积层(Spatial CNN)、第一反卷积层、第二反卷积层和1个输出层。
空洞卷积层是卷积核为3×3扩张率为2的空洞卷积,空洞卷积层起增大特征图感受野的作用,从而有利于捕捉“鱼竿”长距离的上下文信息。
空间卷积层对空洞卷积层输出的特征图按通道数分成切片,然后对每个切片分别按照特征图行和列进行从上到下、从下到上、从左到右和从右到左的卷积叠加,最后输出和空洞卷积层一样大小的特征图。通过空间卷积后进一步增强空间信息的特征提取进而能有效地识别“鱼竿”结构化对象。
第一反卷积层采用卷积核为4×4,步长为2的卷积,输出上采样倍数为2。
第二反卷积层采用卷积核为16×16,步长为4的卷积,输出上采样倍数为4。2个反卷积层完成特征图解码变换和8倍上采样。
输出层经过1×1卷积核的变换后生成原始图像大小的二值语义分割图像,最后输出像素级的“鱼竿”二值图像。
以上基于编解码结构的语义分割深度卷积神经网络模型参数通过收集钓鱼样本图像经过训练学习所得。
采用了本发明的基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统,将空间卷积神经网络(Spatial CNN)应用于编解码结构的语义分割网络,使得“钓鱼竿”这种具有长距离连续形状的强先验空间信息能够在高层语义网络层的同层神经元上传播,比使用一般的卷积神经网络更能有效地识别“钓鱼竿”这种结构化对象,同时在解码器网络中使用一层空洞卷积层代替一般卷积层,又增大了特征图的感受野,从而进一步增强对长距离上下文信息的捕获。另外针对“钓鱼竿”细长且在图像中面积占比小的特点,如果直接对原始高清图像进行尺寸压缩后再处理极有可能会导致“钓鱼竿”像素点消失,本发明将原始高清图像分割成9幅区块图像进行分批检测,进一步减小了对钓鱼行为的漏检。最后本发明将检测到的像素级“钓鱼竿”区域与检测到的“人”的矩形框区域进行重叠分析,这样也进一步减小了对钓鱼行为的误检。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (15)
1.一种基于编解码器结构实现钓鱼行为检测处理的方法,其特征在于,所述的方法包括以下步骤:
(1)从视频监控系统中每隔一定时间抓取一幅高清图像并进行9个区块分割和尺寸归一化处理;
(2)每个区块图像输入到目标检测神经网络检测是否包含人像;
(3)对检测到人像的区块图像输入到编解码结构的语义分割网络进行鱼竿的语义分割检测;
(4)判断是否有区块图像检测到像素级分割的鱼竿且与人像的检测框存在重叠,如果是,则继续步骤(5);否则,继续步骤(1);
(5)判断存在的钓鱼行为,继续步骤(1)。
2.根据权利要求1所述的基于编解码器结构实现钓鱼行为检测处理的方法,其特征在于,所述的步骤(1)具体包括以下步骤:
(1.1)从视频监控系统中每隔一定时间抓取一幅高清图像,分别按照行列方向进行9个区域的分割;
(1.2)将边界分割区域重叠划入相邻区块图像,将分割后的9个区块图像进行尺寸缩放归一化处理。
3.根据权利要求2所述的基于编解码器结构实现钓鱼行为检测处理的方法,其特征在于,所述的步骤(1.2)中统一区块图像大小为512×512像素。
4.根据权利要求1所述的基于编解码器结构实现钓鱼行为检测处理的方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)将每个区块图像输入到目标检测深度神经网络检测是否包含人像,丢弃没有检测到人像的区块图像;
(2.2)如果9个区块图像均未检测到人像,则返回步骤(1)继续抓取图像;如果区块图像检测到人像,则记下人像的检测矩形框坐标,继续步骤(3)。
5.根据权利要求1所述的基于编解码器结构实现钓鱼行为检测处理的方法,其特征在于,所述的步骤(3)具体包括以下步骤:
(3.1)将检测到人像的区块图像输入到基于编解码结构的语义分割网络,进行鱼竿的语义分割检测;
(3.2)判断区块图像是否检测到鱼竿,如果9个区块图像均未检测到鱼竿,则返回步骤(1)继续抓取图像;如果区块图像检测到鱼竿,则输出包含鱼竿的所有像素点坐标,继续步骤(4)。
6.根据权利要求1所述的基于编解码器结构实现钓鱼行为检测处理的方法,其特征在于,所述的步骤(4)具体包括以下步骤:
(4.1)对像素级分割出的鱼竿和检测到人像的矩形框进行重叠分析;
(4.2)判断落在人像的矩形框内的鱼竿像素点的数目是否大于阈值T,则存在钓鱼行为,继续步骤(5);否则,没有钓鱼行为,继续判断其余区块图像;
(4.3)如果9个区块图像均未检测到钓鱼行为,则整幅图像没有检测到钓鱼行为,返回步骤(1)继续抓取图像进行检测。
7.根据权利要求1所述的基于编解码器结构实现钓鱼行为检测处理的方法,其特征在于,所述的步骤(5)具体为:
如果9个区块图像的任一区块图像检测到钓鱼行为,则整幅图像就判断为存在钓鱼行为,检测后继续步骤(1),继续抓取图像进行检测。
8.一种用于实现权利要求1所述的方法的基于编解码器结构的语义分割网络系统,其特征在于,所述的系统包括:
编码器网络,包括输入层、第一卷积层、第二卷积层、第三卷积层和第四卷积层,所述的输入层、第一卷积层、第二卷积层、第三卷积层和第四卷积层依次相连接,用于从原始图像提取特征;
解码器网络,包括空洞卷积层、空间卷积层、第一反卷积层、第二反卷积层和输出层,所述的空洞卷积层、空间卷积层、第一反卷积层、第二反卷积层和输出层依次相连接;所述的空洞卷积层的输入端与第四卷积层的输出端相连接。
9.根据权利要求8所述的基于编解码器结构的语义分割网络系统,其特征在于,所述的第一卷积层、第二卷积层、第三卷积层和第四卷积层均由卷积核为3×3且步长为1的卷积通过批归一化、ReLU函数变换和最大值池化组成。
10.根据权利要求9所述的基于编解码器结构的语义分割网络系统,其特征在于,所述的第一卷积层、第二卷积层和第三卷积层的下采样倍数为2,第四卷积层的下采样倍数为1。
11.根据权利要求8所述的基于编解码器结构的语义分割网络系统,其特征在于,所述的空洞卷积层为卷积核为3×3且扩张率为2的空洞卷积,用于增大特征图感受野。
12.根据权利要求8所述的基于编解码器结构的语义分割网络系统,其特征在于,所述的空间卷积层对空洞卷积层输出的特征图按通道数分成切片,并对每个切片分别按照特征图行和列进行从上到下、从下到上、从左到右和从右到左的卷积叠加,输出和空洞卷积层一样大小的特征图。
13.根据权利要求8所述的基于编解码器结构的语义分割网络系统,其特征在于,所述的第一反卷积层采用卷积核为4×4且步长为2的卷积,其输出上采样倍数为2。
14.根据权利要求8所述的基于编解码器结构的语义分割网络系统,其特征在于,所述的第二反卷积层采用卷积核为16×16且步长为4的卷积,其输出上采样倍数为4。
15.根据权利要求8所述的基于编解码器结构的语义分割网络系统,其特征在于,所述的输出层经过1×1卷积核的变换后生成原始图像大小的二值语义分割图像,输出像素级的鱼竿二值图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010377760.XA CN111583265A (zh) | 2020-05-07 | 2020-05-07 | 基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010377760.XA CN111583265A (zh) | 2020-05-07 | 2020-05-07 | 基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111583265A true CN111583265A (zh) | 2020-08-25 |
Family
ID=72117000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010377760.XA Pending CN111583265A (zh) | 2020-05-07 | 2020-05-07 | 基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583265A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763362A (zh) * | 2021-09-09 | 2021-12-07 | 无锡联友塑业有限公司 | 水下图像智能检测处理系统 |
CN115240278A (zh) * | 2022-09-23 | 2022-10-25 | 东莞先知大数据有限公司 | 钓鱼行为检测方法 |
CN115410280A (zh) * | 2022-11-03 | 2022-11-29 | 合肥中科类脑智能技术有限公司 | 一种基于人体朝向判断的钓鱼行为检测方法 |
CN115497030A (zh) * | 2022-10-27 | 2022-12-20 | 中国水利水电科学研究院 | 一种基于深度学习的钓鱼行为识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845396A (zh) * | 2017-01-18 | 2017-06-13 | 南京理工大学 | 基于自动图像识别的非法钓鱼行为识别方法 |
CN109040693A (zh) * | 2018-08-31 | 2018-12-18 | 上海赛特斯信息科技股份有限公司 | 智能告警系统及方法 |
CN109145920A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于深度神经网络的图像语义分割方法 |
US20190164290A1 (en) * | 2016-08-25 | 2019-05-30 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
-
2020
- 2020-05-07 CN CN202010377760.XA patent/CN111583265A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190164290A1 (en) * | 2016-08-25 | 2019-05-30 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
CN106845396A (zh) * | 2017-01-18 | 2017-06-13 | 南京理工大学 | 基于自动图像识别的非法钓鱼行为识别方法 |
CN109145920A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于深度神经网络的图像语义分割方法 |
CN109040693A (zh) * | 2018-08-31 | 2018-12-18 | 上海赛特斯信息科技股份有限公司 | 智能告警系统及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763362A (zh) * | 2021-09-09 | 2021-12-07 | 无锡联友塑业有限公司 | 水下图像智能检测处理系统 |
CN115240278A (zh) * | 2022-09-23 | 2022-10-25 | 东莞先知大数据有限公司 | 钓鱼行为检测方法 |
CN115240278B (zh) * | 2022-09-23 | 2023-01-06 | 东莞先知大数据有限公司 | 钓鱼行为检测方法 |
CN115497030A (zh) * | 2022-10-27 | 2022-12-20 | 中国水利水电科学研究院 | 一种基于深度学习的钓鱼行为识别方法 |
CN115410280A (zh) * | 2022-11-03 | 2022-11-29 | 合肥中科类脑智能技术有限公司 | 一种基于人体朝向判断的钓鱼行为检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020606B (zh) | 一种基于多尺度卷积神经网络的人群密度估计方法 | |
CN111583265A (zh) | 基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统 | |
CN113343778B (zh) | 一种基于LaneSegNet的车道线检测方法及系统 | |
CN113436210B (zh) | 一种融合上下文逐级采样的道路图像分割方法 | |
CN113487576B (zh) | 一种基于通道注意力机制的虫害图像检测方法 | |
CN112801027A (zh) | 基于事件相机的车辆目标检测方法 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN114155210B (zh) | 基于注意力机制与标准化密集空洞空间多尺度融合网络的人群计数方法 | |
CN113361528B (zh) | 一种多尺度目标检测方法及系统 | |
CN114742799A (zh) | 基于自监督异构网络的工业场景未知类型缺陷分割方法 | |
CN114169362A (zh) | 一种基于时空相关滤波的事件流数据去噪方法 | |
CN109101884B (zh) | 一种脉冲阵列预测方法 | |
CN115424209A (zh) | 一种基于空间金字塔注意力网络的人群计数方法 | |
CN115496971A (zh) | 一种红外目标检测方法、装置、电子设备及存储介质 | |
CN110503002B (zh) | 一种人脸检测方法和存储介质 | |
CN112036300A (zh) | 一种基于多尺度时空传播层的运动目标检测方法 | |
CN112487911B (zh) | 智能监控环境下基于改进yolov3的实时行人检测方法及装置 | |
CN114926826A (zh) | 场景文本检测系统 | |
CN116468980A (zh) | 深度融合边缘细节与深层特征的红外小目标检测方法及装置 | |
CN113034432B (zh) | 一种产品缺陷检测方法、系统、装置及存储介质 | |
CN114332582A (zh) | 一种基于红外及可见光下的多尺度目标检测方法 | |
CN113743306A (zh) | 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法 | |
Li et al. | Easily deployable real-time detection method for small traffic signs | |
Li et al. | A-YOLO: small target vehicle detection based on improved YOLOv5 | |
CN113099217B (zh) | 一种视频帧连续性检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200825 |
|
RJ01 | Rejection of invention patent application after publication |