CN112464851A

CN112464851A - 一种基于视觉感知的智能电网异物入侵检测方法及系统

Info

Publication number: CN112464851A
Application number: CN202011423538.5A
Authority: CN
Inventors: 孙浩飞; 王南; 高峰; 刘阳; 魏昊焜; 郭安祥; 王辰曦; 张海军; 李群; 杨彪
Original assignee: State Grid Corp of China SGCC; Shenzhen Graduate School Harbin Institute of Technology; Electric Power Research Institute of State Grid Shaanxi Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Shenzhen Graduate School Harbin Institute of Technology; Electric Power Research Institute of State Grid Shaanxi Electric Power Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-09

Abstract

本发明公开了一种基于视觉感知的智能电网异物入侵检测方法及系统，所述方法基于智能电网视频监控数据和入侵物体检测模型完成智能电网异物入侵检测；入侵物体检测模型的构建步骤包括：步骤1，对输入的具有先后关系的视频帧进行多级特征抽取，生成高阶特征图、低阶特征图；步骤2，利用特征图的上采样和特征图沿通道维度方向的级联操作进行特征融合；步骤3，采用自注意力机制，获得处理后的特征；步骤4，通过级联模块获取物体属于目标或背景的二分类结果和坐标位置；步骤5，利用分类器输出像素级分类结果，实现像素级检测。本发明能够完成智能电网异物入侵检测这一像素级分类任务，可解决现有技术中模型精度的技术问题。

Description

一种基于视觉感知的智能电网异物入侵检测方法及系统

技术领域

本发明属于视频物体检测与视频分割技术领域，特别涉及一种基于视觉感知的智能电网异物入侵检测方法及系统。

背景技术

随着智能电网的快速发展，电网系统安全性的监控和维护变得越来越重要。输电杆和输电线路等电网设施极易遭受工程机械和施工车辆造成的入侵破坏。因此，异物入侵检测是实现电网系统实时监控和预警的关键环节。

目前，由于电网监控视频数据集的缺乏，基于视频数据的异物入侵检测模型的研究并没有大量展开。从整体上讲，现有的视频物体检测方法分为传统方法和深度卷积神经网络方法。传统方法的性能受限于传统特征抽取方法进展较为缓慢。近年来，随着深度学习在许多视觉任务上取得了不错的成果，基于卷积神经网络的视频物体检测的方法的提出促进了这一领域的发展，并在性能上超越了传统方法。

然而，不同的视频数据适用的物体检测方法也不尽相同，亟需一种新的基于视觉感知的智能电网异物入侵检测方法及系统。

发明内容

本发明的目的在于提供一种基于视觉感知的智能电网异物入侵检测方法及系统，以解决上述存在的一个或多个技术问题。本发明能够完成智能电网异物入侵检测这一像素级分类任务，可解决现有技术中模型精度的技术问题。

为达到上述目的，本发明采用以下技术方案：

本发明的一种基于视觉感知的智能电网异物入侵检测方法，基于智能电网视频监控数据和入侵物体检测模型完成智能电网异物入侵检测；

所述入侵物体检测模型的构建步骤包括：

步骤1，利用深度卷积神经网络作为主干模型对输入的具有先后关系的视频帧进行多级特征抽取，生成高阶特征图、低阶特征图；

步骤2，基于每帧内抽取的高阶特征和低阶特征，利用特征图的上采样和特征图沿通道维度方向的级联操作进行特征融合，获得融合后的特征；

步骤3，采用自注意力机制，利用帧内高阶特征图各像素位置上的特征关系，对帧内特征进行重新配准和对齐，使得特征包含帧内上下文的语义和位置信息，获得处理后的特征；

步骤4，基于步骤3获得的处理后的特征，通过级联模块获取物体属于目标或背景的二分类结果和坐标位置；

步骤5，将步骤4获得的二分类结果和坐标位置，利用分类器输出像素级分类结果，实现像素级检测。

本发明的进一步改进在于，步骤1具体包括：

步骤1.1，基于给定的标注过的视频数据集构建获得训练数据集；

步骤1.2，构建基于静态图像的深度卷积编码译码网络，利用已有的静态图像数据集进行预训练，使得深度卷积编码译码网络具备静态图像的显著性检测能力；

步骤1.3，采用ResNet作为主干网络，将ResNet中Conv3～Conv5的常规3×3卷积用可变形卷积来替代；其中，可变形卷积的计算表达式为：

式中，x(p)和y(p)分别表示输入特征图x和输出特征图y中位置p的特征；ω_k表示第k个位置的权重值，p表示初始位置，p_k表示第k个位置的偏移量，Δp_k表示可学习的偏移量，Δm_k表示第k个位置的可学习调制标量；

步骤1.4，在预训练的主干网络基础上，对输入的视频帧分别抽取多尺度高阶与低阶特征表达，完成多级特征抽取。

本发明的进一步改进在于，步骤2中，利用多尺度特征金字塔网络结构，对帧内的多尺度特征进行特征融合；

其中，特征融合时采用自上而下的路径，包括：首先，为1x1卷积层应用高级特征图以减少通道数；然后，采用2x上采样操作来生成与低级特征图相同大小的特征图；最后，在特征金字塔层次结构下将高级特征图和低级特征图融合。

本发明的进一步改进在于，步骤3具体包括：

步骤3.1，利用抽取的高阶特征数据，构建像素级键值关系对儿以及输出特征，分别通过投影变换得到低维嵌入空间的特征表达；

步骤3.2，利用矩阵乘法获得像素级键值关系矩阵，并利用softmax函数得到像素i与其他相关像素间的关系权重并进行权重配分，输出注意力权重；

步骤3.3，利用输出的注意力权重，作用到输出特征上，实现特征的配准；通过引入残差链接，保证深层网络的信息流通畅以及训练时的梯度回传。

本发明的进一步改进在于，步骤4具体包括：

步骤4.1，在Mask R-CNN框架下采用级联RPN结构生成初始区域建议；

步骤4.2，基于初始区域建议，采用多级IoU阈值进行检测，获取物体分类和坐标位置。

本发明的一种基于视觉感知的智能电网异物入侵检测系统，基于入侵物体检测模型完成智能电网异物入侵检测；

所述入侵物体检测模型包括：

多级特征抽取模块，用于利用深度卷积神经网络作为主干模型对输入的具有先后关系的视频帧进行多级特征抽取，生成高阶特征图、低阶特征图；

特征融合模块，用于根据每帧内抽取的高阶特征和低阶特征，利用特征图的上采样和特征图沿通道维度方向的级联操作进行特征融合，获得融合后的特征；

自注意力模块，用于采用自注意力机制，利用帧内高阶特征图各像素位置上的特征关系，对帧内特征进行重新配准和对齐，使得特征包含帧内上下文的语义和位置信息，获得处理后的特征；

级联模块，用于根据自注意力模块获得的处理后的特征，获取物体属于目标或背景的二分类结果和坐标位置；

分类器模块，用于将级联模块获得的二分类结果和坐标位置，利用分类器输出每个像素点上显著性的概率，实现像素级检测。

本发明的进一步改进在于，所述多级特征抽取模块包括：

视频帧数据准备子模块，用于根据给定的标注过的视频数据集构建获得训练数据集；

基于卷积神经网络编码译码结构的预训练子模块，用于构建基于静态图像的深度卷积编码译码网络，利用已有的静态图像数据集进行预训练，使得深度卷积编码译码网络具备静态图像的显著性检测能力；

复杂特征抽取子模块，用于采用ResNet作为主干网络，将ResNet中Conv3～Conv5的常规3×3卷积用可变形卷积来替代；其中，可变形卷积的计算表达式为：

多级特征抽取子模块，用于在预训练的主干网络基础上，对输入的视频帧分别抽取多尺度高阶与低阶特征表达，完成多级特征抽取。

本发明的进一步改进在于，所述特征融合模块包括：

多尺度特征准备子模块，用于抽取多个级别的特征数据；

特征融合准备子模块，用于为1×1卷积层应用高阶特征图以减少通道数，然后利用2×上采用操作来生成与低级特征图相同大小的特征图；

特征融合子模块，用于在特征金字塔层次结构下将高阶和低阶特征图融合；

其中，特征融合时采用自上而下的路径。

本发明的进一步改进在于，所述自注意力模块中，采用自注意力机制，对特征融合模块获得的融合后的特征进行处理，获得处理后的特征的具体步骤包括：

静态特征准备子模块，用于利用抽取的高阶特征数据，构建像素级键值关系对儿以及输出特征，分别通过投影变换得到低维嵌入空间的特征表达；

帧内像素级自注意力权重生成子模块，用于利用矩阵乘法获得像素级键值关系矩阵，并利用softmax函数得到像素i与其他相关像素间的关系权重并进行权重配分，输出注意力权重；

帧内高阶特征重配准子模块，用于利用输出的注意力权重，作用到输出特征上，实现特征的配准；通过引入残差链接，保证深层网络的信息流通畅以及训练时的梯度回传。

本发明的进一步改进在于，所述级联模块执行的具体步骤包括：

步骤1)，在Mask R-CNN框架下采用级联RPN结构生成初始区域建议；

步骤2)，采用多级IoU阈值进行检测，获取物体分类和坐标位置。

与现有技术相比，本发明具有以下有益效果：

本发明能够完成智能电网异物入侵检测这一像素级分类任务，可解决现有技术中模型精度的技术问题。本发明具体提出了基于视觉感知的智能电网异物入侵检测模型的构建方法；利用训练好的模型，通过输入待检测视频帧，能够实现电网监控视频的异物入侵检测。所有训练过程都是由设计并构造的神经网络模型自动完成，不需要额外对数据进行离线特征抽取、抑或是数据统计工作。

本发明在综合考虑电网视频监控场景下，在Mask R-CNN的基础框架下，形成端到端的编码译码框架；在此框架下，以视频帧数据作为输入，利用多级特征抽取，特征融合，自注意力，级联等操作，对输入帧进行入侵物体检测；可以将所有模块统一联合进行端到端的训练，获得电网监控视频的异物入侵检测模型。

本发明提供的基于视觉感知的智能电网异物入侵检测模型，以电网监控视频帧数据作为输入，对于网络结构，在Mask R-CNN方法的基础上，更注重于提升目标的检测精度。本发明在Mask R-CNN的框架下，设计并构造智能电网异物入侵检测模型中的各个子模块，并且将所有模块统一联合，形成一个统一的基于卷积神经网络的空间编码译码结构，本发明称之为“ID-Net模型”，整体结构可以进行端到端的训练，获得电网异物入侵检测模型。

本发明的系统中，在多级特征抽取部分，利用深度卷积神经网络抽取出具有前后关系的视频帧对的多尺度特征表达；引入可变形卷积，使得模型能够适应更复杂的几何变换学习；在多尺度特征融合部分，利用一种具有横向连接的自上而下的网络结构在多个尺度上构建高级语义特征图，从而实现多尺度的物体检测；通过自注意力模块，获取帧内高阶特征图各像素点之间的空间相关信息；利用级联模块，通过设置不同的阈值，训练多个级联的检测器，提升模型检测的精度；检测结果被送入分类器输出模块，进行像素级分类，获得预测结果。

由于对电网有安全隐患的施工车辆和工程机械的几何外观和形状的巨大差异，本发明在特征抽取环节中采用调制可变形卷积运算进行具备强鲁棒性的特征学习。对于视频帧内物体的多尺度变化和小物体的检测，本发明在特征金字塔层次结构下集成了多尺度特征融合模块。对于监控视频中的复杂场景，本发明通过基于自注意力的模型对远程上下文关系进行建模从而增强高级特征，级联区域提议网络被并入以从粗到细的方式进一步完善物体检测中边界框位置的预测。综上，本发明基于视觉感知，通过综合考虑视频帧内物体的特点，包括：多尺度特性、小物体较多等，设计并实现一种基于电网监控视频的异物入侵检测系统。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于视觉感知的智能电网异物入侵检测方法的流程示意框图；

图2是本发明实施例的一种基于视觉感知的智能电网异物入侵检测系统的示意框图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图1，本发明实施例的一种基于视觉感知的智能电网异物入侵检测方法，其详述如下：

步骤S1：多级特征抽取步骤。本步骤需要利用现有的深度卷积神经网络作为主干模型对输入的具有先后关系的视频帧进行多级特征抽取。

本发明实施例中，数据集一般选用逐帧标注的电网监控视频自制数据集，具体步骤如下：

(S11)视频帧数据准备：基于给定的标注过的视频数据集建立训练数据集。此外，在模型训练之前，还可以通过随机水平镜像、对输入图像添加随机扰动、噪声等方式进行数据增广，获取更加丰富的训练数据。

(S12)基于卷积神经网络编码译码结构的预训练：本步骤通过设计基于静态图像的深度卷积编码译码网络

利用已有的静态图像数据集进行模型预训练，使得深度卷积编码译码网络具备目标检测能力。其中，可以选取生成多级多尺度特征表达的网络进行模型的预训练。本发明实施例中，选取一种残差网络(Residual Net，简称ResNet)作为特征抽取的主干网络进行模型预训练。本步骤为后续抽取视频帧内蕴含语义和细节信息的高阶低阶特征，以及模型能力迁移做准备。

(S13)复杂特征抽取：在(S12)步骤中，将ResNet中Conv3～Conv5的常规3×3卷积用可变形卷积来替代。具体地，可变形卷积引入了一个额外的网络来学习偏移，同时还引入了调制机制来为每个采样点分配权重。它可以自动调整采样点的偏移和幅度，可变形卷积网络(DCN)的计算公式如下：

其中Δp_k表示可学习的偏移量，Δm_k表示第k个位置的可学习调制标量。

(S14)多级特征抽取：在(S13)步骤中获得的预训练主干网络基础上，对输入视频帧分别抽取多尺度高阶与低阶特征表达。具体地，将视频帧输入到预训练主干网络

得到多级特征表达(X^1/4,X^1/8,X^1/16,X^1/32)。本发明实施例中，分别抽取了1/4，1/8，1/16以及1/32尺度上的多级特征图。在应用中，可根据具体问题及实际设备运算能力，考虑增加或去除某些尺度。通常，低阶特征图中包含更多的细节特征，高阶特征图蕴涵了显著性的语义及位置信息。这些特征均为生成精确的帧内显著性物体检测结果提供重要依据。

步骤S2：特征融合步骤。本步骤将上述生成的帧内多尺度特征以及帧内的空间关系特征进行特征融合，为后续像素级分类提供数据输入。

本发明实施例中，步骤S2具体包括：

(S21)帧内高阶和低阶特征融合：根据每帧内抽取的高阶和低阶特征利用特征图的上采样和特征图沿通道维度方向的级联操作进行特征融合，得到帧内多尺度空间特征；在具体实现中，可以利用多尺度特征金字塔网络结构，对帧内的多尺度特征进行特征融合。给定帧内多级特征为(X^1/4,X^1/8,X^1/16,Y)，融合过程为：

Y^1/16＝τ^1/16(ν^1/16(X^1/16)+κ(Y))

Y^1/8＝τ^1/8(ν^1/8(X^1/8)+κ(Y^1/16))

Y^1/4＝τ^1/4(ν^1/4(X^1/4)+κ(Y^1/8))

其中，ν(·)表示相应尺度上的1x1卷积降维操作，τ(·)表示对应尺度上利用卷积层进行特征融合操作，κ(·)表示上采样操作，用于将高阶特征上采样到相应的低阶特征的尺度上。最终得到帧内融合特征(Y^1/4,Y^1/8,Y^1/16,Y)。

步骤S3：自注意力生成步骤。本步骤以帧内目标之间的空间相关性为建模对象，通过生成基于帧内高阶特征图的像素级关系注意力权重，并根据注意力权重对原高阶特征图进行重配准和特征增强，生成更准确的阵内显著性特征图。

本发明实施例中，步骤S3具体包括：

(S31)集成各个级别的特征图：在给定多尺度特征融合模块生成的输入特征图X＝[x^1/4,x^1/8,x^1/16,x^1/32]的情况下，首先采用特征收集模块来集成各个级别的特征图，以提高自我关注模块的效率并充分利用多特征比例尺功能。该过程可以通过以下方式制定：

其中，F表示集成后的特征图，L表示特征图的级别数，x表示特征图，x的上标表示不同级别的特征图。

(S32)通过自注意模块来增强特征图：具体而言，自注意模块的整个计算过程可以表示为：

其中，F来自步骤S31，表示集成后的特征图，

θ(·)和ψ(·)表示变换函数，可以通过利用具有批归一化和ReLU激活函数的1x1卷积层来实现；d是比例因子。在我们的实现中，我们将d设置为内部层的信道数，即C/r，其中r表示信道减少率。η(·)表示用于通过使用1x1卷积层来恢复信道数量的变换函数。它表明，密集的象素注意权重是基于成对的相关运算，即基于嵌入特征而生成的。利用softmax函数根据每对像素之间的相关性重新分配权重，

表示通过上述处理之后的特征图。

(S33)实现远程依赖性建模：通过传播上下文感知关系对每个像素的影响，可以实现远程依赖性建模。首先，利用残差连接(residual connection)来保留原始信息流。然后，为了在每个级别上平衡语义特征，将生成的增强型特征图集成了远程依赖性，并通过残差连接，下采样和上采样操作进一步分散到了每个级别的特征图。

步骤S4:级联步骤，包括：

(S41)采用级联RPN(Region Proposal Network)结构：在Mask R-CNN框架下采用了级联RPN结构。级联的RPN可以通过在多级框架下逐步增加IoU阈值来提高检测器的性能。具体而言，先通过使用RPN生成初始区域建议。

(S42)采用多级IoU(Intersection over Union)阈值进行检测：将第一阶段检测的初始IoU阈值设置为0.5，以保留更多的初始建议区域。在第二阶段和第三阶段，IoU阈值分别提高到0.6和0.7。在最后阶段，引入了额外的掩码预测分割分支。

步骤S5：输出步骤。本步骤用于将输入的融合特征进行特征降维，最终，利用分类器输出两帧图像的像素级分类结果；具体实现步骤包括：

(S51)特征降维步骤：输出模块首先接收融合了空间信息的特征S，并利用卷积层进行特征降维；

(S52)像素级分类步骤：最后将降维后的特征输入分类器中，输出每个像素点上显著性的概率或得分，并利用设定的阈值实现像素级分类。

步骤S6：联合上述各个子模块，形成基于视觉感知的智能电网异物入侵检测模型；通过对编码译码结构，自注意力模块以及特征融合模块进行端到端训练。在具体实现中，首先联合模型，将上述各个步骤中涉及到的卷积神经网络模块链接起来，构建出基于Mask R-CNN的框架，统一训练参数模型。在具体实现中，对于编码译码模型的编码部分的各层权重，可以通过加载在静态图像数据集上预训练好的模型进行参数初始化。自注意力模块，以及多尺度特征融合及最终的输出模块通过设定通用的初始化策略为参数进行赋值，例如Xavier初始化、MSRA初始化等。这里我们采用MSRA初始化方法。在模型训练过程中，模型优化使用批量梯度下降算法。初始学习率设置为0.01，权重衰减率为1e-4。梯度更新方式利用带动量的梯度下降算法，动量值设置为0.9。利用多卡GPU工作站或计算集群等设备进行并行计算，加速模型的训练过程；利用训练好的模型，通过给定待检测视频帧，可以实现电网监控视频的异物入侵检测。

请参阅图2，本发明实施例的一种基于视觉感知的智能电网异物入侵检测系统，所述检测系统包括：

多级特征抽取模块：利用深度卷积神经网络对视频原始帧图像进行多级特征抽取，并生成高阶、低阶特征图；此模块属于基于卷积神经网络的编码译码结构特征抽取器；

特征融合模块：对抽取的帧内高阶特征、低阶特征进行融合；

自注意力模块：采用自注意力机制，利用帧内高阶特征图各像素位置上的特征关系，对帧内特征进行重新配准和对齐，使得特征包含帧内上下文的语义和位置信息，提升模型对帧内显著性物体检测的响应。

级联区域建议模块：采用级联RPN(Region Proposal Network)结构：在Mask R-CNN框架下采用了级联RPN结构。

输出模块：将输入的融合特征进行特征降维，利用分类器输出相邻两帧图像的像素级分类结果；

联合检测模块：将上述5个网络模块联合起来，建立一个基于视觉感知的智能电网异物入侵检测模型(ID-Net)，并使用GPU并行计算来加速模型的训练。

本发明实施例中，所述多级特征抽取模块包括：

视频帧数据准备子模块：利用视频帧标定的像素级多边形真值图，建立模型训练数据；

基于卷积神经网络编码译码结构的预训练子模块：设计基于静态图像的深度卷积编码译码网络

利用已有的静态图像数据集进行模型预训练，使得深度卷积编码译码网络具备静态图像的显著性检测能力；

多级特征抽取子模块：在预训练的主干网络基础上，对输入的视频帧分别抽取多尺度高阶与低阶特征表达。将输入帧I输入权值共享的预训练主干网络中

得到多级特征表达(X^1/4,X^1/8,X^1/16,X^1/32)，这样就完成了多级特征抽取。

本发明实施例中，所述多尺度特征融合模块包括：

帧内高阶和低阶特征融合子模块：根据每帧内抽取的高阶和低阶特征利用特征图的上采样和特征图沿通道维度方向的级联操作进行特征融合，得到帧内多尺度空间特征；

本发明实施例中，所述自注意力模块包括：

静态特征准备子模块：利用抽取的高阶特征数据，构建像素级键值关系(key-value)对儿以及输出(output)特征，分别通过投影变换得到低维嵌入空间的特征表达；

帧内像素级自注意力权重生成子模块：利用矩阵乘法获得像素级键值关系矩阵，并利用softmax函数得到像素i与其他相关像素间的关系权重并进行权重配分，输出注意力权重；

帧内高阶特征重配准子模块：利用生成的注意力权重，作用到输出特征上，实现特征的配准，通过引入残差链接，保证深层网络的信息流通畅以及训练时的梯度回传。

本发明实施例中，级联区域建议模块：采用级联RPN(Region Proposal Network)结构：在Mask R-CNN框架下采用了级联RPN结构。级联的RPN可以通过在多级框架下逐步增加IoU阈值来提高检测器的性能。具体而言，先通过使用RPN生成初始区域建议。随后采用多级IoU(Intersection over Union)阈值进行检测：将第一阶段检测的初始IoU阈值设置为0.5，以保留更多的初始建议区域。在第二阶段和第三阶段，IoU阈值分别提高到0.6和0.7。在最后阶段，引入了额外的掩码预测分割分支。

本发明实施例中，所述输出模块包括：

特征降维子模块：输出模块首先接收融合了空间信息的特征，利用卷积层进行降维；

像素级分类子模块：最后将降维后的特征输入分类器输出每个像素点上显著性的概率，实现像素级分类。

所述联合检测模块包括：将上述5个模块联合起来形成基于视觉感知的智能电网异物入侵检测模型；通过对编码译码结构，空间特征融合模块以及自注意力模块进行端到端训练，利用GPU并行计算技术加速模型的训练过程；利用训练好的模型，通过给定待检测视频帧，可以实现电网视频监控异物入侵检测。

本发明的主要贡献有以下两点：(1)首先，本发明提供的基于视觉感知的智能电网异物入侵检测模型，提出了一种改进的用于入侵目标检测的Mask R-CNN模型，级联区域建议模块的应用实现了从粗到细的边界框位置回归；提出了一种用于高、低阶特征学习和增强的调制变形卷积运算和上下文感知关系建模结构。集成了特征融合模块以实现多尺度特征融合。(2)在Mask R-CNN基础上，设计并构造电网视频监控异物入侵检测模型中的多级特征抽取模块、自注意力模块、级联区域建议等模块和输出模块联合起来，形成一个统一的基于卷积神经网络的空间编码译码模型“ID-Net”。

本发明提供的基于视觉感知的智能电网异物入侵检测模型，以电网监控视频帧数据作为输入，对于网络结构，在Mask R-CNN方法的基础上，更注重于提升目标的检测精度。本发明在Mask R-CNN的框架下，设计并构造智能电网异物入侵检测模型中的各个子模块，并且将所有模块统一联合，形成一个统一的基于卷积神经网络的空间编码译码结构，我们称之为“ID-Net模型”。整体结构可以进行端到端的训练，获得电网异物入侵检测模型。在多级特征抽取部分，我们利用深度卷积神经网络抽取出具有前后关系的视频帧对儿的多尺度特征表达，并且我们引入可变形卷积，使得模型能够适应更复杂的几何变换学习。在多尺度特征融合部分，我们利用一种具有横向连接的自上而下的网络结构在多个尺度上构建高级语义特征图，从而实现多尺度的物体检测。通过自注意力模块，获取帧内高阶特征图各像素点之间的空间相关信息。之后，利用级联模块，通过设置不同的阈值，训练多个级联的检测器，提升模型检测的精度。检测结果被送入输出模块，进行像素级分类，获得预测结果。所有训练过程都是由设计并构造的神经网络模型自动完成，不需要额外对数据进行离线特征抽取、抑或是数据统计工作，利用GPU并行计算加速技术，可以实现高速的训练和测试过程。

综上，本发明实施例通过对监控视频异物入侵检测方法的调研，以及基于深度神经网络对目标检测的应用，公开了一种保证入侵物体检测准确性的检测方法及系统。所述系统包括：多级特征抽取模块：将视频帧图像输入到神经网络结构中，抽取高阶和低阶特征。此模块为特征抽取器。特征融合模块：对抽取的帧内高阶特征、低阶特征、以及具有帧内依赖关系的空间特征进行融合。自注意力模块：利用帧内图片物体及其上下文之间的相关性，利用基于自注意的模块进行远程上下文关系建模，提升物体检测的准确性。级联模块：对于小物体检测，将特征集成模块应用于金字塔层次结构下的多尺度特征融合。然后，级联的从粗到细区域建议网络被合并以逐步完善边界框位置回归。输出模块：将输入的特征进行特征降维，利用分类器输出像素级检测结果。联合检测模块：将上述5个神经网络模块联合起来，建立一个基于视觉感知的智能电网异物入侵检测模型(ID-Net)，并使用GPU并行计算来加速模型的训练。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种基于视觉感知的智能电网异物入侵检测方法，其特征在于，基于智能电网视频监控数据和入侵物体检测模型完成智能电网异物入侵检测；

所述入侵物体检测模型的构建步骤包括：

2.根据权利要求1所述的一种基于视觉感知的智能电网异物入侵检测方法，其特征在于，步骤1具体包括：

3.根据权利要求1所述的一种基于视觉感知的智能电网异物入侵检测方法，其特征在于，步骤2中，利用多尺度特征金字塔网络结构，对帧内的多尺度特征进行特征融合；

4.根据权利要求1所述的一种基于视觉感知的智能电网异物入侵检测方法，其特征在于，步骤3具体包括：

5.根据权利要求1所述的一种基于视觉感知的智能电网异物入侵检测方法，其特征在于，步骤4具体包括：

6.一种基于视觉感知的智能电网异物入侵检测系统，其特征在于，基于入侵物体检测模型完成智能电网异物入侵检测；

所述入侵物体检测模型包括：

7.根据权利要求6所述的一种基于视觉感知的智能电网异物入侵检测系统，其特征在于，所述多级特征抽取模块包括：

8.根据权利要求6所述的一种基于视觉感知的智能电网异物入侵检测系统，其特征在于，所述特征融合模块包括：

多尺度特征准备子模块，用于抽取多个级别的特征数据；

其中，特征融合时采用自上而下的路径。

9.根据权利要求6所述的一种基于视觉感知的智能电网异物入侵检测系统，其特征在于，所述自注意力模块中，采用自注意力机制，对特征融合模块获得的融合后的特征进行处理，获得处理后的特征的具体步骤包括：

10.根据权利要求6所述的一种基于视觉感知的智能电网异物入侵检测系统，其特征在于，所述级联模块执行的具体步骤包括：