CN116152696A

CN116152696A - 一种工控系统智慧安防图像识别方法及系统

Info

Publication number: CN116152696A
Application number: CN202211461337.3A
Authority: CN
Inventors: 丁朝晖; 张伟; 杨国玉; 车业蒙; 刘腾; 黄冠杰
Original assignee: China Datang Corp Science and Technology Research Institute Co Ltd
Current assignee: China Datang Corp Science and Technology Research Institute Co Ltd
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-05-23

Abstract

本发明公开一种工控系统智慧安防图像识别方法，包括：S1，对工控系统进行视频采集获得视频数据；S2，基于所述视频数据进行前景检测；S3，基于前景检测的结果进行运动目标识别，所述运动目标识别针对异常行为识别和异常情景判定进行综合特征提取，所述运动目标识别的方法为两阶段目标检测算法和一阶段目标检测算法综合进行的综合运动目标识别；S4，基于综合运动目标识别结果进行图像识别。还公开了对应的系统、电子设备及计算机可读存储介质。

Description

一种工控系统智慧安防图像识别方法及系统

技术领域

本发明属于目标跟踪以及工控系统安防技术领域，尤其涉及一种工控系统智慧安防图像识别方法及系统。

背景技术

目前工控系统智慧安防图像识别技术主要为图像语义分割，是一种可以使计算机能够对图像实现自动分割并识别出图像内容的技术。在计算机视觉领域中图像语义分割技术指的是对图片中不同类型的对象以不同颜色标注分割，而图像语义分割技术中的语义指的是图像中所包含的各类别的物体所特有的类别名称，这种类别名称就称作图片的语义信息。应用语义分割技术就是利用计算机对于一幅图像的像素按照图像中表达的语义信息的不同进行分类。图像语义分割技术在现阶段主要是基于深度学习神经网络进行研究，而在深度学习技术的支持下，图像语义分割技术主要被应用在移动机器人、无人机、智能驾驶以及智慧安防的领域中。

现有的图像识别方法大致分为三类：

(1)基于传统方法的图像语义分割技术时期

图像分割技术通过图像的低级特征进行分割，经此技术处理之后所输出的图像无法达到实现语义标注的效果。图像分割技术只能被称为图像分割，无法达到语义的概念。

(2)深度学习与传统方法结合的图像语义分割技术时期

在这一个阶段主要是利用卷积神经网络算法实现语义分割效果，先利用传统的分割算法获得图像级的处理效果，然后利用CNN神经网络模型训练像素的特征分类器实现语义分割效果，这种方法准确性受到传统语义分割方法诸多不足的限制，因此准确性普遍较低。

(3)基于全卷积神经网络的图像语义分割技术时期

2015年I EEE国际计算机视觉与模式识别会议，由Long等人提出了全卷积神经网络，至此图像语义分割技术进入到了全卷积神经网络时期。全卷积神经网络在深度学习中表现出了强大的潜力，计算机在图片通过深度学习网络进行深度学习后能够清楚地归纳出输入图片中的具有相同语义含义的像素点。深度学习方法成为了现今解决语义分割问题的主流。对比前两个时期，基于全卷积神经网络深度学习的语义分割技术能够获得更高的精度以及更好的运算效率，因此这一时期的语义分割技术方法介绍将会是整篇文章的讨论重点。2018年，Mi chae l i s等人根据He等人的研究工作对于语义分割提出了最新的成果，将语义分割技术与目标检测技术进行结合，对于图片中的目标达到了实例分割的效果，这意味着可以对于同一类别的不同物体进行不同的语义信息标注的效果。

随着近年来计算机硬件水平的提升、深度学习技术的发展以及各种高质量目标检测数据集的提出，涌现出越来越多优秀的目标检测算法。目标检测算法的发展大致分为两个阶段：第一阶段集中在2000年前后，这期间所提出的方法大多基于滑动窗口和人工特征提取，普遍存在计算复杂度高和在复杂场景下鲁棒性差的缺陷。为了使算法能够满足实际需要，研究者不得不寻找更加精巧的计算方法对模型进行加速同时设计更加多元化的检测算法以弥补手工特征表达能力上的缺陷。代表性的成果包括Vio l a-Jones检测器、HOG行人检测器等。第二阶段是2014年至今，以文献提出的R-CNN算法作为开端。这些算法利用深度学习技术自动的抽取输入图像中的隐藏特征，从而对样本进行更高精度的分类和预测。随着深度学习和计算机视觉的不断突破，在R-CNN之后又涌现出了Fast R-CNN、Faster R-CNN、SPPNet、YOLO等众多基于深度学习的图像目标检测算法。相比传统的目标检测算法，基于深度学习的目标检测算法具有速度快、准确性强、在复杂条件下鲁棒性强的优势，但是仍然无法达到工控系统智慧安防预期的技术效果。

发明内容

本发明的目的是提供一种工控系统智慧安防目标跟踪方法及系统，在双路网络中借鉴相关滤波器来提升模型的辨别能力；此外，受目标检测领域进展的启发，采用基于分类式的深度跟踪框架如MDNet、双路网络结合区域锚点的多尺度回归以及基于Transformer的深度跟踪器使用注意力机制进行跟踪模型建模的方法，以解决现有技术的问题。

本发明一方面提供了一种工控系统智慧安防图像识别方法，包括：

S1，对工控系统进行视频采集获得视频数据；

S2，基于所述视频数据进行前景检测；

S3，基于前景检测的结果进行运动目标识别，所述运动目标识别针对异常行为识别和异常情景判定进行综合特征提取，所述运动目标识别的方法为两阶段目标检测算法和一阶段目标检测算法综合进行的综合运动目标识别；

S4，基于综合运动目标识别结果进行图像识别。

优选的，所述两阶段目标检测算法包括：

(1)输入将视频进行分解后获得的具有时间戳的图像；

(2)基于显式的区域建议从具有时间戳的图像中获得的感兴趣区域作为候选区域；

(3)在所述感兴趣区域中进行特征提取、分类和回归从而对目标检测进行微调，从而获得目标检测结果。

优选的，所述两阶段目标检测算法采用如下五种算法中的任意一种算法进行计算，包括：

(1)R-CNN目标检测算法，包括：

第一阶段：输入将视频进行分解后获得的具有时间戳的图像，基于选择性搜索获得感兴趣区域作为候选区域；

第二阶段：对感兴趣区域内的图像进行裁切、缩放的图像处理，然后对每个候选区域内的图像经过卷积神经骨干网络中的全连接层进行特征提取；缓存抽取到的特征后通过SVM分类器进行分类和回归的微调，获得目标检测结果；

(2)SPP-Ne目标检测算法，包括：

第一阶段，输入将视频进行分解后获得的具有时间戳的图像，基于选择性搜索获得感兴趣区域作为候选区域；

第二阶段，通过骨干网络直接得到整个输入图像的特征地图；通过金字塔空间池化层将特征地图中与感兴趣区域对应的部分转化为固定尺寸的特征；对每个候选区域内的图像经过全连接层进行特征提取；缓存抽取到的特征后通过SVM分类器进行分类和回归的微调，获得目标检测结果

(3)Fast R-CNN算法，包括：

第二阶段，通过骨干网络直接得到整个输入图像的特征地图；通过感兴趣池化层将特征地图中与感兴趣区域对应的部分转化为固定尺寸的特征；对每个候选区域内的图像经过全连接层进行特征提取；缓存抽取到的特征后进行分类和回归的微调，基于多任务损失函数将分类任务与边框回归任务整合到主干卷积神经网络中获得目标检测结果；

(4)Faster R-CNN算法，包括：

第一阶段，输入将视频进行分解后获得的具有时间戳的图像，通过多卷积堆叠的骨干网络直接得到整个输入图像的特征地图；对特征地图中的图像经过区域预测网络进行特征提取、分类和回归；

第二阶段，将特征地图中与感兴趣区域对应的部分转化为固定尺寸的特征；对每个候选区域内的图像进行特征提取；缓存抽取到的特征后进行分类和回归的微调，基于多任务损失函数将分类任务与边框回归任务整合到主干卷积神经网络中获得目标检测结果；

(5)R-FCN算法，包括：

第一阶段，输入将视频进行分解后获得的具有时间戳的图像，通过全卷积网络直接得到整个输入图像的特征地图；对特征地图中的图像经过区域预测网络进行特征提取、分类和回归；

第二阶段，将位敏得分图与感兴趣区域对应的部分转化为固定尺寸的特征；基于位敏池化层对图像进行特征提取；缓存抽取到的特征后进行分类和回归的微调，获得目标检测结果。

优选的，所述一阶段目标检测算法包括：

(1)输入将视频进行分解后获得的具有时间戳的图像；

(2)通过骨干网络抽取所述具有时间戳的图像的特征，基于隐式的区域建议、特征提取以及回归进行微调直接生成物体边界框，从而获得目标检测结果。

优选的，所述一阶段目标检测算法采用如下五种算法中的任意一种算法进行计算，包括：

(1)基于二进制掩膜的目标检测算法，包括：

输入图像后，基于A l exNet作为骨干网络并将网络的最后一层替换成回归层；通过回归预测目标的二进制掩膜并以此为依据提取目标边界框；

(2)Overfeat算法，包括：

输入图像后，针对分类、定位、检测三个不同的任务将骨干网络的最后一层替换成不同的分类或回归层，三个任务共享骨干网络的参数，基于骨干网络提取目标边界框；其中骨干网络由A l exNet实现，采用偏置池化代替最大池化；

(3)YOLO算法，包括：

输入图像后，采用GoogLeNet结构的CNN骨干网络进行网格划分后，直接基于整幅输入图像预测图像中物体的类别和边界框的位置和尺寸信息；其中GoogLeNet结构的CNN骨干网络将输入的图片分割成S*S网格，然后每个单元格用于检测中心点落在该格子内的目标，每个单元格预测B个边界框以及边界框的置信度；所述置信度包括边界框含有目标的可能性大小以及边界框的准确度，将边界框含有目标的可能性大小记为Pr(object)，当该边界框是背景时，此时Pr(object)＝0，而当该边界框包含目标时，Pr(object)＝1；边界框的准确度用预测框与实际框(ground truth)的I OU(i ntersect i on over un i on，交并比)来表征，记为I OU；因此置信度可以定义为Pr(object)*I OU；边界框的大小与位置采用4个值来表征：(x,y,h,w)，其中(x,y)是边界框的中心坐标，和是边界框的宽与高，其中，中心坐标的预测值(x,y)是相对于每个单元格左上角坐标点的偏移值，并且单位是相对于单元格大小；边界框的w和h预测值是相对于整个图片的宽与高的比例，理论上4个元素的大小应该在[0,1]范围；每个边界框的预测值实际上包含5个元素：(x,y,w,h,c)，其中前4个表征边界框的大小与位置，而最后一个值是置信度；

(4)SSD算法，包括：

输入图像后，采用GoogLeNet结构的CNN骨干网络进行网格划分后，直接基于整幅输入图像预测图像中物体的类别和边界框的位置和尺寸信息，其中骨干网络包括用于进行分类和回归调整的反卷积层以及YOLO算法模块，用于基于多尺度特征进行检测、为每个网格设定多个具有不同长宽比的先验边界框以及基于数据扩增(data augmentat i on)提高SSD算法的运行；同时引入了反卷积层(deconvo l ut i ona l l ayer)将抽取到的低级特征转化为较高层次的语义信息；

(5)Ret i naNet算法，包括：

输入图像后，采用骨干网络进行网格划分后，直接基于整幅输入图像预测图像中物体的类别和边界框的位置和尺寸信息，基于标准交叉熵损失改进得到焦点损失函数，基于焦点损失函数进行分类和回归微调获得目标检测结果。

优选的，所述SSD算法采用DSSD算法，输入图像后，采用Resnet101骨干网络进行网格划分后，直接基于整幅输入图像预测图像中物体的类别和边界框的位置和尺寸信息，基于将反卷积得到的语义信息与卷积获得的低级特征融合。

优选的，所述综合运动目标识别包括：将两阶段目标检测算法和一阶段目标检测算法获得的多个运动目标识别结果取交集作为最终的运动目标识别结果。

本发明的第二方面提供一种工控系统智慧安防图像识别系统，包括：

采集模块，用于对工控系统进行视频采集获得视频数据；

检测模块，用于基于所述视频数据进行前景检测；

运动目标识别模块，用于基于前景检测的结果进行运动目标识别，所述运动目标识别针对异常行为识别和异常情景判定进行综合特征提取，所述运动目标识别的方法为两阶段目标检测算法和一阶段目标检测算法综合进行的综合运动目标识别；所述运动目标识别包括：将两阶段目标检测算法和一阶段目标检测算法获得的多个运动目标识别结果取交集作为最终的运动目标识别结果；

图像识别模块，用于基于综合运动目标识别结果进行图像识别，其中所述图像识别包括异常行为识别以及异常行为检测。

本发明的第三方面提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如第一方面所述的方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如第一方面所述的方法。

本发明提供的方法、装置、电子设备以及计算机可读存储介质，具有如下有益的技术效果：

在实际应用中,能够检测到全局异常的同时，获知异常的具体对象及原因，从而更全面的进行工控网络安全异常行为的识别。

附图说明

图1为根据本发明优选实施例示出的工控系统智慧安防图像识别方法流程图；

图2(a)-(e)为根据本发明优选实施例示出的两阶段目标检测算法的五种算法流程图；

图3(a)-(e)为根据本发明优选实施例示出的一阶段目标检测算法的五种算法流程图；

图4为根据本发明优选实施例示出的工控系统智慧安防图像识别系统结构图；

图5为本发明提供的电子设备一种实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例一

一种工控系统智慧安防图像识别方法，包括：

S1，对工控系统进行视频采集获得视频数据；

S2，基于所述视频数据进行前景检测；

S3，基于前景检测的结果进行运动目标识别，所述运动目标识别针对异常行为识别和异常情景判定进行综合特征提取，所述运动目标识别的方法为两阶段目标检测算法和一阶段目标检测算法综合进行的综合运动目标识别；所述运动目标识别包括：将两阶段目标检测算法和一阶段目标检测算法获得的多个运动目标识别结果取交集作为最终的运动目标识别结果；

S4，基于综合运动目标识别结果进行图像识别，其中所述图像识别包括异常行为识别以及异常行为检测。

目标检测(Object detect i on)的任务即确认图中是否有目标，目标在哪里。输入图片，输出为边界框(bound i ng box)或坐标。目标识别(Object Recogn it i on)的任务即图中目标在哪，且目标是什么。输入图像，输出为目标位置和类别。在计算机视觉应用传统算法的时候，目标检测和目标识别的含义如上，但基于深度学习的计算机视觉应用中，目标检测和目标识别并未有很严格的区分，因此本发明以更常用的目标检测一词进行说明。

本实施例按照是否存在显式的区域，将目标检测算法分为两阶段(Two-stage)目标检测算法和一阶段(One-stage)目标检测算法。其中，两阶段目标检测算法是基于区域建议的目标检测算法或基于感兴趣区域的目标检测算法，该算法通过显式的区域建议将检测问题转化为对生成的建议区域内局部图片的分类问题；本实施例中具体应用的两阶段目标检测算法有R-CNN、Fast R-CNN等。一阶段目标检测算法是基于回归的目标检测算法，该算法不直接生成感兴趣区域，而将目标检测任务看做是对整幅图像的回归任务。代表性的一阶段目标检测算法有YOLO、SSD等。

优选的，所述两阶段目标检测算法的算法精确度高，实时性差，检测小目标效果差，包括：

(1)输入将视频进行分解后获得的具有时间戳的图像；

如图2(a)-(e)所示，本实施例中可以采用如下五种算法中的任意一种算法进行计算：

(1)如图2(a)所示为R-CNN目标检测算法，包括：

第二阶段：对感兴趣区域内的图像进行裁切、缩放的图像处理，然后对每个候选区域内的图像经过卷积神经骨干网络中的全连接层进行特征提取；缓存抽取到的特征后通过SVM分类器进行分类和回归的微调，获得目标检测结果。

R-CNN算法有以下3点改进：

在区域建议阶段使用了选择性搜索(Se l ect i ve search)解决了使用滑动窗口生成候选框导致计算量过大的问题；

使用卷积神经网络对感兴趣区域进行特征提取解决了传统方法中特征表达能力不足的问题；

在使用SVM分类器进行分类的同时借助回归算法对目标边界进行补偿和修正以减小感兴趣区域与实际目标的偏差。这些改进使R-CNN算法的性能相较传统的目标检测算法显著提升。该算法在Pasca l VOC 2007数据集上的mAP达到了58.5％，远高于此前传统方法在该数据集上获得的最好结果(SegDPM，40.4％)。

(2)如图2(b)所示为SPP-Ne目标检测算法，算法借鉴了金字塔空间匹配算法(Spati a l Pyrami d Match i ng，SPM)，包括：

第二阶段，通过骨干网络直接得到整个输入图像的特征地图(减少了计算冗余)；通过金字塔空间池化层将特征地图中与感兴趣区域对应的部分转化为固定尺寸的特征(避免了对感兴趣区域中的图像进行缩放和裁切等操作造成的信息丢失)；对每个候选区域内的图像经过全连接层进行特征提取；缓存抽取到的特征后通过SVM分类器进行分类和回归的微调，获得目标检测结果

在第二阶段引入了金字塔空间池化层(Spat i a l Pyrami d Poo l i ng，SPP)，SPP-Net的精度相对R-CNN得到了进一步的提升，它在VOC2007数据集上的mAP达到了60.9％。另外，由于SPP-Net仅需要进行一次卷积操作，其运行速度相对R-CNN得到了明显的提升。在达到与R-CNN近似甚至更高精度的前提下，SPP-Net的运行速度是R-CNN的24至102倍。

(3)如图2(c)所示为Fast R-CNN算法，包括：

第二阶段，通过骨干网络直接得到整个输入图像的特征地图(减少了计算冗余)；通过感兴趣池化层(RO I Poo l i ng l ayer)将特征地图中与感兴趣区域对应的部分转化为固定尺寸的特征(避免了对感兴趣区域中的图像进行缩放和裁切等操作造成的信息丢失)；对每个候选区域内的图像经过全连接层进行特征提取；缓存抽取到的特征后进行分类和回归的微调，基于多任务损失函数将分类任务与边框回归任务整合到主干卷积神经网络中获得目标检测结果。

Fast R-CNN算法的优点：

使用感兴趣池化层(RO I Poo l i ng l ayer)代替了SPP-Net的金字塔空间池化层，感兴趣池化层与金字塔空间池化层具有类似的功能，能够将不同尺寸的感兴趣区域对应的特征划分为相同尺寸的特征向量，但感兴趣池化层更为简洁；

提出了新的多任务损失函数，该函数将分类任务与边框回归任务整合到主干卷积神经网络中，使这两个任务能够共享主干卷积神经网络的参数从而进一步降低了目标检测所需的计算资源。

Fast R-CNN的检测速度明显提升，并初步实现了端到端的目标检测。该算法在VOC2007数据集上的检测率分别达到了70.0％。

(4)如图2(d)所示为Faster R-CNN算法，包括：

第一阶段，输入将视频进行分解后获得的具有时间戳的图像，通过多卷积堆叠的骨干网络直接得到整个输入图像的特征地图(特征地图中包括高级特征，同时减少了计算冗余)；对特征地图中的图像经过区域预测网络(Regi on Proposa lNetwork，RPN)进行特征提取、分类和回归；

第二阶段，将特征地图中与感兴趣区域对应的部分转化为固定尺寸的特征(避免了对感兴趣区域中的图像进行缩放和裁切等操作造成的信息丢失)；对每个候选区域内的图像进行特征提取；缓存抽取到的特征后进行分类和回归的微调，基于多任务损失函数将分类任务与边框回归任务整合到主干卷积神经网络中获得目标检测结果。

Faster R-CNN算法的优点：

用区域预测网络(Regi on Proposa l Network，RPN)代替传统的感兴趣区域预测方法，由于提取候选区域网络是基于深度学习的方法，因此可以借助GPU加速，提升FasterR-CNN算法训练和运行的速度。

(5)如图2(e)所示为R-FCN算法，包括：

第一阶段，输入将视频进行分解后获得的具有时间戳的图像，通过全卷积网络(Ful l y Convo l ut i ona l Network，FCN)直接得到整个输入图像的特征地图(特征地图中包括高级特征，同时减少了计算冗余)；对特征地图中的图像经过区域预测网络(Regi onProposa l Network，RPN)进行特征提取、分类和回归；

第二阶段，将位敏得分图(pos it i on-sens it i ve score maps)与感兴趣区域对应的部分转化为固定尺寸的特征(避免了对感兴趣区域中的图像进行缩放和裁切等操作造成的信息丢失)；基于位敏池化层(pos it i on-sens it i ve poo l i ng)对图像进行特征提取；缓存抽取到的特征后进行分类和回归的微调，获得目标检测结果。

该算法的优点：

全卷积网络(Fu l l y Convo l ut i ona l Network，FCN)使算法第二阶段的计算实现了参数共享，提升了算法运行速度和检测速度；

提出了位敏得分图(pos it i on-sens it i ve score maps)和位敏池化层(posit i on-sens it i ve poo l i ng)对目标检测任务中的平移不变性和平移可变性进行权衡，使R-FCN在提升了检测速度的基础上达到和Faster R-CNN接近的精度，同时新的训练策略使算法从多个割裂的步骤逐步向端到端演化。

优选的，所述一阶段目标检测算法实时性高，可以实现端到端的优化，会忽略全局信息，由于无法有效利用全局信息而造成成群目标、异常尺度目标检测精度低，包括：

(1)输入将视频进行分解后获得的具有时间戳的图像；

如图3(a)-(e)所示为本实施例中所使用的一阶段目标检测的具体算法。

两阶段目标检测算法在第一阶段生成区域建议，在第二阶段仅针对感兴趣区域中的内容进行分类和回归，丢失了局部目标在整幅图像中的空间信息，因此本方法进一步通过一阶段目标检测算法来解决这一缺陷。

(1)如图3(a)所示为基于二进制掩膜的目标检测算法，包括：

输入图像后，基于Al exNet作为骨干网络并将网络的最后一层替换成回归层；通过回归预测目标的二进制掩膜并以此为依据提取目标边界框。

(2)如图3(b)所示为Overfeat算法，包括：

输入图像后，针对分类、定位、检测三个不同的任务将骨干网络的最后一层替换成不同的分类或回归层，三个任务共享骨干网络的参数，基于骨干网络提取目标边界框；其中骨干网络由A l exNet实现，采用偏置池化(offset poo l i ng)代替原本的最大池化(maxpoo l i ng)以消除特征粒度不足的问题。该算法借助卷积层代替了滑动窗口的操作，大大提升了目标检测的速度。

(3)如图3(c)所示为YOLO算法，包括：

输入图像后，采用GoogLeNet结构的CNN骨干网络进行网格划分后，直接基于整幅输入图像预测图像中物体的类别和边界框的位置和尺寸信息；其中GoogLeNet结构的CNN骨干网络将输入的图片分割成S*S网格，然后每个单元格用于检测中心点落在该格子内的目标，每个单元格预测B个边界框(bound i ng box)以及边界框的置信度(confidencescore)；所述置信度包括边界框含有目标的可能性大小以及边界框的准确度，将边界框含有目标的可能性大小记为Pr(object)，当该边界框是背景时(即不包含目标)，此时Pr(object)＝0，而当该边界框包含目标时，Pr(object)＝1；边界框的准确度用预测框与实际框(ground truth)的IOU(i ntersect ion over union，交并比)来表征，记为IOU；因此置信度可以定义为Pr(object)*IOU；边界框的大小与位置采用4个值来表征：(x,y,h,w)，其中(x,y)是边界框的中心坐标，和是边界框的宽与高，其中，中心坐标的预测值(x,y)是相对于每个单元格左上角坐标点的偏移值，并且单位是相对于单元格大小；边界框的w和h预测值是相对于整个图片的宽与高的比例，理论上4个元素的大小应该在[0,1]范围；每个边界框的预测值实际上包含5个元素：(x,y,w,h,c)，其中前4个表征边界框的大小与位置，而最后一个值是置信度。

这种划分网格的方法，避免了大量的重复计算，使YOLO算法达到了较快的检测速度。在VOC 2007数据集中达到了每秒45帧的检测速度。另外，由于YOLO算法基于整个输入图像进行检测而非基于局部进行推断，这使其背景误检率只有13.6％，远小于已有的两阶段目标检测算法。

(4)如图3(d)所示为SSD算法，包括：

输入图像后，采用GoogLeNet结构的CNN骨干网络进行网格划分后，直接基于整幅输入图像预测图像中物体的类别和边界框的位置和尺寸信息，其中骨干网络包括用于进行分类和回归调整的反卷积层以及YOLO算法模块，用于基于多尺度特征进行检测、为每个网格设定多个具有不同长宽比的先验边界框以及基于数据扩增(data augmentat i on)提高SSD算法的运行；同时引入了反卷积层(deconvo l ut i ona l l ayer)将抽取到的低级特征转化为较高层次的语义信息，从而其在VOC 2007数据集中的mAP达到了74.3％。

作为另一优选的实施方式，采用DSSD算法，输入图像后，采用Resnet101骨干网络(采用Resnet101骨干网络以增强算法的特征提取能力)进行网格划分后，直接基于整幅输入图像预测图像中物体的类别和边界框的位置和尺寸信息，基于将反卷积得到的语义信息与卷积获得的低级特征融合，从而提升了算法的检测精度，尤其是对小目标的检测精度。该算法在VOC 2007数据集中的mAP达到了81.5％，高于SSD算法，其在COCO 2018数据集中对小目标检测的AP值也达到了13.0％，高于YOLO算法的10.2％。

(5)如图3(e)所示为Ret i naNet算法，包括：

输入图像后，采用骨干网络进行网格划分后，直接基于整幅输入图像预测图像中物体的类别和边界框的位置和尺寸信息，基于标准交叉熵损失改进得到焦点损失(foca ll oss)函数，基于焦点损失函数进行分类和回归微调获得目标检测结果。

Ret i naNet算法的优点包括：

焦点损失的应用可以使算法根据候选框中的内容自动的调节正负样本对损失的贡献度使算法更关注于低置信度的样本，从而减小类别不均衡对算法精确度的影响；

该算法在多个数据集上达到了接近两阶段目标检测算法的精确度。

实施例二

如图4所示，一种工控系统智慧安防图像识别系统，包括：

采集模块101，用于对工控系统进行视频采集获得视频数据；

检测模块102，用于基于所述视频数据进行前景检测；

运动目标识别模块103，用于基于前景检测的结果进行运动目标识别，所述运动目标识别针对异常行为识别和异常情景判定进行综合特征提取，所述运动目标识别的方法为两阶段目标检测算法和一阶段目标检测算法综合进行的综合运动目标识别；所述运动目标识别包括：将两阶段目标检测算法和一阶段目标检测算法获得的多个运动目标识别结果取交集作为最终的运动目标识别结果；

图像识别模块104，用于基于综合运动目标识别结果进行图像识别，其中所述图像识别包括异常行为识别以及异常行为检测。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一所述的方法。

如图5所示，本发明还提供了一种电子设备，包括处理器301和与所述处理器301连接的存储器302，所述存储器302存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种工控系统智慧安防图像识别方法，其特征在于，包括：

S1，对工控系统进行视频采集获得视频数据；

S2，基于所述视频数据进行前景检测；

S4，基于综合运动目标识别结果进行图像识别。

2.根据权利要求1所述的一种工控系统智慧安防图像识别方法，其特征在于，所述两阶段目标检测算法包括：

(1)输入将视频进行分解后获得的具有时间戳的图像；

3.根据权利要求2所述的一种工控系统智慧安防图像识别方法，其特征在于，所述两阶段目标检测算法采用如下五种算法中的任意一种算法进行计算，包括：

(1)R-CNN目标检测算法，包括：

(2)SPP-Ne目标检测算法，包括：

(3)Fast R-CNN算法，包括：

(4)Faster R-CNN算法，包括：

(5)R-FCN算法，包括：

4.根据权利要求1所述的一种工控系统智慧安防图像识别方法，其特征在于，所述一阶段目标检测算法包括：

(1)输入将视频进行分解后获得的具有时间戳的图像；

5.根据权利要求4所述的一种工控系统智慧安防图像识别方法，其特征在于，所述一阶段目标检测算法采用如下五种算法中的任意一种算法进行计算，包括：

(1)基于二进制掩膜的目标检测算法，包括：

输入图像后，基于AlexNet作为骨干网络并将网络的最后一层替换成回归层；通过回归预测目标的二进制掩膜并以此为依据提取目标边界框；

(2)Overfeat算法，包括：

输入图像后，针对分类、定位、检测三个不同的任务将骨干网络的最后一层替换成不同的分类或回归层，三个任务共享骨干网络的参数，基于骨干网络提取目标边界框；其中骨干网络由AlexNet实现，采用偏置池化代替最大池化；

(3)YOLO算法，包括：

输入图像后，采用GoogLeNet结构的CNN骨干网络进行网格划分后，直接基于整幅输入图像预测图像中物体的类别和边界框的位置和尺寸信息；其中GoogLeNet结构的CNN骨干网络将输入的图片分割成S*S网格，然后每个单元格用于检测中心点落在该格子内的目标，每个单元格预测B个边界框以及边界框的置信度；所述置信度包括边界框含有目标的可能性大小以及边界框的准确度，将边界框含有目标的可能性大小记为Pr(object)，当该边界框是背景时，此时Pr(object)＝0，而当该边界框包含目标时，Pr(object)＝1；边界框的准确度用预测框与实际框(ground truth)的IOU(intersection over union，交并比)来表征，记为IOU；因此置信度可以定义为Pr(object)*IOU；边界框的大小与位置采用4个值来表征：(x,y,h,w)，其中(x,y)是边界框的中心坐标，和是边界框的宽与高，其中，中心坐标的预测值(x,y)是相对于每个单元格左上角坐标点的偏移值，并且单位是相对于单元格大小；边界框的w和h预测值是相对于整个图片的宽与高的比例，理论上4个元素的大小应该在[0,1]范围；每个边界框的预测值实际上包含5个元素：(x,y,w,h,c)，其中前4个表征边界框的大小与位置，而最后一个值是置信度；

(4)SSD算法，包括：

输入图像后，采用GoogLeNet结构的CNN骨干网络进行网格划分后，直接基于整幅输入图像预测图像中物体的类别和边界框的位置和尺寸信息，其中骨干网络包括用于进行分类和回归调整的反卷积层以及YOLO算法模块，用于基于多尺度特征进行检测、为每个网格设定多个具有不同长宽比的先验边界框以及基于数据扩增(data augmentation)提高SSD算法的运行；同时引入了反卷积层(deconvolutional layer)将抽取到的低级特征转化为较高层次的语义信息；

(5)RetinaNet算法，包括：

6.根据权利要求5所述的一种工控系统智慧安防图像识别方法，其特征在于，所述SSD算法采用DSSD算法，输入图像后，采用Resnet101骨干网络进行网格划分后，直接基于整幅输入图像预测图像中物体的类别和边界框的位置和尺寸信息，基于将反卷积得到的语义信息与卷积获得的低级特征融合。

7.根据权利要求1所述的一种工控系统智慧安防图像识别方法，其特征在于，所述综合运动目标识别包括：将两阶段目标检测算法和一阶段目标检测算法获得的多个运动目标识别结果取交集作为最终的运动目标识别结果。

8.一种工控系统智慧安防图像识别系统，用于实施权利要求1-7任一所述的方法，其特征在于，包括：

采集模块，用于对工控系统进行视频采集获得视频数据；

检测模块，用于基于所述视频数据进行前景检测；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如权利要求1-7任一所述的方法。