CN108010025B

CN108010025B - 基于rcnn的屏柜的开关与指示灯定位和状态识别方法

Info

Publication number: CN108010025B
Application number: CN201711340894.9A
Authority: CN
Inventors: 齐冬莲; 马必焕; 闫云凤; 张建良; 吴越; 李超勇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2022-05-13
Anticipated expiration: 2037-12-14
Also published as: CN108010025A

Abstract

本发明公开了一种基于RCNN的屏柜的开关与指示灯定位和状态识别方法。采集包含目标物的屏柜样本图像；遍历屏柜样本图像，对每张图像用包围框针对目标物进行标记处理，采用尺寸缩放方法缩放处理：采用Imagenet数据集输入预训练模型预训练获得预训练后模型；采用缩放处理后的训练集输入预训练后模型训练获得屏柜状态检测模型；实时采集屏柜待测图像缩放后作为屏柜状态检测模型的输入，屏柜状态检测模型输出最终识别结果。本发明能够实现屏柜上的开关与指示灯定位和状态识别的自动识别与定位，具有较高的准确率，并且具有稳定性好，抗干扰能力强，通用性高等优点，具有良好的鲁棒性，能够应用于机器人巡检系统或者是智能视频监控系统。

Description

基于RCNN的屏柜的开关与指示灯定位和状态识别方法

技术领域

本发明涉及了一种计算机图像处理识别方法，尤其是涉及了一种基于RCNN的屏柜的开关与指示灯定位和状态识别方法。

背景技术

远程视频监控系统虽然可以代替操作人员的现场核对工作，但是还是需要监控中心的运行操作人员去屏柜的工作状态。这样的操作模式虽然能够缩短倒闸操作时间，但还是依赖于工作人员的主观判断，容易受到工作人员知识、经验等自身条件因素的影响。因此，如果能够在中实现无人参与的“一键式”顺序控制的倒闸操作，对于实现的无人值守化具有重要意义。借助于图像处理技术对屏柜开关与指示灯定位和状态识别进行识别是实现倒闸操作自动化的关键一步，也是亟需解决的难题之一。

发明内容

为了解决背景技术中的问题，本发明提出了一种基于RCNN的屏柜的开关与指示灯定位和状态识别方法，能高效识别开关与指示灯位置与状态并具有良好稳定性。

本发明的技术方案包括以下步骤：

1)采集包含有指示灯目标物和/或开关目标物的屏柜样本图像；

屏柜样本图像中包含的目标物为指示灯目标物和开关目标物两类，指示灯目标物分为“亮”和“灭”的两类指示灯，开关目标物分为“开”和“合”的两类开关。

2)遍历所有屏柜样本图像，对每张图像用包围框针对目标物进行标记处理，包围框包围完整的目标物，并且包围框中非目标物的区域面积比例占包围框面积的比例小于15％，并记录包围框的左上角和右下角的横纵坐标以及包围框中目标物的种类，形成获得训练集；

目标物的种类分为四类，分别是亮的指示灯目标物、灭的指示灯目标物、开的开关目标物和关的开关目标物。

3)采用尺寸缩放方法进行缩放处理：针对训练集中具有包围框的屏柜样本图像，进行尺度缩放，分别将每张图像和包围框的长和宽中较长边变换到预设目标尺寸，较短边根据较长边变换到预设目标尺寸的缩放尺度进行相同比例缩放；

4)采用Imagenet数据集输入预训练模型进行预训练，预训练中调节预训练模型中的网络参数，即以Imagenet数据集作为预训练模型的输入，直至模型训练误差loss下降到10％以下结束训练，获得预训练后模型；

5)采用步骤3)中缩放处理后的训练集输入预训练后模型进行针对训练，即以步骤3)中缩放处理后的训练集作为预训练后模型的输入，不断迭代训练直至模型训练误差loss趋于稳定，训练结束获得的模型作为屏柜状态检测模型；

模型训练误差loss趋于稳定具体是所有迭代计算过程中的模型训练误差loss的平均值达到5％以下。

6)实时采集屏柜待测图像按照与步骤3)中相同的尺寸缩放方法进行缩放后作为步骤5)获得的屏柜状态检测模型的输入，屏柜状态检测模型输出后，将输出的四类分类的分类结果中置信度大于90％的分类结果保留，作为屏柜待测图像的最终识别结果。

本发明所述的屏柜是指变电站二次屏柜。

所述的屏柜样本图像和屏柜待测图像是指监控摄像头位于屏柜正对面，监控摄像头的镜头以水平正对屏柜中心的水平左偏差30度视角和水平右偏差30度视角之间的范围内以及以水平正对屏柜中心的从上俯视10-69度视角的范围内采集获得图像。屏柜样本图像从多个各种不同视角进行采集，获得多样的样本图像。

所述的目标物是指指示灯和/或开关。

具体实施中，所述训练集中，屏柜样本图像进行标记形成图像标记集，图像标记集采用如下的形式存储标记数据：

{image_name，label，x1，y1，x2，y2}

其中，image_name表示屏柜图像名，label表示目标物的类别，x1表示目标物包围框左上角的横坐标，y1表示目标物包围框左上角的纵坐标，x2表示目标物包围框右下角的横坐标，y2表示目标物包围框右下角的纵坐标。

所述步骤4)和步骤5)中的预训练后模型采用RCNN模型：RCNN模型主要由特征提取网络、区域检测网络、分类网络和Softmax分类器构建而成，具体是：先构建从屏柜样本图像中提取低尺度多维图像特征的特征提取网络，接着将特征提取网络的输出作为输入构建提取图像中目标物可能性区域的区域检测网络，然后将特征提取网络的输出作为输入构建将低尺度多维图像特征重新映射到与屏柜样本图像一致的尺度空间的分类网络；最后将分类网络和区域检测网络的输出共同作为Softmax分类器的输入，Softmax分类器输出分类结果并作为RCNN模型的输出。

所述的RCNN模型具体为：

所述的特征提取网络采用一个四层的卷积神经网络结构：

第一层，先使用卷积层，卷积层使用大小为7×7的48个卷积滤波器，卷积步幅为2，输出48个任意大小的特征图；获得卷积层的输出后，使用BN层(batch normalization)进行归一化处理，然后使用ReLU函数(Rectified Linear Units)作为非线性激活函数进行激活，最后再用一个窗口大小为3×3的最大池化层(Maxpooling)进行池化，最大池化层(Maxpooling)的采样步幅为2；

第二层，先使用卷积层，卷积层使用大小为5×5的96个卷积滤波器，卷积步幅为2，输出96个任意大小的特征图；获得卷积层的输出后，使用BN层(batch normalization)进行归一化处理，然后使用ReLU函数(Rectified Linear Units)作为非线性激活函数进行激活，最后再用一个窗口大小为3×3的最大池化层(Maxpooling)进行池化，最大池化层(Maxpooling)的采样步幅为2；

第三层，先使用卷积层，卷积层使用大小为3×3的96个卷积滤波器，卷积步幅为1，并设置卷积偏距pad为1使输入图的维度等于输出图，输出96个任意大小的特征图；

第四层，先使用卷积层，卷积层使用大小为3×3的48个卷积滤波器，卷积步幅为1，并设置卷积偏距pad为1，卷积后再使用ReLU函数(Rectified Linear Units)作为激活函数进行激活；

所述的区域检测网络具体采用如下结构：

先使用卷积层，卷积层使用大小为3×3的48个卷积滤波器，卷积步幅为1，输出48个任意大小的特征图；获得卷积层的输出后，采用可能性区域检测层(Proposal)对输入的特征图进行处理，以特征图的每个像素点为可能性区域的中心生成产生三种面积尺度下三种长宽比的九个可能性区域，九个可能性区域是三种面积尺度下每个面积尺度的三种长宽比的共九种情况构成，三种面积尺度分别为16384像素平方面积、65536像素平方面积、262144像素平方面积，三种长宽比1:1、1:2、2:1，计算每个可能性区域与包围框的重叠率，取重叠率大于0.7的可能性区域作为正样本，取重叠率小于0.3的可能性区域作为负样本，从正样本中选取重叠率最大的前150个可能性区域，从负样本中随机选取150个可能性区域，最终获得300个可能性区域作为预测可能性区域；

获得预测可能性区域后，再采用两个全连接层处理输出256维的特征，然后使用边框回归层(smoothL1Loss Layer)处理，边框回归层输出边框，获得边框的四个元素，四个元素分别是边框回归层所输出边框的左上角的横纵坐标x、y和边框回归层所输出边框的宽w、高h；以边框作为目标物可能性区域，为目标位置的真实区域；

所述分类网络具体采用如下结构：

针对输入的每一个特征图使用一个池化层处理，输出的特征图固定为7×7，然后将输出的特征图输入一个三层的全连接网络，其中第一层全连接网络具有1000个维度输出，第二层具有256个维度输出，第三层具有4个维度输出，第三层的全连接网络的输出输入到Softmax分类器。

所述特征提取网络采用的BN层(batch normalization)的计算具体是：

其中，i表示卷积层输出的特征图中像素点的编号，x_i表示卷积层输出的特征图中像素点的像素值，m表示卷积层输出的特征图中像素点的数量，μ_B表示卷积层输出的特征图中所有像素点像素值的均值，

表示卷积层输出的特征图中所有像素点像素值的方差，ε表示BN层的归一化偏置，

表示卷积层输出的特征图中第i个像素点x_i像素值的归一化值，γ表示BN层的学习权重，β表示BN层的学习偏置，y_i表示BN层的输出值。

本发明具有的有益效果是：

相比于以往的屏柜的开关与指示灯定位和状态识别方法，本发明方法准确率高，鲁棒性好，且对其他类型的屏柜具有通用性；

根据屏柜的特点，本发明选择了训练RCNN神经网络模型的方式充分利用了神经网络提取低维度图像特征的能力，弥补了传统方法特征描述不足或难以选择合适特征的缺陷；

由于RCNN是基于神经网络的方法，具有神经网络的优点，而在开关检测过程中图像背景往往比较复杂，并且容易受到各种因素的干扰，比如遮挡、噪声等，将RCNN应用到屏柜状态的检测中能够在一定程度上减少各种因素的干扰，提高屏柜目标物状态判别与定位的准确率。

通过RCNN的特征提取框架来描述输入图像与检测目标之间的关系，减少目标的错误检测，避免非极大值抑制的步骤，解决多个目标物的状态检测与定位问题。

本发明方法完全不受图像中高斯噪声和椒盐噪声的影响，且在分辨率人眼无法分辨的情况下也能够准确地检测与定位出待检测屏柜图像中的目标物，具有较强的抗干扰能力。

附图说明

图1为实施例测试样本图像。

图2为实施例为图1中实施例测试样本图像在一般情况下的屏柜开关与指示灯定位和状态识别结果。

图3为实施例为图1中实施例测试样本图像在高斯噪声与椒盐噪声下的屏柜开关与指示灯定位和状态识别。

图4为实施例为图1中实施例测试样本图像在光线不足的情况下的屏柜开关与指示灯定位和状态识别。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

按照本发明发明方法实施的实施例如下：

实验图像共有400张，其中用于训练的图像有200张，每种开关与指示灯状态的图像各有50张，其余200张图像作为测试集图像。由于每张实验图像包含至少10个的不同状态的开关和指示灯，因此，正训练样本至少有2000个目标物。负训练集从每张训练样本图像背景区域中提取，共提取与正样本相同数量的背景块。

本实施例典型的样本图像如图1，图1(a)为变电站二次屏柜上小型指示灯的指示灯图像，图1(b)为变电站二次屏柜上大型指示灯的指示灯图像，图1(c)为变电站二次屏柜上开关的开关图像。

采用RCNN模型去检测开关和指示灯的测试图像，得到的结果如表1和表2所示：

表1开关状态检测结果

表2指示灯状态检测结果

从表1中可以看出，用开关状态检测的准确率达到94.3％；从表2中可以看出，指示灯状态检测的准确率为93％。因此，可以根据屏柜开关与指示灯的状态检测结果判断屏柜的运行状态。

图2为常规情况下本发明方法的检测和定位结果示意。其中，图2(a)为在一般情况下小型指示灯实施例测试样本图像，图2(b)为在一般情况下小型指示灯实施例测试样本图像的“亮”状态识别图，图2(c)为在一般情况下小型指示灯实施例测试样本图像的“灭”状态识别图，图2(d)为在一般情况下大型指示灯实施例测试样本图像，图2(e)为在一般情况下大型指示灯实施例测试样本图像的“亮”状态识别图，图2(f)为在一般情况下大型指示灯实施例测试样本图像的“灭”状态识别图，图2(g)为在一般情况下小型指示灯实施例测试样本图像，图2(h)为在一般情况下开关实施例测试样本图像的“开”状态识别图，图2(i)为在一般情况下开关实施例测试样本图像的“关”状态识别图。

并且，本发明实施例同时对多种不同情况进行实施，在高斯噪声与椒盐噪声下的实施例结果如图3所示，在光线不足的情况下的实施例结果如图4所示。

图3中，图3(a)为在高斯噪声与椒盐噪声下小型指示灯实施例测试样本图像，图3(b)为在高斯噪声与椒盐噪声下小型指示灯实施例测试样本图像的“亮”状态识别图，图3(c)为在高斯噪声与椒盐噪声下小型指示灯实施例测试样本图像的“灭”状态识别图，图3(d)为在高斯噪声与椒盐噪声下为大型指示灯实施例测试样本图像，图3(e)为在高斯噪声与椒盐噪声下大型指示灯实施例测试样本图像的“亮”状态识别图，图3(f)为在高斯噪声与椒盐噪声下大型指示灯实施例测试样本图像的“灭”状态识别图，图3(g)为在高斯噪声与椒盐噪声下小型指示灯实施例测试样本图像，图3(h)为在高斯噪声与椒盐噪声下开关实施例测试样本图像的“开”状态识别图，图3(i)为在高斯噪声与椒盐噪声下开关实施例测试样本图像的“关”状态识别图。

图4中，图4(a)为在光线不足的情况下小型指示灯实施例测试样本图像，图4(b)为在光线不足的情况下小型指示灯实施例测试样本图像的“亮”状态识别图，图4(c)为在光线不足的情况下小型指示灯实施例测试样本图像的“灭”状态识别图，图4(d)为在光线不足的情况下大型指示灯实施例测试样本图像，图4(e)为在光线不足的情况下大型指示灯实施例测试样本图像的“亮”状态识别图，图4(f)为在光线不足的情况下大型指示灯实施例测试样本图像的“灭”状态识别图，图4(g)为在光线不足的情况下小型指示灯实施例测试样本图像，图4(h)为在光线不足的情况下开关实施例测试样本图像的“开”状态识别图，图4(i)为在光线不足的情况下开关实施例测试样本图像的“关”状态识别图。

椒盐噪声和高斯噪声是数字图像处理领域内最常见的两种噪声，图3表示在待检测图像中加入高斯噪声情况下开关与指示灯状态检测和定位效果。从实验结果来看，本方法完全不受图像中两种噪声的影响，能够准确地检测与定位出待检测图像中的开关指示灯，具有较强的抗干扰能力，为下一步的屏柜运行状态判别做好准备。

在图4中可看到，在光线不足的情况下，本发明方法也能够准确地检测与定位出图像中的开关与指示灯，这可以让摄像机的摆放位置以及巡检机器人的定点巡检位置更加自由，可以有效地应对一些复杂的环境状况。

由此可见，本发明能够实现屏柜开关与指示灯状态检测和定位，具有较高的准确率，并且具有稳定性好，抗干扰能力强，通用性高等优点，对分辨率不足也具有鲁棒性，能够应用于机器人巡检系统或者是智能视频监控系统。

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于RCNN的屏柜的开关与指示灯定位和状态识别方法，包括以下步骤：

2)遍历所有屏柜样本图像，对每张图像用包围框针对目标物进行标记处理，包围框包围完整的目标物，并记录包围框的左上角和右下角的横纵坐标以及包围框中目标物的种类，形成获得训练集；

3)采用尺寸缩放方法进行缩放处理：针对训练集中具有包围框的屏柜样本图像，进行尺度缩放，分别将每张图像和包围框中较长边变换到预设目标尺寸，较短边根据较长边变换到预设目标尺寸的缩放尺度进行相同比例缩放；

4)采用Imagenet数据集输入预训练模型进行预训练，预训练中调节预训练模型中的网络参数，直至模型训练误差loss下降到10％以下结束训练，获得预训练后模型；

5)采用步骤3)中缩放处理后的训练集输入预训练后模型进行针对训练，不断迭代训练直至模型训练误差loss趋于稳定，训练结束获得的模型作为屏柜状态检测模型；

6)实时采集屏柜待测图像按照与步骤3)中相同的尺寸缩放方法进行缩放后作为步骤5)获得的屏柜状态检测模型的输入，屏柜状态检测模型输出后，将输出的分类结果中置信度大于90％的分类结果保留，作为屏柜待测图像的最终识别结果；

所述步骤4)和步骤5)中的预训练后模型采用RCNN模型：RCNN模型由特征提取网络、区域检测网络、分类网络和Softmax分类器构建而成，具体是：先构建从屏柜样本图像中提取多维图像特征的特征提取网络，接着将特征提取网络的输出作为输入构建提取图像中目标物可能性区域的区域检测网络，然后将特征提取网络的输出作为输入构建将多维图像特征重新映射到与屏柜样本图像一致的尺度空间的分类网络；最后将分类网络和区域检测网络的输出共同作为Softmax分类器的输入，Softmax分类器输出分类结果并作为RCNN模型的输出；

所述的RCNN模型具体为：

所述的特征提取网络采用一个四层的卷积神经网络结构：

第一层，先使用卷积层，卷积层使用大小为7×7的48个卷积滤波器，卷积步幅为2，输出48个任意大小的特征图；获得卷积层的输出后，使用BN层进行归一化处理，然后使用ReLU函数作为激活函数进行激活，最后再用一个窗口大小为3×3的最大池化层进行池化，最大池化层的采样步幅为2；

第二层，先使用卷积层，卷积层使用大小为5×5的96个卷积滤波器，卷积步幅为2，输出96个任意大小的特征图；获得卷积层的输出后，使用BN层进行归一化处理，然后使用ReLU函数作为非线性激活函数进行激活，最后再用一个窗口大小为3×3的最大池化层进行池化，最大池化层的采样步幅为2；

第四层，先使用卷积层，卷积层使用大小为3×3的48个卷积滤波器，卷积步幅为1，并设置卷积偏距pad为1，卷积后再使用ReLU函数作为激活函数进行激活；

所述的区域检测网络具体采用如下结构：

先使用卷积层，卷积层使用大小为3×3的48个卷积滤波器，卷积步幅为1，输出48个任意大小的特征图；获得卷积层的输出后，采用可能性区域检测层对输入的特征图进行处理，以特征图的每个像素点为可能性区域的中心生成产生三种面积尺度下三种长宽比的九个可能性区域，三种面积尺度分别为16384像素平方面积、65536像素平方面积、262144像素平方面积，三种长宽比1:1、1:2、2:1，计算每个可能性区域与包围框的重叠率，取重叠率大于0.7的可能性区域作为正样本，取重叠率小于0.3的可能性区域作为负样本，从正样本中选取重叠率最大的前150个可能性区域，从负样本中随机选取150个可能性区域，最终获得300个可能性区域作为预测可能性区域；

获得预测可能性区域后，再采用两个全连接层处理输出256维的特征，然后使用边框回归层处理，边框回归层输出边框，获得边框的四个元素，四个元素分别是边框回归层所输出边框的左上角的横纵坐标x、y和边框回归层所输出边框的宽w、高h；以边框作为目标物可能性区域；

所述分类网络具体采用如下结构：

针对输入的每一个特征图使用一个池化层处理，输出的特征图固定为7×7，然后将输出的特征图输入一个三层的全连接网络，其中第一层全连接网络具有1000个维度输出，第二层具有256个维度输出，第三层具有4个维度输出，第三层的全连接网络的输出输入到Softmax分类器；

所述特征提取网络采用的BN层的计算具体是：

2.根据权利要求1所述的一种基于RCNN的屏柜的开关与指示灯定位和状态识别方法，其特征在于：

所述的屏柜样本图像和屏柜待测图像是指监控摄像头位于屏柜正对面，监控摄像头的镜头以水平正对屏柜中心的水平左偏差30度视角和水平右偏差30度视角之间的范围内以及以水平正对屏柜中心的从上俯视10-69度视角的范围内采集获得图像。