CN113139541A

CN113139541A - 一种基于深度学习的配电柜表盘数码管视觉识别方法

Info

Publication number: CN113139541A
Application number: CN202110444655.8A
Authority: CN
Inventors: 吕红强; 李林; 郑辑光; 陈亮; 周攀; 王希仁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-04-24
Filing date: 2021-04-24
Publication date: 2021-07-20
Anticipated expiration: 2041-04-24
Also published as: CN113139541B

Abstract

本发明一种基于深度学习的配电柜表盘数码管视觉识别方法，现场相机采集配电柜表盘图像，并通过无线传输设备发送至远程控制平台；在远程控制平台，通过数字区域定位和字符分割，将字符图像归一化得到标准像素尺寸后标记，生成样本数据集；构建基于深度学习的ResNet网络模型，将样本数据集按比例划分后输入网络模型中训练，训练后选取得分最高的模型作为待部署模型；将训练好的模型部署在远程控制平台，采集待测配电柜表盘图像进行预测。本发明解决了配电柜表盘数码管的识别繁琐、准确率低、设备资源浪费较多等问题，具有识别速度快、精度高、一致性强、鲁棒性好的特点，可以实际应用于现场。

Description

一种基于深度学习的配电柜表盘数码管视觉识别方法

技术领域

本发明属于计算机视觉技术领域，特别涉及一种基于深度学习的配电柜表盘数码管视觉识别方法。

背景技术

目前国家电网和通信运营商的基础设施，比如基站和机房等建有很多配电柜和数字化仪表，因其精度高安装简便等优点被广泛应用，然而，对于数字化仪表的使用，需要花费大量人力抄写、观测和统计表盘数码管数字，劳动强度大、效率低、容易出错、某些场合还存在一定的安全问题。随着信息科技的发展与人工智能的应用，诸多领域都已经开始转向了智能化发展，数字化仪表的识别也是一个比较现实的重点研究方向。目前，针对数字化仪表中数码管图像的识别已经取得了很多研究成果并提出了很多研究方法，比如：模板匹配识别法、Tesseract识别法、穿线识别法、深度卷积神经网络识别方法等。

对于基于模板匹配的表盘数码管读数识别方法的研究，采用了传统的模板匹配方法来识别字符，尽管对于和模板相似度较高的字符识别精度较高，然而由于模板匹配方法本身的局限性，使得表盘数码管读数识别的整体准确率不是很高。对于基于Tesseract识别的方法研究，需要使用Tesseract光学字符识别引擎对表盘数码管的字符图像进行识别，虽然基本上能够对表盘数码管的字符图像进行识别，但是费时、复杂度较高、准确率不具备竞争性，因此在实际中一般不采用此种方法。对于基于穿线法的表盘数码管识别方法，是根据7段数码管的特征，即由7个显示段组成，每个段都有垂直或者水平显示段，垂直有4个水平有3个，每段的粗细和长短基本一致，穿线法根据这些特征来扫描，进而判断实际显示的数字，达到识别的目的，然而由于扫描算法时间复杂度较高，因此也不适用于对实时性有要求的方案设计中。

发明内容

为了克服上述现有技术的缺点，针对配电柜表盘数码管的识别存在的识别繁琐、准确率低、设备资源浪费较多等技术问题，本发明的目的在于提供一种基于深度学习的配电柜表盘数码管视觉识别方法，识别速度快、精度高、一致性强、鲁棒性好，可以实际应用于现场。

为了实现上述目的，本发明采用的技术方案是：

一种基于深度学习的配电柜表盘数码管视觉识别方法，包括如下步骤：

步骤1：现场相机采集配电柜表盘图像，并通过无线传输设备发送至远程控制平台；

步骤2：在远程控制平台，通过数字区域定位和字符分割，将字符图像归一化得到标准像素尺寸后标记，生成样本数据集；

步骤3：构建基于深度学习的ResNet网络模型，将样本数据集按比例划分后输入网络模型中训练，训练后选取得分最高的模型作为待部署模型；

步骤4：将训练好的模型部署在远程控制平台，采集待测配电柜表盘图像进行预测。

进一步地，所述的配电柜为电力设备标准配电柜，表盘为配电柜上若干个显示相关电力值的数字表盘，所述的数码管为LED七段数码管，所述无线传输设备为采用数字微波传输的标准无线传输设备，所述现场相机基于远程控制平台，采用C++接口逐个读取各个现场的配电柜表盘图像。

进一步地，所述步骤2中，对配电柜表盘图像采用R通道灰度化处理，通过高斯滤波并进行平滑处理，消除噪声，然后进行数字区域定位。

进一步地，所述数字区域定位的方法是：标注感兴趣区域，将标注点引向四周，提取四个角的像素点特征，提取感兴趣区域，即图像中的数字区域，同时进行角度矫正；所述字符分割的方法是：在数字区域中，根据水平垂直投影切割最小字符区域，然后依据先验信息数字高宽比和行列数，等分切割出单字符；所述将字符图像归一化得到标准像素尺寸后标记的方法是：将分割好的数字字符按照20*50像素标准化，分别将数字1至9标记为文件夹1至9，将带有小数点的“1.”至“9.”字符标记为文件夹10至19，一共20类样本数据集。

进一步地，切割出单字符之后，将提取的数码管字符的二值化图像在竖直方向投影，投影公式为：

其中，S_j为第j列的图像像素值为255的像素点的和，i、j分别为图像像素点的行列坐标，cols是图像的列宽，P(i，j)取值0或者1，当坐标(i，j)点的像素点的灰度值为255时，P(i，j)取值为1，否则为0；以图像的行号作为横轴，以对应每行的灰度值为255的像素点数目作为纵轴生成投影直方图，扫描投影直方图，提取最大最小的边界坐标点，从而得到数码管字符的上下边界，进而达到字符分割的目的。

进一步地，所述步骤3中，配置Linux+GPU服务器环境，创建基于Keras框架的深度学习沙盒环境，安装包括keras-2.0.8、tensorflow-gpu-1.10.0、opencv-python-4.4.0在内的需求package，采用CNN特征提取、残差学习的ResNet网络学习方式，基于GitHub的代码框架完成深度学习ResNet网络环境的配置和模型的搭建。

进一步地，将样本数据集按训练集∶验证集∶测试集为8∶1∶1的比例划分，并采用Keras中的ImageDataGenerator方法对训练集和验证集进行数据扩增，之后将扩增后的数据作为网络模型训练的输入，训练过程中采用网格化测试方法对模型网络参数进行训练，在测试集中选取得分最高的网络模型作为最终训练成功的待部署模型。

进一步地，所述步骤4中，采用C++中的frugally-deep读取keras框架下训练好的待部署模型，首先将python工程下的“.h5”模型文件转为C++工程下的“.json”模型，然后依赖于三个头文件库FunctionalPlus,Eigen和json，完成C++下深度学习模型的部署。

进一步地，所述步骤2中，还进行单位区域定位和判断，并将预测的数字和判断出来的单位通过字符组合，得到最终的预测识别结果。

进一步地，所述单位区域定位的方法是：根据标注点确定的数字区域和表盘单位区域覆盖范围特征，确定单位区域的四个角的像素点特征并提取，从而定位到单位区域；判断的方法是：首先根据表盘的静态参数表获取单位区域行、列数，然后按照投影法行列切割，之后选取对第一行的分割后图像，统计像素点的平均灰度值，最高平均灰度值图像的列数信息提取出来，最后查询表盘静态参数表，根据列数信息确定最终识别的单位。

与现有技术相比，本发明的有益效果是：

本发明提出了一种基于深度学习的配电柜表盘数码管视觉识别方法及装置，装置包括配电柜、现场相机、无线传输设备、远程控制平台等；方法上采用深度卷积神经网络识别方法，相较于模板匹配识别法准确率更高、可靠性更强，相比于Tesseract识别法部署更为简单、可操作性更强，相比于穿线识别法时间复杂度更低。总的来说，本发明较好的解决了配电柜表盘的识别问题，识别速度快、精度高、一致性好、鲁棒性强，可以实际应用于现场。

附图说明

图1是本发明配电柜数码管识别方法的场景以及硬件平台示意图。

图2是本发明配电柜数码管识别方法的流程图。

图3是本发明基于深度学习的模型训练流程图。

图4是本发明配电柜数码管数字识别的案例图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

参考图1，示出了本发明的应用场景以及相关硬件平台，包括：配电柜(带表盘)、现场相机、无线传输设备、远程控制平台等。其中：

配电柜：为电力设备标准配电柜，也即现场设备，每个配电柜有若干数字表盘，均为数字化显示装置，显示相关电力值，表盘上的数字和单位即为本发明识别的目标，其采用LED七段数码管；每个现场有若干配电柜，整个平台需要识别的现场也有若干个，由此构成一个发散型树状结构。

现场相机：相机为合作单位自行采购的高分辨率面阵相机，能够满足现场表盘上数码管识别的清晰度，每个现场的相机的安装位置也是经过测试并最终固定下来，每个相机安装位置不同但均确定，其基于远程控制平台，采用C++接口逐个读取各个现场的配电柜表盘图像。

无线传输设备：采用数字微波传输的标准无线传输设备，主要功能是链接远程控制平台和现场相机的通信。

远程控制平台：由合作方主要搭建的平台，作用是接收现场配电柜表盘图像、处理数据、显示处理结果、与现场设备通信；在平台上实现本发明提出的所有方法，是该系统的核心装置。

以远程控制平台为核心，接收通过无线传输设备传输来的现场相机拍摄的各地配电柜表盘数码管图像数据，在经过平台内部的算法处理后，将处理结果显示并传输到现场，为现场的其他操作提供相应的辅助。本发明的系统装置已经落地实现并发挥相应功能。

图2是本发明配电柜数码管识别方法的流程图，即软件部分，其基本步骤如下：

具体地，本发明的步骤可进一步分解为现场图像获取、图像预处理、数字区域定位、字符分割、ResNet模型预测、单位区域定位和判断、预测结果组合。详细介绍如下：

现场图像获取：基于远程控制平台，采用C++接口逐个读取各个现场的配电柜表盘图像，为下一步处理做准备。

图像预处理：采用R通道灰度化处理配电柜表盘图像，通过高斯滤波并进行平滑处理，消除噪声以及光线影响等外界因素的干扰。

数字区域、单位区域定位：标注感兴趣区域(Region of Interest，ROI)，将标注点引向四周，提取四个角的像素点特征，提取ROI区域，即图像中的目标区域数字区域和单位区域，同时通过cv：：HoughLinesP()进行角度矫正。

字符分割：在数字区域中，根据水平垂直投影切割最小字符区域，然后依据先验信息数字高宽比和行列数，等分切割出单字符；将提取的数码管字符的二值化图像在竖直方向投影，投影公式为：

其中，S_j为第j列的图像像素值为255的像素点的和，i、j分别为图像像素点的行列坐标，cols是图像的列宽，P(i，j)取值0或者1，当坐标(i，j)点的像素点的灰度值为255时，P(i，j)取值为1，否则为0；以图像的行号作为横轴，以对应每行的灰度值为255的像素点数目作为纵轴，生成投影直方图，扫描投影直方图，提取最大最小的边界坐标点，从而得到数码管字符的上下边界，进而达到字符分割的目的。

ResNet模型预测：为了适应整个系统平台的C++接口，采用C++中的frugally-deep读取keras框架下训练好的待部署模型，首先将python工程下的“.h5”模型文件转为C++工程下的“.json”模型，然后依赖于三个头文件库FunctionalPlus,Eigen和json，完成C++下深度学习模型的部署，部署好模型后即可进行预测。

单位区域定位和判断：单位区域在数字区域定位时已经操作过，单位区域的单位显示方式为单位符号对应的指示灯是否点亮，每行数字的单位只会有一个指示灯点亮，因此，对于单位的判断即判断亮灯的点亮位置；对于亮灯的判断采用模板匹配的方式找到与之对应的位置，从而确定亮灯位置；通过查询之前已经存储过的静态参数表，以及上一步确定的亮灯的位置，最终确定数字行对应单位的具体结果。具体地，根据标注点确定的数字区域和表盘单位区域覆盖范围特征，确定单位区域的四个角的像素点特征并提取，从而定位到单位区域。根据表盘的静态参数表获取单位区域行、列数，然后按照投影法行列切割，之后选取对第一行的分割后图像，统计像素点的平均灰度值，最高平均灰度值图像的列数信息提取出来，最后查询表盘静态参数表，根据列数信息确定最终识别的单位。

预测结果组合：将预测的数字和判断出来的单位通过字符组合，得到最终的预测识别的结果。

图3是本发明基于深度学习的模型训练流程图，训练流程包括：样本制备、模型训练、平台部署。

步骤1：样本制备。

获取现场表盘图像：基于远程控制平台，采用C++接口逐个读取各个现场的配电柜表盘图像cv::imread()，为下一步处理做准备。

图像预处理：采用R通道灰度化处理，通过高斯滤波并进行平滑处理，消除噪声以及光线影响等外界因素的干扰。

数字区域定位：标注感兴趣区域ROI，标注点引向四周，提取四个角的像素点特征，提取ROI区域，即图像中的目标区域数字区域和单位区域，同时通过cv::HoughLinesP()进行角度矫正。

数字字符分割：在数字区域中，根据水平垂直投影切割最小字符区域，然后依据先验信息数字高宽比和行列数，等分切割出单字符。

单字符图像归一化：将切割出来的单个字符进行标准化处理，使得图片的均值为0，方差为1。标准化处理的公式如下：

其中，μ表示图像的均值，x表示图像矩阵，N表示图像x像素数量，σ表示标准方差。

构建样本库：将分割好的数字字符按照20*50像素标准化，分别将数字1至9标记为文件夹1至9，将带有小数点的“1.”至“9.”字符标记为文件夹10至19，一共20类样本数据集。

步骤2：模型训练。

框架选择：模型开发框架选择Keras框架，配置Linux+GPU服务器环境，创建基于Keras框架的深度学习沙盒环境，安装包括keras-2.0.8、tensorflow-gpu-1.10.0、opencv-python-4.4.0在内的需求package，同时与tensorflow相配合使用。因为在训练过程的可视化方面，TensorFlow自带的TensorBoard可以增强模型的可诊断性，跟踪训练过程以及实现更方便的调试。并且Keras和TensorFlow框架更成熟，更加适用于工业上的使用。

模型选取：深度学习模型选择ResNet模型。在对比目前分类效果较好的几种深度学习模型后，发现虽然层数较少的VGG网络模型结果较好，但该模型参数数量过多，计算量较大，训练时间过长，并且随着网络越来深，网络连接会变得臃肿，存在网络退化的问题。而ResNet模型采用了残差跳跃式结构，打破了传统的神经网络n-1层的输出只能给n层作为输入的惯例，使某一层的输出可以直接跨过几层作为后面某一层的输入，不仅使神经网络的层数可以超越之前的约束，也降低了计算量和参数数目，减少了计算量。本发明采用CNN特征提取、残差学习的ResNet网络学习方式，基于GitHub的代码框架完成深度学习ResNet网络环境的配置和模型的搭建。

激活函数选取：激活函数选择ReLU，对于线性函数而言，ReLU的表达能力更强，尤其体现在深度网络中。而对于非线性函数而言，ReLU由于非负区间的梯度为常数，因此不存在梯度消失问题，使得模型的收敛速度维持在一个稳定状态。

损失函数选取：函数损失函数选择categorical_crossentropy交叉熵损失函数，用来评估实际输出(概率)与期望输出(概率)的距离，即当前训练得到的概率分布与真实分布的差异情况。公式如下：其中y为期望的输出，a为神经元实际输出。

求导可得：

可以看出，导数中没有σ′(z)这一项，权重得更新受σ(z)-y这一项影响，即受误差影响。当误差大的时候，权重更新就快，当误差小的时候，权重的更新就慢。这种损失函数更加适用于多分类问题，可以更快更准确的得到想要的结果。

模型训练：将样本数据集按训练集：验证集：测试集为8：1：1的比例划分，并采用Keras中的ImageDataGenerator方法对训练集和验证集进行数据扩增，主要包括图像的旋转、平移、错切等变换，之后将扩增后的数据作为网络模型训练的输入，训练过程中采用网格化测试方法对模型网络参数进行训练，在测试集中选取得分最高的网络模型作为最终训练成功的待部署模型。为了加快模型训练的速度，模型训练在GPU上进行。采用基于Keras深度学习框架的ResNet网络模型，将扩增数据作为网络输入，针对网络参数中的epoch、batchsize、learning rate等参数采用网格化测试方法进行训练，在测试集中选取得分最高的网络模型作为最终训练成功的待部署模型。将模型训练数据存储在h5文件中，以便后续在平台部署使用。

步骤3：平台部署。

为了适应整个系统平台的C++接口，采用C++中的frugally-deep读取keras框架下训练好的待部署模型，首先将python工程下的“.h5”模型文件转为C++工程下的“.json”模型，然后依赖于三个头文件库FunctionalPlus,Eigen和json，完成C++下深度学习模型的部署。

步骤4：采集现场图像后预测，验证方案。

将现场采集的图像预处理，R通道灰度化、高斯滤波并进行平滑处理、消除噪声后，提取ROI数字区域，然后通过投影法字符切割，将单个字符送入部署好的模型下预测，将预测结果有序记录并整合，得到预测的数字结果，与原始真实数字比较，判断设计方案的准确性和鲁棒性。

图4是本发明配电柜数码管数字识别的案例图，即选取某一个现场拍摄的配电柜表盘图像，根据本发明的方法和装置，进行识别预测。

图像输入和预处理：读取来自现场的配电柜某一个表盘的图像，首先通过ROI数字区域定位，将“239.5”这个原图像的数字区域分割出来，通过灰度化、平滑处理、降噪、角度矫正等简单的预处理，得到灰度图像“239.5”；

字符分割：采用投影法将灰度图像“239.5”行列切割，分别切割成字符“2”、字符“3”、字符“9.”和字符“5”；

基于ResNet模型预测：在部署好深度学习模型的平台进行预测，分别输入上述四个字符图像，按照之前排列好的次序分别预测，得到对应的四个字符的预测结果，分别为“2”、“3”、“9.”和“5”；

结果组合并输出：根据之前存储的组合排列顺序，将分别预测的四个结果合理组合，得到最终的预测结果为“239.5”；一轮预测识别结束之后，重新开始获取现场配电柜数码管图像，开始下一轮识别任务。

由此可见，本发明较好的解决了配电柜表盘的识别问题，识别速度快、精度高、一致性好，鲁棒性强，可以实际应用于现场。

值得注意的是，上述的具体实施方式用于解释说明本发明，仅为本发明的优选实施方案，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改、等同替换、改进等，都属于本发明的保护范围。

Claims

1.一种基于深度学习的配电柜表盘数码管视觉识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于深度学习的配电柜表盘数码管视觉识别方法，其特征在于，所述的配电柜为电力设备标准配电柜，表盘为配电柜上若干个显示相关电力值的数字表盘，所述无线传输设备为采用数字微波传输的标准无线传输设备，所述现场相机基于远程控制平台，采用C++接口逐个读取各个现场的配电柜表盘图像。

3.根据权利要求1所述基于深度学习的配电柜表盘数码管视觉识别方法，其特征在于，所述步骤2中，对配电柜表盘图像采用R通道灰度化处理，通过高斯滤波并进行平滑处理，消除噪声，然后进行数字区域定位。

4.根据权利要求1或3所述基于深度学习的配电柜表盘数码管视觉识别方法，其特征在于，所述数字区域定位的方法是：标注感兴趣区域，将标注点引向四周，提取四个角的像素点特征，提取感兴趣区域，即图像中的数字区域，同时进行角度矫正；所述字符分割的方法是：在数字区域中，根据水平垂直投影切割最小字符区域，然后依据先验信息数字高宽比和行列数，等分切割出单字符；所述将字符图像归一化得到标准像素尺寸后标记的方法是：将分割好的数字字符按照20*50像素标准化，分别将数字1至9标记为文件夹1至9，将带有小数点的“1.”至“9.”字符标记为文件夹10至19，一共20类样本数据集。

5.根据权利要求4所述基于深度学习的配电柜表盘数码管视觉识别方法，其特征在于，切割出单字符之后，将提取的数码管字符的二值化图像在竖直方向投影，投影公式为：

其中，S_j为第j列的图像像素值为255的像素点的和，i、j分别为图像像素点的行列坐标，cols是图像的列宽，P(i,j)取值0或者1，当坐标(i,j)点的像素点的灰度值为255时，P(i,j)取值为1，否则为0；以图像的行号作为横轴，以对应每行的灰度值为255的像素点数目作为纵轴生成投影直方图，扫描投影直方图，提取最大最小的边界坐标点，从而得到数码管字符的上下边界，进而达到字符分割的目的。

6.根据权利要求1所述基于深度学习的配电柜表盘数码管视觉识别方法，其特征在于，所述步骤3中，配置Linux+GPU服务器环境，创建基于Keras框架的深度学习沙盒环境，安装包括keras-2.0.8、tensorflow-gpu-1.10.0、opencv-python-4.4.0在内的需求package，采用CNN特征提取、残差学习的ResNet网络学习方式，基于GitHub的代码框架完成深度学习ResNet网络环境的配置和模型的搭建。

7.根据权利要求1或6所述基于深度学习的配电柜表盘数码管视觉识别方法，其特征在于，将样本数据集按训练集：验证集：测试集为8：1：1的比例划分，并采用Keras中的ImageDataGenerator方法对训练集和验证集进行数据扩增，之后将扩增后的数据作为网络模型训练的输入，训练过程中采用网格化测试方法对模型网络参数进行训练，在测试集中选取得分最高的网络模型作为最终训练成功的待部署模型。

8.根据权利要求1所述基于深度学习的配电柜表盘数码管视觉识别方法，其特征在于，所述步骤4中，采用C++中的frugally-deep读取keras框架下训练好的待部署模型，首先将python工程下的“.h5”模型文件转为C++工程下的“.json”模型，然后依赖于三个头文件库FunctionalPlus,Eigen和json，完成C++下深度学习模型的部署。

9.根据权利要求1所述基于深度学习的配电柜表盘数码管视觉识别方法，其特征在于，所述步骤2中，还进行单位区域定位和判断，并将预测的数字和判断出来的单位通过字符组合，得到最终的预测识别结果。

10.根据权利要求9所述基于深度学习的配电柜表盘数码管视觉识别方法，其特征在于，所述单位区域定位的方法是：根据标注点确定的数字区域和表盘单位区域覆盖范围特征，确定单位区域的四个角的像素点特征并提取，从而定位到单位区域；判断的方法是：首先根据表盘的静态参数表获取单位区域行、列数，然后按照投影法行列切割，之后选取对第一行的分割后图像，统计像素点的平均灰度值，最高平均灰度值图像的列数信息提取出来，最后查询表盘静态参数表，根据列数信息确定最终识别的单位。