CN116030453A

CN116030453A - 一种数字电气表计的识别方法、装置及设备

Info

Publication number: CN116030453A
Application number: CN202310105734.5A
Authority: CN
Inventors: 冷聪; 单绍杰
Original assignee: Zhongke Nanjing Artificial Intelligence Innovation Research Institute; Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Current assignee: Zhongke Nanjing Artificial Intelligence Innovation Research Institute; Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-04-28

Abstract

本发明提供了一种数字电气表计的识别方法、装置及设备，涉及机器视觉和人工智能领域。识别装置包括图像获取单元、数字显示区域检测单元、数字识别单元。图像获取单元用于获取待检测图像；数字显示区域检测单元用于对待检测图像进行显示区域的检测操作，并输出至数字识别单元；数字识别单元用于接收来自所述数字显示区域检测单元的显示区域图像，并执行数字识别操作。对比较常见的表计能实现90％以上的准确率。改进的YOLOV5检测模型能同时实现多个功能，剪枝后的模型推理速度能得到30％以上的加速，同时缩减了数字表计识别流程。另外本申请针对带有数字背景的LED表计读数进行了优化，采用双识别融合的方式进行输出，减少了错误输出。

Description

一种数字电气表计的识别方法、装置及设备

技术领域

本发明涉及机器视觉和人工智能领域，尤其涉及一种数字电气表计的识别方法、装置及设备。

背景技术

随着国家电网的不断建设以及城市轨道交通的发展，变电站、配电站的数量越来越多，供电部门的维护压力越来越大。传统的人工电力巡检方式不仅效率低下，而且检查质量得不到保障。随着国家大力发展智能电网，智能巡检系统代替人工完成了部分自动化巡检工作。现有的数字显示表计的自动化识别主要分为传统图像识别方法和基于深度学习的模型的算法。传统图像识别方法先对图像进行灰度化，然后边缘检测、二值化后提取数字轮廓，通过倾斜校正后确定最终的字符区域，对比模板进行识别；这类方法受背景、光线条件等因素的影响较大，检查与读数的整体准确率依然很低。基于深度学习模型的算法一般包括区域检测和文本识别两个步骤，其中文本识别采用通用的CRNN+CTC方法，虽然场景多，但是识别准确率低，实用性较差。

现有基于目标检测的数字表计读数算法虽然在一定程度上解决了缺乏稳定性、准确性的问题，但由于仅仅依靠目标检测算法，当摄像头有倾斜时，准确率就会受到影响，针对有背景的LED数字识别率大大下降，且只能识别单一类型的数字，泛化能力差。针对多种数字的表计读数算法虽然已有研究，但该方法仅过程繁琐，且针对摄像头倾斜没有提及。

发明内容

发明目的：提出一种数字电气表计的识别方法、装置及设备，以解决现有技术存在的上述问题。

技术方案：第一方面，提出一种数字电气表计的识别方法，步骤如下：

获取需要读数的数字电气表计初始图像；

对获取的所述初始图像进行预处理操作；所述预处理操作至少包括图像缩放操作和图像归一化操作，得到预处理图像；

针对所述预处理图像，识别显示区域，并输出为包围所述显示区域的矩形预测框，此为第一显示区域图像；

针对所述第一显示区域图像，利用改进YOLOv5模型检测表盘并回归出关键点；

利用所述关键点对显示字体进行水平校正；

判断表计的类型，包括LED表计和非LED表计(转轮型、液晶屏型等)；

A、若判断当前表计为LED表计，则对LED表计的所述第一显示区域图像做动态阈值二值化处理，生成第一显示区域图像的二值化mask模板；

将所述二值化mask模板与所述第一显示区域图像融合，形成第二显示区域图像；

利用SVTR_LCNet轻量化文本识别网络对所述第一显示区和第二显示区域图像进行OCR识别，将两个识别结果择优输出；

B、若判断当前表计为非LED表计，将显示区域输入到SVTR_LCNet轻量化文本识别网络，输出置信度高于预定值的结果，流程结束。

在第一方面进一步的实施例中，YOLOv5是YOLO系列中检测速度较快，轻量化程度较高的模型，但在本项目中考虑到速度及多任务的影响，在原始YOLOv5模型的基础上做了进一步改进。

在YOLOv5 V6.1基础上，将Focus层，替换成3层3x3 kernel卷积模块，从而便于模型在CPU上的部署。主干网路采用MobileNet-v3。MobileNet-v3采用了深度可分离卷积、具有线性瓶颈的倒残差结构和squeeze and excitation注意力结构的轻量级注意力模型，使用计算量小、性能良好的激活函数Hard-Swish。为了实现多种功能，参照RetinaFace的思想，添加了回归关键点分支，用于回归数字显示区域的关键点，改进后的模型实现了检测框、数字表计类别、关键点同时输出的目的。为了能够得到更快的速度，对模型进行了剪枝，在保证模型精度的情况下，剪枝率达50％，多种优化思想使得模型在模型尺寸、检测速度与检测精度各方面取得平衡。轻量化改进，使得模型在CPU上的检测精度无明显变化，推理速度得到较大程度的提升。

在第一方面进一步的实施例中，获取的所述初始图像至少应同时具备如下特征：

图像分辨率大于预定值；

表计角度偏离值在预定区间内；

所述初始图像包括各种格式的图片或视频。

在第一方面进一步的实施例中，所述图像缩放操作包括：

保持初始图像的宽高比例，根据模型输入尺寸计算宽高的缩放比例，分别调整图像的长宽尺寸到32的倍数。

在第一方面进一步的实施例中，数字电气表计的识别方法还包括：

缩放所述初始图像的长边L至32的倍数，记录缩放后长边为L_S，并记录缩放比例为S；

依据所述缩放比例S，等比例缩放所述初始图像的宽边W；

若所述宽边W依据缩放比例S缩放后W_S也为32的倍数，则图像缩放完成，此时图像尺寸为L_S×W_S，转入步骤S3；

若所述宽边依据缩放比例S缩放后W_S不为32的倍数，则搜索大于W_S且距离最近的32的整数倍W_S′；此时图像尺寸为L_S×W_S′；转入步骤S3。

在第一方面进一步的实施例中，利用所述关键点对显示字体进行水平校正的过程包括：

通过所述第一显示区域的四个角点信息计算透射矩阵，利用透射变换将显示区域矫正成同一平面上的矩形图像；

所述投射变换的公式如下：

式中，u，v是原始图片左边，对应得到变换后图片坐标x，y；其中x＝x′/w′,y＝y′/w′；

变换矩阵

拆成4部分，其中

表示线性变换；[a₃₁a₃₂]用于平移；[a₁₃a₂₃]产生透射变换；

得到：

在第一方面进一步的实施例中，所述动态阈值二值化处理的过程包括：

将第一显示区域转化为灰度图像；

对灰度图像进行高斯滤波；

统计灰度图像的灰度直方图；

对灰度直方图进行平滑处理；

从后向前计算直方图梯度变化，求出第一次和第三次变化时灰度值；

计算动态阈值，即两个灰度值的平均值。

在第一方面进一步的实施例中，所述二值化mask模板与所述第一显示区域图像融合的过程包括：

根据计算得到的所述动态阈值获取mask二值图，然后对mask进行闭运算，最后将mask图像与显示区域图像融合，形成新的显示区域图像。

在第一方面进一步的实施例中，利用SVTR_LCNet轻量化文本识别网络实现对数字进行识别，首先设计一个包含需要识别的数字、字母、符号的字典；利用本申请提出的数字合成方法生成的训练集结合真实样本训练数字识别模型。LCNet网络启用了MKLDNN之类的加速策略，但考虑到硬件端的适配性，将Hswish激活函数替换成relu激活函数，减少计算量的同时增加了部署的适用性。LCNet网络采用了SE模块，SE模块增加了CPU上的推理时间，SE模块的核心思想是网络根据loss去学习特征的权重，因此在训练时对SE模块的参数增加了L1正则化，使参数进行稀疏，在后续部署时，利用SE模块删除了部分channel，为了保证模型的精度，对修改结构后的模型进行finetune。

第二方面，提出一种数字电气表计识别装置，该装置包括图像获取单元、数字显示区域检测单元、数字识别单元。图像获取单元用于获取待检测图像；数字显示区域检测单元用于对待检测图像进行显示区域的检测操作，并输出至数字识别单元；数字识别单元用于接收来自所述数字显示区域检测单元的显示区域图像，并执行数字识别操作。

第三方面，提出一种数字表计读数识别设备，该设备包括存储器设备、输入设备、输出设备、处理器。存储器设备用于存储相关程序和数据；输入设备用于获取待检测图像；输出设备用于输出数字电气表计读数识别结果。处理器用于执行如第一方面所述的数字电气表计的识别方法；当程序执行时，运行各个模块算法，实现数字表计读数。

有益效果：本发明提出的一种数字电气表计的识别方法、装置及设备，对比较常见的表计能实现90％以上的准确率。改进的YOLOV5检测模型能同时实现多个功能，剪枝后的模型推理速度能得到30％以上的加速，同时缩减了数字表计识别流程。另外本申请针对带有数字背景的LED表计读数进行了优化，采用双识别融合的方式进行输出，减少了错误输出。

附图说明

图1是是常用数字表计的示意图。

图2是一个实施例提供的数字表计读数可应用于实际系统的架构图。

图3是一个实施例提供的数字表计读数方法流程图。

图4是一个实施例提供的设备组成图。

图5是一个实施例提供的数据合成流程图。

图6是一个实施例提供的数字表计图片处理效果图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

图1展示了常见的数字表计数字类型，上文“背景技术”部分已解释清楚，这里不再铺展。

图2展示了实施例提供的可应用的实际系统的架构结构200。如图2所示，系统分为应用端201、202、203和服务器端204。应用端包含但不限于摄像头显示屏组合设备、智能手机、平板电脑等各种显示设备以及其各种组合形式，主要功能是图像信息输入和方法运行结果显示。服务器端204为算法提供用于计算和逻辑分析的硬件设备，对输入的数字表计图片信息进行处理生成识别结果，发送至应用端，是算法模型的载体。

应用端201、202、203和服务器端204的通信可通过有线方式实现，如如光纤通信、USB通用串行总线、RS232串口等；也可通过无线方式实现，如蓝牙、无线宽带(WiFi)、超宽带(UWB)等。

图3展示了实施例提供的检测识别检验方法的流程图300，包含步骤如下：

301：获得需要读数的数字表计图片。一般是由应用端拍摄得到的(不排除远程无线传输获取)，图片质量要求清晰、表计角度不是很大，尽量正面拍摄，少角度畸变。这里的“图片”是广义上概念，包含各种图片格式和视频。

302：图片预处理。包含图像缩放操作和图像归一化操作，缩放操作是保持原始图像的宽高比例，根据模型输入尺寸计算宽高的缩放比例，调整图像尺寸到32的倍数，在保证模型精度的同时也能提升模型推理速度。例如，一张尺度为1000*810的原始图像，图像尺寸较大，如果直接原图推理，将大大增加耗时。以长边1000为准，缩放至640，缩放比例为0.64，则宽按比例应缩放为518，不是32的整数倍，则搜索大于518且距离最近的32的整倍数544。按照比例缩放后，将宽扩增到544，用像素均值进行填充。所谓图像归一化，就是通过一系列变换，将待处理的原始图像转换成相应的唯一标准形式(该标准形式图像对平移、旋转、缩放等仿射变换具有不变特性)。本案例实施的归一化是图像减去均值，然后再除以方差，将模型输入限制在0～1之间。

303：获取表计位置。对于待检测的数字表计图像，由于表计占图像比例较小，因此需要先检测到表计位置。通过改进的YOLOV5s模型检测图像中的表计，输出格式为包围表计区域的矩形预测框。

YOLOv5是YOLO系列中检测速度较快，轻量化程度较高的模型，但在本项目中考虑到速度及多任务的影响，在原始YOLOv5模型的基础上做了进一步改进。

304：利用改进的YOLOV5s检测显示区域并给出显示区域的角点信息。利用上一步获取的表计位置信息将表计剪裁出来，然后用训练的最优的改进版YOLOV5s模型检测数字显示区域，输出格式为包围文字区域的矩形预测框及显示区域的角点信息。

改进的YOLOv5s在整体方法中的作用有两点：1、完成对数字显示区域的检测；2、生成每个数字显示区域的角点信息。

305：数据显示区域校正。主要是通过显示区域的4个角点信息计算透射矩阵，利用透射变换将显示区域矫正成同一平面上的矩形图像，减少视角变换对OCR识别的干扰。透射变换是指利用透视中心、像点、目标点三点共线的条件，按透射旋转定量使承影面绕迹线旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。透射变换是将图片投影到一个新的视平面，也称作投影映射，通用的变换公式为：

u,v是原始图片左边，对应得到变换后图片坐标x,y；其x＝x′/w′,y＝y′/w′。变换矩阵

可以拆成4部分，

表示线性变换，比如scaling、shearing和ratotion。

[a₃₁a₃₂]用于平移，[a₁₃a₂₃]产生透射变换。所以可以理解成仿射等是透射变换的特殊形式。重写之前的变换公式可以得到：

所以，已知变换对应的几个点就可以求取变换公式。反之，特定的变换公式也能获得变换后的图片。

306：判断表计是否为LED表计，主要作用是为下一步做准备。

307：对LED显示区域做动态阈值二值化处理，主要作用生成显示区域的二值化mask模板，用于屏蔽LED背景文字对识别造成的影响。图像的二值化处理就是将图像上的点的灰度值为0或255，也就是将整个图像呈现出明显的黑白效果。选取一个合适的阈值将更有效的分离背景和数字；本申请设计了一个根据灰度直方图梯度求取动态阈值的方法。由于LED数码表显示区域有数字8背景，由于摄像头、光线等问题，会造成显示区域与背景接近，造成数字误识，为了解决这个问题，本申请提出了一种获取图像二值化动态阈值的方法。首先将获得的数字显示区域转换成灰度图，计算得到显示区域的灰度直方图，然后采用长度为3的核，进行最大值滤波；循环10次，将灰度直方图进行平滑，然后采用梯度法求得倒数第一个峰值与倒数第二个峰值之间的像素值，即为图像二值化的阈值，利用该值进行图像二值化，然后对二值化做形态学开运算，该方法可以有效屏蔽背景数字对显示数字的干扰。

308：获取mask与显示区域的融合图像；根据求得的动态阈值获取mask二值图，然后对mask进行闭运算，最后将mask图像与显示区域图像融合，形成新的显示区域图像。该操作主要是将背景区域的数字或字符屏蔽掉，提高OCR识别的准确率。

309：将原始LED显示区域和融合后的LED显示区域并行处理，形成一个2×H×W×3的数组，其中H指显示区域高度，W指显示区域宽度。

310：利用改进的SVTR_LCNET网络进行OCR识别。改进的SVTR_LCNET网络构造方式如下：首先设计一个包含需要识别的数字、字母、符号的字典；利用本申请提出的数字合成方法生成的训练集结合真实样本训练数字识别模型。LCNet网络启用了MKLDNN之类的加速策略，但考虑到硬件端的适配性，将Hswish激活函数替换成Relu激活函数，减少计算量的同时增加了部署的适用性。LCNet网络采用了SE模块，SE模块增加了CPU上的推理时间，SE模块的核心思想是网络根据loss去学习特征的权重，因此在训练时对SE模块的参数增加了L1正则化，使参数进行稀疏，在后续部署时，利用SE模块删除了部分channel，为了保证模型的精度，对修改结构后的模型进行finetune。

311：输出模型结果；针对LED数据表计，模型同时识别了原始图像及融合后的图像，根据两个识别置信度选择最优的结果输出，其他类型的数字表计则直接输出结果。

改进的YOLOV5s模型结构如下：将BackBone中的模块替换成了更轻量化的MobileNetV3中IR模块，如图中虚线框中所示，将激活函数替换成了性能良好的激活函数Hard-Swish。增加了landmark输出，能同时起到对检测进行监督和对显示区域进行矫正的作用，主要在原始head的基础上添加landmark分支，输出宽高与head一致，channel为8的特征图。

图4显示的是实施例提供的设备组成图500，是所述方法与装置的一种具体实现，其系统组成如下所示。

501：处理器，用于执行相关程序，实现上述文本检测识别与验证方法。处理器是指一切可运行本申请所述方法的计算设备，包含但不限于微处理器MCU、可编程门阵列FPGA、专用集成电路ASIC、系统芯片SoC等数字计算设备以及他们的各种组合形式。

502：存储器，用于存储相关指令代码，包含5021操作系统(例如Windows、MacOS、Unix、Linux)、5022计算机程序、5023运行程序所需要或保存的图片、视频数据。存储器分为内部存储器和外部存储器。内部存储器包含而不限于只读存储器ROM、可编程存储器PROM、随机存储器RAM以及其各种组合。外部存储器包括但不限于硬盘、U盘、光盘等各种外部存储设备以及其各种组合形式，内部存储器和外部存储器配合使用。

503：输入设备，包含5031图像输入设备和5032指令输入设备。5031图像输入设备包含各种图像或视频采集硬件设备，这里也包含通过图像输入设备通过云端传输服务器得情况。5032指令输入设备，包含但不限于鼠标、键盘等能输入指令的外部设备。

504：输出设备：主要作用是显示模型的输出结果，包含内容检验信息和特定内容输出信息。设备主要包含各种显示屏及其各形式组合。

图5为本申请实施例提供的数据合成方法流程图，本申请针对数字表计读数专门生成了特定数据集；LED数据及常见数字类型的数据。针对LED带有阴影背景的数据，本申请专门进行了开发，利用css层叠样式表设计了不同类型LED数字表显示样式，设计了不同背景颜色和不同字体颜色的组合，生成了符合要求的数字类型。结合实际数据来训练OCR识别模型。

图6为本申请实施例数字表计读数流程中阶段性结果，是对方法的验证总结。

首先在摄像头获取图像后，利用目标检测模型得到表计的位置及表计类型，然后利用改进的yolov5s模型得到数字区域及数字区域关键点信息，利用关键点对数据区域进行矫正，利用本申请提出的动态阈值二值化方法获取mask模板，融合后得到新的数字区域图像，将两幅图同时送入OCR识别模型，根据置信度大小选取最优结果输出。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种数字电气表计的识别方法，其特征在于，包括如下步骤：

获取需要读数的数字电气表计初始图像；

针对所述第一显示区域图像，检测表盘并回归出关键点；

利用所述关键点对显示字体进行水平校正；

判断表计的类型，标记类型包括LED表计和非LED表计；

对所述第一显示区域图像和第二显示区域同时进行OCR识别，将识别结果进行最优选择，最后输出数显结果；

B、若判断当前表计为非LED表计，直接将显示区域送入OCR模型进行识别，输出置信度高于预定值的结果，流程结束。

2.根据权利要求1所述的数字电气表计的识别方法，其特征在于，获取的所述初始图像至少应同时具备如下特征：

图像分辨率大于预定值；

表计角度偏离值在预定区间内；

所述初始图像包括各种格式的图片或视频。

3.根据权利要求1所述的数字电气表计的识别方法，其特征在于，所述图像缩放操作包括：

4.根据权利要求3所述的数字电气表计的识别方法，其特征在于，还包括：

依据所述缩放比例S，等比例缩放所述初始图像的宽边W；

5.根据权利要求1所述的数字电气表计的识别方法，其特征在于，利用所述关键点对显示字体进行水平校正的过程包括：

所述投射变换的公式如下：

变换矩阵

拆成4部分，其中

表示线性变换；[a₃₁ a₃₂]用于平移；[a₁₃ a₂₃]产生透射变换；

得到：

6.根据权利要求1所述的数字电气表计的识别方法，其特征在于，所述动态阈值二值化处理的过程包括：

将第一显示区域转化为灰度图像；

对灰度图像进行高斯滤波；

统计灰度图像的灰度直方图；

对灰度直方图进行平滑处理；

计算动态阈值，即两个灰度值的平均值。

7.根据权利要求6所述的数字电气表计的识别方法，其特征在于，所述二值化mask模板与所述第一显示区域图像融合的过程包括：

8.一种数字电气表计识别装置，其特征在于，包括：

图像获取单元，用于获取待检测图像；

数字显示区域检测单元，用于对待检测图像进行显示区域的检测操作，并输出至数字识别单元；

数字识别单元，用于接收来自所述数字显示区域检测单元的显示区域图像，并执行数字识别操作。

9.一种数字表计读数识别设备，其特征在于，包括：

存储器设备，用于存储相关程序和数据；

输入设备，用于获取待检测图像；

输出设备，用于输出数字电气表计读数识别结果。

处理器，用于执行如权利要求1至7中任一项所述的数字电气表计的识别方法；当程序执行时，运行各个模块算法，实现数字表计读数。