CN115082922A

CN115082922A - 基于深度学习的水表数字图片处理方法及系统

Info

Publication number: CN115082922A
Application number: CN202211015508.XA
Authority: CN
Inventors: 于卫国; 王文春; 陈义波; 李博; 陈刚
Original assignee: Jinan Richnes Electronic Co ltd
Current assignee: Jinan Richnes Electronic Co ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-09-20

Abstract

本发明属于图像处理技术领域，为了解决不同类型的仪表上的图像难以区分的问题，提供了一种基于深度学习的水表数字图片处理方法及系统。其中，该方法包括从待处理的水表数字图片中截取出水表数字区域，并对所述水表数字区域进行特征增强处理；使用轻量级网络提取增强处理后的水表数字区域中的特征；基于BiLSTM对所提取的特征再次进行增强，提取出包含上下文信息的序列特征，再使用全连接层对序列特征进行分类，预测出相应字符；其中，所述BiLSTM中包含纵向残差结构，用于缓解遗忘门造成的信息丢失。其具有更高的正确率和更好的实时性的优点。

Description

基于深度学习的水表数字图片处理方法及系统

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于深度学习的水表数字图片处理方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

通过计算机视觉融合深度学习技术来代替传统的计算机视觉技术进行内容读取，能解决传统的计算机视觉技术中存在的一些问题。如：图像自身会携带一定的噪声；摄像机拍摄时会存在拍摄角度的问题，因此图像内容可能会存在倾斜状况；水表老化或者表盖上面存在污迹导致采集的图片不够清晰等，会为后期的水表数字识别带来不利的影响。

发明人发现，现有的基于视觉的水表数字检识别方法，大都使用卷积神经网络进行特征提取，然后通过分类网络进行分类完成数字检测和识别，这样做导致不同类型的仪表上的图像难以区分，使得训练的神经网络对不同的仪表的分类结果并不理想，导致正确率低，耗时长。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于深度学习的水表数字图片处理方法及系统，其具有更高的正确率和更好的实时性的优点。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于深度学习的水表数字图片处理方法，其包括：

从待处理的水表数字图片中截取出水表数字区域，并对所述水表数字区域进行特征增强处理；

使用轻量级网络提取增强处理后的水表数字区域中的特征；

基于BiLSTM对所提取的特征再次进行增强，提取出包含上下文信息的序列特征，再使用全连接层对序列特征进行分类，预测出相应字符；其中，所述BiLSTM中包含纵向残差结构，用于缓解遗忘门造成的信息丢失。

作为一种实施方式，使用轻量级网络提取增强处理后的水表数字区域中的特征之前，还包括：

使用空间变换方法进行图像变换，将倾斜弯曲的文本调正。

作为一种实施方式，使用轻量级网络MobileNetv3提取增强处理后的水表数字区域中的特征。

作为一种实施方式，采用YOLOv5网络结构从待处理的水表数字图片中识别出水表数字区域，进而截取出水表数字区域。

作为一种实施方式，使用分段线性变换和边缘检测方法对所述水表数字区域进行特征增强处理。

本发明的第二个方面提供一种基于深度学习的水表数字图片处理系统，其包括：

目标检测及增强处理模块，其用于从待处理的水表数字图片中截取出水表数字区域，并对所述水表数字区域进行特征增强处理；

图像特征提取模块，其用于使用轻量级网络提取增强处理后的水表数字区域中的特征；

字符预测模块，其用于基于BiLSTM对所提取的特征再次进行增强，提取出包含上下文信息的序列特征，再使用全连接层对序列特征进行分类，预测出相应字符；其中，所述BiLSTM中包含纵向残差结构，用于缓解遗忘门造成的信息丢失。

作为一种实施方式，所述的基于深度学习的水表数字图片处理系统，还包括修改正模块，其用于：

使用轻量级网络提取增强处理后的水表数字区域中的特征之前，使用空间变换方法进行图像变换，将倾斜弯曲的文本调正。

作为一种实施方式，在所述目标检测及增强处理模块中，使用分段线性变换和边缘检测方法对所述水表数字区域进行特征增强处理。

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于深度学习的水表数字图片处理方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于深度学习的水表数字图片处理方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明基于深度学习对水表数字图片进行检测、分割与识别，使用YOLOv5（YouOnly Look Once）进行检测框的划分，然后对图像特征进行了增强，从而缓解了水表上数字不清晰的问题，最后使用轻量级网络和BiLSTM（Bi-directional Long Short-TermMemory）进行特征提取完成分类，其中，BiLSTM中包含纵向残差结构，能够缓解遗忘门造成的信息丢失，最终提高了水表数字图片中的水表数字识别正确率更高，以及实时性更好。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于深度学习的水表数字图片处理方法的流程图；

图2是本发明实施例的 YOLOv5目标检测模型网络结构图；

图3 是本发明实施例的YOLOv5目标检测整体流程图；

图4是本发明实施例的IoU交并比示意图；

图5（a）表示训练过程中检测框的误差变化；

图5（b）表示训练过程中置信度的误差变化；

图5（c）表示训练过程中分类的误差变化；

图5（d）表示训练过程中评估性能精确度；

图5（e）表示训练过程中评估性能召回率；

图5（f）表示验证过程中检测框的误差变化；

图5（g）表示验证过程中置信度的误差变化；

图5（h）表示验证过程中分类的误差变化；

图5（i）表示验证过程中交并比阈值为0.5时，网络的平均精确度；

图5（j）表示验证过程中交并比阈值从0.5到0.95，步长为0.05的平均精确度；

图6是本发明实施例的 YOLOv5目标检测模型检测效果图；

图7（a）是本发明实施例的OpenCV截取出的水表数字图像示例1；

图7（b）是本发明实施例的OpenCV截取出的水表数字图像示例2；

图7（c）是本发明实施例的OpenCV截取出的水表数字图像示例3；

图7（d）是本发明实施例的OpenCV截取出的水表数字图像示例4；

图8（a）是本发明实施例截取的水表数字图像区域示例1；

图8（b）是本发明实施例截取的水表数字图像区域示例1所对应的灰度直方图；

图8（c）是本发明实施例截取的水表数字图像区域示例2；

图8（d）是本发明实施例截取的水表数字图像区域示例2所对应的灰度直方图；

图8（e）是本发明实施例截取的水表数字图像区域示例3；

图8（f）是本发明实施例截取的水表数字图像区域示例3所对应的灰度直方图；

图9（a）是本发明实施例的水表数字图像区域原图；

图9（b）是本发明实施例的水表数字图像区域经sobel算法边缘检测后效果图；

图10（a）是本发明实施例的Sobel算子中包含的第一组3*3矩阵；

图10（b）是本发明实施例的Sobel算子中包含的第二组3*3矩阵；

图11 是本发明实施例的G _xy计算矩阵；

图12 是本发明实施例的MobileNetv3和改进的BiLSTM数字识别流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

参照图1，本实施例提供一种基于深度学习的水表数字图片处理方法，其具体包括如下步骤：

步骤1：从待处理的水表数字图片中截取出水表数字区域，并对所述水表数字区域进行特征增强处理。

例如，采用YOLOv5网络结构从待处理的水表数字图片中识别出水表数字区域，进而截取出水表数字区域。

在具体实施过程中，采集水表数字图像作为样本数据集，使用labelimg对采集到的样本数据集进行水表数字区域图像的标注，得到水表数字图像对应的xml格式标签。标签中包含水表数字区域图像的左上角坐标和右下角坐标，即创建好了VOC格式数据集。再将VOC数据格式转换为YOLO格式，将xml标签信息经过归一化与坐标转换公式转化为txt格式的标签文件。

VOC格式转换为YOLO格式的具体过程如下所示：

水表数字区域图像框中心实际坐标为

，具体如式（1）和（2）所示：

（1）

（2）

归一化后的中心坐标为

，具体如式（3）和（4）所示：

（3）

（4）

水表数字区域图像框归一化后的长和高如（5）和（6）所示：

（5）

（6）

其中，

代表水表数字区域图像框左上角横坐标，

代表水表数字区域图像框左上角纵坐标，

代表水表数字区域图像框右下角横坐标，

代表水表数字区域图像框右下角纵坐标，

代表水表数字区域图像框中心点横坐标，

代表水表数字区域图像框中心点纵坐标，

代表水表数字区域图像框的长度，

代表水表数字区域图像框的高度。

通过上述过程，将每个xml标注提取的bbox信息转换为txt格式（这种数据集格式为yolo_txt格式），从而将标签与图像创建成YOLOv5可以训练的水表数字图像数据集。

YOLOv5的网络结构如图2所示，YOLOv5目标检测流程如图3所示。

YOLOv5单阶段目标检测模型主要由四部分组成：①输入端在模型训练阶段，采用了Mosaic数据增强、采用Mosaic数据增强方法，不仅使图片能丰富检测目标的背景，而且能够提高小目标的检测效果。并且在BN计算的时候一次性会处理四张图片。自适应锚框计算、自适应图片缩放；②主干网络：融合其它检测算法中的一些新思路，主要包括：Focus结构与CSP结构；③颈部网络：在主干网络与最终输出层之间添加了FPN+PAN结构；④输出端：采用L _CIoU做检测框的损失函数。

为损失函数，如式（7）所示：

（7）

其中，

分别表示预测框和目标的中心点，两者之间距离采用欧式距离

。

代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。

为权重，

衡量长宽比的相似度，

为

区域的交并比

，如图4所示。

使用创建好的数据集对水表数字图像区域检测模型YOLOv5进行训练调参，得到最优模型，训练过程的损失变化及MAP评价指标，边界框回归、目标回归、分类回归损失均降至基本平稳，且观察验证集损失，并未出现过拟合情况，目标检测准确率可以达到95%，部分目标检测效果图如图6所示。

其中，图5（a）表示训练过程中检测框的误差变化，随着训练次数的增加，误差越来越小，即检测框越来越精确。图5（b）表示训练过程中置信度的误差变化，随着训练次数的增加，误差越来越小，即置信度越来越高。图5（c）表示训练过程中分类的误差变化，维持在0不变，说明分类全部正确。图5（d）表示训练过程中评估性能精确度，随着训练次数的增加，精确度越来越大，表示误检率降低。图5（e）表示训练过程中评估性能召回率，随着训练次数的增加，召回率越来越大，表示漏检率降低。图5（f）表示验证过程中检测框的误差变化。图5（g）表示验证过程中置信度的误差变化。图5（h）表示验证过程中分类的误差变化。图5（i）表示验证过程交并比阈值为0.5时，网络的平均精确度。图5（j）表示验证过程交并比阈值从0.5到0.95，步长为0.05上的平均精确度。

在对目标进行分割时，①推理出水表数字区域坐标。使用训练得到的最优模型，推理出水表需要识别的数字图像区域的坐标位置，并输出为txt格式文件，文件中包含水表数字区域图像的坐标。

②截取出水表数字区域。使用①输出的txt格式的坐标位置信息与原始图片数据一一对应进行截取，截取出水表数字区域图像如图7（a）-图7（d）所示。

在具体实施过程中，为了使识别水表数字区域更加精确，缓解水表上数字不清晰的问题，本发明对图像进行了增强变换。对截取出的如图8（a）、图8（c）和图8（e）中的图像进行灰度直方图统计如图8（b）、图8（d）和图8（f）所示，但是图像的灰度值过于集中，图像的对比度较低。所以采用了分段线性变换，使图像的灰度值保持均匀分布，数字图像特征更加明显。为了使数字图像在特征提取更加准确，采用了多种边缘检测算子进行试验，最终发现Sobel算法滤波后的结果最清晰，Sobel算法处理后的效果如图9（b）所示。其中，本实施例的水表数字图像区域原图如图9（a）所示。

Sobel算法的具体过程如下：

Sobel算法的核心就是Sobel算子，该算子包含两组3*3的矩阵，如图10（a）和图10（b）所示。

对于图像而言，取3行3列的图像数据，将图像数据与对应位置的算子的值相乘再相加，得到x方向的图像灰度值

和y方向的图像灰度值

，将得到的

和

取平方后相加，再取算术平方根，得到

，近似值为

和

绝对值之和，将计算得到的

与本发明设定的阈值相比较，

如果大于阈值，表示该点为边界点，此点显示黑点，否则显示白点。根据图11所示的矩阵，得到

、

和

的计算公式如下：

步骤2：使用轻量级网络提取增强处理后的水表数字区域中的特征。

其中，使用轻量级网络提取增强处理后的水表数字区域中的特征之前，还包括：

使用空间变换方法进行图像变换，将倾斜弯曲的文本调正。

具体地，使用轻量级网络MobileNetv3提取增强处理后的水表数字区域中的特征。

以训练轻量级网络MobileNetv3为例：

使用PPOCRLabel对数据集进行标定，然后使用MobileNetv3和改进的BiLSTM对水表中的数字进行识别，数字识别的整体流程如图12所示。

1）PPOCRLabel是一款适用于OCR领域的半自动化图形标注工具，内置PPOCR模型对数据自动标注和重新识别。本发明使用PPOCRLabel半自动化标注创建水表数字数据集，PPOCRLabel将水表中的数字标注出来，形成数据集的标签。

2）使用MobileNetv3和改进的BiLSTM进行水表中的数字识别。首先，本发明使用空间变换方法进行图像变换，将倾斜弯曲的文本调正，从而降低后续网络特征提取的难度。然后，选取MobileNetv3进行特征提取，MobileNetv3是一种轻量级网络，具有分类精度高，速度快的优点。

步骤3：基于BiLSTM对所提取的特征再次进行增强，提取出包含上下文信息的序列特征，再使用全连接层对序列特征进行分类，预测出相应字符；其中，所述BiLSTM中包含纵向残差结构，用于缓解遗忘门造成的信息丢失。

BiLSTM由前向和反向的LSTM组成，LSTM主要由存储单元组成，存储单元由三个门结构和一个单元状态组成，输入门控制保存哪些信息到细胞状态，遗忘门决定历史细胞状态中信息的保留，输出门控制哪些细胞状态被导出，本发明在原有的LSTM上引入纵向残差结构，以缓解LSTM的遗忘门造成的信息丢失，记忆单元和残差结构的过程可以用以下公式表示：

　　　（8）

　（9）

　　　　　　　　　（10）

　　　　　　　　　　　　　　（11）

其中，

是权重矩阵，

是偏差向量，

分别表示第t+1帧图像的遗忘门、输入门和输出门的输出，

是第t+1帧图像的细胞状态，

是第t帧图像的细胞状态，

是第t+1帧图像的特征图和存储单元的输出向量，

是第t帧图像的存储单元的输出向量，

是第t+1帧图像的残差结构的结果；

是激活函数，

是双正切函数。

经过上述所有操作，完成了对水表数字的调整，特征提取，特征增强和最终的数字识别。

实施例二

本实施例提供了一种基于深度学习的水表数字图片处理系统，其包括如下模块：

（1）目标检测及增强处理模块，其用于从待处理的水表数字图片中截取出水表数字区域，并对所述水表数字区域进行特征增强处理；

具体地，在所述目标检测及增强处理模块中，使用分段线性变换和边缘检测方法对所述水表数字区域进行特征增强处理。

（2）图像特征提取模块，其用于使用轻量级网络提取增强处理后的水表数字区域中的特征；

（3）字符预测模块，其用于基于BiLSTM对所提取的特征再次进行增强，提取出包含上下文信息的序列特征，再使用全连接层对序列特征进行分类，预测出相应字符；其中，所述BiLSTM中包含纵向残差结构，用于缓解遗忘门造成的信息丢失。

在一个或多个实施例中，所述的基于深度学习的水表数字图片处理系统，还包括修改正模块，其用于：

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于深度学习的水表数字图片处理方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于深度学习的水表数字图片处理方法中的步骤。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的水表数字图片处理方法，其特征在于，包括：

使用轻量级网络提取增强处理后的水表数字区域中的特征；

2.如权利要求1所述的基于深度学习的水表数字图片处理方法，其特征在于，使用轻量级网络提取增强处理后的水表数字区域中的特征之前，还包括：

使用空间变换方法进行图像变换，将倾斜弯曲的文本调正。

3.如权利要求1所述的基于深度学习的水表数字图片处理方法，其特征在于，使用轻量级网络MobileNetv3提取增强处理后的水表数字区域中的特征。

4.如权利要求1所述的基于深度学习的水表数字图片处理方法，其特征在于，采用YOLOv5网络结构从待处理的水表数字图片中识别出水表数字区域，进而截取出水表数字区域。

5.如权利要求1所述的基于深度学习的水表数字图片处理方法，其特征在于，使用分段线性变换和边缘检测方法对所述水表数字区域进行特征增强处理。

6.一种基于深度学习的水表数字图片处理系统，其特征在于，包括：

7.如权利要求6所述的基于深度学习的水表数字图片处理系统，其特征在于，还包括修改正模块，其用于：

8.如权利要求6所述的基于深度学习的水表数字图片处理系统，其特征在于，在所述目标检测及增强处理模块中，使用分段线性变换和边缘检测方法对所述水表数字区域进行特征增强处理。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的基于深度学习的水表数字图片处理方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的基于深度学习的水表数字图片处理方法中的步骤。