CN115082922A - 基于深度学习的水表数字图片处理方法及系统 - Google Patents

基于深度学习的水表数字图片处理方法及系统 Download PDF

Info

Publication number
CN115082922A
CN115082922A CN202211015508.XA CN202211015508A CN115082922A CN 115082922 A CN115082922 A CN 115082922A CN 202211015508 A CN202211015508 A CN 202211015508A CN 115082922 A CN115082922 A CN 115082922A
Authority
CN
China
Prior art keywords
water meter
meter digital
deep learning
digital picture
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211015508.XA
Other languages
English (en)
Inventor
于卫国
王文春
陈义波
李博
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Richnes Electronic Co ltd
Original Assignee
Jinan Richnes Electronic Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Richnes Electronic Co ltd filed Critical Jinan Richnes Electronic Co ltd
Priority to CN202211015508.XA priority Critical patent/CN115082922A/zh
Publication of CN115082922A publication Critical patent/CN115082922A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明属于图像处理技术领域,为了解决不同类型的仪表上的图像难以区分的问题,提供了一种基于深度学习的水表数字图片处理方法及系统。其中,该方法包括从待处理的水表数字图片中截取出水表数字区域,并对所述水表数字区域进行特征增强处理;使用轻量级网络提取增强处理后的水表数字区域中的特征;基于BiLSTM对所提取的特征再次进行增强,提取出包含上下文信息的序列特征,再使用全连接层对序列特征进行分类,预测出相应字符;其中,所述BiLSTM中包含纵向残差结构,用于缓解遗忘门造成的信息丢失。其具有更高的正确率和更好的实时性的优点。

Description

基于深度学习的水表数字图片处理方法及系统
技术领域
本发明属于图像处理技术领域,尤其涉及一种基于深度学习的水表数字图片处理方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
通过计算机视觉融合深度学习技术来代替传统的计算机视觉技术进行内容读取,能解决传统的计算机视觉技术中存在的一些问题。如:图像自身会携带一定的噪声;摄像机拍摄时会存在拍摄角度的问题,因此图像内容可能会存在倾斜状况;水表老化或者表盖上面存在污迹导致采集的图片不够清晰等,会为后期的水表数字识别带来不利的影响。
发明人发现,现有的基于视觉的水表数字检识别方法,大都使用卷积神经网络进行特征提取,然后通过分类网络进行分类完成数字检测和识别,这样做导致不同类型的仪表上的图像难以区分,使得训练的神经网络对不同的仪表的分类结果并不理想,导致正确率低,耗时长。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于深度学习的水表数字图片处理方法及系统,其具有更高的正确率和更好的实时性的优点。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于深度学习的水表数字图片处理方法,其包括:
从待处理的水表数字图片中截取出水表数字区域,并对所述水表数字区域进行特征增强处理;
使用轻量级网络提取增强处理后的水表数字区域中的特征;
基于BiLSTM对所提取的特征再次进行增强,提取出包含上下文信息的序列特征,再使用全连接层对序列特征进行分类,预测出相应字符;其中,所述BiLSTM中包含纵向残差结构,用于缓解遗忘门造成的信息丢失。
作为一种实施方式,使用轻量级网络提取增强处理后的水表数字区域中的特征之前,还包括:
使用空间变换方法进行图像变换,将倾斜弯曲的文本调正。
作为一种实施方式,使用轻量级网络MobileNetv3提取增强处理后的水表数字区域中的特征。
作为一种实施方式,采用YOLOv5网络结构从待处理的水表数字图片中识别出水表数字区域,进而截取出水表数字区域。
作为一种实施方式,使用分段线性变换和边缘检测方法对所述水表数字区域进行特征增强处理。
本发明的第二个方面提供一种基于深度学习的水表数字图片处理系统,其包括:
目标检测及增强处理模块,其用于从待处理的水表数字图片中截取出水表数字区域,并对所述水表数字区域进行特征增强处理;
图像特征提取模块,其用于使用轻量级网络提取增强处理后的水表数字区域中的特征;
字符预测模块,其用于基于BiLSTM对所提取的特征再次进行增强,提取出包含上下文信息的序列特征,再使用全连接层对序列特征进行分类,预测出相应字符;其中,所述BiLSTM中包含纵向残差结构,用于缓解遗忘门造成的信息丢失。
作为一种实施方式,所述的基于深度学习的水表数字图片处理系统,还包括修改正模块,其用于:
使用轻量级网络提取增强处理后的水表数字区域中的特征之前,使用空间变换方法进行图像变换,将倾斜弯曲的文本调正。
作为一种实施方式,在所述目标检测及增强处理模块中,使用分段线性变换和边缘检测方法对所述水表数字区域进行特征增强处理。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于深度学习的水表数字图片处理方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于深度学习的水表数字图片处理方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明基于深度学习对水表数字图片进行检测、分割与识别,使用YOLOv5(YouOnly Look Once)进行检测框的划分,然后对图像特征进行了增强,从而缓解了水表上数字不清晰的问题,最后使用轻量级网络和BiLSTM(Bi-directional Long Short-TermMemory)进行特征提取完成分类,其中,BiLSTM中包含纵向残差结构,能够缓解遗忘门造成的信息丢失,最终提高了水表数字图片中的水表数字识别正确率更高,以及实时性更好。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的基于深度学习的水表数字图片处理方法的流程图;
图2是本发明实施例的 YOLOv5目标检测模型网络结构图;
图3 是本发明实施例的YOLOv5目标检测整体流程图;
图4是本发明实施例的IoU交并比示意图;
图5(a)表示训练过程中检测框的误差变化;
图5(b)表示训练过程中置信度的误差变化;
图5(c)表示训练过程中分类的误差变化;
图5(d)表示训练过程中评估性能精确度;
图5(e)表示训练过程中评估性能召回率;
图5(f)表示验证过程中检测框的误差变化;
图5(g)表示验证过程中置信度的误差变化;
图5(h)表示验证过程中分类的误差变化;
图5(i)表示验证过程中交并比阈值为0.5时,网络的平均精确度;
图5(j)表示验证过程中交并比阈值从0.5到0.95,步长为0.05的平均精确度;
图6是本发明实施例的 YOLOv5目标检测模型检测效果图;
图7(a)是本发明实施例的OpenCV截取出的水表数字图像示例1;
图7(b)是本发明实施例的OpenCV截取出的水表数字图像示例2;
图7(c)是本发明实施例的OpenCV截取出的水表数字图像示例3;
图7(d)是本发明实施例的OpenCV截取出的水表数字图像示例4;
图8(a)是本发明实施例截取的水表数字图像区域示例1;
图8(b)是本发明实施例截取的水表数字图像区域示例1所对应的灰度直方图;
图8(c)是本发明实施例截取的水表数字图像区域示例2;
图8(d)是本发明实施例截取的水表数字图像区域示例2所对应的灰度直方图;
图8(e)是本发明实施例截取的水表数字图像区域示例3;
图8(f)是本发明实施例截取的水表数字图像区域示例3所对应的灰度直方图;
图9(a)是本发明实施例的水表数字图像区域原图;
图9(b)是本发明实施例的水表数字图像区域经sobel算法边缘检测后效果图;
图10(a)是本发明实施例的Sobel算子中包含的第一组3*3矩阵;
图10(b)是本发明实施例的Sobel算子中包含的第二组3*3矩阵;
图11 是本发明实施例的G xy 计算矩阵;
图12 是本发明实施例的MobileNetv3和改进的BiLSTM数字识别流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
参照图1,本实施例提供一种基于深度学习的水表数字图片处理方法,其具体包括如下步骤:
步骤1:从待处理的水表数字图片中截取出水表数字区域,并对所述水表数字区域进行特征增强处理。
例如,采用YOLOv5网络结构从待处理的水表数字图片中识别出水表数字区域,进而截取出水表数字区域。
在具体实施过程中,采集水表数字图像作为样本数据集,使用labelimg对采集到的样本数据集进行水表数字区域图像的标注,得到水表数字图像对应的xml格式标签。标签中包含水表数字区域图像的左上角坐标和右下角坐标,即创建好了VOC格式数据集。再将VOC数据格式转换为YOLO格式,将xml标签信息经过归一化与坐标转换公式转化为txt格式的标签文件。
VOC格式转换为YOLO格式的具体过程如下所示:
水表数字区域图像框中心实际坐标为
Figure DEST_PATH_IMAGE001
,具体如式(1)和(2)所示:
Figure 385246DEST_PATH_IMAGE002
(1)
Figure DEST_PATH_IMAGE003
(2)
归一化后的中心坐标为
Figure 14942DEST_PATH_IMAGE004
,具体如式(3)和(4)所示:
Figure DEST_PATH_IMAGE005
(3)
Figure 627320DEST_PATH_IMAGE006
(4)
水表数字区域图像框归一化后的长和高如(5)和(6)所示:
Figure DEST_PATH_IMAGE007
(5)
Figure 26071DEST_PATH_IMAGE008
(6)
其中,
Figure DEST_PATH_IMAGE009
代表水表数字区域图像框左上角横坐标,
Figure 596861DEST_PATH_IMAGE010
代表水表数字区域图像框左上角纵坐标,
Figure DEST_PATH_IMAGE011
代表水表数字区域图像框右下角横坐标,
Figure 448274DEST_PATH_IMAGE012
代表水表数字区域图像框右下角纵坐标,
Figure DEST_PATH_IMAGE013
代表水表数字区域图像框中心点横坐标,
Figure 598763DEST_PATH_IMAGE014
代表水表数字区域图像框中心点纵坐标,
Figure DEST_PATH_IMAGE015
代表水表数字区域图像框的长度,
Figure 117601DEST_PATH_IMAGE016
代表水表数字区域图像框的高度。
通过上述过程,将每个xml标注提取的bbox信息转换为txt格式(这种数据集格式为yolo_txt格式),从而将标签与图像创建成YOLOv5可以训练的水表数字图像数据集。
YOLOv5的网络结构如图2所示,YOLOv5目标检测流程如图3所示。
YOLOv5单阶段目标检测模型主要由四部分组成:①输入端在模型训练阶段,采用了Mosaic数据增强、采用Mosaic数据增强方法,不仅使图片能丰富检测目标的背景,而且能够提高小目标的检测效果。并且在BN计算的时候一次性会处理四张图片。自适应锚框计算、自适应图片缩放;②主干网络:融合其它检测算法中的一些新思路,主要包括:Focus结构与CSP结构;③颈部网络:在主干网络与最终输出层之间添加了FPN+PAN结构;④输出端:采用L CIoU 做检测框的损失函数。
Figure DEST_PATH_IMAGE017
为损失函数,如式(7)所示:
Figure 328133DEST_PATH_IMAGE018
(7)
其中,
Figure DEST_PATH_IMAGE019
分别表示预测框和目标的中心点,两者之间距离采用欧式距离
Figure 198000DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。
Figure 886602DEST_PATH_IMAGE022
为权重,
Figure DEST_PATH_IMAGE023
衡量长宽比的相似度,
Figure 259945DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
区域的交并比
Figure 172538DEST_PATH_IMAGE026
,如图4所示。
使用创建好的数据集对水表数字图像区域检测模型YOLOv5进行训练调参,得到最优模型,训练过程的损失变化及MAP评价指标,边界框回归、目标回归、分类回归损失均降至基本平稳,且观察验证集损失,并未出现过拟合情况,目标检测准确率可以达到95%,部分目标检测效果图如图6所示。
其中,图5(a)表示训练过程中检测框的误差变化,随着训练次数的增加,误差越来越小,即检测框越来越精确。图5(b)表示训练过程中置信度的误差变化,随着训练次数的增加,误差越来越小,即置信度越来越高。图5(c)表示训练过程中分类的误差变化,维持在0不变,说明分类全部正确。图5(d)表示训练过程中评估性能精确度,随着训练次数的增加,精确度越来越大,表示误检率降低。图5(e)表示训练过程中评估性能召回率,随着训练次数的增加,召回率越来越大,表示漏检率降低。图5(f)表示验证过程中检测框的误差变化。图5(g)表示验证过程中置信度的误差变化。图5(h)表示验证过程中分类的误差变化。图5(i)表示验证过程交并比阈值为0.5时,网络的平均精确度。图5(j)表示验证过程交并比阈值从0.5到0.95,步长为0.05上的平均精确度。
在对目标进行分割时,①推理出水表数字区域坐标。使用训练得到的最优模型,推理出水表需要识别的数字图像区域的坐标位置,并输出为txt格式文件,文件中包含水表数字区域图像的坐标。
②截取出水表数字区域。使用①输出的txt格式的坐标位置信息与原始图片数据一一对应进行截取,截取出水表数字区域图像如图7(a)-图7(d)所示。
在具体实施过程中,为了使识别水表数字区域更加精确,缓解水表上数字不清晰的问题,本发明对图像进行了增强变换。对截取出的如图8(a)、图8(c)和图8(e)中的图像进行灰度直方图统计如图8(b)、图8(d)和图8(f)所示,但是图像的灰度值过于集中,图像的对比度较低。所以采用了分段线性变换,使图像的灰度值保持均匀分布,数字图像特征更加明显。为了使数字图像在特征提取更加准确,采用了多种边缘检测算子进行试验,最终发现Sobel算法滤波后的结果最清晰,Sobel算法处理后的效果如图9(b)所示。其中,本实施例的水表数字图像区域原图如图9(a)所示。
Sobel算法的具体过程如下:
Sobel算法的核心就是Sobel算子,该算子包含两组3*3的矩阵,如图10(a)和图10(b)所示。
对于图像而言,取3行3列的图像数据,将图像数据与对应位置的算子的值相乘再相加,得到x方向的图像灰度值
Figure DEST_PATH_IMAGE027
y方向的图像灰度值
Figure 732963DEST_PATH_IMAGE028
,将得到的
Figure 490835DEST_PATH_IMAGE027
Figure 843319DEST_PATH_IMAGE028
取平方后相加,再取算术平方根,得到
Figure DEST_PATH_IMAGE029
,近似值为
Figure 661233DEST_PATH_IMAGE027
Figure 974534DEST_PATH_IMAGE028
绝对值之和,将计算得到的
Figure 395151DEST_PATH_IMAGE029
与本发明设定的阈值相比较,
Figure 743087DEST_PATH_IMAGE029
如果大于阈值,表示该点为边界点,此点显示黑点,否则显示白点。根据图11所示的矩阵,得到
Figure 731902DEST_PATH_IMAGE027
Figure 657133DEST_PATH_IMAGE028
Figure 756807DEST_PATH_IMAGE029
的计算公式如下:
Figure 818304DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
Figure 853387DEST_PATH_IMAGE032
步骤2:使用轻量级网络提取增强处理后的水表数字区域中的特征。
其中,使用轻量级网络提取增强处理后的水表数字区域中的特征之前,还包括:
使用空间变换方法进行图像变换,将倾斜弯曲的文本调正。
具体地,使用轻量级网络MobileNetv3提取增强处理后的水表数字区域中的特征。
以训练轻量级网络MobileNetv3为例:
使用PPOCRLabel对数据集进行标定,然后使用MobileNetv3和改进的BiLSTM对水表中的数字进行识别,数字识别的整体流程如图12所示。
1)PPOCRLabel是一款适用于OCR领域的半自动化图形标注工具,内置PPOCR模型对数据自动标注和重新识别。本发明使用PPOCRLabel半自动化标注创建水表数字数据集,PPOCRLabel将水表中的数字标注出来,形成数据集的标签。
2)使用MobileNetv3和改进的BiLSTM进行水表中的数字识别。首先,本发明使用空间变换方法进行图像变换,将倾斜弯曲的文本调正,从而降低后续网络特征提取的难度。然后,选取MobileNetv3进行特征提取,MobileNetv3是一种轻量级网络,具有分类精度高,速度快的优点。
步骤3:基于BiLSTM对所提取的特征再次进行增强,提取出包含上下文信息的序列特征,再使用全连接层对序列特征进行分类,预测出相应字符;其中,所述BiLSTM中包含纵向残差结构,用于缓解遗忘门造成的信息丢失。
BiLSTM由前向和反向的LSTM组成,LSTM主要由存储单元组成,存储单元由三个门结构和一个单元状态组成,输入门控制保存哪些信息到细胞状态,遗忘门决定历史细胞状态中信息的保留,输出门控制哪些细胞状态被导出,本发明在原有的LSTM上引入纵向残差结构,以缓解LSTM的遗忘门造成的信息丢失,记忆单元和残差结构的过程可以用以下公式表示:
Figure DEST_PATH_IMAGE033
   (8)
Figure 141280DEST_PATH_IMAGE034
 (9)
Figure DEST_PATH_IMAGE035
         (10)
Figure 44646DEST_PATH_IMAGE036
              (11)
其中,
Figure DEST_PATH_IMAGE037
是权重矩阵,
Figure 101594DEST_PATH_IMAGE038
是偏差向量,
Figure DEST_PATH_IMAGE039
分别表示第t+1帧图像的遗忘门、输入门和输出门的输出,
Figure 432213DEST_PATH_IMAGE040
是第t+1帧图像的细胞状态,
Figure DEST_PATH_IMAGE041
是第t帧图像的细胞状态,
Figure 918385DEST_PATH_IMAGE042
是第t+1帧图像的特征图和存储单元的输出向量,
Figure DEST_PATH_IMAGE043
是第t帧图像的存储单元的输出向量,
Figure 359862DEST_PATH_IMAGE044
是第t+1帧图像的残差结构的结果;
Figure DEST_PATH_IMAGE045
是激活函数,
Figure 412263DEST_PATH_IMAGE046
是双正切函数。
经过上述所有操作,完成了对水表数字的调整,特征提取,特征增强和最终的数字识别。
实施例二
本实施例提供了一种基于深度学习的水表数字图片处理系统,其包括如下模块:
(1)目标检测及增强处理模块,其用于从待处理的水表数字图片中截取出水表数字区域,并对所述水表数字区域进行特征增强处理;
具体地,在所述目标检测及增强处理模块中,使用分段线性变换和边缘检测方法对所述水表数字区域进行特征增强处理。
(2)图像特征提取模块,其用于使用轻量级网络提取增强处理后的水表数字区域中的特征;
(3)字符预测模块,其用于基于BiLSTM对所提取的特征再次进行增强,提取出包含上下文信息的序列特征,再使用全连接层对序列特征进行分类,预测出相应字符;其中,所述BiLSTM中包含纵向残差结构,用于缓解遗忘门造成的信息丢失。
在一个或多个实施例中,所述的基于深度学习的水表数字图片处理系统,还包括修改正模块,其用于:
使用轻量级网络提取增强处理后的水表数字区域中的特征之前,使用空间变换方法进行图像变换,将倾斜弯曲的文本调正。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于深度学习的水表数字图片处理方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于深度学习的水表数字图片处理方法中的步骤。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的水表数字图片处理方法,其特征在于,包括:
从待处理的水表数字图片中截取出水表数字区域,并对所述水表数字区域进行特征增强处理;
使用轻量级网络提取增强处理后的水表数字区域中的特征;
基于BiLSTM对所提取的特征再次进行增强,提取出包含上下文信息的序列特征,再使用全连接层对序列特征进行分类,预测出相应字符;其中,所述BiLSTM中包含纵向残差结构,用于缓解遗忘门造成的信息丢失。
2.如权利要求1所述的基于深度学习的水表数字图片处理方法,其特征在于,使用轻量级网络提取增强处理后的水表数字区域中的特征之前,还包括:
使用空间变换方法进行图像变换,将倾斜弯曲的文本调正。
3.如权利要求1所述的基于深度学习的水表数字图片处理方法,其特征在于,使用轻量级网络MobileNetv3提取增强处理后的水表数字区域中的特征。
4.如权利要求1所述的基于深度学习的水表数字图片处理方法,其特征在于,采用YOLOv5网络结构从待处理的水表数字图片中识别出水表数字区域,进而截取出水表数字区域。
5.如权利要求1所述的基于深度学习的水表数字图片处理方法,其特征在于,使用分段线性变换和边缘检测方法对所述水表数字区域进行特征增强处理。
6.一种基于深度学习的水表数字图片处理系统,其特征在于,包括:
目标检测及增强处理模块,其用于从待处理的水表数字图片中截取出水表数字区域,并对所述水表数字区域进行特征增强处理;
图像特征提取模块,其用于使用轻量级网络提取增强处理后的水表数字区域中的特征;
字符预测模块,其用于基于BiLSTM对所提取的特征再次进行增强,提取出包含上下文信息的序列特征,再使用全连接层对序列特征进行分类,预测出相应字符;其中,所述BiLSTM中包含纵向残差结构,用于缓解遗忘门造成的信息丢失。
7.如权利要求6所述的基于深度学习的水表数字图片处理系统,其特征在于,还包括修改正模块,其用于:
使用轻量级网络提取增强处理后的水表数字区域中的特征之前,使用空间变换方法进行图像变换,将倾斜弯曲的文本调正。
8.如权利要求6所述的基于深度学习的水表数字图片处理系统,其特征在于,在所述目标检测及增强处理模块中,使用分段线性变换和边缘检测方法对所述水表数字区域进行特征增强处理。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的基于深度学习的水表数字图片处理方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的基于深度学习的水表数字图片处理方法中的步骤。
CN202211015508.XA 2022-08-24 2022-08-24 基于深度学习的水表数字图片处理方法及系统 Pending CN115082922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211015508.XA CN115082922A (zh) 2022-08-24 2022-08-24 基于深度学习的水表数字图片处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211015508.XA CN115082922A (zh) 2022-08-24 2022-08-24 基于深度学习的水表数字图片处理方法及系统

Publications (1)

Publication Number Publication Date
CN115082922A true CN115082922A (zh) 2022-09-20

Family

ID=83244980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211015508.XA Pending CN115082922A (zh) 2022-08-24 2022-08-24 基于深度学习的水表数字图片处理方法及系统

Country Status (1)

Country Link
CN (1) CN115082922A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116469132A (zh) * 2023-06-20 2023-07-21 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质
CN117315670A (zh) * 2023-09-26 2023-12-29 天津市金超利达科技有限公司 一种基于计算机视觉的水表读数区域检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339902A (zh) * 2020-02-21 2020-06-26 北方工业大学 一种数显仪表的液晶屏示数识别方法及装置
CN112183233A (zh) * 2020-09-09 2021-01-05 上海鹰觉科技有限公司 基于深度学习的船牌识别方法及系统
CN112990208A (zh) * 2019-12-12 2021-06-18 搜狗(杭州)智能科技有限公司 一种文本识别方法及装置
CN113344145A (zh) * 2021-08-02 2021-09-03 智道网联科技(北京)有限公司 字符识别方法、装置、电子设备和存储介质
CN113378812A (zh) * 2021-05-21 2021-09-10 郑州大学 一种基于Mask R-CNN和CRNN的数字表盘识别方法
CN113469167A (zh) * 2021-07-21 2021-10-01 浙江大华技术股份有限公司 仪表读数识别方法、装置、设备及存储介质
CN113762239A (zh) * 2021-08-10 2021-12-07 国网河北省电力有限公司保定供电分公司 一种基于巡检机器人的表计反光识别的方法
CN114067305A (zh) * 2021-11-19 2022-02-18 安徽翼迈科技股份有限公司 一种全自动化水表定位方法
CN114241469A (zh) * 2021-12-23 2022-03-25 广东工业大学 一种面向电表轮换过程的信息识别方法和装置
CN114743201A (zh) * 2022-04-19 2022-07-12 中山大学 一种基于旋转目标检测的万用表读数识别方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990208A (zh) * 2019-12-12 2021-06-18 搜狗(杭州)智能科技有限公司 一种文本识别方法及装置
CN111339902A (zh) * 2020-02-21 2020-06-26 北方工业大学 一种数显仪表的液晶屏示数识别方法及装置
CN112183233A (zh) * 2020-09-09 2021-01-05 上海鹰觉科技有限公司 基于深度学习的船牌识别方法及系统
CN113378812A (zh) * 2021-05-21 2021-09-10 郑州大学 一种基于Mask R-CNN和CRNN的数字表盘识别方法
CN113469167A (zh) * 2021-07-21 2021-10-01 浙江大华技术股份有限公司 仪表读数识别方法、装置、设备及存储介质
CN113344145A (zh) * 2021-08-02 2021-09-03 智道网联科技(北京)有限公司 字符识别方法、装置、电子设备和存储介质
CN113762239A (zh) * 2021-08-10 2021-12-07 国网河北省电力有限公司保定供电分公司 一种基于巡检机器人的表计反光识别的方法
CN114067305A (zh) * 2021-11-19 2022-02-18 安徽翼迈科技股份有限公司 一种全自动化水表定位方法
CN114241469A (zh) * 2021-12-23 2022-03-25 广东工业大学 一种面向电表轮换过程的信息识别方法和装置
CN114743201A (zh) * 2022-04-19 2022-07-12 中山大学 一种基于旋转目标检测的万用表读数识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BAOGUANG SHI ET AL: "An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition", 《ARXIV》 *
张克 等: "《温度测控技术及应用》", 30 November 2011, 《中国计量出版社》 *
蔡松: "深度学习框架下电气设备仪表读数识别方法研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *
韦康: "特高压变电站机器人巡检图像数据处理与无线通信关键技术研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116469132A (zh) * 2023-06-20 2023-07-21 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质
CN116469132B (zh) * 2023-06-20 2023-09-05 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质
CN117315670A (zh) * 2023-09-26 2023-12-29 天津市金超利达科技有限公司 一种基于计算机视觉的水表读数区域检测方法
CN117315670B (zh) * 2023-09-26 2024-07-05 天津市金超利达科技有限公司 一种基于计算机视觉的水表读数区域检测方法

Similar Documents

Publication Publication Date Title
CN110059694B (zh) 电力行业复杂场景下的文字数据的智能识别方法
CN111461134B (zh) 一种基于生成对抗网络的低分辨率车牌识别方法
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN113160192B (zh) 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置
CN109784342B (zh) 一种基于深度学习模型的ocr识别方法及终端
CN115082922A (zh) 基于深度学习的水表数字图片处理方法及系统
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111539330B (zh) 一种基于双svm多分类器的变电站数显仪表识别方法
CN107038416B (zh) 一种基于二值图像改进型hog特征的行人检测方法
CN112307919B (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
CN101615244A (zh) 手写板坯号自动识别方法及识别装置
CN108681735A (zh) 基于卷积神经网络深度学习模型的光学字符识别方法
CN110427933A (zh) 一种基于深度学习的水尺识别方法
CN104966348B (zh) 一种票据图像要素完整性检测方法及系统
CN109086772A (zh) 一种扭曲粘连字符图片验证码的识别方法及系统
CN110659637A (zh) 一种结合深度神经网络和sift特征的电能表示数与标签自动识别方法
CN114241469A (zh) 一种面向电表轮换过程的信息识别方法和装置
CN116188756A (zh) 一种基于深度学习的仪表角度校正与示数识别方法
CN116385374A (zh) 基于卷积神经网络的细胞计数方法
CN115546187A (zh) 基于YOLO v5的农业病虫害检测方法及装置
CN114882204A (zh) 船名自动识别方法
CN111881732B (zh) 一种基于svm的人脸质量评价方法
CN115880683A (zh) 一种基于深度学习的城市内涝积水智能水位检测方法
CN116258686A (zh) 基于图像卷积特征捕捉的结肠息肉分型检测模型建立方法
CN108734158B (zh) 一种实时列车车号识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220920

RJ01 Rejection of invention patent application after publication