CN112270317B - 一种基于深度学习和帧差法的传统数字水表读数识别方法 - Google Patents

一种基于深度学习和帧差法的传统数字水表读数识别方法 Download PDF

Info

Publication number
CN112270317B
CN112270317B CN202011110991.0A CN202011110991A CN112270317B CN 112270317 B CN112270317 B CN 112270317B CN 202011110991 A CN202011110991 A CN 202011110991A CN 112270317 B CN112270317 B CN 112270317B
Authority
CN
China
Prior art keywords
water meter
image
character
training set
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011110991.0A
Other languages
English (en)
Other versions
CN112270317A (zh
Inventor
朱磊
翟娅娅
张博
杨烨
王瑞兰
乔奕婕
李妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Polytechnic University
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN202011110991.0A priority Critical patent/CN112270317B/zh
Publication of CN112270317A publication Critical patent/CN112270317A/zh
Application granted granted Critical
Publication of CN112270317B publication Critical patent/CN112270317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度学习和帧差法的水表读数识别方法,步骤为:步骤1:采集大量水表图片;步骤2:对每张水表图片进行预处理,构建水表训练集;步骤3:对水表训练集中水表字符区域位置进行定位;步骤4:对定位后的水表训练集进行字符分割;步骤5:用AlexNet模型提取分割后水表训练集的水表字符特征;步骤6:将水表字符特征送入到全连接网络进行训练,得到训练模型;步骤7:将新采集的水表图像送入到训练模型中进行识别,得到识别结果;步骤8:将识别结果正确的水表原图以及标签进行保存,加入到训练集中再次训练模型。本发明解决了不同类型水表数据少、无用数据冗余以及读数识别准确率低的问题。

Description

一种基于深度学习和帧差法的传统数字水表读数识别方法
技术领域
本发明属于图像处理技术领域,涉及一种基于深度学习和帧差法的传统数字水表读数识别方法。
背景技术
随着水资源日益消耗严重,水表读数精确记录具有重要意义;另一方面,水表用户数量庞大,分布范围广,人工抄表的难度越来越大,已经不再适应于当前时代发展的需求,因此智能抄表系统成为水务企业目前及未来的发展重点。采用图像识别的方式记录水表读数,成为近几年的发展趋势。
水表读数识别的一般步骤主要有以下几个方面:(1)图像预处理,主要包括去噪和二值化;(2)字符区域的定位。传统的定位方法有:基于纹理特征、基于边缘梯度的窗口收缩以及支持向量机的方法。其存在背景复杂,难以准确定位的缺点;(3)水表字符分割。主要方法有聚类法、行程标记法以及投影法。这些方法在计算时,效果缓慢且分割效果容易受到背景的干扰。(4)水表字符识别。主要有模板匹配法、神经网络法以及小波识别算法。这些算法往往存在识别率不高以及占用大量内存的缺点。
可见,无论采用哪种方法,尽可能提高水表读数识别的准确率以及降低内存是研究水表读数识别的主要目的。
发明内容
发明的目的是提供一种基于深度学习和帧差法的水表读数识别方法,解决了不同类型水表数据少、无用数据冗余以及读数识别准确率低的问题。
本发明所采用的技术方案是,
一种基于深度学习和帧差法的水表读数识别方法步骤为:
步骤1:采集大量水表图片;
步骤2:对每张水表图片进行预处理,构建水表训练集;
步骤3:对水表训练集中水表字符区域位置进行定位;
步骤4:对定位后的水表训练集进行字符分割;
步骤5:用AlexNet模型提取分割后水表训练集的水表字符特征;
步骤6:将水表字符特征送入到全连接网络进行训练,得到训练模型;
步骤7:将新采集的水表图像送入到训练模型中进行识别,得到识别结果;
步骤8:将识别结果正确的水表原图以及标签进行保存,加入到训练集中再次训练模型。
本发明的特点还在于,
其中步骤1的过程为:固定水表与摄像头的距离,距离为5cm,通过改变水表的读数,获取到大量的水表图片,对所述水表图片分类做标签作为水表训练集。
其中步骤2的过程为:
步骤2.1,对水表图片进行二值化;
步骤2.2,对二值化后的水表图片进行隔N点采样,剔除无用像素,得到水表训练集;其中设原图的大小为W*H,宽度和长度的缩小因子分别为K1和K2,则采样间隔为:W/K1,W/K2。在原图的水平方向每隔W/K1,在垂直方向每隔W/K2取一个像素。
其中步骤3的过程为:将字符“M”设置为搜索模板T对水表字符区域进行定位,T通过遍历整幅被搜索图S的像素点,模板覆盖被搜索图的那块区域叫子图Sij;其中i,j为子图左上角在被搜索图S上的坐标,则搜索范围是:
其中模板T的大小为m×n个像素,搜索图S的大小为W×H个像素通过比较T和Sij的相似性,完成模板匹配过程。若匹配成功,通过i,j点坐标定位出水表的字符区域,并对定位的水表字符区域进行裁剪,只保留水表读数信息。
其中步骤4的过程为:对定位后的图像进行开运算之后采用8邻域方式连接的连通域进行标记,通过计算定位后水表图片的坐标信息,将5个连在一起的水表字符分割成单一的字符。
其中步骤5包括:
步骤5.1,在Tensorflow框架下利用Keras来搭建AlexNet模型,将输入图像的尺寸改为32*32*3以适应水表训练集,并将原始的AlexNet模型中的11*11、7*7、5*5等大尺寸卷积核均替换成3*3的小卷积核;
步骤5.2,对分割后的水表训练集做两次卷积,第一次是96个3*3的卷积核,第二次是256个3*3的卷积核,不进行全零填充,为了解决梯度消失的问题,进行批标准化操作,激活函数为Relu进行最大池化,池化核尺寸为3*3,步长为2:
f(x)是Relu取最大值的函数;为了提高模型的泛化能力,在第二次做卷积时,采用局部归一化响应:
表示第i个卷积核(x,y)经过Relu激活函数的输出;N是该层的核的总数目;常数k,n,α,β是超参数,他们的值使用一个验证集来确定,取k=2,n=5,α=10-4,β=0.75;
步骤5.3,继续做两次卷积,进行全零填充,激活函数为Relu,不进行批标准化操作以及最大池化;
步骤5.4,最后一次做卷积,进行全零填充,激活函数为Relu,不进行批标准化操作,进行最大池化,池化核尺寸为3*3,步长为2,最终得到水表字符特征。
其中步骤6中全连接层共有3层:第一二层共有2048个神经元,激活函数为Relu,为了缓解过拟合的现象,对20%的神经元进行舍弃,第三全连接层共10个神经元,迭代训练次数设置为5。
其中步骤7的步骤包括:
步骤7.1,输入新采集的先后两帧水表图像,对上一帧水表图像保存后按步骤2的方式进行预处理,最后送入到训练好的模型中进行识别,得到首次识别结果;
步骤7.2,将下一帧水表图像作为当前图像,将先后两帧水表图像分别进行灰度化;
步骤7.3,对步骤7.2得到的两个灰度化图像做帧差法操作,得到差分水表图像;做完帧差操作后,将当前图像记为上一帧图片进行保存,循环更新保存的上一帧水表图片;
步骤7.4,设定阈值T,对差分图像Dn进行二值化处理,得到二值化图像Rn
步骤7.5,对二值化图像Rn进行连通性分析,得到差异性区域图像。
步骤7.6,对不同的差异性区域图像进行分割,得到多个分割后的字符图像;
步骤7.7,对多个分割后的字符图像进行隔N点采样。
步骤7.8,将步骤7.7采样后字符图像进行下标标记后,送入到模型中进行识别,得到二次识别结果,将首次识别结果与二次识别结果下标作比较,将二次识别结果下标相同的字符替换掉首次识别结果的水表读数,最终整合输出完整的水表读数。
其中步骤8的步骤包括:将模型识别正确的水表图像以及它的标签进行保存,当正确识别的水表图片数量达到50时将保存的新数据添加到原有的训练集中重新进行训练。
本发明的有益效果是:
与现有方法相比,本发明采用隔N点采样以及帧差法思想对水表图片进行预处理,减少背景无用信息干扰、降低数据冗余的同时节省了大量内存;采用模板匹配的方法通过定位“M”标志的坐标信息,能够快速的定位出水表字符区域;采用连通域标记法能够准确的分割出单一字符;通过负反馈扩充训练集的方式增强AlexNet训练模型的鲁棒性,提高水表识别的准确度。
附图说明
图1是本发明一种基于深度学习和帧差法的水表读数识别方法一种基于深度学习和帧差法的水表读数识别方法的流程图;
图2是本发明一种基于深度学习和帧差法的水表读数识别方法整个水表读数区域的隔N点采样结果图,其中(a)为整个电表区域的二值图,(b)为对(a)进行隔6点采样后的结果;
图3是本发明一种基于深度学习和帧差法的水表读数识别方法单个字符隔N点采样的结果图,其中(a)为整个字符区域的二值图,(b)为对(a)进行隔6点采样后的结果;
图4是本发明一种基于深度学习和帧差法的水表读数识别方法水表字符识别的准确率图;
图5是本发明一种基于深度学习和帧差法的水表读数识别方法水表字符识别的Loss值图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于深度学习和帧差法的水表读数识别方法,如图1,步骤包括:
步骤1:采集大量水表图片;
步骤2:对每张水表图片进行预处理,构建水表训练集;
步骤3:对水表训练集中水表字符区域位置进行定位;
步骤4:对定位后的水表训练集进行字符分割;
步骤5:用AlexNet模型提取分割后水表训练集的水表字符特征;
步骤6:将水表字符特征送入到全连接网络进行训练,得到训练模型;
步骤7:将新采集的水表图像送入到训练模型中进行识别,得到识别结果;
步骤8:将识别结果正确的水表原图以及标签进行保存,加入到训练集中再次训练模型。
本发明的特点还在于,
其中步骤1的过程为:首先测量好水表与摄像头的大致距离,经过试验,发现摄像头与水表表盘的距离为5CM时,拍摄的照片效果比较理想,因此将两者固定在具体的距离上,通过改变水表的读数,获取到大量的水表图片,对所述水表图片分类做标签作为水表训练集。
其中步骤2的过程为:
步骤2.1,对水表图片进行二值化,设原图像为f(i,j),设定阈值Th,二值图像为g(i,j),则有
步骤2.2,对二值化后的水表图片进行隔N点采样,剔除无用像素,得到水表训练集;其中设原图的大小为W*H,宽度和长度的缩小因子分别为K1和K2,则采样间隔为:W/K1,W/K2。在原图的水平方向每隔W/K1,在垂直方向每隔W/K2取一个像素,采样间隔可以取1到最大尺寸的任意值,在391*100像素的图片上,通过实验验证,当采样间隔为6时,可以很好的压缩图片的尺寸,剔除一部分无用的像素点,对水表数字细化的同时使得数字保留原有的特征。
其中步骤3的过程为:将字符“M”设置为搜索模板T对水表字符区域进行定位,T通过遍历整幅被搜索图S的像素点,模板覆盖被搜索图的那块区域叫子图Sij;其中i,j为子图左上角在被搜索图S上的坐标,则搜索范围是:
其中模板T的大小为m×n个像素,搜索图S的大小为W×H个像素通过比较T和Sij的相似性,完成模板匹配过程;若匹配成功,通过i,j点坐标定位出水表的字符区域,并对定位的水表字符区域进行裁剪,只保留水表读数信息。
其中步骤4的过程为:对定位后的图像进行开运算之后采用8邻域方式连接的连通域进行标记,通过计算定位后水表图片的坐标信息,将5个连在一起的水表字符分割成单一的字符。
其中步骤5包括:
步骤5.1,在Tensorflow框架下利用Keras来搭建AlexNet模型,将输入图像的尺寸改为32*32*3以适应水表训练集,并将原始的AlexNet模型中的11*11、7*7、5*5等大尺寸卷积核均替换成3*3的小卷积核;
步骤5.2,对分割后的水表训练集做两次卷积,第一次是96个3*3的卷积核,第二次是256个3*3的卷积核,不进行全零填充,为了解决梯度消失的问题,进行批标准化操作,激活函数为Relu进行最大池化,池化核尺寸为3*3,步长为2:
f(x)是Relu取最大值的函数;在输入是负值的情况下,它会输出0,则神经元不会被激活,这意味着同一时间只有部分神经元会被激活,使得网络很稀疏,进而提高了计算的效率;
为了提高模型的泛化能力,在第二次做卷积时,采用局部归一化响应:
表示第i个卷积核(x,y)经过Relu激活函数的输出;N是该层的核的总数目;常数k,n,α,β是超参数,他们的值使用一个验证集来确定,取k=2,n=5,α=10-4,β=0.75;
步骤5.3,继续做两次卷积,进行全零填充,激活函数为Relu,不进行批标准化操作以及最大池化;
步骤5.4,最后一次做卷积,进行全零填充,激活函数为Relu,不进行批标准化操作,进行最大池化,池化核尺寸为3*3,步长为2,最终得到水表字符特征。
其中步骤6中全连接层共有3层:第一二层共有2048个神经元,激活函数为Relu,为了缓解过拟合的现象,对20%的神经元进行舍弃,第三全连接层共10个神经元,进行10分类,迭代训练次数设置为5,最终得到水表训练模型。
其中步骤7的步骤包括:
步骤7.1,输入新采集的先后两帧水表图像,对上一帧水表图像保存后按步骤2的方式进行预处理,最后送入到训练好的模型中进行识别,得到首次识别结果;
步骤7.2,将下一帧水表图像作为当前水表图像,将先后两帧水表图像分别进行灰度化,根据水表图像重要性以及它的指标,将RGB三个分量分别为R(i,j),G(i,j),B(i,j)通过不同的权值进行加权平均,G(i,j)为灰度分量;通过实验证明,当三分量参数取值为如下公式时,灰度化效果比较好:
Gray(i,j)=0.299*R(i,j)+0.578*G(i,j)+0.114B(i,j) (5)
步骤7.3,对步骤7.2得到的两个灰度化图像做帧差法操作,得到差分水表图像;差分水表图像为当前水表图像与上一帧水表图像存在差异的部分;帧差法公式为:
Dn(i,j)=|fn(i,j)-fn-1(i,j)| (6)
其中N帧水表图像和第N-1帧水表图像为fn和fn-1,两帧对应像素点的灰度值记为fn(i,j)和fn-1(i,j),将两帧水表图像对应像素点的灰度值进行相减,并对其取绝对值,即得到差分水表图像Dn
做完帧差操作后,将当前图像记为上一帧图片进行保存,循环更新保存的上一帧水表图片;
步骤7.4,设定阈值T,对差分图像Dn进行二值化处理,得到二值化图像Rn,公式为:
步骤7.5,对二值化图像Rn进行连通性分析,得到差异性区域图像。
步骤7.6,对不同的差异性区域图像进行分割,得到多个分割后的字符图像;
步骤7.7,对多个分割后的字符图像进行隔N点采样。
步骤7.8,将步骤7.7采样后字符图像进行下标标记后,送入到模型中进行识别,得到二次识别结果,将首次识别结果与二次识别结果下标作比较,将二次识别结果下标相同的字符替换掉首次识别结果的水表读数,最终整合输出完整的水表读数。
其中步骤8的步骤包括:将模型识别正确的水表图像以及它的标签进行保存,当正确识别的水表图片数量达到一定数量时将保存的新数据添加到原有的训练集中重新进行训练,本发明图片数量设置为50。
为此,本发明实验如下:
如图2以及图3通过对定位后的水表图像进行隔点采样,由于拍摄的图片背景颜色比较深,二值化不能完全使得字符的区域为黑色。通过试验,发现每当隔6个点进行采样的时候,能够去除一部分多余的无用信息,使得字符区域得到细化,压缩像素点的同时节省了内存容量。
图4和图5为通过AlexNet网络对水表图像进行训练后的可视化结果图。蓝色线代表模型在训练时的Loss值以及准确率,橙色线代表测试图片的Loss值以及准确率。Loss值越低,说明训练的模型效果越好;准确率越高,说明水表识别的效果比较好。通过图4可以看出,随着迭代次数的增加,训练模型的Loss值大约为0.06,准确率大约为0.98;测试结果的Loss值大约在0.075左右,而准确率可以达到0.975以上,说明水表读数识别的效果更加精准。

Claims (7)

1.一种基于深度学习和帧差法的水表读数识别方法,其特征在于,步骤为:
步骤1:采集大量水表图片;
步骤2:对每张水表图片进行预处理,构建水表训练集,具体包括:
步骤2.1,对水表图片进行二值化;
步骤2.2,对二值化后的水表图片进行隔N点采样,剔除无用像素,得到水表训练集;其中设原图的大小为W*H,宽度和长度的缩小因子分别为K1和K2,则采样间隔为:W/K1,W/K2;在原图的水平方向每隔W/K1,在垂直方向每隔W/K2取一个像素;
步骤3:对水表训练集中水表字符区域位置进行定位;
步骤4:对定位后的水表训练集进行字符分割;
步骤5:用AlexNet模型提取分割后水表训练集的水表字符特征;
步骤6:将水表字符特征送入到全连接网络进行训练,得到训练模型;
步骤7:将新采集的水表图像送入到训练模型中进行识别,得到识别结果,具体包括:
步骤7.1,输入新采集的先后两帧水表图像,对上一帧水表图像保存后按步骤2的方式进行预处理,最后送入到训练好的模型中进行识别,得到首次识别结果;
步骤7.2,将下一帧水表图像作为当前图像,将先后两帧水表图像分别进行灰度化;
步骤7.3,对步骤7.2得到的两个灰度化图像做帧差法操作,得到差分水表图像;做完帧差操作后,将当前图像记为上一帧图片进行保存,循环更新保存的上一帧水表图片;
步骤7.4,设定阈值T,对差分图像Dn进行二值化处理,得到二值化图像;
步骤7.5,对二值化图像Rn进行连通性分析,得到差异性区域图像;
步骤7.6,对不同的差异性区域图像进行分割,得到多个分割后的字符图像;
步骤7.7,对多个分割后的字符图像进行隔N点采样;
步骤7.8,将步骤7.7采样后字符图像进行下标标记后,送入到模型中进行识别,得到二次识别结果,将首次识别结果与二次识别结果下标作比较,将二次识别结果下标相同的字符替换掉首次识别结果的水表读数,最终整合输出完整的水表读数;
步骤8:将识别结果正确的水表原图以及标签进行保存,加入到训练集中再次训练模型。
2.如权利要求1所述的一种基于深度学习和帧差法的水表读数识别方法,其特征在于,所述步骤1的过程为:固定水表与摄像头的距离,距离为5cm,通过改变水表的读数,获取到大量的水表图片,对所述水表图片分类做标签作为水表训练集。
3.如权利要求1所述的一种基于深度学习和帧差法的水表读数识别方法,其特征在于,所述步骤3的过程为:将字符“M”设置为搜索模板T对水表字符区域进行定位,T通过遍历整幅被搜索图S的像素点,模板覆盖被搜索图的那块区域叫子图Sij;其中i,j为子图左上角在被搜索图S上的坐标,则搜索范围是:
其中模板T的大小为m×n个像素,搜索图S的大小为W×H个像素通过比较T和Sij的相似性,完成模板匹配过程;若匹配成功,通过i,j点坐标定位出水表的字符区域,并对定位的水表字符区域进行裁剪,只保留水表读数信息。
4.如权利要求1所述的一种基于深度学习和帧差法的水表读数识别方法,其特征在于,所述步骤4的过程为:对定位后的图像进行开运算之后采用8邻域方式连接的连通域进行标记,通过计算定位后水表图片的坐标信息,将5个连在一起的水表字符分割成单一的字符。
5.如权利要求1所述的一种基于深度学习和帧差法的水表读数识别方法,其特征在于,所述步骤5包括:
步骤5.1,在Tensorflow框架下利用Keras来搭建AlexNet模型,将输入图像的尺寸改为32*32*3以适应水表训练集,并将原始的AlexNet模型中的11*11、7*7、5*5大尺寸卷积核均替换成3*3的小卷积核;
步骤5.2,对分割后的水表训练集做两次卷积,第一次是96个3*3的卷积核,第二次是256个3*3的卷积核,不进行全零填充,为了解决梯度消失的问题,进行批标准化操作,激活函数为Relu进行最大池化,池化核尺寸为3*3,步长为2:
f(x)是Relu取最大值的函数;为了提高模型的泛化能力,在第二次做卷积时,采用局部归一化响应:
表示第i个卷积核(x,y)经过Relu激活函数的输出;N是该层的核的总数目;常数k,n,α,β是超参数,他们的值使用一个验证集来确定,取k=2,n=5,α=10-4,β=0.75;
步骤5.3,继续做两次卷积,进行全零填充,激活函数为Relu,不进行批标准化操作以及最大池化;
步骤5.4,最后一次做卷积,进行全零填充,激活函数为Relu,不进行批标准化操作,进行最大池化,池化核尺寸为3*3,步长为2,最终得到水表字符特征。
6.如权利要求1所述的一种基于深度学习和帧差法的水表读数识别方法,其特征在于,所述步骤6中全连接层共有3层:第一二层共有2048个神经元,激活函数为Relu,为了缓解过拟合的现象,对20%的神经元进行舍弃,第三全连接层共10个神经元,迭代训练次数设置为5。
7.如权利要求1所述的一种基于深度学习和帧差法的水表读数识别方法,其特征在于,所述步骤8的步骤包括:将模型识别正确的水表图像以及它的标签进行保存,当正确识别的水表图片数量达到50时将保存的新数据添加到原有的训练集中重新进行训练。
CN202011110991.0A 2020-10-16 2020-10-16 一种基于深度学习和帧差法的传统数字水表读数识别方法 Active CN112270317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011110991.0A CN112270317B (zh) 2020-10-16 2020-10-16 一种基于深度学习和帧差法的传统数字水表读数识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011110991.0A CN112270317B (zh) 2020-10-16 2020-10-16 一种基于深度学习和帧差法的传统数字水表读数识别方法

Publications (2)

Publication Number Publication Date
CN112270317A CN112270317A (zh) 2021-01-26
CN112270317B true CN112270317B (zh) 2024-06-07

Family

ID=74338285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011110991.0A Active CN112270317B (zh) 2020-10-16 2020-10-16 一种基于深度学习和帧差法的传统数字水表读数识别方法

Country Status (1)

Country Link
CN (1) CN112270317B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139541B (zh) * 2021-04-24 2023-10-24 西安交通大学 一种基于深度学习的配电柜表盘数码管视觉识别方法
CN113269194A (zh) * 2021-06-11 2021-08-17 四川长虹网络科技有限责任公司 读数表不完整字符识别方法以及读数表字符识别方法
CN113505776A (zh) * 2021-07-16 2021-10-15 青岛新奥清洁能源有限公司 一种用于燃气表读数的智能识别方法及装置
CN113647920A (zh) * 2021-10-21 2021-11-16 青岛美迪康数字工程有限公司 读取监护设备中生命体征数据的方法及装置
CN114241725A (zh) * 2022-02-24 2022-03-25 武汉鼎业环保工程技术有限公司 基于神经网络的煤气泄漏监测方法、装置及电子设备
CN116645682B (zh) * 2023-07-24 2023-10-20 济南瑞泉电子有限公司 一种水表表盘数字识别方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1055425A (ja) * 1996-08-08 1998-02-24 Tokyo Electric Power Co Inc:The 水路流出入物監視装置
WO2002007164A2 (en) * 2000-07-17 2002-01-24 The Trustees Of Columbia University In The City Of New York Method and system for indexing and content-based adaptive streaming of digital video content
CN103984930A (zh) * 2014-05-21 2014-08-13 南京航空航天大学 基于视觉的数字仪表识别系统及其识别方法
CN104134222A (zh) * 2014-07-09 2014-11-05 郑州大学 基于多特征融合的车流监控图像检测和跟踪系统及方法
CN106204646A (zh) * 2016-07-01 2016-12-07 湖南源信光电科技有限公司 基于bp神经网络的多运动目标跟踪方法
CN106254864A (zh) * 2016-09-30 2016-12-21 杭州电子科技大学 监控视频中的雪花和噪点噪声检测方法
WO2018028583A1 (zh) * 2016-08-08 2018-02-15 腾讯科技(深圳)有限公司 字幕提取方法及装置、存储介质
CN107729866A (zh) * 2017-10-31 2018-02-23 武汉理工大学 基于时序图像的船舶碰标自动检测装置及方法
CN108275530A (zh) * 2018-01-18 2018-07-13 柯钢 一种基于机器学习的电梯安全预警方法
CN108647686A (zh) * 2018-05-11 2018-10-12 同济大学 一种基于卷积神经网络的水表图像读数识别方法
CN110110624A (zh) * 2019-04-24 2019-08-09 江南大学 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN110555368A (zh) * 2019-06-28 2019-12-10 西安理工大学 基于三维卷积神经网络的跌倒行为识别方法
CN111626299A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于轮廓的数字字符识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418426B1 (en) * 2015-01-27 2016-08-16 Xerox Corporation Model-less background estimation for foreground detection in video sequences

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1055425A (ja) * 1996-08-08 1998-02-24 Tokyo Electric Power Co Inc:The 水路流出入物監視装置
WO2002007164A2 (en) * 2000-07-17 2002-01-24 The Trustees Of Columbia University In The City Of New York Method and system for indexing and content-based adaptive streaming of digital video content
CN103984930A (zh) * 2014-05-21 2014-08-13 南京航空航天大学 基于视觉的数字仪表识别系统及其识别方法
CN104134222A (zh) * 2014-07-09 2014-11-05 郑州大学 基于多特征融合的车流监控图像检测和跟踪系统及方法
CN106204646A (zh) * 2016-07-01 2016-12-07 湖南源信光电科技有限公司 基于bp神经网络的多运动目标跟踪方法
WO2018028583A1 (zh) * 2016-08-08 2018-02-15 腾讯科技(深圳)有限公司 字幕提取方法及装置、存储介质
CN106254864A (zh) * 2016-09-30 2016-12-21 杭州电子科技大学 监控视频中的雪花和噪点噪声检测方法
CN107729866A (zh) * 2017-10-31 2018-02-23 武汉理工大学 基于时序图像的船舶碰标自动检测装置及方法
CN108275530A (zh) * 2018-01-18 2018-07-13 柯钢 一种基于机器学习的电梯安全预警方法
CN108647686A (zh) * 2018-05-11 2018-10-12 同济大学 一种基于卷积神经网络的水表图像读数识别方法
CN110110624A (zh) * 2019-04-24 2019-08-09 江南大学 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN110555368A (zh) * 2019-06-28 2019-12-10 西安理工大学 基于三维卷积神经网络的跌倒行为识别方法
CN111626299A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于轮廓的数字字符识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Shi,BG.Script identification in the wild via discriminative convolutional neural network.PATTERN RECOGNITION.2016,第52卷448-458. *
基于深度学习的汽车仪表标识辨别系统设计;刘全周;贾鹏飞;李占旗;王述勇;王启配;;新型工业化(第06期);94-102 *

Also Published As

Publication number Publication date
CN112270317A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN112270317B (zh) 一种基于深度学习和帧差法的传统数字水表读数识别方法
CN109670429B (zh) 一种基于实例分割的监控视频多目标人脸检测方法及系统
Li et al. Semi-supervised semantic segmentation using adversarial learning for pavement crack detection
CN109255344B (zh) 一种基于机器视觉的数显式仪表定位与读数识别方法
CN111723675A (zh) 基于多重相似性度量深度学习的遥感图像场景分类方法
CN108629286B (zh) 一种基于主观感知显著模型的遥感机场目标检测方法
CN109033944B (zh) 一种全天空极光图像分类与关键局部结构定位方法及系统
Zhang et al. Road recognition from remote sensing imagery using incremental learning
CN109635726B (zh) 一种基于对称式深度网络结合多尺度池化的滑坡识别方法
CN110414616B (zh) 一种利用空间关系的遥感图像字典学习分类方法
EP3848472A2 (en) Methods and systems for automated counting and classifying microorganisms
CN114444565B (zh) 一种图像篡改检测方法、终端设备及存储介质
CN108509950B (zh) 基于概率特征加权融合的铁路接触网支柱号牌检测识别法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN110991374B (zh) 一种基于rcnn的指纹奇异点检测方法
CN110969164A (zh) 基于深度学习端对端的低照度成像车牌识别方法及装置
CN114170418A (zh) 一种以图搜图的汽车线束连接器多特征融合图像检索方法
CN113688821A (zh) 一种基于深度学习的ocr文字识别方法
CN115082776A (zh) 一种基于图像识别的电能表自动检测系统及方法
CN115841669A (zh) 一种基于深度学习技术的指针式仪表检测与示数识别方法
CN113160185A (zh) 一种利用生成边界位置指导宫颈细胞分割的方法
CN117876401B (zh) 基于sam分割模型的宫颈液基薄层细胞图像分割方法
CN115713776A (zh) 一种基于深度学习的通用证件结构化识别方法和系统
CN113673534B (zh) 一种基于Faster RCNN的RGB-D图像果实检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant