CN114359538A - 一种水表读数定位与识别方法 - Google Patents

一种水表读数定位与识别方法 Download PDF

Info

Publication number
CN114359538A
CN114359538A CN202210004125.6A CN202210004125A CN114359538A CN 114359538 A CN114359538 A CN 114359538A CN 202210004125 A CN202210004125 A CN 202210004125A CN 114359538 A CN114359538 A CN 114359538A
Authority
CN
China
Prior art keywords
water meter
image
meter reading
character
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210004125.6A
Other languages
English (en)
Inventor
代少升
张林林
曾奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210004125.6A priority Critical patent/CN114359538A/zh
Publication of CN114359538A publication Critical patent/CN114359538A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种水表读数定位和识别方法,属于字符识别领域,当前水务公司对部分老旧小区用户仍然采用人工抄表方式,因此对于水表识别的研究不仅可以减轻工作人员的工作量,还保证了数据的准确性。水表识别系统主要包括水表读数区域定位和数字识别,其中字符定位是识别的关键,但由于自然环境下背景复杂,拍摄的水表图像距离远近不同,角度多样化以及光照等因素导致传统方法定位准确率低,以此为契机,本文提出了一种快速且准确的方法来识别水表。文首先采用EAST网络定位出水表读数区域,然后将依据定位框裁剪出的数字区域,通过线性增强提高水表图片的质量,再通过水平垂直投影以及形态学操作对数字进行分割,有效排除噪声点和数字周围边框对字符的影响,最后采用Tesseract‑OCR对字符进行识别。

Description

一种水表读数定位与识别方法
技术领域
本发明属于水表图像处理领域,尤其涉及一种水表读数定位与识别方法。
背景技术
目前水务公司对部分老旧小区用户仍然采用人工抄表方式,这种抄表方式不仅浪费大量的人力资源而且需要花费较长的时间,而且抄表读数的准确性和实时性也无法保障。随着智能据的精确性,而且可以大大地减轻工作人员的工作量。
水表识别系统主要包括水表读数区域定位和数字识别,其中字符定位是识别的关键。现阶段,李媛提出先采用数学形态学处理和倾斜校正后,对水平方向的投影曲线做差分,差分图中最大值和最小值对应的坐标作为出水表读数区域。付伟提出SIFT算法进行特征点匹配并查找m3标志自动定位水表读数区域。岳辰是提出边缘检测与霍夫直线检测相结合定位水表数字周围的矩形框。在自然环境下水表表盘污损,而且上述方法还容易受到光照以及拍摄角度、高度的影响,因此定位出水表读数非常困难。在字符识别部分,大多采用识别算法有改进豪斯多夫距离模板匹配法和OCR,基于模板匹配算法虽然实现简单且速度快,但对字符的要求很高,很难适用于到大多数的场景中,而光学字符识别对清晰干净的数字识别率高。
发明内容
本发明的内容为实现了一种水表读数定位与识别方法,实现了准确快速的定位出水表读数并能将字符识别出来,具体技术方案包括以下3个部分。
(1)水表读数区域定位:将自然场景下文本检测的方法来定位出水表的水表读数区域,本文采用的是EAST算法,首先是运用全卷积网络模型预测水表读数区域,输出矩形候选框,之后再运用非极大值抑制过滤掉多余的候选框,得到精确的水表读数区域。
(2)图像预处理:二值化后的水表读数区域图像中含有大量噪声点和数字周围的边框。主要是通过对图像应用垂直投影法以及形态学操作的方法来去除干扰。
(3)字符识别:对只包含数字有效信息的二值化图像采用了Tesseract-OCR的方法进行识别。
与其他水表读数区域定位和识别方法相比,本发明的优点体现在以下几点:1、基于EAST网络的定位方法过程简单,能够满足实时性,并对水表读数区域定位的准确率有很大的提高。2、该方法解决了表盘清晰度过低,水表图像距离远近不同,角度多样化以及光照等因素的影响导致定位误差大的的缺点。3、采取了一系列的图像处理过程,能够有效提高数字的识别准确率,提高了泛化能力。
附图说明
图1为本发明所涉一种水表读数定位与识别方法整体流程图
图2EAST的网络结构图
图3水表读数区域图像增强变换对比图
图4水表读数区域二值化图像
图5水表读数区域图像形态学操作
图6水表读数区域图像垂直投影图
图7水表读数区域图像中的单个水表字符
图8单个水表字符拼接图
具体实施方式
本发明用于提供一种水表读数定位与识别方法,为了使本发明的技术方案及效果更加清晰、明确,下面结合附图,对本发明的具体实施方式进行详细描述。
如图1所示,本发明设计的一种水表读数定位与识别方法流程图。为了能够定位和识别水表读数,该文首先采用EAST网络定位出水表读数区域,然后将依据定位框裁剪出的数字区域,通过线性增强提高水表图片的质量,再通过水平垂直投影以及形态学操作对数字进行分割,有效排除噪声点和数字周围边框对字符的影响,最后采用Tesseract-OCR对字符进行识别。
1.水表读数区域定位
EAST的网络结构由三部分组成:特征提取,特征融合以及预测结果的输出层。网络结网络结构图如图2所示。在特征提取阶段本文采用的是VGG16网络提取水表图像的特征图,其大小分别为水表图像的1/32,1/16,1/8和1/4。在特征融合阶段采用了逐层合并特征图的方法。在每个合并阶段,首先,将上一个阶段的特征图输入到一个上池化层(unpooling)扩大为原来的两倍;然后,与当前层的特征图进行合并;将合并后的结果通过1×1卷积层,达到减少通道数量和计算量的目的;最后会将每个阶段的特征图通过3×3卷积层进行,输出最终特征图。在输出层阶段几何形状输出有两种不同的方式。分别是旋转矩形框(RBOX)和任意四边形框(QUAD)。由于拍摄的水表图像不存在弯曲的情况,但存在水表图像旋转任意角度的情况,因此本文定义的输出结果为旋转矩形框(RBOX)的格式,最终输出分别是1个得分图(scoremap)表示这个预测框的置信度;4个文本边界框信息以及1个检测框旋转角度信息。
对水表读数区域的预测会生成上千个矩形框,因此还需要NMS算法对检测框进行处理,通过遍历每行的预测结果,估计出相邻像素得到的预测框关联性,若关联性较高,那么就将两个预测框进行合并。
2.图像预处理
2.1图像增强
由于水表图像的灰度级范围较小,因此在二值化之前还需要扩展图像像素范围,使得水表图像的对比度更好,从而提高水表读数的辨识度。本文是利用直方图正规化的方法来改善图像质量的,该方法是通过选取线性变换参数来增强的方法。具体计算公式如下:
Figure BDA0003454817190000031
a、b表示线性变换的参数,Omax表示增强后的水表读数图像中最大的灰度值,Omin表示增强后的水表读数区域图像中最小的灰度值,本文中将Omax设置为255,Omin设置为0,Maximg表示水表读数区域图像中的最大灰度级,Minimg表示最小的灰度级。
根据上述公式,可以计算出线性变换的参数a和b,则水表读数区域图像的灰度值img与增强后的灰度值Out的关系如下
Out=a*img+b(2)
将灰度化后的水表读数图像按照上述方法进行增强,其效果如图3所示。线性变换后的水表读数图像的饱和度得到改善,图像中的水表读数在视觉上更加清晰。
2.2二值化
由于拍摄水表图像的明暗程度不同,难以采用固定阈值对每张水表图像二值化,因此本文采用了自适应阈值的二值化处理,即通过图像的局部特征自适应设置二值化阈值,该阈值在正常光照下以及低光照有补光的情况下同样适用,为了方便观察,本文将得到的二值图进行了取反操作,经过二值化后的如图4所示,数字区域为白色,背景区域为黑色的二值图。
2.3字符分割
从图4中可以看出,得到的二值化后的水表读数区域图像中数字周围存在边框和大量的噪声点,使得图像背景不够纯净,影响了数字识别的精度,因此,还需要对水表读数图像进一步处理。首先用形态学操作中的开运算和计算轮廓区域面积来消除白色噪点,开运算主要是采用3×3的卷积核对水表读数区域图像进行腐蚀和膨胀两种操作,然后通过轮廓提取的方法得到图像中的所有轮廓,计算每个轮廓的面积和周长,并对面积周长进行筛选,得到满足要求的轮廓。通过两轮筛选其效果如图5所示。之后利用水平投影和垂直投影来消除边框对识别的影响。首先对图5进行垂直投影,即分别统计每列的白色像素点以及黑色像素点的个数,得到的投影如图6所示。根据图6的垂直投影图,可以去除竖直边框,分割出水表读数,具体步骤为:
步骤1:计算出白色像素点的最大值和黑色像素点的最大值,分别记为v_maxwhite和v_maxblack
步骤2:计算每个字符的起始、终止位置。首先对图6(a)从左往右遍历,将start=0.03*v_maxwhite对应的水平方向的坐标值作为第一个字符的起始位置,然后对图6(b)从首字符的起始位置往右遍历,将end=0.97*v_maxblack对应的水平方向的坐标值为字符的终止位置,以此类推,到最后一个字符。
步骤3:根据记录的位置对每个数字进行分割,同理,将对每个分割后的图像进行水平投影,统计每行的白色像素点和黑色像素点的个数,分别记为l_maxwhite和l_maxblack。将t=0.02*v_maxwhite和b=0.02*v_maxblack
基于上述步骤,去除图5所示的水表读数区域图像经过形态学操作后的二值化图中数字周围的边框,最后得到单个水表字符的效果如图7所示。将单个水表字符进行拼接,如图8所示。
3.字符识别
为了能够达到在自然场景下识别率的要求,本文是通过自制数据集,训练更能准确识别水表字符的模型。具体的制作和训练过程如下:
1)选取训练样本图片。为了确保该系统能够识别各种场景下的水表读数,不仅要保证样本数量充足,而且样本数据中要包括半字符和缺失字符的样本。将所有的样本图片使用工具将其合并成一张图片并以.tif格式保存。
2)生成Box文件。为了训练新的样本数据,需要先用旧的训练数据来识别新的样本,之后调整每张图片中识别错误的字符和位置,生成新的Box文件。
3)生成训练文件。主要是提取样本图片中字符的特征,采用的多边形近似的方式。
4)聚类字符特征。当提取出样本字符的所有特征后,需要对特征进行分类。
5)合并文件。合并上述步骤生成的五个文件,会生成目标文件,该文件就是训练好的字库。
经过上述步骤训练好专用的水表数字模型,调用该模型对图8进行识别,得到最后的识别结果。
通过实验表明,该方法定位水表读数区域准确率更高,解决了自然环境下背景复杂,拍摄的水表图像距离远近不同,角度多样化以及光照等因素导致定位准确率低的问题,经过图像预处理后,使字符识别准确率更高,并具有普适性和实时性的要求,具有一定实用价值。

Claims (4)

1.本发明的内容为实现了一种水表读数定位与识别方法,实现了准确快速的定位出水表读数并能将字符识别出来,包括:
步骤1:水表读数区域定位,将自然场景下文本检测的方法来定位出水表的水表读数区域,本文采用的是EAST网络,首先是运用全卷积网络模型预测水表读数区域,输出矩形候选框,之后再运用非极大值抑制过滤掉多余的候选框,得到精确的水表读数区域.
步骤2:图像预处理,二值化后的水表读数区域图像中含有大量噪声点和数字周围的边框。主要是是通过对图像应用垂直投影法以及形态学操作的方法来去除干扰。
步骤3:字符识别,对只包含数字有效信息的二值化图像采用了Tesseract-OCR的方法进行识别。
2.根据权利要求1所述的一种水表读数定位与识别方法,采用的是EAST网络,该网络结构由三部分组成:特征提取,特征融合以及预测结果的输出层。网络结网络结构图如图1所示。在特征提取阶段本文采用的是VGG16网络提取水表图像的特征图,其大小分别为水表图像的1/32,1/16,1/8和1/4。在特征融合阶段采用了逐层合并特征图的方法。在每个合并阶段,首先,将上一个阶段的特征图输入到一个上池化层(unpooling)扩大为原来的两倍;然后,与当前层的特征图进行合并;将合并后的结果通过1×1卷积层,达到减少通道数量和计算量的目的;最后会将每个阶段的特征图通过3×3卷积层进行,输出最终特征图。在输出层阶段几何形状输出有两种不同的方式。分别是旋转矩形框(RBOX)和任意四边形框(QUAD)。由于拍摄的水表图像不存在弯曲的情况,但存在水表图像旋转任意角度的情况,因此本文定义的输出结果为旋转矩形框(RBOX)的格式,最终输出分别是1个得分图(score map)表示这个预测框的置信度;4个文本边界框信息以及1个检测框旋转角度信息。
对水表读数区域的预测会生成上千个矩形框,因此还需要NMS算法对检测框进行处理,通过遍历每行的预测结果,估计出相邻像素得到的预测框关联性,若关联性较高,那么就将两个预测框进行合并。
3.根据权利要求2所述的一种水表读数定位与识别方法,其特征在于:对裁剪得到的水表读数区域图像进行预处理,包括以下步骤:
由于水表图像的灰度级范围较小,因此在二值化之前还需要扩展图像像素范围,使得水表图像的对比度更好,从而提高水表读数的辨识度。本文是利用直方图正规化的方法来改善图像质量的,该方法是通过选取线性变换参数来增强的方法。具体计算公式如下:
Figure FDA0003454817180000011
a、b表示线性变换的参数,Omax表示增强后的水表读数图像中最大的灰度值,Omin表示增强后的水表读数区域图像中最小的灰度值,本文中将Omax设置为255,Omin设置为0,Maximg表示水表读数区域图像中的最大灰度级,Minimg表示最小的灰度级。
根据上述公式,可以计算出线性变换的参数a和b,则水表读数区域图像的灰度值img与增强后的灰度值Out的关系如下
Out=a*img+b (2)
由于拍摄水表图像的明暗程度不同,难以采用固定阈值对每张水表图像二值化,因此本文采用了自适应阈值的二值化处理,即通过图像的局部特征自适应设置二值化阈值,该阈值在正常光照下以及低光照有补光的情况下同样适用,为了方便观察,本文将得到的二值图进行了取反操作。
二值化后的水表读数区域图像中数字周围存在边框和大量的噪声点,使得图像背景不够纯净,影响了数字识别的精度,因此,还需要对水表读数图像进一步处理。首先用形态学操作中的开运算和计算轮廓区域面积来消除白色噪点,开运算主要是采用3×3的卷积核对水表读数区域图像进行腐蚀和膨胀两种操作,然后通过轮廓提取的方法得到图像中的所有轮廓,计算每个轮廓的面积和周长,并对面积周长进行筛选,得到满足要求的轮廓,之后利用水平投影和垂直投影来消除边框对识别的影响。具体步骤为:
步骤1:计算出白色像素点的最大值和黑色像素点的最大值,分别记为v_maxwhite和v_maxblack
步骤2:计算每个字符的起始、终止位置。首先对图6(a)从左往右遍历,将start=0.03*v_maxwhite对应的水平方向的坐标值作为第一个字符的起始位置,然后对图6(b)从首字符的起始位置往右遍历,将end=0.97*v_maxblack对应的水平方向的坐标值为字符的终止位置,以此类推,到最后一个字符。
步骤3:根据记录的位置对每个数字进行分割,同理,将对每个分割后的图像进行水平投影,统计每行的白色像素点和黑色像素点的个数,分别记为l_maxwhite和l_maxblack。将t=0.02*v_maxwhite和b=0.02*v_maxblack
基于上述步骤,最后得到单个水表字符并将单个水表字符进行拼接,得到只含有数字信息的二值化图像。
4.根据权利要求3所述的一种水表读数定位与识别,其特征在于:为了能够达到在自然场景下识别率的要求,本文是通过自制数据集,训练更能准确识别水表字符的模型。具体的制作和训练过程如下:
1)选取训练样本图片。为了确保该系统能够识别各种场景下的水表读数,不仅要保证样本数量充足,而且样本数据中要包括半字符和缺失字符的样本。将所有的样本图片使用工具将其合并成一张图片并以.tif格式保存。
2)生成Box文件。为了训练新的样本数据,需要先用旧的训练数据来识别新的样本,之后调整每张图片中识别错误的字符和位置,生成新的Box文件。
3)生成训练文件。主要是提取样本图片中字符的特征,采用的多边形近似的方式。
4)聚类字符特征。当提取出样本字符的所有特征后,需要对特征进行分类。
5)合并文件。合并上述步骤生成的五个文件,会生成目标文件,该文件就是训练好的字库。
经过上述步骤训练好专用的水表数字模型,调用该模型进行识别,得到最后的识别结果。
CN202210004125.6A 2022-01-04 2022-01-04 一种水表读数定位与识别方法 Pending CN114359538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210004125.6A CN114359538A (zh) 2022-01-04 2022-01-04 一种水表读数定位与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210004125.6A CN114359538A (zh) 2022-01-04 2022-01-04 一种水表读数定位与识别方法

Publications (1)

Publication Number Publication Date
CN114359538A true CN114359538A (zh) 2022-04-15

Family

ID=81107962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210004125.6A Pending CN114359538A (zh) 2022-01-04 2022-01-04 一种水表读数定位与识别方法

Country Status (1)

Country Link
CN (1) CN114359538A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998887A (zh) * 2022-08-08 2022-09-02 山东精惠计量检测有限公司 一种电能计量表智能识别方法
CN115439861A (zh) * 2022-09-30 2022-12-06 北京中盛益华科技有限公司 一种基于ocr的水尺识别方法
CN117115488A (zh) * 2023-10-24 2023-11-24 天津市天飞海泰阀门有限公司 一种基于图像处理的水表检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998887A (zh) * 2022-08-08 2022-09-02 山东精惠计量检测有限公司 一种电能计量表智能识别方法
CN114998887B (zh) * 2022-08-08 2022-10-11 山东精惠计量检测有限公司 一种电能计量表智能识别方法
CN115439861A (zh) * 2022-09-30 2022-12-06 北京中盛益华科技有限公司 一种基于ocr的水尺识别方法
CN117115488A (zh) * 2023-10-24 2023-11-24 天津市天飞海泰阀门有限公司 一种基于图像处理的水表检测方法
CN117115488B (zh) * 2023-10-24 2024-02-06 天津市天飞海泰阀门有限公司 一种基于图像处理的水表检测方法

Similar Documents

Publication Publication Date Title
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN114359538A (zh) 一种水表读数定位与识别方法
CN110119741B (zh) 一种有背景的卡证图像信息识别方法
CN111626146B (zh) 一种基于模板匹配的合并单元格表格分割识别方法
CN105678213B (zh) 基于视频特征统计的双模式蒙面人事件自动检测方法
CN115331245B (zh) 一种基于图像实例分割的表格结构识别方法
CN110598581B (zh) 基于卷积神经网络的光学乐谱识别方法
CN110276279B (zh) 一种基于图像分割的任意形状场景文本探测方法
CN111027538A (zh) 一种基于实例分割模型的集装箱检测方法
CN116030396B (zh) 一种用于视频结构化提取的精确分割方法
CN111695373A (zh) 斑马线的定位方法、系统、介质及设备
CN112686265A (zh) 一种基于层级轮廓提取的象形文字分割方法
CN112991536A (zh) 一种专题地图地理面要素自动提取和矢量化方法
CN112686248A (zh) 证件增减类别检测方法、装置、可读存储介质和终端
CN115578741A (zh) 一种基于Mask R-cnn算法和类型分割的扫描文件版面分析方法
WO2022121021A1 (zh) 一种身份证号码检测方法、装置、可读存储介质和终端
CN110378337B (zh) 金属切削刀具图纸标识信息视觉输入方法及系统
Zhang et al. Video text extraction using the fusion of color gradient and Log-Gabor filter
CN110889418A (zh) 一种气体轮廓识别方法
CN116363655A (zh) 一种财务票据识别方法及系统
CN109426770B (zh) 虹膜识别方法
CN115937708A (zh) 一种基于高清卫星影像的屋顶信息自动识别方法及装置
CN113378847B (zh) 字符分割方法、系统、计算机设备和存储介质
CN116416624A (zh) 一种基于版面校正的文档电子化方法、装置以及存储介质
CN114926635A (zh) 与深度学习方法相结合的多焦图像中目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination