CN114359538A

CN114359538A - 一种水表读数定位与识别方法

Info

Publication number: CN114359538A
Application number: CN202210004125.6A
Authority: CN
Inventors: 代少升; 张林林; 曾奇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-04-15

Abstract

本发明涉及一种水表读数定位和识别方法，属于字符识别领域，当前水务公司对部分老旧小区用户仍然采用人工抄表方式，因此对于水表识别的研究不仅可以减轻工作人员的工作量，还保证了数据的准确性。水表识别系统主要包括水表读数区域定位和数字识别，其中字符定位是识别的关键，但由于自然环境下背景复杂，拍摄的水表图像距离远近不同，角度多样化以及光照等因素导致传统方法定位准确率低，以此为契机，本文提出了一种快速且准确的方法来识别水表。文首先采用EAST网络定位出水表读数区域，然后将依据定位框裁剪出的数字区域，通过线性增强提高水表图片的质量，再通过水平垂直投影以及形态学操作对数字进行分割，有效排除噪声点和数字周围边框对字符的影响，最后采用Tesseract‑OCR对字符进行识别。

Description

一种水表读数定位与识别方法

技术领域

本发明属于水表图像处理领域，尤其涉及一种水表读数定位与识别方法。

背景技术

目前水务公司对部分老旧小区用户仍然采用人工抄表方式，这种抄表方式不仅浪费大量的人力资源而且需要花费较长的时间，而且抄表读数的准确性和实时性也无法保障。随着智能据的精确性，而且可以大大地减轻工作人员的工作量。

水表识别系统主要包括水表读数区域定位和数字识别，其中字符定位是识别的关键。现阶段，李媛提出先采用数学形态学处理和倾斜校正后，对水平方向的投影曲线做差分，差分图中最大值和最小值对应的坐标作为出水表读数区域。付伟提出SIFT算法进行特征点匹配并查找m³标志自动定位水表读数区域。岳辰是提出边缘检测与霍夫直线检测相结合定位水表数字周围的矩形框。在自然环境下水表表盘污损，而且上述方法还容易受到光照以及拍摄角度、高度的影响，因此定位出水表读数非常困难。在字符识别部分，大多采用识别算法有改进豪斯多夫距离模板匹配法和OCR，基于模板匹配算法虽然实现简单且速度快，但对字符的要求很高，很难适用于到大多数的场景中，而光学字符识别对清晰干净的数字识别率高。

发明内容

本发明的内容为实现了一种水表读数定位与识别方法，实现了准确快速的定位出水表读数并能将字符识别出来，具体技术方案包括以下3个部分。

(1)水表读数区域定位：将自然场景下文本检测的方法来定位出水表的水表读数区域，本文采用的是EAST算法，首先是运用全卷积网络模型预测水表读数区域，输出矩形候选框，之后再运用非极大值抑制过滤掉多余的候选框，得到精确的水表读数区域。

(2)图像预处理：二值化后的水表读数区域图像中含有大量噪声点和数字周围的边框。主要是通过对图像应用垂直投影法以及形态学操作的方法来去除干扰。

(3)字符识别：对只包含数字有效信息的二值化图像采用了Tesseract-OCR的方法进行识别。

与其他水表读数区域定位和识别方法相比，本发明的优点体现在以下几点：1、基于EAST网络的定位方法过程简单，能够满足实时性，并对水表读数区域定位的准确率有很大的提高。2、该方法解决了表盘清晰度过低，水表图像距离远近不同，角度多样化以及光照等因素的影响导致定位误差大的的缺点。3、采取了一系列的图像处理过程，能够有效提高数字的识别准确率，提高了泛化能力。

附图说明

图1为本发明所涉一种水表读数定位与识别方法整体流程图

图2EAST的网络结构图

图3水表读数区域图像增强变换对比图

图4水表读数区域二值化图像

图5水表读数区域图像形态学操作

图6水表读数区域图像垂直投影图

图7水表读数区域图像中的单个水表字符

图8单个水表字符拼接图

具体实施方式

本发明用于提供一种水表读数定位与识别方法，为了使本发明的技术方案及效果更加清晰、明确，下面结合附图，对本发明的具体实施方式进行详细描述。

如图1所示，本发明设计的一种水表读数定位与识别方法流程图。为了能够定位和识别水表读数，该文首先采用EAST网络定位出水表读数区域，然后将依据定位框裁剪出的数字区域，通过线性增强提高水表图片的质量，再通过水平垂直投影以及形态学操作对数字进行分割，有效排除噪声点和数字周围边框对字符的影响，最后采用Tesseract-OCR对字符进行识别。

1.水表读数区域定位

EAST的网络结构由三部分组成：特征提取,特征融合以及预测结果的输出层。网络结网络结构图如图2所示。在特征提取阶段本文采用的是VGG16网络提取水表图像的特征图，其大小分别为水表图像的1/32，1/16，1/8和1/4。在特征融合阶段采用了逐层合并特征图的方法。在每个合并阶段，首先，将上一个阶段的特征图输入到一个上池化层(unpooling)扩大为原来的两倍；然后，与当前层的特征图进行合并；将合并后的结果通过1×1卷积层，达到减少通道数量和计算量的目的；最后会将每个阶段的特征图通过3×3卷积层进行，输出最终特征图。在输出层阶段几何形状输出有两种不同的方式。分别是旋转矩形框(RBOX)和任意四边形框(QUAD)。由于拍摄的水表图像不存在弯曲的情况，但存在水表图像旋转任意角度的情况，因此本文定义的输出结果为旋转矩形框(RBOX)的格式，最终输出分别是1个得分图(scoremap)表示这个预测框的置信度；4个文本边界框信息以及1个检测框旋转角度信息。

对水表读数区域的预测会生成上千个矩形框，因此还需要NMS算法对检测框进行处理，通过遍历每行的预测结果，估计出相邻像素得到的预测框关联性，若关联性较高，那么就将两个预测框进行合并。

2.图像预处理

2.1图像增强

由于水表图像的灰度级范围较小，因此在二值化之前还需要扩展图像像素范围，使得水表图像的对比度更好，从而提高水表读数的辨识度。本文是利用直方图正规化的方法来改善图像质量的，该方法是通过选取线性变换参数来增强的方法。具体计算公式如下：

a、b表示线性变换的参数，O_max表示增强后的水表读数图像中最大的灰度值，O_min表示增强后的水表读数区域图像中最小的灰度值，本文中将O_max设置为255，O_min设置为0，Maximg表示水表读数区域图像中的最大灰度级，Minimg表示最小的灰度级。

根据上述公式，可以计算出线性变换的参数a和b，则水表读数区域图像的灰度值img与增强后的灰度值Out的关系如下

Out＝a*img+b(2)

将灰度化后的水表读数图像按照上述方法进行增强，其效果如图3所示。线性变换后的水表读数图像的饱和度得到改善，图像中的水表读数在视觉上更加清晰。

2.2二值化

由于拍摄水表图像的明暗程度不同，难以采用固定阈值对每张水表图像二值化，因此本文采用了自适应阈值的二值化处理，即通过图像的局部特征自适应设置二值化阈值，该阈值在正常光照下以及低光照有补光的情况下同样适用，为了方便观察，本文将得到的二值图进行了取反操作，经过二值化后的如图4所示，数字区域为白色，背景区域为黑色的二值图。

2.3字符分割

从图4中可以看出，得到的二值化后的水表读数区域图像中数字周围存在边框和大量的噪声点，使得图像背景不够纯净，影响了数字识别的精度，因此，还需要对水表读数图像进一步处理。首先用形态学操作中的开运算和计算轮廓区域面积来消除白色噪点，开运算主要是采用3×3的卷积核对水表读数区域图像进行腐蚀和膨胀两种操作，然后通过轮廓提取的方法得到图像中的所有轮廓，计算每个轮廓的面积和周长，并对面积周长进行筛选，得到满足要求的轮廓。通过两轮筛选其效果如图5所示。之后利用水平投影和垂直投影来消除边框对识别的影响。首先对图5进行垂直投影，即分别统计每列的白色像素点以及黑色像素点的个数，得到的投影如图6所示。根据图6的垂直投影图，可以去除竖直边框，分割出水表读数，具体步骤为：

步骤1：计算出白色像素点的最大值和黑色像素点的最大值，分别记为v_max_white和v_max_black。

步骤2：计算每个字符的起始、终止位置。首先对图6(a)从左往右遍历，将start＝0.03*v_max_white对应的水平方向的坐标值作为第一个字符的起始位置，然后对图6(b)从首字符的起始位置往右遍历，将end＝0.97*v_max_black对应的水平方向的坐标值为字符的终止位置，以此类推，到最后一个字符。

步骤3：根据记录的位置对每个数字进行分割，同理，将对每个分割后的图像进行水平投影，统计每行的白色像素点和黑色像素点的个数，分别记为l_max_white和l_max_black。将t＝0.02*v_max_white和b＝0.02*v_max_black。

基于上述步骤，去除图5所示的水表读数区域图像经过形态学操作后的二值化图中数字周围的边框，最后得到单个水表字符的效果如图7所示。将单个水表字符进行拼接，如图8所示。

3.字符识别

为了能够达到在自然场景下识别率的要求，本文是通过自制数据集，训练更能准确识别水表字符的模型。具体的制作和训练过程如下：

1)选取训练样本图片。为了确保该系统能够识别各种场景下的水表读数，不仅要保证样本数量充足，而且样本数据中要包括半字符和缺失字符的样本。将所有的样本图片使用工具将其合并成一张图片并以.tif格式保存。

2)生成Box文件。为了训练新的样本数据，需要先用旧的训练数据来识别新的样本，之后调整每张图片中识别错误的字符和位置，生成新的Box文件。

3)生成训练文件。主要是提取样本图片中字符的特征，采用的多边形近似的方式。

4)聚类字符特征。当提取出样本字符的所有特征后，需要对特征进行分类。

5)合并文件。合并上述步骤生成的五个文件，会生成目标文件，该文件就是训练好的字库。

经过上述步骤训练好专用的水表数字模型，调用该模型对图8进行识别，得到最后的识别结果。

通过实验表明，该方法定位水表读数区域准确率更高，解决了自然环境下背景复杂，拍摄的水表图像距离远近不同，角度多样化以及光照等因素导致定位准确率低的问题，经过图像预处理后，使字符识别准确率更高，并具有普适性和实时性的要求，具有一定实用价值。

Claims

1.本发明的内容为实现了一种水表读数定位与识别方法，实现了准确快速的定位出水表读数并能将字符识别出来，包括：

步骤1：水表读数区域定位，将自然场景下文本检测的方法来定位出水表的水表读数区域，本文采用的是EAST网络，首先是运用全卷积网络模型预测水表读数区域，输出矩形候选框，之后再运用非极大值抑制过滤掉多余的候选框，得到精确的水表读数区域.

步骤2：图像预处理，二值化后的水表读数区域图像中含有大量噪声点和数字周围的边框。主要是是通过对图像应用垂直投影法以及形态学操作的方法来去除干扰。

步骤3：字符识别，对只包含数字有效信息的二值化图像采用了Tesseract-OCR的方法进行识别。

2.根据权利要求1所述的一种水表读数定位与识别方法，采用的是EAST网络，该网络结构由三部分组成：特征提取,特征融合以及预测结果的输出层。网络结网络结构图如图1所示。在特征提取阶段本文采用的是VGG16网络提取水表图像的特征图，其大小分别为水表图像的1/32，1/16，1/8和1/4。在特征融合阶段采用了逐层合并特征图的方法。在每个合并阶段，首先，将上一个阶段的特征图输入到一个上池化层(unpooling)扩大为原来的两倍；然后，与当前层的特征图进行合并；将合并后的结果通过1×1卷积层，达到减少通道数量和计算量的目的；最后会将每个阶段的特征图通过3×3卷积层进行，输出最终特征图。在输出层阶段几何形状输出有两种不同的方式。分别是旋转矩形框(RBOX)和任意四边形框(QUAD)。由于拍摄的水表图像不存在弯曲的情况，但存在水表图像旋转任意角度的情况，因此本文定义的输出结果为旋转矩形框(RBOX)的格式，最终输出分别是1个得分图(score map)表示这个预测框的置信度；4个文本边界框信息以及1个检测框旋转角度信息。

3.根据权利要求2所述的一种水表读数定位与识别方法，其特征在于：对裁剪得到的水表读数区域图像进行预处理，包括以下步骤：

Out＝a*img+b (2)

由于拍摄水表图像的明暗程度不同，难以采用固定阈值对每张水表图像二值化，因此本文采用了自适应阈值的二值化处理，即通过图像的局部特征自适应设置二值化阈值，该阈值在正常光照下以及低光照有补光的情况下同样适用，为了方便观察，本文将得到的二值图进行了取反操作。

二值化后的水表读数区域图像中数字周围存在边框和大量的噪声点，使得图像背景不够纯净，影响了数字识别的精度，因此，还需要对水表读数图像进一步处理。首先用形态学操作中的开运算和计算轮廓区域面积来消除白色噪点，开运算主要是采用3×3的卷积核对水表读数区域图像进行腐蚀和膨胀两种操作，然后通过轮廓提取的方法得到图像中的所有轮廓，计算每个轮廓的面积和周长，并对面积周长进行筛选，得到满足要求的轮廓，之后利用水平投影和垂直投影来消除边框对识别的影响。具体步骤为：

基于上述步骤，最后得到单个水表字符并将单个水表字符进行拼接，得到只含有数字信息的二值化图像。

4.根据权利要求3所述的一种水表读数定位与识别，其特征在于：为了能够达到在自然场景下识别率的要求，本文是通过自制数据集，训练更能准确识别水表字符的模型。具体的制作和训练过程如下：

经过上述步骤训练好专用的水表数字模型，调用该模型进行识别，得到最后的识别结果。