CN109543676A

CN109543676A - 一种基于图像处理的字轮型水表数字字符识别方法

Info

Publication number: CN109543676A
Application number: CN201811324700.0A
Authority: CN
Inventors: 窦健; 刘宣; 阿辽沙·叶; 卢继哲; 张海龙; 郑国权
Original assignee: China Electric Power Research Institute Co Ltd CEPRI
Current assignee: China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-03-29
Anticipated expiration: 2038-11-08
Also published as: CN109543676B

Abstract

本发明公开了一种基于图像处理的字轮型水表数字字符识别方法。读取到由摄像头采集的字轮型水表图像中的字轮图像区域；进行Sobel边缘提取，再进行字轮数字区域的初级定位；通过条件随机场对字轮数字区域进行处理，采用非参数化方法对条件随机场中的能量函数进行建模，求解能量函数的最小化问题，获得已分割字符的二值化图像，对已分割字符的二值化图像，采用模板匹配的方法进行数字识别。本发明能实现图像中字轮型水表数字字符识别，有助于水表超标的自动处理，方法的识别准确率达到99.95％，满足实际的抄表准确度需求。

Description

一种基于图像处理的字轮型水表数字字符识别方法

技术领域

本发明涉及一种数字识别方法，尤其是涉及一种基于图像处理的字轮型水表数字字符识别方法。

背景技术

人工抄表不仅消耗大量的人力、物力，而且具有诸多缺陷。在抄表过程中的不规范操作，如私自调整读数等会造成人为的水表损坏；现场条件的复杂性及人为因素的不确定性造成的少抄、漏抄等均会带来相当的经济损失；自来水公司需雇佣大量的抄表人员，增大管理成本。近年来，随着智能住宅的出现，智能抄表因其具有投资费用和运行费用低，整个过程速度快、效率高、操作简单等特点而得到越来越多的重视。

字轮型水表数字识别系统是一种利用图像传感器获得水表读数图像并通过模式识别技术获得水表读数的系统。该系统在传统水表上加盖一层识别系统，采用低成本的图像传感器获取水表表盘图像，并通过总线协议传输至管理系统以协助水表的智能化管理。与传统抄表方式相比，由于表盘图像通过网络传输至统一的管理端，因此可以方便地实现水表读数的系统管理，便于自来水公司对供水系统的调度。且该系统直接在原有水表上进行升级，部署成本较低。

现有技术中缺少了有效准确的字轮型水表数字字符识别算法。

发明内容

为解决人工抄表的诸多缺陷问题，本发明提出一种基于图像处理的字轮型水表数字字符识别方法，能准确识别字轮型水表的数字并具有良好稳定性。

本发明的技术方案采用如下步骤：

1)从硬件PPI接口通过建立的图像窗口读取到由摄像头采集的字轮型水表图像中的字轮图像区域；

2)对采集的字轮图像区域进行Sobel边缘提取，再进行字轮数字区域的初级定位；

3)将字轮数字区域中一个像素作为一个结点，通过条件随机场(CRF)对字轮数字区域进行处理，采用非参数化方法对条件随机场中的能量函数进行建模，同时考虑单个字符的笔画的像素宽度和字符间的相对位置距离，采用置信传播(BP)来求解能量函数的最小化问题，获得已分割字符的二值化图像；

本发明将字轮数字区域的单个字符的分割与二值化转化为条件随机场(CRF)的一个标记问题，这样巧妙地将字符分割问题转换为标记问题，更易通过算法实现，而且执行效率更高，获得的字符分割结果更好。

4)对步骤3)得到的已分割字符的二值化图像，采用模板匹配的方法进行数字识别：

水表字符存在半字情况，即单个字符由相邻两个字符模板的一半组成(见图6)，定义这种存在半字情况的水表字符的上半部分字符为上字，下半部分字符为下字。

字轮型水表中存在上字与下字分别为临近字符的半字情况，上字为显现下半部分的半字，下字为显现完整部分的完整字。

先在模板匹配阶段建立0-9每个数字完整字符的字符模板；将字符模板分别归一化为9×12像素大小的灰度模板，对将已分割字符的二值化图像中分割后的字符进行上字与下字的定位和识别，识别出为整字情况或者半字情况，并对上字与下字的字符进行拆字获得上字图像区域和下字图像区域；

对于整字情况，直接将字符图像区域分别与各个字符模板计算欧式距离，取最小距离对应字符模板的数字作为字符标记；对于半字情况，将上字图像区域和下字图像区域均缩放至9像素宽度大小，高度根据比例缩放至对应大小，然后以上字图像区域的高度为基准，从上方开始，将上字图像区域分别与各个字符模板计算欧式距离；接着以下字图像区域的高度为基准，从下方开始，将下字图像区域分别与各个字符模板计算欧式距离，取各自欧氏距离的最小距离对应字符模板的数字作为字符标记；分别计算上字与下字的模板匹配，最终以模板匹配结果确认水表字符的位置。

所述的步骤1)中，图像采集方式设置为YUYV格式，在读取数据后仅保留Y分量，即灰度图像。

所述的步骤2)中具体为：

a)使用模板[-1 0 1]提取字轮图像区域的水平边缘特征图Gx和垂直边缘特征图Gy；

b)对字轮图像区域进行水平投影得到各行的直方子图H^j，由各行的直方子图H^j构成水平方向的直方图H：

其中，j＝1,…,h，j表示行的序数，w,h分别为字轮图像区域的宽、高，i表示像素点所在列的序数，H^j表示字轮图像区域中第j行的所有灰度值构成的直方子图；分别为水平边缘特征图Gx和垂直边缘特征图Gy的第j行第i列像素点的边缘梯度值；

c)再采用以下方式获得水平方向的直方图H中所有可能的第一字符区域部分R_n：定义第一截断参数ρ₁，比较直方子图H^j(j＝1,…,h)中像素点和第一截断参数ρ₁的大小，从j＝1行时开始比较，当H^j>ρ₁时，记下此时行j的序数值j₁；然后继续向下比较，当H^j≤ρ₁时，记下此时行j的序数值j₂，则R_n＝[j₁,j₂]，即剔除字轮图像区域中小于行j₁和大于行j₂的直方子图，保留在行j₁和行j₂之间的部分；

d)对第一字符区域部分R_n，进行垂直投影得到各列的直方子图V_n ⁱ，由各列的直方子图V_n ⁱ构成垂直方向的直方图V_n：

其中，V_n ⁱ表示第一字符区域部分R_n中第i列的所有灰度值构成的直方子图；

e)再采用以下方式获得垂直方向的直方图V_n中所有可能的第二字符区域部分R_n,m：定义第二截断参数ρ₂，比较直方子图V_n ⁱ(i＝1,…,w)和第二截断参数ρ₂的大小，从i＝1时开始比较，当V_n ⁱ>ρ₂时，记下此时列i的序数值i₁；然后继续向下比较，当V_n ⁱ≤ρ₂时，记下列i的序数值i₂，则R_n,m＝[j₁,j₂,i₁,i₂]，即继续剔除第一字符区域部分R_n中小于列i₁和大于列i₂的直方子图，保留在行j₁和行j₂之间且列i₁和列i₂之间的部分；

最终以第二字符区域部分R_n,m所在的图像区域作为字轮数字区域。

通过参数ρ₁,ρ₂来控制字符的合理纹理统计结果，该算法计算速度很快，满足有限计算能力下的快速字符定位。

所述的步骤3)中，条件随机场的能量函数建模如下：

将字轮数字区域中一个像素作为一个结点，每相邻的两个像素之间均存在边连接，由结点及连接结点的边组成的集合构成图，结点和边分别记作v和e，结点和边的集合分别记作V和E，图记作G＝(V,E)，图分为有向图和无向图，无向图是指边没有方向的图；将步骤2)获得的字轮数字区域看作无向图，无向图是指边没有方向的图，结点v对应于字轮数字区域中的一个像素，根据4连通原则两个相邻结点之间都存在一条边；

建立以下能量函数EN：

f_h(y_v,v|I)＝-log(h_v)

g(y_e,e|I)＝exp(-β(a₁-a₂)²)

其中，I表示字轮数字区域的灰度状态分布，λ,γ,κ分别为第一、第二、第三超参数，ξ是第四超参数，β是第五超参数；y_v,y_e分别是结点和边的标记变量，h_v为直方图中结点v的归一化向量值，hh_v是结点v所属的连通区域的高度，a₁,a₂分别是边e两侧所连接的两个结点的像素值；

以最小化能量函数EN为目标进行求解获得每个结点的标记变量yv，y_v∈{1,-1}；然后根据每个结点的标记变量y_v判断结点对应像素点是否属于字符的情况：若当前结点被条件随机场标记为1，即每个结点的标记变量y_v为1，则为字符前景，即该结点属于字轮数字区域的单个字符的一部分；若当前结点被条件随机场标记为-1，即每个结点的标记变量y_v为-1，则为字符背景，即该结点不属于字轮数字区域的单个字符的一部分；

然后将标记变量y_v为1的结点对应的像素点赋予灰度值255，将标记变量y_v为-1的结点对应的像素点赋予灰度值0，由此获得已分割字符的二值化图像。

以最小化能量函数EN为目标具体可采用以下方式过程求解获得每个结点的标记变量y_v：

a)对采集的字轮图像区域，初始化像素的标记状态Y，使得字轮数字区域的像素全标记为1，其他区域像素全标记为-1；

定义边e的消息量m_e，初始化各个像素的消息量均为0，即t＝0，t表示迭代次数；

b)对每一个结点v，采用以下公式进行迭代计算，获得在迭代t次后的标记权重b^t(y_v)为：

其中，v,q分别为边e连接的两个结点，y_v为结点v的标记变量，y_v∈{1,-1}，为迭代t次后边e在标记变量y_v情况下的消息量，上标t代表进行迭代第t次时的初始状态，为迭代t-1次后边e在标记变量y_q情况下的消息量；

c)对每一个结点v，迭代t次后的实际标记变量为：

重复上述步骤进行迭代，当逐渐收敛，停止迭代；迭代完成后，将标记变量的所有像素点组成的区域为字符的精确分割区域。上述迭代过程通常在3-5次即可收敛至稳定。

所述的步骤4)中的字符识别算法如下：

对步骤3)得到的已分割字符的二值化图像，检测相邻连通域之间是否存在4至8个像素距离的且赋予灰度值0的图像区域，若不存在，则将单个连通域作为检测区域进行整字识别算法，否则将相邻两个连通域拆分开单独作为检测区域进行半字识别算法：

4.1a)整字识别算法：

将检测区域缩放至9×12像素大小，并以行优先方式展开为一维向量vec，采用以下公式计算最近邻距离获得字符标记label^*：

其中，label为0到9的字符，vec_label为字符label对应的字符模板。

4.1b)半字识别算法：

将检测区域分为上字与下字，检测上字与下字的宽高，上字的宽高记为w_up,h_up，下字的宽高为w_dn,h_dn，将上字与下字分别按比例缩放至9×(h_up*9/w_up)像素大小和9×(h_dn*9/w_dn)像素大小，分别记为vec_up与vec_dn；

采用以下公式计算最近邻距离获得字符标记l^*：

其中，|| ||_dn表示以上字缩放后的高度为基准从下方开始对上字和字符label对应的字符模板计算欧式距离，|| ||_up表示以下字缩放后的高度为基准从上方开始对下字和字符label对应的字符模板计算欧式距离；

得到的字符标记label^*所对应的字符即为已分割字符的二值化图像所对应的数字，从而完成字轮型水表数字字符识别。

本发明所具备的效果如下：

本发明能从图像中准确识别字轮型水表数字字符，识别方法的识别准确率高，鲁棒性好，使用该方法对字轮型水表的数字进行识别具有非常好的效果，且对处于昏暗、复杂背景下的水表具有通用性。

附图说明

图1为本发明方法流程图。

图2为采集的字轮图像区域图。

图3～5为字轮型水表数字识别结果图(其中(a)为原始图像，(b)为识别结果图)。

图3(a)为字轮型水表数字识别第一原始图。

图3(b)为字轮型水表数字识别第一结果图。

图4(a)为字轮型水表数字识别第二原始图。

图4(b)为字轮型水表数字识别第二结果图。

图5(a)为字轮型水表数字识别第三原始图。

图5(b)为字轮型水表数字识别第三结果图。

图6为存在半字情况的水表字符图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

如图1所示，本发明的实施例及其实施过程如下：

1)从硬件PPI接口通过建立的图像窗口读取到由摄像头采集的字轮型水表图像中的字轮图像区域，采集的字轮图像区域如图2所示；

图像采集方式设置为YUYV格式，在读取数据后仅保留Y分量，即灰度图像。建立的图像窗口读取大小为150×60，占用内存大小9000字节。

2.a)使用模板[-1 0 1]提取字轮图像区域的水平边缘特征图Gx和垂直边缘特征图Gy；

2.b)对字轮图像区域进行水平投影得到各行的直方子图H^j，由各行的直方子图H^j构成水平方向的直方图H：

2.c)再采用以下方式获得水平方向的直方图H中所有可能的第一字符区域部分R_n：定义第一截断参数ρ₁，在实际系统中ρ₁取10×w；比较直方子图H^j(j＝1,…,h)中像素点和第一截断参数ρ₁的大小，从j＝1行时开始比较，当H^j>ρ₁时，记下此时行j的序数值j₁；然后继续向下比较，当H^j≤ρ₁时，记下此时行j的序数值j₂，则R_n＝[j₁,j₂]，即剔除字轮图像区域中小于行j₁和大于行j₂的直方子图，保留在行j₁和行j₂之间的部分；

2.d)对第一字符区域部分R_n，进行垂直投影得到各列的直方子图V_n ⁱ，由各列的直方子图V_n ⁱ构成垂直方向的直方图V_n：

2.e)再采用以下方式获得垂直方向的直方图V_n中所有可能的第二字符区域部分R_n,m：定义第二截断参数ρ₂，在实际系统中ρ₁取10*(b_n-t_n)；比较直方子图V_n ⁱ(i＝1,…,w)和第二截断参数ρ₂的大小，从i＝1时开始比较，当V_n ⁱ>ρ₂时，记下此时列i的序数值i₁；然后继续向下比较，当V_n ⁱ≤ρ₂时，记下列i的序数值i₂，则R_n,m＝[j₁,j₂,i₁,i₂]，即继续剔除第一字符区域部分R_n中小于列i₁和大于列i₂的直方子图，保留在行j₁和行j₂之间且列i₁和列i₂之间的部分；

3)将字轮数字区域中一个像素作为一个结点，通过条件随机场(CRF)对字轮数字区域进行处理，采用非参数化方法对条件随机场中的能量函数进行建模，同时考虑单个字符的笔画的像素宽度和字符间的相对位置距离，采用置信传播(BP)来求解能量函数的最小化问题，获得已分割字符的二值化图像。

将字轮数字区域中一个像素作为一个结点，每相邻的两个像素之间均存在边连接，由结点及连接结点的边组成的集合构成图，结点和边分别记作v和e，结点和边的集合分别记作V和E，图记作G＝(V,E)；将步骤2)获得的字轮数字区域看作无向图，无向图是指边没有方向的图；

条件随机场的能量函数建模如下：

f_h(y_v,v|I)＝-log(h_v)

g(y_e,e|I)＝exp(-β(a₁-a₂)²)

其中，具体实施中五个超参数取λ＝γ＝κ＝1，ξ＝0.7，β＝0.65。以最小化能量函数EN为目标进行求解获得每个结点的标记变量y_v，y_v∈{1,-1}：

3.a)对采集的字轮图像区域，初始化像素的标记状态Y，使得字轮数字区域的像素全标记为1，其他区域像素全标记为-1；

3.b)对每一个结点v，采用以下公式进行迭代计算，获得在迭代t次后的标记权重b^t(y_v)为：

3.c)对每一个结点v，迭代t次后的实际标记变量为：

重复上述步骤进行迭代，当逐渐收敛，停止迭代；迭代完成后，将标记变量的所有像素点组成的区域为字符的精确分割区域。

然后根据每个结点的标记变量y_v判断结点对应像素点是否属于字符的情况：若当前结点被条件随机场标记为1，即每个结点的标记变量y_v为1，则为字符前景，即该结点属于字轮数字区域的单个字符的一部分；若当前结点被条件随机场标记为-1，即每个结点的标记变量y_v为-1，则为字符背景，即该结点不属于字轮数字区域的单个字符的一部分。

具体措施是，对步骤3)得到的已分割字符的二值化图像，检测相邻连通域之间是否存在4至8个像素距离的且赋予灰度值0的图像区域，若不存在，则将单个连通域作为检测区域进行整字识别算法，否则将相邻两个连通域拆分开单独作为检测区域进行半字识别算法：

4.1a)整字识别算法：

4.1b)半字识别算法：

采用以下公式计算最近邻距离获得字符标记l^*：

其中，|| ||_dn表示以上字缩放后的高度为基准从下方开始对上字和字符label对应的字符模板计算欧式距离，||| |_up表示以下字缩放后的高度为基准从上方开始对下字和字符label对应的字符模板计算欧式距离；

实验过程中一共采集了3000张字轮型水表的数字图像，通过文所述的新型的字轮型水表数字识别方法进行识别，得到的结果如表1所示：

表1字轮型水表数字识别结果

待检测图像数	数字“0”检测成功率	数字“1”检测成功率
			3000	100％	100％
数字“2”检测成功率	数字“3”检测成功率	数字“4”检测成功率
			100％	100％	100％

待检测图像数	数字“5”检测成功率	数字“6”检测成功率
			3000	100％	100％
数字“7”检测成功率	数字“8”检测成功率	数字“9”检测成功率
			100％	100％	100％

从表1可以看出，数字0～9的检测成功率均可达到100％。

本发明方法的识别和标记结果如图3～图5(b)所示，其中框出了单个字符区域的位置，并输出了该单个字符区域对应的数字以及该结果的置信度。图3(b)中识别出的结果依次为“8”、“7”、“6”、“5”、“4”、“7”、“1”、“6”，对比图3(a)中的数字可以看出该次识别所有的字符均识别正确，其中第一个“6”、“5”、“4”和“1”均是半字识别算法识别的结果；图4(b)中识别出的结果依次为“7”、“6”、“5”、“4”、“3”、“6”、“1”、“5”，对比图4(a)中的数字可以看出该次识别所有的字符均识别正确，其中“4”、第二个“6”和“1”均是半字识别算法识别的结果；图5(b)中识别出的结果依次为“7”、“6”、“9”、“1”、“4”、“8”、“1”、“3”，对比图5(a)中的数字可以看出该次识别所有的字符均识别正确，其中除了“3”其他均是半字识别算法识别的结果。

从结果可以看到，对于正常以及半字状态下的字符区域，本发明方法均能够准确地识别出相应的数字。

实验结果表明，该方法的识别综合准确率达到99.95％，满足实际的抄表准确度需求。

由此可见，本发明能够实现字轮型水表的数字识别，具有较高的准确率，并且具有稳定性好，抗干扰能力强，通用性高等优点，对于较为模糊的图像也能够很好地识别。

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于图像处理的字轮型水表数字字符识别方法，其特征在于：包括以下步骤：

先在模板匹配阶段建立0-9每个数字完整字符的字符模板；将字符模板分别归一化为9×12像素大小的灰度模板，对将已分割字符的二值化图像中分割后的字符进行上字与下字的定位和识别，并对上字与下字的字符进行拆字获得上字图像区域和下字图像区域；

对于整字情况，直接将字符图像区域分别与各个字符模板计算欧式距离，取最小距离对应字符模板的数字作为字符标记；对于半字情况，将上字图像区域和下字图像区域均缩放至9像素宽度大小，高度根据比例缩放至对应大小，然后以上字图像区域的高度为基准，从上方开始，将上字图像区域分别与各个字符模板计算欧式距离；接着以下字图像区域的高度为基准，从下方开始，将下字图像区域分别与各个字符模板计算欧式距离，取各自欧氏距离的最小距离对应字符模板的数字作为字符标记；最终以模板匹配结果确认水表字符的位置。

2.根据权利要求1所述的一种基于图像处理的字轮型水表数字字符识别方法，其特征在于：所述的步骤1)中，图像采集方式设置为YUYV格式，在读取数据后仅保留Y分量，即灰度图像。

3.根据权利要求1所述的一种基于图像处理的字轮型水表数字字符识别方法，其特征在于：所述的步骤2)中具体为：

其中，j＝1,L,h，j表示行的序数，w,h分别为字轮图像区域的宽、高，i表示像素点所在列的序数，H^j表示字轮图像区域中第j行的所有灰度值构成的直方子图；分别为水平边缘特征图Gx和垂直边缘特征图Gy的第j行第i列像素点的边缘梯度值；

c)再采用以下方式获得水平方向的直方图H中所有可能的第一字符区域部分R_n：定义第一截断参数ρ₁，比较直方子图H^j(j＝1,L,h)中像素点和第一截断参数ρ₁的大小，从j＝1行时开始比较，当H^j>ρ₁时，记下此时行j的序数值j₁；然后继续向下比较，当H^j≤ρ₁时，记下此时行j的序数值j₂，则R_n＝[j₁,j₂]，即剔除字轮图像区域中小于行j₁和大于行j₂的直方子图，保留在行j₁和行j₂之间的部分；

e)再采用以下方式获得垂直方向的直方图V_n中所有可能的第二字符区域部分R_n,m：定义第二截断参数ρ₂，比较直方子图V_n ⁱ(i＝1,L,w)和第二截断参数ρ₂的大小，从i＝1时开始比较，当V_n ⁱ>ρ₂时，记下此时列i的序数值i₁；然后继续向下比较，当V_n ⁱ≤ρ₂时，记下列i的序数值i₂，则R_n,m＝[j₁,j₂,i₁,i₂]，即继续剔除第一字符区域部分R_n中小于列i₁和大于列i₂的直方子图，保留在行j₁和行j₂之间且列i₁和列i₂之间的部分；

4.根据权利要求1所述的一种基于图像处理的字轮型水表数字字符识别方法，其特征在于：

所述的步骤3)中，条件随机场的能量函数建模如下：

建立以下能量函数EN：

f_h(y_v,v|I)＝-log(h_v)

g(y_e,e|I)＝exp(-β(a₁-a₂)²)

以最小化能量函数EN为目标进行求解获得每个结点的标记变量y_v，y_v∈{1,-1}；然后根据每个结点的标记变量y_v判断结点对应像素点是否属于字符的情况：若当前结点被条件随机场标记为1，即每个结点的标记变量y_v为1，则为字符前景，即该结点属于字轮数字区域的单个字符的一部分；若当前结点被条件随机场标记为-1，即每个结点的标记变量y_v为-1，则为字符背景，即该结点不属于字轮数字区域的单个字符的一部分；

5.根据权利要求1所述的一种基于图像处理的字轮型水表数字字符识别方法，其特征在于：以最小化能量函数EN为目标具体可采用以下方式过程求解获得每个结点的标记变量y_v：

a)对采集的字轮图像区域，初始化像素的标记状态Y，使得字轮数字区域的像素全标记为1，其他区域像素全标记为-1；定义边e的消息量m_e，初始化各个像素的消息量均为0，即t＝0，t表示迭代次数；

其中，v,q分别为边e连接的两个结点，y_v为结点v的标记变量，y_v∈{1,-1}，为迭代t次后边e在标记变量y_v情况下的消息量，为迭代t-1次后边e在标记变量y_q情况下的消息量；

c)对每一个结点v，迭代t次后的实际标记变量为：

6.根据权利要求1所述的一种基于图像处理的字轮型水表数字字符识别方法，其特征在于：所述的步骤4)中的字符识别算法如下：

4.1a)整字识别算法：

4.1b)半字识别算法：

采用以下公式计算最近邻距离获得字符标记l^*：

其中，||||_dn表示以上字缩放后的高度为基准从下方开始对上字和字符label对应的字符模板计算欧式距离，||||_up表示以下字缩放后的高度为基准从上方开始对下字和字符label对应的字符模板计算欧式距离；