CN105354566A

CN105354566A - 用于冠字号识别的字符污染去除方法

Info

Publication number: CN105354566A
Application number: CN201510700369.8A
Authority: CN
Inventors: 钟宬; 潘惠彬; 凌志峰; 邹相; 赵旦
Original assignee: Jiangsu Guoguang Electronic Information Technology Co Ltd
Current assignee: Jiangsu Guoguang Electronic Information Technology Co Ltd
Priority date: 2015-10-26
Filing date: 2015-10-26
Publication date: 2016-02-24
Anticipated expiration: 2035-10-26
Also published as: CN105354566B

Abstract

本发明公开了用于冠字号识别的字符污染去除方法，本发明主要包括确定10个字符分界线、初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框、单个字符高度异常处理、单个字符宽度异常处理等关键步骤。确定10个字符分界线使用模板匹配方法匹配出10个字符区域分界线情况和所处位置，其中包括模板制作方法和利用模板匹配的方法。初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框，其中对一般情况、粘连情况、字符断裂等情况进行了处理。对单个字符高度的异常处理，提供了两种方法来使字符高度合理。对单个字符宽度的异常处理，本发明去污染效果良好，提高了冠字号的识别率。

Description

用于冠字号识别的字符污染去除方法

技术领域

本发明属于数字图像处理领域，尤其涉及一种用于冠字号识别的字符污染去除方法。

背景技术

纸币作为流通币，在人们的日常生活中起着举足轻重的作用。在流通过程中，可能会出现不同程度的污染，如纸币自身的红色油墨污染，铅笔的涂写，纸币使用时间久了开始破旧，纸币图像采集过程中光照不均以及无法避免的噪声等各种原因给冠字号识别带来一定的困难。

纸币冠字号识别要求识别结果准确，为了能有效地对纸币冠字号进行识别，在冠字号分割的过程中，需要利用计算机视觉技术和图像处理技术对污染的纸币冠字号区域进行处理，有效去除污染，得到可以识别的冠字号。

目前国内外纸币冠字号识别的方法很多，主要是针对七成新以上的纸币，没有对冠字号污染的纸币作处理的操作。有的对冠字号污染的纸币处理，但只通过二值操作以及中值滤波去噪等简单的方法，不能有效的去除污染。目前针对污染过的冠字号纸币还没有一种行之有效的方法，导致旧的污染纸币冠字号识别率不高，影响程序的可靠性。

发明内容

针对现有技术的不足，本发明提供一种用于冠字号识别的字符污染去除方法，能够有效的去除冠字号的污染，提高冠字号的识别率。

本发明解决其技术问题所采用的技术方案如下，用于冠字号识别的字符污染去除方法，包括以下步骤：

a)在冠字号所在区域的图像I上确定11条分界线，使得相邻的两条分界线间有且仅有单个冠字号的图像；

b)初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框；

c)对单个冠字号的高度和宽度分别进行异常处理，从而最终确定10个冠字号的外接矩形框。

进一步的，所述在冠字号所在区域的图像I上确定11条分界线，使得相邻的两条分界线间有且仅有单个冠字号的图像具体包括模板构建过程与实际计算过程，其中模板构建过程包括如下步骤：

a1)取一张纸币，使用自适应阈值方法，计算无污染图像I的二值图，其中白色为前景，黑色为背景；

a2)计算二值图的垂直投影，此垂直投影为一向量，记为p_v＝[p₁,p₂,…p_W]，其中W为图像I的宽度；

a3)人工判断图像I中第一个冠字号的最左端离图像左端的像素距离，记为s，另外，当图像的分辨率确定后，冠字号的总像素宽度是确定的，记为l，则抽取向量p_v中第s个到第s+l-1个元素，记为p_v'＝[p_s,p_s+1,…p_s+l-1]；

a4)重复步骤a1)-a3)，获得n_p个p_v'，并将n_p个p_v'求平均，则获得一个模板m；

a5)在9个间隔处将数值最低的位置进行标记，再加上头尾两处，一共可找到11条分界线，将其横坐标记为：b＝[b₀,b₁,…b₁₀]，其中b₀＝0，b₁₀＝l；

a6)每次取不同的纸币，重复步骤a1)-a5)n_m次，获得n_m个不同的模板，记作和与之对应的不同的分界线，记作

实际计算过程包括如下步骤：

a7)取一张纸币，使用自适应阈值方法，计算无污染图像I的二值图，其中白色为前景，黑色为背景；

a8)计算二值图的垂直投影，此垂直投影为一向量，记为p_v＝[p₁,p₂,…p_W]，其中W为图像I的宽度；

a9)分别计算p_v与模板的相关系数，并记录其结果为其中，c_i,i＝1,…,n_m为一个长度为W-l+1的向量；

a10)分别寻找中的最大值，记为并找到这些最大值中的最大值，记其对应的下标号为i，则应选取的模板为m_i，分界线为b_i；

a11)查找在c_i中的位置，并将其位置记为j，则可知第一条分界线离图像左端的距离为j，因此，图像中真正的分界线为b_i+j，从而确定了这11条分界线的位置。

进一步的，所述步骤b)初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框，具体包括：

b1)将11条分界线所隔的10个区域编号为每个区域中都有且仅有一个冠字号图像的外接矩形框，设之为对于任意都有四个表征其在图像中位置的属性，即(l,r,u,b)，分别表示该矩形的左、右、上、下边到图像I左、右、上、下端的距离，初始时将其设为-1；

b2)对于任意R_i，将其左边所在的区域记为其右边所在的区域记为若则跳转至b4)，否则跳转至b3)；

b3)将R_i在分界线b_l,…,b_r-1处分裂，分裂为r-l+1个区域对于分裂而成的任意矩形框，分别执行步骤b4)的操作；

b4)若对应的的(l,r,u,b)都为-1，则将的(l,r,u,b)设为R_i的(l,r,u,b)，若的(l,r,u,b)不为-1，则新的的(l,r,u,b)值被分别设为原来的和R_i中的(l,r,u,b)的较小值；

b5)最后，查看中的每一个外接矩形的四个属性，看其是否都非-1，若都非-1，则10个冠字号的外界矩形框成功建立，否则说明图像I并非冠字号图像，不予处理。

进一步的，步骤c)所述对单个字符宽度的异常处理采用第一宽度异常处理方法或第二宽度异常处理方法，对单个字符的高度的异常处理采用第一高度异常处理方法或第二高度异常处理方法。

进一步的，所述第一高度异常处理方法具体包括如下步骤：

d1)确定切割范围：若第1至第4个字符中的某个字符超过其右侧字符的高度，则说明该字符存在污染，第1个字符可根据右侧字符来限定切割范围，第2至4个字符可根据其左侧与右侧字符的高度来限定切割范围，同样的，若第7至第10个字符中的某个字符超过其左侧字符的高度，则说明该字符存在污染，第10个字符可根据左侧字符来限定切割范围，第7至9个字符可根据其左侧与右侧字符的高度来限定切割范围，对于中间的两个字符，取第四个与第七个字符之和加上5后再除以2取整后的值作为上限，上限减去2作为下限；

d2)在切割范围的行数内，计算各行的代价函数：

Breakcost＝(out_value-in_value)×(cur_row-least_row+2)/out_num

其中，out_value为当前行的暗色点(局部阈值)平均灰度，in_value为当前行内侧相邻行的暗色点(局部阈值)平均灰度，cur_row为当前去除的行数，least_row为估计得到的至少需要去除的行数，out_num为当前行暗色点(局部阈值)的个数；

d3)比较所有得到的代价值，从最大的代价值所对应的行数开始切割字符。

进一步的，所述第二高度异常处理方法具体包括如下步骤：

e1)当纸币的横向分辨率和纵向分辨率都确定后，对于十个单独的字符图像，设定其期望高度h₀,h₁,…h₉；

e2)对于任意第i个字符图像，设投票数vote_y＝0；

e3)计算异常字符的垂直中心与10个字符的平均垂直中心，若异常字符的垂直中心较平均中心小，则vote_y:＝vote_y+1，否则vote_y:＝vote_y-1；

e4)计算异常字符的垂直中心矩，若字符的垂直中心小于中心矩，则vote_y:＝vote_y-1，否则vote_y:＝vote_y+1；

e5)计算最上面一行和最下面一行的黑点的平均灰度，若最下面一行的黑点平均灰度小于最上面的，则vote_y:＝vote_y-1，否则vote_y:＝vote_y+1；

e6)若vote_y<0，裁掉上边；若vote_y>0，裁掉下边；

e7)重复步骤e2)到步骤e6)，直到字符的高度不大于h_i。

进一步的，所述第一宽度异常处理方法具体包括如下步骤：

f1)计算10个字符间的所有9个间隔，即相邻两个字符中左边字符的最右端到右边字符最左端之间的像素距离，若字符间隔小于3像素，则认为存在污染；

f2)若字符间隔大于3像素，则计算左侧字符与右侧字符与该位置的隔板之间差的绝对值，设其值分别为d_l和d_r，若d_l＞d_r，则认为左侧字符存在污染，反之，则认为右侧字符存在污染；

f3)确定切割范围，使得切割之后左右两侧字符的间隔在2到4个像素的范围内；

f4)在污染估计的范围内，对该字符各列计算代价函数：

Breakcost＝(out_value-in_value)×(cur_col-least_col+2)/out_num

其中，out_value为当前列的暗色点平均灰度，in_value为当前列内侧相邻行的暗色点平均灰度，cur_col为当前去除的列数，least_col为估计得到的至少需要去除的列数，out_num为当前列暗色点的个数；

f5)比较所有得到的代价值，从最大的代价值所对应的列数开始切割字符。

进一步的，所述第二宽度异常处理方法具体包括如下步骤：

g1)当纸币的横向分辨率和纵向分辨率都确定后，对于十个单独的字符图像，设定其期望宽度为w₀,w₁,…w₉；

g2)对于任意一个字符图像，设vote_x＝0；

g3)计算异常字符的水平中心矩。若字符的水平中心小于水平中心矩，则vote_x:＝vote_x-1，否则vote_x:＝vote_x+1；

g4)若异常字符不是第一个也不是最后一个字符，则计算其中心到左边一个字符中心的中心距和到右边一个字符中心的中心距，若到右边字符中心的中心距较大，则vote_x:＝vote_x-1，否则vote_x:＝vote_x+1

g5)若异常字符不是第一个也不是最后一个字符，则计算其到左边一个字符的间隔和到右边一个字符的间隔，若到右边字符的间隔较大，则vote_x:＝vote_x-1，否则vote_x:＝vote_x+1；

g6)若vote_x<0，裁掉左边；若vote_x>0，裁掉右边；

g7)重复步骤g2)到步骤g6)，直到字符的宽度不大于w_i。

本发明的有益效果是：有效地去除了纸币图像中所有常见污染对冠字号识别的影响，从而提高了冠字号的识别率，与其它同类方法相比，此方法在效率和效果上都有很大的提升。

附图说明

图1为本发明的算法总流程示意图；

图2为模板构建过程算法流程示意图；

图3为模板匹配过程算法流程示意图；

图4为确定单个冠字号图像的外接矩形框算法流程示意图；

图5为第一种高度异常处理方法算法流程示意图；

图6为第二种高度异常处理方法算法流程示意图；

图7为第一种宽度异常处理方法算法流程示意图；

图8为第二种宽度异常处理方法算法流程示意图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

如图1-图8所示，用于冠字号识别的字符污染去除方法，该方法用在纸币冠字号的识别过程中，在该方法实施前已经获得了冠字号所在区域的图像I以及表征图像中每个连通域的外接矩形R₁,R₂,…R_n。其中，每个外接矩形R_i,i＝1…n有四个表征其在图像中的位置的属性，即(l,r,u,b)，分别表示该矩形的左、右、上、下边到图像I左、右、上、下端的距离，由于冠字号图像有可能存在污染，从而会存在字符间的粘连问题以及单个字符的分裂问题以及其它污染问题，本发明致力于解决这些污染问题，包括以下步骤：

b)初步确定(此处初步确定是相对于步骤c)中的最终确定而言)相邻分界线之间的区域中单个冠字号图像的外接矩形框；

a5)模板m中包含了l个数值，是n_p个图像I冠字号整体区域垂直投影的均值，有字符的区域投影后的数值高，字符与字符的间隔处投影后的数值低，由于10个冠字号间有9个间隔，因此可在9个间隔处将数值最低的位置进行标记，再加上头尾两处，一共可找到11条分界线，将其横坐标记为：b＝[b₀,b₁,…b₁₀]，其中b₀＝0，b₁₀＝l；

实际计算过程包括如下步骤：

b1)将11条分界线所隔的10个区域编号为每个区域中都有且仅有一个冠字号图像的外接矩形框，设之为对于任意都有四个表征其在图像中位置的属性，即(l,r,u,b)，分别表示该矩形的左、右、上、下边到图像I左、右、上、下端的距离，初始时，我们并不知道这些属性信息，因此都设为-1；

b2)由于冠字号所在区域的图像I以及表征图像中每个连通域的外接矩形R₁,R₂,…R_n是已知的，现在要做的是建立其与之间的联系，因此，对于任意R_i，将其左边所在的区域记为其右边所在的区域记为若则跳转至b4)，否则跳转至b3)；

b3)表明R_i横跨r-l+1个区域，即冠字号存在粘连的情况，将R_i在分界线b_l,…,b_r-1处分裂，分裂为r-l+1个区域对于分裂而成的任意矩形框，分别执行步骤b4)的操作；

进一步的，所述第一高度异常处理方法具体包括如下步骤：

d2)在切割范围的行数内，计算各行的代价函数：

Breakcost＝(out_value-in_value)×(cur_row-least_row+2)/out_num

进一步的，所述第二高度异常处理方法具体包括如下步骤：

e2)对于任意第i个字符图像，设投票数vote_y＝0；

e3)计算异常字符的垂直中心与10个字符的平均垂直中心，若异常字符的垂直中心较平均中心小，则vote_y:＝vote_y+1(表示将vote_y+1赋值给vote_y)，否则vote_y:＝vote_y-1；

e6)若vote_y<0，裁掉上边；若vote_y>0，裁掉下边；

e7)重复步骤e2)到步骤e6)，直到字符的高度不大于h_i。

进一步的，所述第一宽度异常处理方法具体包括如下步骤：

f1)计算10个字符间的所有9个间隔，即相邻两个字符中左边字符的最右端到右边字符最左端之间的像素距离，若字符间隔小于3像素，则认为存在污染；f2)若字符间隔大于3像素，则计算左侧字符与右侧字符与该位置的隔板之间差的绝对值，设其值分别为d_l和d_r，若d_l＞d_r，则认为左侧字符存在污染，反之，则认为右侧字符存在污染；

f4)在污染估计的范围内，对该字符各列计算代价函数：

Breakcost＝(out_value-in_value)×(cur_col-least_col+2)/out_num

其中，out_value为当前列的暗色点(局部阀值)平均灰度，in_value为当前列内侧相邻行的暗色点(局部阀值)平均灰度，cur_col为当前去除的列数，least_col为估计得到的至少需要去除的列数，out_num为当前列暗色点(局部阀值)的个数；

进一步的，所述第二宽度异常处理方法具体包括如下步骤：

g2)对于任意一个字符图像，设vote_x＝0；

g6)若vote_x<0，裁掉左边；若vote_x>0，裁掉右边；

g7)重复步骤g2)到步骤g6)，直到字符的宽度不大于w_i。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.用于冠字号识别的字符污染去除方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于冠字号识别的字符污染去除方法，其特征在于：所述在冠字号所在区域的图像I上确定11条分界线，使得相邻的两条分界线间有且仅有单个冠字号的图像具体包括模板构建过程与实际计算过程，其中模板构建过程包括如下步骤：

实际计算过程包括如下步骤：

3.根据权利要求1所述的用于冠字号识别的字符污染去除方法，其特征在于：所述步骤b)初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框，具体包括：

b1)将11条分界线所隔的10个区域编号为每个区域中都有且仅有一个冠字号图像的外接矩形框，设之为对于任意i＝1,…,10，都有四个表征其在图像中位置的属性，即(l,r,u,b)，分别表示该矩形的左、右、上、下边到图像I左、右、上、下端的距离，初始时将其设为-1；

4.根据权利要求1所述的用于冠字号识别的字符污染去除方法，其特征在于：步骤c)所述对单个字符宽度的异常处理采用第一宽度异常处理方法或第二宽度异常处理方法，对单个字符的高度的异常处理采用第一高度异常处理方法或第二高度异常处理方法。

5.根据权利要求4所述的用于冠字号识别的字符污染去除方法，其特征在于：所述第一高度异常处理方法具体包括如下步骤：

d2)在切割范围的行数内，计算各行的代价函数：

Breakcost＝(out_value-in_value)×(cur_row-least_row+2)/out_num

6.根据权利要求4所述的用于冠字号识别的字符污染去除方法，其特征在于：所述第二高度异常处理方法具体包括如下步骤：

e2)对于任意第i个字符图像，设投票数vote_y＝0；

e6)若vote_y<0，裁掉上边；若vote_y>0，裁掉下边；

e7)重复步骤e2)到步骤e6)，直到字符的高度不大于h_i。

7.根据权利要求4所述的用于冠字号识别的字符污染去除方法，其特征在于：所述第一宽度异常处理方法具体包括如下步骤：

f4)在污染估计的范围内，对该字符各列计算代价函数：

Breakcost＝(out_value-in_value)×(cur_col-least_col+2)/out_num

8.根据权利要求4所述的用于冠字号识别的字符污染去除方法，其特征在于：所述第二宽度异常处理方法具体包括如下步骤：

g2)对于任意一个字符图像，设vote_x＝0；

g6)若vote_x<0，裁掉左边；若vote_x>0，裁掉右边；

g7)重复步骤g2)到步骤g6)，直到字符的宽度不大于w_i。