CN105354566A - 用于冠字号识别的字符污染去除方法 - Google Patents

用于冠字号识别的字符污染去除方法 Download PDF

Info

Publication number
CN105354566A
CN105354566A CN201510700369.8A CN201510700369A CN105354566A CN 105354566 A CN105354566 A CN 105354566A CN 201510700369 A CN201510700369 A CN 201510700369A CN 105354566 A CN105354566 A CN 105354566A
Authority
CN
China
Prior art keywords
character
vote
image
crown word
word number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510700369.8A
Other languages
English (en)
Other versions
CN105354566B (zh
Inventor
钟宬
潘惠彬
凌志峰
邹相
赵旦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Guoguang Electronic Information Technology Co Ltd
Original Assignee
Jiangsu Guoguang Electronic Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Guoguang Electronic Information Technology Co Ltd filed Critical Jiangsu Guoguang Electronic Information Technology Co Ltd
Priority to CN201510700369.8A priority Critical patent/CN105354566B/zh
Publication of CN105354566A publication Critical patent/CN105354566A/zh
Application granted granted Critical
Publication of CN105354566B publication Critical patent/CN105354566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • G07D7/2016Testing patterns thereon using feature extraction, e.g. segmentation, edge detection or Hough-transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Inspection Of Paper Currency And Valuable Securities (AREA)

Abstract

本发明公开了用于冠字号识别的字符污染去除方法,本发明主要包括确定10个字符分界线、初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框、单个字符高度异常处理、单个字符宽度异常处理等关键步骤。确定10个字符分界线使用模板匹配方法匹配出10个字符区域分界线情况和所处位置,其中包括模板制作方法和利用模板匹配的方法。初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框,其中对一般情况、粘连情况、字符断裂等情况进行了处理。对单个字符高度的异常处理,提供了两种方法来使字符高度合理。对单个字符宽度的异常处理,本发明去污染效果良好,提高了冠字号的识别率。

Description

用于冠字号识别的字符污染去除方法
技术领域
本发明属于数字图像处理领域,尤其涉及一种用于冠字号识别的字符污染去除方法。
背景技术
纸币作为流通币,在人们的日常生活中起着举足轻重的作用。在流通过程中,可能会出现不同程度的污染,如纸币自身的红色油墨污染,铅笔的涂写,纸币使用时间久了开始破旧,纸币图像采集过程中光照不均以及无法避免的噪声等各种原因给冠字号识别带来一定的困难。
纸币冠字号识别要求识别结果准确,为了能有效地对纸币冠字号进行识别,在冠字号分割的过程中,需要利用计算机视觉技术和图像处理技术对污染的纸币冠字号区域进行处理,有效去除污染,得到可以识别的冠字号。
目前国内外纸币冠字号识别的方法很多,主要是针对七成新以上的纸币,没有对冠字号污染的纸币作处理的操作。有的对冠字号污染的纸币处理,但只通过二值操作以及中值滤波去噪等简单的方法,不能有效的去除污染。目前针对污染过的冠字号纸币还没有一种行之有效的方法,导致旧的污染纸币冠字号识别率不高,影响程序的可靠性。
发明内容
针对现有技术的不足,本发明提供一种用于冠字号识别的字符污染去除方法,能够有效的去除冠字号的污染,提高冠字号的识别率。
本发明解决其技术问题所采用的技术方案如下,用于冠字号识别的字符污染去除方法,包括以下步骤:
a)在冠字号所在区域的图像I上确定11条分界线,使得相邻的两条分界线间有且仅有单个冠字号的图像;
b)初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框;
c)对单个冠字号的高度和宽度分别进行异常处理,从而最终确定10个冠字号的外接矩形框。
进一步的,所述在冠字号所在区域的图像I上确定11条分界线,使得相邻的两条分界线间有且仅有单个冠字号的图像具体包括模板构建过程与实际计算过程,其中模板构建过程包括如下步骤:
a1)取一张纸币,使用自适应阈值方法,计算无污染图像I的二值图,其中白色为前景,黑色为背景;
a2)计算二值图的垂直投影,此垂直投影为一向量,记为pv=[p1,p2,…pW],其中W为图像I的宽度;
a3)人工判断图像I中第一个冠字号的最左端离图像左端的像素距离,记为s,另外,当图像的分辨率确定后,冠字号的总像素宽度是确定的,记为l,则抽取向量pv中第s个到第s+l-1个元素,记为pv'=[ps,ps+1,…ps+l-1];
a4)重复步骤a1)-a3),获得np个pv',并将np个pv'求平均,则获得一个模板m;
a5)在9个间隔处将数值最低的位置进行标记,再加上头尾两处,一共可找到11条分界线,将其横坐标记为:b=[b0,b1,…b10],其中b0=0,b10=l;
a6)每次取不同的纸币,重复步骤a1)-a5)nm次,获得nm个不同的模板,记作和与之对应的不同的分界线,记作
实际计算过程包括如下步骤:
a7)取一张纸币,使用自适应阈值方法,计算无污染图像I的二值图,其中白色为前景,黑色为背景;
a8)计算二值图的垂直投影,此垂直投影为一向量,记为pv=[p1,p2,…pW],其中W为图像I的宽度;
a9)分别计算pv与模板的相关系数,并记录其结果为其中,ci,i=1,…,nm为一个长度为W-l+1的向量;
a10)分别寻找中的最大值,记为并找到这些最大值中的最大值,记其对应的下标号为i,则应选取的模板为mi,分界线为bi
a11)查找在ci中的位置,并将其位置记为j,则可知第一条分界线离图像左端的距离为j,因此,图像中真正的分界线为bi+j,从而确定了这11条分界线的位置。
进一步的,所述步骤b)初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框,具体包括:
b1)将11条分界线所隔的10个区域编号为每个区域中都有且仅有一个冠字号图像的外接矩形框,设之为对于任意都有四个表征其在图像中位置的属性,即(l,r,u,b),分别表示该矩形的左、右、上、下边到图像I左、右、上、下端的距离,初始时将其设为-1;
b2)对于任意Ri,将其左边所在的区域记为其右边所在的区域记为则跳转至b4),否则跳转至b3);
b3)将Ri在分界线bl,…,br-1处分裂,分裂为r-l+1个区域对于分裂而成的任意矩形框,分别执行步骤b4)的操作;
b4)若对应的的(l,r,u,b)都为-1,则将的(l,r,u,b)设为Ri的(l,r,u,b),若的(l,r,u,b)不为-1,则新的的(l,r,u,b)值被分别设为原来的和Ri中的(l,r,u,b)的较小值;
b5)最后,查看中的每一个外接矩形的四个属性,看其是否都非-1,若都非-1,则10个冠字号的外界矩形框成功建立,否则说明图像I并非冠字号图像,不予处理。
进一步的,步骤c)所述对单个字符宽度的异常处理采用第一宽度异常处理方法或第二宽度异常处理方法,对单个字符的高度的异常处理采用第一高度异常处理方法或第二高度异常处理方法。
进一步的,所述第一高度异常处理方法具体包括如下步骤:
d1)确定切割范围:若第1至第4个字符中的某个字符超过其右侧字符的高度,则说明该字符存在污染,第1个字符可根据右侧字符来限定切割范围,第2至4个字符可根据其左侧与右侧字符的高度来限定切割范围,同样的,若第7至第10个字符中的某个字符超过其左侧字符的高度,则说明该字符存在污染,第10个字符可根据左侧字符来限定切割范围,第7至9个字符可根据其左侧与右侧字符的高度来限定切割范围,对于中间的两个字符,取第四个与第七个字符之和加上5后再除以2取整后的值作为上限,上限减去2作为下限;
d2)在切割范围的行数内,计算各行的代价函数:
Breakcost=(out_value-in_value)×(cur_row-least_row+2)/out_num
其中,out_value为当前行的暗色点(局部阈值)平均灰度,in_value为当前行内侧相邻行的暗色点(局部阈值)平均灰度,cur_row为当前去除的行数,least_row为估计得到的至少需要去除的行数,out_num为当前行暗色点(局部阈值)的个数;
d3)比较所有得到的代价值,从最大的代价值所对应的行数开始切割字符。
进一步的,所述第二高度异常处理方法具体包括如下步骤:
e1)当纸币的横向分辨率和纵向分辨率都确定后,对于十个单独的字符图像,设定其期望高度h0,h1,…h9
e2)对于任意第i个字符图像,设投票数vote_y=0;
e3)计算异常字符的垂直中心与10个字符的平均垂直中心,若异常字符的垂直中心较平均中心小,则vote_y:=vote_y+1,否则vote_y:=vote_y-1;
e4)计算异常字符的垂直中心矩,若字符的垂直中心小于中心矩,则vote_y:=vote_y-1,否则vote_y:=vote_y+1;
e5)计算最上面一行和最下面一行的黑点的平均灰度,若最下面一行的黑点平均灰度小于最上面的,则vote_y:=vote_y-1,否则vote_y:=vote_y+1;
e6)若vote_y<0,裁掉上边;若vote_y>0,裁掉下边;
e7)重复步骤e2)到步骤e6),直到字符的高度不大于hi
进一步的,所述第一宽度异常处理方法具体包括如下步骤:
f1)计算10个字符间的所有9个间隔,即相邻两个字符中左边字符的最右端到右边字符最左端之间的像素距离,若字符间隔小于3像素,则认为存在污染;
f2)若字符间隔大于3像素,则计算左侧字符与右侧字符与该位置的隔板之间差的绝对值,设其值分别为dl和dr,若dl>dr,则认为左侧字符存在污染,反之,则认为右侧字符存在污染;
f3)确定切割范围,使得切割之后左右两侧字符的间隔在2到4个像素的范围内;
f4)在污染估计的范围内,对该字符各列计算代价函数:
Breakcost=(out_value-in_value)×(cur_col-least_col+2)/out_num
其中,out_value为当前列的暗色点平均灰度,in_value为当前列内侧相邻行的暗色点平均灰度,cur_col为当前去除的列数,least_col为估计得到的至少需要去除的列数,out_num为当前列暗色点的个数;
f5)比较所有得到的代价值,从最大的代价值所对应的列数开始切割字符。
进一步的,所述第二宽度异常处理方法具体包括如下步骤:
g1)当纸币的横向分辨率和纵向分辨率都确定后,对于十个单独的字符图像,设定其期望宽度为w0,w1,…w9
g2)对于任意一个字符图像,设vote_x=0;
g3)计算异常字符的水平中心矩。若字符的水平中心小于水平中心矩,则vote_x:=vote_x-1,否则vote_x:=vote_x+1;
g4)若异常字符不是第一个也不是最后一个字符,则计算其中心到左边一个字符中心的中心距和到右边一个字符中心的中心距,若到右边字符中心的中心距较大,则vote_x:=vote_x-1,否则vote_x:=vote_x+1
g5)若异常字符不是第一个也不是最后一个字符,则计算其到左边一个字符的间隔和到右边一个字符的间隔,若到右边字符的间隔较大,则vote_x:=vote_x-1,否则vote_x:=vote_x+1;
g6)若vote_x<0,裁掉左边;若vote_x>0,裁掉右边;
g7)重复步骤g2)到步骤g6),直到字符的宽度不大于wi
本发明的有益效果是:有效地去除了纸币图像中所有常见污染对冠字号识别的影响,从而提高了冠字号的识别率,与其它同类方法相比,此方法在效率和效果上都有很大的提升。
附图说明
图1为本发明的算法总流程示意图;
图2为模板构建过程算法流程示意图;
图3为模板匹配过程算法流程示意图;
图4为确定单个冠字号图像的外接矩形框算法流程示意图;
图5为第一种高度异常处理方法算法流程示意图;
图6为第二种高度异常处理方法算法流程示意图;
图7为第一种宽度异常处理方法算法流程示意图;
图8为第二种宽度异常处理方法算法流程示意图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图1-图8所示,用于冠字号识别的字符污染去除方法,该方法用在纸币冠字号的识别过程中,在该方法实施前已经获得了冠字号所在区域的图像I以及表征图像中每个连通域的外接矩形R1,R2,…Rn。其中,每个外接矩形Ri,i=1…n有四个表征其在图像中的位置的属性,即(l,r,u,b),分别表示该矩形的左、右、上、下边到图像I左、右、上、下端的距离,由于冠字号图像有可能存在污染,从而会存在字符间的粘连问题以及单个字符的分裂问题以及其它污染问题,本发明致力于解决这些污染问题,包括以下步骤:
a)在冠字号所在区域的图像I上确定11条分界线,使得相邻的两条分界线间有且仅有单个冠字号的图像;
b)初步确定(此处初步确定是相对于步骤c)中的最终确定而言)相邻分界线之间的区域中单个冠字号图像的外接矩形框;
c)对单个冠字号的高度和宽度分别进行异常处理,从而最终确定10个冠字号的外接矩形框。
进一步的,所述在冠字号所在区域的图像I上确定11条分界线,使得相邻的两条分界线间有且仅有单个冠字号的图像具体包括模板构建过程与实际计算过程,其中模板构建过程包括如下步骤:
a1)取一张纸币,使用自适应阈值方法,计算无污染图像I的二值图,其中白色为前景,黑色为背景;
a2)计算二值图的垂直投影,此垂直投影为一向量,记为pv=[p1,p2,…pW],其中W为图像I的宽度;
a3)人工判断图像I中第一个冠字号的最左端离图像左端的像素距离,记为s,另外,当图像的分辨率确定后,冠字号的总像素宽度是确定的,记为l,则抽取向量pv中第s个到第s+l-1个元素,记为pv'=[ps,ps+1,…ps+l-1];
a4)重复步骤a1)-a3),获得np个pv',并将np个pv'求平均,则获得一个模板m;
a5)模板m中包含了l个数值,是np个图像I冠字号整体区域垂直投影的均值,有字符的区域投影后的数值高,字符与字符的间隔处投影后的数值低,由于10个冠字号间有9个间隔,因此可在9个间隔处将数值最低的位置进行标记,再加上头尾两处,一共可找到11条分界线,将其横坐标记为:b=[b0,b1,…b10],其中b0=0,b10=l;
a6)每次取不同的纸币,重复步骤a1)-a5)nm次,获得nm个不同的模板,记作和与之对应的不同的分界线,记作
实际计算过程包括如下步骤:
a7)取一张纸币,使用自适应阈值方法,计算无污染图像I的二值图,其中白色为前景,黑色为背景;
a8)计算二值图的垂直投影,此垂直投影为一向量,记为pv=[p1,p2,…pW],其中W为图像I的宽度;
a9)分别计算pv与模板的相关系数,并记录其结果为其中,ci,i=1,…,nm为一个长度为W-l+1的向量;
a10)分别寻找中的最大值,记为并找到这些最大值中的最大值,记其对应的下标号为i,则应选取的模板为mi,分界线为bi
a11)查找在ci中的位置,并将其位置记为j,则可知第一条分界线离图像左端的距离为j,因此,图像中真正的分界线为bi+j,从而确定了这11条分界线的位置。
进一步的,所述步骤b)初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框,具体包括:
b1)将11条分界线所隔的10个区域编号为每个区域中都有且仅有一个冠字号图像的外接矩形框,设之为对于任意都有四个表征其在图像中位置的属性,即(l,r,u,b),分别表示该矩形的左、右、上、下边到图像I左、右、上、下端的距离,初始时,我们并不知道这些属性信息,因此都设为-1;
b2)由于冠字号所在区域的图像I以及表征图像中每个连通域的外接矩形R1,R2,…Rn是已知的,现在要做的是建立其与之间的联系,因此,对于任意Ri,将其左边所在的区域记为其右边所在的区域记为则跳转至b4),否则跳转至b3);
b3)表明Ri横跨r-l+1个区域,即冠字号存在粘连的情况,将Ri在分界线bl,…,br-1处分裂,分裂为r-l+1个区域对于分裂而成的任意矩形框,分别执行步骤b4)的操作;
b4)若对应的的(l,r,u,b)都为-1,则将的(l,r,u,b)设为Ri的(l,r,u,b),若的(l,r,u,b)不为-1,则新的的(l,r,u,b)值被分别设为原来的和Ri中的(l,r,u,b)的较小值;
b5)最后,查看中的每一个外接矩形的四个属性,看其是否都非-1,若都非-1,则10个冠字号的外界矩形框成功建立,否则说明图像I并非冠字号图像,不予处理。
进一步的,步骤c)所述对单个字符宽度的异常处理采用第一宽度异常处理方法或第二宽度异常处理方法,对单个字符的高度的异常处理采用第一高度异常处理方法或第二高度异常处理方法。
进一步的,所述第一高度异常处理方法具体包括如下步骤:
d1)确定切割范围:若第1至第4个字符中的某个字符超过其右侧字符的高度,则说明该字符存在污染,第1个字符可根据右侧字符来限定切割范围,第2至4个字符可根据其左侧与右侧字符的高度来限定切割范围,同样的,若第7至第10个字符中的某个字符超过其左侧字符的高度,则说明该字符存在污染,第10个字符可根据左侧字符来限定切割范围,第7至9个字符可根据其左侧与右侧字符的高度来限定切割范围,对于中间的两个字符,取第四个与第七个字符之和加上5后再除以2取整后的值作为上限,上限减去2作为下限;
d2)在切割范围的行数内,计算各行的代价函数:
Breakcost=(out_value-in_value)×(cur_row-least_row+2)/out_num
其中,out_value为当前行的暗色点(局部阈值)平均灰度,in_value为当前行内侧相邻行的暗色点(局部阈值)平均灰度,cur_row为当前去除的行数,least_row为估计得到的至少需要去除的行数,out_num为当前行暗色点(局部阈值)的个数;
d3)比较所有得到的代价值,从最大的代价值所对应的行数开始切割字符。
进一步的,所述第二高度异常处理方法具体包括如下步骤:
e1)当纸币的横向分辨率和纵向分辨率都确定后,对于十个单独的字符图像,设定其期望高度h0,h1,…h9
e2)对于任意第i个字符图像,设投票数vote_y=0;
e3)计算异常字符的垂直中心与10个字符的平均垂直中心,若异常字符的垂直中心较平均中心小,则vote_y:=vote_y+1(表示将vote_y+1赋值给vote_y),否则vote_y:=vote_y-1;
e4)计算异常字符的垂直中心矩,若字符的垂直中心小于中心矩,则vote_y:=vote_y-1,否则vote_y:=vote_y+1;
e5)计算最上面一行和最下面一行的黑点的平均灰度,若最下面一行的黑点平均灰度小于最上面的,则vote_y:=vote_y-1,否则vote_y:=vote_y+1;
e6)若vote_y<0,裁掉上边;若vote_y>0,裁掉下边;
e7)重复步骤e2)到步骤e6),直到字符的高度不大于hi
进一步的,所述第一宽度异常处理方法具体包括如下步骤:
f1)计算10个字符间的所有9个间隔,即相邻两个字符中左边字符的最右端到右边字符最左端之间的像素距离,若字符间隔小于3像素,则认为存在污染;f2)若字符间隔大于3像素,则计算左侧字符与右侧字符与该位置的隔板之间差的绝对值,设其值分别为dl和dr,若dl>dr,则认为左侧字符存在污染,反之,则认为右侧字符存在污染;
f3)确定切割范围,使得切割之后左右两侧字符的间隔在2到4个像素的范围内;
f4)在污染估计的范围内,对该字符各列计算代价函数:
Breakcost=(out_value-in_value)×(cur_col-least_col+2)/out_num
其中,out_value为当前列的暗色点(局部阀值)平均灰度,in_value为当前列内侧相邻行的暗色点(局部阀值)平均灰度,cur_col为当前去除的列数,least_col为估计得到的至少需要去除的列数,out_num为当前列暗色点(局部阀值)的个数;
f5)比较所有得到的代价值,从最大的代价值所对应的列数开始切割字符。
进一步的,所述第二宽度异常处理方法具体包括如下步骤:
g1)当纸币的横向分辨率和纵向分辨率都确定后,对于十个单独的字符图像,设定其期望宽度为w0,w1,…w9
g2)对于任意一个字符图像,设vote_x=0;
g3)计算异常字符的水平中心矩。若字符的水平中心小于水平中心矩,则vote_x:=vote_x-1,否则vote_x:=vote_x+1;
g4)若异常字符不是第一个也不是最后一个字符,则计算其中心到左边一个字符中心的中心距和到右边一个字符中心的中心距,若到右边字符中心的中心距较大,则vote_x:=vote_x-1,否则vote_x:=vote_x+1
g5)若异常字符不是第一个也不是最后一个字符,则计算其到左边一个字符的间隔和到右边一个字符的间隔,若到右边字符的间隔较大,则vote_x:=vote_x-1,否则vote_x:=vote_x+1;
g6)若vote_x<0,裁掉左边;若vote_x>0,裁掉右边;
g7)重复步骤g2)到步骤g6),直到字符的宽度不大于wi
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (8)

1.用于冠字号识别的字符污染去除方法,其特征在于,包括以下步骤:
a)在冠字号所在区域的图像I上确定11条分界线,使得相邻的两条分界线间有且仅有单个冠字号的图像;
b)初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框;
c)对单个冠字号的高度和宽度分别进行异常处理,从而最终确定10个冠字号的外接矩形框。
2.根据权利要求1所述的用于冠字号识别的字符污染去除方法,其特征在于:所述在冠字号所在区域的图像I上确定11条分界线,使得相邻的两条分界线间有且仅有单个冠字号的图像具体包括模板构建过程与实际计算过程,其中模板构建过程包括如下步骤:
a1)取一张纸币,使用自适应阈值方法,计算无污染图像I的二值图,其中白色为前景,黑色为背景;
a2)计算二值图的垂直投影,此垂直投影为一向量,记为pv=[p1,p2,…pW],其中W为图像I的宽度;
a3)人工判断图像I中第一个冠字号的最左端离图像左端的像素距离,记为s,另外,当图像的分辨率确定后,冠字号的总像素宽度是确定的,记为l,则抽取向量pv中第s个到第s+l-1个元素,记为pv'=[ps,ps+1,…ps+l-1];
a4)重复步骤a1)-a3),获得np个pv',并将np个pv'求平均,则获得一个模板m;
a5)在9个间隔处将数值最低的位置进行标记,再加上头尾两处,一共可找到11条分界线,将其横坐标记为:b=[b0,b1,…b10],其中b0=0,b10=l;
a6)每次取不同的纸币,重复步骤a1)-a5)nm次,获得nm个不同的模板,记作和与之对应的不同的分界线,记作
实际计算过程包括如下步骤:
a7)取一张纸币,使用自适应阈值方法,计算无污染图像I的二值图,其中白色为前景,黑色为背景;
a8)计算二值图的垂直投影,此垂直投影为一向量,记为pv=[p1,p2,…pW],其中W为图像I的宽度;
a9)分别计算pv与模板的相关系数,并记录其结果为其中,ci,i=1,…,nm为一个长度为W-l+1的向量;
a10)分别寻找中的最大值,记为并找到这些最大值中的最大值,记其对应的下标号为i,则应选取的模板为mi,分界线为bi
a11)查找在ci中的位置,并将其位置记为j,则可知第一条分界线离图像左端的距离为j,因此,图像中真正的分界线为bi+j,从而确定了这11条分界线的位置。
3.根据权利要求1所述的用于冠字号识别的字符污染去除方法,其特征在于:所述步骤b)初步确定相邻分界线之间的区域中单个冠字号图像的外接矩形框,具体包括:
b1)将11条分界线所隔的10个区域编号为每个区域中都有且仅有一个冠字号图像的外接矩形框,设之为对于任意i=1,…,10,都有四个表征其在图像中位置的属性,即(l,r,u,b),分别表示该矩形的左、右、上、下边到图像I左、右、上、下端的距离,初始时将其设为-1;
b2)对于任意Ri,将其左边所在的区域记为其右边所在的区域记为则跳转至b4),否则跳转至b3);
b3)将Ri在分界线bl,…,br-1处分裂,分裂为r-l+1个区域对于分裂而成的任意矩形框,分别执行步骤b4)的操作;
b4)若对应的的(l,r,u,b)都为-1,则将的(l,r,u,b)设为Ri的(l,r,u,b),若的(l,r,u,b)不为-1,则新的的(l,r,u,b)值被分别设为原来的和Ri中的(l,r,u,b)的较小值;
b5)最后,查看中的每一个外接矩形的四个属性,看其是否都非-1,若都非-1,则10个冠字号的外界矩形框成功建立,否则说明图像I并非冠字号图像,不予处理。
4.根据权利要求1所述的用于冠字号识别的字符污染去除方法,其特征在于:步骤c)所述对单个字符宽度的异常处理采用第一宽度异常处理方法或第二宽度异常处理方法,对单个字符的高度的异常处理采用第一高度异常处理方法或第二高度异常处理方法。
5.根据权利要求4所述的用于冠字号识别的字符污染去除方法,其特征在于:所述第一高度异常处理方法具体包括如下步骤:
d1)确定切割范围:若第1至第4个字符中的某个字符超过其右侧字符的高度,则说明该字符存在污染,第1个字符可根据右侧字符来限定切割范围,第2至4个字符可根据其左侧与右侧字符的高度来限定切割范围,同样的,若第7至第10个字符中的某个字符超过其左侧字符的高度,则说明该字符存在污染,第10个字符可根据左侧字符来限定切割范围,第7至9个字符可根据其左侧与右侧字符的高度来限定切割范围,对于中间的两个字符,取第四个与第七个字符之和加上5后再除以2取整后的值作为上限,上限减去2作为下限;
d2)在切割范围的行数内,计算各行的代价函数:
Breakcost=(out_value-in_value)×(cur_row-least_row+2)/out_num
其中,out_value为当前行的暗色点(局部阈值)平均灰度,in_value为当前行内侧相邻行的暗色点(局部阈值)平均灰度,cur_row为当前去除的行数,least_row为估计得到的至少需要去除的行数,out_num为当前行暗色点(局部阈值)的个数;
d3)比较所有得到的代价值,从最大的代价值所对应的行数开始切割字符。
6.根据权利要求4所述的用于冠字号识别的字符污染去除方法,其特征在于:所述第二高度异常处理方法具体包括如下步骤:
e1)当纸币的横向分辨率和纵向分辨率都确定后,对于十个单独的字符图像,设定其期望高度h0,h1,…h9
e2)对于任意第i个字符图像,设投票数vote_y=0;
e3)计算异常字符的垂直中心与10个字符的平均垂直中心,若异常字符的垂直中心较平均中心小,则vote_y:=vote_y+1,否则vote_y:=vote_y-1;
e4)计算异常字符的垂直中心矩,若字符的垂直中心小于中心矩,则vote_y:=vote_y-1,否则vote_y:=vote_y+1;
e5)计算最上面一行和最下面一行的黑点的平均灰度,若最下面一行的黑点平均灰度小于最上面的,则vote_y:=vote_y-1,否则vote_y:=vote_y+1;
e6)若vote_y<0,裁掉上边;若vote_y>0,裁掉下边;
e7)重复步骤e2)到步骤e6),直到字符的高度不大于hi
7.根据权利要求4所述的用于冠字号识别的字符污染去除方法,其特征在于:所述第一宽度异常处理方法具体包括如下步骤:
f1)计算10个字符间的所有9个间隔,即相邻两个字符中左边字符的最右端到右边字符最左端之间的像素距离,若字符间隔小于3像素,则认为存在污染;
f2)若字符间隔大于3像素,则计算左侧字符与右侧字符与该位置的隔板之间差的绝对值,设其值分别为dl和dr,若dl>dr,则认为左侧字符存在污染,反之,则认为右侧字符存在污染;
f3)确定切割范围,使得切割之后左右两侧字符的间隔在2到4个像素的范围内;
f4)在污染估计的范围内,对该字符各列计算代价函数:
Breakcost=(out_value-in_value)×(cur_col-least_col+2)/out_num
其中,out_value为当前列的暗色点平均灰度,in_value为当前列内侧相邻行的暗色点平均灰度,cur_col为当前去除的列数,least_col为估计得到的至少需要去除的列数,out_num为当前列暗色点的个数;
f5)比较所有得到的代价值,从最大的代价值所对应的列数开始切割字符。
8.根据权利要求4所述的用于冠字号识别的字符污染去除方法,其特征在于:所述第二宽度异常处理方法具体包括如下步骤:
g1)当纸币的横向分辨率和纵向分辨率都确定后,对于十个单独的字符图像,设定其期望宽度为w0,w1,…w9
g2)对于任意一个字符图像,设vote_x=0;
g3)计算异常字符的水平中心矩。若字符的水平中心小于水平中心矩,则vote_x:=vote_x-1,否则vote_x:=vote_x+1;
g4)若异常字符不是第一个也不是最后一个字符,则计算其中心到左边一个字符中心的中心距和到右边一个字符中心的中心距,若到右边字符中心的中心距较大,则vote_x:=vote_x-1,否则vote_x:=vote_x+1
g5)若异常字符不是第一个也不是最后一个字符,则计算其到左边一个字符的间隔和到右边一个字符的间隔,若到右边字符的间隔较大,则vote_x:=vote_x-1,否则vote_x:=vote_x+1;
g6)若vote_x<0,裁掉左边;若vote_x>0,裁掉右边;
g7)重复步骤g2)到步骤g6),直到字符的宽度不大于wi
CN201510700369.8A 2015-10-26 2015-10-26 用于冠字号识别的字符污染去除方法 Active CN105354566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510700369.8A CN105354566B (zh) 2015-10-26 2015-10-26 用于冠字号识别的字符污染去除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510700369.8A CN105354566B (zh) 2015-10-26 2015-10-26 用于冠字号识别的字符污染去除方法

Publications (2)

Publication Number Publication Date
CN105354566A true CN105354566A (zh) 2016-02-24
CN105354566B CN105354566B (zh) 2019-01-22

Family

ID=55330533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510700369.8A Active CN105354566B (zh) 2015-10-26 2015-10-26 用于冠字号识别的字符污染去除方法

Country Status (1)

Country Link
CN (1) CN105354566B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875546A (zh) * 2017-02-10 2017-06-20 大连海事大学 一种增值税发票的识别方法
CN108389309A (zh) * 2018-02-06 2018-08-10 深圳怡化电脑股份有限公司 一种识别纸币真伪的方法和系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086766B (zh) * 2018-06-06 2021-03-09 南京华科和鼎信息科技有限公司 一种基于积分图的多阈值融合冠字号提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050186002A1 (en) * 2003-10-20 2005-08-25 Omron Corporation Printing condition inspection method, a character string inspection method and an inspection apparatus using the methods
CN104408814A (zh) * 2014-12-13 2015-03-11 天津远目科技有限公司 一种人民币冠字号识别方法
CN105913093A (zh) * 2016-05-03 2016-08-31 电子科技大学 一种用于文字识别处理的模板匹配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050186002A1 (en) * 2003-10-20 2005-08-25 Omron Corporation Printing condition inspection method, a character string inspection method and an inspection apparatus using the methods
CN104408814A (zh) * 2014-12-13 2015-03-11 天津远目科技有限公司 一种人民币冠字号识别方法
CN105913093A (zh) * 2016-05-03 2016-08-31 电子科技大学 一种用于文字识别处理的模板匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张晴晴: ""人民币冠字号码的图像识别技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875546A (zh) * 2017-02-10 2017-06-20 大连海事大学 一种增值税发票的识别方法
CN106875546B (zh) * 2017-02-10 2019-02-05 大连海事大学 一种增值税发票的识别方法
CN108389309A (zh) * 2018-02-06 2018-08-10 深圳怡化电脑股份有限公司 一种识别纸币真伪的方法和系统

Also Published As

Publication number Publication date
CN105354566B (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN101515325B (zh) 基于字符切分和颜色聚类的数字视频中的字符提取方法
CN106875546B (zh) 一种增值税发票的识别方法
CN111666938B (zh) 一种基于深度学习的两地双车牌检测识别方法及系统
CN102663378B (zh) 连笔手写字符的识别方法
CN103824066B (zh) 一种基于视频流的车牌识别方法
CN102208023B (zh) 基于边缘信息和分布熵的视频字幕识别设计方法
CN110969129B (zh) 一种端到端税务票据文本检测与识别方法
CN105654072A (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN104361336A (zh) 一种水下视频图像的文字识别方法
CN105261110A (zh) 一种高效dsp纸币冠字号识别方法
CN108133216B (zh) 基于机器视觉的可实现小数点读取的数码管读数识别方法
CN107423735B (zh) 一种利用水平梯度和饱和度的车牌定位方法
CN102663382A (zh) 基于子网格特征自适应加权的视频图像文字识别方法
CN106599896A (zh) 一种字符分割方法和装置、及元件检测方法和装置
CN102750540A (zh) 基于形态滤波增强的最稳定极值区视频文本检测方法
CN103034848A (zh) 一种表单类型的识别方法
CN107122775A (zh) 一种基于特征匹配的安卓手机身份证字符识别方法
CN102750773B (zh) 纸币冠字号图像区域的定位方法
CN105354566A (zh) 用于冠字号识别的字符污染去除方法
CN105426890A (zh) 一种字符扭曲粘连的图形验证码识别方法
CN103824373A (zh) 一种票据图像金额分类方法及系统
CN110334692A (zh) 一种基于图像处理的盲道识别方法
CN105335741A (zh) 一种脏污冠字号分类的方法和系统
CN107766854A (zh) 一种基于模板匹配实现快速页码识别的方法
CN106127817A (zh) 一种基于通道的图像二值化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant