CN102509383B - 一种基于特征检测及模板匹配的混合号码识别方法 - Google Patents

一种基于特征检测及模板匹配的混合号码识别方法 Download PDF

Info

Publication number
CN102509383B
CN102509383B CN2011103850729A CN201110385072A CN102509383B CN 102509383 B CN102509383 B CN 102509383B CN 2011103850729 A CN2011103850729 A CN 2011103850729A CN 201110385072 A CN201110385072 A CN 201110385072A CN 102509383 B CN102509383 B CN 102509383B
Authority
CN
China
Prior art keywords
character
row
image
template
stain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011103850729A
Other languages
English (en)
Other versions
CN102509383A (zh
Inventor
张钦宇
林威
夏猛
李云鹤
王奇
张英会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN2011103850729A priority Critical patent/CN102509383B/zh
Publication of CN102509383A publication Critical patent/CN102509383A/zh
Application granted granted Critical
Publication of CN102509383B publication Critical patent/CN102509383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种基于特征检测及模板匹配的混合号码识别方法,整个号码识别的过程包括:纸币的边缘检测,图像倾斜校正,号码区的判定,灰度图像二值化,平滑处理,单字符切割,闭环检测,模板匹配和后验的特征判定。这种闭环检测+模板匹配+特征值后验检测的识别算法结合了模板匹配和特征值法的优点,比单独的模板匹配和特征值法的识别效率都要高。

Description

一种基于特征检测及模板匹配的混合号码识别方法
技术领域
本发明涉及号码识别领域,尤其涉及验钞机纸币号码识别、身份证号码识别等印刷号码识别领域。
背景技术
光学字符识别技术经过几十年的发展,已经从实验研究走向应用。印刷号码识别(包括字母和阿拉伯数字)是字符识别的一个重要分支,有极大的实用价值。研究者们提出了许多的识别方法,大致可分为两类:基于特征识别的方法和基于模板匹配的方法。实际应用中有高识别率和高置信度的要求,单纯依靠特征或者模板匹配进行识别存在一定的局限,通常难以满足要求。本发明将两种方法相结合,提出了一种基于特征检测及模板匹配的混合号码识别技术,可有效地应用于各种印刷体号码识别领域。
发明内容
为了解决现有技术中问题,本发明提供了一种基于特征检测及模板匹配的混合号码识别方法,整个号码识别的过程包括:
步骤1:检测纸币的边缘;
步骤2:图像倾斜校正,将倾斜的纸币图像旋转成完全水平的;
步骤3:判定号码区,
步骤4:灰度图像二值化,采用固定阈值的方法,区分号码区中字符和背景;
步骤5:平滑处理;
步骤6:单字符切割,找到每个字符的上下左右边界;
步骤7:闭环检测,计算每个字符的闭环数,结果可能为0,1,2中的一个;
步骤8:模板匹配,根据印刷号码(即纸币、身份证等等)的图像,取出其中噪声较小的字符,作为模板,所述模板被分为六组,闭环数为0、1、2的数字分别为一组,闭环数为0、1、2的字母分别为一组;根据步骤7中闭环检测的结果,进行各个字符分别与闭环数相同的模板组进行匹配,印刷号码的图像中某一位置只会出现数字时,匹配只与数字模板组进行,印刷号码的图像中某一位置只会出现字母时,匹配只与字母模板组进行,印刷号码的图像中某一位置可能出现数字、也可能出现字母时,匹配与数字模组和字母模组都进行;
如果这个模板对应的字符跟其他字符容易识别错,则进入步骤9;否则,结束判定;
步骤9:后验的特征判定。
作为本发明的进一步改进,步骤1中采用最小二乘法直线拟合的方法进行边缘检测。
作为本发明的进一步改进,步骤2中,图像倾斜校正的坐标旋转公式为:x′=int(xcosθ+ysinθ),y′=int(ycosθ-xsinθ),x,y是水平图像上号码区的坐标,x′,y′是倾斜图像上号码区的坐标,将倾斜图像上的点(x′,y′)对应的值存储到水平图像(x,y)位置上,达到倾斜图像水平调整的效果,θ是纸币图像的倾斜角度,纸币下边界与水平线所成的夹角,经过坐标旋转后新点的坐标值可能不是整数,需要对其取整之后才能作为新点的坐标值,int表示取计算所得值的整数部分。
作为本发明的进一步改进,步骤3中,根据号码区内像素点的像素值出现连续的高低变化的这种特征作为判定号码区的条件。
作为本发明的进一步改进,步骤5中,二值化后的图像中仍然残留麻点噪声,使用Unger平滑算法对二值图像做平滑处理。
作为本发明的进一步改进,步骤7中,采用二值图像快速四连通域标记算法计算闭环数,快速四连通域标记算法包括以下步骤,
(1)将每一行中连续的黑点或白点看成一条条线段,将每一行所有的点看成是一个一维数组,每条线段都包括以下信息:线段起始点元素的数组坐标,线段结束点元素的数组坐标,线段内点的值,其中黑为0,白为1,线段的标号;
(2)对字符加上一个白的边框,做膨胀处理;
(3)比较当前行和上一行线段的标号,线段有重叠且像素点值相同的线段标号进行更新,对不满足上述条件的线段分配新的标号,重复操作,直到遍历完成整个矩阵;
(4)闭环数等于连通域个数减1。
作为本发明的进一步改进,膨胀处理具体如下:
将图像存储到大于字符的像素大小的全1矩阵中,全1矩阵高度和宽度要大于等于字符最大高度+4和宽度+4,至少从第三行第三列开始存储,如果点落在字符数组的第一行、最下面两行、左边两列、右边四列,则将该点做四点膨胀,把黑点周围上下左右四个点变成黑点。
作为本发明的进一步改进,
模板匹配之前要把模板归一化成与字符相同大小,采用简单的线性归一化,用下面两个公式实现:
Figure BDA0000113402160000031
Figure BDA0000113402160000032
(i,j)表示单个字符矩阵的第i行第j列的点的坐标,I和J表示单个字符矩阵行数和列数,M和N表示归一化前模板矩阵的行数和列数,(m,n)为模板归一化后(i,j)点对应的坐标,模板匹配统计黑点的匹配率,
Figure BDA0000113402160000033
sum表示字符和模板黑点重合的个数,sum1表示字符的黑点数,sum2表示模板的黑点数,采用一种带加权系数的模板匹配算法,在字符第一行和最后一行、第一列和最后一列匹配时乘以一个加权系数0.4至0.6。
本发明的有益效果是:
一般方法可能是直接进行模板匹配或者特征检测,本发明的创造点不仅在于两种算法的结合(闭环也是一个特征),而在于整个算法的流程,先通过一个特征进行区分,缩小了模板匹配的范围,提高了检测时间。另外在通过后验特征检测弥补了模板匹配的不足,提高了检测性能。第一个稳定特征的选择和几个环节的顺序使本发明的方法可以快速、准确的进行字符的识别。
附图说明
图1是倾斜的纸币及背景结构示意图;
图2是倾斜的纸币与非倾斜纸币对比结构示意图;
图3是纸币图像正视图;
图4是纸币图像倒视图;
图5是p点及其周围八个点示意图;
图6是字符A及其边界边界示意图;
图7是有噪声点时的字符A及其边界示意图;
图8字符0未加上边框示意图;
图9字符0加上全白边框之后示意图。
图7中E为噪声点。
具体实施方式
下面结合附图说明及具体实施方式对本发明进一步说明。
下面以人民币的号码识别为例,可以类推到身份证等其他号码的识别。
整个号码识别的过程包括:纸币的边缘检测,图像倾斜校正,号码区的判定,灰度图像二值化,平滑处理,单字符切割,闭环检测,模板匹配和后验的特征判定。
第一,边缘检测采用最小二乘法直线拟合。
扫描仪扫描的图像是灰度图像,灰度值范围是0到255,(纯白值为255,纯黑为0),从扫描的灰度图像的上下两个方向向中间按行遍历所有像素点,由于背景图像(扫描仪未扫描到纸币的部分)为黑色,像素点值较小,纸币边界上的点像素点值较大,根据像素点值的不同设置一个阈值来区分纸币图像和背景。比如背景像素点的像素值小于100,纸币边界部分像素点的像素值接近200,可以选择阈值为150,这样就可以找到纸币图像的上下两个端点(按行遍历第一次出现纸币部分的点),如图1中的A和B点。根据纸币图像端点横坐标是否大于扫描图像宽度的一半来判断纸币的倾斜方向,例如纸币上端点横坐标大于扫描图像宽度的一半表示纸币向左下角倾斜,小于图像宽度的一半则表示纸币向右下角倾斜。根据纸币的上下两端点和纸币的倾斜方向在纸币图像四条边上每条边等间距取8个点。比如纸币向左下角倾斜则左下角点和右上角点为纸币的两个端点,根据纸币的长度和宽度选择两点之间的间距(比如纸币长为1300个像素点,宽为600个像素点,上下两边上两点的间距可以设置为100个像素点,左右两边上两点的间距可以设置为50个像素点)要保证所有点都在纸币图像的边上,防止不是边界上的点对拟合的直线产生影响;而且之间的距离不能太小,防止拟合出的直线误差较大。将纸币的四条边拟合出四条直线,上下两条边分别与左右两条边相交产生两个交点,四条边产生四个交点,作为纸币图像的四个顶点,顶点的坐标可以通过计算拟合直线的交点坐标来确定。通过底边直线的斜率可以算出纸币的倾斜角度。
如图1,B点坐标设为(x,y),取8个点的坐标分别为(x,y+k*100),k=1,2,..,8,然后保持这些点y坐标不变,x坐标每次减1,直到找到纸币边界上的点。相当于在这8个位置从下往上扫描,直到扫描到纸币边界点为止,存储对应的坐标。即找到纸币边界上的一个点了,依此类推,找到其他的点。
第二,图像倾斜校正。
根据边缘检测可以得到纸币图像(可能是倾斜的)的四个顶点的坐标和纸币的倾斜角度。由于倾斜的角度是随机的,要对纸币号码进行检测识别必须首先对纸币图像进行水平调整,即将倾斜的纸币图像旋转成完全水平的。坐标旋转公式为:x′=int(xcosθ+ysinθ),y′=int(ycosθ-xsinθ)。(x,y)是水平图像上号码区的坐标,(x′,y′)是倾斜图像上号码区的坐标),将倾斜图像上的点(x′,y′)对应的值存储到水平图像(x,y)位置上,达到倾斜图像水平调整的效果。
θ是纸币图像的倾斜角度(纸币下边界与水平线所成的夹角),经过坐标旋转后新点的坐标值可能不是整数,需要对其取整之后才能作为新点的坐标值,int表示取计算所得值的整数部分。
如图2所示,水平图像的号码区内点的坐标(x,y)。倾斜图像中号码区内坐标点(x’,y’),并将(x’,y’)坐标点对应的像素值存到水平号码区中(x,y)点处。这样就完成了号码区的水平调整。根据实测经验不同面额纸币的号码区位置和号码区的大小相对固定,可以采用先验知识确定号码区的大致范围(比实际号码区范围大,防止计算纸币顶点坐标和斜率时产生的误差对号码区位置的确定产生影响。如果号码区范围太小可能会有部分号码落在给定号码区范围的外面,对后面的识别产生影响)。例如号码区的左下角点和纸币图像的左下角点横坐标相对距离和纵坐标相对距离可以分别选为10个像素点和165个像素点的长度。号码区的高度为60个像素点,宽度为300个像素点。
由于纸币图像的左下角或者右上角是号码区的可能位置,如图3和图4所示,在进行号码区判定的时候需要使用水平调整后的图像,因此需要对两个号码区域进行水平调整,以便进一步判定哪个是纸币号码区。当纸币经过验钞机时验钞机内部的扫描仪同时扫描纸币的正反两面的图像,每个图像都要对两个可能的号码区域做水平调整。
第三,号码区判定。
号码区可能出现在正反两面的左下角和右上角的四个区域,由于号码区中字符的存在,号码区内像素点的像素值会出现连续的高低变化(字符部分像素点值低)。可以根据号码区自身的这种特征作为判定号码区的条件。例如:每行连续出现10到20个相邻两个像素点像素值从大于阈值变到小于阈值,认定这一行满足条件。如果最大连续出现满足条件的行数在20到26之间(字符高度范围一般在22到29个像素点之间),就认为该区域为号码区。
第四,灰度图像二值化。
因为号码区域颜色区分度很大,可以采用固定阈值的方法,区分号码区中字符和背景。例如背景像素点值大约为150左右,字符部分像素点值大约为50左右,可以选择阈值为100。使用固定阈值方式既节省处理时间,又不会影响识别的精度,效果比较好。
第五,平滑去噪。
二值化后的图像中仍然残留麻点噪声,使用Unger平滑算法对二值图像做平滑处理。如图5所示,采用3*3的辅助矩阵,P为当前点,P0为P的右边相邻点,P周围8个相邻点按逆时针排序为P0到P7,平滑规则为:(1)当P为白像素时,P0P2P4和P6中至少有三个为黑像素,便将P变为黑,否则P不变。(2)当P为黑像素时,如果a)P0P2P4P6中有一个为黑,同时其余七个邻接点都为白;b)P2P4P6中至少有一个为黑,同时,P0P6P7中至少也有一个为黑时;c)P0P1P2中至少有一个为黑,同时,P4P5P6中至少也有一个为黑时;则P不变,否则P变为白。经过平滑后,可以消除图像的毛刺和空洞的影响。
第六,字符切割。
经过平滑后的号码区中有10个字符,要进行字符识别首先要将10个字符从号码区中切割出来(即找到每个字符的上下左右边界)。在号码区中从左向右按列遍历所有像素点(经过二值化后,字符部分为0,背景部分为1。还存在一些噪声点的影响,使字符的某些点值为1,背景部分某些点值为0)。由于每个字符的高度不同,需要先确定单个字符的左右边界,再在每个字符的左右边界范围内确定字符的上下边界。如果前一列所有像素点值都为1,当前列中存在像素点值为0的点,则认为当前列为字符的左边界;如果前一列存在像素点值为0的点,当前列所有像素点值都为1,则认为前一列为字符的右边界。从上到下按行遍历每个字符左右边界中间的所有像素点(包括左右边界上的点),如果前一行所有像素点值都为1,当前行像素点值存在0,则认为当前行为字符的上边界,同理,从下到上遍历每个字符左右边界的所有像素点(包括左右边界上的点),如果当前行像素点值存在0,前一行所有像素点值都为1,则认为是字符的下边界。如图6所示为字符A的边界。
由于背景区域可能存在一些噪声点,导致单个字符的边界点切割错误,可以通过修正上下边界的判决方法解决噪声点的干扰。从上到下按行遍历左右边界中间的像素点连续5行存在像素值为0的点时认为首次出现像素值为0的行为字符的上边界,从下到上按行遍历左右边界中间的像素点连续5行存在像素值为0的点时认为首次出现的行为字符的下边界。单个字符切割后要对字符的宽度和高度做一个判断,如果高度或者宽度过小则认为是噪声点,舍弃,继续以噪声点的右边界为起始按列遍历,继续对之后的字符进行切割。可以设定最小宽度为两个像素点,最小高度为7个像素点,以过减小噪声点对字符切割的影响。如图7所示为有噪声点时字符A的边界。
第七,闭环检测。
闭环是字符图像的一个稳定特征,比如A、0有一个闭环;B、8有两个闭环;C、1没有闭环。用闭环对字符进行分类可以减少识别的处理时间和提高识别结果的准确率。采用二值图像快速四连通域标记算法计算闭环数,只需要遍历一遍字符数据就能够确定字符的闭环数。快速四连通域标记算法:(1)将每一行中连续的黑点或白点看成一条条线段,将每一行所有的点看成是一个一维数组,每条线段都包括以下信息:线段起始点元素的数组坐标,线段结束点元素的数组坐标,线段内点的值(黑为0,白为1),线段的标号,第一行的标号为1,之后的每一行初始标号都为10,为防止与之后连通域的标号重复,可从10开始,也可从11、20、30等等开始。(由于要比较相邻行标号是否相同,以便对标号进行更新,所以初始值设为10,防止初始标号与上一行的标号相同)。(2)单字符切割时字符的边界都是有像素值为0(黑点)的行或列,对字符进行闭环检测需要对字符加上一个白的边框,这样才能得到正确的闭环数。如下图所示,在计算字符0的闭环数的时候,如果不加上边框连通域是5个,如图8,但在号码区中1、2、3、4是连通的,只是由于单字符切割时没有把全白的边界算到字符中,所以需要对字符加上全白边框之后再做闭环检测,如图9。闭环数等于连通域个数减1。在闭环检计算连通域的时候只统计白点的连通域,如1只有1个连通域,0有两个连通域,8有三个连通域。由于字符的大小一般都在30*20左右,且大小不全相同,可以将单字符图像存储到一个40*30的全1矩阵中,从全1矩阵的第二行第二列开始存储字符,对字符图像加边框,以便进行连通域判定。(3)比较当前行和上一行线段的标号,线段有重叠且像素点值相同且为1(1为白)的线段标号进行更新,对不满足上述条件的线段分配新的标号,重复操作,直到遍历完成整个矩阵。(4)闭环数等于连通域个数减1。闭环数是一个比较稳定的特征,但是如果字符出现断裂情况闭环数就会计算错误。为了解决这种问题,我们提出改进的快速四连通域标记算法:将图像存储到40*30的全1矩阵中,从第三行第三列开始存储,膨胀有两种方法,一是把黑点周围上下左右四个点变成黑点,另一种方法是把黑点周围八个点变成黑点。针对图像的特点,将图像做四点膨胀,防止过度膨胀导致闭环数的增加,如将6识别成为8。对膨胀后的图像再进行快速四连通域标记算法计算闭环数。对字符四周做膨胀防止中间部分膨胀后导致闭环数增加,可以在字符的第一行,最下面两行,左边两列,右边四列进行膨胀。字符中间部分不做膨胀处理。
第八,模板匹配。
由于十个字符的大小都不相同,因此做模板匹配之前要把模板归一化成与字符相同大小。这里采用简单的线性归一化,用下面两个公式实现:
Figure BDA0000113402160000081
Figure BDA0000113402160000082
(i,j)表示单个字符矩阵的第i行第j列的点的坐标,I和J表示单个字符矩阵行数和列数,M和N表示归一化前模板矩阵的行数和列数,(m,n)为模板归一化后(i,j)点对应的坐标。模板匹配统计黑点的匹配率,
Figure BDA0000113402160000083
sum表示字符和模板黑点重合的个数,sum1表示字符的黑点数,sum2表示模板的黑点数。由于字符边界存在较大的噪声干扰,内部干扰较小,提出一种带加权系数的模板匹配算法,在字符第一行和最后一行、第一列和最后一列匹配时乘以一个加权系数(0.4--0.6,优选0.5),这样计算出来的匹配结果有效的降低了噪声的干扰,提高了结果的准确率。
第九,后验特征判定。
第四版人民币前两个字符是字母,后面八个字符是数字,字母和数字是分开的。但在第五版中,第一位是字母,第二三位是字母和数字的混合,后七位字符是数字。在字母和数字混合识别时,经常会出现一些比较相近的字符,例如8B、0OQD、5S、2Z等。模板匹配对于这些字符的匹配效果不是很理想,因此可以采用一些后验特征区分相近的字符。当识别到的字符是0或者D的时候,可以用后验特征对字符再做一次特征值匹配,得到最终结果。这样做的好处是可以对识别差的字符有针对性的增加特征值,后验的特征值有:字符上下左右四个角,取3*3的矩阵,统计里面的黑点数;计算字符下面8到10行的水平交点数,用于区分Q。还可以根据识别的结果添加合适的特征,提高识别率。
2Z的识别,比较纸币图像的第二行(第一行可能有噪声干扰),如果存在两个白点变到两个黑点(2的左上角)、两个黑点变到两个白点(2的右上角),则认为是2,其他情况认为是Z。同样的方法可以识别S和5。如果存在两个白点变到两个黑点(S的左上角)、两个黑点变到两个白点(S的右上角),则认为是S,其他情况认为是5。
0ODQ的识别,比较第二列上数三个点和下数三个点这六个点的像素值之和与第三列上数三个点和下数三个点这六个点的像素值之和。如果第二列的和小于第三列(第二列的黑点多);第二列和跟第三列和相等,且第二列和小于等于2(最多可以有两个白点),这两种情况识别为D。(同样的方法也可以用来识别8和B)在0OQ中,检测下面8行,如果在一行中出现两次从黑变白,认为是Q,如果8行中都未出现两次从黑变白,认为是0或O。
由于噪声的影响,在模板匹配过程中,3和S容易识别错。可以引入行程的概念来区分3和S。行程指的是单字符切割完每行首次出现黑点之前的白点的总和,分左行程和右行程。由于3和S下半部分比较相似,因此只需比较上半部分左右行程的差值。可以从字符的第1行到第15行计算行程,如果左行程减右行程大于等于5,则认为是3,否则认为是S。
CG的识别。检测G比C多的那条横线,找到横线的位置,计算横线的长度。如果长度小于4则认为不存在横线将字符识别为C,否则认为存在横线,将字符识别为G。首先确定横线所在行,对字符数组从下到上按行遍历,每行从右到左遍历,记录第一个从黑点到白点变化时该黑点的坐标,如果该黑点的纵坐标(列数)小于5,认为第一次扫描到字符左边的竖线(G和C都有该竖线,宽度为2到3个像素),此时横坐标(行数)为i。对第i+1行和第i+2行按行从右向左遍历,找到第一次从黑点到白点变化时黑点的坐标,如果这两行中黑点纵坐标(列数)较小的一个值大于列数减4,则认为没有那条横线,将字符识别为C,否则识别为G。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种基于特征检测及模板匹配的混合号码识别方法,其特征在于,整个号码识别的过程包括: 
步骤1:检测纸币的边缘; 
步骤2:图像倾斜校正,将倾斜的纸币图像旋转成完全水平的; 
步骤3:判定号码区, 
步骤4:灰度图像二值化,采用固定阈值的方法,区分号码区中字符和背景; 
步骤5:平滑处理; 
步骤6:单字符切割,找到每个字符的上下左右边界; 
步骤7:闭环检测,计算每个字符的闭环数,结果可能为0,1,2中的一个; 
其中,采用二值图像快速四连通域标记算法计算闭环数,快速四连通域标记算法包括以下步骤, 
(1)将每一行中连续的黑点或白点看成一条条线段,将每一行所有的点看成是一个一维数组,每条线段都包括以下信息:线段起始点元素的数组坐标,线段结束点元素的数组坐标,线段内点的值,其中黑为0,白为1,线段的标号; 
(2)对字符加上一个白的边框,做膨胀处理; 
(3)比较当前行和上一行两条白色的线段的标号,线段有重叠且像素点值相同的线段标号进行更新,对不满足上述条件的线段分配新的标号,重复操作,直到遍历完成整个矩阵; 
(4)闭环数等于连通域个数减1; 
步骤8:模板匹配,根据印刷号码的图像,取出其中噪声较小的字符,作为模板,所述模板被分为六组,闭环数为0、1、2的数字分别为一组,闭环数为0、1、2的字母分别为一组;根据步骤7中闭环检测的结果,进行各个字符分别与闭环数相同的模板组进行匹配,印刷号码的图像中某一位置只会出现数字时,匹配只与数字模板组进行,印刷号码的图像中某一位置只会出现字母时,匹配只与字母模板组进行,印刷号码的图 像中某一位置可能出现数字、也可能出现字母时,匹配与数字模组和字母模组都进行; 
如果这个模板对应的字符跟其他字符容易识别错,则进入步骤9;否则,结束判定; 
步骤9:后验的特征判定。 
2.根据权利要求1所述的一种基于特征检测及模板匹配的混合号码识别方法,其特征在于:步骤1中采用最小二乘法直线拟合的方法进行边缘检测。 
3.根据权利要求1所述的一种基于特征检测及模板匹配的混合号码识别方法,其特征在于:步骤2中,图像倾斜校正的坐标旋转公式为:x′=int(xcosθ+ysinθ),y′=int(ycosθ-xsinθ),x,y是水平图像上号码区的坐标,x',y'是倾斜图像上号码区的坐标,将倾斜图像上的点(x',y')对应的值存储到水平图像(x,y)位置上,达到倾斜图像水平调整的效果,θ是纸币图像的倾斜角度,纸币下边界与水平线所成的夹角,经过坐标旋转后新点的坐标值可能不是整数,需要对其取整之后才能作为新点的坐标值,int表示取计算所得值的整数部分。 
4.根据权利要求1所述的一种基于特征检测及模板匹配的混合号码识别方法,其特征在于:步骤3中,根据号码区内像素点的像素值出现连续的高低变化的这种特征作为判定号码区的条件。 
5.根据权利要求1所述的一种基于特征检测及模板匹配的混合号码识别方法,其特征在于:步骤5中,二值化后的图像中仍然残留麻点噪声,使用Unger平滑算法对二值图像做平滑处理。 
6.根据权利要求1所述的一种基于特征检测及模板匹配的混合号码识别方法,其特征在于:膨胀处理具体如下: 
将图像存储到大于字符的像素大小的全1矩阵中,全1矩阵高度和宽度要大于等于字符最大高度+4和宽度+4,至少从第三行第三列开始存储,如果点落在字符数组的第一行、最下面两行、左边两列、右边四列,则将该点做四点膨胀,把黑点周围上下左右四个点变成黑点。 
7.根据权利要求1至6任意一项所述的一种基于特征检测及模板匹配的混合号码识别方法,其特征在于: 
模板匹配之前要把模板归一化成与字符相同大小,采用简单的线性归一化,用下面两个公式实现: (i,j)表示单个字符矩阵的第i行第j列的点的坐标,I和J表示单个字符矩阵行数和列数,M和N表示归一化前模板矩阵的行数和列数,(m,n)为模板归一化后(i,j)点对应的坐标,模板匹配统计黑点的匹配率,
Figure FDA00003255387500033
sum表示字符和模板黑点重合的个数,sum1表示字符的黑点数,sum2表示模板的黑点数,采用一种带加权系数的模板匹配算法,在字符第一行和最后一行、第一列和最后一列匹配时乘以一个加权系数0.4至0.6。 
8.根据权利要求1所述的一种基于特征检测及模板匹配的混合号码识别方法,其特征在于: 
2Z的识别,比较纸币图像的第二行,如果存在两个白点变到两个黑点、两个黑点变到两个白点,则认为是2,其他情况认为是Z,同样的方法可以识别S和5,如果存在两个白点变到两个黑点、两个黑点变到两个白点,则认为是S,其他情况认为是5; 
0ODQ的识别,比较第二列上数三个点和下数三个点这六个点的像素值之和与第三列上数三个点和下数三个点这六个点的像素值之和,如果第二列的和小于第三列;第二列和跟第三列和相等,且第二列和小于等于2,这两种情况识别为D,同样的方法也可以用来识别8和B,在0OQ中,检测下面8行,如果在一行中出现两次从黑变白,认为是Q,如果8行中都未出现两次从黑变白,认为是0或O。
9.根据权利要求1所述的一种基于特征检测及模板匹配的混合号码识别方法,其特征在于:步骤9中,在模板匹配过程中,用行程的概念来区分3和S,行程指的是单字符切割完每行首次出现黑点之前的白点的总和,分左行程和右行程,3和S下半部分比较相似,所以比较上半部分左右行程的差值,可以从字符的第1行到第15行计算行程,如果左行程减右行程大于等于5,则认为是3,否则认为是S; 
CG的识别,检测G比C多的那条横线,找到横线的位置,计算横线的长度,如果长度小于4则认为不存在横线将字符识别为C,否则认为存在横线,将字符识别为G,首先确定横线所在行,对字符数组从下到上按行遍历,每行从右到左遍历,记录第一个从黑点到白点变化时该黑点的坐标,如果该黑点的纵坐标小于5,认为第一次扫描到字符左边的竖线,此时横坐标为i,对第i+1行和第i+2行按行从右向左遍历,找到第一次从黑点到白点变化时黑点的坐标,如果这两行中黑点纵坐标较小的一个值大于列数减4,则认为没有那条横线,将字符识别为C,否则识别为G。 
CN2011103850729A 2011-11-28 2011-11-28 一种基于特征检测及模板匹配的混合号码识别方法 Active CN102509383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103850729A CN102509383B (zh) 2011-11-28 2011-11-28 一种基于特征检测及模板匹配的混合号码识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103850729A CN102509383B (zh) 2011-11-28 2011-11-28 一种基于特征检测及模板匹配的混合号码识别方法

Publications (2)

Publication Number Publication Date
CN102509383A CN102509383A (zh) 2012-06-20
CN102509383B true CN102509383B (zh) 2013-08-21

Family

ID=46221460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103850729A Active CN102509383B (zh) 2011-11-28 2011-11-28 一种基于特征检测及模板匹配的混合号码识别方法

Country Status (1)

Country Link
CN (1) CN102509383B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779275B (zh) * 2012-07-04 2015-06-17 广州广电运通金融电子股份有限公司 一种纸类字符识别方法及相关装置
CN103413170B (zh) * 2013-08-19 2016-05-11 电子科技大学 用于点钞机纸币边缘的实时定位方法
CN103606221B (zh) * 2013-12-04 2016-01-20 广州广电运通金融电子股份有限公司 清分机故障自动诊断方法以及装置
CN103606220B (zh) * 2013-12-10 2017-01-04 江苏国光信息产业股份有限公司 一种基于白光图像及红外图像的支票印刷体数字识别方法
CN103679918A (zh) * 2014-01-06 2014-03-26 成都术有科技有限公司 一种基于dsp的高速纸币冠字号码提取及识别方法
CN104809715B (zh) * 2014-01-23 2018-04-20 广州南沙资讯科技园有限公司博士后科研工作站 纸币图像倾斜校正与区域提取方法
TWI549099B (zh) * 2014-09-23 2016-09-11 佳世達科技股份有限公司 紙鈔序號辨識方法
CN104751559B (zh) * 2015-03-25 2017-07-28 深圳怡化电脑股份有限公司 验钞装置及验钞方法
CN105184950A (zh) * 2015-06-03 2015-12-23 深圳怡化电脑股份有限公司 一种分析纸币新旧的方法及装置
CN105139508B (zh) * 2015-08-13 2018-07-17 深圳怡化电脑股份有限公司 一种检测纸币的方法及装置
CN105303678B (zh) * 2015-09-21 2018-09-11 深圳怡化电脑股份有限公司 一种定位纸币图像边界的方法和系统
CN105374105A (zh) * 2015-10-16 2016-03-02 浙江依特诺科技股份有限公司 一种用于移动终端鉴别纸币真伪的方法
CN105243730B (zh) * 2015-10-28 2018-02-09 深圳怡化电脑股份有限公司 纸币识别方法及系统
CN105787954B (zh) * 2016-03-28 2019-01-22 中金宝科技发展(北京)有限公司 一种用于取款机钞票图像采集的图像分割方法
CN105913547B (zh) * 2016-04-07 2018-11-20 四川大学 一种账票光学识别方法及装置
CN106650758B (zh) * 2016-06-29 2019-03-29 汉寿县公安局 基于图片切割技术的身份证信息解析方法
CN106296969B (zh) * 2016-08-18 2019-04-12 深圳怡化电脑股份有限公司 纸币的识别方法和系统
CN106326934A (zh) * 2016-08-27 2017-01-11 厦门市朗星节能照明股份有限公司 骰子掷出点数判断方法及装置
CN106447907B (zh) * 2016-09-18 2019-04-26 深圳怡化电脑股份有限公司 一种钞票图像异常的检测方法及装置
CN108021913A (zh) * 2016-10-28 2018-05-11 北京嘀嘀无限科技发展有限公司 证件照片信息识别方法及装置
CN106530481A (zh) * 2016-11-02 2017-03-22 深圳怡化电脑股份有限公司 一种检测纸币传输异常的方法及装置
CN108074321B (zh) * 2016-11-14 2020-06-09 深圳怡化电脑股份有限公司 一种纸币的图像边界提取方法及装置
CN108073927B (zh) * 2016-11-18 2020-05-15 深圳怡化电脑股份有限公司 一种字符识别方法及装置
CN106586135B (zh) * 2016-12-28 2018-09-18 天津普达软件技术有限公司 一种产品包装盒生产日期喷印不良品剔除方法
CN106898083A (zh) * 2017-03-01 2017-06-27 深圳怡化电脑股份有限公司 一种用于纸币的图像处理方法及装置
CN106952393B (zh) * 2017-03-28 2020-02-07 深圳怡化电脑股份有限公司 纸币识别方法和装置、电子设备和存储介质
CN107204068B (zh) * 2017-05-27 2019-08-27 深圳怡化电脑股份有限公司 一种纸币管理系统、方法及纸币识别方法
CN107358150B (zh) * 2017-06-01 2020-08-18 深圳赛飞百步印社科技有限公司 物体边框识别方法、装置和高拍仪
CN108062821B (zh) * 2017-12-12 2020-04-28 深圳怡化电脑股份有限公司 边缘检测方法及验钞设备
CN108355987B (zh) * 2018-01-08 2019-10-11 西安交通大学 一种基于分块模板匹配的电池丝印质量检测方法
CN108734168A (zh) * 2018-05-18 2018-11-02 天津科技大学 一种手写数字的识别方法
CN108717544B (zh) * 2018-05-21 2022-11-25 天津科技大学 一种基于智能图像分析的报纸样稿文字自动检测方法
CN109658584B (zh) * 2018-12-14 2021-01-12 泰康保险集团股份有限公司 一种票据信息识别方法及装置
CN111144336A (zh) * 2019-12-30 2020-05-12 贵州近邻宝科技有限公司 面向快递面单的收件人手机号码、运单号的自动识别方法
CN110956737B (zh) * 2020-01-07 2021-10-12 武汉卓目科技有限公司 一种安全线识别方法和装置
CN111539446B (zh) * 2020-03-04 2023-10-03 南京航空航天大学 一种基于模板匹配的2d激光孔位检测方法
CN111627145B (zh) * 2020-05-19 2022-06-21 武汉卓目科技有限公司 一种图像精细镂空图文的识别方法及装置
CN114821134B (zh) * 2022-06-30 2022-09-02 山东蓝彩天下教育科技有限公司 一种基于模板匹配的出版物印刷体数字识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4404095B2 (ja) * 2005-01-11 2010-01-27 日本電気株式会社 テンプレートマッチングのための方法、その装置及びそのためのプログラムを記録した記録媒体
CN100498820C (zh) * 2006-12-31 2009-06-10 沈阳工业大学 纸币号码自动识别方法及自动识别记录系统
CN101923741B (zh) * 2010-08-11 2012-07-18 西安理工大学 一种基于验钞机的纸币号码识别方法

Also Published As

Publication number Publication date
CN102509383A (zh) 2012-06-20

Similar Documents

Publication Publication Date Title
CN102509383B (zh) 一种基于特征检测及模板匹配的混合号码识别方法
Alaei et al. A new scheme for unconstrained handwritten text-line segmentation
Saabni et al. Text line extraction for historical document images
US9008431B2 (en) Character string extraction method and character string extraction device
Garz et al. Binarization-free text line segmentation for historical documents based on interest point clustering
Antonacopoulos et al. ICDAR2015 competition on recognition of documents with complex layouts-RDCL2015
CN104809715B (zh) 纸币图像倾斜校正与区域提取方法
US7164795B2 (en) Apparatus for extracting ruled line from multiple-valued image
CN103034848B (zh) 一种表单类型的识别方法
CN105469046B (zh) 基于pca和surf特征级联的车辆车型识别方法
CN102870399A (zh) 在ocr过程中将词语位图分割为单个字符或字形
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN100487723C (zh) 一种印刷体斜体字符的识别方法
CN106407979A (zh) 一种票据字符校正的方法及装置
JP3411472B2 (ja) パターン抽出装置
CN103093185A (zh) 字符识别装置、图像处理装置及其方法
Farulla et al. A fuzzy approach to segment touching characters
CA2790210C (en) Resolution adjustment of an image that includes text undergoing an ocr process
KR100383858B1 (ko) 문자인식장치의 문자추출방법 및 장치
CN1790377B (zh) 反白字符识别的块分类方法和文本行生成方法
CN113989823B (zh) 基于ocr坐标的图片表格还原方法及系统
CN111325199A (zh) 一种文字倾斜角度检测方法及装置
RU2718571C1 (ru) Способ бинаризации изображений символов на банкноте на основе гистограммы длины границ
Mitchell et al. Newspaper layout analysis incorporating connected component separation
CN102682308B (zh) 图像处理方法和图像处理设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant