一种信封图像地址定位方法
技术领域
本发明属于邮政技术领域,特别涉及一种信封图像地址定位方法。
背景技术
信封自动分拣是邮政自动化重要的组成部分,其中,有一种信封自动分拣技术是通过采集信封图像,分割出信封收信人的邮政编码区域和地址区域,对分割结果进行数字和汉字的识别,根据识别结果实现自动分拣。因此,高性能的信封图像地址定位和分割是地址识别和正确分拣的前提和基础。
然而,在实践中,信封版面纷繁多样,尤其是商业信封会添加复杂的背景图案、公司图案标志或者节假活动图案等。而且地址区域中文字大小、排版、以及位置也各式各样,很多时候还附有多个条码,这些都给后续识别带来障碍。
发明内容
本发明的目的是提供一种信封图像地址定位方法,以解决在信封分拣中信封图像中地址定位的难题。
本发明中提及的窗口信是指带有透明窗口的信封,地址打印在内部的信纸上,如图2所示。非窗口信是指无窗口或者窗口边界特征很模糊的信封,同样有邮编、收信人地址、邮戳、其他图案等几个区域,如图4。几个区域之间可能不存在很明确的边界,其中其他图案和收信人地址可能相互覆盖,邮戳也可能覆盖到地址上,收信人地址中带有商业图标等。
本发明的技术方案是一种信封图像地址定位方法,包括以下步骤:
对于窗口信进行窗口定位,若无法成功定位窗口则定位地址文字区域然后进行细化处理,若成功定位则直接作细化处理;
对于非窗口信依次进行图案定位、文字区定位、混合区中文字图案的提取和后处理。
进一步的,对于窗口信,所述窗口定位包括步骤:
(1)边缘特征提取,即采用Sobel算子强化边缘特征强化边缘,并对图像进行自适应的二值化;
(2)确定候选区域,即在二值化图像上进行连通元的标定,将定位出来的连通元记为CCi(1≤i≤N),其中N表示连通元的个数,如果满足以下条件则选为候选区域:
A
其中Width(CCi)和Height(CCi)分别是连通元外切正矩形的宽度和高度,Height(CCi)是WHRatio是连通元的宽高比,WHRL和WHRH分别窗口宽高比的最小阈值和最大阈值;
B XL<CenterX(CCi)<XH,YL<CenterY(CCi)<YH,
其中CenterX(CCi)和CenterY(CCi)是连通元的中心位置坐标,XL和XH是横坐标的阈值范围,YL和YH是纵坐标的阈值范围;
将候选区域表示为CandiRectj,(1≤j≤M),M为后选区个数;
(3)GGLF特征提取,即提取每个候选区域的原图,在对其靠近边界的连续像素值提取灰度梯度链特征,假设一组像素灰度值为p1,p2,....,pk,...,pNUM,其中NUM为像素个数,1≤k≤NUM,计算每个像素与其相邻像素值的差值的最大值,即再计算这组像素灰度值的最大值、最小值、平均值和标准方差,分别记为νMax,νMin,νMean和νStddev,形成一个NUM+4元的特征值,记
GGLFx(d1,d2,...,dn,...,dNUM,νMax,νMin,νMean,νStddev);
当满足下列条件时,该组像素为边界候选链,其灰度梯度链特征表示为
(a)dMax-dMax>ThrDiff
(b)dStddev>ThrDev,其中ThrDiff和ThrDev是统计获取的实验值;
(4)确定窗口,判断是否符合窗口特征,具体为:
A1.从候选区域CandiRectj上边界自上向下垂直扫描,取长度为ThrLen的连续像素值,共NumScanLine组,计算出每组的灰度梯度链特征,并判断是否为边界候选链。将所有边界候选链分别记
1≤x<y≤NumCandi,为边界候选链的条数;
A2.如果
ThrCandi是统计获得的阈值,候选区的上边界不具有边界特征,否则继续步骤A3;
A3,计算
和
的余弦数值,记为Cos
x,y,作为两个向量之间的相似性。计算所有相似度之间的标准方差StdDevCos。当
StdDevCos<ThrSDC时,表示候选区的上边界为窗口边界;
A4,对候选区域的下边界以及左右边界重复上述判断,都满足条件,则该区域为窗口区;
(5)对符合窗口特征的做进一步的后处理,对不符合窗口特征的结束本次定位判断处理。
对于非窗口信,所述的图案定位是从信封图像中有文字和图案的区域从背景中分离出来,所述图案包括字符、图形、花纹等前景图像,具体步骤包括:
(1)用sobel算子对高为H,宽为W信封图像的Imagel进行边缘提取,获得新图像,记为EdgeImage;
(2)将图像EdgeImage分割成12×12的小块,对每一小块分别进行垂直扫描和水平扫描;
(3)将一组扫描获得的像素记为p1,p2,....,pk,...,pNUM,其中NUM为像素个数,1≤k≤NUM,计算该组像素最大值和最小值的差,记为GloDiff,根据当前像素与后续像素的差,即ddk,=pk-pk+1,形成的序列dd1,dd2,…,ddNUM-1,若其中ddi,…,ddj值的符号相同,该符号都为正数或负数,则记做一个片段,用NumFrag表示该组中片断的个数;
(4)当一个块中有一定比列的扫描线满足下列条件GloDiff>ThrGD和NumFrag>ThrNF时,该块为图案块,否则为背景块,将EdgeImage转换为只有前景和背景之分的新图像FGImage,其高度为H/13,宽度为W/13;
(5)在FGImage上进行连通元标定,合并相互覆盖的连通元,将最后形成的连通元的外切正矩形放大13倍后作为图案区域的位置和大小,记为CandiRth,1≤h≤NumCandiRt。
对于非窗口信,所述的地址的文字区定位方法是将单独的文字候选区和花案候选区域分离出来,具体包括步骤:
(1)在原灰度图像中根据每个图案候选区CandiRth的位置和大小截图,再用最大方差法进行二值化;
(2)连通元的标定,计算每个连通元CCi(1≤i≤NumCCh)的下列六项连通元特征值:
Height(CCi),外切正矩形的高度,
Width(CCi),外切正矩形的宽度,
Area(CCi)=Height(CCi)×Width(CCi),外切正距性的面积,
NumFgPixel(CCi),前景像素的个数
面积有效比,即前景像素个素除以外切正矩形的面积;
(3)将高度、宽度和面积都很小的连通元作为噪声剔除;
(4)将线条类的连通元踢除,即将满足条件WHRatio<ThrWHR_L或者WHRatio>ThrWHR_H,并同时满足条件AreaRatio(CCi)<ThrAR_L的连通元不作为下一步处理的对象。
(5)合并相互覆盖的连通元,统计新的连通元中包含原连通元的个数,记为NumInCC(CCi),统计新生成的连通元的其他六项特征,这样新的连通元都有一个7维的特征向量,记作Z(z1,…,z7);
(6)将候选区内的所有连通元特征向量,求其平均值μ
h=(u
1,....,u
7)=E(X),方差
采集若干封各类信封图像,手动分割出文字块作为样本,计算出每个文字块中的连通元特征的平均值
和方差
使用欧几里德距离计算μ
h和
的距离Disμ、ν
h和
的Disν,当Disμ<ThrDisμ且Disν<ThrDisν时,该区域为文字区域,否为非文字区域。
进一步的,对于非窗口信,当信封图像中有地址文字和其他图案相互覆盖或者地址区域附近有复杂的logo时用最近邻居法将文字部分离出来,具体包括步骤:
(1)按照所述文字区的定位方法对候选区进行连通元的标定、剔除噪声和线条,将合并后记为CCi(1≤i≤NumCCh)并计算每个连通元的特征,以及特征均值μ和方差ν;
(2)以单个连通元CCi为起点,从自左向右四个方向向外搜索,分别找寻四个方向上与最近最相似的邻居,具体步骤如下:
A1.CCi外切矩形的中心(xi,yi)作为起点,水平方向为X轴,计算其他连通元CCj中心(xj,yj)与CCi连线与X轴形成的夹角θij、距离disij和相似度simij,
A2.选取满足条件-15°<θ
ij<15°,dis
ij<Width(CC
i)*5和(c)
的连通元,取w
ik=Min(sim
ij+dis
ij)(i≠j)最小的连通元CC
k作为CC
i的最近最似邻居;
A3.若CCi的最近最似邻居为CCk,CCk的最近最似邻居为CCh,则CCi、CCk和CCh可以连接成文字区。依此类推,形成多个文字区;
最后根据统计样本中地址文字区的位置分布,对定位出来的文字区进行排序。
本发明提出的信封图像分割方法是从信封图像中提取收信人地址区域,为后续的识别剔除无关的图像信息,以减少干扰,提高识别效率。该方法充分利用信封图像的特点,提出了基于梯度连续变化特征的窗口定位法,以及复杂背景下基于连通元特征的地址文字定位法,将信封地址区域从背景图像区分离出来。
附图说明
图1是本发明技术方案涉及的信封图像地址定位的流程图
图2是本发明技术方案中涉及的窗口信的示意图
图3是本发明中信封图像窗口定位的流程图
图4普通信封图像示意图
图5本发明一实施例中地址文字区域文字定位流程图
图6本发明一实施例中对n×n的小块进行垂直和水平扫描示意图
具体实施方式
本发明公开的信封图像地址定位方法,包括步骤:如图1所示的对于窗口信进行窗口定位,若无法成功定位窗口则定位地址文字区域然后进行细化处理,若成功定位则直接作细化处理;如图5所示的对于非窗口信依次进行图案定位、文字区定位、混合区中文字图案的提取和后处理。以下结合附图,对本发明的具体实施做详细说明。
待处理的信封大体分为手写体书写地址的公众信和印刷体打印地址的大宗信。随着经济高速发展和商业活动的密集,大宗信越来越多。大宗信有70%以上都是带有透明窗口的信封,地址打印在内部的信纸上。定位出信封上的窗口也就定位到了信封的收件人地址。在保证窗口定位高正确率的前提下,再对其他类型的信封计算新特征来提取地址区域。信封图像地址定位方法的流程图,如图1所示。
所谓窗口信中的窗口与背景形成边缘特征,利用窗口形成的边缘特征来确定地址区域。图2抽象地表示了封图像中的收信人邮编、收信人地址、邮戳、邮票、寄信人地址、其他图案等几个区域。其中实线的框图表示该区域与背景可以形成比较明显的线条边缘。
根据窗口信的图像特征,即提出了窗口定位方法,图3显示了信封图像窗口定位方法的流程图。步骤如下:
1.边缘特征提取,采用了Sobel算子强化边缘特征强化边缘,并对图像进行自适应的二值化。
2.确定候选区域,在二值化图像上进行连通元的标定,将定位出来的连通元记为CCi(1≤i≤N),其中N表示连通元的个数。按照下列公式计算,如果满足以下条件则选为候选区域:
(a)
其中Width(CC
i)和Height(CC
i)分别是连通元外切正矩形的宽度和高度,Height(CC
i)是WHRatio是连通元的宽高比,WHR
L和WHR
H分别窗口宽高比的最小阈值和最大阈值。
(b)XL<CenterX(CCi)<XH,YL<CenterY(CCi)<YH,其中CenterX(CCi)和CenterY(CCi)是连通元的中心位置坐标,XL和XH是横坐标的阈值范围,YL和YH是纵坐标的阈值范围。
将候选区域表示为CandiRectj,(1≤j≤M),M为后选区个数。
3.GGLF特征提取,提取每个候选区域的原图,在对其靠近边界的连续像素值提取灰度梯度链特征(Gray Gradient List Feature,缩写GGLF)。假设一组像素灰度值为p1,p2,....,pk,...,pNUM(其中NUM为像素个数,1≤k≤NUM),计算每个像素与其相邻像素值的差值的最大值,即dk,=Max(|pk-1-pk|,|pk-pk+1|)(1≤k≤NUM),再计算这组像素灰度值的最大值、最小值、平均值和标准方差,分别记为νMax,νMin,νMean和νStddev。这样就形成一个NUM+4元的特征值,记为GGLFx(d1,d2,...,dn,...,dNUM,νMax,νMin,νMean,νStddev)。
4.当满足下列条件时,该组像素为边界候选链,其灰度梯度链特征表示为
(a)dMax-dMax>ThrDiff,
(b)dStddev>ThrDev,ThrDiff和ThrDev是统计获取的实验值。
5.确定窗口,判断是否符合窗口特征的步骤为:
(1)从候选区域CandiRectj上边界自上向下垂直扫描,取长度为ThrLen的连续像素值,共NumScanLine组。计算出每组的灰度梯度链特征,并判断是否为边界候选链。将所有边界候选链分别记
1≤x<y≤NumCandi,为边界候选链的条数。
(2)如果
(ThrCandi是统计获得的阈值),候选区的上边界不具有边界特征,否则继续(3)。
(3)计算
和
的余弦数值,记为Cos
x,y,作为两个向量之间的相似性。计算所有相似度之间的标准方差StdDevCos。当StdDevCos<ThrSDC时,表示候选区的上边界为窗口边界。
(4)对候选区域的下边界以及左右边界重复上述判断,都满足条件,则该区域为窗口区。
对符合窗口特征的做进一步的后处理,对不符合窗口特征的结束本次定位判断处理。
无窗口或者窗口边界特征很模糊的信封同样有邮编、收信人地址、邮戳、其他图案等几个区域,如图4。几个区域之间可能不存在很明确的边界,其中其他图案和收信人地址可能相互覆盖,邮戳也可能覆盖到地址上,收信人地址中带有商业图标等。因此采用地址文字区域定位方法获得收信人地址区的位置和大小。
在这里,将与信封背景不同的图像区域成为图案区域,图案包括文字图案、非文字图案以及混合图案(即同时存在文字和非文字图案)。地址文字区域定位方法是从信封图像中提取出文字区域。首先从单一的背景中根据一定的边缘特征将有图案的区域分离出来,再进一步根据候选区域内的基于联通元的特征剔除非文字区域,将保留下的文字区域根据位置信息进行排序和筛选,最后定位出地址文字区域。具体流程如图5。
图案区域定位是从信封图像中有文字和图案的区域从背景中分离出来。这里的图案包括字符、图形、花纹等前景图像。作为下一步地址文字区域定位候选。
具体如下:
1.用sobel算子对高为H,宽为W信封图像的Imagel进行边缘提取,获得新图像,记为EdgeImage。
2.将图像EdgeImage分割成n×n的小块。对每一小块分别进行垂直扫描和水平扫描,如图6所示。经过多次实验得出n为12的效果最佳。
3.将一组扫描获得的像素记为p1,p2,....,pk,...,pNUM(其中NUM为像素个数,1≤k≤NUM)。计算该组像素最大值和最小值的差,记为GloDiff。根据当前像素与后续像素的差,即ddk,=pk-pk+1,形成的序列dd1,dd2,…,ddNUM-1,若其中ddi,…,ddj值的符号相同(都为正数或负数),则记做一个片段,用NumFrag表示该组中片断的个数。
4.当一个块中有一定比列的扫描线满足下列条件GloDiff>ThrGD和NumFrag>ThrNF时,该块为图案块,否则为背景块。这样将EdgeImage转换为只有前景和背景之分的新图像FGImage,其高度为H/n+1,宽度为W/n+1。
5.对其进行连通元的标定,将连通元的外切正矩形作为图案区域的位置大小。
图案定位中获得图案区域包含了三种类型,第一种只包含地址文字,第二种只包含花案,第三种则同时包含了花案和文字。地址文字区域定位方法首先是将单独的文字候选区和花案候选区域分离出来。
1.在原灰度图像中根据每个图案候选区CandiRth的位置和大小截图,再用最大方差法进行二值化。
2.连通元的标定,计算每个连通元CCi(1≤i≤NumCCh)的下列六项连通元特征值:
Height(CCi),外切正矩形的高度,
Width(CCi),外切正矩形的宽度,
Area(CCi)=Height(CCi)×Width(CCi),外切正距性的面积,
宽高比,
NumFgPixel(CCi),前景像素的个数,
切正矩形的面积。
3.将高度、宽度和面积都很小的连通元作为噪声剔除。
4.将线条类的连通元踢除,即满足
a)WHRatio<ThrWHR_L或者WHRatio>ThrWHR_H。一般地ThrWHR_L×ThrWHR_H=1,ThrWHR_H=10.00
b)AreaRatio(CCi)<ThrAR_L,一般地ThrAR_L=24.60
5.合并相互覆盖的连通元,统计新的连通元中包含原连通元的个数,记为NumInCC(CCi),统计新生成的连通元的其他六项特征。这样新的连通元都有一个7维的特征向量,记作Z(z1,…,z7)。
6.将候选区内的所有连通元特征向量,求其平均值μh=(u1,....,u7)=E(X),方差νh=E[(z1-u1)2,...,(z7-u7)2]。
采集15000封各类信封图像,手动分割出文字块作为样本,计算出每个文字块中的连通元特征的平均值
和方差
使用欧几里德距离计算μ
h和
的距离Disμ、ν
h和
的Disν。
当Disμ<ThrDisμ且Disν<ThrDisν时,该区域为文字区域,否为非文字区域。
信封图像中有不少地址文字和其他图案相互覆盖或者地址区域附近有复杂的logo,如图4所示。简单地使用连通元特征的方法无法定位出准确的文字区域。因此,我们提出最近邻居法将文字部分离出来。
最近邻居法:
1.按照文字区域的定位方法对候选区进行连通元的标定、剔除噪声和线条。将合并后记为CCi(1≤i≤NumCCh)并计算每个连通元的特征,以及特征均值μ和方差ν。
2.以单个连通元CCi为起点,从自左向右四个方向向外搜索,分别找寻四个方向上与最近最相似的邻居。具体如下:
a)CCi外切矩形的中心(xi,yi)作为起点,水平方向为X轴,计算其他连通元CCj中心(xj,yj)与CCi连线与X轴形成的夹角θij、距离disij和相似度simij。
simij=||Zi-Zj||1=|zi1-zj1|+...+|zi7-zj7|
b)选取满足条件
(1)-15°<θij<15°
(2)disij<Width(CCi)*5
的连通元,取wik=Min(simij+disij)(i≠j)最小的连通元CCk作为CCi的最近最似邻居。
3.若CCi的最近最似邻居为CCk,CCk的最近最似邻居为CCh,CCi、CCk和CCh可以连接成文字区。依此类推,形成多个文字区。
后处理时根据统计样本中地址文字区的位置分布,对定位出来的文字区进行排序。