CN104050487A - 一种基于布局信息分析的邮件图像方向辨别方法 - Google Patents
一种基于布局信息分析的邮件图像方向辨别方法 Download PDFInfo
- Publication number
- CN104050487A CN104050487A CN201410250620.0A CN201410250620A CN104050487A CN 104050487 A CN104050487 A CN 104050487A CN 201410250620 A CN201410250620 A CN 201410250620A CN 104050487 A CN104050487 A CN 104050487A
- Authority
- CN
- China
- Prior art keywords
- text block
- image
- connected member
- value
- layout information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种基于布局信息分析的邮件图像方向辨别方法,包括以下步骤:步骤1:标记图像中的连通元;步骤2:将各个连通元划分至文本块中;步骤3:提取文本块的特征向量;步骤4:通过特征向量训练分类器;步骤5:通过分类器辨别图像的方向。本发明方法通过分析邮件图像上文本的布局信息来实现邮件图像的方向辨别,本发明方法充分分析利用邮件图像自身的布局信息,不再依赖于预先印制的邮政编码框,适应性强。
Description
技术领域
本发明涉及图像分析与识别技术,尤其涉及一种基于布局信息分析的邮件图像方向辨别方法。
背景技术
邮件的自动分拣是邮政自动化的一个重要组成部分。有一种邮件分拣技术是通过采集分拣对象的图像,分割出收信人地址区域,对分割结果进行字符识别,从而根据识别结果实现自动分拣。而在分割收信人地址区域之前,需要将邮件位置矫正,以保证后续的地址区域分割和字符识别等操作可以更得到准确的结果。将图像中的邮件矫正,包括消除倾斜角度和辨别出正负方向两步操作,如图1a和1b所示,分别为一个邮件的正、负两个方向的图像。
由于邮件在邮寄时基本都用信封来包覆,并且信封上都有位置比较固定的邮政编码框。因此现有的邮件自动分拣系统中,方向辨别主要通过邮政编码框的定位来完成。然而,随着邮件制作横的不断提高,采用窗口信和贴条信等手段自动打印和制作邮件的数量占大部分比例,原本要求在信封上预先印制的邮政编码红框所起的作用只是在分拣机上为自动辨别邮件方向提供依据。如果分拣机能在没有红框的情况下自动辨别方向,则可以取消六个红框的印刷,这将减少信封的制作成本。
因此,市场上亟需寻找一种不依赖于红框的方法来实现邮件图像方向的自动辨别。
发明内容
本发明的目的是提供一种不依赖信封红框,能根据邮件上文本的布局信息自动实现邮件方向辨别的方法,以解决在邮件在自动分拣中的自动识别方向问题。
本发明提出了一种基于布局信息分析的邮件图像方向辨别方法,包括以下步骤:
步骤1:标记图像中的连通元;
步骤2:将各个连通元划分至文本块中;
步骤3:提取所述文本块的特征向量;
步骤4:通过所述特征向量训练分类器;
步骤5:通过所述分类器辨别图像的方向。
本发明中,进一步包括对图像进行预处理;所述预处理包括:将所述图像进行二值化和去噪。
本发明中,所述步骤1中,进一步包括:对所述连通元进行过滤。
本发明中,过滤的所述连通元包括以下:
靠近图像边界位置的所述连通元;
图像中由折痕形成的所述连通元;
小区域内密集噪声点构成的所述连通元;
地址贴或邮资贴的边缘形成的所述连通元;
前景像素点个数与面积之比大于阈值的所述连通元,所述阈值大于0且小于或等于1;
前景像素点个数与面积之比小于阈值的所述连通元,所述阈值大于0且小于1;
前景像素点小于阈值的连通元,所述阈值大于等于0。
本发明中,所述步骤2中,包括以下步骤:
步骤2a:设定所述文本块的初始位置及数量;
步骤2b:将所述各个连通元划分至与其纵方向值距离最小的文本块中;
步骤2c:重新计算所述文本块中心的纵方向值;
步骤2d:计算所述文本块中心的纵方向位置变化值,并判断变化值是否大于阈值并且迭代次数是否小于最大迭代次数,结果为是,则重复步骤2b,否则进入步骤2e;
步骤2e:删除不含有所述连通元的所述文本块并计算保留文本块的边界信息。
本发明中,所述步骤2中,进一步包括以下步骤:
步骤2f:将所述文本块排序;
步骤2g:若相邻的所述文本块在纵方向的重合度大于所述文本块高度的二分之一,则合并所述文本块;
步骤2h:若相邻的所述文本块在纵方向重合度大于所述文本块高度的三分之一,且在横方向重合度大于所述文本块宽度的四分之三,则合并所述文本块。
本发明中,所述步骤3中,所述特征向量由所述文本块结点的长度特征向量、相邻所述文本块结点间的纵方向距离特征向量和所述文本块结点到图像中轴线横方向距离特征向量依次连接组成。
本发明中,所述长度特征提取包括以下步骤:
步骤31a:根据所述文本块的左右边界值计算得到所述文本块链上每个结点的长度值;
步骤31b:将所述结点的长度值归一化,得到所述文本块链的观察序列;
步骤31c:通过Baum-Wech算法训练得到隐含状态转移概率矩阵、观测状态转移概率矩阵和初始隐含状态概率矩阵;
步骤31d:根据所述隐含状态转移概率矩阵、所述观测状态转移概率矩阵和所述初始隐含状态概率矩阵,利用Viterbi算法求得所述观察序列的隐含状态序列;
步骤31e:通过所述隐含状态序列得到所述文本块结点的长度特征向量。
本发明中,所述纵方向距离特征提取包括以下步骤:
步骤32a:根据所述文本块结点的中心位置计算得到相邻所述文本块链之间的纵方向距离值;
步骤32b:将所述纵方向的距离值归一化;
步骤32c:通过所述归一化后的距离值得到相邻所述文本块结点之间纵方向距离特征向量。
本发明中,所述横方向距离特征提取包括以下步骤:
步骤33a:计算所述文本块链上每个结点到图像中轴线横方向的距离值;
步骤33b:将所述横方向的距离值归一化;
步骤33c:通过所述归一化后的距离值得到所述横方向距离特征向量。
本发明中,所述步骤4中,采用SVM模型的多项式核函数和径向基函数分别训练两个所述分类器;若两个所述分类器识别的结果一致,则输出识别结果;若两个所述分类器识别结果不一致,则输出图像中邮件方向无法辨别。
本发明提出的基于布局信息分析的邮件图像方向辨别方法,通过分析邮件图像上文本的布局信息来实现邮件图像的方向辨别,本发明方法充分分析利用邮件图像自身的布局信息,不再依赖于预先印制的邮政编码框,适应性强。
附图说明
图1a为邮件正方向的图像。
图1b为邮件负方向的图像。
图2为本发明方法的流程图。
图3为实施例1中的流程图。
图4为标记连通元后的图像。
图5为过滤连通元后的图像。
图6为实施例3的流程图。
图7为文本块初始化后的图像。
图8为文本块第一次分割后的图像
图9为文本块分割完成后的图像。
图10为实施例4的流程图。
图11为文本块合并后的图像。
图12为实施例6的流程图。
具体实施方式
结合以下具体实施例和附图,对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明中:
Height为输入的邮件图像的高度,Width为输入的邮件图像的宽度;
X方向为邮件图像的横方向,图像的上边界为X方向的坐标轴,图像的左上角为X坐标轴的零点,从左向右为X坐标轴的正向;
Y方向为邮件图像的纵方向,图像的左边界为Y方向的坐标轴,图像的左上角为Y坐标轴的零点,从上向下为Y坐标轴的正向;
cc_minx为连通元的左边界的x坐标值;
cc_miny为连通元的上边界的y坐标值;
cc_maxx为连通元的右边界的x坐标值;
cc_maxy为连通元的下边界的y坐标值;
cc_height为连通元的高度,cc_width为连通元的宽度;
cc_pixelnum为连通元中前景像素点的个数;
threshold_cc_ratio_x为过滤太靠近图像左右边界的连通元时使用的阈值,0≤threshold_cc_ratio_x≤1/5;
threshold_cc_ratio_y为过滤太靠近图像上下边界的连通元时使用的阈值,0≤threshold_cc_ratio_x≤1/5;
threshold_cc_ratio_h为过滤形状特殊的连通元时使用的阈值,1/3≤threshold_cc_ratio_h≤1;
threshold_cc_ratio_w为过滤形状特殊的连通元时使用的阈值,1/3≤threshold_cc_ratio_w≤1;
cc_WHRatio为连通元的宽度与高度之比,cc_WHRatio=cc_width/cc_height;
threshold_cc_WHRL为过滤贴条边缘的噪声连通元时使用的最小阈值,0≤threshold_cc_WHRL≤1;
threshold_cc_WHRR为过滤贴条边缘的噪声连通元时使用的最大阈值,threshold_cc_WHRR≥1;
threshold_cc_min_h为过滤高度太小的连通元时使用的阈值,threshold_cc_min_h≥0;
threshold_cc_min_w为过滤宽度太小的连通元时使用的阈值,threshold_cc_min_w≥0;
threshold_cc_min_pmun为过滤前景像素点个数太少的连通元时使用的阈值,threshold_cc_min_pnum≥0;
thrreshold_cc_ratio_rps为过滤前景像素点个数与面积之比太大的连通元时使用的阈值,0<threshold_cc_ratio_rps≤1;
threshold_cc_ratio_lps为过滤前景像素点个数与面积之比太小的连通元时使用的阈值,0<threshold_cc_ratio_lps<1;
k为初始的文本块个数;
max_iterations为算法的最大迭代次数;
overlap_w为两个文本块的X方向重合度,overlap_h为两个文本块的Y方向重合度;
Length为文本块的长度值;
LO(LO1,LO2,LO3,LO4,LO5)为文本块结点的长度特征的标签值集合;
S(S1,S2,S3,S4,S5)为文本块结点的长度特征的隐含状态集合;
λ为HMM模型的参数λ=[A,B,π],其中A为隐含状态转移概率矩阵、B为观测状态转移概率矩阵和π为初始隐含状态概率矩阵;
Distance_y为相邻文本块结点间的Y方向距离值;
DyO(DyO1,DyO2,DyO3)为相邻文本块结点间的Y方向距离特征的标签值集合;
Distance_x为文本块结点到图像中轴线的X方向距离值;
DxO(DxO1,DxO2,DxO2,DxO4,DxO5)为文本块结点到图像中轴线的X方向距离特征的标签值集合;
Result1为分类器P的识别结果,Result2为分类器R的识别结果。
本发明提出了一种基于布局信息分析的邮件图像方向辨别方法,如图2所示,包括以下步骤:
步骤1:标记图像中的连通元;
步骤2:将各个连通元划分至文本块中;
步骤3:提取文本块的特征向量;
步骤4:通过特征向量训练分类器;
步骤5:通过分类器识别图像的方向。
实施例1
本实施例中的基于布局信息分析的邮件图像方向辨别方法,如图3所示,包括以下步骤:
步骤1:将信封图像进行预处理,包括二值化和去除噪声等操作;
步骤2:对预处理后的图像进行连通元标记,然后过滤掉无效的连通元;
步骤3:利用标记好的连通元进行文本块分割,并记录每个文本块的上、下、左、右的边界位置信息;
步骤4:根据文本块的中心位置值,从小到大对文本块进行排序,然后根据己记录的边界信息对文本块进行合并调整,得到文本块链;
步骤5:得到文本块链后,提取特征向量,包括文本块结点的长度特征向量、相邻文本块结点之间的Y方向的距离特征向量、文本块结点到中轴线的X方向距离特征向量,若图像为训练样本图像,则进入步骤6;若为待识别图像则进入步骤7;
步骤6:得到所有训练样本图像的特征向量后,利用SVM模型训练分类器,得到用于识别信封图像方向识的分类器;
步骤7:利用训练得到的SVM分类器进行方向识别并输出判别结果。
实施例2
本发明基于布局信息分析的邮件图像方向辨别方法中,为了进行布局分析,需将邮件图像中的连通元标记出来。由于邮件图像上难免存在一些噪声,这些噪声可能被当作连通元标记出来,对布局信息分析造成干扰。因此,本实施例中对连通元进行了过滤。
本实施例中,若连通元满足以下任意一条,则过滤掉该连通元:
a.在输入图像的背景信息(如传送皮带)没有完全去除的情况下,图像边界经过预处理会残留一些噪声,这些噪声可能被标记为连通元,因此将靠近图像边界位置的连通元过滤,包括:
连通元的上边界cc_miny<Height*threshold_cc_ratio_y;
连通元的下边界cc_maxy>Hrifht*(1-threshold_cc_ratio_y);
连通元的左边界cc_minx<Width*threshold_cc_ratio_x。
b.在输入图像有较长的折痕时,会形成狭长的噪声,这些噪声可能被标记为连通元,这些噪声满足以下条件:
连通元的高度cc_height>Height*threshold_cc_ratio_h;
或连通元的宽度cc_width>Width*threshold_cc_ratio_w。
c.在小区域内密集的噪声点可能会被标记为连通元,这些连通元满足以下条件:
连通元的高度cc_height<threshold_cc_min_h;
或连通元的宽度cc_width<threshold_cc_min_w。
d.贴有地址贴或者邮资贴的邮件图像中,经过预处理,贴条的边缘会形成噪声且被标记为连通元,这些噪声满足以下条件:
连通元的宽度与高度之比cc_WHRatio>threshold_cc_WHRR或
cc_WHRatio<threshold_cc_WHRL。
e.由集中的少量噪声点构成的连通元,这些噪声满足以下条件:
连通元中的前景像素点个数cc_pixelnum<threshold_cc_mim_pnum。
f.连通元的前景像素点个数与面积之比为
cc_pixelnum/(cc_height*cc_width)>threshold_cc_ratio_rps或
cc_pixelnum/(cc_height*cc_width)<threshold_cc_ratio_lps。
本发明中的阈值都是经验值,在编程实现的过程中,使用者根据自己需要处理的图像的特征来确定,没有推演公式或者系统的确定方法。
本实施例中,threshold_cc_ratio_y、threshold_cc_ratio_x、threshold_cc_ratio_h、threshold_cc_ratio_w、threshold_cc_min_h、threshold_cc_min_w、threshold_cc_WHRR、threshold_cc_WHRL、threshold_cc_min_pnun、threshold_cc_ratio_rps、threshold_cc_ratio_lps分别设为0.05、0.05、0.25、0.25、10、10、4、0.25、150、0.7、0.10。
如图4所示的信封图像经过连通元标记以后的结果,图4中黑色矩形框为被标记的连通元边界。图4中第1、2、3、4、8、11、12、13、14号连通元满足连通元过滤规则d;图4中第5、6、7、8、10号连通元满足连通元过滤规则f,因此将上述连通元过滤掉。图5为图4连通元过滤后的结果。
实施例3
本发明中,文本块定义为在Y方向上距离相近的连通元组成的集合,因此需将标记出来的连通元划分至文本块中,即文本块的分割。
本实施例中,将位置相邻的连通元将被划分到一个文本块中,所述位置相邻是指连通元中心Y方向上位置接近,如图6所示,其包括以下步骤:
步骤2a:设置初始文本块个数k(k>0),初始化k个文本块中心的Y方向位置。
步骤2b:在Y方向上,对每一个连通元,计算它的中心到每个文本块中心的距离值,选取最小的距离值对应的文本块,将这个连通元划分到此文本块中。
步骤2c:对每一个文本块,重新计算其中心的Y方向位置,使得经过步骤2b划分后属于该文本块的所有连通元中心到该文本块中心的Y方向距离的算术平均值最小。
步骤2d:判断是否所有文本块中心的位置变化值小于给定的阈值或者迭代次数是否大于max_iterations次,若判断结果为是,则执行步骤2e,否则再次执行步骤2b。
步骤2e:删除不含有连通元的文本块,然后计算出剩下文本块中的所有连通元的最小上边界值、最大下边界值、最小左边界值和最大右边界值,即得到该文本块的上下左右边界信息。
本实施例中,阈值和最大迭代次数没有具体的推演公式或者系统的确定方法。理论上,阈值越小、迭代次数越大分割的结果越好,但阈值太小或迭代次数太大,会消耗大量的时间,并且分割效果不会取得明显的改进。
本实施例中,阈值和最大迭代次数分别设为10和20。
本实施例中,设置的初始文本块个数k=20,20个文本块的Y方向初始位置如图7所示,图中横向的直线即为初始的文本块Y方向的中轴线,初始规则:第一个文本块(即最上方的)的中心的Y方向初始位置为Height/10,从第二个文本块开始,与上面一个文本块的中心的Y方向间距均为(9*Height/10-Height/10)/19,则最后一个文本块的中心的Y方向的位置为9*Height/10。
文本块初始化后,对经过连通元过滤处理过后保留下来的每一个连通元(即图5中标记的连通元)计算到每一个文本块中心的Y方向距离,即图7中每个连通元中心到每条直线的距离,比较得到其中最短的距离值,对应的直线即为连通元将划入的文本块。将每个连通元都划分完之后,对每一个文本块,计算所有属于该文本块的连通元的中心y值的代数平均值,作为此文本块中心的新y值,此时文本块Y方向中轴线的位置如图8中横向直线所示,对比图7,图8中6条直线的位置变化大于10,且此时迭代次数为1。
继续重复上述步骤:计算连通元中心到文本块中心距离,选最短距离将连通元划分,重新计算文本块位置,此时迭代次数为2,所有直线的位置变化小于10,迭代结束。删除不包含连通元的文本块,计算保留文本块的上下左右边界信息并用矩形框标记,结果如图9所示。
实施例4
本发明中,文本块分割后,有些文本块会有大面积的重合,这些重合的文本块中所包含的连通元在位置上非常相近,有些甚至是同一个汉字中的不同部分,因此需要将它们重新划分,合并到一个文本块中,
如图10所示,本实施例中对文本块的合并包括以下步骤:
步骤2f:利用冒泡排序算法,根据文本块中心的Y方向值,从小到大对文本块进行排序,即将文本块在空间位置上从上到下进行排序。
步骤2g:将标号i指向第一个文本块,即空间上位于图像最上边的文本块。
步骤2h:计算第i个文本块与第i+1个文本块的X方向的重合度overlap_w和Y方向的重合度overlap_h。
步骤2i:判断overlap_h是否大于0,若是转入步骤2j,否则转入步骤2n。
步骤2j:判断overlap_h是否大于第i个文本块高度的1/2或者第i+1个文本块高度的1/2,若是则转入步骤2m,否则转入步骤2k。
步骤2k:判断overlap_h是否大于第i个文本块高度的1/3或者第i+1个文本块高度的1/3,若是则转入步骤21,否则转入步骤2n。
步骤21:判断overlap_w是否大于第i个文本块宽度的3/4或者第i+1个文本块宽度的3/4,若是则转入步骤2m,否则转入步骤2n。
步骤2m:合并第i个文本块与第i+1个文本块,重新计算第i+1个文本块的边界信息,将第i个文本块标记为舍弃。
步骤2n:将标号i增加1,即由原来的标号i变为标号i+1。
步骤2o:检查标号是否指向最后一个文本块,如果检查结果为否,则返回步骤2h。
步骤2p:如果检查结果为是,则输出保留的文本块组成的文本块链。
以图9为例,文本块的排序结果即图9中从上至下12个文本块。将i指向第1个文本块,第2个文本块的右边界值减去第1个文本块的左边界值即为两个文本块的X方向的重合度ovelap_w,第1个文本块的下边界值减去第2个文本块的上边界值即为两个文本块的Y方向的重合度overlap_h,但overlap_h小于第1个文本块高度的1/3和第2个文本块高度的1/3,不满足合并条件,所以标号i指向第二个文本块,同样的第2个文本块和第3个文本块也不符合合并条件,标号i继续增加,直至标号i指向第6个文本块(即a文本块)时,计算overlap_w和overlap_h,此时overlap_h大于第7个文本块(即b文本块)高度的1/3,且overlap_w大于第6个文本块宽度的3/4,满足合并条件,此时新的第7个文本块的边界信息为:上边界为第6个文本块的上边界、下边界为第7个文本块的下边界、左边界为第6个文本块的左边界、右边界为第6个文本块的右边界,将第6个文本块标记为舍弃,标号i继续增加,当标号i指向第8个文本块时,c、d文本块也满足了合并条件,合并完文本块后,标号i继续增加,当标号i指向第12个文本块时,合并结束。将标记为舍弃的文本块删除,得到图11所示的结果。
实施例5
本发明中,训练样本及待识别图像的特征向量都由三部分组成:文本块结点的长度特征(k维)、相邻文本块结点间的Y方向距离特征(k+1维)、和文本块结点到图像中轴线的X方向距离特征(k维)。因此本发明中的特征向量为3k+1维。
本实施例中,文本块结点的长度特征提取包括以下步骤:
步骤31a:根据每个文本块的左右边界值,依次计算得到文本块链上每个结点的长度值Length;
步骤31b:将每个结点的长度值Length归一化:
其中,LO1、LO2、LO3、LO4、LO5分别用1、2、3、4、5表示。
步骤31c:引入HMM模型的概念,将LOi看做是观测值,假设文本块长度的隐含状态集合为S(S1,S2,S3,S4,S5)(其中S1、S2、S3、S4、S5分别用数值1,2,3,4,5表示);挑选一些图像作为HMM模型的参数训练样本,提取到这些图像的文本块链的观察序列lo=[lo1,lo2,...,lor]后,利用Baum-Wech算法训练得到HMM模型中的隐含状态转移概率矩阵A、观测状态转移概率矩阵B和初始隐含状态概率矩阵π。
步骤31d:对于训练样本图像和待识别的图像,得到观测值序列O=[o1,o2,...,or]后,结合已经得到的HMM参数λ=[A,B,π],利用Viterbi算法求此观察序列最可能是由怎么样的隐含状态序列产生的。
步骤31e:由于文本块结点个数等于或小于k,在文本块结点个数不足k个时,用0将这个隐含状态序列补齐为k维,得到文本块链的长度特征向量。
以图11为例,本实施例中的文本块链由从上至下由10个结点构成,根据每个文本块的左右边界值,可得到结点的长度值依次为:905、1707、2162、642、172、556、1844、887、1316、397,图像的宽度值为3256,则将结点的长度值归一化后,文本块链的观察序列为:3,5,5,1,1,1,5,3,4,1。
HMM模型参数的训练样本,同样按照本发明方法进行处理,得到批量的观察序列后,利用现有的算法Baum-Wech算法训练得到HMM模型中的隐含状态转移概率矩阵A、观测状态转移概率矩阵B和初始隐含状态概率矩阵π。
本实施例中的HMM模型参数为
π=[0.104063 0.232720 0.392329 0.207618 0.063270]
根据这组参数和文本块链的观察序列,利用现有的算法Viterbi算法求得图10的隐含状态序列为:3,5,5,1,5,1,5,3,4,1。由于初始文本块个数k=20,所以用0将文本块链的长度特征向量补齐为20维{3,5,5,1,5,1,5,3,4,1,0,0,0,0,0,0,0,0,0,0}。
本实施例中,相邻文本块结点间的Y方向距离特征提取包括以下步骤:
步骤32a:根据文本块结点的中心位置,可依次计算得到文本块链上相邻结点之间的Y方向距离值Distance_y(包括第一个文本块结点到信封图像上边界的距离和最后一个结点到信封图像下边界的距离)。
步骤32b:将Distance_y归一化:
其中,DyO1、DyO2、DyO3分别用1、2、3表示。
步骤32c:对于训练样本图像和待识别的图像,将每个Distance_y距离值归一化后得到一个序列。由于文本块结点个数等于或小于k,在文本块结点个数不足k个时,用0将这个状态序列补齐为k+1维,就得到相邻文本块结点之间的Y轴方向的距离特征向量。
以图11为例,本实施例中的文本块链由从上至下10个结点构成,依次计算得到文本块链上相邻结点之间的Y方向距离值Distance_y(包括第一个文本块结点到信封图像上边界的距离和最后一个结点到信封图像下边界的距离):220、131、92、97、119、96、925、251、113、136、212,图像的高度值为2392,则将结点之间的Y方向距离值归一化后,得到序列:1,1,1,1,1,1,3,2,1,1,1。由于初始文本块个数k=20,所以用0将文本块结点之间的Y轴方向的距离特征向量补齐为21维{1,1,1,1,1,1,3,2,1,1,1,0,0,0,0,0,0,0,0,0,0}。
本实施例中,文本块结点到图像中轴线的X方向距离特征提取包括以下步骤:
步骤33a:根据文本块结点的中心位置,可依次计算得到文本块链上每个结点到信封图像中轴线的X方向距离值Distance_x。
步骤33b:将Distance_x归一化:
其中,DxO1、DxO2、DxO3、DxO4、DxO5分别用1、2、3、4、5表示。
步骤33c:对于训练样本图像和待识别的图像,将每个Distance_x距离值转化成相应的标签值得到一个序列。由于文本块结点个数等于或小于k,在文本块结点个数不足k个时,用0将这个状态序列补齐为k维,就得到文本块结点偏离中轴线距离的特征向量。
以图11为例,本实施例中的文本块链由从上至下10个结点构成,依次计算得到文本块链上每个结点到信封图像中轴线的X方向距离值Distance_x:960、148、441、-357、-598、-410、496、117、333、1252,图像的中轴线X坐标为1628,则将结点到信封图像中轴线的X方向距离值归一化后,得到序列:5,3,4,2,1,2,5,3,4,5。由于初始文本块个数k=20,所以用0将文本块结点到信封图像中轴线的X方向距离向量补齐为20维{5,3,4,2,1,2,5,3,4,5,0,0,0,0,0,0,0,0,0,0}。
本实施例中提取到文本块结点的长度特征向量(k维)、相邻文本块结点之间的Y轴方向的距离特征向量(k+1维)、文本块结点偏离中轴线距离的特征向量(k维)后,将这三个特征向量依次连接,得到一个3k+1维的向量,此向量由0、1、2、3、4、5这些数字组成,为了提高识别准确率,还可以将特征向量放大或缩小N(N≥1)倍,用于后续分类器的训练及识别。
以图11为例,将前面得到的三个向量依次链接就得到一个61维的向量:{3,5,5,1,5,1,5,3,4,1,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,3,2,1,1,1,0,0,0,0,0,0,0,0,0,0,5,3,4,2,1,2,5,3,4,5,0,0,0,0,0,0,0,0,0,0},此61维向量即为最终的特征向量。
实施例6
本发明中,分类器的训练采用SVM模型。在邮件图像的方向辨别上,训练得到的SVM分类器是一个二分类器,即此分类器的分类结果非正即负。在自动分拣系统中,对于一些难以识别的图像,不能识别错误,否则会对后续的处理产生负面影响。
本实施例中,选取SVM模型的两个核函数:多项式核函数(Polynomial)和径向基函数(RBF),通过这两个函数分别训练了两个分类器:分类器P和分类器R,在后续的方向识别中配合使用,起到降低错识率的作用。
理论上本发明也可以采用其它核函数,但在邮件图像方向辨别上,多项式核函数(Polynomial)和径向基函数(RBF)的识别准确率最高。
本发明中训练好的分类器可以理解为一个分类函数,而分类器训练的过程就是训练分类函数参数的过程,特征向量作为分类函数的输入,输出就是识别结果。比如,将1和2分别作为邮件图像的正向和负向的类别标签,分类器就会输出1或2。而分类器P和分类器R的识别过程就是SVM分类器的识别过程。
本实施例中,如图12所示,待识别的图像得到其特征向量后,利用训练得到的两个SVM分类器进行两次识别;如果分类器P的识别结果Result1和分类器R识别结果Result2一致,则输出一致的识别结果,否则输出此信封图像方向无法识别。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (11)
1.一种基于布局信息分析的邮件图像方向辨别方法,其特征在于,包括以下步骤:
步骤1:标记图像中的连通元;
步骤2:将各个连通元划分至文本块中;
步骤3:提取所述文本块的特征向量;
步骤4:通过所述特征向量训练分类器;
步骤5:通过所述分类器辨别图像的方向。
2.如权利要求1所述的基于布局信息分析的邮件图像方向辨别方法,其特征在于,进一步包括对图像进行预处理;所述预处理包括:将所述图像进行二值化和去噪。
3.如权利要求1所述的基于布局信息分析的邮件图像方向辨别方法,其特征在于,所述步骤1中,进一步包括:对所述连通元进行过滤。
4.如权利要求3所述的基于布局信息分析的邮件图像方向辨别方法,其特征在于,过滤的所述连通元包括以下:
靠近图像边界位置的所述连通元;
图像中由折痕形成的所述连通元;
小区域内密集噪声点构成的所述连通元;
地址贴或邮资贴的边缘形成的所述连通元;
前景像素点个数与面积之比大于阈值的所述连通元,所述阈值大于0且小于或等于1;
前景像素点个数与面积之比小于阈值的所述连通元,所述阈值大于0且小于1;
前景像素点小于阈值的连通元,所述阈值大于等于0。
5.如权利要求1所述的基于布局信息分析的邮件图像方向辨别方法,其特征在于,所述步骤2中,包括以下步骤:
步骤2a:设定所述文本块的初始位置及数量;
步骤2b:将所述各个连通元划分至与其纵方向值距离最小的文本块中;
步骤2c:重新计算所述文本块中心的纵方向值;
步骤2d:计算所述文本块中心的纵方向位置变化值,并判断变化值是否大于阈值并且迭代次数是否小于最大迭代次数,结果为是,则重复步骤2b,否则进入步骤2e;
步骤2e:删除不含有所述连通元的所述文本块并计算保留文本块的边界信息。
6.如权利要求1所述的基于布局信息分析的邮件图像方向辨别方法,其特征在于,所述步骤2中,进一步包括以下步骤:
步骤2f:将所述文本块排序;
步骤2g:若相邻的所述文本块在纵方向的重合度大于所述文本块高度的二分之一,则合并所述文本块;
步骤2h:若相邻的所述文本块在纵方向重合度大于所述文本块高度的三分之一,且在横方向重合度大于所述文本块宽度的四分之三,则合并所述文本块。
7.如权利要求1所述的基于布局信息分析的邮件图像方向辨别方法,其特征在于,所述步骤3中,所述特征向量由所述文本块结点的长度特征向量、相邻所述文本块结点间的纵方向距离特征向量和所述文本块结点到图像中轴线横方向距离特征向量依次连接组成。
8.如权利要求7所述的基于布局信息分析的邮件图像方向辨别方法,其特征在于,所述长度特征提取包括以下步骤:
步骤31a:根据所述文本块的左右边界值计算得到所述文本块链上每个结点的长度值;
步骤31b:将所述长度值归一化,得到所述文本块链的观察序列;
步骤31c:通过Baum-Wech算法训练得到隐含状态转移概率矩阵、观测状态转移概率矩阵和初始隐含状态概率矩阵;
步骤31d:根据所述隐含状态转移概率矩阵、所述观测状态转移概率矩阵和所述初始隐含状态概率矩阵,利用Viterbi算法求得所述观察序列的隐含状态序列;
步骤31e:通过所述隐含状态序列得到所述文本块结点的长度特征向量。
9.如权利要求7所述的基于布局信息分析的邮件图像方向辨别方法,其特征在于,所述纵方向距离特征提取包括以下步骤:
步骤32a:根据所述文本块结点的中心位置计算得到相邻所述文本块链之间的纵方向距离值;
步骤32b:将所述纵方向的距离值归一化;
步骤32c:通过所述归一化后的距离值得到相邻所述文本块结点之间纵方向距离特征向量。
10.如权利要求7所述的基于布局信息分析的邮件图像方向辨别方法,其特征在于,所述横方向距离特征提取包括以下步骤:
步骤33a:计算所述文本块链上每个结点到图像中轴线横方向的距离值;
步骤33b:将所述横方向的距离值归一化;
步骤33c:通过所述归一化后的距离值得到所述横方向距离特征向量。
11.如权利要求1所述的基于布局信息分析的邮件图像方向辨别方法,其特征在于,所述步骤4中,采用SVM模型的多项式核函数和径向基函数分别训练两个所述分类器;若两个所述分类器识别的结果一致,则输出识别结果;若两个所述分类器识别结果不一致,则输出图像无法识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410250620.0A CN104050487B (zh) | 2014-06-06 | 2014-06-06 | 一种基于布局信息分析的邮件图像方向辨别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410250620.0A CN104050487B (zh) | 2014-06-06 | 2014-06-06 | 一种基于布局信息分析的邮件图像方向辨别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104050487A true CN104050487A (zh) | 2014-09-17 |
CN104050487B CN104050487B (zh) | 2017-06-16 |
Family
ID=51503299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410250620.0A Active CN104050487B (zh) | 2014-06-06 | 2014-06-06 | 一种基于布局信息分析的邮件图像方向辨别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104050487B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961475A (zh) * | 2017-12-22 | 2019-07-02 | 深圳市优必选科技有限公司 | 图像方向识别方法、装置、终端设备及可读存储介质 |
CN111932577A (zh) * | 2020-09-16 | 2020-11-13 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6173073B1 (en) * | 1998-01-05 | 2001-01-09 | Canon Kabushiki Kaisha | System for analyzing table images |
US20040005081A1 (en) * | 2000-06-27 | 2004-01-08 | Gilles Arcas-Luque | Segmentation of a postal object digital image by hough transform |
CN101042734A (zh) * | 2007-04-17 | 2007-09-26 | 华东师范大学 | 图像连通元快速标记的方法 |
CN101061511A (zh) * | 2004-11-19 | 2007-10-24 | 伊斯曼柯达公司 | X射线照片方向的检测和校正方法 |
CN101814140A (zh) * | 2010-04-22 | 2010-08-25 | 上海邮政科学研究院 | 一种信封图像地址定位方法 |
CN103049759A (zh) * | 2012-12-14 | 2013-04-17 | 上海邮政科学研究院 | 一种用于邮政分拣系统的邮政编码识别方法 |
-
2014
- 2014-06-06 CN CN201410250620.0A patent/CN104050487B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6173073B1 (en) * | 1998-01-05 | 2001-01-09 | Canon Kabushiki Kaisha | System for analyzing table images |
US20040005081A1 (en) * | 2000-06-27 | 2004-01-08 | Gilles Arcas-Luque | Segmentation of a postal object digital image by hough transform |
CN101061511A (zh) * | 2004-11-19 | 2007-10-24 | 伊斯曼柯达公司 | X射线照片方向的检测和校正方法 |
CN101042734A (zh) * | 2007-04-17 | 2007-09-26 | 华东师范大学 | 图像连通元快速标记的方法 |
CN101814140A (zh) * | 2010-04-22 | 2010-08-25 | 上海邮政科学研究院 | 一种信封图像地址定位方法 |
CN103049759A (zh) * | 2012-12-14 | 2013-04-17 | 上海邮政科学研究院 | 一种用于邮政分拣系统的邮政编码识别方法 |
Non-Patent Citations (1)
Title |
---|
YUE LU ET AL.: ""Application of Pattern Recognition Technology to Postal Automation in China"", 《PATTERN RECOGNITION AND MACHINE VISION-IN HONNOR AND MEMORY OF PROFESSOR KING-SUN FU》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961475A (zh) * | 2017-12-22 | 2019-07-02 | 深圳市优必选科技有限公司 | 图像方向识别方法、装置、终端设备及可读存储介质 |
CN111932577A (zh) * | 2020-09-16 | 2020-11-13 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104050487B (zh) | 2017-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104951784B (zh) | 一种车辆无牌及车牌遮挡实时检测方法 | |
CN105261017B (zh) | 基于路面约束的图像分割法提取行人感兴趣区域的方法 | |
Jusoh et al. | Application of freeman chain codes: An alternative recognition technique for Malaysian car plates | |
CN104134209B (zh) | 一种视觉导航中的特征提取与匹配方法及系统 | |
CN101777124A (zh) | 一种提取视频文本信息的方法及装置 | |
CN109740595A (zh) | 一种基于机器视觉的斜向车辆检测与跟踪系统及方法 | |
CN101359373B (zh) | 退化字符的识别方法和装置 | |
CN106875546A (zh) | 一种增值税发票的识别方法 | |
CN105893949A (zh) | 一种复杂路况场景下的车道线检测方法 | |
CN103942546B (zh) | 一种城市环境中导向交通标线识别系统及方法 | |
CN105975968A (zh) | 一种基于Caffe框架的深度学习车牌字符识别方法 | |
CN103903018A (zh) | 一种复杂场景中对车牌进行定位的方法和系统 | |
CN104463138B (zh) | 基于视觉结构属性的文本定位方法及系统 | |
CN103902981A (zh) | 一种基于字符融合特征的车牌字符识别方法及系统 | |
CN102708370A (zh) | 一种多视角图像前景目标提取方法及装置 | |
CN108388871A (zh) | 一种基于车身回归的车辆检测方法 | |
Parasuraman et al. | SVM based license plate recognition system | |
CN105513066A (zh) | 一种基于种子点选取与超像素融合的通用物体检测方法 | |
CN102930294A (zh) | 基于混沌特征量视频运动模态分割和交通状况识别的方法 | |
CN104680142B (zh) | 一种基于特征点集分割和rst不变特征的四联指比对方法 | |
CN104050487A (zh) | 一种基于布局信息分析的邮件图像方向辨别方法 | |
CN104834891A (zh) | 一种中文图像型垃圾邮件过滤方法及系统 | |
Kimura et al. | Handwritten ZIP code recognition using lexicon free word recognition algorithm | |
Gattal et al. | Segmentation and recognition strategy of handwritten connected digits based on the oriented sliding window | |
CN106778766A (zh) | 一种基于定位点的旋转数字识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220113 Address after: 226200 Mingzhu Road, Qidong Binhai Industrial Park, Nantong City, Jiangsu Province Patentee after: QIDONG DIJIE INDUSTRIAL THE INDUSTRIAL EQUIPMENT CO.,LTD. Address before: 200062 No. 3663, Putuo District, Shanghai, Zhongshan North Road Patentee before: EAST CHINA NORMAL University |
|
TR01 | Transfer of patent right |