CN103258196B - 复杂环境中紧连字符串的字符分离方法 - Google Patents
复杂环境中紧连字符串的字符分离方法 Download PDFInfo
- Publication number
- CN103258196B CN103258196B CN201310209927.1A CN201310209927A CN103258196B CN 103258196 B CN103258196 B CN 103258196B CN 201310209927 A CN201310209927 A CN 201310209927A CN 103258196 B CN103258196 B CN 103258196B
- Authority
- CN
- China
- Prior art keywords
- branch
- elementary
- weights
- character
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种复杂环境中紧连字符串的字符分离方法,属于图像处理技术领域。本发明运用字符串的包络信息初定位初级分点,再根据初级分点的滤波处理,生成二级分点,进而获取初级切分点,最后再对初级切分点进行校准,以准确定位切分位置,以此实现对采集的字串图像的切割处理,达到复杂环境中紧连字串分离的目的。本发明的应用,实现了在复杂环境下,对紧连字串的切分,且适用于不同字体,其运算复杂度低,切分准确性高。
Description
技术领域
本发明涉及一种对紧连字串的字符分离方法,特别适用于各种真实票据中数字串的切分方法。
背景技术
票据作为目前生活工作中经常使用的工具,为了更加方便的将票据上的一些信息转化为数字信息进行后续的处理,通常会使用一些自动识别处理的方法。在识别字符之前的一个十分重要的步骤就是将待识别的字符串切分开。但是票据中复杂的背景信息,紧密粘连的字符,是目前各种切分方法都会面临的难题。因此,复杂环境中紧连字串的切分问题,具有很大的研究价值和应用前景。
目前常采用的切分方法有三种,第一种是水平投影法,即按照水平方向,计算垂直方向中投影的最低点,得到属于目标字符的分割位置,但是在复杂环境及紧连字串中,这种方法的可行性就大大降低,背景噪声以及粘连会影响投影分点切分的准确性,从而错误的计算出分点的位置。目前常采用的另一种方法是通过字符的连通性来进行字符的分割,即按照属于同一个字符的像素构成一个连通区域的原则进行切分,这种方法对于车牌识别等字符分点清晰连通区域明显的情况十分实用,但是对于真实票据中的经常存在字符粘连的情况就不能适用,准确率很低。第三种,基于模板匹配的切割算法,根据字符串的结构和尺寸特征,设计了字符串模板,用这样的模板在车牌区域滑动匹配进行字符的切割确定最佳匹配位置,但是这种方法,对于各种票据中的各种不同的字体就会出现很大的问题,因为他只适用于一种字体,或是变化不大的不同字体。
发明内容
本发明的目的在于,克服现在票据中复杂环境和粘连字符对切分的影响,提供一种适用于各种字体的字符分离方法。
本发明的复杂环境中紧连字符串的字符分离方法,包括下列步骤:
步骤1:对采集的字符串图像进行预处理,求取字符串的上包络值、下包络值,所述上包络值为字符串中字符的上边缘距离字符串图像上边缘的距离;所述下包络值为字符串中字符下边缘距离字符串图像下边缘的距离;
步骤2:基于所述上下包络值提取初级分点:
设定字符串的水平坐标上各点的权值:若当前点对应的上、下包络值均为字符串图像的高度,则设定为第一权值;若当前点对应的上、下包络值同时局部最大,则设定为第二权值,所述第二权值小于第一权值;若当前点对应的上包络值局部最大,则设定权值为第三权值,所述第三权值小于第二权值;若当前点对应的下包络值局部最大,则设定权值为第四权值,所述第四权值小于第三权值;否则设定当前点的权值小于所述第四权值;
提取权值局部最大所对应的点为初级分点;
步骤3:对所述初级分点进行滤波处理,得到二级分点,取各二级分点为初级切分点;
步骤4:对所述初级切分点进行校准,确定切分位置。
为了进一步简化本发明的实现复杂度,所述步骤3中,基于初级分点得到二级分点为:
若当前初级分点与近邻的局部区域密度小于预设阈值,则将所述局部区域汇聚为一点,作为二级分点;否则直接提取当前初级分点为二级分点。
为了进一步提升本发明的切分准确性,所述步骤3中,还包括,过滤二级分点中的干扰点,得到最终分点:
基于各二级分点的相邻间距,设定参考分点间距DS,并根据所述DS检测并过滤二级分点中的干扰点,所述干扰点的检测为:
步骤3-1:依序确定首个与其右邻居的间距小于或等于w*DS的二级分点X,由所述二级分点X的前一个分点作为当前起点S,其中所述w∈[0.5,0.8];
步骤3-2:由当前起点S构建A-B-C三段路径,且点A、S的距离小于或等于a*DS,点A、B的距离小于或等于b*DS,点B、C的距离小于或等于c*DS,其中a∈[1,1.5],b∈[1,2],c∈[1,2];
取各段距离与所述DS的绝对差的总和最小时,对应的点A、B、C为正常分点,则A-B-C三段路径包含的非正常分点为干扰点;
步骤3-3:将正常分点C作为当前起点,执行步骤3-2。
综上所述,由于采用了上述技术方案,本发明的有益效果是:实现了在复杂环境下,对紧连字串的切分,且适用于不同字体,其运算复杂度低,切分准确性高。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明具体实施方式的流程图;
图2是本发明具体实施方式中,局部后向优化流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
参见图1,本发明首先对采集的字符串条块图像进行预处理,以便于求取字符串的上下包络信息,预处理通常为二值化处理,对得到的二值化图像求取字符串的上包络值Tenv和下包络值Benv,上包络值Tenv为字符串中字符的上边缘距离字符串图像上边缘的距离,下包络值Benv为字符串中字符的上边缘距离字符串图像上边缘的距离,为了去除扰动的影响,可以对得到的上、下包络值进行如滤波处理的预处理。
基于上、下包络值提取初级分点,首先结合上、下包络值设定水平坐标上各点(各包络值对应像素点的水平投影)的权值:
若当前点对应的上、下包络值均为字符串图像的高度(即当前点位置为通缝),则设定为第一权值;
若当前点对应的上、下包络值同时局部最大(所谓上/下包络值局部最大,即将上/下包络值作为当前点的幅值,构成上/下包络波形图,若当前点对应于上/下包络波形图的波峰位置,则其上/下包络值局部最大),则设定为第二权值,所述第二权值小于第一权值;若当前点对应的上包络值局部最大,则设定权值为第三权值,所述第三权值小于第二权值;若当前点对应的下包络值局部最大,则设定权值为第四权值,所述第四权值小于第三权值;否则设定当前点的权值小于所述第四权值。
基于水平坐标上各点的权值,提取权值局部最大所对应的点为初级分点。可将各点的权值看作该点所对应的幅值,则可得到对应的波形图,波峰所位置所对应的点即为本发明的初级分点。
基于所述初级分点对应的权值,对初级分点进行低通滤波处理,生成二级分点。因为潜在的缝点通常呈分散形式,所以对于局部密集区域(即当前初级分点与近邻的局部区域密度小于预设阈值的局部区域,其中,近邻的选取可根据经验值设定,可以是直接预设所选取的近邻个数,也可以是可通过在基于当前初级分点所在的定长区域内的初级分点个数来自适应确定当前初级分点的近邻选取等任一可实现的方式),则将所述局部密集区域汇聚为一点,作为二级分点;否则直接提取当前初级分点为二级分点。在汇聚时,优选所述局部密集区域的中心位置所对应的初级分点为二级分点。
在本发明中,可以是由初级分点构成初级切分点,也可以是对二级分点进行干扰点剔除处理后,生成初级切分点。
为了进一步提高本发明的准确性,如对于采集的字符图像存在破损的情况,在提取初级分点时,可能会将破损误确定为通缝来来处理,会导致得到的二级分点中存在干扰点,为了消除对字符图像切割处理时的干扰成分,本发明采用“局部后向优化算法”确定并剔除二级分点中存在的干扰点,得到初级切分点,“局部后向优化算法”的原则是从多个相邻的距离中尝试各种合并组合,选出最佳的一种;
首先基于各二级分点的相邻间距DSs(i),设定参考分点间距DS,该DS可以是所有DSs(i)的均值,也可以是其中分布概率最大的DSs(j),其中i、j表示二级分点。为了简化运算过程,可以先去掉相邻间距小于预设值T1的左邻二级分点,接着去掉剩余二级分点的左端1/4的二级分点,再对剩下的点二级分点通过直方图获取DS;
根据得到的DS检测并过滤二级分点中的干扰点,干扰点的检测为:
步骤(1):依序确定首个与其右邻居的间距小于或等于w*DS的二级分点X,由二级分点X的前一个分点作为当前起点S,其中w∈[0.5,0.8];
步骤(2):由当前起点S构建A-B-C三段路径,且点A、S的距离|SA|≤a*DS,点A、B的距离|AB|≤b*DS,点B、C的距离|BC|≤c*DS,其中a∈[1,1.5],b∈[1,2],c∈[1,2];
取各段距离与所述DS的绝对差的总和最小时,即(||SA|-DS|+||AB|-DS|+||BC|-DS|)最小时,所对应的点A、B、C为正常分点,则A-B-C三段路径包含的非正常分点为干扰点;
步骤(3):将正常分点C作为当前起点,重复执行步骤(2)-(3),直到当前起点后面的二级分点个数低于4。
参见图2,在步骤(2)中,优先确定点A的位置,首先计算点A、S的距离distA,然后判断是否0<distA≤a*DS,若是,则计算A点的代价costA=|distA-DS|;若否,则继续选确定点A的位置;
接着确定点B的位置,首先计算点A、B的距离distB,然后判断是否0<distB≤b*DS,若是,则计算B点的代价costB=|distB-DS|+costA;若否,则继续选确定点B的位置;
然后确定点C的位置,首先计算点B、C的距离distC,然后判断是否0<distB≤b*DS,若是,则计算C点的代价costC=|distC-DS|+costB;若否,则继续选确定点C的位置;
重复上述关于点A、B、C的确定过程,记录costC取得最小值时所对应的点A、B、C的位置。
对所述初级切分点进行校准,确定切分位置,完成对字符串图像的字符切割。本发明中,即可以基于任一通用的校准方式进行校准,也可以是采用本发明的弹性调整校准方案,其具体实现过程为:
对初级切分点、及其左右三个邻近像素点,分别计算字符高度TBEnv_dist,TBEnv_dist=H-TEnv-Benv,其中H表示字符串图像的高度,Tenv、Benv分别为当前切分点的上、下包络值,由最小的TBEnv_dist所对应的像素点作为当前初级切分点的切分位置,且优先选择靠近初级切分点的位置。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
Claims (8)
1.复杂环境中紧连字符串的字符分离方法,其特征在于,包括下列步骤:
步骤1:对采集的字符串图像进行预处理,求取字符串的上包络值、下包络值,所述上包络值为字符串中字符的上边缘距离字符串图像上边缘的距离;所述下包络值为字符串中字符下边缘距离字符串图像下边缘的距离;
步骤2:基于所述上下包络值提取初级分点:
设定字符串的水平坐标上各点的权值:
若当前点对应的上、下包络值均为字符串图像的高度,则设定为第一权值;
若当前点对应的上、下包络值同时局部最大,则设定为第二权值,所述第二权值小于第一权值;
若当前点对应的上包络值局部最大,则设定权值为第三权值,所述第三权值小于第二权值;
若当前点对应的下包络值局部最大,则设定权值为第四权值,所述第四权值小于第三权值;
否则设定当前点的权值小于所述第四权值;
提取权值局部最大所对应的点为初级分点;
步骤3:基于所述初级分点对应的权值,对初级分点进行低通滤波处理,得到二级分点,取各二级分点为初级切分点;其中基于初级分点得到二级分点为:若当前初级分点与其近邻的局部区域的密度小于预设阈值,则将所述局部区域汇聚为一点,作为二级分点;否则直接提取当前初级分点为二级分点;
步骤4:对所述初级切分点进行校准,确定切分位置。
2.如权利要求1所述的方法,其特征在于,对密度小于预设阈值的局部区域进行汇聚时,提取所述局部区域的中心位置所对应的初级分点为二级分点。
3.如权利要求1所述的方法,其特征在于,所述步骤3中,还包括,过滤二级分点中的干扰点,得到最终分点:
基于各二级分点的相邻间距,设定参考分点间距DS,并根据所述DS检测并过滤二级分点中的干扰点,所述干扰点的检测为:
步骤3-1:依序确定首个与其右邻居的间距小于或等于w*DS的二级分点X,由所述二级分点X的前一个分点作为当前起点S,其中所述w∈[0.5,0.8];
步骤3-2:由当前起点S构建A-B-C三段路径,且点A、S的距离小于或等于a*DS,点A、B的距离小于或等于b*DS,点B、C的距离小于或等于c*DS,其中a∈[1,1.5],b∈[1,2],c∈[1,2];
取各段距离与所述DS的绝对差的总和最小时,对应的点A、B、C为正常分点,则A-B-C三段路径包含的非正常分点为干扰点;
步骤3-3:将正常分点C作为当前起点,执行步骤3-2。
4.如权利要求3所述的方法,其特征在于,所述步骤3-2中,从A点开始确定A-B-C三段路径。
5.如权利要求3或4所述的方法,其特征在于,设定参考分点间距DS为:取分布概率最大的相邻间距为参考分点间距DS。
6.如权利要求3所述的方法,其特征在于,设定参考分点间距DS为:去掉相邻间距小于预设值T1的左邻二级分点,然后去掉剩余二级分点的左端1/4的二级分点,再对剩下的点二级分点通过直方图获取DS。
7.如权利要求1所述的方法,其特征在于,所述步骤4中,对初级切分点进行校准为:对初级切分点、及其左右三个邻近像素点,分别计算字符高度,由最小字符高度所对应的像素点作为当前初级切分点的切分位置,且优先选择靠近初级切分点的位置。
8.如权利要求2所述的方法,其特征在于,所述步骤4中,对初级切分点进行校准为:对初级切分点、及其左右三个邻近像素点,分别计算字符高度,由最小字符高度所对应的像素点作为当前初级切分点的切分位置,且优先选择靠近初级切分点的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310209927.1A CN103258196B (zh) | 2013-05-30 | 2013-05-30 | 复杂环境中紧连字符串的字符分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310209927.1A CN103258196B (zh) | 2013-05-30 | 2013-05-30 | 复杂环境中紧连字符串的字符分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103258196A CN103258196A (zh) | 2013-08-21 |
CN103258196B true CN103258196B (zh) | 2016-05-18 |
Family
ID=48962100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310209927.1A Expired - Fee Related CN103258196B (zh) | 2013-05-30 | 2013-05-30 | 复杂环境中紧连字符串的字符分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103258196B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156718B (zh) * | 2014-08-20 | 2017-10-17 | 电子科技大学 | 一种车牌图像垂直倾斜校正方法 |
CN106611174A (zh) * | 2016-12-29 | 2017-05-03 | 成都数联铭品科技有限公司 | 一种非常见字体的ocr识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4605260B2 (ja) * | 2008-06-18 | 2011-01-05 | コニカミノルタビジネステクノロジーズ株式会社 | ベクタ画像生成方法、画像処理装置、およびコンピュータプログラム |
CN102169542B (zh) * | 2010-02-25 | 2012-11-28 | 汉王科技股份有限公司 | 文字识别中粘连字符的切分方法和装置 |
-
2013
- 2013-05-30 CN CN201310209927.1A patent/CN103258196B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN103258196A (zh) | 2013-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446632B (zh) | 一种局部放电脉冲边沿寻找与局部放电确认方法 | |
CN104063723B (zh) | 脱机手写汉字的笔画还原方法及装置 | |
CN102982534B (zh) | 基于弦线切线法的Canny边缘检测双阈值获取方法 | |
CN106228138A (zh) | 一种融合区域和边缘信息的道路检测算法 | |
CN104867137A (zh) | 一种基于改进ransac算法的图像配准方法 | |
CN104991687A (zh) | 一种获取触屏设备曲线操作轨迹的方法及系统 | |
CN105809149A (zh) | 基于最大长度直线的车道线检测方法 | |
CN107678551B (zh) | 手势识别方法和装置、电子设备 | |
CN105912977B (zh) | 基于点聚类的车道线检测方法 | |
CN112085675B (zh) | 深度图像去噪方法、前景分割方法及人体运动监测方法 | |
CN112819958B (zh) | 一种基于三维激光扫描的工程地质测绘方法与系统 | |
CN104077775A (zh) | 一种结合骨架特征点和形状上下文的形状匹配方法及装置 | |
CN104809433A (zh) | 一种基于最大稳定区域和随机采样的斑马线检测方法 | |
CN101916373A (zh) | 基于小波检测和脊线跟踪的道路半自动提取方法 | |
CN106683105B (zh) | 图像分割方法及图像分割装置 | |
CN103942809A (zh) | 检测岩石图像中节理裂隙的方法 | |
CN103258196B (zh) | 复杂环境中紧连字符串的字符分离方法 | |
CN105389793A (zh) | 一种自动识别物体表面裂缝走向及宽度的方法 | |
CN104463057B (zh) | 一种磁卡解码方法及装置 | |
CN111027474B (zh) | 人脸区域获取方法、装置、终端设备和存储介质 | |
CN106815851B (zh) | 一种基于视觉测量的栅格圆形油位计自动读数方法 | |
CN103647610B (zh) | 一种基于幅值与宽度的低压电力线通信信道脉冲噪声检测方法 | |
CN110335282B (zh) | 一种基于栅格的轮廓线段特征提取方法 | |
CN106772572A (zh) | 一种微地震监测初至的拾取方法 | |
US20200379016A1 (en) | Waveform segmentation device and waveform segmentation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160518 Termination date: 20200530 |
|
CF01 | Termination of patent right due to non-payment of annual fee |