CN110033004A

CN110033004A - 一种粘连字符的识别方法

Info

Publication number: CN110033004A
Application number: CN201910226647.9A
Authority: CN
Inventors: 朱杰英; 卢盛林
Original assignee: Guangdong OPT Machine Vision Co Ltd
Current assignee: Guangdong OPT Machine Vision Co Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-07-19
Anticipated expiration: 2039-03-25
Also published as: CN110033004B

Abstract

本发明属于机器视觉技术领域，具体涉及一种粘连字符的识别方法。该方法先确定出待识别字符的各个块，然后根据训练样本的宽高比以及待识别块的高度来确定搜索当前块的每个字时的前进步长、回退步长和最大前进步数，以保证首先测试最可能的切分位置，并且不会漏掉该有的切分位置。对识别结果设置两级阈值，高可信阈值和基本可信阈值，若识别结果满足高可信或者基本可信且为块尾的情况下，则认为是当前字的正确分割位置，停止继续查找。对候选分割位置的分类结果的度量值，会加一个补偿值，以使切分位置在段尾比段内优先，达到或超过一定宽高比的优先。本方法的主要优势在于粘连处的形态不限、字符宽度差异不受限制，同时容许字符伸缩形变。

Description

一种粘连字符的识别方法

技术领域

本发明属于机器视觉技术领域，具体涉及一种粘连字符的识别方法。

背景技术

字符识别在机器视觉领域和生活领域有着广泛的应用，比如车牌识别，手写字识别、商品批号和日期识别、银行卡号识别、IC板路印刷字识别、晶圆刻字识别和铸件标号识别等等。在这些领域，字符有粘连的现象比较常见。目前，针对粘连的处理通常是先拍摄或扫描出含有字符的图片，然后进行一些预处理，确定字符区域；然后采用以下两种做法，一种是匹配出一个个字符，另一种是分割并识别出每个单字。匹配的优点是背景不用完全移除，但缺点是容忍字符变形和尺寸变化的能力差，一般还要预先知道目标的字符个数(文献5)；相对来说，分离字符区并分割和识别出单字的方式更常用。分离单字这一步，通常是先找候选切分点，常见的方式是沿字符串的垂直方向投影(对字符的像素沿该方向进行统计)，选择投影值为极小值或小于给定阈值的地方作为分割点(文献1，3)，同时要满足其它条件，比如位于距离约为一个平均字长的位置；其它还有通过先验知识(文献2)或字符像素点密集区的骨架特征点(文献4)来找分割点等。这些都是假设了粘连处满足一些的特征，比如大多数都假设字符宽度基本一致(文献1，3，4)；如果不满足预先的假设，就可能得不到正确的分割位置。综上可知，以上的方法对字符预先要求的先验知识较多，才能识别粘连字符，操作复杂。

发明内容

本发明的目的在于：给出一种识别粘连字符的方法，能适应字符粘连的形态各异、字符宽度差异大、同时允许字符的伸缩、尺寸的变化以及一定程度的形变。

为实现上述目的，本发明采用如下技术方案：

识别用的分类器要求除了能归类之外，还能度量到一个类的偏离度(或距离)，用dev^*标记；实际用的偏离度dev是原始偏离度dev^*加了补偿值，也即dev＝dev^*+offset,补偿值是对于右侧当前预分割位置right_cur所处状态的一种惩阀因子。对dev设置两个可信阈值，一个是高可信阈值T1，一个是基本可信阈值T2，两者满足T2>T1；如果dev<T1,那么这个分类结果是按完全可信的，不用再查找其它可能的分割位置了，如果dev<T2,那么这个结果作为一个候选的分割和识别结果，如果没有找到dev值更小的分割位置，这个就作为正式分割位置对待。

假设需要分割的字符以块为单位，每个块包含若干段，这里的段是指沿垂直字符排列方向投影字符区，投影值连续大于零的一个区间为一段；对每个块先计算三个参数值：(1)前进步长step_pre＝Hb×WH_ave×(1+Δ)×P，其中Δ为一小值，满足0≤Δ≤0.2，Hb为本块块高，WH_ave为训练样本的字平均宽高比，P约为识别目标和训练样本的平均宽高比之比，一般情况下值为1；(2)回退步长step_back＝Hb/K，其中K≥6；(3)最大前进步数max_preTimes＝WH_max/(WH_ave×(1+Δ))+1，其中WH_max为训练样本集中的字宽高比的最大值。然后对字符块采用边识别边分割字的方式，共分为五个步骤：

S1、初步预估：令初始的切割位置设在离左端为step_pre的位置处，如果切割的位置刚好位于空白处，则更改切割位置为相邻左段的右边界，如果右侧剩余的部分的宽度<0.5×step_pre，则很可能是本字的小部分，就更改切割位置为本块右端；然后对截取区间内的目标计算特征并输入到分类器进行识别，如果最小偏离度dev_min<T1，或者已经到达块的右边界并且dev_min<T2,就按已经找到分割的位置，可以跳过步骤S2；否则如果只是dev_min<T2,那么当前的作为候选分割位置；

S2、回退查找：从当前切割位置开始按步长step_back逐步回退，如果回退后的位置位于段之间的空白处，则更改当前位置为相邻左段的右边界；对截取区间内的目标计算特征并输入到分类器进行识别，如果还没有候选分割位置并且dev_min<T2,则记录候选分割位置；如果有候选分割位置并且最小偏离度比候选位置的要小，则更新候选分割位置；如果当前dev_min<T1,则停止回退，作为正式分割位置；

S3、增加字长：如果经过前面两步还没有找到候选分割位置，则向右增加一个长度为step_pre的段，重复执行步骤S1和步骤S2，只是截取的起始位置不变，但是回退查找的范围只为新增的这一段；重复增加字长，直到找到或者前进步数≥最大前进步数max_preTimes为止，如果是后一种，则按本块识别失败处理；

S4、位置细化：如果已经找到分割或候选分割位置pos_seg，且此位置是位于一个段的内部，则可以细化处理，按左右两处位置pos_seg-step_refine、pos_seg+step_refine测试是否有dev值更小，更小则更新位置，其中step_refine的初值为step_back/2，每次减半直到为1或满足所需为止；

S5、记录当前字的最终的分割位置和识别结果；然后计算下一个字的起始位置，也即去掉当前切割位置左侧的部分后，本块剩余部分投影像素值不为0的最左位置，重复上述步骤直到本块识别完毕。

优选地，关于补偿值offset＝det1+det2，有两部分组成，具体关系如下:如果right_cur刚好位于段的边界，则det1＝0，否则det1>0；如果切割范围内的宽度W_cut≥b×Hb×WH_ave，则det2＝0,否则，det2>0且随宽度增加而减小，其中0.3<b<1。

进一步，如果分类器直接导出的度量是按相似度sim或得分score的，可以按单调降函数转换为dev^*，例如dev^*＝-log(sim)，或dev^*＝-log(score/100)。

进一步，如果粘连的程度不是很大，且粘连的位置基本位于垂直投影极小值处或其附近，则可以对步骤S1和S2中的候选切割位置进行预判断，不在极小值或其附近处就跳过该位置。

优选地，字符区的各个块按以下方式得到：用预处理的方式得到图片字符区的二值图，计算字符区各个连通域的游程表达；按块内相邻连通域之间的间隙在水平方向不大于Ex或在垂直方向不大于Ey，而块之间的间隙必须大于Ex和Ey，确定出各个块；这里参数Ex和Ey的设置要求满足一个块含有一个或多个字符，但一个字符只能被分到一个块里。

优选地，类似于生成块的方式，还可以设置Bx和By来生成行，行内相邻块之间的间隙在水平方向不大于Bx或在垂直方向不大于By，而行之间的水平和垂直间隙要分别大于Bx和By；并且要求Bx≥Ex，By≥Ey；调节Ex、Ey、Bx和By的值，且对行和块的按中心位置进行排序，可以达到按一定的顺序输出识别字符的目的，比如从上到下，从左到右。

本发明的有益效果在于：字符大小和宽度差异不受限制，同时容许字符伸缩和一定的形变；粘连处的形态不限，不需要满足共同的特征。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1a为一个保健品说明书上的字符截图；

图1b为一零件上的标号截图；

图2a为图1a的二值化图及其投影直方图；

图2b为图1b下面一行字的二值化图及其投影直方图；

图2c为图1b上面面一行字的二值化图及其投影直方图；

图2d为图1b旋转2度后上面一行字的二值化图及其投影直方图；

图3为一个块的识别和分割的详细流程图；

图4a为块“A”的第一个字符初步预估分割位置，也是最终分割位置；

图4b为块的“01”第一个字符初步预估分割位置；

图4c为块“01”的第一个字符的回退查找后的和细化后的分割位置；

图4d为块“01”的第二个字符的初步预估分割位置，也是最终分割位置；

图5a为图1b的最终分割图；

图5b为图1b旋转2度后的最终分割图。

具体实施方式

图1a和图1b给出了项目中的一些粘连字符图片。图1a中的字是打印的标准字体，所以字的宽度基本一致，但冒号就很窄，比其它的窄好几倍；图1b中的字的宽度就差别大些，可以相差2到3倍。图1a的粘连处标号1的位置，粘连的地方很像字内的一个笔画，并不处于文献[4]所说的像素密集区或骨架特征点处。

图2a-图2c给出图1中的二值化后并去掉小面积连通域后的图及其沿垂直方向的字符像素投影的直方图，可以看出一些粘连部位的投影值并不小，很明显的是图2c中标号2的位置；图2d是图1b倾斜2度时的二值图及其投影图，多数粘连的位置(见灰白竖线处)偏离了极小值的位置；实际中还有其它情况导致粘连的位置并不在极小值处，所以按投影极小值来找分割位置不完全可靠。

本发明不需要字符粘连处必须满足特定的条件，具体实施方式如下：

用预处理的方式得到图片字符区的二值图，训练过程用单字的二值图作为样本，计算特征后输入到分类器训练。识别过程是根据二值图和参数Ex、Ey、Bx和By得到块和行后，扫描的顺序是按行中心的垂直位置从上到下的顺序进行，如果垂直位置相同的，按行中心的水平位置从左到右进行，同一行内按块中心的水平位置从左到右扫描各个块。对每个块先计算出搜索候选分割位置的前进步长step_pre、回退步长step_back以及最大前进步数max_preTimes三个参数的值，然后采用边识别边分割单字的方式，这里按从左到右的顺序(其它方向或顺序可以类推)，具体的流程图如图3所示，步骤如下：

Z1、对每个块，设置字的起始位置left_char的初值为本块左边界,并令前进一步的起始位置start_pre＝left_char,以及前进步数preTimes＝0；设置候选分割位置pos_seg＝-1，表示还没有候选分割位置；

Z2、计算前进一步的终止位置end_pre＝start_pre+step_pre，如果end_pre到本块最右边的距离小于step_pre×0.5,则将end_pre值置为本块最右端；如果end_pre位于两段之间空白区，则令end_pre位于左段的右边界；设置当前位置right_cur初值为end_pre；并对前进步数preTimes增加1；

Z3、计算本块位于[left_char,right_cur]之间的区域到各个字符的偏离度dev；如果还没有候选分割位置并且最小偏离度dev_min<T2，则候选分割位置pos_seg为当前的位置right_cur、并记录最小偏离度dev_min和识别结果；如果已有候选分割位置，并且dev_min比候选分割位置的小，则更新对应的值；如果当前的dev_min<T1或者dev_min<T2且已达本块的右边界,则转步骤Z6，不再回退比较；

Z4、right_cur左移step_back步长，也即right_cur＝right_cur-step_back；如果right_cur位于两段之间空白区，则令right_cur位于左段的右边界；然后如果right_cur>start_pre，则转步骤Z3，否则退出循环进入步骤Z5；

Z5、如果已找到候选分割位置，则转步骤Z6；否则,如果end_pre已达本块最右边,或者前进步数preTimes>max_preTimes,则本块的字符识别失败，本块识别结束；否则令start_pre＝end_pre+1并转步骤Z2；

Z6、如果候选分割位置pos_seg刚好在一段的边界上，则候选分割位置就是最终的分割位置；如果在段的内部，则在范围内[pos_seg-step_back,pos_seg+step_back]按细化步长step_back/2逐步减半，检测是否有距离更小的段内候选分割位置，有就更新；记录最终的候选分割位置和识别结果；如果pos_seg已达到本块的右边界，则本块的识别结束，否则令start_pre left_char＝pos_seg+1,如left_char位于两段之间的空白处，则令left_char为右段的左边界，然后令start_pre＝left_char,preTimes＝0、pos_seg＝-1,并转步骤Z2，开始本块下一个字的识别和分割。

下面举一个图1b中粘连字符识别的实例:

首先选取该项目拍的图片中的一些不同样本，加上对其旋转1度和-1度后的扩展样本，作为训练用的样本并对其训练；这里采用的是参考文档[6]中的分类器算法，该算法中的偏离度对可以用来度量目标和一个类的样本的相近程度的；字符特征是将包围字符最小外接正矩形，分成10×10的小块，分别计算每一小块(共100个)、行块(共10个)和列块(共10个)的相对前景比例作为一个特征，加上宽高比共100+10+10+1＝121个特征；训练用的特征尺度下界是按公式L_f＝0.02Rf计算的，变量符号具体含义参看文献[6]。

本例中设置高可信阈值T1＝2，基本可信阈值T2＝5，这两个阈值跟具体的分类器相关，本分类器的T1的范围一般为[1,2],T2的范围一般为[3,5]。偏离度的补偿值offset＝det1+det2的两个分量设置如下：如果当前右端剪切的位置right_cur位于段尾则det1＝0,位于段内则det1＝1；记截取的字宽为W_cut,令WR＝W_cut/(0.8×Hb×WH_ave),如果WR≥1，则det2＝0，否则det2＝1-WR。det1为位置的惩罚因子，位于段尾比段内具有优先权，段尾为一个字的边界的概率远比段内高。det2是为整字优先，预防字的局部被作为识别的结果，比如“加”，以免被识别为了“力”和“口”，但如果两个分开的字组合起来也是一个字，如“日”和“月”组合起来是“明”，但由于“日”和“月”两者的相对位置关系恰好跟“明”一样则比较难，所以组合起来的特征会和“明”的特征差异大些，到“明”字的原始偏离度dev^*自然也不会低，所以不用担心相邻的“日”和“月”会被识别为“明”字。

识别时先对字符目标区二值化，计算各个区域的水平和垂直游程表达和面积，去掉小面积的噪声点，得到区域筛选后的如图2b和图2c中的二值图；设置块内元素的最大间隙分别为：Ex＝1,Ey＝6，行内块的最大间隙为Bx＝20，By＝10；则共分了2行4块：“HAS2010”为一行，其中“HAS201”为1块，“0”为一块；“A01”为1行，其中“A”为1块，“01”为1块；注意这里实际的字符内元素的最大水平间隙是大于1，但由于Ey的限制，同一个字的不同部分并没有被分到2个块里；所以Ex和Ey在保证同一个字不被分到两个块的前提下尽量设小些；而Bx要设大些，保证同一行内的不同块能够被分在一行，By尽量设小些，以免实际中不同行的块被作为一行。一个块包含若干个段，段虽然可以按目标区的投影直方图来确定，但效率不高，由于已经得到连通域的游程表达，所以很容易得到每个连通域的外接最小正矩形，按连通域的最小外接正矩形沿垂直方向投影，即可得到各个段。

参考图4a-图4d，这里给出行“A01”的具体识别和分割过程。包含两块，一块“A”，一块“01”，从图2b的直方图可以看出，共有两段，一个块含有一段。由于训练样本平均的宽高比WH_ave＝0.67，最大宽高比WH_max＝0.90,设置小增量Δ＝0.1，所以搜索一个字的最大前进步数max_preTimes＝WH_max/(WH_ave×(1+Δ))+1＝2次(取整)；两个块的块高Hb均为53，训练样本和识别目标的平均字符宽高比差别不大，所以P＝1，得到前进步长step_pre＝Hb×WH_ave×(1+Δ)×P＝53×0.67×(1+0.1)×1＝38；回退步长step_back＝Hb/K＝53/7＝7(取整),参数K这里设为7，一般来说，K值越大越好，但K越大，切分的位置就越多，一般来说，常用的范围为[6,16]；字符越复杂，不同字越相似，K值就设大一点，反之可以设小一点。

块“A”的起始位置left_char＝82(标号3的位置)，前进一步后的位置为end_pre＝left_char+step_pre＝82+38＝120(标号4的位置),已超出了本块右边界，所以更改为本块的右边界end_pre＝117(标号5的位置)；然后令当前右侧位置为right_cur＝end_pre,截取[left_char,right_cur]之间的区域，计算特征并识别，得到最小偏离度dev_min＝dev_min^*+dev1+dev2＝1.71+0+0＝1.71<高可信的偏离度阈值T1，所以当前的分割作为最终的分割位置pos_seg＝right_cur，最终的识别结果为“A”，其中det1和det2均为0是由于位于段边界且宽度W_cut>0.8×Hb×WH_ave；且已经达到本块右边界，本块识别结束。

块“01”的起始位置为left_char＝128(标号6的位置),前进一步后的位置为end_pre＝128+38＝166(标号7的位置),离本块右端(标号8)的距离为178-166＝12<step_pre/2＝38/2＝19,所以更改end_pre＝178，然后令right_cur＝end_pre＝178，在这个位置剪切得到的最小偏离度dev_min＝5.56>T2，不是可分割的位置，然后right_cur每次按回退步长step_back＝7向左移，对[left_char,right_cur]之间的区域计算特征并识别，在位置157(标号9)的dev_min＝2.64<T2，是所有剪切位置中最小的，为找到的切分位置；由于位置157处于段内的位置，对该位置进行细化，细化步长step_refine初值为step_back/2＝7/2＝3(取整),计算157+3＝160，和157-3＝154两个位置处的dev_min，发现160处切割的dev_min＝2.17更小，所以切割位置更新为160(标号10)，然后细化步长减半为3/2＝1,计算160-1和160+1两处的dev_min,发现均比160处的dev_min大，由于细化步长已经为1，所以细化切分位置结束，最终位置为160，识别结果为字符“0”。下一个字的起始位置为left_char＝160+1＝161(标号11)，前进一步后位置为end_pre＝left_char+step_pre＝161+38＝199(标号12)，但块的最右端为178，所以end_pre更改为178(位置13)，计算位于标号11和13之间的块的最小偏离度为1.37<T1,所以作为最终的切分位置，识别结果为“1”，且已达行尾，这样整个行的结果识别和分割完毕，识别结果为“A01”。

图5a给出了图1b按前面设置的参数最后的切分结果图，相邻的字用不同灰度显示，图5b为对图1b倾斜2度后的分割结果图，使用同一个训练模型和相同的参数设置；识别结果都是“HAS2010A01”。可以看出所述方法对连续多个字符粘连能够正确识别和分割。

上述说明示出并描述了本发明的若干实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

引用文件：

[1]CN 101650779 B,2013.01.23.

[2]CN 104636747 A,2015.05.20.

[3]CN 104252620 A,2014.12.31.

[4]CN 104408455 B,2017.09.12.

[5]CN 107506767 A,2017.12.22.

[6]朱杰英、卢盛林，一种基于特征尺度和子类分裂的分类器，已提交的专利申请文档。

Claims

1.一种用于粘连字符的识别方法，其特征在于：

识别用的分类器要求除了能归类之外，还能度量到一个类的偏离度(或距离)，用dev^*标记；实际用的偏离度dev是原始偏离度dev^*加了补偿值，也即dev＝dev^*+offset,补偿值是对于右侧当前预分割位置right_cur所处状态的一种惩阀因子；对dev设置两个可信阈值，一个是高可信阈值T1，一个是基本可信阈值T2，两者满足T2>T1；

假设需要分割的字符以块为单位，每个块包含若干段，这里的段是指沿垂直字符排列方向投影字符区，投影值连续大于零的一个区间为一段；对每个块先计算三个参数值：前进步长step_pre、回退步长step_back和最大前进步数max_preTimes；然后对字符块采用边识别边分割字的方式，共分为五个步骤：

2.如权利要求1所述的粘连字符的识别方法，其特征在于：

前进步长为step_pre＝Hb×WH_ave×(1+Δ)×P，其中Δ为一小值，满足0≤Δ≤0.2，Hb为本块块高，WH_ave为训练样本的字平均宽高比，P约为识别目标和训练样本的平均宽高比之比，一般情况下值为1。

3.如权利要求1所述的粘连字符的识别方法，其特征在于：

回退步长为step_back＝Hb/K，其中K≥6。

4.如权利要求1所述的粘连字符的识别方法，其特征在于：

最大前进步数为max_preTimes＝WH_max/(WH_ave×(1+Δ))+1，其中WH_max为训练样本集中的字宽高比的最大值。

5.如权利要求1所述的粘连字符的识别方法，其特征在于：

补偿值为offset＝det1+det2，有两部分组成，具体关系如下:如果right_cur刚好位于段的边界，则det1＝0，否则det1>0；如果切割范围内的宽度≥b×Hb×WH_ave，则det2＝0,否则，det2>0且随宽度增加而减小，其中0.3<b<1。

6.如权利要求1所述的粘连字符的识别方法，其特征在于：

如果分类器直接导出的度量是按相似度sim或得分score的，可以按单调降函数转换为dev^*，例如dev^*＝-log(sim)，或dev^*＝-log(score/100)。

7.如权利要求1所述的粘连字符的识别方法，其特征在于：

如果粘连的程度不是很大，且粘连的位置基本位于垂直投影极小值处或其附近，则可以对步骤S1和S2中的候选切割位置进行预判断，不在极小值处或其附近就跳过该位置。

8.如权利要求1所述的粘连字符的识别方法，其特征在于：

字符区的各个块按以下方式得到：用预处理的方式得到图片字符区的二值图，计算字符区各个连通域的游程表达；按块内相邻连通域之间的间隙在水平方向不大于Ex或在垂直方向不大于Ey，而块之间的间隙必须大于Ex和Ey，确定出各个块；这里参数Ex和Ey的设置要求满足一个块含有一个或多个字符，但一个字符只能被分到一个块里。

9.如权利要求3所述的块生成方式，其特征在于：

类似于生成块的方式，还可以设置Bx和By来生成行，行内相邻块之间的间隙在水平方向不大于Bx或在垂直方向不大于By，而行之间的水平和垂直间隙要分别大于Bx和By；并且要求Bx≥Ex，By≥Ey；调节Ex、Ey、Bx和By的值，且对行和块的按中心位置进行排序，可以达到按一定的顺序输出识别字符的目的，比如从上到下，从左到右。