CN102930262A - 一种从图像中提取文字行的方法及装置 - Google Patents

一种从图像中提取文字行的方法及装置 Download PDF

Info

Publication number
CN102930262A
CN102930262A CN2012103505507A CN201210350550A CN102930262A CN 102930262 A CN102930262 A CN 102930262A CN 2012103505507 A CN2012103505507 A CN 2012103505507A CN 201210350550 A CN201210350550 A CN 201210350550A CN 102930262 A CN102930262 A CN 102930262A
Authority
CN
China
Prior art keywords
connected domain
literal line
image
input characters
statistical nature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103505507A
Other languages
English (en)
Other versions
CN102930262B (zh
Inventor
韩钧宇
刘经拓
丁二锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210350550.7A priority Critical patent/CN102930262B/zh
Publication of CN102930262A publication Critical patent/CN102930262A/zh
Application granted granted Critical
Publication of CN102930262B publication Critical patent/CN102930262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种从图像中提取文字行的方法及装置,其中从图像中提取文字行的方法包括:A.对图像进行二值化处理,以得到所述图像的各个连通域;B.对不满足第一统计特征的连通域进行过滤,其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征;C.从过滤后的各个连通域中提取所述图像中的文字行。通过上述方式,本发明可以大大提高从图像中提取的文字行的准确性。

Description

一种从图像中提取文字行的方法及装置
【技术领域】
本发明涉及图像处理技术,特别涉及一种从图像中提取文字行的方法及装置。
【背景技术】
从图像中提取文字行,除了可应用于扫描文件的文字识别当中,也可以应用在自然场景图像的文字识别当中。文字行提取的准确与否,直接决定了文字识别的效果好坏。
作为现有技术,中国发明专利申请号为201010568411.2的专利文件公开了一种从图像中提取文字行的方法。从该专利文件中可以看出,现有技术是通过将图像二值化,然后直接在二值化图像的连通域中提取文字行来实现文字行提取的目的的。
现有技术的文字行提取方法,由于没有考虑自然场景图像中存在的大量非文字区域的噪声影响,因此,在很多自然场景图像的文字行提取中,准确性较差,从而严重影响了在这些图像中进行文字识别的效果。
【发明内容】
本发明所要解决的技术问题是提供一种从图像中提取文字行的方法及装置,以解决现有技术在从图像中提取文字行时存在的准确性差的技术问题。
本发明为解决技术问题而采用的技术方案是提供一种从图像中提取文字行的方法,包括:A.对图像进行二值化处理,以得到所述图像的各个连通域;B.对不满足第一统计特征的连通域进行过滤,其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征;C.从过滤后的各个连通域中提取所述图像中的文字行。
根据本发明之一优选实施例,所述方法所述步骤B前进一步包括:D.对不满足预设的噪声过滤规则的连通域进行过滤。
根据本发明之一优选实施例,所述噪声过滤规则包括:连通域的大小在预设区间,且该连通域在水平或垂直方向存在另外的至少一个满足预设大小和预设相邻距离的邻近连通域。
根据本发明之一优选实施例,从过滤后的各个连通域中提取所述图像中的文字行的步骤包括:从过滤后的各个连通域中提取初始文字行;将所述初始文字行作为输入文字行,并利用所述输入文字行在执行所述步骤B前的连通域中扩展召回,得到扩展文字行;对不满足第二统计特征的扩展文字行进行过滤,得到最终的文字行,其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征。
根据本发明之一优选实施例,从过滤后的各个连通域中提取所述图像中的文字行的步骤包括:从过滤后的各个连通域中提取初始文字行;对不满足第二统计特征的初始文字行进行过滤,得到滤后文字行,其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征;将滤后文字行作为输入文字行,并利用所述输入文字行在执行所述步骤B前的连通域中扩展召回,得到最终的文字行。
根据本发明之一优选实施例,从过滤后的各个连通域中提取初始文字行的步骤包括:将水平方向上连续的连通域提取出来形成横向的连通域集合,并基于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重;将垂直方向上连续的连通域提取出来形成竖向的连通域集合,并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重;利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理,并将归并处理后的各个连通域集合提取出来作为图像中的初始文字行。
根据本发明之一优选实施例,利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理的步骤包括:将交集中的连通域保留在权重较高的连通域集合中,并将交集中的连通域从权重较低的连通域集合中删除;对被删除连通域的连通域集合进行后处理,所述后处理至少包括以下一种:将空的连通域集合删除,或将由不连续的连通域构成的连通域集合拆分为至少两个由连续的连通域构成的连通域集合。
根据本发明之一优选实施例,利用所述输入文字行在执行所述步骤B前的连通域中扩展召回的步骤包括:从执行所述步骤B前的连通域中提取大小满足要求、与横向的输入文字行中的任意连通域在同一水平方向且相邻距离满足要求的连通域加入到横向的输入文字行;以及,从执行所述步骤B前的连通域中提取大小满足要求、与竖向的输入文字行中的任意连通域在同一垂直方向且相邻距离满足要求的连通域加入到竖向的输入文字行。
本发明还提供了一种从图像中提取文字行的装置,包括:二值化单元,用于对图像进行二值化处理,以得到所述图像的各个连通域;第一过滤单元,用于对不满足第一统计特征的连通域进行过滤,其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征;提取单元,用于从过滤后的各个连通域中提取所述图像中的文字行。
根据本发明之一优选实施例,所述装置进一步包括:第二过滤单元,用于在所述第一过滤单元进行过滤前,对不满足预设的噪声过滤规则的连通域进行过滤。
根据本发明之一优选实施例,所述噪声过滤规则包括:连通域的大小在预设区间,且该连通域在水平或垂直方向存在另外的至少一个满足预设大小和预设相邻距离的邻近连通域。
根据本发明之一优选实施例,所述提取单元包括:初始生成单元,用于从过滤后的各个连通域中提取初始文字行;召回单元,用于将所述初始文字行作为输入文字行,并利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回,得到扩展文字行;第三过滤单元,用于对不满足第二统计特征的扩展文字行进行过滤,得到最终的文字行,其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征。
根据本发明之一优选实施例,所述提取单元包括:初始生成单元,用于从过滤后的各个连通域中提取初始文字行;第三过滤单元,用于对不满足第二统计特征的初始文字行进行过滤,得到滤后文字行,其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征;召回单元,用于将滤后文字行作为输入文字行,并利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回,得到最终的文字行。
根据本发明之一优选实施例,所述初始生成单元包括:水平提取单元,用于将水平方向上连续的连通域提取出来形成横向的连通域集合,并基于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重;垂直提取单元,用于将垂直方向上连续的连通域提取出来形成竖向的连通域集合,并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重;归并单元,用于利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理;输出单元,用于将归并处理后的各个连通域集合提取出来作为图像中的初始文字行。
根据本发明之一优选实施例,所述归并单元包括:连通域归并单元,用于将交集中的连通域保留在权重较高的连通域集合中,并将交集中的连通域从权重较低的连通域集合中删除;后处理单元,用于对被删除连通域的连通域集合进行后处理,所述后处理至少包括以下一种:将空的连通域集合删除,或将由不连续的连通域构成的连通域集合拆分为至少两个由连续的连通域构成的连通域集合。
根据本发明之一优选实施例,所述召回单元利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回的方式包括:从所述第一过滤单元进行过滤前的连通域中提取大小满足要求、与横向的输入文字行中的任意连通域在同一水平方向且相邻距离满足要求的连通域加入到横向的输入文字行;以及,从所述第一过滤单元进行过滤前的连通域中提取大小满足要求、与竖向的输入文字行中的任意连通域在同一垂直方向且相邻距离满足要求的连通域加入到竖向的输入文字行。
由以上技术方案可以看出,本发明通过先利用第一统计特征对二值化图像中的连通域进行过滤,再利用充分过滤后的连通域进行文字行提取,可以有效提高从图像中提取的文字行的准确性,从而改善在图像中进行文字识别的效果。
【附图说明】
图1为本发明中从图像中提取文字行的方法的实施例一的流程示意图;
图2为本发明中连通域外切矩形的示意图;
图3为本发明中连续连通域的示意图;
图4a为本发明中横向连通域集合的示意图;
图4b为本发明中竖向连通域集合的示意图;
图5为本发明中对交集中的连通域进行归并后的示意图;
图6为本发明中从图像中提取文字行的方法的实施例二的流程示意图;
图7为本发明中噪声过滤规则的示意图;
图8为本发明中扩展召回的示意图;
图9为本发明中图像处理前的示意图;
图10为本发明中图像二值化处理后的示意图;
图11为本发明中图像对不满足噪声过滤规则的连通域进行过滤后的示意图;
图12为本发明中图像对不满足第一统计特征的连通域进行过滤后的示意图;
图13为本发明中提取的初始文字行的示意图;
图14为本发明中初始文字行与完整的文字行的对比示意图;
图15为本发明中扩展召回的文字行的示意图;
图16为本发明中基于第二统计特征对文字行进行过滤后的示意图;
图17为本发明中从图像中提取文字行的装置的实施例一的结构示意框图;
图18为本发明中从图像中提取文字行的装置的实施例二的结构示意框图;
图19a为本发明中提取单元的实施例一的结构示意框图;
图19b为本发明中提取单元的实施例二的结构示意框图;
图20为本发明中初始生成单元的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中从图像中提取文字行的方法的实施例一的流程示意图。如图1所示,该实施例包括:
步骤S101:对图像进行二值化处理,以得到图像的各个连通域。
步骤S102:对不满足第一统计特征的连通域进行过滤。
步骤S103:从过滤后的各个连通域中提取图像中的文字行。
下面对上述方法进行具体说明。
步骤S101对图像进行二值化处理,为图像预处理中的常用技术,其目的是将图像的文字前景区域与背景区域相分离。在对图像进行二值化处理后,图像就成为由0和1组成的二值图。对图像进行二值化处理后,可以获取到潜在的文字区域。
本发明中的连通域,是指由代表文字的数值形成的连通区域。二值化处理后得到的连通域中,既可能存在由单个文字或文字中的笔画构成的连通域,也可能存在与文字无关的连通域,因此,本发明通过后续的步骤S102对二值化图像进行进一步地处理。
步骤S102的目的是把非文字连通域尽可能地滤除,以方便步骤S103对文字行进行提取。
第一统计特征,是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征。本发明中,第一统计特征是预先获取得到的。作为一种获取方式,首先标注正样本(文字连通域样本)和负样本(非文字连通域样本),然后从各样本中提取连通域描述特征,最后通过对提取的连通域描述特征进行统计学习,得到属于文字连通域的统计特征作为第一统计特征。
作为一种实施方式,本发明中的连通域描述特征由以下至少一种特征组成:连通域边界的特征、连通域的笔画特征、连通域的二值化前景比例特征、连通域的梯度方向直方图特征、连通域的空间几何分布特征。此外,连通域描述特征也可以是本领域技术人员在图像处理中熟知的其他类型的特征。
作为一种实施方式,连通域的边界特征是指连通域的边界轮廓,与连通域外切矩形对应的原始图像(即二值化处理前的图像)的边界轮廓之间重叠像素点占原始图像的边界轮廓整体像素点的比例。请参考图2,图2为本发明中连通域外切矩形的示意图。
作为一种实施方式,连通域的笔画特征指的是连通域外切矩形所对应的原始图像(即二值化处理前的图像)区域的笔画信息图像。计算笔画信息图像的方法可参考论文:Boris Epshtein,Eyal Ofek,Yonatan WexlerDetecting,Detecting Text in Natural Scenes with Stroke Width Transform。
作为一种实施方式,连通域的二值化前景比例特征指的是连通域中代表文字的数值个数占连通域外切矩形总像素面积的比例。
作为一种实施方式,连通域的梯度方向直方图特征指的是连通域外切矩形所对应的原始图像区域的梯度方向直方图特征。提取梯度方向直方图特征的方式可参考论文:Navneet Dalal,Bill Triggs,Histograms of OrientedGradients for Human Detection。
作为一种实施方式,连通域的空间几何分布特征指的是连通域外切矩形的长宽比、椭圆度等特征。其中椭圆度的计算可参考论文:Paul L.Rosin,Measuring Shape:Ellipticity,Rectangularity,and Triangularity。
本实施例中,步骤S103包括:
步骤S1031:将水平方向上连续的连通域提取出来形成横向的连通域集合,并基于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重。
步骤S1032:将垂直方向上连续的连通域提取出来形成竖向的连通域集合,并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重。
步骤S1033:利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理,并将归并处理后的各个连通域集合提取出来作为图像中的文字行。
可以理解,上述步骤S1031和步骤S1032不分执行的先后顺序。另外,步骤S1031和步骤S1032中提到的连续的连通域,可由相邻连通域的大小及相邻距离确定,例如将大小符合要求、彼此相邻距离符合要求的两个连通域称为连续的连通域;也可以将可以相互传递相邻关系的多个连通域作为连续的连通域,另外作为一种特殊的形式,相对独立的单一连通域也属于连续连通域所指范围。请参考图3,图3为本发明中连续连通域的示意图。对于传递相邻关系的多个连通域,可以参见图3下方展示的由3个连通域组成的连续连通域。这3个连通域左边和中间的两个连通域相邻(即连续),中间和右边的连通域相邻(即连续),左边和右边的连调域由于相邻距离太大并不相邻(即不连续)。但是左边和右边的连通域可以基于中间的连通域进行连续性传递,从而使得这3个连通域形成连续的连通域。
请参考图4a和4b,图4a为本发明中横向连通域集合的示意图,图4b为本发明中竖向连通域集合的示意图。如图4a所示,通过步骤S1031,可以提取出连通域集合A、B、C、D。如图4b所示,通过步骤S1032,可以提取出连通域集合E、F、G、H、I。假设连通域集合的权重就是连通域集合包含的连通域数目,则上述各集合的权重与该集合包含的连通域之间的关系可见下表:
表1
  连通域集合   包含的连通域   权重
  A   7   1
  B   6   1
  C   1、2、3、4、5   5
  D   8   1
  E   7、6、1、8   4
  F   2   1
  G   3   1
  H   4   1
  I   5   1
此外,连通域集合的权重还可以是由连通域集合包含的连通域数目、大小和位置等信息确定的实数。
由于步骤S1031和步骤S1032得到的连通域集合具有权重信息,因此在步骤S1033中可以利用相交连通域集合各自的权重信息来对交集中的连通域进行归并。
具体地,对交集中的连通域进行归并处理的步骤包括:
步骤S1033_1:将交集中的连通域保留在权重较高的连通域集合中,并将交集中的连通域从权重较低的连通域集合中删除。
步骤S1033_2:对被删除连通域的连通域集合进行后处理,所述后处理至少包括以下一种:将空的连通域集合删除,或将由不连续的连通域构成的连通域集合拆分为至少两个由连续的连通域构成的连通域集合。
根据表1,可以得出各个连通域集合的相交关系如表2所示:
表2
  相交的连通域集合   交集中的连通域
  A与E   7
  B与E   6
  C与E   1
  C与F   2
  C与G   3
  C与H   4
  C与I   5
  D与E   8
在上述步骤S1033_1中,将交集中的连通域从权重较低的连通域集合中删除的实施方式包含了对被删除连通域的连通域集合的权重进行更新。以上面的集合A与集合E为例,由于集合E的权重较高,因此根据步骤S1033_1,连通域7应保留在集合E中,并从集合A中删除,同时集合A的权重更新为0。
这里,既可以每次对一对相交集合分别执行步骤S1033_1和步骤S1033_2(方式一),也可以对所有相交集合均执行完步骤S1033_1后,再对所有执行过步骤S1033_1的集合执行步骤S1033_2(方式二)。
根据方式一,对相交集合A和集合E,执行步骤S1033_1,则连通域7被归并到集合E中,并从集合A中删除,此时执行步骤S1033_2,则由于集合A为空集合,因此将集合A删除。然后对下一对相交集合进行类似的处理,如果下一对相交集合是集合C与集合E,则对该对相交集合执行步骤S1033_1时,由于集合C的权重较高,因此连通域1被归并到集合C,并从集合E中删除,然后执行步骤S1033_2时,集合E将被拆分为包含连通域7和6的集合J以及包含连通域8的集合K,值得注意的是,在方式一下,将由不连续的连通域构成的集合拆分为连续连通域构成的集合的实施方式包括了重新确定拆分后的新集合的权重,如上述集合J的权重为2,集合K的权重为1。这样,如果拆分后的集合形成了与其他集合的相交关系,也将进行上述类似的处理,一直到将横向连通域集合和竖向连通域集合的相交关系处理完毕为止。
根据方式二,对所有的相交关系均先执行步骤S1033_1,执行完后可以得到各个连通域的情况如表3所示:
表3
  连通域集合   包含的连通域   权重
  A   空   0
  B   空   0
  C   1、2、3、4、5   5
  D   空   0
  E   7、6、8   3
  F   空   0
  G   空   0
  H   空   0
  I   空   0
此时执行步骤S1033_2,对被删除连通域的连通域集合进行后处理,则集合A、B、D、F、G、H、I被删除,集合E被拆分为包含连通域7和6的集合J以及包含连通域8的集合K。
上述两种方式,无论以哪种方式实施,均可以得到如以图5所示的连通域集合J、C、K,其中集合J包含连通域7、6,集合C包含连通域1、2、3、4、5,集合K包含连通域8。至此,步骤S1033将集合J、C、K分别提取出来,就得到了图像中的文字行。
请参考图6,图6为本发明中从图像中提取文字行的方法的实施例二的流程示意图。如图3所示,该实施例包括:
步骤S201:对图像进行二值化处理,以得到图像的各个连通域。
步骤S202:对不满足预设的噪声过滤规则的连通域进行过滤。
步骤S203:对不满足第一统计特征的连通域进行过滤。
步骤S204:从过滤后的各个连通域中提取图像中的文字行。
本实施例与实施例一相比,在对不满足第一统计特征的连通域进行过滤前,先对不满足预设的噪声过滤规则的连通域进行过滤,这样能够加快本实施例中步骤S203的过滤处理速度,也能提高最终提取的文字行的精度。
具体地,步骤S202中的噪声过滤规则包括:
连通域的大小在预设区间,且该连通域在水平或垂直方向存在另外的至少一个满足预设大小和预设相邻距离的邻近连通域。
请参考图7,图7为本发明中噪声过滤规则的示意图。上述噪声过滤规则中,连通域的大小在预设区间,可由图7中所示的连通域的外切矩形的宽度和高度来限定,例如连通域外切矩形的宽度在一个限定区间并且连通域的外切矩形的高度也在一个限定区间,从而使得连通域的大小在预设区间内。
根据上述过滤规则,每个连通域在水平或垂直方向还需要至少一个邻近连通域,且该邻近连通域的大小需满足预设大小,且与被邻近的连通域之间的距离需满足预设的相邻距离。
作为一种实施方式,预设大小可由邻近连通域与被邻近连通域各自外切矩形的相对比例来确定。如当水平方向的邻近连通域与被邻近连通域各自外切矩形的高度比例在[0.5,2]的区间内时,认为该水平方向的邻近连通域大小符合要求;当垂直方向的邻近连通域与被邻近连通域各自外切矩形的宽度比例在[0.5,2]的区间内时,认为该垂直方向的邻近连通域大小符合要求。
作为一种实施方式,预设的相邻距离可由邻近连通域与被邻近连通域各自外切矩形中心的垂直距离和水平距离来确定。如当水平方向的邻近连通域与被邻近连通域各自外切矩形中心的垂直方向距离小于这两个连通域外切矩形高度中较大者的一半,且这两个连通域各自外切矩形中心的水平方向距离小于这两个连通域外切矩形宽度中较大者的4倍时,认为该水平方向的邻近连通域满足预设的相邻距离;当垂直方向的邻近连通域与被邻近连通域各自外切矩形中心的水平方向距离小于这两个连通域外切矩形宽度中较大者的一半,且这两个连通域各自外切矩形中心的垂直距离小于这两个连通域外切矩形高度中较大者的4倍时,认为该垂直方向的邻近连通域满足预设的相邻距离。如图7所示,距离a就是被邻近连通域1和邻近连通域2各自外切矩形中心的垂直距离,距离b就是被邻近连通域1和邻近连通域2各自外切矩形中心的水平距离。
根据上述噪声过滤规则,可以理解,太大或太小的连通域,或者相对位置孤立的连通域,都将被过滤掉,从而可以将二值图像中的大多数噪声去除,加快步骤S203的处理速度。
在本实施例中,步骤S204既可以以与实施例一的步骤S103相同的方式实施,也可按照下列方式实施。
作为步骤S204的另一种实施方式,步骤S204包括:
步骤S204a:从过滤后的各个连通域中提取初始文字行。
步骤S204b:利用初始文字行扩展召回,以及,基于第二统计特征对初始文字行进行过滤,得到最终的文字行。
作为步骤S204a的一种实施方式,步骤S204a包括前面介绍的步骤S103的完整实施方式,即将步骤S1031至步骤S1033处理后得到的文字行作为初始文字行。
步骤S204b可以有两种实施方式,作为实施方式一,步骤S204b包括:
步骤S204b_1:将初始文字行作为输入文字行,并利用输入文字行在执行步骤S203前的连通域中扩展召回,得到扩展文字行。
步骤S204b_2:对不满足第二统计特征的扩展文字行进行过滤,得到最终的文字行。
作为实施方式二,步骤S204b包括:
步骤S204b_a:对不满足第二统计特征的初始文字行进行过滤,得到滤后文字行。
步骤S204b_b:将滤后文字行作为输入文字行,并利用输入文字行在执行步骤S203前的连通域中扩展召回,得到最终的文字行。
步骤S204b的实施方式一和实施方式二之间的区别是,实施方式一中先对初始文字行进行扩展召回,而后进行过滤,而实施方式二中先对初始文字行进行过滤,而后进行扩展召回。
步骤S204b的实施方式一和实施方式二中,执行步骤S203前的连通域既可以是二值化后未执行步骤S202前的所有连通域,也可以是执行步骤S202后,已过滤掉不满足噪声过滤规则的连通域后剩下的连通域。
在上述步骤S204b的两个实施方式中,利用输入文字行在执行步骤S203前的连通域中进行扩展召回的具体方式包括:从执行步骤S203前的连通域中提取大小满足要求、与横向的输入文字行中的任意连通域在同一水平方向且相邻距离满足要求的连通域加入到横向的输入文字行;以及,从执行步骤S203前的连通域中提取大小满足要求、与竖向的输入文字行中的任意连通域在同一垂直方向且相邻距离满足要求的连通域加入到竖向的输入文字行。请参考图8,图8为本发明中扩展召回的示意图。
对步骤S204b的实施方式一而言,扩展召回后的输入文字行就是扩展文字行,对对步骤S204b的实施方式二而言,扩展召回后的输入文字行就是最终的文字行。
步骤S204b的实施方式一和二中所述的第二统计特征,是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征。本发明中,第二统计特征也是预先获取到的。作为一种获取方式,首先标注正样本(文字行区域样本)和负样本(非文字行区域样本),然后从各样本中提取区域描述特征,最后通过对提取的区域描述特征进行统计学习,得到属于文字行的统计特征作为第二统计特征。
作为一种实施方式,本发明中的区域描述特征由以下至少一种特征组成:区域的边界特征、区域的笔画特征、区域的二值化前景比例特征、区域的形状特征、区域的梯度方向直方图特征、区域的空间几何分布特征。此外,区域描述特征也可以是本领域技术人员在图像处理中熟知的其他类型的特征。
上述区域描述特征的具体含义与连通域描述特征类似,区别在于提取特征的范围不同,由于上述区域是与连通域外切矩形类似的概念,因此根据前面叙述的获取连通域描述特征的现有技术手段,本领域技术人员很容易得知如何提取上述区域描述特征,本发明不再赘述。
本实施例中,步骤S204的实施方式二能实现如下效果:
由于步骤S203过滤掉的连通域中可能存在部分文字连通域,步骤S204b通过初始文字行,可以召回这些在步骤S203中被过滤掉的潜在的文字连通域。又由于第一统计特征是属于文字连通域的统计特征,即是一种局部统计特征,因此无法对全局的文字行进行描述,而步骤S204b中的第二统计特征是属于文字行的统计特征,通过第二统计特征对初始文字行进行过滤,可以将初始文字行中非文字行的图案去除掉。可见,本实施方式与步骤S204的实施方式一相比,更进一步地提高了从图像中提取的文字行的准确度。
为了更好地理解本发明,请参考图9至图16。其中图9为本发明中图像处理前的示意图,图10为本发明中图像二值化处理后的示意图,图11为本发明中图像对不满足噪声过滤规则的连通域进行过滤后的示意图;图12为本发明中图像对不满足第一统计特征的连通域进行过滤后的示意图,图13为本发明中提取的初始文字行的示意图,图14为本发明中初始文字行与完整的文字行的对比示意图,图15为本发明中扩展召回的文字行的示意图,图16为本发明中基于第二统计特征对文字行进行过滤后的示意图。
从上述的附图中可以看出,通过本发明的方法,能够非常准确地将图像中真正的文字行完整地提取出来。
请参考图17,图17为本发明中从图像中提取文字行的装置的实施例一的结构示意框图。如图17所示,该实施例包括:二值化单元301、第一过滤单元302及提取单元303。
其中二值化单元301,用于对图像进行二值化处理,以得到图像的各个连通域。第一过滤单元302,用于对不满足第一统计特征的连通域进行过滤,其中第一统计特征是利用从标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征。提取单元203,用于从过滤后的各个连通域中提取图像中的文字行。
请参考图18,图18为本发明中从图像中提取文字行的装置的实施例二的结构示意框图。如图18所示,该实施例包括:二值化单元301、第一过滤单元302、提取单元303及第二过滤单元304。本实施例与实施例一的不同在于,第二过滤单元304,用于在第一过滤单元进行过滤前,对不满足噪声过滤规则的连通域先进行过滤。
根据一个实施例,第二过滤单元304进行过滤时采用的噪声过滤规则包括:连通域的大小在预设区间,且该连通域在水平或垂直方向存在另外的至少一个满足预设大小和预设相邻距离的邻近连通域。
请参考图19a和19b,图19a是本发明中提取单元的实施例一的结构示意框图,图19b是本发明中提取单元的实施例二的结构示意框图。如图19a与19b所示,提取单元303包括初始生成单元3031和加工单元3032。其中初始生成单元3031,用于从过滤后的各个连通域中提取初始文字行。加工单元3032,用于利用初始文字行扩展召回,以及,基于第二统计特征对初始文字行进行过滤,得到最终的文字行。两个实施例中,加工单元3032均包括召回单元3032_1和第三过滤单元3032_2。实施例一中,召回单元3032_1,用于将初始文字行作为输入文字行,并利用输入文字行在第一过滤单元302进行过滤前的连通域中扩展召回,得到扩展文字行;第三过滤单元3032_2,用于对不满足第二统计特征的扩展文字行进行过滤,得到最终的文字行。实施例二中,第三过滤单元3032_2,用于对不满足第二统计特征的初始文字行进行过滤,得到滤后文字行;召回单元3032_1,用于将滤后文字行作为输入文字行,并利用输入文字行在第一过滤单元302进行过滤前的连通域中扩展召回,得到最终的文字行。
上述提取单元303的两个实施例中的第二统计特征均指的是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征。
上述召回单元3032_1利用输入文字行在第一过滤单元302进行过滤前的连通域中扩展召回的方式包括:
从所述第一过滤单元进行过滤前的连通域中提取大小满足要求、与横向的输入文字行中的任意连通域在同一水平方向且相邻距离满足要求的连通域加入到横向的输入文字行;以及,从所述第一过滤单元进行过滤前的连通域中提取大小满足要求、与竖向的输入文字行中的任意连通域在同一垂直方向且相邻距离满足要求的连通域加入到竖向的输入文字行。
请参考图20,图20为本发明中初始生成单元的实施例的结构示意框图。如图20所示,初始生成单元3031包括:水平提取单元3031_1、垂直提取单元3031_2、归并单元3031_3及输出单元3031_4。其中水平提取单元3031_1,用于将水平方向上连续的连通域提取出来形成横向的连通域集合,并基于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重。垂直提取单元3031_2,用于将垂直方向上连续的连通域提取出来形成竖向的连通域集合,并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重。归并单元3031_3,用于利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理。输出单元3031_4,用于将归并处理后的各个连通域集合提取出来作为图像中的初始文字行。
其中归并单元3031_3包括连通域归并单元3031_31和后处理单元3031_32。其中连通域归并单元3031_31,用于将交集中的连通域保留在权重较高的连通域集合中,并将交集中的连通域从权重较低的连通域集合中删除。后处理单元3031_32,用于对被删除连通域的连通域集合进行后处理,所述后处理至少包括以下一种:将空的连通域集合删除,或将由不连续的连通域构成的连通域集合拆分为至少两个由连续的连通域构成的连通域集合。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种从图像中提取文字行的方法,包括:
A.对图像进行二值化处理,以得到所述图像的各个连通域;
B.对不满足第一统计特征的连通域进行过滤,其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征;
C.从过滤后的各个连通域中提取所述图像中的文字行。
2.根据权利要求1所述的方法,其特征在于,所述方法所述步骤B前进一步包括:
D.对不满足预设的噪声过滤规则的连通域进行过滤。
3.根据权利要求2所述的方法,其特征在于,所述噪声过滤规则包括:
连通域的大小在预设区间,且该连通域在水平或垂直方向存在另外的至少一个满足预设大小和预设相邻距离的邻近连通域。
4.根据权利要求1所述的方法,其特征在于,从过滤后的各个连通域中提取所述图像中的文字行的步骤包括:
从过滤后的各个连通域中提取初始文字行;
将所述初始文字行作为输入文字行,并利用所述输入文字行在执行所述步骤B前的连通域中扩展召回,得到扩展文字行;
对不满足第二统计特征的扩展文字行进行过滤,得到最终的文字行,其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征。
5.根据权利要求1所述的方法,其特征在于,从过滤后的各个连通域中提取所述图像中的文字行的步骤包括:
从过滤后的各个连通域中提取初始文字行;
对不满足第二统计特征的初始文字行进行过滤,得到滤后文字行,其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征;
将滤后文字行作为输入文字行,并利用所述输入文字行在执行所述步骤B前的连通域中扩展召回,得到最终的文字行。
6.根据权利要求4或5所述的方法,其特征在于,从过滤后的各个连通域中提取初始文字行的步骤包括:
将水平方向上连续的连通域提取出来形成横向的连通域集合,并基于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重;
将垂直方向上连续的连通域提取出来形成竖向的连通域集合,并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重;
利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理,并将归并处理后的各个连通域集合提取出来作为图像中的初始文字行。
7.根据权利要求6所述的方法,其特征在于,利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理的步骤包括:
将交集中的连通域保留在权重较高的连通域集合中,并将交集中的连通域从权重较低的连通域集合中删除;
对被删除连通域的连通域集合进行后处理,所述后处理至少包括以下一种:将空的连通域集合删除,或将由不连续的连通域构成的连通域集合拆分为至少两个由连续的连通域构成的连通域集合。
8.根据权利要求4或5所述的方法,其特征在于,利用所述输入文字行在执行所述步骤B前的连通域中扩展召回的步骤包括:
从执行所述步骤B前的连通域中提取大小满足要求、与横向的输入文字行中的任意连通域在同一水平方向且相邻距离满足要求的连通域加入到横向的输入文字行;以及,
从执行所述步骤B前的连通域中提取大小满足要求、与竖向的输入文字行中的任意连通域在同一垂直方向且相邻距离满足要求的连通域加入到竖向的输入文字行。
9.一种从图像中提取文字行的装置,包括:
二值化单元,用于对图像进行二值化处理,以得到所述图像的各个连通域;
第一过滤单元,用于对不满足第一统计特征的连通域进行过滤,其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征;
提取单元,用于从过滤后的各个连通域中提取所述图像中的文字行。
10.根据权利要求9所述的装置,其特征在于,所述装置进一步包括:
第二过滤单元,用于在所述第一过滤单元进行过滤前,对不满足预设的噪声过滤规则的连通域进行过滤。
11.根据权利要求10所述的装置,其特征在于,所述噪声过滤规则包括:
连通域的大小在预设区间,且该连通域在水平或垂直方向存在另外的至少一个满足预设大小和预设相邻距离的邻近连通域。
12.根据权利要求9所述的装置,其特征在于,所述提取单元包括:
初始生成单元,用于从过滤后的各个连通域中提取初始文字行;
召回单元,用于将所述初始文字行作为输入文字行,并利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回,得到扩展文字行;
第三过滤单元,用于对不满足第二统计特征的扩展文字行进行过滤,得到最终的文字行,其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征。
13.根据权利要求9所述的装置,其特征在于,所述提取单元包括:
初始生成单元,用于从过滤后的各个连通域中提取初始文字行;
第三过滤单元,用于对不满足第二统计特征的初始文字行进行过滤,得到滤后文字行,其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征;
召回单元,用于将滤后文字行作为输入文字行,并利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回,得到最终的文字行。
14.根据权利要求12或13所述的装置,其特征在于,所述初始生成单元包括:
水平提取单元,用于将水平方向上连续的连通域提取出来形成横向的连通域集合,并基于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重;
垂直提取单元,用于将垂直方向上连续的连通域提取出来形成竖向的连通域集合,并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重;
归并单元,用于利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理;
输出单元,用于将归并处理后的各个连通域集合提取出来作为图像中的初始文字行。
15.根据权利要求14所述的装置,其特征在于,所述归并单元包括:
连通域归并单元,用于将交集中的连通域保留在权重较高的连通域集合中,并将交集中的连通域从权重较低的连通域集合中删除;
后处理单元,用于对被删除连通域的连通域集合进行后处理,所述后处理至少包括以下一种:将空的连通域集合删除,或将由不连续的连通域构成的连通域集合拆分为至少两个由连续的连通域构成的连通域集合。
16.根据权利要求12或13所述的装置,其特征在于,所述召回单元利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回的方式包括:
从所述第一过滤单元进行过滤前的连通域中提取大小满足要求、与横向的输入文字行中的任意连通域在同一水平方向且相邻距离满足要求的连通域加入到横向的输入文字行;以及,
从所述第一过滤单元进行过滤前的连通域中提取大小满足要求、与竖向的输入文字行中的任意连通域在同一垂直方向且相邻距离满足要求的连通域加入到竖向的输入文字行。
CN201210350550.7A 2012-09-19 2012-09-19 一种从图像中提取文字行的方法及装置 Active CN102930262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210350550.7A CN102930262B (zh) 2012-09-19 2012-09-19 一种从图像中提取文字行的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210350550.7A CN102930262B (zh) 2012-09-19 2012-09-19 一种从图像中提取文字行的方法及装置

Publications (2)

Publication Number Publication Date
CN102930262A true CN102930262A (zh) 2013-02-13
CN102930262B CN102930262B (zh) 2017-07-04

Family

ID=47645059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210350550.7A Active CN102930262B (zh) 2012-09-19 2012-09-19 一种从图像中提取文字行的方法及装置

Country Status (1)

Country Link
CN (1) CN102930262B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914996A (zh) * 2014-04-24 2014-07-09 广东小天才科技有限公司 一种从图片获取文字学习资料的方法和装置
CN104978576A (zh) * 2014-04-02 2015-10-14 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN105184289A (zh) * 2015-10-10 2015-12-23 北京百度网讯科技有限公司 字符识别方法和装置
CN107622271A (zh) * 2016-07-15 2018-01-23 科大讯飞股份有限公司 手写文本行提取方法及系统
CN107748888A (zh) * 2017-10-13 2018-03-02 众安信息技术服务有限公司 一种图像文本行检测方法及装置
WO2018040342A1 (zh) * 2016-08-31 2018-03-08 百度在线网络技术(北京)有限公司 用于识别图像中文字区域的方法和装置
CN107885449A (zh) * 2017-11-09 2018-04-06 广东小天才科技有限公司 一种拍照搜索方法、装置、终端设备和存储介质
CN108074321A (zh) * 2016-11-14 2018-05-25 深圳怡化电脑股份有限公司 一种纸币的图像边界提取方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030198386A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data
CN102147863A (zh) * 2010-02-10 2011-08-10 中国科学院自动化研究所 一种网络动画中的文字定位及识别方法
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030198386A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data
CN102147863A (zh) * 2010-02-10 2011-08-10 中国科学院自动化研究所 一种网络动画中的文字定位及识别方法
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978576B (zh) * 2014-04-02 2019-01-15 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN104978576A (zh) * 2014-04-02 2015-10-14 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN103914996B (zh) * 2014-04-24 2016-11-23 广东小天才科技有限公司 一种从图片获取文字学习资料的方法和装置
CN103914996A (zh) * 2014-04-24 2014-07-09 广东小天才科技有限公司 一种从图片获取文字学习资料的方法和装置
CN105184289A (zh) * 2015-10-10 2015-12-23 北京百度网讯科技有限公司 字符识别方法和装置
CN105184289B (zh) * 2015-10-10 2019-06-28 北京百度网讯科技有限公司 字符识别方法和装置
CN107622271A (zh) * 2016-07-15 2018-01-23 科大讯飞股份有限公司 手写文本行提取方法及系统
CN107622271B (zh) * 2016-07-15 2020-07-14 科大讯飞股份有限公司 手写文本行提取方法及系统
WO2018040342A1 (zh) * 2016-08-31 2018-03-08 百度在线网络技术(北京)有限公司 用于识别图像中文字区域的方法和装置
US10803338B2 (en) 2016-08-31 2020-10-13 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for recognizing the character area in a image
CN108074321A (zh) * 2016-11-14 2018-05-25 深圳怡化电脑股份有限公司 一种纸币的图像边界提取方法及装置
CN108074321B (zh) * 2016-11-14 2020-06-09 深圳怡化电脑股份有限公司 一种纸币的图像边界提取方法及装置
WO2019072233A1 (zh) * 2017-10-13 2019-04-18 众安信息技术服务有限公司 文本行检测方法及文本行检测装置
CN109874313A (zh) * 2017-10-13 2019-06-11 众安信息技术服务有限公司 文本行检测方法及文本行检测装置
CN107748888A (zh) * 2017-10-13 2018-03-02 众安信息技术服务有限公司 一种图像文本行检测方法及装置
CN107748888B (zh) * 2017-10-13 2019-11-08 众安信息技术服务有限公司 一种图像文本行检测方法及装置
CN107885449A (zh) * 2017-11-09 2018-04-06 广东小天才科技有限公司 一种拍照搜索方法、装置、终端设备和存储介质
CN107885449B (zh) * 2017-11-09 2020-01-03 广东小天才科技有限公司 一种拍照搜索方法、装置、终端设备和存储介质

Also Published As

Publication number Publication date
CN102930262B (zh) 2017-07-04

Similar Documents

Publication Publication Date Title
CN102930262A (zh) 一种从图像中提取文字行的方法及装置
CN109670500B (zh) 一种文字区域获取方法、装置、存储介质及终端设备
CN102663382B (zh) 基于子网格特征自适应加权的视频图像文字识别方法
CN103500322B (zh) 基于低空航拍图像的车道线自动识别方法
Jusoh et al. Application of freeman chain codes: An alternative recognition technique for Malaysian car plates
CN104182750A (zh) 一种在自然场景图像中基于极值连通域的中文检测方法
CN103528534B (zh) 一种基于图像监测的输电线路覆冰厚度检测方法
CN111209780A (zh) 车道线属性检测方法、装置、电子设备及可读存储介质
CN204316606U (zh) 数字摄像头的去噪电路
CN102193918B (zh) 视频检索方法和装置
CN114419647B (zh) 一种表格信息提取方法及系统
CN103679678A (zh) 一种矩形文字特征碎纸片的半自动拼接复原方法
CN107784652B (zh) 一种基于无人机影像的杆塔快速检测方法
CN101441621B (zh) 一种版式文件自动成文的方法及系统
CN110276279B (zh) 一种基于图像分割的任意形状场景文本探测方法
CN104299009A (zh) 基于多特征融合的车牌字符识别方法
CN104978576A (zh) 一种文字识别方法及装置
CN105389561A (zh) 一种基于视频的公交车道检测方法
CN103985130A (zh) 一种针对复杂纹理图像的图像显著性分析方法
CN103324958A (zh) 一种复杂背景下基于投影法和svm的车牌定位方法
Xu et al. Convolutional neural network based traffic sign recognition system
CN106295643A (zh) 机动车车牌自动识别方法
CN102592121B (zh) 一种ocr漏识判断方法及系统
CN103971347A (zh) 视频图像中阴影的处理方法及装置
CN103646388A (zh) 基于按列拼接的条状规则碎纸片拼接方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant