CN105718926A - 一种文本检测的方法和装置 - Google Patents

一种文本检测的方法和装置 Download PDF

Info

Publication number
CN105718926A
CN105718926A CN201410724574.3A CN201410724574A CN105718926A CN 105718926 A CN105718926 A CN 105718926A CN 201410724574 A CN201410724574 A CN 201410724574A CN 105718926 A CN105718926 A CN 105718926A
Authority
CN
China
Prior art keywords
stroke
pixel
esw
width
orientations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410724574.3A
Other languages
English (en)
Inventor
江淑红
吴波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to CN201410724574.3A priority Critical patent/CN105718926A/zh
Priority to JP2017528527A priority patent/JP2017535891A/ja
Priority to PCT/CN2015/096305 priority patent/WO2016086877A1/zh
Publication of CN105718926A publication Critical patent/CN105718926A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种计算估计笔画宽度ESW的方法,包括以下步骤:根据二值化图像,获取笔画边缘信息;计算每个笔画边缘像素点在不少于四个取向上的笔画宽度,所述每个笔画边缘像素点在不少于四个取向上的笔画宽度是所述笔画边缘像素点到位于由所述笔画边缘像素点和所述取向决定的直线上的另一笔画边缘像素点的距离;将计算得到的每个笔画边缘像素点在不少于四个取向上的笔画宽度分别与经过该笔画边缘像素点并沿着该取向上的每个笔画内像素点相关联;以及针对每个笔画内像素点,选择与所述笔画内像素点相关联的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW。本发明还提供了与该方法相对应的装置。

Description

一种文本检测的方法和装置
技术领域
本发明涉及人机交互技术,具体地涉及文本检测或光学字符识别OCR技术。
背景技术
自然场景中不仅包含大量的图形信息,而且存在丰富的文本信息,例如道路标志、商店名称等。这些文本信息对场景内容的描述与理解有重要的价值,该信息是场景图像检索的关键线索。因而迫切需要一种自动化的工具,通过自然场景中文本认知获取场景中的文本信息,为检索、查询、浏览场景图像资料和理解场景内容服务,提高图像资料的管理效率。移动电话、PDA、台式计算机、笔记本电脑、平板电脑和其他电子设备通常都能支持文本检测或光学字符识别(OCR)。
笔画宽度变换(SWT)是现有技术中一种常用的文本检测方法。“DetectingTextinNaturalSceneswithStrokeWidthTransform”(IEEE计算机视觉和模式识别CVPR,2010)提供了基于SWT的文本检测方法。如其中所述,笔画宽度变换(SWT)是一种用于自然场景中的文本检测的成功方法。不管文本的缩放、方向、字体和语言,该方法都能检测文本。为了提取笔画信息,SWT首先使用Canny边缘检测器来计算图像的边缘。然后,考虑每个边缘像素的梯度取向来找到其笔画宽度。SWT是一种局部图像算子,对每个像素点计算包含该像素点的最有可能的笔画宽度。SWT的输出是与输入图像具有相等大小的图像,其中,每个点存储的是与像素点相关联的笔画的宽度。
图1示出了实现SWT方法的示意图,图2示出了实现SWT方法的流程图。现在结合图1和图2描述SWT方法。图1(a)是一个典型笔画的示意图,其中,笔画的像素点比背景的像素点颜色更深。首先,在图2的步骤S100中,通过边缘检测器(例如Canny边缘检测器)计算输入图像的边缘。然后,在步骤S110中,将笔画边缘及笔画内部所有像素点关联存储的值赋初值为+∞。对于笔画边缘上的每个像素点(例如图1(b)中所示的点p),计算在该像素点p处的切线方向,然后计算梯度(法线)方向(梯度方向与切线方向相互垂直)(步骤S120)。接下来,在步骤S130中,获得梯度取向上笔画对面边缘上的像素点q,并计算两个像素点p、q之间的距离作为像素点p处的笔画宽度w,如图1(b)所示。在步骤S140中,对于p、q两点之间的每一个像素点t(如图1(c)所示),获得与t关联存储的值a。判断像素点p处的笔画宽度w是否小于与像素点t关联存储的值a(步骤S150)。如果笔画宽度w小于与像素点t关联存储的值a,则用笔画宽度w替代像素点t关联存储的值a,作为新的关联存储值a(步骤S160)。然后,对梯度方向上其他像素点重复以上操作(步骤S170)。最后,对笔画边缘上其他像素点重复以上操作(步骤S180)。
但通过分析以上SWT算法,可以很容易地知道该算法存在以下问题:因为笔画边缘呈不规则的形状,所以步骤S120中计算在像素点p处的切线方向是一个非常复杂的过程,该过程计算复杂度高而且消耗大量处理器资源和计算时间;在步骤S150中对笔画宽度w与像素点t关联存储的值a进行比较,然而由于笔画边缘点多且笔画边缘形状不规则,笔画内部的点可能会有多条法线经过,这样会造成比较次数过多,处理非常繁琐。
因此,利用SWT的文本检测处理太复杂和耗时,现有技术提到这种文本检测的时间是0.94秒,而对于自然场景的OCR系统来说,文本检测之后的OCR处理过程也要花费时间,还有之后的进一步应用,例如翻译或检索等等,所以SWT的这种速度作为OCR系统中的预处理步骤来说太慢,远无法达到实现自然场景OCR系统的实时性的要求。
发明内容
为了解决以上技术问题,本发明提出了一种新的简化估计笔画宽度(ESW)文本检测方法。ESW测量边缘像素点沿多个预定取向的距离作为笔画宽度,可以降低计算复杂度并节省处理器资源和计算时间。
具体地,与SWT中通过对于每个边缘像素点计算切线方向和梯度(法线)方向来计算与梯度方向上笔画对面边缘上的像素点的距离作为笔画宽度不同,在本发明中,ESW通过测量笔画每个边缘像素点沿多个预定方向到对面边缘上的像素点的距离的最小值作为该边缘像素点处的笔画宽度。ESW不用计算在笔画边缘每个像素点处的切线方向而是采用预定的多个固定取向,并且由于采用固定取向,会使在笔画内各像素点处的比较次数相对固定,从而可以降低计算复杂度并节省处理器资源和计算时间。
具体地,根据本发明的一个方面,提供了一种计算估计笔画宽度ESW的方法,包括以下步骤:根据二值化图像,获取笔画边缘信息;计算每个笔画边缘像素点在不少于四个取向上的笔画宽度,所述每个笔画边缘像素点在不少于四个取向上的笔画宽度是所述笔画边缘像素点到位于由所述笔画边缘像素点和所述取向决定的直线上的另一笔画边缘像素点的距离;将计算得到的每个笔画边缘像素点在不少于四个取向上的笔画宽度分别与经过该笔画边缘像素点并沿着该取向上的每个笔画内像素点相关联;以及针对每个笔画内像素点,选择与所述笔画内像素点相关联的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW。
在一个实施例中,所述计算步骤包括对于每个笔画边缘像素点,计算在不少于四个取向上的笔画宽度,所述关联步骤包括将计算得到的所述不少于四个取向上的笔画宽度分别与沿着该取向上的每个笔画内像素点进行关联存储,并且所述选择步骤包括针对每个笔画内像素点,选择与所述笔画内像素点关联存储的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW。
在一个实施例中,所述计算步骤包括对于所述不少于四个取向中的每个取向,计算在每个笔画边缘像素点处的笔画宽度,所述关联步骤包括:对于沿着该取向上的未进行关联存储的笔画内像素点,将计算得到的笔画宽度与该笔画内像素点进行关联存储;对于沿着该取向上的已经进行关联存储的笔画内像素点,将计算得到的笔画宽度与在该笔画内像素点已经关联存储的值进行比较,如果所述笔画宽度小于与该笔画内像素点关联存储的值,则以所述笔画宽度覆盖与该笔画内像素点关联存储的值。
在一个实施例中,所述不少于四个取向的取向的数量为四。
在一个实施例中,所述不少于四个取向中包含一个水平取向和一个垂直取向。
在一个实施例中,四个取向中任一取向与相邻取向之间的夹角均为45度。
在一个实施例中,四个取向分别为水平、垂直、向右上倾斜45度和向右下倾斜45度。
根据本发明的另一个方面,提供了一种非文本去除方法,所述非文本去除方法利用关于文本特性的连通域特征和关于连通域及其周围连通域关联信息的连通域特征,其特征在于,所述关于文本特性的连通域特征包括针对每个像素点使用如上所述的计算ESW的方法计算得到的ESW,以及连通域内ESW的方差;所述关于连通域及其周围连通域关联信息的连通域特征包括连通域的平均ESW,所述连通域的平均ESW是针对连通域中的每个像素点使用如上所述的计算ESW的方法计算得到的ESW的平均值。
在一个实施例中,所述关于文本特性的连通域特征还包括以下一项或更多项:外接矩形框的高宽比和前景像素面积在区域中的占有比例。
在一个实施例中,所述关于连通域及其周围连通域关联信息的连通域特征还包括以下一项或更多项:相邻域的外接矩形框之间的距离、区域的平均面积和区域的平均灰度。
根据本发明的另一个方面,提供了一种OCR方法,包括预处理步骤,所述预处理步骤包括:利用如上所述的方法进行非文本去除。
根据本发明的另一个方面,提供了一种计算估计笔画宽度ESW的装置,包括:获取单元,被配置为:根据二值化图像,获取笔画边缘信息;计算单元,被配置为:计算每个笔画边缘像素点在不少于四个取向上的笔画宽度,所述每个笔画边缘像素点在不少于四个取向上的笔画宽度是所述笔画边缘像素点到位于由所述笔画边缘像素点和所述取向决定的直线上的另一笔画边缘像素点的距离;关联单元,被配置为:将计算得到的每个笔画边缘像素点在不少于四个取向上的笔画宽度分别与经过该笔画边缘像素点并沿着该取向上的每个笔画内像素点相关联;以及选择单元,被配置为:针对每个笔画内像素点,选择与所述笔画内像素点相关联的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW。
在一个实施例中,所述计算单元包括对于每个笔画边缘像素点,计算在不少于四个取向上的笔画宽度,所述关联单元包括将计算得到的所述不少于四个取向上的笔画宽度分别与沿着该取向上的每个笔画内像素点进行关联存储,并且所述选择单元包括针对每个笔画内像素点,选择与所述笔画内像素点关联存储的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW。
在一个实施例中,所述计算单元包括对于所述不少于四个取向中的每个取向,计算在每个笔画边缘像素点处的笔画宽度,所述关联单元包括:对于沿着该取向上的未进行关联存储的笔画内像素点,将计算得到的笔画宽度与该笔画内像素点进行关联存储;对于沿着该取向上的已经进行关联存储的笔画内像素点,将计算得到的笔画宽度与在该笔画内像素点已经关联存储的值进行比较,如果所述笔画宽度小于与该笔画内像素点关联存储的值,则以所述笔画宽度覆盖与该笔画内像素点关联存储的值。
在一个实施例中,所述不少于四个取向的取向的数量为四。
在一个实施例中,所述不少于四个取向中包含一个水平取向和一个垂直取向。
在一个实施例中,四个取向中任一取向与相邻取向之间的夹角均为45度。
在一个实施例中,四个取向分别为水平、垂直、向右上倾斜45度和向右下倾斜45度。
根据本发明的另一个方面,提供了一种非文本去除器装置,包括如上所述计算ESW的装置,所述非文本去除器装置被配置为:利用关于文本特性的连通域特征和关于连通域及其周围连通域关联信息的连通域特征,其特征在于,所述关于文本特性的连通域特征包括针对每个像素点使用所述计算ESW的装置计算得到的ESW,以及连通域内ESW的方差;所述关于连通域及其周围连通域关联信息的连通域特征包括连通域的平均ESW,所述连通域的平均ESW是针对连通域中的每个像素点使用所述计算ESW的装置计算得到的ESW的平均值。
在一个实施例中,所述关于文本特性的连通域特征还包括以下一项或更多项:外接矩形框的高宽比和前景像素面积在区域中的占有比例。
在一个实施例中,所述关于连通域及其周围连通域关联信息的连通域特征还包括以下一项或更多项:相邻域的外接矩形框之间的距离、区域的平均面积和区域的平均灰度。
根据本发明的另一个方面,提供了一种OCR系统,包括预处理设备,所述预处理设备包括如上所述的非文本去除器装置。
采用本发明,可以降低计算复杂度并节省处理器资源和计算时间,从而满足自然场景下实时OCR系统的要求。
附图说明
通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中:
图1示出了实现现有技术中的SWT方法的示意图;
图2示出了实现现有技术中的SWT方法的流程图;
图3示出了根据本发明的ESW计算方法的流程图;
图4示出了根据本发明的ESW计算方法的一种实施方式的流程图;
图5示出了根据本发明的ESW计算方法的三种不同的取向方式;
图6示出了根据本发明的ESW计算方法的另一种实施方式的流程图;
图7示出了根据本发明的ESW计算方法的另一种实施方式的实现的示意图;
图8示出了根据本发明的OCR方法的流程图;
图9示出了根据本发明的经过OCR方法各步骤处理后的图像的效果图;
图10示出了根据本发明的估计笔画宽度ESW计算装置的框图;
图11示出了根据本发明的非文本去除器装置的框图;以及
图12示出了根据本发明的OCR系统的框图。
具体实施方式
以下将结合附图和具体实施例,对本发明所提出的简化估计笔画宽度(ESW)文本检测方法进行详细阐述。应当注意,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了对与本发明没有直接关联的公知技术的详细描述,以防止对本发明的理解造成混淆。
下文以采用多个特定取向作为示例来计算笔画内每个像素点的笔画宽度,具体描述了根据本发明的多个实施例。然而,需要指出的是,本发明不限于以下实施例,而是可适用于更多其它的文本检测或光学字符识别OCR方法和系统。
以下将结合图3~7详细地描述ESW计算方法。
图3示出了ESW计算方法的流程图。首先,根据二值化图像,获取笔画边缘信息(步骤S310)。在步骤S320中,计算每个笔画边缘像素点在不少于四个取向上的笔画宽度。然后,在步骤S330中,将计算得到的每个笔画边缘像素点在不少于四个取向上的笔画宽度分别与经过该笔画边缘像素点并沿着该取向上的每个笔画内像素点相关联。最后,针对每个笔画内像素点,选择与所述笔画内像素点相关联的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW(步骤S340)。
图4示出了ESW计算方法的一种实施方式的流程图。图5结合三种不同取向方式描述ESW计算方法的实现。图5(a)中示出了一个常用的日文字。图5(b)中示出了图5(a)中日文字的一个边缘点处的放大图。如图5(b)所示,选取水平(Ox)、垂直(Oy)、向右上倾斜45度(Os)、向右下倾斜45度(Ot)等四个取向作为本实施例中的测量取向。在步骤S410中,为了降低耗时,本发明不利用任何边缘检测器来计算边缘,而是仅使用从二值化步骤获得的边缘。在步骤S420中,对于每个笔画边缘像素点,计算在不少于四个取向上的笔画宽度。即,如图4(b)所示,对于笔画边缘像素点O,计算Ox或Oy、Os、Ot的距离。在本发明中,每一个取向上的笔画宽度是该笔画边缘像素点到位于由该笔画边缘像素点和该取向决定的直线上的另一笔画边缘像素点的距离。然后,在步骤S430中,将计算得到的所述不少于四个取向上的笔画宽度分别与沿着该取向上的每个笔画内像素点进行关联存储。在本实施例中,假设沿Os取向上的笔画宽度为10,则将数值10与沿着对应取向上的笔画内的每个像素点(包括Os取向上的点m)关联存储。如果存在其他笔画边缘像素点,则计算对于其他笔画边缘像素点在不少于四个取向上的笔画宽度。如果不存在其他笔画边缘像素点,则在步骤S440中,针对每个笔画内像素点,选择与所述笔画内像素点关联存储的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW。例如,在图5(c)的笔画中,分别与笔画内的Q点关联存储了Qx、Qy、Qt、Qs四个取向上的四个笔画宽度,则笔画内的对于Q点的估计笔画宽度ESW为Qx、Qy、Qt、Qs取向上的笔画宽度的最小值,即Qt取向上的笔画宽度。
与传统SWT中的向沿着梯度取向的每个像素点分配其当前值中的最小值并计算笔画宽度相比,本实施例中的ESW算法仅需要3次比较且四个取向上相邻像素的坐标计算都非常简单(相邻像素的x轴和y轴的坐标与前一像素相比,或者是相同或者是相差1)。并且对于中文、日文汉字和韩文等来说,有很多横竖的笔划,该方案中的竖直和水平恰好是它们的切线取向,使得计算最准确。
图5(d)示出了与图5(b)中的四种取向相关的另一种取向方式。具体而言,图5(d)中的四种取向是将图5(c)中的四种取向进行一定角度((0,90°))旋转得到的。因为该四个取向的两两夹角都是45°,所以该四个取向对整个360°方向是均匀分布的,但是因为这4个取向中不包括水平和垂直取向,所以图5(d)所示的ESW的计算量比图5(b)的ESW的计算量大。
图5(e)示出了四个取向不是均匀分布的实施例。该实施例中的方案是在对各取向的覆盖程度上不均匀分布的方案。如果该方案的其中两个取向取竖直和水平,则恰好是横竖笔划的切线取向,此时该方案同样适用于有很多横竖笔划的中文、日文汉字和韩文等。
以上通过几种不同的测量取向,描述了本发明所提出的简化估计笔画宽度(ESW)文本检测方案。应该理解,上述实施例仅示出了四个取向的ESW方案,但本发明同样可应用于多于四个取向的情况。此外,ESW测量边缘像素点沿多个预定取向的距离作为笔画宽度,可以降低计算复杂度并节省处理器资源和计算时间。
图6示出了ESW计算方法的另一种实施方式的流程图。图7描述了与ESW计算方法的该另一种实施方式相对应的实现。与图4中所描述的实施方式中优先对笔画边缘点进行扫描不同,本实施方式优先对特定固定取向进行扫描。在步骤S610中,与步骤S410类似地使用从二值化步骤获得的边缘,此处不再赘述。在步骤S620中,对于所述不少于四个取向中的每个取向,计算在每个笔画边缘像素点处的笔画宽度。即,在指定的固定取向上对笔画边缘处的所有像素点进行扫描,计算每个像素在该固定取向上的笔画的宽度。如图7所示,对于指定的固定取向(如向右上倾斜45度),对笔画边缘处的所有像素点进行扫描,计算每个像素点在该固定取向上的笔画的宽度(即Os的距离)。然后,在步骤S630中,对于沿着该取向上的未进行关联存储的笔画内像素点,将计算得到的笔画宽度与该笔画内像素点进行关联存储;对于沿着该取向上的已经进行关联存储的笔画内像素点,将计算得到的笔画宽度与在该笔画内像素点已经关联存储的值进行比较,如果所述笔画宽度小于与该笔画内像素点关联存储的值,则以所述笔画宽度覆盖与该笔画内像素点关联存储的值。在本实施例中,假设沿Os取向上的笔画宽度为10,如果是第一次扫描,则将该笔画宽度与该像素点关联存储;否则,将该笔画宽度与该像素点(例如:Os取向上的点m)关联存储值进行比较,如果该笔画宽度(例如10)小于该像素点关联存储值,则把该像素点关联存储值改为10。在步骤S635中,判断是否还要进行下一个固定取向的扫描,如果是,则返回步骤S620,重复上述过程。如果不存在其他需要扫描的固定取向,则在步骤S640中,针对每个笔画内像素点,所述笔画内像素点关联存储值就是所述四个取向上的的多个笔画宽度的最小值,并把这个最小值作为所述笔画内像素点的估计笔画宽度ESW。
图8给出了可以应用本发明的ESW方案的OCR方法的流程图。图9中示出了经过OCR方法各步骤处理后的图像的效果图。以下结合图8和图9详细描述OCR方法的原理。
从图8中可以看到,OCR方法分为两个主要步骤:预处理S810和OCR引擎S820。首先,将自然场景图像(如图9中图像901所示)进行图像预处理S810。在图像预处理步骤S810中,为了适用于实际应用,本发明根据子图像区域中的图像对比度使用二值化局部阈值。当输入图像的前景和背景之间存在较小差异时,增强图像的对比度。如果前景的颜色比背景颜色亮,则在二值化之前将反转该子图像区域的灰度图像。
在步骤S811中,将所获得的灰度图像进行二值化处理,按照一定的规则将灰度图像中的每个像素点划分为两类,即0和1。
在步骤S812中,本发明使用两种不同连通域特征来移除非文本区域。一种连通域特征是文本特征;另一种连通域特征是连通域与其周围连通域的关联特征。为了匹配自然场景,采用简化估计笔画宽度(ESW)特征作为文本特征之一。
一个字符总是包括具有相似宽度的笔画,并且笔画边界近乎平滑。可以使用关于文本特征的连通域(CC)特征来识别一个连通域。关于文本特征的连通域特征包括(但不限于)以下一项或更多项:
(1)排除太大或太小的连通域。
(2)外接矩形框的比例:宽度(w)与高度(h)比。通过该特征可以排除诸如瘦长等的不符合要求的连同域(如电线杆等长宽比较大的区域)。
(3)前景像素面积在区域中的占有比例。一般来说,文字区域的面积总是小于区域中的背景面积。
(4)每个像素点的估计笔画宽度(ESW)。文本区域的连通域中所有ESW的数值波动不大,即方差比较小。计算每个连通候选区域笔画宽度的方差,对于方差太大的情况加以排除。通过该特征可以排除如窗户、树叶这样的区域。优选地,最大差值的阈值可以设定为该连通区域估计笔画宽度的平均值的一半。
文本被认为是以成组的形式出现的,一组文本常有相似之处,如:笔画宽度、字符宽度、高度、字符间距等,并且前后字符之间的间隔近乎相等。可以使用关于一个连通域与其外围连通域的关系的连通域特征来识别一组文本。关于一个连通域与其外围连通域的关系的连通域特征包括(但不限于)以下一项或更多项:
(1)连通域的平均ESW。一组文本中的字符总是包括具有相似宽度的笔画,因此每个连通域的ESW均值与它们周围的连通域的ESW均值近似相等。优选地,邻近连通域的ESW均值之比小于2.0;
(2)区域的平均灰度。一组文本中的字符总是相互之间有近似的灰度分布。
(3)将单独的字母(汉字或偏旁)连通域当作噪声从图像中剔除,因为图像中通常不会出现单独的字母(汉字或偏旁),而是以单词或汉字词组的形式出现。
(4)候选字符的外接矩形框的平均区域面积。一组文本中的每个字符元素(可能是字母或汉字的偏旁)的面积不可能相差很大。
在步骤S813中,将从步骤S812中保留的可能是文本的若干相邻的连通域组合成成候选字符:对于拉丁语系来说,一个字母就是一个字符,而对于中文汉字来说,各字符元素可以根据上下、左右、包围等结构组合成一个汉字字符。然后考虑以下一项或更多项规则:
(1)相邻候选字符的外接矩形框之间的距离。相邻候选字符的外接矩形框之间的间隔应该是近乎相等的。优选地,相邻候选字符的外接矩形框之间的间隔不超过宽字符的三倍。
(2)候选字符的外接矩形框的平均区域面积。一组文本中的每个字符的面积大致相等。
(3)候选字符的外接矩形框的平均高度。一组文本中的每个字符具有大致相等的高度。
基于以上特征,可以对满足条件的连通域字符进行聚类,形成文本行(或列)。
与笔画宽度变换(SWT)特征相比,本发明的方法可以更高速地计算ESW特征,因此其更适用作自然场景的实时OCR系统之前的预处理系统。
将在步骤S813中检测出的文本区域(如图9中图像902所示)输出到OCR引擎处理S820。最终从OCR引擎步骤S820获得字符识别结果并输出到应用的用户界面(如图9中图像903所示)。
图10示出了根据本发明的估计笔画宽度ESW计算装置1000的框图。该计算估计笔画宽度ESW的装置1000包括:获取单元1010,被配置为:根据二值化图像,获取笔画边缘信息;计算单元1020,被配置为:计算每个笔画边缘像素点在不少于四个取向上的笔画宽度,所述每个笔画边缘像素点在不少于四个取向上的笔画宽度是所述笔画边缘像素点到位于由所述笔画边缘像素点和所述取向决定的直线上的另一笔画边缘像素点的距离;关联单元1030,被配置为:将计算得到的每个笔画边缘像素点在不少于四个取向上的笔画宽度分别与经过该笔画边缘像素点并沿着该取向上的每个笔画内像素点相关联;选择单元1040,被配置为:针对每个笔画内像素点,选择与所述笔画内像素点相关联的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW。
图11示出了根据本发明的非文本去除器装置的框图。非文本去除器装置1100包括如上所述计算ESW的装置1110,所述非文本去除器装置1110被配置为:利用关于文本特性的连通域特征和关于连通域及其周围连通域关联信息的连通域特征,其特征在于,所述关于文本特性的连通域特征包括针对每个像素点使用所述计算ESW的装置计算得到的ESW,所述关于连通域及其周围连通域关联信息的连通域特征包括连通域的平均ESW,所述连通域的平均ESW是针对连通域中的每个像素点使用所述计算ESW的装置计算得到的ESW的平均值。
图12示出了根据本发明的OCR系统的框图。从图12中可以看到,系统包含两个主要设备:预处理设备1210和OCR引擎设备1220。首先,将自然场景图像(如图9中图像901所示)通过图像预处理设备1210进行图像预处理。在图像预处理设备1210中,为了实时应用,本发明的实施例根据子图像区域中的图像对比度使用二值化局部阈值。当输入图像的前景和背景之间存在较小差异时,增强图像的对比度。如果前景的颜色比背景颜色亮,则在二值化之前将反转该子图像区域的灰度图像。
在二值化处理装置1211中,将所获得的灰度图像进行二值化处理,按照一定的规则将灰度图像中的每个像素点划分为两类,即0和1。
在非文本去除器装置1212中,本发明使用两种不同方面的连通域特征来移除非文本区域。一个连通域特征是文本特征;另一连通域特征是连通域与其外围关系的特征。为了匹配自然场景,采用上述简化估计笔画宽度(ESW)特征作为文本特征之一。
在文本检测装置1213中,将从装置1212中保留的可能是文本的若干相邻的连通域组合成成候选字符,根据步骤S813中提到的规则对连通域字符进行聚类,形成文本行(或列),并将结果(如图9中图像902所示)输出到OCR引擎设备1220。最终从OCR引擎设备1220获得字符识别结果并输出到应用的用户界面(如图9中图像903所示)。
本申请实现了一种新的简化估计笔画宽度(ESW)文本检测方案。ESW测量边缘像素点沿多个预定取向的距离作为笔画宽度,可以降低计算复杂度并节省处理器资源和计算时间,更适用作自然场景的实时OCR系统之前的预处理系统。。
应该理解,本发明的上述实施例仅示出了四个取向的ESW方案,但本发明同样可应用于多于四个取向的情况。本发明的方案可以在移动电话、PDA、台式计算机、笔记本电脑、平板电脑和通常都能支持文本检测或光学字符识别(OCR)的其他电子设备上实现。本发明的方案可以通过软件、硬件或者软件和硬件两者的结合来实现。例如,上述实施例中的设备内部的各种组件可以通过多种器件来实现,这些器件包括但不限于:模拟电路器件、数字电路器件、数字信号处理(DSP)电路、可编程处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件(CPLD),等等。
尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。

Claims (22)

1.一种计算估计笔画宽度ESW的方法,包括以下步骤:
根据二值化图像,获取笔画边缘信息;
计算每个笔画边缘像素点在不少于四个取向上的笔画宽度,所述每个笔画边缘像素点在不少于四个取向上的笔画宽度是所述笔画边缘像素点到位于由所述笔画边缘像素点和所述取向决定的直线上的另一笔画边缘像素点的距离;
将计算得到的每个笔画边缘像素点在不少于四个取向上的笔画宽度分别与经过该笔画边缘像素点并沿着该取向上的每个笔画内像素点相关联;以及
针对每个笔画内像素点,选择与所述笔画内像素点相关联的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW。
2.根据权利要求1所述的计算ESW的方法,其中,所述计算步骤包括对于每个笔画边缘像素点,计算在不少于四个取向上的笔画宽度,所述关联步骤包括将计算得到的所述不少于四个取向上的笔画宽度分别与沿着该取向上的每个笔画内像素点进行关联存储,并且所述选择步骤包括针对每个笔画内像素点,选择与所述笔画内像素点关联存储的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW。
3.根据权利要求1所述的计算ESW的方法,其中,所述计算步骤包括对于所述不少于四个取向中的每个取向,计算在每个笔画边缘像素点处的笔画宽度,所述关联步骤包括:对于沿着该取向上的未进行关联存储的笔画内像素点,将计算得到的笔画宽度与该笔画内像素点进行关联存储;对于沿着该取向上的已经进行关联存储的笔画内像素点,将计算得到的笔画宽度与在该笔画内像素点已经关联存储的值进行比较,如果所述笔画宽度小于与该笔画内像素点关联存储的值,则以所述笔画宽度覆盖与该笔画内像素点关联存储的值。
4.根据权利要求1~3中任一项所述的计算ESW的方法,其中,所述不少于四个取向的取向的数量为四。
5.根据权利要求1~3中任一项所述的计算ESW的方法,其中,所述不少于四个取向中包含一个水平取向和一个垂直取向。
6.根据权利要求4所述的计算ESW的方法,其中,四个取向中任一取向与相邻取向之间的夹角均为45度。
7.根据权利要求4所述的计算ESW的方法,其中,四个取向分别为水平、垂直、向右上倾斜45度和向右下倾斜45度。
8.一种非文本去除方法,所述非文本去除方法利用关于文本特性的连通域特征和关于连通域及其周围连通域关联信息的连通域特征,其特征在于,所述关于文本特性的连通域特征包括针对每个像素点使用如权利要求1~7中任一项所述的计算ESW的方法计算得到的ESW,以及连通域内ESW的方差;所述关于连通域及其周围连通域关联信息的连通域特征包括连通域的平均ESW,所述连通域的平均ESW是针对连通域中的每个像素点使用如权利要求1~7中任一项所述的计算ESW的方法计算得到的ESW的平均值。
9.根据权利要求8所述的非文本去除方法,其中,所述关于文本特性的连通域特征还包括以下一项或更多项:外接矩形框的高宽比和前景像素面积在区域中的占有比例。
10.根据权利要求8或9所述的非文本去除方法,其中,所述关于连通域及其周围连通域关联信息的连通域特征还包括以下一项或更多项:相邻域的外接矩形框之间的距离、区域的平均面积和区域的平均灰度。
11.一种OCR方法,包括预处理步骤,所述预处理步骤包括:利用如权利要求8~10中任一项所述的方法进行非文本去除。
12.一种计算估计笔画宽度ESW的装置,包括:
获取单元,被配置为:根据二值化图像,获取笔画边缘信息;
计算单元,被配置为:计算每个笔画边缘像素点在不少于四个取向上的笔画宽度,所述每个笔画边缘像素点在不少于四个取向上的笔画宽度是所述笔画边缘像素点到位于由所述笔画边缘像素点和所述取向决定的直线上的另一笔画边缘像素点的距离;
关联单元,被配置为:将计算得到的每个笔画边缘像素点在不少于四个取向上的笔画宽度分别与经过该笔画边缘像素点并沿着该取向上的每个笔画内像素点相关联;以及
选择单元,被配置为:针对每个笔画内像素点,选择与所述笔画内像素点相关联的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW。
13.根据权利要求12所述的计算ESW的装置,其中,所述计算单元包括对于每个笔画边缘像素点,计算在不少于四个取向上的笔画宽度,所述关联单元包括将计算得到的所述不少于四个取向上的笔画宽度分别与沿着该取向上的每个笔画内像素点进行关联存储,并且所述选择单元包括针对每个笔画内像素点,选择与所述笔画内像素点关联存储的多个笔画宽度的最小值作为所述笔画内像素点的估计笔画宽度ESW。
14.根据权利要求12所述的计算ESW的装置,其中,所述计算单元包括对于所述不少于四个取向中的每个取向,计算在每个笔画边缘像素点处的笔画宽度,所述关联单元包括:对于沿着该取向上的未进行关联存储的笔画内像素点,将计算得到的笔画宽度与该笔画内像素点进行关联存储;对于沿着该取向上的已经进行关联存储的笔画内像素点,将计算得到的笔画宽度与在该笔画内像素点已经关联存储的值进行比较,如果所述笔画宽度小于与该笔画内像素点关联存储的值,则以所述笔画宽度覆盖与该笔画内像素点关联存储的值。
15.根据权利要求12~14中任一项所述的计算ESW的装置,其中,所述不少于四个取向的取向的数量为四。
16.根据权利要求12~14中任一项所述的计算ESW的装置,其中,所述不少于四个取向中包含一个水平取向和一个垂直取向。
17.根据权利要求15所述的计算ESW的装置,其中,四个取向中任一取向与相邻取向之间的夹角均为45度。
18.根据权利要求15所述的计算ESW的装置,其中,四个取向分别为水平、垂直、向右上倾斜45度和向右下倾斜45度。
19.一种非文本去除器装置,包括如权利要求12~18中任一项所述的计算ESW的装置,所述非文本去除器装置被配置为:利用关于文本特性的连通域特征和关于连通域及其周围连通域关联信息的连通域特征,其特征在于,所述关于文本特性的连通域特征包括针对每个像素点使用所述计算ESW的装置计算得到的ESW,以及连通域内ESW的方差;所述关于连通域及其周围连通域关联信息的连通域特征包括连通域的平均ESW,所述连通域的平均ESW是针对连通域中的每个像素点使用所述计算ESW的装置计算得到的ESW的平均值。
20.根据权利要求19所述的非文本去除器装置,其中,所述关于文本特性的连通域特征还包括以下一项或更多项:外接矩形框的高宽比和前景像素面积在区域中的占有比例。
21.根据权利要求19或20所述的非文本去除器装置,其中,所述关于连通域及其周围连通域关联信息的连通域特征还包括以下一项或更多项:相邻域的外接矩形框之间的距离、区域的平均面积和区域的平均灰度。
22.一种OCR系统,包括预处理设备,所述预处理设备包括如权利要求19~21中任一项所述的非文本去除器装置。
CN201410724574.3A 2014-12-03 2014-12-03 一种文本检测的方法和装置 Pending CN105718926A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410724574.3A CN105718926A (zh) 2014-12-03 2014-12-03 一种文本检测的方法和装置
JP2017528527A JP2017535891A (ja) 2014-12-03 2015-12-03 テキストを検出する方法およびその装置
PCT/CN2015/096305 WO2016086877A1 (zh) 2014-12-03 2015-12-03 一种文本检测的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410724574.3A CN105718926A (zh) 2014-12-03 2014-12-03 一种文本检测的方法和装置

Publications (1)

Publication Number Publication Date
CN105718926A true CN105718926A (zh) 2016-06-29

Family

ID=56091036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410724574.3A Pending CN105718926A (zh) 2014-12-03 2014-12-03 一种文本检测的方法和装置

Country Status (3)

Country Link
JP (1) JP2017535891A (zh)
CN (1) CN105718926A (zh)
WO (1) WO2016086877A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345883A (zh) * 2017-01-23 2018-07-31 利得技术公司 用于确定文本的旋转角度的装置、方法和计算机可读存储介质
WO2018166276A1 (zh) * 2017-03-15 2018-09-20 北京京东尚科信息技术有限公司 文字区域定位方法和装置、计算机可读存储介质
CN116343242A (zh) * 2023-05-30 2023-06-27 山东一品文化传媒有限公司 基于图像数据的试题实时批阅方法及系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563384B (zh) * 2017-08-31 2020-02-21 江苏大学 基于广义Hough聚类的粘连猪的头尾识别方法
CN111325199B (zh) * 2018-12-14 2023-10-27 中移(杭州)信息技术有限公司 一种文字倾斜角度检测方法及装置
CN111709419A (zh) * 2020-06-10 2020-09-25 中国工商银行股份有限公司 一种纸币冠字号的定位方法、系统、设备及可读存储介质
CN115497109B (zh) * 2022-11-17 2023-03-24 山东思玛特教育科技有限公司 基于智能翻译的文字图像预处理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0968962A (ja) * 1995-08-30 1997-03-11 Toshiba Corp 文字パターン描画方法及び文字出力装置
CN101256630B (zh) * 2007-02-26 2010-06-30 富士通株式会社 用于改善文档图像二值化性能的去噪声装置和方法
US8917935B2 (en) * 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
US8526732B2 (en) * 2010-03-10 2013-09-03 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
CN102663383A (zh) * 2012-04-26 2012-09-12 北京科技大学 一种定位自然场景图像中文本的方法
US9014480B2 (en) * 2012-07-19 2015-04-21 Qualcomm Incorporated Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
CN103077389B (zh) * 2013-01-07 2016-08-03 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345883A (zh) * 2017-01-23 2018-07-31 利得技术公司 用于确定文本的旋转角度的装置、方法和计算机可读存储介质
CN108345883B (zh) * 2017-01-23 2023-11-28 利得技术公司 用于确定文本的旋转角度的装置、方法和计算机可读存储介质
WO2018166276A1 (zh) * 2017-03-15 2018-09-20 北京京东尚科信息技术有限公司 文字区域定位方法和装置、计算机可读存储介质
US11017260B2 (en) 2017-03-15 2021-05-25 Beijing Jingdong Shangke Information Technology Co., Ltd. Text region positioning method and device, and computer readable storage medium
CN116343242A (zh) * 2023-05-30 2023-06-27 山东一品文化传媒有限公司 基于图像数据的试题实时批阅方法及系统
CN116343242B (zh) * 2023-05-30 2023-08-11 山东一品文化传媒有限公司 基于图像数据的试题实时批阅方法及系统

Also Published As

Publication number Publication date
WO2016086877A1 (zh) 2016-06-09
JP2017535891A (ja) 2017-11-30

Similar Documents

Publication Publication Date Title
CN105718926A (zh) 一种文本检测的方法和装置
Zhang et al. Image segmentation based on 2D Otsu method with histogram analysis
US9665789B2 (en) Device and method for analyzing the correlation between an image and another image or between an image and a video
Lu et al. Document image binarization using background estimation and stroke edges
Phan et al. A gradient vector flow-based method for video character segmentation
Anishiya et al. Number plate recognition for indian cars using morphological dilation and erosion with the aid of ocrs
Huang et al. Automatic detection and localization of natural scene text in video
CN109738450B (zh) 笔记本键盘的检测方法和装置
Lelore et al. Super-resolved binarization of text based on the fair algorithm
Liu et al. A novel multi-oriented chinese text extraction approach from videos
Bai et al. A fast stroke-based method for text detection in video
US20150086113A1 (en) System and Method for Detection and Segmentation of Touching Characters for OCR
US20180285675A1 (en) System and method for text localization in images
CN112532884A (zh) 识别方法、装置及电子设备
Huang et al. A new video text extraction approach
Diamantatos et al. Binarization: a Tool for Text Localization
Zayene et al. Data, protocol and algorithms for performance evaluation of text detection in arabic news video
Huang et al. Auto scene text detection based on edge and color features
US9665938B2 (en) Image processing apparatus and specific figure detecting method
Liu et al. A chinese character localization method based on intergrating structure and cc-clustering for advertising images
Chun et al. Text extraction in videos using topographical features of characters
RU2697737C2 (ru) Способ обнаружения и локализации текстовых форм на изображениях
Amarnath et al. Automatic localization and extraction of tables from handheld mobile-camera captured handwritten document images
Premachandra et al. Parallel layer scanning based fast dot/dash line detection algorithm for large scale binary document images
Zhang et al. Shading Surface Estimation Using Piecewise Polynomials for Binarizing Unevenly Illuminated Document Images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160629