CN104112135A - 文本图像提取装置以及方法 - Google Patents

文本图像提取装置以及方法 Download PDF

Info

Publication number
CN104112135A
CN104112135A CN201310136363.3A CN201310136363A CN104112135A CN 104112135 A CN104112135 A CN 104112135A CN 201310136363 A CN201310136363 A CN 201310136363A CN 104112135 A CN104112135 A CN 104112135A
Authority
CN
China
Prior art keywords
text image
text
communication means
designated area
user designated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310136363.3A
Other languages
English (en)
Other versions
CN104112135B (zh
Inventor
汪留安
孙俊
何源
范伟
胜山裕
堀田悦伸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201310136363.3A priority Critical patent/CN104112135B/zh
Publication of CN104112135A publication Critical patent/CN104112135A/zh
Application granted granted Critical
Publication of CN104112135B publication Critical patent/CN104112135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Facsimile Image Signal Circuits (AREA)
  • Character Input (AREA)

Abstract

本公开提供一种文本图像提取装置和方法。该装置包括边缘极性确定单元,根据输入图像中检测到的每个边缘的亮度变化趋势确定每个边缘的极性;笔划宽度确定单元,将极性相反的两个边缘确定为匹配边缘对,并且基于用户指定区域中的各个匹配边缘对中的两个匹配边缘之间的距离确定该用户指定区域中的文本的笔划宽度;前景像素确定单元,将输入图像的匹配边缘对中两个匹配边缘之间的距离与笔划宽度之差在第一预定范围之内的匹配边缘对之间的像素确定为输入图像的前景像素;以及文本图像区域获取单元,利用前景像素对用户指定区域进行扩展,从而获取文本图像区域。本公开能够以简单、快速的方式实现对文本图像区域的提取。

Description

文本图像提取装置以及方法
技术领域
本公开涉及图像处理领域,更具体地涉及一种文本图像的提取装置和方法。
背景技术
随着计算机、多媒体以及通信技术的飞速发展,文字信息正越来越多地以图像形式出现。通常,图像中的文本信息是图像内容的重要来源,因此对图像中文本的检测、分割和识别对于图像语义的理解、索引和检索是非常有价值的。目前通常采用的一种文本检测方法是基于边缘的检测方法,但是这种方法由于背景复杂且没有先验知识,因此不能精确地分割出可靠的文本区域。基于纹理的方法是目前通常采用的另一种文本检测方法,但是该方法对于文本排列的方向非常敏感并且计算量也非常大。
因此,当前亟需一种能够快速、可靠的文本图像提取装置以及方法。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不意图确定本公开的关键或重要部分,也不意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本公开的目的之一是提供一种文本图像的提取装置和方法,以至少克服现有技术中的上述问题。
根据本公开的一个方面,提供了一种文本图像提取装置,用于基于用户指定区域从输入图像中提取文本图像区域,该文本图像提取装置包括:边缘极性确定单元,用于根据在输入图像中检测到的每个边缘的亮度变化趋势确定每个边缘的极性;笔划宽度确定单元,用于将极性相反的两个边缘确定为匹配边缘对,并且基于该用户指定区域中的各个匹配边缘对中的两个匹配边缘之间的距离确定该用户指定区域中的文本的笔划宽度;前景像素确定单元,用于将输入图像的匹配边缘对中的、两个匹配边缘之间的距离与笔划宽度之差在第一预定范围之内的匹配边缘对之间的像素确定为输入图像的前景像素,并且将其余像素确定为输入图像的背景像素;以及文本图像区域获取单元,利用前景像素对用户指定区域进行扩展,从而在输入图像中获取包括与用户指定区域相关的文本图像的文本图像区域。
根据本公开的又一个方面,还提供一种文本图像提取方法,用于基于用户指定区域从输入图像中获取文本图像区域,该文本图像提取方法包括:根据在输入图像中检测到的每个边缘的亮度变化趋势确定每个边缘的极性;将极性相反的两个边缘确定为匹配边缘对,并且基于该用户指定区域中的各个匹配边缘对中的两个匹配边缘之间的距离确定该用户指定区域中的文本的笔划宽度;将输入图像的匹配边缘对中两个匹配边缘之间的距离与笔划宽度之差在第一预定范围之内的匹配边缘对之间的像素确定为输入图像的前景像素,并且将其余像素确定为输入图像的背景像素;以及利用前景像素对用户指定区域进行扩展,从而在输入图像中获取包括与用户指定区域相关的文本图像的文本图像区域。
根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的文本图像提取装置。
依据本公开的其它方面,还提供了一种使得计算机用作如上所述的文本图像提取装置的程序。
依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述文本图像提取方法。
上述根据本公开实施例的文本图像提取装置和方法,至少能够获得以下益处之一:能够以简单、快速的方式实现对文本图像区域的提取,并且能够大大提高了文本检测的精度。
通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示意性地示出根据本公开实施例的文本图像提取装置的一种示例结构的框图。
图2示意性地示出文本图像的一种示例。
图3是示意性地示出如图1所示的文本图像区域获取单元的一种可能的示例结构的框图。
图4是根据本公开实施例的文本图像区域提取装置的另一示例性结构的框图。
图5是示出根据本公开实施例的文本图像区域提取装置的又一示例性结构的框图。
图6是示出根据本公开另一实施例的文本图像区域提取装置的示例性结构图。
图7是示出如图6所示的文本图像区域优化单元的一种可能的示例结构的框图。
图8示出如图7所示的连通部件组合子单元的一种具体的实现方式。
图9(a)-9(e)是示意性示出用于说明文本图像区域优化单元的各个处理的示例图。
图10是示意性示出根据本公开实施例的文本图像提取方法的流程图。
图11是示出了可用来实现根据本公开实施例的文本图像提取装置和方法的一种可能的信息处理设备的硬件配置的结构简图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本公开实施例的理解。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的装置结构和/或处理步骤,而省略了与本公开关系不大的其他细节。
随着诸如智能手机、平板电脑等手持电子设备的广泛应用,用户可以在利用其对图像进行处理时通过指定自己感兴趣的区域,来获取与用户感兴趣的区域相关的文本信息。用户感兴趣的区域可以通过用户对显示器上显示的图像执行特定的手势来获取,例如当用户期望获取图像上的文本信息时,用户对图像中的文本区域执行滑动操作来获得用户感兴趣的区域、即用户指定区域。在此,本发明提出一种基于用户感兴趣的区域(即用户指定区域)获取输入图像中的文本图像区域的文本图像提取装置和方法。
图1是示意性地示出根据本公开实施例的文本图像提取装置的一种示例结构的框图。
根据本公开实施例的文本图像提取装置1基于用户指定区域从输入图像中获取文本图像区域。如图1所示,文本图像提取装置1包括:边缘极性确定单元12,用于根据在输入图像中检测到的每个边缘的亮度变化趋势确定每个边缘的极性;笔划宽度确定单元14,用于将极性相反的两个边缘确定为匹配边缘对,并且基于该用户指定区域中的各个匹配边缘对中的两个匹配边缘之间的距离确定该用户指定区域中的文本的笔划宽度;前景像素确定单元16,用于将输入图像的匹配边缘对中的、两个匹配边缘之间的距离与该笔划宽度之差在第一预定范围之内的匹配边缘对之间的像素确定为该输入图像的前景像素,而将其余像素确定为该输入图像的背景像素;以及文本图像区域获取单元18,用于利用前景像素对用户指定区域进行扩展,从而在该输入图像中获取包括与用户指定区域相关的文本图像的文本图像区域。
输入图像例如可是用户使用诸如手机的数码装置拍摄的图像,也可以是从诸如服务器、互联网等数据源收集的图像。
文本图像提取装置1可以利用诸如Canny边缘检测等本领域公知的方法对输入图像的边缘进行检测。在输入图像中包含文本图像的情况下,使用边缘检测方法检测到的图像边缘通常包括笔划边缘。
从文本的固有属性来看,对于一个笔划,通常该笔划所在区域与其相邻区域具有不同的亮度,因此可以利用这一属性确定图像中的文本信息。具体地,为了便于从输入图像中提取文本图像,在检测到图像中的边缘之后,本公开利用笔划边缘的亮度变化趋势是对称的并且笔划的宽度也是大体一致的属性,来确定图像中的笔划及笔划宽度,从而获取输入图像中的文本图像。
如图1所示,根据本公开实施例的文本图像提取装置1的边缘极性确定单元12根据边缘的亮度变化趋势来确定每个边缘的极性。
根据本公开的优选实施例,边缘极性确定单元12可以采用卷积的方法计算边缘的极性。具体地,可以针对检测到的边缘上的每个像素及其相邻像素的像素值,利用模板进行卷积运算,以获得边缘的极性。例如可以采用如表1所示的模板进行卷积计算,来获得边缘极性。
表1
2 1 0
1 0 -1
0 -1 -2
当使用表1的模板计算得到的边缘极性为正时,表示该边缘沿预定方向(例如从左到右或者从上到下)的亮度变化趋势是由亮到暗;当使用表1的模板计算得到的边缘极性为负时,表示该边缘沿预定方向(例如从左到右或者从上到下)的亮度变化趋势是由暗到亮的。
上述模板仅是示例,本公开不限于此,本领域技术人员可以理解,也可采用其他的模板进行卷积计算。并且,本领域技术人员也可以理解,当使用不同的模板时,边缘的极性为正也可以表示该边缘沿预定方向的亮度变化趋势是从暗到亮,边缘的极性为负也可以表示该边缘沿预定方向的亮度变化趋势是从亮到暗。例如,在如图2所示的文本图像中,对于边缘E1,由于边缘E1的亮度变化趋势是从暗到亮,因此边缘E1的极性通过使用表1的模板计算为负,而由于边缘E2的亮度变化趋势是从亮到暗,因此,边缘E2的极性通过使用表1的模板计算为正。
在边缘极性确定单元12确定了检测到的每个边缘的极性之后,笔划宽度确定单元14利用笔划边缘的极性对称的属性,确定极性相反的边缘为匹配的边缘对,并根据两个对称的边缘对之间的距离确定笔划宽度。
根据本公开实施例,笔划宽度确定单元14确定包含正极性和负极性的对称的双边缘作为匹配边缘对,例如,笔划宽度确定单元14可以利用水平扫描线和垂直扫描线确定匹配边缘对。在图2所示的示例中,边缘E1和E2由于具有相反的极性,因此笔划宽度确定单元14将其确定为匹配的边缘对。基于用户指定区域中的各个匹配边缘对中的两个匹配的边缘之间的距离,笔划宽度确定单元14确定该用户指定区域中的文本的笔划宽度。例如,可以采用确定笔划宽度直方图的方式,选择用户指定区域中直方图最多的匹配边缘对之间的距离作为该用户指定区域的文本笔划宽度。但是本公开不限于此,例如也可以取用户指定区域中各个匹配边缘对的两个边缘之间的距离的平均值作为该用户指定区域的文本笔划宽度。
利用笔划宽度确定单元14确定的用户指定区域的文本的笔划宽度,前景像素确定单元16确定输入图像的前景像素以及背景像素。根据本公开的实施例,通常,将输入图像的匹配边缘对中匹配边缘之间的距离与由笔划宽度确定单元14所确定的笔划宽度之差在第一预定范围之内的匹配边缘对认为是输入图像中与用户指定区域相关的文本图像中的笔划的对应边缘,因此前景像素确定单元16将符合上述条件的匹配边缘对之间的像素确定为输入图像的前景像素,即构成与该用户指定区域相关的文本中的各个笔划的像素,并且将其余像素确定为该输入图像的背景像素。本领域技术人员可以理解,可以考虑图像的尺寸以及笔划宽度确定单元14所确定的文本笔划宽度等因素而设定不同的第一预定范围。例如,可以将彼此之间的距离在[0.8×笔划宽度,1.2×笔划宽度]范围内的匹配边缘对之间的像素确定为输入图像的前景像素。
如图1所示,在通过前景像素确定单元16确定了前景像素之后,文本图像区域获取单元18利用前景像素对用户指定区域进行扩展,从而在输入图像区域中获取包括与用户指定区域相关的文本图像的文本图像区域。
为了降低对用户指定区域进行扩展的工作量,本公开还提出了根据文本方向而对用户指定区域采用不同的扩展方式。
图3是示意性地示出如图1所示的文本图像区域获取单元18的一种可能的示例结构的框图。
如图3所示,文本图像区域获取单元18包括:文本方向确定子单元181,用于基于用户指定区域中的前景像素的水平方向和垂直方向的投影来确定用户指定区域的文本方向;以及用户指定区域扩展子单元182,用于根据所确定的用户指定区域的文本方向来选择扩展方向,以对用户指定区域进行扩展,从而获取文本图像区域。
根据本公开的一个实施例,文本方向确定子单元181可以根据前景像素的水平投影和垂直投影计算字符之间的间隙,从而确定文本方向。例如,当通过对用户指定区域内前景像素水平投影所确定的字符之间的间隙大于通过对用户指定区域内前景像素垂直投影所确定的字符之间的间隙时,通常认为该用户指定区域内的文本是水平方向或者与水平方向之间的夹角在第二预定范围(例如45°之内),在此情况下,可以将文本的方向确定为第一方向;当对前景的水平投影所确定的字符之间的间隙小于通过对前景像素的垂直投影所确定的字符之间的间隙时,通常认为该用户指定区域内的文本是垂直方向或者与垂直方向之间的夹角在该第二预定范围(例如45°之内),在此情况下,可以将文本的方向确定为第二方向。
如图3所示,用户指定区域扩展子单元182根据文本确定子单元181确定的文本方向来选择扩展方向,以对用户指定区域进行扩展,从而获得文本图像区域。
根据本公开的优选实施例,用户指定区域扩展子单元182被配置为在用户指定区域的文本方向被确定为第一方向时,采用先上下扩展再左右扩展的方式对用户指定区域进行扩展。
具体地,当用户指定区域的文本方向被确定为是水平方向或者与水平方向所成的夹角在第二预定范围时,用户指定区域扩展子单元182通过向上和向下移动水平分割线(通常采用长度与用户指定区域的长度相同的水平分割线)来扩展用户指定区域的高度(即上下扩展),直到基于此扩展的文本图像区域内的前景像素的数量满足诸如公式(1)所表示的预定条件时不再对用户指定区域的垂直方向进行扩展,从而完成对用户指定区域的高度的扩展。
ForeNuminner>k*ForeNumouter    (1)
其中,ForeNuminner表示位于分割线扩展之后形成的用户指定区域内的前景像素的数量;ForeNumouter表示位于经分割线扩展之后的用户指定区域外的前景像素的数量;k为预设的系数值,可以考虑用户对获取文本图像区域的精度要求等因素对k值进行不同地设置,例如可以将k设置为5、10等等。
在完成对用户指定区域的高度的扩展之后,用户指定区域扩展子单元182继续对文本方向被确定为第一方向的用户指定区域的长度进行扩展。根据本公开的实施例,用户指定区域扩展子单元182向左或向右移动垂直分割线(该垂直分割线的高度(在此指的是分割线在垂直方向上的长度)与用户扩展子区域的高度相同)以扩展用户指定区域的长度(即左右扩展),直到经此扩展之后的文本图像区域内的前景像素的数量满足如上述公式(1)所表示的预定条件时不再对用户指定区域的水平方向进行扩展,从而完成对用户指定区域的长度的扩展。
也就是说,当用户指定区域的文本方向被确定为是水平方向或者与水平方向所成的夹角在第二预定范围时,采用上下扩展再左右扩展的方式对用户指定区域进行扩展。
此外,根据本公开的实施例,在利用水平分割线以及垂直分割线对用户指定区域进行扩展时,可以以比所确定的笔划宽度小的距离为单位移动水平分割线以及垂直分割线,从而更准确地实现对用户指定区域进行扩展。
另一方面,当文本方向确定子单元181确定了文本方向为第二方向、即垂直方向或者与垂直方向所成的夹角在第二预定范围内时,用户指定区域扩展子单元182对用户指定区域采用先左右扩展再上下扩展的方式进行扩展,以获得扩展后的用户指定区域作为文本图像区域。用户指定区域扩展子单元182对文本方向为第二方向的用户指定区域所采用的左右扩展以及上下扩展的方式与针对文本方向为第一方向的用户指定区域所采用的左右以及上下扩展方式类似,在此不再赘述。
根据本公开的优选实施例,为了提高所获得的文本图像区域的准确度,可以采用循环扩展的方式对用户指定区域进行扩展。更具体地,针对文本方向为第一方向的用户指定区域可以采用先上下扩展再左右扩展,然后针对经过首次上下扩展以及左右扩展之后的用户指定区域继续进行第二次的上下扩展以及左右扩展,直到用户指定区域的外接框的上、下、左、右坐标都不再变化为止。类似地,针对文本方向为第二方向的用户指定区域可以采用先左右扩展再上下扩展,然后针对经过首次左右扩展以及上下扩展之后的用户指定区域继续进行第二次的左右扩展以及上下扩展,直到用户指定区域的外接框的上、下、左、右坐标都不再变化为止。在对用户指定区域进行循环扩展时采用的上下扩展、左右扩展方式与以上针对文本方向为第一方向的用户指定区域所采用的左右以及上下扩展方式类似,在此不再赘述。
通过对用户指定区域进行扩展,可以获得扩展后的用户指定区域作为输入图像中与用户指定区域相关的文本图像区域。在获得了文本图像区域之后,可以对文本图像区域进行光学字符识别处理,以获得输入图像中的文本信息,用于例如关键词搜索等的处理。
图4是根据本公开实施例的文本图像区域提取装置的另一示例性结构的框图。
除了与图1的文本图像区域装置1类似地包括边缘极性确定单元12、笔划宽度确定单元14、前景像素确定单元16以及文本图像区域获取单元18之外,图4所示的文本图像区域提取装置2还包括边缘检测单元10,用于根据用户指定区域的图像质量设定用于所述输入图像的边缘检测的阈值,并利用所设定的阈值对所述输入图像的边缘进行检测。
根据本公开的一个实施例,边缘检测单元10可以计算用户指定区域的灰度图像的方差σ,然后使用σ和2*σ作为边缘检测(例如Canny边缘检测)的高低阈值。上述灰度图像的方差仅仅是示例,本领域技术人员应该理解,也可以利用其它能够表示图像质量的参数值作为用于输入图像的边缘检测的阈值。
根据本公开实施例的文本图像提取装置能够根据输入图像、尤其是用户指定区域的图像质量自适应地调整用于边缘检测的阈值,因此可以提高边缘检测的精度,尤其是对于低对比度的图像。
图5是示出根据本公开实施例的文本图像区域提取装置的另一示例性结构的框图。
除了与图1的文本图像区域装置1类似地包括边缘极性确定单元12、笔划宽度确定单元14、前景像素确定单元16以及文本图像区域获取单元18之外,图5所示的文本图像区域提取装置3还包括前景像素去噪单元17,用于根据前景像素确定单元确定的前景像素的灰度值来确定前景像素参考灰度值,并且根据前景像素参考灰度值选择用于由文本图像区域获取单元18对用户指定区域进行扩展时所使用的前景像素。
如图5所示,在前景像素确定单元16确定了前景像素之后,前景像素去噪单元17进一步对所确定的前景像素进行去噪处理。根据本公开的一个实施例,前景像素去噪单元17可以利用前景像素直方图,将前景像素确定单元16确定的前景像素中、具有相同灰度值的像素的数量为最多的像素的灰度值作为前景像素参考灰度值,并且选择具有前景像素参考灰度值的前景像素作为用于由文本图像区域获取单元18对用户指定区域进行扩展时所使用的前景像素。上述前景像素参考值的确定仅是示例,本公开不限于此,本领域技术人员可以理解,也可以将用户指定区域中的所确定的前景像素的平均灰度值作为前景像素参考灰度值。此外,上述选择具有前景像素参考灰度值的前景像素也仅仅是示例,本公开不限于此,例如,也可以选择其灰度值与该前景像素参考灰度值之差在特定范围之间的前景像素作为用于由文本图像区域获取单元18对用户指定区域进行扩展时所使用的前景像素。
通过对前景像素进行去噪处理,根据本公开实施例的文本图像区域提取装置3能够简化文本图像区域获取单元在获取文本图像区域时的处理。
此外,根据本公开的另一实施例,如图5所示的文本图像区域提取装置3也可以包括如图4所示的边缘检测单元10。
在通过文本图像区域获取单元18获取了文本图像区域之后,还可以基于连通部件对所确定文本区域进行优化。
图6是示出根据本公开另一实施例的文本图像区域提取装置的示例性结构图。
除了与图1的文本图像区域装置1类似地包括边缘极性确定单元12、笔划宽度确定单元14、前景像素确定单元16以及文本图像区域获取单元18之外,图6所示的文本图像区域提取装置3还包括文本图像区域优化单元20,用于根据用户指定区域的连通部件对通过文本图像获取单元14获取的文本图像区域进行优化。
在图像处理领域,连通部件是指所有笔划都连通的字符。例如对于英文文字来说,小写英文字母“a”、“b”、“c”、“d”等等中的每一个均为一个连通部件,而对于字母“i”、“j”中的每一个则包含两个连通部件。对于中文字符来说,例如汉字“子”、“于”等中的每一个为一个连通部件,而汉字“化”、“元”等中的每一个则包括两个连通部件。
图7是示出如图6所示的文本图像区域优化单元20的一种可能的示例结构的框图。
如图7所示,文本图像区域优化单元20包括:层选择子单元201,用于将文本图像区域获取单元18获取的文本图像区域内的文本图像分解为正向文本图层和反向文本图层,并根据前景像素确定单元16确定的前景像素和背景像素的预估灰度值选择正向文本图层或反向文本图层作为文本图像区域的文本图层;以及连通部件组合子单元202,用于根据文本图像区域中的连通部件的位置信息,将所选择的文本图层上、与用户指定区域中预定的连通部件之间符合预定条件的连通部件组合在一起,以形成包括与用户指定区域相关的文本图像的优化文本图像区域。
更具体地,根据本公开的实施例,层选择子单元201可以利用诸如Niblack图像分析技术将图像分为两层,即表示黑底白字的正向文本图层和表示白底黑字的反向文本图层,然后,层选择子单元201根据前景像素和背景像素的预估灰度值选择正向文本图层或者反向文本图层。前景像素和背景像素的预估灰度值可以采用各种方式确定,例如可以通过分别对前景像素确定单元16确定的前景像素和背景像素求平均值来预估该前景像素和背景像素的灰度值。优选地,也可以分别选取前景像素确定单元16所确定的前景像素和背景像素中具有相同灰度值的像素数量为最多的像素的灰度值作为前景像素和背景像素的预估灰度值。
通过所确定的前景像素和背景像素的灰度值与所计算的正向文本图层和负向文本层的平均灰度值之间的关系,层选择子单元201选择正向文本图层或者反向文本图层作为所确定的文本图像区域的文本图层。例如,当前景像素的预估灰度值大于背景像素的预估灰度值时,选择正向文本图层和负向文本层中平均灰度值较大的文本层作为文本图像区域的文本图层;反之,当前景像素的预估灰度值小于背景像素的预估灰度值时,选择正向文本图层和负向文本层中平均灰度值较小的文本层作为文本图像区域的文本图层。
优选地,层选择子单元201在选择了文本图层之后,可以计算所选择的文本图层的每个连通部件的灰度值,并利用所选择的文本图层的灰度值以及连通部件的灰度值,执行去噪处理。
参见图7,在层选择子单元201选择了文本图层之后,连通部件组合子单元202根据文本图像区域中的连通部件的位置信息,将所选择的文本图层上、与用户指定区域中预定的连通部件之间符合预定条件的连通部件组合在一起,以形成包括与用户指定区域相关的文本图像的优化文本图像区域。
图8是示出如图7所示的连通部件组合子单元202的一种具体的实现方式。
如图8所示,连通部件组合子单元202包括:种子连通部件确定模块2021和连通部件组合模块2022。
根据本公开的实施例,种子连通部件确定模块2021将位于该文本图像区域中的、与用户指定区域相交的连通部件确定为种子连通部件。优选地,种子连通部件确定模块2021还根据种子连通部件的位置关系确定起始和结束的种子连通部件。
连通部件组合模块2022将所选择的所述文本图层上、与种子连通部件具有特定位置关系的连通部件与所述种子连通部件组合在一起,以形成优化文本图像区域。
根据本公开的一个实施例,可以使用如下公式(2)-(6)中的任一个或者多个的组合表示的约束条件来表达上述特定的位置关系。
d seed adj < k 1 * max ( d seed ) - - - ( 2 )
Overlap seed adj < k 2 * Area adj - - - ( 3 )
max(wadj,hadj)>k3*max(wseed,hseed)       (4)
PassOverlap seed adj > k 4 * Area adj - - - ( 5 )
PassOverlap global adj > k 5 * Area adj - - - ( 6 )
其中,表示种子连通部件和其相邻连通部件的距离;
max(dseed)表示相邻的种子连通部件之间的距离的最大值;
Areaadj表示相邻连通部件的面积、即相邻连通部件的外接矩形的面积;
max(wadj,hadj)表示相邻连通部件的宽度和高度中的最大值;
max(wseed,hseed)表示种子连通部件的宽度和高度中的最大值;
表示种子连接部件与其相邻连通部件的重叠面积;
表示该相邻连通部件落入通过所述种子连通部件的高度确定的区域内的面积;
表示该相邻连通部件落入该相邻连通部件落入通过文本边界而确定的区域以内的面积,该文本边界根据种子连通部件中的起始种子连通部件和结束种子连通部件之间所成的角度确定的。
具体地,对于与种子连通部件之间满足公式(2)表示的位置关系的相邻连通部件,即当该相邻连通部件与种子连通部件之间的距离小于k1倍的种子连通部件宽度的最大值时,连通部件组合模块2022可以将该相邻连通部件与种子连通部件组合在一起。k1的值例如可以根据用户对于文本图像区域提取精度的要求来确定,例如可以将k1的值设置为2。
对于与种子连通部件之间满足公式(3)表示的位置关系的相邻连通部件,即当该相邻连通部件与种子连通部件之间的重叠面积小于k2倍的该相邻连通部件的面积时,连通部件组合模块2022可以将该相邻连通部件与种子连通部件组合在一起。k2的值也可以根据用户对于文本图像区域提取精度的要求来确定,例如可以将k2的值设置为0.5。
对于与种子连通部件之间满足公式(4)表示的位置关系的相邻连通部件,即当该相邻连通部件的宽度和高度中的最大值大于k2倍的种子连通部件的宽度和高度中的最大值时,连通部件组合模块2022可以将该相邻连通部件与种子连通部件组合在一起。K3的值也可以根据用户对于文本图像区域提取精度的要求来确定,例如可以将k3的值设置为0.5。
对于与种子连通部件之间满足公式(5)表示的位置关系的相邻连通部件,即当该相邻连通部件落入通过所述种子连通部件的高度确定的区域内的面积大于k4倍的相邻连通部件的面积时,连通部件组合模块2022可以将该相邻连通部件与种子连通部件组合在一起。根据本公开的一个实施例,通过种子连通部件的高度确定的区域可以是以与种子连通部件的高度垂直的两条平行线所确定的、包括该种子连通部件的区域。此外,k4的值也可以根据用户对于文本图像区域提取精度的要求来确定,优选地,可以将k4的值设置为0.5。
对于与种子连通部件之间满足公式(6)表示的位置关系的相邻连通部件,即当该相邻连通部件落入通过文本边界限定的区域内的面积小于k5倍的相邻连通部件的面积时,连通部件组合模块2022可以将该相邻连通部件与种子连通部件组合在一起,其中该文本边界根据种子连通部件中的起始种子连通部件和结束种子连通部件之间所成的角度确定的。根据本公开的一个实施例,通过该文本边界确定的区域可以是以具有连接种子连通部件和结束种子连通部件的中心点平行的所确定的、包括起始和结束种子连通部件(或者所有种子连通部件)的区域。K5的值也可以根据用户对于文本图像区域提取精度的要求来确定,优选地,可以将k5的值设置为0.5。
此外,在每次有相邻连通部件由于与种子连通部件符合通过上述公式表示的位置关系中的一个或几个而与种子连通部件组合在一起时,种子连通部件确定模块2021还被配置为将与所述种子连通部件组合在一起的相邻连通部件也确定为种子连通部件。
通过种子连通部件确定模块2021以及连通部件组合模块2022重复地执行上述操作,直到没有新的连通部件被组合在一起为止,从而获得优化文本图像区域。
下面以图9(a)-9(e)为例说明说明文本图像区域优化单元20中的各个部件的处理。
在经过文本图像区域提取装置3的边缘极性确定单元12、笔划宽度确定单元14、前景像素确定单元16以及文本图像区域获取单元18的处理之后,获得了如图9(a)所示的文本图像区域R。然后由文本图像区域优化单元20的层选择子单元201针对该文本图像区域R选择文本图层。
层选择子单元通过Niblack图像分析技术,将图9(a)所示的图像中的文本图像区域分解为所示的正向文本图层和反向文本图层,通过确定正向文本图层和反向文本图层的平均灰度值并且将其与预估的由前景像素确定单元16确定的前景像素和背景像素的灰度值进行比较以选择该文本图像区域的文本图层。由于图9(a)所示的文本图像区域的预估前景像素值小于背景像素值,因此可以选择表示白底黑字的反向文本图层作为该文本图像区域的文本图层。如图9(b)示出了层选择的结果。
针对选层之后的文本图像区域,可以利用与用户指定区域相交的种子连通部件对其相邻的连通部件进行扩展,例如利用上述公式(2)-(6)中的一个或多个所表示的位置约束关系。如图9(c)所示,与用户指定区域UR相交的种子连通部件为字母“n”、“g”以及“t”,其中“n”和“t”分别所有种子连通部件中的起始和结束种子连通部件。
例如当根据如上所述的公式(5)所表示的位置约束关系,利用种子连通部件“t”对相邻的连通部件“o”进行扩展时,由于相邻连通部件“o”落入通过种子连通部件“t”的高度确定的区域内(即如图9(d)所示,由指示线L1和L2确定的区域内)的面积大于k4倍的相邻连通部件的面积时,可以将该相邻连通部件与种子连通部件组合在一起满足公式(4)表示的位置关系的相邻连通部件。
类似地,例如当根据如上所述的公式(6)所表示的位置约束关系,利用种子连通部件“t”对相邻的连通部件“o”进行扩展时,由于相邻连通部件“o”落入通过文本边界限定的区域内的面积小于0.8倍的相邻连通部件的面积时,可以将该相邻连通部件与种子连通部件组合在一起,其中该文本边界根据种子连通部件中的起始种子连通部件和结束种子连通部件之间所成的角度确定的,例如图9(e)所示的指示线L3和L4是文本边界的一个示例。
通过上述操作,在将相邻连通部件“o”与种子连通部件“t”组合在一起以后,种子连通部件确定模块2021可以将相邻连通部件“o”也确定为种子连通部件,并且连通部件组合模块2022可以利用包括“o”的所有种子连通部件继续对其相邻的连通部件进行扩展,直到没有新的连通部件被组合在一起为止。如图9(e)所示,利用种子连通部件“n”、“g”、“t”,可以将连通部件“l”、“e”、“a”、“d”、“i”和“o”组合在一起,形成包括文本信息“leading to”的优化文本图像区域。
通过上述利用种子连通部件对相邻连通部件进行扩展,从而获得优化文本图像区域。所获得的优化文本图像区域也可以用于OCR识别,并且进一步用于例如关键词搜索等的处理。
通过文本图像区域优化单元处理后的文本图像优化区域,能够使用户获得更准确的文本信息,从而进一步提升用户体验。
根据本公开的一个实施例,还提供了一种文本图像提取方法,用于基于用户指定区域从输入图像中获取文本图像区域。下面结合图10来描述文本图像提取方法的一种示例性处理。
如图10所示,根据本公开的实施例的文本图像提取方法的处理流程1000开始于S1010,然后执行S1020的处理。该文本图像提取方法包括:
在S1020中,根据在输入图像中检测到的每个边缘的亮度变化趋势确定每个边缘的极性。例如,可以通过执行例如参照图1-2描述的边缘极性确定单元12的处理来实现S1020,在此省略其描述。然后执行S1030。
在S1030中,将极性相反的两个边缘确定为匹配边缘对,并且基于该用户指定区域中的各个匹配边缘对中的两个匹配边缘之间的距离确定该用户指定区域中的文本的笔划宽度。例如可以通过水平扫描和垂直扫描确定由极性相反的两个边缘构成的匹配边缘对。S1030例如可以通过执行例如参照图1描述的笔划宽度确定单元14的处理来实现,在此省略其描述。然后执行S1040。
在S1040中,将所述输入图像的匹配边缘对中匹配边缘之间的距离与所确定的笔划宽度之差在第一预定范围之内的边缘对之间的像素确定为所述输入图像的前景像素,并且将其余像素确定为所述输入图像的背景像素。例如,可以通过执行例如参照图1描述的前景像素确定单元16的处理来实现S1040,在此省略其描述。然后执行S1050。
此外,在S1040中,还可以对前景像素执行去噪处理。该去噪处理可以通过执行例如参照图5描述的前景像素去噪单元17的处理来实现,在此省略其描述。
在S1050中,利用前景像素对用户指定区域进行扩展,从而在所述输入图像中获取包括与用户指定区域相关的文本图像的文本图像区域。例如,可以通过执行例如参照图1-3描述的文本图像区域获取单元18的处理来实现S1050,在此省略其描述。然后执行S1060。
处理流程1000结束于S1060。
根据本公开的另一实施例,文本图像提取方法还可以在通过S1050获取了文本图像区域之后,利用连通部件对所获得的文本图像区域进行优化,以获得优化文本图像区域。具体的文本图像区域优化的方法例如可以通过执行参照图6-8描述的文本图像区域优化单元20的处理来实现,在此省略其描述。
与现有技术中相比,根据本公开的文本图像提取装置和文本图像提取方法充分利用了文本的双边缘对称性和笔划宽度等特征,因此能够以简单、快速的方式实现对文本图像区域的提取,此外还可以大大提高文本检测的精度。
此外,本公开的实施例还提供了一种电子设备,该电子设备被配置包括如上所述的文本图像提取装置1。该电子设备例如可以是以下设备中的任意一种:手机;计算机;平板电脑;以及个人数字助理等。相应地,该电子设备能够拥有如上所述的文本图像提取装置的有益效果和优点。
上述根据本公开的实施例的文本图像提取装置中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图11是示出了可用来实现根据本公开的实施例的是文本图像提取装置和方法的一种可能的信息处理设备的硬件配置的结构简图。
在图11中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM1103中,还根据需要存储当CPU1101执行各种处理等等时所需的数据。CPU1101、ROM1102和RAM1103经由总线704彼此连接。输入/输出接口1105也连接到总线1104。
下述部件也连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1109经由网络例如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1110上,使得从中读出的计算机程序可根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开的实施例的文本图像提取方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。
在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可以实现本公开的各实施例。
综上,在根据本公开的实施例中,本公开提供了如下方案,但不限于此:
方案1、一种文本图像提取装置,用于基于用户指定区域从输入图像中获取文本图像区域,该文本图像提取装置包括:
边缘极性确定单元,用于根据在输入图像中检测到的每个边缘的亮度变化趋势确定每个边缘的极性;
笔划宽度确定单元,用于将极性相反的两个边缘确定为匹配边缘对,并且基于该用户指定区域中的各个匹配边缘对中的两个匹配边缘之间的距离确定该用户指定区域中的文本的笔划宽度;
前景像素确定单元,用于将输入图像的匹配边缘对中的、两个匹配边缘之间的距离与笔划宽度之差在第一预定范围之内的匹配边缘对之间的像素确定为输入图像的前景像素,并且将其余像素确定为输入图像的背景像素;以及
文本图像区域获取单元,利用前景像素对用户指定区域进行扩展,从而在输入图像中获取包括与用户指定区域相关的文本图像的文本图像区域。
方案2、根据方案1所述的文本图像提取装置,其中文本信息提取装置还包括:边缘检测单元,用于根据用户指定区域的图像质量设定用于输入图像的边缘检测的阈值,并利用所设定的阈值对输入图像的边缘进行检测。
方案3、根据方案1或2所述的文本图像提取装置,其中文本图像区域获取单元包括:
文本方向确定子单元,用于基于用户指定区域中的前景像素的水平方向和垂直方向的投影来确定用户指定区域的文本方向;
用户指定区域扩展子单元,用于根据所确定的用户指定区域的文本方向来选择扩展方向,以对用户指定区域进行扩展,从而获取文本图像区域。
方案4、根据方案3所述的文本图像提取装置,其中用户指定区域扩展子单元被配置为当用户指定区域的文本方向被确定为第一方向时,采用先上下扩展再左右扩展的方式对用户指定区域进行扩展,当用户指定区域的文本方向被确定为与第一方向不同的第二方向时,采用先左右扩展再上下扩展的方式对用户指定区域进行扩展,
其中,第一方向是水平方向或者与水平方向所成的角度在第二预定范围内的任一方向。
方案5、根据方案1-4中任一项所述的文本图像提取装置,其中文本图像提取装置还包括前景像素去噪单元,用于根据前景像素确定单元确定的前景像素的灰度值来确定前景像素参考灰度值,并且根据前景像素参考灰度值选择用于由文本图像区域获取单元对于用户指定区域进行扩展时所使用的前景像素。
方案6、根据方案1-5中任一项所述的文本图像提取装置,该文本图像提取装置还包括文本图像区域优化单元,用于根据用户指定区域的连通部件对文本图像区域进行优化。
方案7、根据方案6所述的文本图像提取装置,其中该文本图像区域优化单元包括:
层选择子单元,用于将文本图像区域内的文本图像分解为正向文本图层和反向文本图层,并根据前景像素和背景像素的预估灰度值选择正向文本图层或反向文本图层作为文本图像区域的文本图层;以及
连通部件组合子单元,用于根据文本图像区域中的连通部件的位置信息,在所选择的文本图层上将与用户指定区域中预定的连通部件之间符合预定条件的连通部件组合在一起,以形成包括与用户指定区域相关的文本图像的优化文本图像区域。
方案8、根据方案7所述的文本图像提取装置,其中连通部件组合子单元包括:
种子连通部件确定模块,用于将位于文本图像区域中的与用户指定区域相交的连通部件确定为种子连通部件;以及
连通部件组合模块,用于在所选择的文本图层上,将与种子连通部件具有以下位置关系的相邻连通部件与种子连通部件组合在一起,以形成优化文本图像区域:该相邻连通部件落入通过种子连通部件的高度确定的区域内的面积与该相邻连通部件的面积之比大于第一阈值,
其中种子连通部件确定模块还被配置为将与种子连通部件组合在一起的相邻连通部件也确定为种子连通部件。
方案9、根据方案8所述的文本图像提取装置,其中位置关系还包括:该相邻连通部件落入通过文本边界限定的区域以内的面积与该相邻连通部件的面积之比大于第二阈值,其中该文本边界是根据种子连通部件中的起始种子连通部件和结束种子连通部件之间所成的角度确定的。
方案10、一种文本图像提取方法,用于基于用户指定区域从输入图像中获取文本图像区域,该文本图像提取方法包括:
根据在输入图像中检测到的每个边缘的亮度变化趋势确定每个边缘的极性;
将极性相反的两个边缘确定为匹配边缘对,并且基于该用户指定区域中的各个匹配边缘对中的两个匹配边缘之间的距离确定该用户指定区域中的文本的笔划宽度;
将输入图像的匹配边缘对中的、两个匹配边缘之间的距离与笔划宽度之差在第一预定范围之内的匹配边缘对之间的像素确定为所述输入图像的前景像素,并且将其余像素确定为输入图像的背景像素;以及
利用前景像素对用户指定区域进行扩展,从而在输入图像中获取包括与用户指定区域相关的文本图像的文本图像区域。
方案11、根据方案10所述的文本图像区域提取方法,在确定检测到的边缘极性之前还包括根据用户在该输入图像中指定的用户指定区域的图像质量设定图像边缘检测的阈值,并采用所设定的阈值对图像的边缘进行检测。
方案12、根据方案11或10所述的文本图像区域提取方法,在获取文本图像区域之后还包括根据用户指定区域的连通部件对文本图像区域获取单元获取的文本图像区域进行优化。
方案13、一种电子设备,包括根据方案1-9中任一项所述的文本图像获取装置。
方案14、根据方案13所述的电子设备,其中电子设备是手机、计算机、平板电脑、或个人数字助理。
方案15、一种使得计算机用作如方案1-9中任一项所述的文本图像获取装置的程序。
方案16、一种计算机可读存储介质,其上存储有能够由计算设备执行的计算机程序,该程序使得计算机用作如方案1-9中任一项所述的文本图像获取装置。
最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims (10)

1.一种文本图像提取装置,用于基于用户指定区域从输入图像中提取文本图像区域,该文本图像提取装置包括:
边缘极性确定单元,用于根据在所述输入图像中检测到的每个边缘的亮度变化趋势确定每个边缘的极性;
笔划宽度确定单元,用于将极性相反的两个边缘确定为匹配边缘对,并且基于该用户指定区域中的各个匹配边缘对中的两个匹配边缘之间的距离确定该用户指定区域中的文本的笔划宽度;
前景像素确定单元,用于将所述输入图像的匹配边缘对中的、两个匹配边缘之间的距离与所述笔划宽度之差在第一预定范围之内的匹配边缘对之间的像素确定为所述输入图像的前景像素,并且将其余像素确定为所述输入图像的背景像素;以及
文本图像区域获取单元,利用前景像素对所述用户指定区域进行扩展,从而在所述输入图像中获取包括与用户指定区域相关的文本图像的文本图像区域。
2.根据权利要求1所述的文本图像提取装置,其中所述文本信息提取装置还包括:边缘检测单元,用于根据所述用户指定区域的图像质量设定用于所述输入图像的边缘检测的阈值,并利用所设定的阈值对所述输入图像的边缘进行检测。
3.根据权利要求1或2所述的文本图像提取装置,其中所述文本图像区域获取单元包括:
文本方向确定子单元,用于基于用户指定区域中的前景像素的水平方向和垂直方向的投影来确定用户指定区域的文本方向;
用户指定区域扩展子单元,用于根据所确定的用户指定区域的文本方向来选择扩展方向,以对用户指定区域进行扩展,从而获取所述文本图像区域。
4.根据权利要求3所述的文本图像提取装置,其中所述用户指定区域扩展子单元被配置为当用户指定区域的文本方向被确定为第一方向时,采用先上下扩展再左右扩展的方式对用户指定区域进行扩展,当用户指定区域的文本方向被确定为与第一方向不同的第二方向时,采用先左右扩展再上下扩展的方式对用户指定区域进行扩展,
其中,所述第一方向是水平方向或者与水平方向所成的角度在第二预定范围内的任一方向。
5.根据权利要求1-4中任一项所述的文本图像提取装置,其中所述文本图像提取装置还包括前景像素去噪单元,用于根据所述前景像素确定单元确定的前景像素的灰度值来确定前景像素参考灰度值,并且根据前景像素参考灰度值选择用于由所述文本图像区域获取单元对于用户指定区域进行扩展时所使用的前景像素。
6.根据权利要求1-5中任一项所述的文本图像提取装置,所述文本图像提取装置还包括文本图像区域优化单元,用于根据用户指定区域的连通部件对所述文本图像区域进行优化。
7.根据权利要求6所述的文本图像提取装置,其中所述文本图像区域优化单元包括:
层选择子单元,用于将所述文本图像区域内的文本图像分解为正向文本图层和反向文本图层,并根据前景像素和背景像素的预估灰度值选择所述正向文本图层或所述反向文本图层作为所述文本图像区域的文本图层;以及
连通部件组合子单元,用于根据所述文本图像区域中的连通部件的位置信息,将所选择的所述文本图层上、与用户指定区域中预定的连通部件之间符合预定条件的连通部件组合在一起,以形成包括与用户指定区域相关的文本图像的优化文本图像区域。
8.根据权利要求7所述的文本图像提取装置,其中所述连通部件组合子单元包括:
种子连通部件确定模块,用于将位于所述文本图像区域中的、与用户指定区域相交的连通部件确定为种子连通部件;以及
连通部件组合模块,用于将所选择的所述文本图层上、与所述种子连通部件具有以下位置关系的相邻连通部件与所述种子连通部件组合在一起,以形成优化文本图像区域:该相邻连通部件落入通过所述种子连通部件的高度确定的区域内的面积与该相邻连通部件的面积之比大于第一阈值,
其中所述种子连通部件确定模块还被配置为将与所述种子连通部件组合在一起的相邻连通部件也确定为种子连通部件。
9.根据权利要求8所述的文本图像提取装置,其中所述位置关系还包括:该相邻连通部件落入通过文本边界限定的区域以内的面积与该相邻连通部件的面积之比大于第二阈值,其中所述文本边界是根据种子连通部件中的起始种子连通部件和结束种子连通部件之间所成的角度确定的。
10.一种文本图像提取方法,用于基于用户指定区域从输入图像中获取文本图像区域,该文本图像提取方法包括:
根据在所述输入图像中检测到的每个边缘的亮度变化趋势确定每个边缘的极性;
将极性相反的两个边缘确定为匹配边缘对,并且基于该用户指定区域中的各个匹配边缘对中的两个匹配边缘之间的距离确定该用户指定区域中的文本的笔划宽度;
将所述输入图像的匹配边缘对中的、两个匹配边缘之间的距离与所述笔划宽度之差在第一预定范围之内的匹配边缘对之间的像素确定为所述输入图像的前景像素,并且将其余像素确定为所述输入图像的背景像素;以及
利用前景像素对所述用户指定区域进行扩展,从而在所述输入图像中获取包括与用户指定区域相关的文本图像的文本图像区域。
CN201310136363.3A 2013-04-18 2013-04-18 文本图像提取装置以及方法 Active CN104112135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310136363.3A CN104112135B (zh) 2013-04-18 2013-04-18 文本图像提取装置以及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310136363.3A CN104112135B (zh) 2013-04-18 2013-04-18 文本图像提取装置以及方法

Publications (2)

Publication Number Publication Date
CN104112135A true CN104112135A (zh) 2014-10-22
CN104112135B CN104112135B (zh) 2017-06-06

Family

ID=51708919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310136363.3A Active CN104112135B (zh) 2013-04-18 2013-04-18 文本图像提取装置以及方法

Country Status (1)

Country Link
CN (1) CN104112135B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403179A (zh) * 2016-05-20 2017-11-28 株式会社理光 一种物品包装信息的注册方法及装置
CN108573251A (zh) * 2017-03-15 2018-09-25 北京京东尚科信息技术有限公司 文字区域定位方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020136429A1 (en) * 1994-03-17 2002-09-26 John Stach Data hiding through arrangement of objects
CN102054271A (zh) * 2009-11-02 2011-05-11 富士通株式会社 文本行检测方法和装置
CN102147863A (zh) * 2010-02-10 2011-08-10 中国科学院自动化研究所 一种网络动画中的文字定位及识别方法
CN102810155A (zh) * 2011-05-31 2012-12-05 富士通株式会社 用于从图像中提取文本笔划图像的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020136429A1 (en) * 1994-03-17 2002-09-26 John Stach Data hiding through arrangement of objects
CN102054271A (zh) * 2009-11-02 2011-05-11 富士通株式会社 文本行检测方法和装置
CN102147863A (zh) * 2010-02-10 2011-08-10 中国科学院自动化研究所 一种网络动画中的文字定位及识别方法
CN102810155A (zh) * 2011-05-31 2012-12-05 富士通株式会社 用于从图像中提取文本笔划图像的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403179A (zh) * 2016-05-20 2017-11-28 株式会社理光 一种物品包装信息的注册方法及装置
CN107403179B (zh) * 2016-05-20 2020-10-23 株式会社理光 一种物品包装信息的注册方法及装置
CN108573251A (zh) * 2017-03-15 2018-09-25 北京京东尚科信息技术有限公司 文字区域定位方法和装置
US11017260B2 (en) 2017-03-15 2021-05-25 Beijing Jingdong Shangke Information Technology Co., Ltd. Text region positioning method and device, and computer readable storage medium
CN108573251B (zh) * 2017-03-15 2021-09-07 北京京东尚科信息技术有限公司 文字区域定位方法和装置

Also Published As

Publication number Publication date
CN104112135B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
US20210041588A1 (en) Method for identifying boundary of sedimentary facies, computer device and computer readable storage medium
US20190385054A1 (en) Text field detection using neural networks
CN101453575B (zh) 一种视频字幕信息提取方法
US10437466B2 (en) Formula inputting method and apparatus
US20190294921A1 (en) Field identification in an image using artificial intelligence
CN103455806B (zh) 文档处理装置、文档处理方法以及扫描仪
JP2020511726A (ja) 電子文書からのデータ抽出
WO2020133442A1 (zh) 一种识别文本的方法及终端设备
US20200387553A1 (en) Digitization of technical documentation driven by machine learning
US10762389B2 (en) Methods and systems of segmentation of a document
CN105512611A (zh) 一种表格图像检测识别方法
US10025976B1 (en) Data normalization for handwriting recognition
CN108520070B (zh) 用于电子地图的筛选兴趣点的方法和装置
CN112597773A (zh) 文档结构化方法、系统、终端及介质
CN102054271A (zh) 文本行检测方法和装置
CN110889437B (zh) 一种图像处理方法、装置、电子设备及存储介质
US20210056429A1 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN113705286A (zh) 一种表格检测与识别方法和介质
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
US20130218913A1 (en) Parsing tables by probabilistic modeling of perceptual cues
CN114529773A (zh) 基于结构单元的表格识别方法、系统、终端及介质
CN102890784B (zh) 识别图像块中文字的方向的方法和装置
CN104112135A (zh) 文本图像提取装置以及方法
CN111709475B (zh) 一种基于N-grams的多标签分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant