CN104732188B

CN104732188B - 文本提取方法和装置

Info

Publication number: CN104732188B
Application number: CN201310705512.3A
Authority: CN
Inventors: 汪留安; 胜山裕; 孙俊; 何源; 范伟; 堀田悦伸
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-12-19
Filing date: 2013-12-19
Publication date: 2017-12-08
Anticipated expiration: 2033-12-19
Also published as: CN104732188A

Abstract

本发明涉及一种文本提取方法和装置。一种文本提取方法，包括：获取用户对图像上感兴趣的文本的指定；确定文本的大小；确定文本的排列方向；估计文本的排列方向的偏移角度；根据文本的大小、排列方向和偏移角度来确定包含文本的图像片段；对图像片段中的种子连通部件进行种子连通部件生长以提取用户感兴趣的文本。

Description

文本提取方法和装置

技术领域

本发明涉及字符识别领域，更具体地涉及一种基于用户对图像上感兴趣文本的指定来快速提取图像中的文本的方法和装置。

背景技术

随着智能手机、便携式电脑等手持设备的越来越广泛的使用，基于用户引导的文本检测在用户感兴趣信息检索、用户体验及人机交互领域等方面扮演的角色不断增加。但是由于文本大小、方向、倾斜、光照、复杂背景等因素的影响，快速且准确的进行文本检测是一项艰巨的任务。大部分的传统方法更关注于整个图像区域【文献1】及所有文本检测【文献2】，而没有关注用户感兴趣的文本，而这部分文本对用户来说恰好是最重要的。用户感兴趣的文本可以用来作为图像名称、标签、或人机交互的关键词等。

其中，基于全图处理的方法经常使用边缘、颜色、连通部件、机器学习的方法对全图提取全部文本，并筛选用户感兴趣文本。全图处理中有很多无用的操作，并且可能加入噪声，更加糟糕的是处理时间将会灾难性的增长，那么这项技术就很难应用于对处理速度比较敏感的手持设备中。

全部文本提取的方法试图提取出所有的文本，以提供给用户。对用户来说，其中可能存在大量无用的文本，并且消耗大量的处理时间，与此同时，用户感兴趣的信息被夹杂在所有的文本信息之中，用户可能感到困惑，无所适从。

因此需要一种能够基于用户的指定来快速提取图像中的文本的方法和装置。

[非专利文献1]J.Du,Q.Huo,L.Sun,J.Sun,“Snap and Translate Using WindowsPhone,”International Conference on Document Analysis and Recognition,pp.809-813,2011.

[非专利文献2]H.G.Zhang,K.Zhao,Y.Z.Song,J.Guo,“Text extraction fromnatural scene image:A survey,”Neurocomputing,2013.

[专利文献3]Ron karidi,Lai Chee Man,“Method and apparatus for textdetection,”WO2002101637A2,2002.

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的一个主要目的在于，提供一种文本提取方法，包括：获取用户对图像上感兴趣的文本的指定；确定文本的大小；确定文本的排列方向；估计文本的排列方向的偏移角度；根据文本的大小、排列方向和偏移角度来确定包含文本的图像片段；对图像片段中的种子连通部件进行种子连通部件生长以提取用户感兴趣的文本。

根据本发明的一个方面，提供了一种文本提取装置，包括：文本指定单元，文本指定单元被配置为获取用户对图像上感兴趣的文本的指定；文本大小确定单元，文本大小确定单元被配置为确定文本的大小；文本排列方向确定单元，文本排列方向确定单元被配置为确定文本的排列方向；排列方向偏移角度估计单元，排列方向偏移角度估计单元被配置为估计文本的排列方向的偏移角度；图像片段确定单元，图像片段确定单元被配置为根据文本的大小、排列方向和偏移角度来确定包含文本的图像片段；文本提取单元，文本提取单元被配置为对图像片段中的种子连通部件进行种子连通部件生长以提取用户感兴趣的文本。

另外，本发明的实施例还提供了用于实现上述方法的计算机程序。

此外，本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述方法的计算机程序代码。

通过本发明，可以只处理用户感兴趣文本位置的部分图像，速度快，精度高，并能有效地自适应文本大小、方向和倾斜角度。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1示出了对图像应用根据本发明的一个实施例的文本提取方法的示意图；

图2是示出根据本发明的一个实施例的文本提取方法200的示例性流程图；

图3示出了确定图像中的用户感兴趣的文本的大小的示例性流程图；

图4A示出了图像中的窗口的示意图；

图4B示出了水平方向检测子和竖直方向检测子的示意图；

图4C示出了正方形检测子的示意图；

图5A示出了排列在水平方向上的两个连通部件的示意图；

图5B示出了排列在竖直方向上的两个连通部件的示意图；

图6示出了图像中的种子连通部件；

图7是示出图像坐标系转换到世界坐标系的示意图；

图8是示出文本的排列方向的倾斜角度的示意图；

图9是截取图像片段的示意图；

图10A-10B是示出对种子连通部件进行种子连通部件生长来定位用户感兴趣的文本的示意图；

图11是示出根据本发明的一个实施例的文本提取装置1100的示例性配置的框图；

图12是示出文本大小确定单元1120的示例性配置的框图；

图13是示出排列方向偏移角度估计单元1140的示例性配置的框图；

图14是示出图像片段确定单元1150的示例性配置的框图；

图15是示出文本提取单元1160的示例性配置的框图；

图16是示出可以用于实施本发明的文本提取方法和装置的计算设备的举例的结构图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

图1示出了对图像应用根据本发明的一个实施例的文本提取方法的示意图。

根据本发明的文本提取方法可以基于用户对其感兴趣的文本所在的区域的指定，从图1中左侧所示的图像中截取出包含用户感兴趣的文本“清水寺公园”的图像片段，对该图像片段进行处理，提取出其中包含的文本，所提取的文本可以进一步作为图像名称、图像标签、或作为互联网搜索的关键词来应用。下面将详细说明根据本发明的一个实施例的文本提取方法从图像中提取用户感兴趣的文本的具体过程。

图2是示出根据本发明的一个实施例的文本提取方法200的示例性流程图。

如图2所示，首先，在步骤S210中，获取用户对图像上感兴趣文本的指定。

具体地，用户可以通过智能手机、便携式电脑、平板电脑、照相机等设备获取图像。然后用户可以在图像上指定他/她所感兴趣的文本所在区域。例如，用户可以通过用手指点击手机或电脑上的其感兴趣的文本所在的区域，也可以通过使照相机或摄像头的焦距对准感兴趣的文本所在的区域来指定。

接下来，在步骤S220中，要确定用户感兴趣的文本的大小。

将参考图3具体说明书确定用户感兴趣的文本的大小的过程。图3示出了确定图像中的用户感兴趣的文本的大小的示例性流程图。

在本发明中，采用多个级联窗口来自适应不同文本的大小，基于级联窗口来估计文本大小。

在步骤S310中，针对用户指定的图像上感兴趣的文本所在的区域，初始化多个尺寸递增的级联窗口。例如，设置尺寸分别为80*80、160*160、240*240、320*320的多个级联窗口。为了加速处理，优选地，可以将所有的窗口归一化到固定大小。例如，可以将所有的窗口都归一化为80*80的尺寸。

在步骤S320中，首先在第一级窗口中检测连通部件。如果当前窗口条件下没有检测到文本，则将窗口扩大为下一级窗口来进行检测。

在本发明中，优选地，可以使用Canny边缘检测来生成连通部件。具体地，Canny边缘检测的高阈值和低阈值可以通过下面的方程1计算得到。

其中：var为用户指定位置处的图像块的方差，k1和k2是预定义的系数，200和250分别是预设的低阈值和高阈值。

Canny边缘检测的具体处理对于本领域技术人员来说是可以理解的，在此省略其详细说明。

采用Canny边缘检测的操作具有两个优点：一是它能够自适应不同质量的图像，低对比度的图像也能得到较好的连通部件；二是连通部件不仅适用于白底黑字的文本，而且适用于黑底白字的文本。

接下来，在步骤S330中，在窗口中分别将文本检测子初始化为水平方向检测子、竖直方向检测子和正方形检测子。

图4A示出了图像中的窗口的示意图，其中的方框即是设定的一个窗口。在该窗口中利用文本检测子来检测文本。文本检测子包括水平方向检测子、竖直方向检测子和正方形检测子。图4B和4C是将图4A中的窗口放大的图。如图4B中的水平框和竖直框分别示出了水平方向检测子、竖直方向检测子，图4C中的小方框示出了正方形检测子。

接下来，在步骤S340中，分别得到与每个文本检测子存在重叠的连通部件。

可以根据连通部件的大小和位置关系来判断文本的排列方向为水平方向还是竖直方向，从而确定采用水平方向检测子还是竖直方向检测子来检测与文本检测子存在重叠的连通部件。如果不能确定文本的排列方向，则采用正方形检测子来进行检测。将在下文中详细说明如何确定文本的排列方向。

接下来，在步骤S350中，确定连通部件的宽度和高度。

然后，在步骤S360中，将连通部件的宽度和高度与预定阈值进行比较。如果连通部件的宽度或高度小于预定阈值，则放大文本检测子，并重复执行以上步骤S340和S350，直到确定连通部件的宽度和高度都大于预定阈值。

接下来，在步骤S370中确定文本检测子与窗口的边界是否相临近。本领域技术人员可以理解，例如可以通过检查文本检测子与窗口的边界的距离是否小于预定个数的像素来确定文本检测子与窗口的边界是否相临近。

如果文本检测子与窗口的边界相邻近，则将窗口放大为级联窗口中的下一级窗口，在该下一级窗口中检测连通部件，并重复执行以上步骤S330至步骤S370。

如果确定文本检测子与窗口的边界不邻近，将此时所确定的连通部件确定为种子连通部件，将种子连通部件的宽度和高度中的较小者确定为文本的大小。

优选地，可以按照文本大小把图像归一化到固定的文本大小。这样可以提高对图像的处理速度。

接下来，将具体说明在步骤S230中如何确定文本的排列方向。

首先在检测到的连通部件中任选两个连通部件，判断这两个连通部件是否满足以下两个标准：一是大小近似标准，即左右或上下两个连通部件的大小要相似；二是重叠标准，即左右两个连通部件在竖直方向上或上下两个连通部件在水平方向上偏移的距离要小于预定偏移阈值。

图5A示出了排列在水平方向上的两个连通部件在竖直方向上偏移一定距离；图5B示出了排列在竖直方向上的两个连通部件在水平方向上偏移一定距离。

优选地，可以通过以下方程2和方程3来分别设定左右两个连通部件的水平方向重叠标准以及上下两个连通部件的竖直方向重叠标准。

在图5A中，h1为左边的连通部件的高度，h2是右边的连通部件的高度，h是左边的连通部件的下边沿与右边的连通部件的上边沿之间在竖直方向上的距离，T是预定比例，如果满足以下方程2，则左右两个连通部件满足水平方向重叠标准。

方程2

本领域技术人员可以理解，如果与图5A不同，左边的连通部件在右边的连通部件下方，则h是左边的连通部件的上边沿与右边的连通部件的下边沿之间在竖直方向上的距离。

在图5B中，w1为上边的连通部件的宽度，w2是下边的连通部件的宽度度，h是上边的连通部件的左边沿与下边的连通部件的右边沿之间在水平方向上的距离，T是预定比例，如果满足以下方程3，则上下两个连通部件满足竖直方向重叠标准。

方程3

本领域技术人员可以理解，如果与图5B不同，上边的连通部件在下边的连通部件左方，则h是上边的连通部件的右边沿与下边的连通部件的左边沿之间在水平方向上的距离。

如果不能确定感兴趣文本的排列方向，则将文本检测子确定为正方形检测子。如果文本检测子确定为正方形检测子，那么只有一个文字可以被检测出来。需要进一步估计文本的方向。

可以采用文本连通部件的聚集特征来估计文本的排列方向是水平方向还是竖直方向。

首先，统计在水平方向上满足大小近似标准和重叠标准的连通部件的个数，然后统计在竖直方向上满足大小近似标准和重叠标准的连通部件的个数，最后选择连通部件个数较多的方向作为文本行的排列方向。

可以将与种子连通部件相邻且满足大小近似标准和水平方向重叠标准或满足大小近似标准和竖直方向重叠标准的连通部件加入到种子连通部件来形成新的种子连通部件。

如图6所示，实线方框中的“森”是确定的种子连通部件，由于水平方向上满足大小近似标准和重叠标准的连通部件的个数大于竖直方向上满足大小近似标准和重叠标准的连通部件的个数，因此将与“森”相邻的两个连通部件“の”和“美”加入到种子连通部件来形成新的种子连通部件。通过新的种子连通部件来估计文本的偏移角度。

接下来，将具体说明在步骤S240中如何估计文本的排列方向的偏移角度。

本发明采用一种投影能力最小的文本倾斜角度估计方法。

将所选定的种子连通部件的中心作为坐标系的中心，把图像坐标系转换到世界坐标系，如图7所示，其中

然后每隔预定角度α旋转世界坐标系，按照下面的方程4计算种子连通部件的投影能量值，将能够使投影能量值最小的角度θ确定为文本的倾斜角度，如图8所示，其中，字符“E”为选定的种子连通部件，虚线表示水平方向，实线箭头表示文本的倾斜方向。实线箭头与虚线的夹角即为文本的倾斜角度θ。

方程4

其中，使得投影能量值最小的角度θ是文本的排列方向的偏移角度，β表示最大偏移角度，#(vp)表示文本的边缘像素点投影到坐标轴上某一点的像素的个数；d表示该点的投影距离。

优选地，可以取β等于15度，取α等于2度。

接下来，在步骤S250中根据上面计算出的文本的大小、文本的排列方向和文本的排列方向的偏移角度可以截取出图像片段。

具体地，首先以种子连通部件的中心作为中心，在图9中，图像中间的小圆圈示意性的示出种子连通部件的中心。通过该中心，按照以上确定的文本的倾斜角度确定一条直线来包含所有的文本信息（图9中实线），将该直线与图像边界的交点（图中的两个黑点）按照文本的大小向外扩展，得到图中的两条点划线，最后，按照这两条点划线截取出图像片段。

最后，在步骤S260中对图像片段中的种子连通部件进行种子连通部件生长以提取感兴趣的文本。

首先，可以按照方程5所示的比例对截取的图像片段进行缩小，以提高对图像片段的处理速度。方程5所示的比例即为上面所确定的文本的大小除以预定归一化文本大小。

其中，w_seedCC和h_seedCC分别为种子连通部件的宽度和高度，Norm_size表示预定归一化文本大小。

接下来，通过对缩小后的图像片段进行二值化得到全部的候选连通部件，然后根据连通部件的位置关系对种子连通部件进行种子连通部件生长，连接文本行上的所有连通部件，得到用户感兴趣文本。如图10A中所示，以其中的字符“E”作为种子连通部件，对该种子连通部件进行种子连通部件生长，最后可以定位用户感兴趣的文本，如10B中的虚线框中所示。

定位的文本块可以送到OCR引擎识别，得到用户感兴趣文本的内容，这些识别的文本可以作为图像名称、图像标签、图像内容、所搜索引擎的关键词等进行应用。

图11是示出根据本发明的一个实施例的文本提取装置1100的示例性配置的框图。

如图11所示，文本提取装置1100包括文本指定单元1110、文本大小确定单元1120、文本排列方向确定单元1130、排列方向偏移角度估计单元1140、图像片段确定单元1150和文本提取单元1160。

其中，文本指定单元1110被配置为获取用户对图像上感兴趣的文本的指定；文本大小确定单元1120被配置为确定文本的大小；文本排列方向确定单元1130被配置为确定文本的排列方向；排列方向偏移角度估计单元1140被配置为估计文本的排列方向的偏移角度；图像片段确定单元1150 被配置为根据文本的大小、排列方向和偏移角度来确定包含文本的图像片段；文本提取单元1160被配置为对图像片段中的种子连通部件进行种子连通部件生长以提取用户感兴趣的文本。

优选地，如图12所示，文本大小确定单元1120包括：窗口初始化单元1210、连通部件检测单元1220、文本检测子初始化单元1230、重叠连通部件确定单元1240、宽度和高度确定单元1250、宽度和高度判断单元1260、邻近边界判断单元1270、种子连通部件及文本大小确定单元1280。

优选地，初始化单元1210被配置为针对用户指定的图像上感兴趣的文本所在的区域，初始化多个尺寸递增的级联窗口；连通部件检测单元1220被配置为在窗口中检测连通部件；文本检测子初始化单元1230被配置为在窗口中初始化文本检测子；重叠连通部件确定单元1240被配置为确定与文本检测子存在重叠的连通部件；宽度和高度确定单元1250被配置为确定连通部件的宽度和高度；宽度和高度判断单元1260被配置为将连通部件的宽度和高度与预定阈值进行比较，如果连通部件的宽度或高度小于预定阈值，则放大文本检测子；邻近边界判断单元1270被配置为确定文本检测子与窗口的边界是否相临近，如果文本检测子与窗口的边界相邻近，则将窗口放大为级联窗口中的下一级窗口，在该下一级窗口中检测连通部件；种子连通部件及文本大小确定单元1280被配置为在确定文本检测子与窗口的边界不邻近时，将此时所确定的连通部件确定为种子连通部件，将种子连通部件的宽度和高度中的较小者确定为文本的大小。

优选地，文本大小确定单元1120还包括：文本检测子确定单元（图中未示出）。文本检测子确定单元被配置为根据文本的排列方向将文本检测子确定为水平方向检测子、竖直方向检测子和正方形检测子中的一个。

优选地，文本排列方向确定单元1130包括连通部件匹配单元（图中未示出）。连通部件匹配单元被配置为：在文本检测子中选择两个连通部件：第一连通部件和第二连通部件；如果第一连通部件和第二连通部件满足大小近似标准和水平方向重叠标准，则文本的排列方向是水平型，并将文本检测子确定为水平方向检测子；如果第一连通部件和第二连通部件满足大小近似标准和竖直方向重叠标准，则文本的排列方向是竖直型，并将文本检测子确定为竖直方向检测子；如果不能确定文本的排列方向，则将文本检测子确定为正方形检测子，其中，大小近似标准是第一连通部件和第二连通部件的大小近似相等，水平方向重叠标准是第一连通部件和第二连通部件在竖直方向上偏移的距离小于预定偏移阈值，竖直方向重叠标准是第一连通部件和第二连通部件在水平方向上偏移的距离小于预定偏移阈值。

优选地，连通部件匹配单元还被配置为：如果将文本检测子确定为正方形框，则根据检测到的文本检测子中的多个连通部件中满足大小近似标准和水平方向重叠标准以及满足大小近似标准和竖直方向重叠标准的个数来确定感兴趣文本的排列方向，其中，如果满足大小近似标准且满足水平方向重叠标准件的连通部件的个数为N1，满足大小近似标准且满足竖直方向重叠标准的连通部件的个数为N2，当N1>N2，确定文本的排列方向为水平型，当N2>N1，则确定文本的排列方向为竖直型。

优选地，如图13所示，排列方向偏移角度估计单元1140包括：世界坐标建立单元1310、角度旋转单元1320和偏移角度确定单元1330。

优选地，世界坐标建立单元1310被配置为将所选定的种子连通部件的中心作为坐标系的中心来建立世界坐标；角度旋转单元1320被配置为每隔预定角度α旋转世界坐标的坐标轴；偏移角度确定单元1330被配置为按照公式计算投影能量值，将使得投影能量值最小的角度θ确定为文本的排列方向的偏移角度，其中β表示最大偏移角度，#(vp)表示文本的边缘像素点投影到坐标轴上某一点的像素的个数；d表示该点的投影距离。

优选地，排列方向偏移角度估计单元1140还包括种子连通部件形成单元（图中未示出）。种子连通部件形成单元被配置成将与种子连通部件相邻且满足大小近似标准和水平方向重叠标准或满足大小近似标准和竖直方向重叠标准的连通部件加入到种子连通部件来形成新的种子连通部件，通过新的种子连通部件来估计文本的排列方向的偏移角度。

优选地，如图14所示，图像片段确定单元1150包括：直线确定单元1410和图像片段截取单元1420。

其中，直线确定单元1410被配置为根据文本的排列方向的偏移角度，通过种子连通部件的中心确定一条直线；图像片段截取单元1420被配置为将直线与图像的边界的交点按照文本的大小向外进行扩展，来截取图像片段。

优选地，如图15所示，文本提取单元1160包括：图像片段缩小单元 1510，候选连通部件获得单元1520和种子连通部件生长单元1530。其中，图像片段缩小单元1510被配置为对图像片段按比例进行缩小；候选连通部件获得单元1520被配置为通过对图像片段进行二值化得到全部的候选连通部件；种子连通部件生长单元1530被配置为基于候选连通部件与种子连通部件的位置关系，对种子连通部件进行种子连通部件生长，以提取文本。

其中，缩小的比例为所确定的文本的大小除以预定归一化文本大小。

关于文本提取装置1100的各个部分的操作和功能的细节可以参照结合图1至图10描述的本发明的文本提取方法的实施例，这里不再详细描述。

在此需要说明的是，图10-15所示的文本提取装置1100及其组成单元的结构仅仅是示例性的，本领域技术人员可以根据需要对图10-15所示的结构框图进行修改。

本发明提出了一种基于用户对感兴趣文本的指定的快速文本提取方法。通过本发明，可以只处理用户感兴趣文本位置的部分图像，速度快，精度高，并能有效地自适应文本大小、方向和倾斜角度。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图16所示的通用计算机1600安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图16中，中央处理单元(CPU)1601根据只读存储器(ROM)1602中存储的程序或从存储部分1608加载到随机存取存储器(RAM)1603的程序执行各种处理。在RAM1603中，也根据需要存储当CPU1601执行各种处理等等时所需的数据。CPU1601、ROM1602和RAM1603经由总线1604彼此链路。输入/输出接口1605也链路到总线1604。

下述部件链路到输入/输出接口1605：输入部分1606（包括键盘、鼠标等等）、输出部分1607（包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等）、存储部分1608（包括硬盘等）、通信部分1609（包括网络接口卡比如LAN卡、调制解调器等）。通信部分1609经由网络比如因特网执行通信处理。根据需要，驱动器1610也可链路到输入/输出接口1605。可拆卸介质1611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1610上，使得从中读出的计算机程序根据需要被安装到存储部分1608中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图16所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1611。可拆卸介质1611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM1602、存储部分1608中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本领域的普通技术人员应理解，在此所例举的是示例性的，本发明并不局限于此。

在本说明书中，“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

作为一个示例，上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合，并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。

作为一个示例，在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机（例如图16所示的通用计算机1600）安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

本发明及其优点，但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此，所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。

基于以上的说明，可知公开至少公开了以下技术方案：

附记1、一种文本提取方法，包括：

获取用户对图像上感兴趣的文本的指定；

确定所述文本的大小；

确定所述文本的排列方向；

估计所述文本的所述排列方向的偏移角度；

根据所述文本的大小、所述排列方向和所述偏移角度来确定包含所述文本的图像片段；

对所述图像片段中的种子连通部件进行种子连通部件生长以提取所述用户感兴趣的所述文本。

附记2、根据附记1所述的文本提取方法，其中，所述确定所述文本的大小的步骤包括：

针对所述用户指定的所述图像上感兴趣的文本所在的区域，初始化多个尺寸递增的级联窗口；

在所述窗口中检测连通部件；

在所述窗口中初始化文本检测子；

确定与所述文本检测子存在重叠的连通部件；

确定所述连通部件的宽度和高度；

将所述连通部件的所述宽度和所述高度与预定阈值进行比较，如果所述连通部件的所述宽度或所述高度小于所述预定阈值，则放大所述文本检测子，并重复执行以上所述确定与所述文本检测子重叠的连通部件的步骤和所述确定所述连通部件的宽度和高度的步骤，直到确定所述连通部件的所述宽度和所述高度都大于所述预定阈值；

确定所述文本检测子与所述窗口的边界是否相临近，如果所述文本检测子与所述窗口的边界相邻近，则将所述窗口放大为所述级联窗口中的下一级窗口，在该下一级窗口中检测连通部件，并重复执行以上从在所述窗口中初始化文本检测子的步骤开始至确定所述文本检测子与所述窗口的边界是否相邻近的步骤；

如果确定所述文本检测子与所述窗口的边界不邻近，将此时所确定的连通部件确定为种子连通部件，将所述种子连通部件的宽度和高度中的较小者确定为所述文本的大小。

附记3、根据附记2所述的文本提取方法，其中所述文本检测子被初始化为三个，包括水平方向检测子、竖直方向检测子和正方形检测子，其中，所述确定与所述文本检测子存在重叠的连通部件的步骤之后还包括：

根据所述文本的排列方向将所述文本检测子确定为水平方向检测子、竖直方向检测子和正方形检测子中的一个。

附记4、根据附记3所述的文本提取方法，其中确定所述文本的排列方向的步骤包括：

在所述文本检测子中选择两个连通部件：第一连通部件和第二连通部件；

如果所述第一连通部件和所述第二连通部件满足大小近似标准和水平方向重叠标准，则所述文本的排列方向是水平型，并将所述文本检测子确定为水平方向检测子；

如果所述第一连通部件和所述第二连通部件满足大小近似标准和竖直方向重叠标准，则所述文本的排列方向是竖直型，并将所述文本检测子确定为竖直方向检测子；

如果不能确定所述文本的排列方向，则将所述文本检测子确定为正方形检测子，

其中，所述大小近似标准是所述第一连通部件和所述第二连通部件的大小近似相等，所述水平方向重叠标准是所述第一连通部件和所述第二连通部件在竖直方向上偏移的距离小于预定偏移阈值，所述竖直方向重叠标准是所述第一连通部件和所述第二连通部件在水平方向上偏移的距离小于预定偏移阈值。

附记5、根据附记4所述的文本提取方法，其中所述水平方向重叠标准通过以下方式来判断：所述第一连通部件的下边沿和所述第二连通部件的上边沿之间的距离与所述第一连通部件的上边沿和所述第二连通部件的下边沿之间的距离中的较小者除以所述第一连通部件的高度与所述第二连通部件的高度之和是否大于预定比例；

所述竖直方向重叠标准通过以下方式来判断：所述第一连通部件的左边沿和所述第二连通部件的右边沿之间的距离与所述第一连通部件的右边沿和所述第二连通部件的左边沿之间的距离中的较小者除以所述第一连通部件的宽度与所述第二连通部件的宽度之和是否大于预定比例。

附记6、根据附记5所述的文本提取方法，其中，如果将所述文本检测子确定为正方形检测子，则根据检测到的所述文本检测子中的多个连通部件中满足大小近似标准和水平方向重叠标准以及满足大小近似标准和竖直方向重叠标准的个数来确定所述感兴趣文本的排列方向，其中，如果满足大小近似标准且满足水平方向重叠标准件的连通部件的个数为N1，满足大小近似标准且满足竖直方向重叠标准的连通部件的个数为N2，当N1>N2，确定所述文本的排列方向为水平型，当N2>N1，则确定所述文本的排列方向为竖直型。

附记7、根据附记6所述的文本提取方法，所述估计所述文本的所述排列方向的偏移角度的步骤还包括：将与所述种子连通部件相邻且满足大小近似标准和水平方向重叠标准或满足大小近似标准和竖直方向重叠标准的连通部件加入到所述种子连通部件来形成新的种子连通部件，通过所述新的种子连通部件来确定所述文本的所述排列方向的偏移角度。

附记8、根据附记7所述的文本提取方法，其中，所述估计所述文本的所述排列方向的偏移角度的步骤包括：

将所选定的种子连通部件的中心作为坐标系的中心来建立世界坐标；

每隔预定角度α旋转所述世界坐标的坐标轴；

按照公式计算投影能量值，将使得投影能量值最小的角度θ确定为所述文本的所述排列方向的偏移角度，其中β表示最大偏移角度，#(vp)表示所述文本的边缘像素点投影到所述坐标轴上某一点的像素的个数；d表示该点的投影距离。

附记9、根据附记8所述的文本提取方法，其中，所述根据所述文本的大小、所述排列方向和所述偏移角度来确定包含所述文本的图像片段的步骤包括：

根据所述文本的排列方向的偏移角度，通过所述种子连通部件的中心确定一条直线；

将所述直线与所述图像的边界的交点按照所述文本的大小向外进行扩展，来截取所述图像片段。

附记10、根据附记9所述的文本提取方法，其中，所述对所述图像片段中的种子连通部件进行种子连通部件生长以提取所述文本的步骤包括：

对截取的所述图像片段按比例进行缩小，所述比例为所述文本的大小除以预定归一化文本大小；

通过对所述图像片段进行二值化得到全部的候选连通部件；

基于所述候选连通部件与所述种子连通部件的位置关系，对所述种子连通部件进行种子连通部件生长，以提取所述文本。

附记11、一种文本提取装置，包括：

文本指定单元，所述文本指定单元被配置为获取用户对图像上感兴趣的文本的指定；

文本大小确定单元，所述文本大小确定单元被配置为确定所述文本的大小；

文本排列方向确定单元，所述文本排列方向确定单元被配置为确定所述文本的排列方向；

排列方向偏移角度估计单元，所述排列方向偏移角度估计单元被配置为估计所述文本的所述排列方向的偏移角度；

图像片段确定单元，所述图像片段确定单元被配置为根据所述文本的大小、所述排列方向和所述偏移角度来确定包含所述文本的图像片段；

文本提取单元，所述文本提取单元被配置为对所述图像片段中的种子连通部件进行种子连通部件生长以提取所述用户感兴趣的所述文本。

附记12、根据附记11所述的文本提取装置，其中，所述文本大小确定单元包括：

窗口初始化单元，所述窗口初始化单元被配置为针对所述用户指定的所述图像上感兴趣的文本所在的区域，初始化多个尺寸递增的级联窗口；

连通部件检测单元，所述连通部件检测单元被配置为在所述窗口中检测连通部件；

文本检测子初始化单元，所述文本检测子初始化单元被配置为在所述窗口中初始化文本检测子；

重叠连通部件确定单元，所述重叠连通部件确定单元被配置为确定与所述文本检测子存在重叠的连通部件；

宽度和高度确定单元，所述宽度和高度确定单元被配置为确定所述连通部件的宽度和高度；

宽度和高度判断单元，所述宽度和高度判断单元被配置为将所述连通部件的所述宽度和所述高度与预定阈值进行比较，如果所述连通部件的所述宽度或所述高度小于所述预定阈值，则放大所述文本检测子；

邻近边界判断单元，所述邻近边界确定单元被配置为确定所述文本检测子与所述窗口的边界是否相临近，如果所述文本检测子与所述窗口的边界相邻近，则将所述窗口放大为所述级联窗口中的下一级窗口，在该下一级窗口中检测连通部件；

种子连通部件及文本大小确定单元，所述种子连通部件及文本大小确定单元被配置为在确定所述文本检测子与所述窗口的边界不邻近时，将此时所确定的连通部件确定为种子连通部件，将所述种子连通部件的宽度和高度中的较小者确定为所述文本的大小。

附记13、根据附记12所述的文本提取装置，其中所述文本检测子被初始化为三个，包括水平方向检测子、竖直方向检测子和正方形检测子，其中，所述文本大小确定单元还包括：

文本检测子确定单元，所述文本检测子确定单元被配置为根据所述文本的排列方向将所述文本检测子确定为水平方向检测子、竖直方向检测子和正方形检测子中的一个。

附记14、根据附记13所述的文本提取装置，其中文本排列方向确定单元包括连通部件匹配单元，所述连通部件匹配单元被配置为：

附记15、根据附记14所述的文本提取装置，其中所述水平方向重叠标准通过以下方式来判断：所述第一连通部件的下边沿和所述第二连通部件的上边沿之间的距离与所述第一连通部件的上边沿和所述第二连通部件的下边沿之间的距离中的较小者除以所述第一连通部件的高度与所述第二连通部件的高度之和是否大于预定比例；

附记16、根据附记15所述的文本提取装置，其中，所述连通部件匹配单元还被配置为：

如果将所述文本检测子确定为正方形框，则根据检测到的所述文本检测子中的多个连通部件中满足大小近似标准和水平方向重叠标准以及满足大小近似标准和竖直方向重叠标准的个数来确定所述感兴趣文本的排列方向，其中，如果满足大小近似标准且满足水平方向重叠标准件的连通部件的个数为N1，满足大小近似标准且满足竖直方向重叠标准的连通部件的个数为N2，当N1>N2，确定所述文本的排列方向为水平型，当N2>N1，则确定所述文本的排列方向为竖直型。

附记17、根据附记16所述的文本提取装置，其中，所述排列方向偏移角度估计单元包括：

世界坐标建立单元，所述世界坐标建立单元被配置为将所选定的种子连通部件的中心作为坐标系的中心来建立世界坐标；

角度旋转单元，所述角度旋转单元被配置为每隔预定角度α旋转所述世界坐标的坐标轴；

偏移角度确定单元，所述偏移角度确定单元被配置为按照公式计算投影能量值，将使得投影能量值最小的角度θ确定为所述文本的所述排列方向的偏移角度，其中β表示最大偏移角度，#(vp)表示所述文本的边缘像素点投影到所述坐标轴上某一点的像素的个数；d表示该点的投影距离。

附记18、根据附记17所述的文本提取装置，所述排列方向偏移角度估计单元还包括种子连通部件形成单元，所述种子连通部件形成单元被配置成将与所述种子连通部件相邻且满足大小近似标准和水平方向重叠标准或满足大小近似标准和竖直方向重叠标准的连通部件加入到所述种子连通部件来形成新的种子连通部件，通过所述新的种子连通部件来估计所述文本的所述排列方向的偏移角度。

附记19、根据附记18所述的文本提取装置，其中，所述图像片段确定单元包括：

直线确定单元，所述直线确定单元被配置为根据所述文本的排列方向的偏移角度，通过所述种子连通部件的中心确定一条直线；

图像片段截取单元，所述图像片段截取单元被配置为将所述直线与所述图像的边界的交点按照所述文本的大小向外进行扩展，来截取所述图像片段。

附记20、根据附记19所述的文本提取装置，其中，文本提取单元包括：

图像片段缩小单元，所述图像片段缩小单元被配置为对所述图像片段按比例进行缩小，所述比例为所述文本的大小除以预定归一化文本大小；

候选连通部件获得单元，所述候选连通部件获得单元被配置为通过对所述图像片段进行二值化得到全部的候选连通部件；

种子连通部件生长单元，所述种子连通部件生长单元被配置为基于所述候选连通部件与所述种子连通部件的位置关系，对所述种子连通部件进行种子连通部件生长，以提取所述文本。

Claims

1.一种文本提取方法，包括：

获取用户对图像上感兴趣的文本的指定；

确定所述文本的大小；

确定所述文本的排列方向；

估计所述文本的所述排列方向的偏移角度；

对所述图像片段中的种子连通部件进行种子连通部件生长以提取所述用户感兴趣的所述文本，

其中，所述确定所述文本的大小的步骤包括：

在所述窗口中检测连通部件；

在所述窗口中初始化文本检测子；

确定与所述文本检测子存在重叠的连通部件；

确定所述连通部件的宽度和高度；

2.根据权利要求1所述的文本提取方法，其中所述文本检测子被初始化为三个，包括水平方向检测子、竖直方向检测子和正方形检测子，其中，所述确定与所述文本检测子存在重叠的连通部件的步骤之后还包括：

3.根据权利要求2所述的文本提取方法，其中确定所述文本的排列方向的步骤包括：

4.根据权利要求3所述的文本提取方法，其中所述水平方向重叠标准通过以下方式来判断：所述第一连通部件的下边沿和所述第二连通部件的上边沿之间的距离与所述第一连通部件的上边沿和所述第二连通部件的下边沿之间的距离中的较小者除以所述第一连通部件的高度与所述第二连通部件的高度之和是否大于预定比例；

5.根据权利要求4所述的文本提取方法，所述估计所述文本的所述排列方向的偏移角度的步骤还包括：将与所述种子连通部件相邻且满足大小近似标准和水平方向重叠标准或满足大小近似标准和竖直方向重叠标准的连通部件加入到所述种子连通部件来形成新的种子连通部件，通过所述新的种子连通部件来确定所述文本的所述排列方向的偏移角度。

6.根据权利要求5所述的文本提取方法，其中，所述估计所述文本的所述排列方向的偏移角度的步骤包括：

每隔预定角度α旋转所述世界坐标的坐标轴；

7.根据权利要求6所述的文本提取方法，其中，所述根据所述文本的大小、所述排列方向和所述偏移角度来确定包含所述文本的图像片段的步骤包括：

8.根据权利要求7所述的文本提取方法，其中，所述对所述图像片段中的种子连通部件进行种子连通部件生长以提取所述文本的步骤包括：

通过对缩小后的图像片段进行二值化得到全部的候选连通部件；

9.一种文本提取装置，包括：

文本提取单元，所述文本提取单元被配置为对所述图像片段中的种子连通部件进行种子连通部件生长以提取所述用户感兴趣的所述文本，

其中，所述文本大小确定单元包括：