CN106156711A - 文本行的定位方法及装置 - Google Patents
文本行的定位方法及装置 Download PDFInfo
- Publication number
- CN106156711A CN106156711A CN201510190211.0A CN201510190211A CN106156711A CN 106156711 A CN106156711 A CN 106156711A CN 201510190211 A CN201510190211 A CN 201510190211A CN 106156711 A CN106156711 A CN 106156711A
- Authority
- CN
- China
- Prior art keywords
- pixel
- line
- text
- characteristic vector
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开一种文本行的定位方法及装置,属于计算机视觉技术领域。该方法包括:提取待检测图像中各个像素的至少包括对称性特征向量的特征向量;根据每个像素的特征向量,确定多个潜在位于文本行对称轴上的目标像素,位于文本行对称轴上的像素具有对称性;对各个目标像素进行聚合,得到多个候选文本行区域;滤除非文本行区域得到文本行区域。由于待检测图像中的文本行区域通常具有对称性,因此,基于提取待检测图像中每个像素的对称性特征向量,能够从自然图像中直接定位到待检测图像中的文本行区域,而无需对各个候选字符区域进行组合以得到文本行区域,不仅方式简单,而且不依赖于自然图像中的连通区域,扩大了文本行定位方式的适用范围。
Description
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种文本行的定位方法及装置。
背景技术
自然图像中的文本行是理解自然图像内容的重要线索,因此,定位自然图像中的文本行在计算机视觉中具有十分重要的意义。其中,自然图像中的文本行是由多个文字字符的区域。由于自然图像中的文本通常在字体、颜色、尺寸及方向上具有多样性、自然图像的背景往往比较复杂以及存在诸多干扰因素,如失真、低分辨率、非均匀照明、部分遮挡等原因,使得准确定位自然图像中的文本行面临极大挑战。
相关技术在定位自然图像中的文本行时,通常采用的方法为:基于滑动窗口技术或连通区域技术,对待检测图像进行扫描,从自然图像中寻找出各个字符候选区;然后,将各个字符候选区进行组合,得到待检测图像中的文本行。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
滑动窗口技术或连通区域技术假设自然图像中各个字符之间存在一个或多个连通区域,因此,在基于滑动窗口技术或基于连通区域技术定位文本行时,仅能定位自然图像中的各个字符之间存在连接的文本行,如果文本行的各个字符之间是分离的,则通过该种方式不能实现,导致文本行定位方法的适用范围有限。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种文本行的定位方法及装置。所述技术方案如下:
第一方面,提供了一种文本行的定位方法,所述方法包括:
提取待检测图像中各个像素的特征向量,所述特征向量至少包括对称性特征向量;
根据每个像素的特征向量,确定多个目标像素,所述目标像素为潜在位于文本行对称轴上的像素,位于文本行对称轴上的像素具有对称性;
对各个目标像素进行聚合,得到所述待检测图像中的多个候选文本行区域;
滤除所述多个候选文本行区域中的非文本行区域,得到所述待检测图像中的文本行区域。
第二方面,提供了一种文本行的定位装置,所述装置包括:
提取模块,用于提取待检测图像中各个像素的特征向量,所述特征向量至少包括对称性特征向量;
确定模块,用于根据每个像素的特征向量,确定多个目标像素,所述目标像素为潜在位于文本行对称轴上的像素,位于文本行对称轴上的像素具有对称性;
聚合模块,用于对各个目标像素进行聚合,得到所述待检测图像中的多个候选文本行区域;
滤除模块,用于滤除所述多个候选文本行区域中的非文本行区域,得到所述待检测图像中的文本行区域。
本发明实施例提供的技术方案带来的有益效果是:
由于待检测图像中的文本行区域通常具有对称性,因此,基于提取待检测图像中每个像素的对称性特征向量,能够从自然图像中直接定位到待检测图像中的文本行区域,而无需对各个候选字符区域进行组合以得到文本行区域,不仅方式简单,而且不依赖于自然图像中的连通区域,扩大了文本行定位方式的适用范围。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种自然图像中的文本行的示意图;
图2是本发明另一实施例提供的一种文本行的定位方法的流程图;
图3是本发明另一实施例提供的一种文本行的定位方法的流程图;
图4是本发明另一实施例提供的一种预设模板的示意图;
图5是本发明另一实施例提供的一种文本行的定位过程示意图;
图6是本发明另一实施例提供的一种文本行的定位装置的结构示意图;
图7是本发明另一实施例提供的一种服务器的结构示意图;
图8是本发明另一实施例提供的一种终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是根据一示例性实施例提供的一种自然图像中的文本行的示意图。图1中,矩形框中所包括的文字即为该自然图像中的文本行区域。结合图1所示的自然图像中的文本行的示意图,图2是根据一示例性实施例提供的一种文本行的定位方法的流程图。参见图2,本发明实施例提供的方法流程包括:
201、提取待检测图像中各个像素的特征向量,其中,特征向量至少包括对称性特征向量。
202、根据每个像素的特征向量,确定多个目标像素,其中,目标像素为潜在位于文本行对称轴上的像素,位于文本行对称轴上的像素具有对称性。
203、对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域。
204、滤除多个候选文本行区域中的非文本行区域,得到待检测图像中的文本行区域。
本发明实施例提供的方法,由于待检测图像中的文本行区域通常具有对称性,因此,基于提取待检测图像中每个像素的对称性特征向量,能够从自然图像中直接定位到待检测图像中的文本行区域,而无需对各个候选字符区域进行组合以得到文本行区域,不仅方式简单,而且不依赖于自然图像中的连通区域,扩大了文本行定位方式的适用范围。
在另一个实施例中,提取待检测图像中各个像素的特征向量,包括:
提取待检测图像中各个像素的自相似特征向量和差异特征向量,将各个像素的自相似特征向量和差异特征向量作为各个像素的对称性特征向量;
提取各个像素的LBP(Local Binary Patterns,局部二值模式)特征向量,将LBP特征向量作为各个像素的外观特征向量;
根据各个像素的对称性特征向量和外观特征向量,确定各个像素的特征向量。
在另一个实施例中,提取待检测图像中各个像素的自相似特征向量和差异特征向量,包括:
通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,自相似特征向量至少包括亮度自相似特征向量、颜色自相似特征向量、纹理自相似特征向量和梯度自相似特征向量,差异特征向量至少包括亮度差异特征向量、颜色差异特征向量、纹理差异特征向量和梯度差异特征向量;
其中,每种尺寸的预设模板包括第一指定数值的矩形,且每种尺寸的预设模板中各个矩形的尺寸相同,每个矩形的宽度为高度的第二指定数值倍,自相似特征向量根据位于预设模板中间的矩形确定,差异特征向量根据位于预设模板边缘的矩形与位于预设模板中间的矩形确定。
在另一个实施例中,通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,包括:
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种自相似特征向量:
式中,(x,y)为预设模板的中心位置,为(x,y)处像素的任一种自相似特征向量,χ2(·)表示卡方距离,(·)表示(x,y)处任一种自相似特征向量对应的参数的直方图,RMT和RMB为位于预设模板中间位置处的矩形;其中,直方图至少为亮度直方图、颜色直方图、纹理直方图和梯度直方图;
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种差异特征向量:
式中,和为(x,y)处的像素的任一种差异特征向量,RT和RMT分别为预设模板上边缘处的矩形和与上边缘处的矩形相邻的矩形,RB和RMB分别为预设模板下边缘处的矩形和与下边缘处的矩形相邻的矩形。
在另一个实施例中,根据每个像素的特征向量,确定多个目标像素,包括:
通过预先训练得到的随机森林分类器,对每个像素的特征向量进行处理,得到每个像素位于文本行对称轴上的概率;
从所有像素中筛选出概率大于指定概率值的像素,将概率大于指定概率值的像素作为目标像素。
在另一个实施例中,对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域,包括:
将像素之间的距离小于指定数值的目标像素进行聚合,得到多个对称轴片段;
当对称轴片段之间的方向角和距离均满足预设条件时,聚合满足预设条件的各个对称轴片段,得到多个呈对称结构的连通区域;
确定各个呈对称结构的连通区域的外接框,得到待检测图像中的多个候选文本行区域。
在另一个实施例中,确定各个呈对称结构的连通区域的外接框,包括:
根据组成每个呈对称结构的连通区域的像素,确定每个呈对称结构的外接框的宽度;
根据目标预设模板的尺寸,确定每个呈对称结构的外界框的高度,其中,目标预设模板为提取组成每个呈对称结构的连通区域的目标像素的特征向量时使用的预设模板。
在另一个实施例中,滤除多个候选文本行区域中的非文本行区域,得到待检测图像中的文本行区域,包括:
使用预先训练好的第一CNN(Convolutional Neural Network,卷积神经网络)分类器,滤除多个候选文本行区域中的非文本行区域,得到多个潜在文本行区域;
使用第一CNN分类器,对多个潜在文本行区域进行分词处理,得到每个潜在文本行区域中的各个词;
使用第二CNN分类器确定每个潜在文本行区域中的各个词的得分;
滤除得分不大于指定分值的词对应的潜在文本行区域,得到待检测图像中的多个文本行区域。
结合图1所示的自然图像中的文本行的示意图及图2所对应实施例的内容,图3是根据一示例性实施例提供的一种文本行的定位方法的流程图。参见图3,本发明实施例提供的方法流程包括:
301、提取待检测图像中各个像素的特征向量,其中,特征向量至少包括对称性特征向量。
自然图像中的文本行通常具有对称性,该对称性来自于文本行本身以及其所在的图像背景。通过各个像素的对称性特征向量可以查找到自然图像中呈对称性的各个区域。为了从自然图像中查找到文本行,需要提取待检测图像中各个像素的对称性特征向量。
其中,在提取待检测图像中各个像素的对称性特征向量时,包括但不限于通过如下步骤3011和步骤3012来实现:
3011、提取待检测图像中各个像素的自相似特征向量和差异特征向量,将各个像素的自相似特征向量和差异特征向量作为各个像素的对称性特征向量。
通常,待检测图像中位于文本行区域的各个像素之间具有一定的相似性,如,位于文本行区域的各个像素的颜色、亮度、纹理和梯度之间具有一定的相似性。而位于文本行区域与非文本行区域的像素之间具有较大的差异,如位于文本行区域与非文本行区域的像素的颜色、亮度、纹理和梯度之间具有较大的差异性。为了描述位于文本行区域和非文本行区域的像素之间的这种相似性和差异性,对称性特征向量至少包括自相似特征向量和差异特征向量。因此,需要提取待检测图像中各个像素的自相似特征向量和差异特征向量。
具体地,由于自然图像中可能包括多个尺寸的文本行区域。例如,自然图像A中包括的文本行为“Hello”和“Welcome”,且“Hello”和“Welcome”具有不同的尺寸,如“Hello”中每个字符的宽度占据4个像素,“Welcome”中每个字符的宽度占据6个像素。结合该部分内容,为了确保能够定位到自然图像中的不同尺寸的文本行,本发明实施例在提取待检测图像中各个像素的自相似特征向量和差异特征向量时,包括但不限于:通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量。其中,每种尺寸的预设模板包括第一指定数值的矩形,且每种尺寸的预设模板中各个矩形的尺寸相同,每个矩形的宽度为高度的第二指定数值倍。由于位于预设模板中间的矩形所包括的内容可能比较相似,而位于预设模板中间的矩形与位于边缘的矩形所包括的内容差异比较大,因此,自相似特征向量根据位于预设模板中间的矩形确定,差异特征向量根据位于预设模板边缘的矩形与位于预设模板中间的矩形确定。
关于每种尺寸的预设模板的具体组成情况,可以有很多种。例如,每种尺寸的预设模板包括六个矩形,每个矩形的尺寸相等,且每个矩形的宽度为高度的四倍。当然,第一指定数值和第二指定数值还可以为其它数值,本发明实施例不对第一数值和第二数值的具体数量进行限定。
优选地,每种尺寸的预设模板包括四个矩形,且每种尺寸的预设模板中每个矩形的宽度为高度的四倍。如图4所示,其示出了一种该种预设模板的示意图。结合图4,该预设模板中每个矩形的高度为s像素,宽度为4s像素。为了便于描述,在本发明实施例中,将该种尺寸的预设模板中各个矩形由上至下定义为RT、RMT、RMB和RB,将RMT和RMB统称为RM。另外,每种预设模板中,每个矩形的高度可以用于描述该预设模板的尺寸。例如,如果某一种尺寸的预设模板中,每个矩形的高度包括4像素,则该预设模板的尺寸为4像素。预设模板的中心点的坐标为(x,y)。
另外,由于自然图像中,文本行区域与非文本行区域中的像素在亮度、颜色、梯度及纹理等方面均有相似性和差异性,因此,自相似特征向量至少包括亮度自相似特征向量、颜色自相似特征向量、纹理自相似特征向量和梯度自相似特征向量。差异特征向量至少包括亮度差异特征向量、颜色差异特征向量、纹理差异特征向量和梯度差异特征向量。结合该部分内容,在通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量时,包括但不限于通过下述各个公式来实现。为了便于说明,以任一尺寸的预设模板为例进行说明。
具体地,结合预设模板的组成,自相似性特征可以通过位于预设模板中间位置处的矩形之间的关系来确定。因此,对于任一尺寸的预设模板,可以通过如下公式确定各个像素的任一种自相似特征向量:
公式(1)中,(x,y)为预设模板的中心点,为(x,y)处像素的任一种自相似特征向量,χ2(·)表示卡方距离,(·)表示(x,y)处该任一种自相似特征向量对应的参数的直方图,RMT和RMB为位于预设模板中间位置处的矩形;其中,直方图至少为亮度直方图、颜色直方图、纹理直方图和梯度直方图。例如,当任一种自相似特征向量为亮度自相似特征向量时,为(x,y)处像素的亮度自相似特征向量,(·)表示(x,y)处的亮度直方图。
进一步地,由于文本行区域通常与其所在的图像背景之间具有较大的差异性,结合预设模板的组成,可以根据位于预设模板边缘的矩形与位于预设模板中间的矩形确定差异特征向量。因此,对于任一尺寸的预设模板,可以通过如下公式确定各个像素的任一种差异特征向量:
公式(2)和公式(3)中,和为(x,y)处像素的任一种差异特征向量,(.)表示(x,y)处该任一种差异特征向量对应的参数的直方图,RT和RMT分别为预设模板上边缘处的矩形和与上边缘处的矩形相邻的矩形,RB和RMB分别为预设模板下边缘处的矩形和与下边缘处的矩形相邻的矩形。例如,当任一种自相似特征向量为梯度自相似特征向量时,和为(x,y)处像素的梯度差异特征向量,(·)表示(x,y)处的梯度直方图。
另外,在确定上述各种类型的自相似特征向量和差异特征向量时,需要使用各种类型的自相似特征向量和差异特征向量对应的参数的直方图。例如,在确定颜色自相似特征向量和颜色差异特征向量时,需要确定颜色直方图。关于确定各种类型的自相似特征向量和差异特征向量对应的参数的直方图的方式,本发明实施例不作具体限定。
例如,在确定各个像素的亮度直方图和颜色直方图时,可以通过将各个像素转换至LAB(颜色模型)颜色空间中来实现。具体地,可以根据LAB颜色空间中L通道处理得到的值确定亮度直方图;根据LAB颜色空间中a通道和b通道处理得到的值确定颜色直方图。
另外,为了使得确定的亮度自相似特征向量、亮度差异特征向量、颜色自相似特征向量和颜色差异特征向量比较准确,在确定颜色直方图和亮度直方图时,可以将每个像素的颜色和亮度划分在直方图中的多个bin(区域)中,通过该多个bin中的值表示颜色直方图和亮度直方图。例如,可以将颜色和亮度划分至32个bin来实现。
进一步地,在确定各个像素的纹理直方图时,可以通过确定各个像素的纹理基元来实现。关于基于纹理基元,确定各个像素的纹理直方图的方式,可以采用已有的确定纹理直方图的方式,本发明实施例对此不进行详细阐述。
此外,在确定各个像素的梯度直方图时,可以通过计算各个像素的梯度值来实现。关于计算梯度值的方式,可以采用已有的计算梯度值的方式,本发明实施例不作详细介绍。为了使确定的梯度直方图比较准确,在确定梯度直方图时,也可以将各个像素的梯度值划分在直方图中的多个bin(区域)中,例如划分至16个bin来实现。
结合上述确定颜色直方图、亮度直方图、纹理直方图和梯度直方图的方式,为了加快特征向量的提取的速度,在确定各种类型的直方图时,可以为不同的参数类型分配不同的通道,以使用不同的通道确定不同类型的直方图。例如,确定亮度直方图使用第一通道,确定颜色直方图使用第二通道和第三通道,确定纹理直方图使用第四通道,确定梯度直方图使用第五通道。其中,公式(1)至公式(3)中的c即代表通道标识。例如,当c为1时,代表使用第一通道的参数(亮度)的直方图,因此,可以求解到亮度自相似特征向量和亮度差异特征向量。
由于可以根据上述公式(1)至公式(3)分别求解亮度自相似特征向量、颜色自相似特征向量、纹理自相似特征向量和梯度自相似特征向量,以及亮度差异特征向量、颜色差异特征向量、纹理差异特征向量和梯度差异特征向量,因此,将上述各种类型的自相似特征向量和差异特征向量进行组合,可以确定每个像素的对称性特征向量是一个15维的特征向量。
通过上述步骤3011可以提取到待检测图像中各个像素的对称性特征向量。根据对称性特征向量可以有效地查找到自然图像中的文本行区域,然而,通过对称性特征向量查找到的区域中会包括多个呈对称性分布的非文本行区域。为了很好地区分文本行区域和非文本行区域,还可以继续提取各个像素的其它特征向量。在本发明实施例中,特征向量除包括对称性特征向量外,还可以包括外观特征向量。具体地,可以通过下述步骤3012提取各个像素的外观特征向量。
3012、提取各个像素的LBP特征向量,将LBP特征向量作为各个像素的外观特征向量。
在提取任一像素的LBP特征向量时,可以该像素为中心,结合其周围像素的灰度值来实现。例如,可以构建一个3*3的正方形区域,该正方形区域的中心为该像素。当该正方形区域中的任一其它像素的灰度值大于该像素的灰度值时,将其它像素的值置1;当该正方形区域中任一其它像素的灰度值不大于该像素的灰度值时,将其它像素的值置0。结合标准LBP特征向量的提取方法,可以得到一个59维的LBP特征向量。因此,各个像素的外观特征向量为一个59维的LBP特征向量。
通过上述步骤3011和步骤3012,可以得到各个像素的对称性特征向量和外观特征向量。其中,在确定各个像素的特征向量时,如果特征向量包括对称性特征向量,则直接将对称性特征向量作为各个像素的特征向量。如果特征向量包括对称性特征向量和外观特征向量,则可以根据各个像素的对称性特征向量和外观特征向量,确定各个像素的特征向量。具体地,对于任一像素,可以将该像素的对称性特征向量和外观特征向量进行级联,得到该像素的特征向量。结合上述对称性特征向量和外观特征向量的维度的举例说明,当任一个像素的对称性特征向量为15维的特征向量,外观特征向量为59维的特征向量时,则该像素的特征向量为一个74维的特征向量。
302、根据每个像素的特征向量,通过预先训练好的随机森林分类器,确定多个目标像素,其中,目标像素为潜在位于文本行对称轴上的像素,位于文本行对称轴上的像素具有对称性。
为了确定各个像素是否为位于本文行区域的像素,可以通过确定各个像素是否位于文本行对称轴上来实现。也就是说,为了定位自然图像中的文本行,需要确定潜在位于文本行对称轴上的像素,本发明实施例将潜在位于文本行对称轴上的像素定义为目标像素。具体地,由于随机森林分类器具有效率高、处理效果好等优点,本发明实施例通过预先训练好的随机森林分类器,确定目标像素。具体实施时,可以通过下述步骤3021和步骤3022来通过预先训练好的随机森林分类器来确定多个目标像素。
3021、通过预先训练得到的随机森林分类器,对每个像素的特征向量进行处理,得到每个像素位于文本行对称轴上的概率。
其中,在通过预先训练好的随机森林分类器对各个像素的特征向量进行处理之前,需要先训练随机森林分类器。其中,在训练随机森林分类器时,可以基于ICDAR(International Conference on Document Analysis and Recognition,文档分析与识别国际会议)2011和ICDAR2013数据集实现。然而,由于ICDAR2011和ICDAR2013数据集中所包括的训练数据通常仅具有文本行区域的外接框,为了使得后续可以通过训练好的随机森林分类器,确定某一个像素是否位于文本行的对称轴上,需要先预先标定好各个外接框的中线,作为文本行的对称轴。在此基础上,在训练随机森林分类器时,可以通过如下步骤一致步骤三来实现:
步骤一:抽样一定数值的阳性像素和一定数值的阴性像素。其中,阳性像素是指与数据集中标定好的文本行对称轴之间的距离小于第一预设距离的像素,阴性像素是指与数据集中标定的文本行对称轴之间的距离大于第二预设距离的像素。
具体地,阳性像素为训练图像中的文本行所包括的像素,阴性像素为训练图像中背景区域(非文本行区域)所包括的像素。
例如,可以抽样450k阳性像素和450k阴性像素。第一预设距离可以为2像素,第二预设距离可以为5像素等。
步骤二:通过多个不同尺寸的预设模板,提取各个阴性像素的特征向量,得到每个阴性像素的多个特征向量;使用一种尺寸的预设模板,提取各个阳性像素的一个特征向量;根据各个阴性像素的多个特征向量和阳性像素的一个特征向量,根据每个阴性像素的多个特征向量和各个阳性像素的一个特征向量形成多个训练样本。
其中,提取各个阴性像素的特征向量的方式,以及提取各个阳性像素的特征向量的方式,与上述步骤301中提取各个像素的特征向量的方式中的原理一致,具体可参见上述步骤301中的内容,此处不再赘述。
步骤三:递归地将各个训练样本输入到随机森林模型的各个叶节点,以确定随机森林模型的各个模型参数。
需要说明的是,由于不同类型的特征向量具有不同的维度,例如,对称性特征向量为15维,外观特征向量为59维,为了使得训练得到的随机森林分类器的质量比较好,从而具有较好的分类效果,以能准确确定某一个像素是否位于文本行对称轴上,在训练随机森林分类器时,可以为不同类型的特征向量分配不同的权重。例如,由于对称性特征向量具有较少的维度,因此,可以为对称性特征向量分配较大的权重,而为外观特征向量分配较小的权重。
当通过上述步骤一至步骤三训练得到随机森林分类器后,后续当将某一个像素的特征向量输入随机森林分类器时,可以根据随机森林分类器的输出确定该像素是否位于文本行对称轴上。具体地,当将某一个像素的特征向量输入训练好的随机森林分类器时,该训练好的随机森林分类器将输出一个概率值,该概率值为该像素位于文本行对称轴上的概率。
结合上述内容,在步骤3021中,通过预先训练得到的随机森林分类器,对每个像素的特征向量进行处理,可以得到每个像素位于文本行对称轴上的概率。
3022、从像素中筛选出概率大于指定概率值的像素,将概率大于指定概率值的像素作为目标像素。
关于指定概率值的具体数值,本发明实施例不作具体限定。例如,该指定概率值可以为0.5、0.6等。例如,当将某一个像素的特征向量输入训练好的随机森林分类器后,得到该像素位于文本行对称轴上的概率为0.66,且指定概率值为0.5,则将该像素作为一个目标像素。
需要说明的是,上述步骤302仅以通过随机森林分类器确定目标像素为例进行了说明,然而,在具体实施时,在确定像素是否为目标像素时,还可以采用其它方式。例如,可以采用其它能够确定像素位于文本行对称轴上的概率的算法等。
303、对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域。
通过上述步骤301和302,可以得到潜在位于文本行对称轴上的各个目标像素,然而,自然图像中的文本行区域通常由多个像素组成,因此,需要对各个目标像素进行聚合,以形成待检测图像中的多个候选文本行区域。
其中,在对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域时,包括但不限于通过如下步骤3031至步骤3033来实现:
3031、将像素之间的距离小于指定数值的目标像素进行聚合,得到多个对称轴片段。
关于指定数值的具体数值,本发明实施例不作具体限定。例如,该指定数值可以为2像素、3像素等。例如,当指定数值为3像素时,如果目标像素A与目标像素B之间的距离为2像素,目标像素C和目标像素B之间的距离为1像素,则聚合目标像素A、目标像素B和目标像素C,得到一个对称轴片段。
3032、当对称轴片段之间的方向角和距离均满足预设条件时,聚合满足预设条件的各个对称轴片段,得到多个呈对称结构的连通区域。
关于预设条件的具体内容,可以有很多种。其中,方向角和距离可以满足不同的预设条件。下面将结合下述公式(4)至公式(6)中的内容对预设条件进行解释说明。
具体地,对于任两个对称轴片段,对称轴片段之间的方向角可以通过如下公式来表示:
公式(4)中,A和B表示对称轴片段A和对称轴片段B,φ表示方向角,φ(A)和φ(B)分别表示对称轴片段A和对称轴片段B的方向角。其中,任一对称轴片段的方向角可以是组成该对称轴片段的所有目标像素的方向角的平均值。
当任两个对称轴片段之间的方向角大于指定数值时,则可以认为这两个对称轴片段是不连接的,因此,不能将这两个对称轴片段聚合。结合该部分内容,当对称轴片段之间的方向角小于指定角度时,确定其为满足预设条件的对称轴片段。关于指定角度的具体数值,本发明实施例不作具体限定。具体实施时,指定角度包括但不限于为
对于任两个对称轴片段,对称轴片段之间的距离可以通过如下公式来表示:
D(A,B)=min(||p-q||),p∈A,q∈B, (5)
公式(5)中,A和B表示对称轴片段A和对称轴片段B,p和q分别为对称轴片段A和对称轴片段B上的一个点,||p-q||表示p与q之间的距离。
其中,如果两个对称轴片段之间的距离满足如下公式时,确定这两个对称轴片段之间的距离满足预设条件:
D(A,B)>max(H(A),H(B)), (6)
公式(6)中,H表示相对应预设模板的尺寸,H(A)和H(B)分别表示提取组成对称轴片段A和对称轴片段B的目标像素时使用的预设模板的尺寸。
3033、确定各个呈对称结构的连通区域的外接框,得到待检测图像中的多个候选文本行区域。
外接框为能够包围呈对称结构的连通区域的框,通过外接框能够很好地描述文本行区域所在的位置。候选文本行区域即为通过外接框包围呈对称结构的连通区域时得到的区域。
通常,外接框为矩形框。为了确定各个呈对称结构的外接框,需要确定外接框的高度和宽度。因此,在确定各个呈对称结构的连通区域的外接框时,包括但不限于通过如下步骤3033.1和步骤3033.2来实现:
3033.1、根据组成每个呈对称结构的连通区域的像素,确定每个呈对称结构的外接框的宽度。
具体地,可以根据组成每个呈对称结构的连通区域的像素的尺寸和数量,确定每个呈对称结构的连通区域的外接框的宽度。例如,如果某一个呈对称结构的连通区域包括像素A、像素B和像素C,且像素A、像素B和像素C排列为一行,且每个像素的尺寸为a*a,则可以确定该呈对称结构的连通区域的外接框的宽度为3a。
3033.2、根据目标预设模板的尺寸,确定每个呈对称结构的连通区域的外接框的高度,其中,目标预设模板为提取组成每个呈对称结构的连通区域的目标像素的特征向量时使用的预设模板。
通常,组成任一个呈对称结构的连通区域的各个字符的尺寸相同,因此,在提取组成该呈对称结构的连通区域的目标像素的特征向量时,使用的预设模板为同一尺寸的预设模板,而通过预设模板的尺寸(预设模板中每个矩形的高度)可以确定文本行的高度,因此,可以根据提取组成每个呈对称结构的连通区域的目标像素的特征向量时使用的预设模板的尺寸,确定每个呈对称结构的连通区域的高度。其中,每个呈对称结构的连通区域的高度与目标预设模板的尺寸相同。
例如,如果提取组成某一个呈对称结构的连通区域的目标像素的特征向量时,使用的目标预设模板的尺寸为s,则该呈对称结构的连通区域的外接框的高度为s。
304、通过预先训练好的CNN分类器,滤除多个候选文本行区域中的非文本行区域,得到待检测图像中的文本行区域。
其中,通过上述步骤301至步骤303,可以从待检测图像中提取到多个候选文本行区域。然而,这些候选文本行区域中有一些区域为非文本行区域,为了确定多个候选文本行区域中的文本行区域,需要滤除多个候选文本行区域中的非文本行区域,以得到待检测图像中的文本行区域。具体地,可以通过下述步骤3041至步骤3044滤除多个候选文本行区域中的非文本行区域。
3041、使用预先训练好的第一CNN分类器,滤除多个候选文本行区域中的非文本行区域,得到多个潜在文本行区域,并使用第一CNN分类器,对多个潜在文本行区域进行分词处理,得到每个潜在文本行区域中的各个词。
在本发明实施例中,第一CNN分类器兼具过滤和分词作用。通过第一CNN分类器的过滤作用,可以识别候选文本行区域中的文本行区域和非文本行区域,以过滤到多个潜在文本行区域。通过第一CNN分类器的分词作用,可以对多个潜在文本行区域进行处理,以将每个潜在文本行区域中的各个词之间的非文本区域滤除掉。
例如,一个潜在文本行区域中包括的文本行的内容为“welcome to ourrestaurant”。通过第一CNN分类器,可以将该潜在文本行区域分词为“welcome”、“to”、“our”和“restaurant”,从而滤除掉“welcome”与“to”之间的非文本行区域、“to”和“our”之间的非文本行区域、以及“our”和“restaurant”之间的非文本行区域。
需要说明的是,上述步骤3041仅以第一CNN分类器兼具过滤和分词为例进行了说明。然而,在具体实施时,执行过滤和分词作用的CNN分类器也可以为不同的CNN分类器,本发明实施例对此不进行限定。
另外,在使用第一CNN分类器对多个候选文本行区域进行操作之前,需要先训练第一CNN分类器。关于训练第一CNN分类器的方式,本发明实施例不进行详细阐述。
通过上述步骤3041能够实现从多个候选文本行区域中定位到文本行区域,然而,为了确保定位到的文本行区域更加准确,可以继续执行下述步骤3042和步骤3043。
3042、使用第二CNN分类器确定每个潜在文本行区域中的各个词的得分。
第二CNN分类器用于根据各个潜在文本行区域中的词的分布情况,为各个潜在文本行区域进行打分。因此,通过第二CNN分类器能够从所有词中挑选出得分比较高的词,从而能够提高文本行定位的准确性。其中,第二CNN分类器的输出结果为每个词的分值。
3043、滤除得分不大于指定分值的词对应的潜在文本行区域,得到待检测图像中的多个文本行区域。
关于指定分值的具体数值,本发明实施例不作具体限定。具体实施时,可以根据需要设定。例如,为了确保定位到的文本行的准确性,该指定分值可以设置得比较高.
例如,如果某一个词的得分为67,指定分值为80,则由于该词的得分小于指定分值,因此,滤除该词所在的潜在文本行区域。
为了便于对上述步骤301至步骤304中的内容进行解释说明,下面将结合附图5对上述步骤301至步骤304中的内容进行举例说明。
如图5所示,图5中的(a)图为一个自然图像,该自然图像中的文本行区域如图5中的(a)图虚线框中所示的内容。
通过上述步骤301对自然图像进行处理,以得到多个目标像素的过程如图5中的(b)图所示。其中,图5中的(b)图以使用两种尺寸的预设模板提取各个像素的特征向量为例进行了说明。
通过上述步骤302确定的多个目标像素如图5中的(c)图中的虚线框所示。图5中的(c)图为与图5中的(b)图相对应的概率图。
通过上述步骤303对各个目标像素进行聚合到的多个候选文本行区域如5中的(d)图所示。其中,将通过多种不同尺寸的预设模板进行处理得到的多个不同尺寸的候选文本区域融合到一张图像中的图如图5中的(d)图所示。图5中的(d)图所示的实线框即为各个呈对称结构的连通区域的外接框。
通过上述步骤304对多个候选文本行区域进行滤除,得到的文本行区域如图5中的(e)图所示。图5中的(e)图中的实线框所表示的区域即为定位到的文本行区域。由图5所示的结果可知,通过本发明实施例提供的文本行的定位方法,能够直接定位到自然图像中的文本行区域,而无需通过定位自然图像中的各个字符,并将各个字符进行组合来得到文本行区域,从而使得本发明实施例提供一种字符集级别的文本行定位方法
另外,定位文本行的准确性可以通过准确度、召回率和F-度量来衡量。其中,准确度是指定位到的正确的文本行区域与定位到的文本行区域之间的比值。召回率是指定位到的正确的文本行区域与所有应该定位到的文本行区域之间的比值。F-度量是准确度和召回率的一个均衡值。
为了验证通过上述步骤301至步骤304提出的文本行的定位方法的效果,本发明实施例还基于ICDAR2011和ICDAR2013数据集对本发明实施例提供的方法及其它一些文本行定位方法的文本行定位效果进行了比对。
如表1所示,其示出了一种ICDAR2011数据集的实验结果。
表1
文本行定位算法 | 准确度 | 召回率 | F-度量 |
本发明实施例提供的方法 | 0.84 | 0.76 | 0.80 |
第一其它算法 | 0.863 | 0.683 | 0.762 |
…… | …… | …… | …… |
第二其它算法 | 0.814 | 0.687 | 0.745 |
如表2所示,其示出了一种ICDAR2013数据集的实验结果。
表2
文本行定位算法 | 准确度 | 召回率 | F-度量 |
本发明实施例提供的方法 | 0.88 | 0.74 | 0.80 |
第三其它算法 | 0.86 | 0.70 | 0.77 |
…… | …… | …… | …… |
第四其它算法 | 0.88 | 0.66 | 0.76 |
由上述表1和表2中的数据可得,本发明实施例提供的文本行的定位方法无论是在准确度、还是召回率及F-度量,都比其它文本行的定位算法的效果好。因此,通过本发明实施例提供的方法能够很准确地定位自然图像中的文本行区域。
进一步地,文本行中的字符检测率也是衡量文本行定位算法的一个指标。如表3所示,其示出了一种本发明实施例提供的方法相对于MSER(MaximallyStable Extreme Region,最大稳定极值区域)的字符检测率的示意表。
表3
定位算法 | 检测率 | 候选字符区域 |
本发明实施例提供的方法 | 0.977 | 1310 |
MSER | 0.964 | 8415 |
由表3的数据可得,本发明实施例提供的文本行的定位算法相对于MSER,不仅字符检测率比较高,而且能够检测到的候选字符区域较少,因而具有更高的准确性。
另外,通过实验还表明,本发明实施例提供的文本行的定位方法不仅适用于定位自然图像中的英文文本行,还可以定位自然图像中的中文、日文等其它语言的文本行,适用范围很广泛。
此外,在步骤301中提取到的各个像素的特征向量中除包括对称性特征向量外,还可以包括外观特征向量。为了确定这两种特征向量在定位文本行时的贡献,本发明实施例还对分别使用这两种特征向量及使用这两种特征向量的组合进行定位的效果进行了实验。如表4所示,其示出了一种使用不同类型的特征向量进行定位得到的定位结果示意表。
表4
特征向量 | 准确度 | 召回率 | F-度量 |
对称性特征向量 | 0.80 | 0.65 | 0.72 |
外观特征向量 | 0.79 | 0.57 | 0.66 |
对称性特征向量+外观特征向量 | 0.84 | 0.76 | 0.80 |
由表4中的数据可以得出,单独使用对称性特征向量和外观特征向量定位文本行时,定位效果已经比较好了。当同时使用对称性特征向量和外观特征向量定位文本行时,定位效果更好。
本发明实施例提供的方法,由于待检测图像中的文本行区域通常具有对称性,因此,通过提取待检测图像中每个像素的至少包括对称性特征向量的特征向量,并根据每个像素的特征向量确定多个目标像素后,通过对各个目标像素进行聚合得到多个候选文本行区域,并滤除多个候选文本行区域中的非文本行区域后,能够直接定位到待检测图像中的文本行区域,而无需对各个候选字符区域进行组合以得到文本行区域,不仅方式简单,而且不依赖于自然图像中的连通区域,扩大了文本行定位方式的适用范围。
图6是根据一示例性实施例提供的一种文本行的定位装置的结构示意图,该文本行的定位装置用于执行上述图2或图3所对应实施例提供的文本行的定位方法。参见图6,该文本行的定位装置包括:
提取模块601,用于提取待检测图像中各个像素的特征向量,其中,特征向量至少包括对称性特征向量;
确定模块602,用于根据每个像素的特征向量,确定多个目标像素,其中,目标像素为潜在位于文本行对称轴上的像素,位于文本行对称轴上的像素具有对称性;
聚合模块603,用于对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域;
滤除模块604,用于滤除多个候选文本行区域中的非文本行区域,得到待检测图像中的文本行区域。
本发明实施例提供的装置,由于待检测图像中的文本行区域通常具有对称性,因此,基于提取待检测图像中每个像素的对称性特征向量,能够从自然图像中直接定位到待检测图像中的文本行区域,而无需对各个候选字符区域进行组合以得到文本行区域,不仅方式简单,而且不依赖于自然图像中的连通区域,扩大了文本行定位方式的适用范围。
在另一个实施例中,提取模块601包括:
第一提取单元,用于提取待检测图像中各个像素的自相似特征向量和差异特征向量,将各个像素的自相似特征向量和差异特征向量作为各个像素的对称性特征向量;
第二提取单元,用于提取各个像素的LBP特征向量,将LBP特征向量作为各个像素的外观特征向量;
第一确定单元,用于根据各个像素的对称性特征向量和外观特征向量,确定各个像素的特征向量。
在另一个实施例中,第一提取单元,用于通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,其中,自相似特征向量至少包括亮度自相似特征向量、颜色自相似特征向量、纹理自相似特征向量和梯度自相似特征向量,差异特征向量至少包括亮度差异特征向量、颜色差异特征向量、纹理差异特征向量和梯度差异特征向量;
其中,每种尺寸的预设模板包括第一指定数值的矩形,且每种尺寸的预设模板中各个矩形的尺寸相同,每个矩形的宽度为高度的第二指定数值倍,自相似特征向量根据位于预设模板中间的矩形确定,差异特征向量根据位于预设模板边缘的矩形与位于预设模板中间的矩形确定。
在另一个实施例中,第一提取单元具体用于:
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种自相似特征向量:
式中,(x,y)为预设模板的中心位置,为(x,y)处像素的任一种自相似特征向量,χ2(·)表示卡方距离,(·)表示(x,y)处任一种自相似特征向量对应的参数的直方图,RMT和RMB为位于预设模板中间位置处的矩形;其中,直方图至少为亮度直方图、颜色直方图、纹理直方图和梯度直方图;
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种差异特征向量:
式中,和为(x,y)处像素的任一种差异特征向量,RT和RMT分别为预设模板上边缘处的矩形和与上边缘处的矩形相邻的矩形,RB和RMB分别为预设模板下边缘处的矩形和与下边缘处的矩形相邻的矩形。
在另一个实施例中,确定模块602包括:
处理单元,用于通过预先训练得到的随机森林分类器,对每个像素的特征向量进行处理,得到每个像素位于文本行对称轴上的概率;
筛选单元,用于从所有像素中筛选出概率大于指定概率值的像素,将概率大于指定概率值的像素作为目标像素。
在另一个实施例中,聚合模块603包括:
第一聚合单元,用于将像素之间的距离小于指定数值的目标像素进行聚合,得到多个对称轴片段;
第二聚合单元,用于当对称轴片段之间的方向角和距离均满足预设条件时,聚合满足预设条件的各个对称轴片段,得到多个呈对称结构的连通区域;
第二确定单元,用于确定各个呈对称结构的连通区域的外接框,得到待检测图像中的多个候选文本行区域。
在另一个实施例中,第二确定单元包括:
第一确定子单元,用于根据组成每个呈对称结构的连通区域的像素,确定每个呈对称结构的外接框的宽度;
第二确定子单元,用于根据目标预设模板的尺寸,确定每个呈对称结构的外界框的高度,其中,目标预设模板为提取组成每个呈对称结构的连通区域的目标像素的特征向量时使用的预设模板。
在另一个实施例中,滤除模块604包括:
第一滤除单元,用于使用预先训练好的第一CNN分类器,滤除多个候选文本行区域中的非文本行区域,得到多个潜在文本行区域;
分词单元,用于使用第一CNN分类器,对多个潜在文本行区域进行分词处理,得到每个潜在文本行区域中的各个词;
第三确定单元,用于使用第二CNN分类器确定每个潜在文本行区域中的各个词的得分;
第二滤除单元,用于滤除得分不大于指定分值的词对应的潜在文本行区域,得到待检测图像中的多个文本行区域。
图7是根据一示例性实施例示出的一种服务器的结构示意图,该服务器可以用于执行上述图2或图3所对应实施例提供的文本行的定位方法。参照图7,服务器700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行上述图2或图3所对应实施例提供的文本行的定位方法。
服务器700还可以包括一个电源组件726被配置为执行服务器700的电源管理,一个有线或无线网络接口750被配置为将服务器700连接到网络,和一个输入输出(I/O)接口758。服务器700可以操作基于存储在存储器732的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
其中,一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,所述一个或者一个以上程序包含用于进行以下操作的指令:
提取待检测图像中各个像素的特征向量,其中,特征向量至少包括对称性特征向量;
根据每个像素的特征向量,确定多个目标像素,其中,目标像素为潜在位于文本行对称轴上的像素,位于文本行对称轴上的像素具有对称性;
对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域;
滤除多个候选文本行区域中的非文本行区域,得到待检测图像中的文本行区域。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,服务器的存储器中还包含用于执行以下操作的指令:
提取待检测图像中各个像素的特征向量,包括:
提取待检测图像中各个像素的自相似特征向量和差异特征向量,将各个像素的自相似特征向量和差异特征向量作为各个像素的对称性特征向量;
提取各个像素的LBP特征向量,将LBP特征向量作为各个像素的外观特征向量;
根据各个像素的对称性特征向量和外观特征向量,确定各个像素的特征向量。
在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,服务器的存储器中,还包含用于执行以下操作的指令:提取待检测图像中各个像素的自相似特征向量和差异特征向量,包括:
通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,其中,自相似特征向量至少包括亮度自相似特征向量、颜色自相似特征向量、纹理自相似特征向量和梯度自相似特征向量,差异特征向量至少包括亮度差异特征向量、颜色差异特征向量、纹理差异特征向量和梯度差异特征向量;
其中,每种尺寸的预设模板包括第一指定数值的矩形,且每种尺寸的预设模板中各个矩形的尺寸相同,每个矩形的宽度为高度的第二指定数值倍,自相似特征向量根据位于预设模板中间的矩形确定,差异特征向量根据位于预设模板边缘的矩形与位于预设模板中间的矩形确定。
在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,服务器的存储器中还包含用于执行以下操作的指令:通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,包括:
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种自相似特征向量:
式中,(x,y)为预设模板的中心位置,为(x,y)处像素的任一种自相似特征向量,χ2(·)表示卡方距离,(·)表示(x,y)处任一种自相似特征向量对应的参数的直方图,RMT和RMB为位于预设模板中间位置处的矩形;其中,直方图至少为亮度直方图、颜色直方图、纹理直方图和梯度直方图;
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种差异特征向量:
式中,和为(x,y)处的像素的任一种差异特征向量,RT和RMT分别为预设模板上边缘处的矩形和与上边缘处的矩形相邻的矩形,RB和RMB分别为预设模板下边缘处的矩形和与下边缘处的矩形相邻的矩形。
在第一种可能的实施方式作为基础而提供的第五种可能的实施方式中,服务器的存储器中还包含用于执行以下操作的指令:根据每个像素的特征向量,确定多个目标像素,包括:
通过预先训练得到的随机森林分类器,对每个像素的特征向量进行处理,得到每个像素位于文本行对称轴上的概率;
从所有像素中筛选出概率大于指定概率值的像素,将概率大于指定概率值的像素作为目标像素。
在第一种可能的实施方式作为基础而提供的第六种可能的实施方式中,服务器的存储器中还包含用于执行以下操作的指令:对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域,包括:
将像素之间的距离小于指定数值的目标像素进行聚合,得到多个对称轴片段;
当对称轴片段之间的方向角和距离均满足预设条件时,聚合满足预设条件的各个对称轴片段,得到多个呈对称结构的连通区域;
确定各个呈对称结构的连通区域的外接框,得到待检测图像中的多个候选文本行区域。
在第六种可能的实施方式作为基础而提供的第七种可能的实施方式中,服务器的存储器中还包含用于执行以下操作的指令:确定各个呈对称结构的连通区域的外接框,包括:
根据组成每个呈对称结构的连通区域的像素,确定每个呈对称结构的外接框的宽度;
根据目标预设模板的尺寸,确定每个呈对称结构的外界框的高度,其中,目标预设模板为提取组成每个呈对称结构的连通区域的目标像素的特征向量时使用的预设模板。
在第一种可能的实施方式作为基础而提供的第八种可能的实施方式中,服务器的存储器中还包含用于执行以下操作的指令:滤除多个候选文本行区域中的非文本行区域,得到待检测图像中的文本行区域,包括:
使用预先训练好的第一CNN分类器,滤除多个候选文本行区域中的非文本行区域,得到多个潜在文本行区域;
使用第一CNN分类器,对多个潜在文本行区域进行分词处理,得到每个潜在文本行区域中的各个词;
使用第二CNN分类器确定每个潜在文本行区域中的各个词的得分;
滤除得分不大于指定分值的词对应的潜在文本行区域,得到待检测图像中的多个文本行区域。
本发明实施例提供的服务器,由于待检测图像中的文本行区域通常具有对称性,因此,基于提取待检测图像中每个像素的对称性特征向量,能够从自然图像中直接定位到待检测图像中的文本行区域,而无需对各个候选字符区域进行组合以得到文本行区域,不仅方式简单,而且不依赖于自然图像中的连通区域,扩大了文本行定位方式的适用范围。
图8是根据一示例性实施例提供的一种终端的结构示意图,该终端可以用于执行上述图2或图3所对应实施例提供的文本行的定位方法。具体来讲:
终端800可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(Wireless Fidelity,无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图8中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器120可用于存储软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端800的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端800的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图8中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端800还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端800移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端800还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端800之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端800的通信。
WiFi属于短距离无线传输技术,终端800通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块170,但是可以理解的是,其并不属于终端800的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端800的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端800的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端800还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端800还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含用于执行以下操作的指令:
提取待检测图像中各个像素的特征向量,其中,特征向量至少包括对称性特征向量;
根据每个像素的特征向量,确定多个目标像素,其中,目标像素为潜在位于文本行对称轴上的像素,位于文本行对称轴上的像素具有对称性;
对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域;
滤除多个候选文本行区域中的非文本行区域,得到待检测图像中的文本行区域。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:提取待检测图像中各个像素的特征向量,包括:
提取待检测图像中各个像素的自相似特征向量和差异特征向量,将各个像素的自相似特征向量和差异特征向量和纹理特征向量作为各个像素的对称性特征向量;
提取各个像素的LBP特征向量,将LBP特征向量作为各个像素的外观特征向量;
根据各个像素的对称性特征向量和外观特征向量,确定各个像素的特征向量。
在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:提取待检测图像中各个像素的自相似特征向量和差异特征向量,包括:
通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,其中,自相似特征向量至少包括亮度自相似特征向量、颜色自相似特征向量、纹理自相似特征向量和梯度自相似特征向量,差异特征向量至少包括亮度差异特征向量、颜色差异特征向量、纹理差异特征向量和梯度差异特征向量;
其中,每种尺寸的预设模板包括第一指定数值的矩形,且每种尺寸的预设模板中各个矩形的尺寸相同,每个矩形的宽度为高度的第二指定数值倍,自相似特征向量根据位于预设模板中间的矩形确定,差异特征向量根据位于预设模板边缘的矩形与位于预设模板中间的矩形确定。
在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,包括:
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种自相似特征向量:
式中,(x,y)为预设模板的中心位置,为(x,y)处像素的任一种自相似特征向量,χ2(·)表示卡方距离,(·)表示(x,y)处任一种自相似特征向量对应的参数的直方图,RMT和RMB为位于预设模板中间位置处的矩形;其中,直方图至少为亮度直方图、颜色直方图、纹理直方图和梯度直方图;
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种差异特征向量:
式中,和为(x,y)处的像素的任一种差异特征向量,RT和RMT分别为预设模板上边缘处的矩形和与上边缘处的矩形相邻的矩形,RB和RMB分别为预设模板下边缘处的矩形和与下边缘处的矩形相邻的矩形。
在第一种可能的实施方式作为基础而提供的第五种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:根据每个像素的特征向量,确定多个目标像素,包括:
通过预先训练得到的随机森林分类器,对每个像素的特征向量进行处理,得到每个像素位于文本行对称轴上的概率;
从所有像素中筛选出概率大于指定概率值的像素,将概率大于指定概率值的像素作为目标像素。
在第一种可能的实施方式作为基础而提供的第六种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域,包括:
将像素之间的距离小于指定数值的目标像素进行聚合,得到多个对称轴片段;
当对称轴片段之间的方向角和距离均满足预设条件时,聚合满足预设条件的各个对称轴片段,得到多个呈对称结构的连通区域;
确定各个呈对称结构的连通区域的外接框,得到待检测图像中的多个候选文本行区域。
在第六种可能的实施方式作为基础而提供的第七种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:确定各个呈对称结构的连通区域的外接框,包括:
根据组成每个呈对称结构的连通区域的像素,确定每个呈对称结构的外接框的宽度;
根据目标预设模板的尺寸,确定每个呈对称结构的外界框的高度,其中,目标预设模板为提取组成每个呈对称结构的连通区域的目标像素的特征向量时使用的预设模板。
在第一种可能的实施方式作为基础而提供的第八种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:滤除多个候选文本行区域中的非文本行区域,得到待检测图像中的文本行区域,包括:
使用预先训练好的第一CNN分类器,滤除多个候选文本行区域中的非文本行区域,得到多个潜在文本行区域;
使用第一CNN分类器,对多个潜在文本行区域进行分词处理,得到每个潜在文本行区域中的各个词;
使用第二CNN分类器确定每个潜在文本行区域中的各个词的得分;
滤除得分不大于指定分值的词对应的潜在文本行区域,得到待检测图像中的多个文本行区域。
本发明实施例提供的终端,由于待检测图像中的文本行区域通常具有对称性,因此,基于提取待检测图像中每个像素的对称性特征向量,能够从自然图像中直接定位到待检测图像中的文本行区域,而无需对各个候选字符区域进行组合以得到文本行区域,不仅方式简单,而且不依赖于自然图像中的连通区域,扩大了文本行定位方式的适用范围。
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质存储有一个或者一个以上程序,该一个或者一个以上程序被一个或者一个以上的处理器用来执行文本行的定位方法,该方法包括:
提取待检测图像中各个像素的特征向量,其中,特征向量至少包括对称性特征向量;
根据每个像素的特征向量,确定多个目标像素,其中,目标像素为潜在位于文本行对称轴上的像素,位于文本行对称轴上的像素具有对称性;
对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域;
滤除多个候选文本行区域中的非文本行区域,得到待检测图像中的文本行区域。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:提取待检测图像中各个像素的特征向量,包括:
提取待检测图像中各个像素的自相似特征向量和差异特征向量,将各个像素的自相似特征向量和差异特征向量作为各个像素的对称性特征向量;
提取各个像素的LBP特征向量,将LBP特征向量作为各个像素的外观特征向量;
根据各个像素的对称性特征向量和外观特征向量,确定各个像素的特征向量。
在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:提取待检测图像中各个像素的自相似特征向量和差异特征向量,包括:
通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,自相似特征向量至少包括亮度自相似特征向量、颜色自相似特征向量、纹理自相似特征向量和梯度自相似特征向量,差异特征向量至少包括亮度差异特征向量、颜色差异特征向量、纹理差异特征向量和梯度差异特征向量;
其中,每种尺寸的预设模板包括第一指定数值的矩形,且每种尺寸的预设模板中各个矩形的尺寸相同,每个矩形的宽度为高度的第二指定数值倍,自相似特征向量根据位于预设模板中间的矩形确定,差异特征向量根据位于预设模板边缘的矩形与位于预设模板中间的矩形确定。
在第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,包括:
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种自相似特征向量:
式中,(x,y)为预设模板的中心位置,为(x,y)处像素的任一种自相似特征向量,χ2(·)表示卡方距离,(·)表示(x,y)处任一种自相似特征向量对应的参数的直方图,RMT和RMB为位于预设模板中间位置处的矩形;其中,直方图至少为亮度直方图、颜色直方图、纹理直方图和梯度直方图;
对于任一尺寸的预设模板,通过如下公式确定各个像素的差异特征向量:
式中,和为(x,y)处的像素的差异特征向量,RT和RMT分别为预设模板上边缘处的矩形和与上边缘处的矩形相邻的矩形,RB和RMB分别为预设模板下边缘处的矩形和与下边缘处的矩形相邻的矩形。
在第一种可能的实施方式作为基础而提供的第五种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:根据每个像素的特征向量,确定多个目标像素,包括:
通过预先训练得到的随机森林分类器,对每个像素的特征向量进行处理,得到每个像素位于文本行对称轴上的概率;
从所有像素中筛选出概率大于指定概率值的像素,将概率大于指定概率值的像素作为目标像素。
在第一种可能的实施方式作为基础而提供的第六种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域,包括:
将像素之间的距离小于指定数值的目标像素进行聚合,得到多个对称轴片段;
当对称轴片段之间的方向角和距离均满足预设条件时,聚合满足预设条件的各个对称轴片段,得到多个呈对称结构的连通区域;
确定各个呈对称结构的连通区域的外接框,得到待检测图像中的多个候选文本行区域。
在第六种可能的实施方式作为基础而提供的第七种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:确定各个呈对称结构的连通区域的外接框,包括:
根据组成每个呈对称结构的连通区域的像素,确定每个呈对称结构的外接框的宽度;
根据目标预设模板的尺寸,确定每个呈对称结构的外界框的高度,其中,目标预设模板为提取组成每个呈对称结构的连通区域的目标像素的特征向量时使用的预设模板。
在第一种可能的实施方式作为基础而提供的第八种可能的实施方式中,终端的存储器中还包含用于执行以下操作的指令:滤除多个候选文本行区域中的非文本行区域,得到待检测图像中的文本行区域,包括:
使用预先训练好的第一CNN分类器,滤除多个候选文本行区域中的非文本行区域,得到多个潜在文本行区域;
使用第一CNN分类器,对多个潜在文本行区域进行分词处理,得到每个潜在文本行区域中的各个词;
使用第二CNN分类器确定每个潜在文本行区域中的各个词的得分;
滤除得分不大于指定分值的词对应的潜在文本行区域,得到待检测图像中的多个文本行区域。
本发明实施例提供的计算机可读存储介质,由于待检测图像中的文本行区域通常具有对称性,因此,基于提取待检测图像中每个像素的对称性特征向量,能够从自然图像中直接定位到待检测图像中的文本行区域,而无需对各个候选字符区域进行组合以得到文本行区域,不仅方式简单,而且不依赖于自然图像中的连通区域,扩大了文本行定位方式的适用范围。
本发明实施例中提供了一种图形用户接口,该图形用户接口用在终端上,该终端包括触摸屏显示器、存储器和用于执行一个或者一个以上的程序的一个或者一个以上的处理器;该图形用户接口包括:
提取待检测图像中各个像素的特征向量,其中,特征向量至少包括对称性特征向量;
根据每个像素的特征向量,确定多个目标像素,其中,目标像素为潜在位于文本行对称轴上的像素,位于文本行对称轴上的像素具有对称性;
对各个目标像素进行聚合,得到待检测图像中的多个候选文本行区域;
滤除多个候选文本行区域中的非文本行区域,得到待检测图像中的文本行区域。
本发明实施例提供的图形用户接口,由于待检测图像中的文本行区域通常具有对称性,因此,通过提取待检测图像中每个像素的至少包括对称性特征向量的特征向量,并根据每个像素的特征向量确定多个目标像素后,通过对各个目标像素进行聚合得到多个候选文本行区域,并滤除多个候选文本行区域中的非文本行区域后,能够直接定位到待检测图像中的文本行区域,而无需对各个候选字符区域进行组合以得到文本行区域,不仅方式简单,而且不依赖于自然图像中的连通区域,扩大了文本行定位方式的适用范围。
需要说明的是:上述实施例提供的文本行的定位装置在进行身份验证时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本行的定位装置、服务器及终端与文本行的定位方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (16)
1.一种文本行的定位方法,其特征在于,所述方法包括:
提取待检测图像中各个像素的特征向量,所述特征向量至少包括对称性特征向量;
根据每个像素的特征向量,确定多个目标像素,所述目标像素为潜在位于文本行对称轴上的像素,位于文本行对称轴上的像素具有对称性;
对各个目标像素进行聚合,得到所述待检测图像中的多个候选文本行区域;
滤除所述多个候选文本行区域中的非文本行区域,得到所述待检测图像中的文本行区域。
2.根据权利要求1所述的方法,其特征在于,所述提取待检测图像中各个像素的特征向量,包括:
提取待检测图像中各个像素的自相似特征向量和差异特征向量,将所述各个像素的自相似特征向量和差异特征向量作为所述各个像素的对称性特征向量;
提取所述各个像素的局部二值模式LBP特征向量,将所述LBP特征向量作为所述各个像素的外观特征向量;
根据所述各个像素的对称性特征向量和外观特征向量,确定所述各个像素的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述提取待检测图像中各个像素的自相似特征向量和差异特征向量,包括:
通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,所述自相似特征向量至少包括亮度自相似特征向量、颜色自相似特征向量、纹理自相似特征向量和梯度自相似特征向量,所述差异特征向量至少包括亮度差异特征向量、颜色差异特征向量、纹理差异特征向量和梯度差异特征向量;
其中,每种尺寸的预设模板包括第一指定数值的矩形,且每种尺寸的预设模板中各个矩形的尺寸相同,每个矩形的宽度为高度的第二指定数值倍,所述自相似特征向量根据位于所述预设模板中间的矩形确定,所述差异特征向量根据位于所述预设模板边缘的矩形与位于所述预设模板中间的矩形确定。
4.根据权利要求3所述的方法,其特征在于,所述通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,包括:
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种自相似特征向量:
式中,(x,y)为预设模板的中心位置,为(x,y)处像素的任一种自相似特征向量,χ2(·)表示卡方距离,表示(x,y)处任一种自相似特征向量对应的参数的直方图,RMT和RMB为位于预设模板中间位置处的矩形;其中,直方图至少为亮度直方图、颜色直方图、纹理直方图和梯度直方图;
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种差异特征向量:
式中,和为(x,y)处像素的任一种差异特征向量,RT和RMT分别为预设模板上边缘处的矩形和与上边缘处的矩形相邻的矩形,RB和RMB分别为预设模板下边缘处的矩形和与下边缘处的矩形相邻的矩形。
5.根据权利要求1所述的方法,其特征在于,所述根据每个像素的特征向量,确定多个目标像素,包括:
通过预先训练得到的随机森林分类器,对每个像素的特征向量进行处理,得到每个像素位于文本行对称轴上的概率;
从所有像素中筛选出概率大于指定概率值的像素,将概率大于指定概率值的像素作为目标像素。
6.根据权利要求1所述的方法,其特征在于,所述对各个目标像素进行聚合,得到所述待检测图像中的多个候选文本行区域,包括:
将像素之间的距离小于指定数值的目标像素进行聚合,得到多个对称轴片段;
当对称轴片段之间的方向角和距离均满足预设条件时,聚合满足预设条件的各个对称轴片段,得到多个呈对称结构的连通区域;
确定各个呈对称结构的连通区域的外接框,得到所述待检测图像中的多个候选文本行区域。
7.根据权利要求6所述的方法,其特征在于,所述确定各个呈对称结构的连通区域的外接框,包括:
根据组成每个呈对称结构的连通区域的像素,确定每个呈对称结构的外接框的宽度;
根据目标预设模板的尺寸,确定每个呈对称结构的外界框的高度,所述目标预设模板为提取组成每个呈对称结构的连通区域的目标像素的特征向量时使用的预设模板。
8.根据权利要求1所述的方法,其特征在于,所述滤除所述多个候选文本行区域中的非文本行区域,得到所述待检测图像中的文本行区域,包括:
使用预先训练好的第一卷积神经网络CNN分类器,滤除所述多个候选文本行区域中的非文本行区域,得到多个潜在文本行区域;
使用所述第一CNN分类器,对所述多个潜在文本行区域进行分词处理,得到每个潜在文本行区域中的各个词;
使用第二CNN分类器确定每个潜在文本行区域中的各个词的得分;
滤除得分不大于指定分值的词对应的潜在文本行区域,得到所述待检测图像中的多个文本行区域。
9.一种文本行的定位装置,其特征在于,所述装置包括:
提取模块,用于提取待检测图像中各个像素的特征向量,所述特征向量至少包括对称性特征向量;
确定模块,用于根据每个像素的特征向量,确定多个目标像素,所述目标像素为潜在位于文本行对称轴上的像素,位于文本行对称轴上的像素具有对称性;
聚合模块,用于对各个目标像素进行聚合,得到所述待检测图像中的多个候选文本行区域;
滤除模块,用于滤除所述多个候选文本行区域中的非文本行区域,得到所述待检测图像中的文本行区域。
10.根据权利要求9所述的装置,其特征在于,所述提取模块包括:
第一提取单元,用于提取待检测图像中各个像素的自相似特征向量和差异特征向量,将所述各个像素的自相似特征向量和差异特征向量作为所述各个像素的对称性特征向量;
第二提取单元,用于提取所述各个像素的局部二值模式LBP特征向量,将所述LBP特征向量作为所述各个像素的外观特征向量;
第一确定单元,用于根据所述各个像素的对称性特征向量和外观特征向量,确定所述各个像素的特征向量。
11.根据权利要求10所述的装置,其特征在于,所述第一提取单元,用于通过多种不同尺寸的预设模板,提取待检测图像中各个像素的自相似特征向量和差异特征向量,所述自相似特征向量至少包括亮度自相似特征向量、颜色自相似特征向量、纹理自相似特征向量和梯度自相似特征向量,所述差异特征向量至少包括亮度差异特征向量、颜色差异特征向量、纹理差异特征向量和梯度差异特征向量;
其中,每种尺寸的预设模板包括第一指定数值的矩形,且每种尺寸的预设模板中各个矩形的尺寸相同,每个矩形的宽度为高度的第二指定数值倍,所述自相似特征向量根据位于所述预设模板中间的矩形确定,所述差异特征向量根据位于所述预设模板边缘的矩形与位于所述预设模板中间的矩形确定。
12.根据权利要求11所述的装置,其特征在于,所述第一提取单元具体用于:
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种自相似特征向量:
式中,(x,y)为预设模板的中心位置,为(x,y)处像素的任一种自相似特征向量,χ2(·)表示卡方距离,表示(x,y)处任一种自相似特征向量对应的参数的直方图,RMT和RMB为位于预设模板中间位置处的矩形;其中,直方图至少为亮度直方图、颜色直方图、纹理直方图和梯度直方图;
对于任一尺寸的预设模板,通过如下公式确定各个像素的任一种差异特征向量:
式中,和为(x,y)处像素的任一种差异特征向量,RT和RMT分别为预设模板上边缘处的矩形和与上边缘处的矩形相邻的矩形,RB和RMB分别为预设模板下边缘处的矩形和与下边缘处的矩形相邻的矩形。
13.根据权利要求9所述的装置,其特征在于,所述确定模块包括:
处理单元,用于通过预先训练得到的随机森林分类器,对每个像素的特征向量进行处理,得到每个像素位于文本行对称轴上的概率;
筛选单元,用于从所有像素中筛选出概率大于指定概率值的像素,将概率大于指定概率值的像素作为目标像素。
14.根据权利要求9所述的装置,其特征在于,所述聚合模块包括:
第一聚合单元,用于将像素之间的距离小于指定数值的目标像素进行聚合,得到多个对称轴片段;
第二聚合单元,用于当对称轴片段之间的方向角和距离均满足预设条件时,聚合满足预设条件的各个对称轴片段,得到多个呈对称结构的连通区域;
第二确定单元,用于确定各个呈对称结构的连通区域的外接框,得到所述待检测图像中的多个候选文本行区域。
15.根据权利要求14所述的装置,其特征在于,所述第二确定单元包括:
第一确定子单元,用于根据组成每个呈对称结构的连通区域的像素,确定每个呈对称结构的外接框的宽度;
第二确定子单元,用于根据目标预设模板的尺寸,确定每个呈对称结构的外界框的高度,所述目标预设模板为提取组成每个呈对称结构的连通区域的目标像素的特征向量时使用的预设模板。
16.根据权利要求9所述的装置,其特征在于,所述滤除模块包括:
第一滤除单元,用于使用预先训练好的第一卷积神经网络CNN分类器,滤除所述多个候选文本行区域中的非文本行区域,得到多个潜在文本行区域;
分词单元,用于使用所述第一CNN分类器,对所述多个潜在文本行区域进行分词处理,得到每个潜在文本行区域中的各个词;
第三确定单元,用于使用第二CNN分类器确定每个潜在文本行区域中的各个词的得分;
第二滤除单元,用于滤除得分不大于指定分值的词对应的潜在文本行区域,得到所述待检测图像中的多个文本行区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510190211.0A CN106156711B (zh) | 2015-04-21 | 2015-04-21 | 文本行的定位方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510190211.0A CN106156711B (zh) | 2015-04-21 | 2015-04-21 | 文本行的定位方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106156711A true CN106156711A (zh) | 2016-11-23 |
CN106156711B CN106156711B (zh) | 2020-06-30 |
Family
ID=58058983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510190211.0A Active CN106156711B (zh) | 2015-04-21 | 2015-04-21 | 文本行的定位方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106156711B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897732A (zh) * | 2017-01-06 | 2017-06-27 | 华中科技大学 | 一种基于连接文字段的自然图片中多方向文本检测方法 |
CN107045633A (zh) * | 2016-12-26 | 2017-08-15 | 上海大学 | 一种基于st‑mser的能源计量表具的数字定位分割方法 |
CN108241874A (zh) * | 2018-02-13 | 2018-07-03 | 河南科技大学 | 基于bp神经网络和频谱分析的视频文字区域定位方法 |
WO2018145470A1 (zh) * | 2017-02-13 | 2018-08-16 | 广州视源电子科技股份有限公司 | 一种图像检测方法和装置 |
CN109034159A (zh) * | 2018-05-28 | 2018-12-18 | 北京捷通华声科技股份有限公司 | 图像信息提取方法和装置 |
CN109308476A (zh) * | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
WO2019095092A1 (en) * | 2017-11-14 | 2019-05-23 | Symbol Technologies, Llc | Methods and apparatus for detecting and recognizing graphical character representations in image data using symmetrically-located blank areas |
CN110390324A (zh) * | 2019-07-27 | 2019-10-29 | 苏州过来人科技有限公司 | 一种融合视觉与文本特征的简历版面分析算法 |
CN110490190A (zh) * | 2019-07-04 | 2019-11-22 | 贝壳技术有限公司 | 一种结构化图像文字识别方法及系统 |
CN110619331A (zh) * | 2019-09-20 | 2019-12-27 | 江苏鸿信系统集成有限公司 | 一种基于颜色距离的彩色影像字段定位方法 |
WO2020224153A1 (zh) * | 2019-05-07 | 2020-11-12 | 武汉楚精灵医疗科技有限公司 | 一种基于深度学习和图像增强的nbi图像处理方法及其应用 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103493067A (zh) * | 2011-12-26 | 2014-01-01 | 华为技术有限公司 | 识别视频的字符的方法和装置 |
-
2015
- 2015-04-21 CN CN201510190211.0A patent/CN106156711B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103493067A (zh) * | 2011-12-26 | 2014-01-01 | 华为技术有限公司 | 识别视频的字符的方法和装置 |
Non-Patent Citations (6)
Title |
---|
CONG YAO等: "Detecting Texts of Arbitrary Orientations in Natural Images", 《2012 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
DATONG CHEN等: "A localization/verification scheme for finding text in images", 《SIGNAL PROCESSING: IMAGE COMMUNICATION》 * |
STAVROS TSOGKAS AND IASONAS KOKKINOS: "Learning-Based Symmetry Detection in Natural Images", 《ECCV 2012: COMPUTER VISION – ECCV 2012》 * |
TIMO OJALA等: "Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
YOSSI RUBNER等: "Empirical Evaluation of Dissimilarity Measures", 《COMPUTER VISION AND IMAGE UNDERSTANDING》 * |
许肖等: "复杂背景下文本检测研究", 《计算机技术与发展》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107045633A (zh) * | 2016-12-26 | 2017-08-15 | 上海大学 | 一种基于st‑mser的能源计量表具的数字定位分割方法 |
CN106897732A (zh) * | 2017-01-06 | 2017-06-27 | 华中科技大学 | 一种基于连接文字段的自然图片中多方向文本检测方法 |
WO2018145470A1 (zh) * | 2017-02-13 | 2018-08-16 | 广州视源电子科技股份有限公司 | 一种图像检测方法和装置 |
CN111386533A (zh) * | 2017-11-14 | 2020-07-07 | 讯宝科技有限责任公司 | 使用对称定位的空白区域检测和识别图像数据中图形字符表示的方法和装置 |
CN111386533B (zh) * | 2017-11-14 | 2023-09-05 | 讯宝科技有限责任公司 | 使用对称定位的空白区域检测和识别图像数据中图形字符表示的方法和装置 |
WO2019095092A1 (en) * | 2017-11-14 | 2019-05-23 | Symbol Technologies, Llc | Methods and apparatus for detecting and recognizing graphical character representations in image data using symmetrically-located blank areas |
US11074472B2 (en) | 2017-11-14 | 2021-07-27 | Symbol Technologies, Llc | Methods and apparatus for detecting and recognizing graphical character representations in image data using symmetrically-located blank areas |
CN108241874A (zh) * | 2018-02-13 | 2018-07-03 | 河南科技大学 | 基于bp神经网络和频谱分析的视频文字区域定位方法 |
CN108241874B (zh) * | 2018-02-13 | 2020-12-18 | 河南科技大学 | 基于bp神经网络和频谱分析的视频文字区域定位方法 |
CN109034159A (zh) * | 2018-05-28 | 2018-12-18 | 北京捷通华声科技股份有限公司 | 图像信息提取方法和装置 |
CN109308476A (zh) * | 2018-09-06 | 2019-02-05 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
WO2020224153A1 (zh) * | 2019-05-07 | 2020-11-12 | 武汉楚精灵医疗科技有限公司 | 一种基于深度学习和图像增强的nbi图像处理方法及其应用 |
CN110490190A (zh) * | 2019-07-04 | 2019-11-22 | 贝壳技术有限公司 | 一种结构化图像文字识别方法及系统 |
CN110490190B (zh) * | 2019-07-04 | 2021-10-26 | 贝壳技术有限公司 | 一种结构化图像文字识别方法及系统 |
CN110390324A (zh) * | 2019-07-27 | 2019-10-29 | 苏州过来人科技有限公司 | 一种融合视觉与文本特征的简历版面分析算法 |
CN110619331A (zh) * | 2019-09-20 | 2019-12-27 | 江苏鸿信系统集成有限公司 | 一种基于颜色距离的彩色影像字段定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106156711B (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156711A (zh) | 文本行的定位方法及装置 | |
CN104217717B (zh) | 构建语言模型的方法及装置 | |
CN104143097B (zh) | 分类函数获取方法、人脸年龄识别方法、装置和设备 | |
CN108334539B (zh) | 对象推荐方法、移动终端及计算机可读存储介质 | |
CN107977674A (zh) | 图像处理方法、装置、移动终端及计算机可读存储介质 | |
CN104463105B (zh) | 路牌识别方法及装置 | |
CN108304758A (zh) | 人脸特征点跟踪方法及装置 | |
CN106446797A (zh) | 图像聚类方法及装置 | |
CN108932331A (zh) | 一种地图数据更新方法、装置及系统 | |
CN107748856A (zh) | 二维码识别方法、终端及计算机可读存储介质 | |
CN107809526A (zh) | 终端应用程序分类方法、移动终端及计算机可读存储介质 | |
CN106227774A (zh) | 信息搜索方法及装置 | |
CN106874936B (zh) | 图像传播监测方法及装置 | |
CN105912920A (zh) | 一种指纹解锁方法及终端 | |
CN106203235A (zh) | 活体鉴别方法和装置 | |
CN105303149A (zh) | 人物图像的展示方法和装置 | |
CN105447583A (zh) | 一种预测用户离网的方法及装置 | |
CN107239567A (zh) | 一种目标景物的识别方法、设备及计算机可读存储介质 | |
CN114722937A (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
CN103869977B (zh) | 图像显示方法、装置和电子设备 | |
CN115205883A (zh) | 基于ocr和nlp的资料审核方法、装置、设备、存储介质 | |
CN107886786A (zh) | 基于大数据的智能教育终端系统 | |
CN103823828A (zh) | 地图比例尺设定方法、装置和终端 | |
CN107332978A (zh) | 天气信息实时显示方法及移动终端 | |
CN115471495B (zh) | 模型鲁棒性检测方法、相关装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |