CN105404868A - 一种基于交互平台的复杂背景中文本的快速检测方法 - Google Patents

一种基于交互平台的复杂背景中文本的快速检测方法 Download PDF

Info

Publication number
CN105404868A
CN105404868A CN201510801295.7A CN201510801295A CN105404868A CN 105404868 A CN105404868 A CN 105404868A CN 201510801295 A CN201510801295 A CN 201510801295A CN 105404868 A CN105404868 A CN 105404868A
Authority
CN
China
Prior art keywords
image
text
pixel
formula
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510801295.7A
Other languages
English (en)
Other versions
CN105404868B (zh
Inventor
程洪
王光甫
杨路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510801295.7A priority Critical patent/CN105404868B/zh
Publication of CN105404868A publication Critical patent/CN105404868A/zh
Application granted granted Critical
Publication of CN105404868B publication Critical patent/CN105404868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于交互平台的复杂背景中文本的快速检测方法,它包括以下步骤:S1:输入图像预处理;S2:文本候选区域快速定位:对步骤S1预处理后的图像作轮廓检测,并用矩形框将每个闭合区域框选出来,然后通过SIFT算法快速定位每个矩形框中的所有角点,将角点个数作为初步筛选条件进行初步筛选;S3:通过归一化算法首先将图像调整到统一的大小,再通过前向映射的方法将原图像中的内容投射到归一化后的图片的正中心,并适当的修正角度;S4:文本/背景筛选:首先提取特征,经过训练后的分类器筛选后的候选区域为检测出的文本区域。本发明实现复杂背景中的文本检测,其解决的主要问题是如何在保持较高精度情况下快速定位图像中水平及带有旋转角度的文本。

Description

一种基于交互平台的复杂背景中文本的快速检测方法
技术领域
本发明涉及计算机视觉和人机交互领域,尤其涉及一种基于交互平台的复杂背景中文本的快速检测方法。
背景技术
复杂背景中的文本检测问题,在计算机视觉领域和人机交互领域都视为一个经典难题。原因有两点,首先这项技术有着广泛的应用。比如,可以利用这项技术让手机等智能设备为我们读书念报,或应用于无人车上让车辆自动识别路标路牌。其次,文本检测问题有时非常难解决的,因为文本检测不同于人脸、车辆、行人等一般的目标检测。文本的形状更加多变(往往出现不同程度的形变、模糊),与背景更加相似,并且计算时间复杂度很高。
对于复杂背景的文本检测,目前主要有三种方法:1.基于纹理的文本检测方法。2.基于区域的文本检测方法。3.基于深度学习的方法。
基于纹理的文本检测方法,是把复杂背景中的文本视为一种特殊的纹理。通常采用滑动窗的方法进行纹理提取,再用Gabor滤波等对光线鲁棒对边缘信息敏感的滤波器进行图像预处理,最后用灰度直方图的方法统计图像中的像素分布情况进而确定滑动窗中是否有文本存在。其缺点是对背景较为复杂的图片处理效果不好,并且由于用到了滑动窗方法其计算效率是非常低的。
基于区域的文本检测方法,是人文复杂背景中的文本都是一种局部连通的特殊区域。其基本思想是利用连通区域提取算法将图像中的所有连通部分提取出来,然后用训练分类器或制定筛选规则将文本部分与背景部分进行区分,最后再将所得到的文本进行整合。其缺点在于过于依赖于连通区域的提取算法,但SWT或MSER这样的连通区域算法对低对比度图像的提取效果是非常不理想的,从而影响整体的检测率。
基于深度学习的方法,是最近最流行的方法之一。其主要思想是利用海量的数据及高性能的计算机训练一个多层的神经网络。这种方法为了提高训练效率一般要用GPU进行加速。其缺点在于,需要海量的标注数据十分耗时耗力,并且一般对水平的文本效果较好,但旋转的情况准确率不高。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于交互平台的复杂背景中文本的快速检测方法,解决了文本定位速度过慢的问题,可以快速的将图片中文本定位,并有较强的鲁棒性。
本发明的目的是通过以下技术方案来实现的:一种基于交互平台的复杂背景中文本的快速检测方法,它包括以下步骤:
S1:输入图像预处理:对输入的图像进行预处理操作,增强文本边缘对比度;
S2:文本候选区域快速定位:对步骤S1预处理后的图像作轮廓检测,并用矩形框将每个闭合区域框选出来,然后通过SIFT算法快速定位每个矩形框中的所有角点,将角点个数作为初步筛选条件进行初步筛选;
S3:候选区域归一化:通过归一化算法首先将图像调整到统一的大小,再通过前向映射的方法将原图像中的内容投射到归一化后的图片的正中心,并适当的修正角度;
S4:文本/背景筛选:首先离线的根据训练样本提取具有鲁棒性的特征,经过训练后的分类器筛选后的候选区域为检测出的文本区域。
所述的步骤S1包括以下子步骤:
S11:将输入的图像进行直方图均值化,使得原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围的均匀分布,公式如下:
S k = Σ j = 0 k n j n , k = 0 , 1 , 2 , ... , L - 1 ;
式中,n为图像的像素总和,nk是当前灰度级像素的个数,L是图像中可能出现的像素灰度级的总数;
S12:采用图像锐化算法对图像进行加强:采用Kirsch算子模板对图像上的每一个像素点进行卷积求导数,所述的Kirsch算子模板的数量N代表方向的数量,对图像上的N个特点边缘方向做出最大响应,运算中取最大值作为图像的边缘输出。
所述的步骤S2包括以下子步骤:
S21:对步骤S1预处理后的图像作轮廓检测,并用矩形框将每个闭合区域框选出来;
S22:通过SIFT算法快速定位每个矩形框中的所有角点;
S23:统计落在每个矩形框中的角点个数,公式如下:
RN k = Σ x = 0 w Σ y = 0 h p ( x , y ) s ( x , y ) ;
式中,k代表第k个矩形框区域,w和h分别代表所述矩形框区域的宽和长,p(x,y)代表矩形框的二值图像,s(x,y)代表矩形框对应的SIFT角点图;
S24:用单位面积的角点个数作为初步筛选条件,公式如下:
PRN k = RN k w × h ;
当PRNk的值大于某个值时,认为该区域含有文本。
所述的步骤S3包括以下子步骤:
S31:采用Moment算法求出原图像中内容的形心,公式如下:
mpq=ΣxΣyxpyqf(x,y);
x c = m 10 / m 00 y c = m 01 / m 00 ;
式中,x和y分别代表图像中(x,y)像素的坐标,f(x,y)代表在(x,y)点的像素值;p和q代表阶数;mpq代表Moment算子;xc和yc分别代表原矩形框内的内容形心的坐标值;
S32:计算矩形框中内容的倾斜角度θ,公式如下:
μpq=ΣxΣy(x-xc)(y-yc)f(x,y);
tanθ=μ1102
S33:经过前向映射后得到新图像,公式如下:
x ′ = α ( x - x c ) + x c ′ y ′ = β ( y - y c ) + y c ′ ;
式中,x'c和y'c分别代表归一化图长宽的一半,(x',y')代表改变大小后的图像的中心,α和β代表映射比例。
步骤S4中所述的特征包括方向梯度直方图特征、文本的起/终点与交叉点个数、几何特征、轮廓的梯度均值;所述的几何特征包括:矩形框面积、非0像素点个数、轮廓周长。
所述的方向梯度直方图特征的提取包括以下子步骤:
S51:将图像按照一定形式花费为多个图像块,每个图像块包含多个图像单元;
S52:计算图像单元中每个像素的梯度,公式如下:
Gx(x,y)=H(x+1,y)-H(x-1,y);
Gy(x,y)=H(x,y+1)-H(x,y-1);
式中,H(x,y)表示在(x,y)点的像素值,Gx(x,y)和Gy(x,y)分别表示在这点上的x方向和y方向的梯度值;
S53:计算梯度幅值G(x,y)和梯度方向α(x,y),公式如下:
G ( x , y ) = G x ( x , y ) 2 + G y ( x , y ) 2 2 ;
α ( x , y ) = tan - 1 G y ( x , y ) G x ( x , y ) ;
S54:根据梯度幅值G(x,y)和梯度方向α(x,y)计算每一区域中落在每个方向中像素的个数,作为方向梯度直方图的提取的特征。
所述的文本的起/终点与交叉点个数的提取包括文本的起/终点的提取和交叉点个数的提取;其中,所述的文本的起/终点的提取为:在某像素点的邻域中只有一个非零点与其连通,则认为是起/终点;所述的交叉点个数的提取包括以下几种情况:
(1)当含有三个相邻像素时:如果与这个像素直接相连的像素中同时也与任意对角方向的像素相连,那么这个点不是交叉点;如果相邻的像素中彼此不想连通,那么这个像素点就是交叉点;
(2)当含有四个相邻像素时:如果相邻像素中,有任意两个像素在对角方向同时相连,那个这个点不是交叉点;否则,是交叉点;
(3)当含有五个或以上相邻像素时:都视为是交叉点。
所述的轮廓的梯度均值的提取包括以下子步骤:
S61:采用SOBEL算子进行计算,公式如下:
gx(x,y)=f(x+1,y-1)+2f(x+1,y)+f(x+1,y+1)-f(x-1,y-1)-2f(x-1,y)-f(x-1,y+1);
gy(x,y)=f(x-1,y+1)+2f(x,y+1)+f(x+1,y+1)-f(x-1,y-1)-2f(x,y-1)-f(x+1,y-1);
式中,f(x,y)表示在(x,y)点的像素值,gx(x,y)和gy(x,y)分别表示在这点上的x方向和y方向的梯度值;
S62:根据轮廓图对轮廓上的像素点梯度求平均值,得到的平均值作为轮廓的梯度均值提取的特征。
所述的步骤S4包括以下子步骤:
S41:离线的根据训练样本提取具有鲁棒性的特征;
S42:经过分类器筛选后的候选区域为检测出的文本区域;
S43:将备选区域进行整合后输出结果。
一种基于交互平台的复杂背景中文本的快速检测方法还包括一个分类器训练步骤S0,包括以下子步骤:
S01:将正负样本分类;
S02:提取特征;
S03:对分类器训练,训练后的分类器为步骤S4提供基础;所述的分类器为随机森林分类器。
本发明的有益效果是:本发明实现复杂背景中的文本检测,其解决的主要问题是如何在保持较高精度情况下快速定位图像中水平及带有旋转角度的文本。本发明旨在用快速的文本候选区域提取算法在图片中作文本出筛选,接着将筛选的区域进行归一化并进行一系列的几何滤波,然后提取具有旋转不变形的特征训练分类器对文本和背景进行区分,最终达到文本检测的效果。
本发明可以应用于交互系统中,协助人快速找到文本区域。与现有的文本检测系统相比的优点在于:1.文本定位迅速,计算复杂度简单。2.对硬件的要求不高,可以在嵌入式上运行。3.对光照造成的模糊和文字边缘的低对比度及拍摄角度的倾斜鲁棒。
附图说明
图1为本发明方法流程图;
图2为图片归一化效果图;
图3为kirsch算子模板示意图;
图4为文本的起/终点特征示意图;
图5为交叉点个数特征示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案:如图1所示,一种基于交互平台的复杂背景中文本的快速检测方法,它包括以下步骤:
S1:输入图像预处理:对输入的图像进行预处理操作,增强文本边缘对比度;
该步骤首先将摄像头采集的彩色图像转换成灰度图,因为图像在灰度空间对光照的相应不是十分明显。接着用两种图像处理方法对图像预处理:
所述的步骤S1包括以下子步骤:
S11:将输入的图像进行直方图均值化,使得原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围的均匀分布,公式如下:
S k = Σ j = 0 k n j n , k = 0 , 1 , 2 , ... , L - 1 ;
式中,n为图像的像素总和,nk是当前灰度级像素的个数,L是图像中可能出现的像素灰度级的总数;
通过这样的处理后可以增强大部分图像的局部对比度。但仍有部分图片的效果不够完美,所以采用另外一种处理方法进行加强,即图像锐化算法。
S12:采用图像锐化算法对图像进行加强:采用Kirsch算子模板对图像上的每一个像素点进行卷积求导数,所述的Kirsch算子模板的数量N代表方向的数量,对图像上的N个特点边缘方向做出最大响应,运算中取最大值作为图像的边缘输出。
如图3所示,这种方法采用8个模板(M1~M8),对图像上的每一个像素点进行卷积求导数,这8个模板代表8个方向,对图像上的8个特定边缘方向作出最大响应,运算(与3*3像素加权之和,就是对应位置相乘后求和)中取最大值作为图像的边缘输出。从而起到增强文本边缘对比度的作用。
S2:文本候选区域快速定位:对步骤S1预处理后的图像作轮廓检测,并用矩形框将每个闭合区域框选出来,然后通过SIFT算法快速定位每个矩形框中的所有角点,将角点个数作为初步筛选条件进行初步筛选;
该步骤首先对预处理后的图像作轮廓检测,并用矩形框将每个闭合区域框选出来。我们认为每个闭合区域都有可能含有文本,但其中也包含着大量的背景或噪声。然而文本大多是含有较多角点的,所以本发明利用效率远高于MSER或SWT算法的SIFT算法快速的定位图像中的所有角点。SIFT算法可以高效的检测出图像中的关键点,并且对旋转、尺度缩放、亮度变化都有极高的鲁棒性。
所述的步骤S2包括以下子步骤:
S21:对步骤S1预处理后的图像作轮廓检测,并用矩形框将每个闭合区域框选出来;
S22:通过SIFT算法快速定位每个矩形框中的所有角点;
S23:统计落在每个矩形框中的角点个数,公式如下:
RN k = Σ x = 0 w Σ y = 0 h p ( x , y ) s ( x , y ) ;
式中,k代表第k个矩形框区域,w和h分别代表所述矩形框区域的宽和长,p(x,y)代表矩形框的二值图像,s(x,y)代表矩形框对应的SIFT角点图;
由于面积较大的矩形框包含的极值点很多但可能这些极值点都产生在大量的背景噪声中,所以我们用单位面积的角点个数作为初步筛选条件。
S24:用单位面积的角点个数作为初步筛选条件,公式如下:
PRN k = RN k w × h ;
当PRNk的值大于0.2时,认为该区域含有文本。
S3:候选区域归一化:通过归一化算法首先将图像调整到统一的大小,再通过前向映射的方法将原图像中的内容投射到归一化后的图片的正中心,并适当的修正角度;
由于经过步骤二我们得到的文本备选区域大小各异,并且图片中的文字或非文字都极为不规整形状角度各异,所以我们通过归一化算法首先将图像调整到统一的大小,再通过前向映射的方法将原图像中的内容投射到归一化后的图片的正中心,并适当的修正其角度。
所述的步骤S3包括以下子步骤:
S31:首先我们用Moment算法求出原图像中内容的形心;这里分别用到了一阶和二阶Moment公式如下:
mpq=ΣxΣyxpyqf(x,y);
x c = m 10 / m 00 y c = m 01 / m 00 ;
式中,x和y分别代表图像中(x,y)像素的坐标,f(x,y)代表在(x,y)点的像素值;p和q代表阶数;mpq代表Moment算子;xc和yc分别代表原矩形框内的内容形心的坐标值;
S32:计算矩形框中内容的倾斜角度θ,公式如下:
μpq=ΣxΣy(x-xc)(y-yc)f(x,y);
tanθ=μ1102
S33:经过前向映射后得到新图像,公式如下:
x ′ = α ( x - x c ) + x c ′ y ′ = β ( y - y c ) + y c ′ ;
式中,x'c和y'c分别代表归一化图长宽的一半,(x',y')代表改变大小后的图像的中心,α和β代表映射比例。
S4:文本/背景筛选:首先离线的根据训练样本提取具有鲁棒性的特征,经过训练后的分类器筛选后的候选区域为检测出的文本区域。
步骤S4中所述的特征包括方向梯度直方图特征、文本的起/终点与交叉点个数、几何特征、轮廓的梯度均值;所述的几何特征包括:矩形框面积、非0像素点个数、轮廓周长。
该步骤首先离线的根据训练样本提取具有鲁棒性的特征,然后进行分类器训练,本发明用的分类器是随机森林,该分类器处理数据较为高效,并且对高维特征的处理效果也十分显著。
首先方向梯度直方图特征,该特征又分为R-HOG和C-HOG两种,这两种的区别在于一个数以矩形将图像划分为多个图像块,而每个图像块又包含这多个图像单元。在计算过程中,首先计算图像单元中每个像素的梯度,然后计算梯度的方向,统计每一区域中落在每个方向中像素的个数。本系统中归一化的图像大小为24*24,我们以3*3个像素作为一个图像单元,再以2*2个图像单元作为一个图像块。并以6个像素作为步长滑动窗口计算梯度信息。在计算梯度方向时我们分为9个方向进行统计,于是我们可以得到9*4*4*4=576维的HOG特征。相似的C-HOG特征是把图像分割成以定长为半径的圆进行统计,其计算方式与R-HOG特征相似。在本发明中,我们用的是R-HOG特征。
所述的方向梯度直方图特征的提取包括以下子步骤:
S51:将图像按照一定形式花费为多个图像块,每个图像块包含多个图像单元;
S52:计算图像单元中每个像素的梯度,公式如下:
Gx(x,y)=H(x+1,y)-H(x-1,y);
Gy(x,y)=H(x,y+1)-H(x,y-1);
式中,H(x,y)表示在(x,y)点的像素值,Gx(x,y)和Gy(x,y)分别表示在这点上的x方向和y方向的梯度值;
S53:计算梯度幅值G(x,y)和梯度方向α(x,y),公式如下:
G ( x , y ) = G x ( x , y ) 2 + G y ( x , y ) 2 2 ;
α ( x , y ) = tan - 1 G y ( x , y ) G x ( x , y ) ;
S54:根据梯度幅值G(x,y)和梯度方向α(x,y)计算每一区域中落在每个方向中像素的个数,作为方向梯度直方图的提取的特征。
所述的文本的起/终点与交叉点个数的提取包括文本的起/终点的提取和交叉点个数的提取;其中,如图4所示,所述的文本的起/终点的提取为:在某像素点的邻域中只有一个非零点与其连通,则认为是起/终点;如图5所示,所述的交叉点个数的提取包括以下几种情况:
(1)当含有三个相邻像素时:如果与这个像素直接相连的像素中同时也与任意对角方向的像素相连,那么这个点不是交叉点;如果相邻的像素中彼此不想连通,那么这个像素点就是交叉点;
(2)当含有四个相邻像素时:如果相邻像素中,有任意两个像素在对角方向同时相连,那个这个点不是交叉点;否则,是交叉点;
(3)当含有五个或以上相邻像素时:都视为是交叉点。
对于几何特征,用到了一下几种矩形框面积,非0像素点个数,轮廓周长。相对容易求取,却十分奏效。
而轮廓的梯度中值,不同于HOG特征的梯度求取方法,这里用到了Sobel算子进行计算。所述的轮廓的梯度均值的提取包括以下子步骤:
S61:采用SOBEL算子进行计算,公式如下:
gx(x,y)=f(x+1,y-1)+2f(x+1,y)+f(x+1,y+1)-f(x-1,y-1)-2f(x-1,y)-f(x-1,y+1);
gy(x,y)=f(x-1,y+1)+2f(x,y+1)+f(x+1,y+1)-f(x-1,y-1)-2f(x,y-1)-f(x+1,y-1);
式中,f(x,y)表示在(x,y)点的像素值,gx(x,y)和gy(x,y)分别表示在这点上的x方向和y方向的梯度值;
S62:根据轮廓图对轮廓上的像素点梯度求平均值,得到的平均值作为轮廓的梯度均值提取的特征。
所述的步骤S4包括以下子步骤:
S41:离线的根据训练样本提取具有鲁棒性的特征;
S42:经过分类器筛选后的候选区域为检测出的文本区域;
S43:将备选区域进行整合后输出结果。
一种基于交互平台的复杂背景中文本的快速检测方法还包括一个分类器训练步骤S0,包括以下子步骤:
S01:将正负样本分类;
S02:提取特征;
S03:对分类器训练,训练后的分类器为步骤S4提供基础;所述的分类器为随机森林分类器。由于特征维数较大,随机森林可以很好的防止过拟合现象的发生。明确较为高效,且具有很高的准确性。我们将随机森林的参数设置如下一共由100棵随机树组成,每棵树的最大高度设为30。

Claims (10)

1.一种基于交互平台的复杂背景中文本的快速检测方法,其特征在于:它包括以下步骤:
S1:输入图像预处理:对输入的图像进行预处理操作,增强文本边缘对比度;
S2:文本候选区域快速定位:对步骤S1预处理后的图像作轮廓检测,并用矩形框将每个闭合区域框选出来,然后通过SIFT算法快速定位每个矩形框中的所有角点,将角点个数作为初步筛选条件进行初步筛选;
S3:候选区域归一化:通过归一化算法首先将图像调整到统一的大小,再通过前向映射的方法将原图像中的内容投射到归一化后的图片的正中心,并适当的修正角度;
S4:文本/背景筛选:首先离线的根据训练样本提取具有鲁棒性的特征,经过训练后的分类器筛选后的候选区域为检测出的文本区域。
2.根据权利要求1所述的一种基于交互平台的复杂背景中文本的快速检测方法,其特征在于:所述的步骤S1包括以下子步骤:
S11:将输入的图像进行直方图均值化,使得原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围的均匀分布,公式如下:
S k = Σ j = 0 k n j n , k = 0 , 1 , 2 , ... , L - 1 ;
式中,n为图像的像素总和,nk是当前灰度级像素的个数,L是图像中可能出现的像素灰度级的总数;
S12:采用图像锐化算法对图像进行加强:采用Kirsch算子模板对图像上的每一个像素点进行卷积求导数,所述的Kirsch算子模板的数量N代表方向的数量,对图像上的N个特点边缘方向做出最大响应,运算中取最大值作为图像的边缘输出。
3.根据权利要求1所述的一种基于交互平台的复杂背景中文本的快速检测方法,其特征在于:所述的步骤S2包括以下子步骤:
S21:对步骤S1预处理后的图像作轮廓检测,并用矩形框将每个闭合区域框选出来;
S22:通过SIFT算法快速定位每个矩形框中的所有角点;
S23:统计落在每个矩形框中的角点个数,公式如下:
RN k = Σ x = 0 w Σ y = 0 h p ( x , y ) s ( x , y ) ;
式中,k代表第k个矩形框区域,w和h分别代表所述矩形框区域的宽和长,p(x,y)代表矩形框的二值图像,s(x,y)代表矩形框对应的SIFT角点图;
S24:用单位面积的角点个数作为初步筛选条件,公式如下:
PRN k = RN k w × h ;
当PRNk的值大于某个值时,认为该区域含有文本。
4.根据权利要求1所述的一种基于交互平台的复杂背景中文本的快速检测方法,其特征在于:所述的步骤S3包括以下子步骤:
S31:采用Moment算法求出原图像中内容的形心,公式如下:
mpq=ΣxΣyxpyqf(x,y);
x c = m 10 / m 00 y c = m 01 / m 00 ;
式中,x和y分别代表图像中(x,y)像素的坐标,f(x,y)代表在(x,y)点的像素值;p和q代表阶数;mpq代表Moment算子;xc和yc分别代表原矩形框内的内容形心的坐标值;
S32:计算矩形框中内容的倾斜角度θ,公式如下:
μpq=ΣxΣy(x-xc)(y-yc)f(x,y);
tanθ=μ1102
S33:经过前向映射后得到新图像,公式如下:
x ′ = α ( x - x c ) + x c ′ y ′ = β ( y - y c ) + y c ′ ;
式中,x'c和y'c分别代表归一化图长宽的一半,(x',y')代表改变大小后的图像的中心,α和β代表映射比例。
5.根据权利要求1所述的一种基于交互平台的复杂背景中文本的快速检测方法,其特征在于:
步骤S4中所述的特征包括方向梯度直方图特征、文本的起/终点与交叉点个数、几何特征、轮廓的梯度均值;所述的几何特征包括:矩形框面积、非0像素点个数、轮廓周长。
6.根据权利要求5所述的一种基于交互平台的复杂背景中文本的快速检测方法,其特征在于:所述的方向梯度直方图特征的提取包括以下子步骤:
S51:将图像按照一定形式花费为多个图像块,每个图像块包含多个图像单元;
S52:计算图像单元中每个像素的梯度,公式如下:
Gx(x,y)=H(x+1,y)-H(x-1,y);
Gy(x,y)=H(x,y+1)-H(x,y-1);
式中,H(x,y)表示在(x,y)点的像素值,Gx(x,y)和Gy(x,y)分别表示在这点上的x方向和y方向的梯度值;
S53:计算梯度幅值G(x,y)和梯度方向α(x,y),公式如下:
G ( x , y ) = G x ( x , y ) 2 + G y ( x , y ) 2 2 ;
α ( x , y ) = tan - 1 G y ( x , y ) G x ( x , y ) ;
S54:根据梯度幅值G(x,y)和梯度方向α(x,y)计算每一区域中落在每个方向中像素的个数,作为方向梯度直方图的提取的特征。
7.根据权利要求5所述的一种基于交互平台的复杂背景中文本的快速检测方法,其特征在于:所述的文本的起/终点与交叉点个数的提取包括文本的起/终点的提取和交叉点个数的提取;其中,所述的文本的起/终点的提取为:在某像素点的邻域中只有一个非零点与其连通,则认为是起/终点;所述的交叉点个数的提取包括以下几种情况:
(1)当含有三个相邻像素时:如果与这个像素直接相连的像素中同时也与任意对角方向的像素相连,那么这个点不是交叉点;如果相邻的像素中彼此不想连通,那么这个像素点就是交叉点;
(2)当含有四个相邻像素时:如果相邻像素中,有任意两个像素在对角方向同时相连,那个这个点不是交叉点;否则,是交叉点;
(3)当含有五个或以上相邻像素时:都视为是交叉点。
8.根据权利要求5所述的一种基于交互平台的复杂背景中文本的快速检测方法,其特征在于:所述的轮廓的梯度均值的提取包括以下子步骤:
S61:采用SOBEL算子进行计算,公式如下:
gx(x,y)=f(x+1,y-1)+2f(x+1,y)+f(x+1,y+1)-f(x-1,y-1)-2f(x-1,y)-f(x-1,y+1);
gy(x,y)=f(x-1,y+1)+2f(x,y+1)+f(x+1,y+1)-f(x-1,y-1)-2f(x,y-1)-f(x+1,y-1);
式中,f(x,y)表示在(x,y)点的像素值,gx(x,y)和gy(x,y)分别表示在这点上的x方向和y方向的梯度值;
S62:根据轮廓图对轮廓上的像素点梯度求平均值,得到的平均值作为轮廓的梯度均值提取的特征。
9.根据权利要求1或5或6或7或8所述的一种基于交互平台的复杂背景中文本的快速检测方法,其特征在于:所述的步骤S4包括以下子步骤:
S41:离线的根据训练样本提取具有鲁棒性的特征;
S42:经过分类器筛选后的候选区域为检测出的文本区域;
S43:将备选区域进行整合后输出结果。
10.根据权利要求1所述的一种基于交互平台的复杂背景中文本的快速检测方法,其特征在于:还包括一个分类器训练步骤S0,包括以下子步骤:
S01:将正负样本分类;
S02:提取特征;
S03:对分类器训练,训练后的分类器为步骤S4提供基础;所述的分类器为随机森林分类器。
CN201510801295.7A 2015-11-19 2015-11-19 一种基于交互平台的复杂背景中文本的快速检测方法 Active CN105404868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510801295.7A CN105404868B (zh) 2015-11-19 2015-11-19 一种基于交互平台的复杂背景中文本的快速检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510801295.7A CN105404868B (zh) 2015-11-19 2015-11-19 一种基于交互平台的复杂背景中文本的快速检测方法

Publications (2)

Publication Number Publication Date
CN105404868A true CN105404868A (zh) 2016-03-16
CN105404868B CN105404868B (zh) 2019-05-10

Family

ID=55470345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510801295.7A Active CN105404868B (zh) 2015-11-19 2015-11-19 一种基于交互平台的复杂背景中文本的快速检测方法

Country Status (1)

Country Link
CN (1) CN105404868B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971186A (zh) * 2017-03-29 2017-07-21 深圳万发创新进出口贸易有限公司 一种智能交通监控系统
CN110032969A (zh) * 2019-04-11 2019-07-19 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110322495A (zh) * 2019-06-27 2019-10-11 电子科技大学 一种基于弱监督深度学习的场景文本分割方法
CN110378227A (zh) * 2019-06-17 2019-10-25 北京达佳互联信息技术有限公司 修正样本标注数据的方法、装置、设备及存储介质
CN110807771A (zh) * 2019-10-31 2020-02-18 长安大学 一种道路减速带的缺损检测方法
CN111640132A (zh) * 2020-06-02 2020-09-08 北京环境特性研究所 一种单连通区域快速标记方法及装置
CN111783777A (zh) * 2020-07-07 2020-10-16 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备和计算机可读介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163278A (zh) * 2011-03-03 2011-08-24 苏州市慧视通讯科技有限公司 一种公交车道非法车辆闯入检测方法
CN102163284A (zh) * 2011-04-11 2011-08-24 西安电子科技大学 面向中文环境的复杂场景文本定位方法
CN102207966A (zh) * 2011-06-01 2011-10-05 华南理工大学 基于对象标签的视频内容快速检索方法
US8463049B2 (en) * 2007-07-05 2013-06-11 Sony Corporation Image processing apparatus and image processing method
CN103632159A (zh) * 2012-08-23 2014-03-12 阿里巴巴集团控股有限公司 训练分类器、图像中文字区域检测的方法及系统
CN103942550A (zh) * 2014-05-04 2014-07-23 厦门大学 一种基于稀疏编码特征的场景文本识别方法
CN103984943A (zh) * 2014-05-30 2014-08-13 厦门大学 一种基于贝叶斯概率框架的场景文本识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8463049B2 (en) * 2007-07-05 2013-06-11 Sony Corporation Image processing apparatus and image processing method
CN102163278A (zh) * 2011-03-03 2011-08-24 苏州市慧视通讯科技有限公司 一种公交车道非法车辆闯入检测方法
CN102163284A (zh) * 2011-04-11 2011-08-24 西安电子科技大学 面向中文环境的复杂场景文本定位方法
CN102207966A (zh) * 2011-06-01 2011-10-05 华南理工大学 基于对象标签的视频内容快速检索方法
CN103632159A (zh) * 2012-08-23 2014-03-12 阿里巴巴集团控股有限公司 训练分类器、图像中文字区域检测的方法及系统
CN103942550A (zh) * 2014-05-04 2014-07-23 厦门大学 一种基于稀疏编码特征的场景文本识别方法
CN103984943A (zh) * 2014-05-30 2014-08-13 厦门大学 一种基于贝叶斯概率框架的场景文本识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANHAR RISNUMAWAN 等: ""A robust arbitrary text detection system for natural scene images"", 《ELSEVIER》 *
JIN-LIANG YAO 等: ""LOCATING TEXT BASED ON CONNECTED COMPONENT AND SVM"", 《PROCEEDINGS OF THE 2007 INTERNATIONAL CONFERENCE ON WAVELET ANALYSIS AND PATTERN RECOGNITION》 *
MARKUS DIEM 等: ""Recognition of Degraded Handwritten Characters Using Local Features"", 《ICDAR"09 1OTH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971186B (zh) * 2017-03-29 2018-12-04 石家庄求实通信设备有限公司 一种智能交通监控系统
CN106971186A (zh) * 2017-03-29 2017-07-21 深圳万发创新进出口贸易有限公司 一种智能交通监控系统
CN110032969A (zh) * 2019-04-11 2019-07-19 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110032969B (zh) * 2019-04-11 2021-11-05 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110378227B (zh) * 2019-06-17 2021-04-13 北京达佳互联信息技术有限公司 修正样本标注数据的方法、装置、设备及存储介质
CN110378227A (zh) * 2019-06-17 2019-10-25 北京达佳互联信息技术有限公司 修正样本标注数据的方法、装置、设备及存储介质
CN110322495B (zh) * 2019-06-27 2021-11-02 电子科技大学 一种基于弱监督深度学习的场景文本分割方法
CN110322495A (zh) * 2019-06-27 2019-10-11 电子科技大学 一种基于弱监督深度学习的场景文本分割方法
CN110807771A (zh) * 2019-10-31 2020-02-18 长安大学 一种道路减速带的缺损检测方法
CN110807771B (zh) * 2019-10-31 2022-03-22 长安大学 一种道路减速带的缺损检测方法
CN111640132A (zh) * 2020-06-02 2020-09-08 北京环境特性研究所 一种单连通区域快速标记方法及装置
CN111640132B (zh) * 2020-06-02 2023-05-26 北京环境特性研究所 一种单连通区域快速标记方法及装置
CN111783777A (zh) * 2020-07-07 2020-10-16 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备和计算机可读介质
CN111783777B (zh) * 2020-07-07 2023-11-24 抖音视界有限公司 图像处理方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN105404868B (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN105404868A (zh) 一种基于交互平台的复杂背景中文本的快速检测方法
Timofte et al. Multi-view traffic sign detection, recognition, and 3D localisation
Hauagge et al. Image matching using local symmetry features
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN104299008B (zh) 基于多特征融合的车型分类方法
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN104766046A (zh) 一种利用交通标识颜色及形状特征进行检测与识别算法
CN108694393A (zh) 一种基于深度卷积的证件图像文本区域提取方法
CN104751142A (zh) 一种基于笔划特征的自然场景文本检测算法
CN105761219A (zh) 文本图像倾斜矫正方法和系统
CN104299009B (zh) 基于多特征融合的车牌字符识别方法
CN105261017A (zh) 基于路面约束的图像分割法提取行人感兴趣区域的方法
CN104751187A (zh) 抄表图像自动识别方法
CN104680127A (zh) 手势识别方法及系统
Wang et al. Traffic sign detection using a cascade method with fast feature extraction and saliency test
CN104809464A (zh) 一种指纹信息处理方法
CN105447512A (zh) 一种精粗结合的光学表面缺陷的检测方法及装置
CN104809453A (zh) 一种基于指纹的认证方法
Soni et al. Text detection and localization in natural scene images based on text awareness score
CN108961262A (zh) 一种复杂场景下的条码定位方法
Gim et al. Real-time speed-limit sign detection and recognition using spatial pyramid feature and boosted random forest
CN105354547A (zh) 一种结合纹理和彩色特征的行人检测方法
Chaitra et al. An impact of radon transforms and filtering techniques for text localization in natural scene text images
Lee et al. Vehicle model recognition in video
CN103295026A (zh) 基于空间局部聚合描述向量的图像分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant