CN107066972A - 基于多通道极值区域的自然场景文本检测方法 - Google Patents
基于多通道极值区域的自然场景文本检测方法 Download PDFInfo
- Publication number
- CN107066972A CN107066972A CN201710249526.7A CN201710249526A CN107066972A CN 107066972 A CN107066972 A CN 107066972A CN 201710249526 A CN201710249526 A CN 201710249526A CN 107066972 A CN107066972 A CN 107066972A
- Authority
- CN
- China
- Prior art keywords
- text
- msub
- mrow
- text filed
- neighboring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多通道极值区域的自然场景文本检测方法,它利用场景文本的特点结合机器学习的方法,采用多通道的极值区域检测提取候选文本区域,能够检测出更多候选文本,进而提升整体召回率,同时,采用启发式规则与机器学习相结合的方法,去除大量重复区域,运用经典的支持向量机构建单个字符文本和文本行的两个分类器模型,有效的滤除非文本区域,能够较好的提升准确率。本发明系统简单方便,通用性高,运用成熟的算法和特征并结合机器学习方法,能达到较好的检测效果。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于多通道极值区域(ER)的自然场景文本检测方法。
背景技术
随着计算机技术、人工智能等先进技术的迅速发展,图像处理技术向更深层次发展,人们开始研究如何用计算机系统来模拟人类视觉系统,进而按照人类视觉认知过程来解析和理解外部世界。自然场景中不仅有大量的图形信息,还存在蕴含丰富内涵的文本信息,例如,街道名称、建筑物门牌号、公共汽车站牌、商店名称、公告板和广告牌上的文字等等。这些文本字符对场景视觉信息的表达具有重要价值,是描述和理解场景内容的关键线索。因此将场景图像中的文字抽取出来,有利于场景图像的内容分析、检索,可以广泛应用于,视频检索与分析、盲人导航、无人驾驶、智能交通等多个领域。
目前,已存在的自然场景文本检测方法大致可以分为四类:基于连通域的方法、基于边缘的方法、基于纹理的方法和复合方法,基于连通域分析的方法是假设同一区域的字符具有相似的颜色和亮度,并且与背景区域的颜色存在较大差异的基础上,从图像中提取连通区域,然后利用几何约束构造启发式规则进行连通域分析,将子区域合并得到最终的文本区域。基于边缘特征的方法是利用文本区域具有丰富的边缘信息这一特点进行文本区域检测,首先采用某种边缘检测算子从原图像中检测出边缘,然后通过形态学方法将边缘连接成文本块,最后利用一些启发式规则进行筛选,得到最终的文本区域。基于纹理的方法把文本区域看作是一种可与背景区分开来的特殊的纹理,通常采用Gabor变换、小波变换和傅里叶变换等方法检测图像中文本区域的纹理特征。复合方法通常是多种方法结合在一起,取长补短,综合性能,构造出新的文本定位框架。
由于自然场景中文本的大小、格式、方向和对齐方式等变化多样,受字符对比度较低、背景复杂、低分辨率等条件的制约,使得图像中文本认知是一项极具挑战性的任务。由此可见,自然场景中文本检测技术具有非常重大的理论意义和实用价值。
发明内容
本发明的目的在于针对现有技术中自然场景文本的大小、字体、背景等诸多因素导致的检测难点,提供一种基于多通道极值区域的自然场景文本检测方法,该检测方法利用自然场景中的文本灰度基本稳定且与周围背景存在较大差异这一特点,通过多通道提取极值区域得到候选的文本区域,然后通过机器学习的方法过滤非文本区域,进而形成文本行并再次用机器学习方法进行验证达到检测的目的。
为解决上述技术问题,本发明公开的一种基于多通道极值区域的自然场景文本检测方法,其特征在于,它包括如下步骤:
步骤1:输入待检测RGB(红、绿、蓝三色)图像;
步骤2:将待检测RGB图像转换到HSI(色调、色饱和度和强度)颜色空间,分别提取HSI颜色空间中待检测图像的色调、饱和度和灰度,并分别对HSI颜色空间中待检测图像的色调、饱和度和灰度取反得到6个单独通道图像;
步骤3:对步骤2中的6个单独通道图像分别进行极值区域检测,得到对应的多个初步候选文本区域;
步骤4:将图像数据集的训练集中的每张图片依次进行极值区域检测,对每张图片检测时,计算当前检测图片得到的极值区域的面积,将这些极值区域的面积与当前检测图片中的真实文本区域计算面积重叠率,若检测得到的极值区域的面积与当前检测图片中真实文本区域的面积重叠率大于面积重叠率阈值,则将这个极值区域归为正样本,否则,将这个极值区域归为负样本,然后对所有正负样本进行图像大小归一化处理;
步骤5:随机选取正样本A个,负样本2A个,对每个正样本和负样本分别提取梯度方向直方图和局部二值模式特征,并根据提取的梯度方向直方图和局部二值模式特征构建特征向量;
步骤6:将步骤5得到的特征向量构建成正负样本特征矩阵,并构建对应的标签集,将带有标签集的正负样本特征矩阵输入支持向量机(SVM,Support Vector Machine)进行训练,得到一个分类器模型;
步骤7:将步骤3得到不同通道的每个初步候选文本区域分别提取梯度方向直方图和局部二值模式特征,并将提取的梯度方向直方图和局部二值模式特征输入支持向量机进行预测,保留预测的文本区域,滤除预测的非文本区域;
步骤8:将不同通道经过支持向量机保留下来的文本区域综合,确定单个文本区,并去除重复的文本区域;
步骤9:对步骤8得到的单个文本区域进行聚合得到初始文本行,主要方法为提取相邻两个文本区域中文本的平均笔画宽度比Rsw,相邻两个文本区域的高度比Rh,相邻两个文本区域的质心纵坐标差Cy,相邻两个文本区域的灰度强度差I,相邻两个文本区域的水平间距D,选取满足Rsw∈[1,2.5],Rh∈[0,2],I∈[0,30],D∈[0,1.4],Cy∈[0,30]的两两连通域将其聚集成链,最后形成一系列文本行,此时得到的初始文本行既包含真文本行也包含上述步骤滤除不完全的非文本区域而聚合的假的文本行,其中,Rsw、Rh和I无单位,Cy和D单位为像素;
步骤10:对步骤9得到的初始文本行提取梯度方向直方图和局部二值模式特征输入到步骤6训练得到的文本行分类器模型中,进一步滤除错误文本行。
本发明的有益效果:
本发明利用场景文本的特点结合机器学习的方法,采用多通道的极值区域检测提取候选文本区域,能够检测出更多候选文本,进而提升整体召回率,同时,采用启发式规则与机器学习相结合的方法,去除大量重复区域,运用经典的支持向量机构建单个字符文本和文本行的两个分类器模型,有效的滤除非文本区域,能够较好的提升准确率。本发明系统简单方便,通用性高,运用成熟的算法和特征并结合机器学习方法,能达到较好的检测效果。
附图说明
图1为本发明所述方法流程示意图;
图2为待检测图像;
图3为单字符正负样本示意图;
图4为局部二值模式特征提取示意图;
图5为多通道分别经过支持向量机滤除综合后的示意图;
图6为经过多通道去重后的示意图;
图7为初步形成的文本行示意图;
图8为文本行验证后的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细说明:
本发明的一种基于多通道极值区域的自然场景文本检测方法,如图1所示,它包括如下步骤:
步骤1:输入待检测RGB图像,如图2;
步骤2:将待检测RGB图像转换到HSI颜色空间,分别提取HSI颜色空间中待检测图像的色调(Hue)、饱和度(Sat)和灰度(gray),并分别对HSI颜色空间中待检测图像的色调、饱和度和灰度取反得到6个单独通道图像;
步骤3:对步骤2中的6个单独通道图像分别进行极值区域检测,得到对应的多个初步候选文本区域;
步骤4:构建正负样本集,将图像数据集的训练集中的每张图片依次进行极值区域检测,对每张图片检测时,计算当前检测图片得到的极值区域的面积,将这些极值区域的面积与当前检测图片中的真实文本区域计算面积重叠率,若检测得到的极值区域的面积与当前检测图片中真实文本区域的面积重叠率大于面积重叠率阈值,则将这个极值区域归为正样本,否则,将这个极值区域归为负样本,然后对所有正负样本进行图像大小归一化处理,如图3;
步骤5:随机选取正样本A个,负样本2A个,对每个正样本和负样本分别提取梯度方向直方图(Histogram of Oriented Gradient)和局部二值模式特征(Local BinaryPattern),并根据提取的梯度方向直方图和局部二值模式特征构建特征向量;
步骤6:将步骤5得到的特征向量构建成正负样本特征矩阵,并构建对应的标签集,将带有标签集的正负样本特征矩阵输入支持向量机进行训练,得到一个分类器模型;
步骤7:将步骤3得到不同通道的每个初步候选文本区域分别提取梯度方向直方图和局部二值模式特征,并将提取的梯度方向直方图和局部二值模式特征输入支持向量机进行预测,保留预测为1的文本区域,滤除预测为0的非文本区域,如图5;
步骤8:将不同通道经过支持向量机保留下来的文本区域综合,确定单个文本区,并去除重复的文本区域;由于多个通道检测对于同一区域的检测结果大致一样,所以可用通过对比每个矩形区域左上和右下两个顶点的坐标,计算两矩形对应坐标差,将坐标差在[-4,4]内的矩形归为同一类,并计算同一类中每个矩形的面积,选取面积最大者以达到去除重复的目的,如图6;
步骤9:对步骤8得到的单个文本区域进行聚合得到初始文本行,主要方法为提取相邻两个文本区域中文本的平均笔画宽度比Rsw,相邻两个文本区域的高度比Rh,相邻两个文本区域的质心纵坐标差Cy,相邻两个文本区域的灰度强度差I,相邻两个文本区域的水平间距D,选取满足Rsw∈[1,2.5],Rh∈[0,2],I∈[0,30],D∈[0,1.4],Cy∈[0,30的两两连通域将其聚集成链,最后形成一系列文本行,如图7,此时得到的初始文本行既包含真文本行也包含上述步骤滤除不完全的非文本区域而聚合的假的文本行,其中,Rsw、Rh和I无单位,Cy和D单位为像素;
步骤10:对步骤9得到的初始文本行提取梯度方向直方图和局部二值模式特征输入到步骤6训练得到的文本行分类器模型中,进一步滤除错误文本行,提升准确率,如图8。
计算上述步骤10得到的结果的准确率,召回率,f值的防守如下:
准确率和召回率是信息检索和数据分类中普遍使用的两个度量值,f值用于评价算法整体性能。准确率越高,说明得到的结果中真实的文本越多;召回率越高,说明漏掉的文本越少;f值综合评价算法性能,越高表示算法性能越好。利用这三个指标对算法进行评价,通过数据集提供的真实矩形和算法输出的区域最小外接矩形的匹配程度来计算,两矩形r1和r2的匹配程度mp,定义为r1和r2重叠区域的面积除以同时包含r1、r2的最小外接矩形的面积,mp∈[0,1]。单个矩形r与矩形集合R的最佳匹配m(r;R)定义为:
m(r;R)=max{mp(r;r′)|r′∈R}
设T为图片中真实文本区域外接矩形集合,E为算法输出文本区域外接矩形集合,|·|表示集合内元素的数量,则准确率(pre)、召回率(recall)及f值定义如下:
其中,为控制精确率和召回率的相关权重,本文为0.5。
计算出来的准确率为76%,召回率为78%,f值为77,表明了本发明的有效性。
上述技术方案中,所述相邻两个文本区域中文本的平均笔画宽度比Rsw,相邻两个文本区域的高度比Rh,相邻两个文本区域的质心纵坐标差Cy,相邻两个文本区域的灰度强度差I,相邻两个文本区域的水平间距D,计算公式如下:
相邻两个文本区域中文本的平均笔画宽度比Rsw:
其中,swi和swj分别表示连通域中相邻两个文本区域中文本的平均笔画宽度;
相邻两个文本区域的高度比Rh:
其中,hi和hj分别表示连通域中相邻两个文本区域的高度;
相邻两个文本区域的灰度强度差I:
I=abs(Ii-Ij)
其中,Ii和Ij分别表示连通域中相邻两个文本区域的灰度强度,abs表示取绝对值;
相邻两个文本区域的质心纵坐标差Cy:
Cy=abs(Tiy-Tjy)
其中,Tiy和Tjy分别表示连通域中相邻两个文本区域的质心坐标,abs表示取绝对值;
相邻两个文本区域的水平间距D:
其中,CX和Cy分别表示连通域中相邻两个文本区域的X轴质心坐标差和Y轴质心坐标差,wi和wj分别表示连通域中相邻两个文本区域的宽度。
上述技术方案的步骤5中,随机选取正样本A个,负样本2A个,对每个正样本和负样本分别提取梯度方向直方图和局部二值模式特征,并根据提取的梯度方向直方图和局部二值模式特征构建特征向量的具体方法为:
步骤5.1:梯度方向直方图特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,它通过计算和统计图像局部区域的梯度方向直方图来构成特征,计算过程如下:
步骤5.1.1:将待检测RGB图像灰度化;
步骤5.1.2:采用Gamma校正法对输入图像进行颜色空间的归一化,目的是调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,同时可以抑制噪音的干扰;
步骤5.1.3:计算待检测RGB图像每个像素的梯度(包括大小和方向);主要是为了捕获轮廓信息,同时进一步弱化光照的干扰;
步骤5.1.4:将待检测RGB图像划分成多个8*8像素的图片单元(cell);
步骤5.1.5:统计每个图片单元的梯度直方图,即可形成每个图片单元的描述(descriptor);
步骤5.1.6:将每四个图片单元组成一个块(本文选取2*2个图片单元/块),一个块内所有图片单元的特征描述串联起来便得到该块的方向梯度直方图特征描述;
步骤5.1.7:将待检测RGB图像内的所有块的方向梯度直方图特征描述串联起来就可以得到该图片的方向梯度直方图特征向量;
步骤5.2:局部二值模式特征是一种用来描述图像局部纹理特征的算子,它具有旋转不变性和灰度不变性等显著的优点,计算过程如下:
步骤5.2.1:对待检测RGB图像中每个像素点的3x3邻域,以窗口中心像素为基准,将相邻的8个像素的灰度值与其进行比较,若周围像素灰度值大于中心像素灰度值,则该像素点的位置被标记为1,否则为0,从左上角开始按顺时针方向将8个标记值级联,得到8位二进制数,将二进制数转化为十进制作为中心像素点的局部二值模式值(LBP,Local BinaryPatterns),如图4;
步骤5.2.2:统计步骤5.2.1中每个局部二值模式值出现的次数;得到局部二值模式直方图;
步骤5.2.3:对步骤5.2.2得到的局部二值模式直方图归一化得到特征向量,即该图像的局部二值模式纹理特征向量。
上述技术方案中,所述步骤5中随机选取正样本为2000个,负样本4000个。
上述技术方案中,所述步骤6中标签集为正样本为1,负样本为0。
上述技术方案中,所述步骤4中,对所有正负样本进行图像大小归一化处理将正负样本归一化为64x64像素大小,如图3。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (6)
1.一种基于多通道极值区域的自然场景文本检测方法,其特征在于,它包括如下步骤:
步骤1:输入待检测RGB图像;
步骤2:将待检测RGB图像转换到HSI颜色空间,分别提取HSI颜色空间中待检测图像的色调、饱和度和灰度,并分别对HSI颜色空间中待检测图像的色调、饱和度和灰度取反得到6个单独通道图像;
步骤3:对步骤2中的6个单独通道图像分别进行极值区域检测,得到对应的多个初步候选文本区域;
步骤4:将图像数据集的训练集中的每张图片依次进行极值区域检测,对每张图片检测时,计算当前检测图片得到的极值区域的面积,将这些极值区域的面积与当前检测图片中的真实文本区域计算面积重叠率,若检测得到的极值区域的面积与当前检测图片中真实文本区域的面积重叠率大于面积重叠率阈值,则将这个极值区域归为正样本,否则,将这个极值区域归为负样本,然后对所有正负样本进行图像大小归一化处理;
步骤5:随机选取正样本A个,负样本2A个,对每个正样本和负样本分别提取梯度方向直方图和局部二值模式特征,并根据提取的梯度方向直方图和局部二值模式特征构建特征向量;
步骤6:将步骤5得到的特征向量构建成正负样本特征矩阵,并构建对应的标签集,将带有标签集的正负样本特征矩阵输入支持向量机进行训练,得到一个分类器模型;
步骤7:将步骤3得到不同通道的每个初步候选文本区域分别提取梯度方向直方图和局部二值模式特征,并将提取的梯度方向直方图和局部二值模式特征输入支持向量机进行预测,保留预测的文本区域,滤除预测的非文本区域;
步骤8:将不同通道经过支持向量机保留下来的文本区域综合,确定单个文本区,并去除重复的文本区域;
步骤9:对步骤8得到的单个文本区域进行聚合得到初始文本行,主要方法为提取相邻两个文本区域中文本的平均笔画宽度比Rsw,相邻两个文本区域的高度比Rh,相邻两个文本区域的质心纵坐标差Cy,相邻两个文本区域的灰度强度差I,相邻两个文本区域的水平间距D,选取满足Rsw∈[1,2.5],Rh∈[0,2],I∈[0,30],D∈[0,1.4],Cy∈[0,30]的两两连通域将其聚集成链,最后形成一系列文本行,此时得到的初始文本行既包含真文本行也包含上述步骤滤除不完全的非文本区域而聚合的假的文本行,其中,Rsw、Rh和I无单位,Cy和D单位为像素;
步骤10:对步骤9得到的初始文本行提取梯度方向直方图和局部二值模式特征输入到步骤6训练得到的文本行分类器模型中,进一步滤除错误文本行。
2.根据权利要求1所述的基于多通道极值区域的自然场景文本检测方法,其特征在于:所述相邻两个文本区域中文本的平均笔画宽度比Rsw,相邻两个文本区域的高度比Rh,相邻两个文本区域的质心纵坐标差Cy,相邻两个文本区域的灰度强度差I,相邻两个文本区域的水平间距D,计算公式如下:
相邻两个文本区域中文本的平均笔画宽度比Rsw:
<mrow>
<msub>
<mi>R</mi>
<mrow>
<mi>s</mi>
<mi>w</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mo>{</mo>
<msub>
<mi>sw</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>sw</mi>
<mi>j</mi>
</msub>
<mo>}</mo>
</mrow>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<mo>{</mo>
<msub>
<mi>sw</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>sw</mi>
<mi>j</mi>
</msub>
<mo>}</mo>
</mrow>
</mfrac>
</mrow>
1
其中,swi和swj分别表示连通域中相邻两个文本区域中文本的平均笔画宽度;
相邻两个文本区域的高度比Rh:
<mrow>
<msub>
<mi>R</mi>
<mi>h</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mo>{</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>}</mo>
</mrow>
<mrow>
<mi>min</mi>
<mo>{</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>}</mo>
</mrow>
</mfrac>
</mrow>
其中,hi和hj分别表示连通域中相邻两个文本区域的高度;
相邻两个文本区域的灰度强度差I:
I=abs(Ii-Ij)
其中,Ii和Ij分别表示连通域中相邻两个文本区域的灰度强度,abs表示取绝对值;
相邻两个文本区域的质心纵坐标差Cy:
Cy=abs(Tiy-Tjy)
其中,Tiy和Tjy分别表示连通域中相邻两个文本区域的质心坐标,abs表示取绝对值;
相邻两个文本区域的水平间距D:
<mrow>
<mi>D</mi>
<mo>=</mo>
<mfrac>
<msqrt>
<mrow>
<msup>
<msub>
<mi>C</mi>
<mi>x</mi>
</msub>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<msub>
<mi>C</mi>
<mi>y</mi>
</msub>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mo>{</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>w</mi>
<mi>j</mi>
</msub>
<mo>}</mo>
</mrow>
</mfrac>
</mrow>
其中,CX和Cy分别表示连通域中相邻两个文本区域的X轴质心坐标差和Y轴质心坐标差,wi和wj分别表示连通域中相邻两个文本区域的宽度。
3.根据权利要求1所述的基于多通道极值区域的自然场景文本检测方法,其特征在于:所述步骤5中,随机选取正样本A个,负样本2A个,对每个正样本和负样本分别提取梯度方向直方图和局部二值模式特征,并根据提取的梯度方向直方图和局部二值模式特征构建特征向量的具体方法为:
步骤5.1:梯度方向直方图特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,它通过计算和统计图像局部区域的梯度方向直方图来构成特征,计算过程如下:
步骤5.1.1:将待检测RGB图像灰度化;
步骤5.1.2:采用Gamma校正法对输入图像进行颜色空间的归一化;
步骤5.1.3:计算待检测RGB图像每个像素的梯度;
步骤5.1.4:将待检测RGB图像划分成多个8*8像素的图片单元;
步骤5.1.5:统计每个图片单元的梯度直方图,即可形成每个图片单元的描述;
步骤5.1.6:将每四个图片单元组成一个块,一个块内所有图片单元的特征描述串联起来便得到该块的方向梯度直方图特征描述;
步骤5.1.7:将待检测RGB图像内的所有块的方向梯度直方图特征描述串联起来就可以得到该图片的方向梯度直方图特征向量;
步骤5.2:局部二值模式特征是一种用来描述图像局部纹理特征的算子,计算过程如下:
步骤5.2.1:对待检测RGB图像中每个像素点的3x3邻域,以窗口中心像素为基准,将相邻的8个像素的灰度值与其进行比较,若周围像素灰度值大于中心像素灰度值,则该像素点的位置被标记为1,否则为0,从左上角开始按顺时针方向将8个标记值级联,得到8位二进制数,将二进制数转化为十进制作为中心像素点的局部二值模式值;
步骤5.2.2:统计步骤5.2.1中每个局部二值模式值出现的次数;得到局部二值模式直方图;
步骤5.2.3:对步骤5.2.2得到的局部二值模式直方图归一化得到特征向量,即该图像的局部二值模式纹理特征向量。
4.根据权利要求1所述的基于多通道极值区域的自然场景文本检测方法,其特征在于:所述步骤5中随机选取正样本为2000个,负样本4000个。
5.根据权利要求1所述的基于多通道极值区域的自然场景文本检测方法,其特征在于:所述步骤6中标签集为正样本为1,负样本为0。
6.根据权利要求1所述的基于多通道极值区域的自然场景文本检测方法,其特征在于:所述步骤4中,对所有正负样本进行图像大小归一化处理将正负样本归一化为64x64像素大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710249526.7A CN107066972B (zh) | 2017-04-17 | 2017-04-17 | 基于多通道极值区域的自然场景文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710249526.7A CN107066972B (zh) | 2017-04-17 | 2017-04-17 | 基于多通道极值区域的自然场景文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107066972A true CN107066972A (zh) | 2017-08-18 |
CN107066972B CN107066972B (zh) | 2019-06-21 |
Family
ID=59600307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710249526.7A Expired - Fee Related CN107066972B (zh) | 2017-04-17 | 2017-04-17 | 基于多通道极值区域的自然场景文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107066972B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN108038458A (zh) * | 2017-12-20 | 2018-05-15 | 首都师范大学 | 基于特征摘要图的视频中的户外场景文本自动获取方法 |
CN108038486A (zh) * | 2017-12-05 | 2018-05-15 | 河海大学 | 一种文字检测方法 |
CN108647681A (zh) * | 2018-05-08 | 2018-10-12 | 重庆邮电大学 | 一种带有文本方向校正的英文文本检测方法 |
CN110059647A (zh) * | 2019-04-23 | 2019-07-26 | 杭州智趣智能信息技术有限公司 | 一种文本分类方法、系统及相关组件 |
CN110659694A (zh) * | 2019-09-27 | 2020-01-07 | 华中农业大学 | 一种基于机器学习的柑橘果蒂的检测方法 |
CN110944237A (zh) * | 2019-12-12 | 2020-03-31 | 成都极米科技股份有限公司 | 一种字幕区域定位方法、装置和电子设备 |
CN112182215A (zh) * | 2020-09-27 | 2021-01-05 | 中润普达(十堰)大数据中心有限公司 | 一种基于涕液特征信息语义认知系统及其使用方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336961A (zh) * | 2013-07-22 | 2013-10-02 | 中国科学院自动化研究所 | 一种交互式的自然场景文本检测方法 |
US20140003723A1 (en) * | 2012-06-27 | 2014-01-02 | Agency For Science, Technology And Research | Text Detection Devices and Text Detection Methods |
CN104182722A (zh) * | 2013-05-24 | 2014-12-03 | 佳能株式会社 | 文本检测方法和装置以及文本信息提取方法和系统 |
CN104751142A (zh) * | 2015-04-01 | 2015-07-01 | 电子科技大学 | 一种基于笔划特征的自然场景文本检测算法 |
CN105740774A (zh) * | 2016-01-25 | 2016-07-06 | 浪潮软件股份有限公司 | 一种图像的文本区域定位方法及装置 |
CN105825216A (zh) * | 2016-03-17 | 2016-08-03 | 中国科学院信息工程研究所 | 一种复杂背景图像中的文本定位方法 |
CN106326921A (zh) * | 2016-08-18 | 2017-01-11 | 宁波傲视智绘光电科技有限公司 | 文本检测方法和装置 |
CN106384112A (zh) * | 2016-09-08 | 2017-02-08 | 西安电子科技大学 | 基于多通道多尺度与级联过滤器的快速图像文本检测方法 |
-
2017
- 2017-04-17 CN CN201710249526.7A patent/CN107066972B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140003723A1 (en) * | 2012-06-27 | 2014-01-02 | Agency For Science, Technology And Research | Text Detection Devices and Text Detection Methods |
CN104182722A (zh) * | 2013-05-24 | 2014-12-03 | 佳能株式会社 | 文本检测方法和装置以及文本信息提取方法和系统 |
CN103336961A (zh) * | 2013-07-22 | 2013-10-02 | 中国科学院自动化研究所 | 一种交互式的自然场景文本检测方法 |
CN104751142A (zh) * | 2015-04-01 | 2015-07-01 | 电子科技大学 | 一种基于笔划特征的自然场景文本检测算法 |
CN105740774A (zh) * | 2016-01-25 | 2016-07-06 | 浪潮软件股份有限公司 | 一种图像的文本区域定位方法及装置 |
CN105825216A (zh) * | 2016-03-17 | 2016-08-03 | 中国科学院信息工程研究所 | 一种复杂背景图像中的文本定位方法 |
CN106326921A (zh) * | 2016-08-18 | 2017-01-11 | 宁波傲视智绘光电科技有限公司 | 文本检测方法和装置 |
CN106384112A (zh) * | 2016-09-08 | 2017-02-08 | 西安电子科技大学 | 基于多通道多尺度与级联过滤器的快速图像文本检测方法 |
Non-Patent Citations (4)
Title |
---|
LUKAS NEUMANN 等: "Efficient Scene Text Localization and Recognition with Local Character Refinement", 《2015 13TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 * |
MICHAL BUSTA 等: "FASText: Efficient Unconstrained Scene Text Detector", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
田彪: "自然场景图像中的文字检测关键算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
赵宇: "自然场景下的文本检测技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609549B (zh) * | 2017-09-20 | 2021-01-08 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN108038486A (zh) * | 2017-12-05 | 2018-05-15 | 河海大学 | 一种文字检测方法 |
CN108038458A (zh) * | 2017-12-20 | 2018-05-15 | 首都师范大学 | 基于特征摘要图的视频中的户外场景文本自动获取方法 |
CN108038458B (zh) * | 2017-12-20 | 2021-04-09 | 首都师范大学 | 基于特征摘要图的视频中的户外场景文本自动获取方法 |
CN108647681A (zh) * | 2018-05-08 | 2018-10-12 | 重庆邮电大学 | 一种带有文本方向校正的英文文本检测方法 |
CN108647681B (zh) * | 2018-05-08 | 2019-06-14 | 重庆邮电大学 | 一种带有文本方向校正的英文文本检测方法 |
CN110059647A (zh) * | 2019-04-23 | 2019-07-26 | 杭州智趣智能信息技术有限公司 | 一种文本分类方法、系统及相关组件 |
CN110659694A (zh) * | 2019-09-27 | 2020-01-07 | 华中农业大学 | 一种基于机器学习的柑橘果蒂的检测方法 |
CN110659694B (zh) * | 2019-09-27 | 2022-10-11 | 华中农业大学 | 一种基于机器学习的柑橘果蒂的检测方法 |
CN110944237A (zh) * | 2019-12-12 | 2020-03-31 | 成都极米科技股份有限公司 | 一种字幕区域定位方法、装置和电子设备 |
CN110944237B (zh) * | 2019-12-12 | 2022-02-01 | 成都极米科技股份有限公司 | 一种字幕区域定位方法、装置和电子设备 |
CN112182215A (zh) * | 2020-09-27 | 2021-01-05 | 中润普达(十堰)大数据中心有限公司 | 一种基于涕液特征信息语义认知系统及其使用方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107066972B (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066972B (zh) | 基于多通道极值区域的自然场景文本检测方法 | |
CN108108761B (zh) | 一种基于深度特征学习的快速交通信号灯检测方法 | |
CN104966085B (zh) | 一种基于多显著特征融合的遥感图像感兴趣区域检测方法 | |
Oh et al. | Approaching the computational color constancy as a classification problem through deep learning | |
CN105893925A (zh) | 基于肤色的人手检测方法及装置 | |
CN103577475B (zh) | 一种图片自动化分类方法、图片处理方法及其装置 | |
CN105335716B (zh) | 一种基于改进udn提取联合特征的行人检测方法 | |
CN110363134B (zh) | 一种基于语义分割的人脸遮挡区定位方法 | |
CN103186775B (zh) | 基于混合描述子的人体运动识别方法 | |
CN104573685B (zh) | 一种基于线性结构提取的自然场景文本检测方法 | |
CN104240256B (zh) | 一种基于层次化稀疏建模的图像显著性检测方法 | |
CN108805018A (zh) | 道路交通标志检测识别方法、电子设备、存储介质及系统 | |
CN103325122B (zh) | 基于双向排序的行人检索方法 | |
CN107945153A (zh) | 一种基于深度学习的路面裂缝检测方法 | |
CN103971126A (zh) | 一种交通标志识别方法和装置 | |
CN103679677B (zh) | 一种基于模型互更新的双模图像决策级融合跟踪方法 | |
CN101211356A (zh) | 一种基于显著区域的图像查询方法 | |
CN107016415A (zh) | 一种基于全卷积网络的彩色图像色彩语义分类方法 | |
CN105719318A (zh) | 一种教育玩具套件及其基于hsv的魔方颜色识别方法 | |
CN107633229A (zh) | 基于卷积神经网络的人脸检测方法及装置 | |
CN108960382A (zh) | 一种彩色条码及其颜色校准方法 | |
Tian et al. | Natural scene text detection with MC–MR candidate extraction and coarse-to-fine filtering | |
CN105630906A (zh) | 一种人员搜索方法、装置及系统 | |
CN107038416A (zh) | 一种基于二值图像改进型hog特征的行人检测方法 | |
CN112906550B (zh) | 一种基于分水岭变换的静态手势识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190621 Termination date: 20200417 |
|
CF01 | Termination of patent right due to non-payment of annual fee |