CN108573258B - 一种快速的复杂背景图像中维语文字定位方法 - Google Patents

一种快速的复杂背景图像中维语文字定位方法 Download PDF

Info

Publication number
CN108573258B
CN108573258B CN201810375055.9A CN201810375055A CN108573258B CN 108573258 B CN108573258 B CN 108573258B CN 201810375055 A CN201810375055 A CN 201810375055A CN 108573258 B CN108573258 B CN 108573258B
Authority
CN
China
Prior art keywords
pixel
stroke
points
image
key points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810375055.9A
Other languages
English (en)
Other versions
CN108573258A (zh
Inventor
谢洪涛
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810375055.9A priority Critical patent/CN108573258B/zh
Publication of CN108573258A publication Critical patent/CN108573258A/zh
Application granted granted Critical
Publication of CN108573258B publication Critical patent/CN108573258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种快速的复杂背景图像中维语文字定位方法,包括:基于检测模版从图像中检测笔划关键点;结合检测到的笔划关键点与洪泛算法提取图像中的文字组件;基于文字组件相似性进行组件聚类,实现文字行的构造;利用HOG+SVM系统构成的行分类器,对文字行进行HOG特征提取,以及文字行与非文字行的二分类。该方法可以提升复杂背景图像中维语文字定位的速度和精度。

Description

一种快速的复杂背景图像中维语文字定位方法
技术领域
本发明涉及复杂背景图像中文字定位领域,尤其涉及一种快速的复杂背景图像中维语 文字定位方法。
背景技术
复杂背景图像中维语文字定位技术在图像内容分析、图像内容检索和维文OCR等领 域具有广泛的应用前景。虽然近年来大量的学者投身于复杂背景图像中文字定位研究,但是他们的研究主要针对中文和英文。维文与中英文的差异性使得现有文字定位方法对维文不鲁棒,因此如何提高复杂背景图像中的维语文字定位的速度与精度是本方法的研究关键。此外由于图像中文字位置的灵活性,对候选的搜索过程十分耗时;由于图像中 文字的多样性(如:字体、颜色和大小等)、图像背景的复杂性(如:树枝、栅栏和草 地等)和图像质量的差异性(如:模糊、低分辨率和形变等),使得文字与非文字的准 确分类极具挑战。
现有的文字定位方法大致可以分为两大类:基于滑动窗口分类的方法和基于连接组件 分析的方法。基于滑动窗口分类的方法通过在多尺度图像上滑动窗口来搜索文字候选。 这种搜索方式非常详尽,所以往往能取得较高的召回率,但是其过程十分耗时。同时搜索过程中产生大量的候选,增加了后续候选分类的计算压力。基于连接组件分析的方 法,一般先根据文字的固有特性(笔划、颜色和空间位置等)提取出候选组件,再使用 图连接算法将提取出的文字组件连接成文字区域。这类方法比基于滑动窗口分类的方法 快,但是组件提取和组件分类的过程依然十分耗时。
综合分析上述两种方法可知,在现有“候选产生-候选分类”的文字定位框架中,候选产生的数据量大同时候选分类产生大量额外的时间开销。此外当前没有有效的手工特征以区分文字与非文字候选,而深度学习到的特征框架又太大计算成本高。轻量级快速 准确的复杂背景图像中维语文字定位技术依旧是一个研究难点,具有广泛的应用价值。
发明内容
本发明的目的是提供一种快速的复杂背景图像中维语文字定位方法,可以提升复杂背 景图像中维语文字定位的速度和精度。
本发明的目的是通过以下技术方案实现的:
一种快速的复杂背景图像中维语文字定位方法,包括:
基于检测模版从图像中检测笔划关键点;
结合检测到的笔划关键点与洪泛算法提取图像中的文字组件;
基于文字组件相似性进行组件聚类,实现文字行的构造;
利用HOG+SVM系统构成的行分类器,对文字行进行HOG特征提取,以及文字行与 非文字行的二分类。
由上述本发明提供的技术方案可以看出,执行笔划关键点检测、组件提取、基于相似 性的组件聚类以及文字行分类,可以显著提升复杂背景图像中维语文字定位的速度和精 度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的 附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得 其他附图。
图1为本发明实施例提供的一种快速的复杂背景图像中维语文字定位方法的流程图;
图2为本发明实施例提供的三种笔划关键点的示意图;
图3为本发明实施例提供的检测模版示意图;
图4为本发明实施例提供的笔划端点示意图;
图5为本发明实施例提供的笔划交叉点示意图;
图6为本发明实施例提供的笔划弯点示意图;
图7为本发明实施例提供的笔划关键点的检测过程示意图;
图8为本发明实施例提供的笔划交叉点的种子选择示意图;
图9为本发明实施例提供的水平分组算法图;
图10为本发明实施例提供的组件相似性聚类算法图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地 描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种快速的复杂背景图像中维语文字定位方法,如图1所示,其主 要包括如下步骤:
步骤1、基于检测模版从图像中检测笔划关键点。
通过观察维语文字的笔划特征,可以发现三种笔划关键点,也即本发明实施例中,主要检测如下三种类型的笔划关键点:笔划端点(即,终点或起点)、笔划交叉点和笔 划弯点。
本发明实施例所提出的笔划关键点是文字相关的,即这些笔划关键点大多附着于文 字笔划上。基于这一观察提出了针对这三种笔划关键点的检测方案。图2给出了三种笔划 关键点的示例,中心图像为给定的示例图像,左侧图像为示例图像中笔划交叉点,上方图像为中心图像中笔划弯点,右侧图像为示例图像中笔划端点(笔划终点)。
本发明实施例在检测笔划关键点时,首先,将输入的图像从彩色图转换为灰度图,然后,基于检测模版对灰度图中每一像素进行验证,从而检测出笔划关键点。
如图3所示,检测模版为一个7×7像素的方形模版,待检测像素p位于模版中心,待检测像素点p外围的8个像素所构成的方形区域为第一检测区域(图3中用竖线填充的区域);第一检测区域外围的16个像素所构成的方形区域为第二检测区域(图3中用斜线填 充的区域);第二检测区域外围的24个像素所构成的方形区域为第三与第四检测区域, 其中,第四检测区域为方形区域中4个顶点与4个边框中点所占的区域(图3中用横线填充 的区域),其余则为第三检测区域(图3中用交叉线填充的区域)。本发明实施例中,以 第二检测区域作为基本检测区域,以它为参照,内侧区域即为第一检测区域,外侧区域 即为第三与第四检测区域。位于检测区域的每个像素点x都会通过一个映射函数来判断其 与待检测像素p的比较关系,映射函数定义为:
Figure BDA0001639400810000031
其中,t为设定的边缘阈值(例如,可以设为13),Ip、Ix对应于待检测像素点p、 像素点x的像素值;映射值0、1、2对应的表示待检测像素点p与像素点x亮度相似、待 检测像素点p比像素点x亮、待检测像素点p比像素点x暗。
检测候选关键点,候选关键点满足的条件为:在第二检测区域中存在两段位置连续 的像素点分别被映射为0和1,或者0和2;由此获得两个连续的像素点集P0和P1,或者P0和P2;并且,|P0|<8。
本发明实施例中,检测模版为图像检测子,类似FAST检测子。在我们的图像检测子,需要考虑4个检测区域的像素值情况。图像输入的尺寸不变,检测模版的检测过程可 以看做是一个7×7的窗口在图像中滑动,每一次都是检测检测模版中心像素与检测模版中其他像素的关系。边界像素点可以检测,检测则补0;也可以不检测,影响不大。
同时为了保证关键点的笔划相关性,需要对像素点集P0进行内部相似性规则和外部 区分性规则的检测、内部相似性规则检测:检测像素点集P0内外像素点与检测模版中心点(即位于检测模版中心的待检测像素)的相似性,以保证找到的笔划关键点不是一个 孤立的点而是笔划的一部分;外部区分性规则检测:检测像素点集P1或P2内外像素点与 检测模版中心的区分性,以保证笔划关键点与背景的区分性。其中的内像素点是指第一 检测区域中的像素点,外像素点是指第三与第四检测区域中的像素点。
之后,根据|P0|的大小判断笔划关键点的种类:
1)笔划端点的第一判定条件为:|P0|<5,满足条件后再进行笔划相关性判别。图4分别展示了3种典型的笔划端点判别模式,图4中的p0表示像素点集P0中的像素点。当笔 划端点满足第一判别条件后,需对它进一步进行笔划相关性判别,图4中,像素点p0也即 通过前述步骤获得的像素点集P0中的像素点,也即候选关键点;对于每个候选关键点取 3*3邻域;这些邻域会与检测模版中内侧区域及外侧区域产生一定的交集(简称结合交集 区域);结合交集区域内的候选关键点分布情况进行笔划相关性判别,剔除掉不符合要 求的候选关键点。此外,对于笔画关键点而言,第一和第三检测区域中必须有映射值为0 的像素点,但是无需确定这个像素点的位置。
以图4(a)为例,首先检查第一检测区域的像素,其中必须包含至少1个像素的映射值 为0;然后检查第三区域的像素,其中同样必须包含1个像素映射值为0的点;最后检查第四区域的像素,其中所有的像素映射值必须与第二检测区域内相应映射值相同。。
2)笔划交叉点的第一判定条件为:|P0|=5,满足条件后再进行笔划相关性判别。图5(a)(b)展示了两种典型的笔划交叉点,此时中心点位于直角顶点。其笔划相关性判定与笔划端点类似。但是笔划交叉点的第一判定条件并不一定能保证中心点位于直角顶点, 如图5(c),因此在对候选点进行第一判定条件时需要排除这类点。
3)笔划弯点第一判定条件为:5<|P0|<8,满足条件后再进行笔划相关性判别。图6 展示了3种典型的笔划弯点。其笔划相关性判定过程大致与笔划端点一致,不同点在于满足笔划弯点的第一步判定条件后,还要满足在结合交集区域至少需要包含2个以上的连续相似像素。
通过上述方式检测出所有笔划关键点并区分种类;最后,对所有检测到的笔划关键 点进行非极大值抑制:对于出现在3×3邻域范围内的笔划关键点做响应值比较,保留响应 值最大的笔划关键点,去除邻域内的其他笔划关键点;响应值的计算公式为:
Figure BDA0001639400810000051
上式中,y表示像素集P1或P2中的像素点,Iy表示像素点y的像素值。
下面结合一个具体的示例来介绍笔划关键点的检测过程。
检测主要分为三个过程,依次为:检测候选关键点→根据|P0|的大小判断为哪一类关 键点的候选点→内外规则确认。
如图7(a)所示,首先,检测中心点p是否为候选点;通过计算获得如图7(b)所示 的两个连续的像素点集P0和P1,或者P0和P2,因此,可以确认中心点p为候选点;由于像 素点集P0只有一个像素点,即|P0|<5,因此,使用笔划端点的内外规则确认;如图7 (c),对这个候选关键点取3×3邻域;这些邻域会与检测模版中内侧区域及外侧区域产 生结合交集区域;再检测结合交集区域中,第一检测区域的像素是否包含至少1个像素的 映射值为0;第三区域的像素是否包含1个像素映射值为0的点。
步骤2、结合检测到的笔划关键点与洪泛算法提取图像中的文字组件。
本发明提出的文字组件提取方法基于对图像中文字的一个观察,即图像中的文字具 有内部一致性和外部区分性(比如亮度,颜色)。因此,只要检测到文字的一个像素点 即可通过标准的洪泛算法提取到文字组件。本发明提出的文字组件提取流程,分别为图 像输入(a)、笔划关键点检测(b)、关键点洪泛(c)以及外接矩阵(d)表示。标准 洪泛算法已经有大量的论述以及开源实现,本发明主要描述洪泛种子与相似判定阈值的 选择方法,本发明实施例中,结合检测到的笔划关键点与洪泛算法提取图像中的文字组 件时,通过检测到的笔划关键点选择洪泛种子,以及通过检测到的笔划关键点对洪泛相 似判定阈值进行选择;主要如下:
1、洪泛种子的选择:对于笔划端点直接选择为洪泛种子。笔划交叉点和笔划弯点虽 然笔划相关,但是有时并没有命中笔划,因此,对于笔划交叉点和笔划弯点进行反向洪泛,从而选出洪泛种子;图8展示了两种笔划交叉点的种子选择情况,图中的点A与点B均 被选择为洪泛种子。
2、洪泛相似判定阈值的选择:
1)笔划关键点比背景亮,相似判定阈值θ1为:
θ1=max(Iy)+1|y∈P1
2)笔划关键点比背景暗,相似判定阈值θ1为:
θ2=min(Iy)-1|y∈P2
步骤3、基于文字组件相似性进行组件聚类,实现文字行的构造。
本发明实施例中,文字行的构造被看作为基于组件相似性的组件聚类算法。因为本 发明主要处理水平排版的文字,因此文字行构造主要包含两个部分,分别是启发式规则去噪和组件相似性聚类。
1、在启发式规则去噪阶段,可以用一些规则去掉比较明显的非文字组件。比如尺寸 过大过小或者长宽比过大过小的文字组件。本发明实施例中,仅选择满足如下条件的文字组件:
K≤wc≤wi/3和K≤hc≤hi/3;
其中,wc、hc分别表示文字组件的宽、高,wi、hi分别表示图像的宽、高,K为设 定的尺寸阈值。示例性的,可以设置K=10,即文字组件宽度小于10像素或大于图像宽 度三分之一的组件为非文字组件,文字组件高度小于10像素或大于图像高度三分之一的 组件亦为非文字组件。
同时文字组件的长宽比范围为0.2≤wc/hc≤5。
2、基于文字组件相似性对满足条件的文字组件进行组件聚类:首先位于同一水平线 上的文字组件会被分为一组,然后对每组组件进行相似性聚类。
水平分组与组件相似性聚类算法分别如图9和图10所示。
步骤4、利用HOG+SVM系统构成的行分类器,对文字行进行HOG特征提取,以及文 字行与非文字行的二分类。
本发明实施例中,本方法采用HOG+SVM系统构成行分类器,即首先提取候选行的HOG特征再使用SVM进行二分类(文字行/非文字行)。下面将对HOG+SVM的特征设计 以及参数选择进行说明:
1、HOG特征提取方法:
HOG特征提取算法在OpenCV中也有高效实现。在实际使用时只需要指定HOG窗口(window)大小,块(block)大小,单元(cell)大小,块步长(block stride)以及方 向梯度区间(nbins)。
HOG特征提取方法主要过程如下:
1)对文字行进行HOG特征提取时,假设包含文字行的图像大小为n×m,设定方向梯度区间,HOG的窗口大小为w×h单元以及HOG块的大小为s×s单元,其中,w,h≥s。
2)将图像大小调整为((n/w)×w)×((m/h)×h),将边缘补零,且(n/w)的商向上取整,同时HOG单元的大小为(n/w)×(m/h)像素,块步长设为一个HOG单元。
3)将调整好的图像,以及参数输入OpenCV实现的HOG特征提取函数即可获得该图像中文字行的HOG特征。
2、用于行分类的HOG+SVM参数设置如下:
梯度尺度σ=0,使用L2-Hys正则化方法,SVM的核宽度为γ=3e-2(e为自然常数),HOG块步长为1个HOG单元(cell)。HOG块大小为2*2cells,HOG窗口大小为2*5cells。 HOG单元(cell)的大小随组件大小变化,(组件宽/2)*(组件高/5)像素。
另一方面,为了说明本发明上述方案的效果,还在复杂背景维语图像数据集UICBI400和UICBI500上进行了对比实验,对比实验表明,本发明的维语定位性能明显优 于目前在UICBI400数据集上最优的方法,明显提升复杂背景图像中维语文字定位的速度 和精度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以 通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一 个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得 一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施 例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替 换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的 保护范围为准。

Claims (5)

1.一种快速的复杂背景图像中维语文字定位方法,其特征在于,包括:
基于检测模版从图像中检测笔划关键点;检测模版为一个7×7像素的方形模版,待检测像素p位于模版中心,待检测像素点p外围的8个像素所构成的方形区域为第一检测区域;第一检测区域外围的16个像素所构成的方形区域为第二检测区域;第二检测区域外围的24个像素所构成的方形区域为第三与第四检测区域,其中,第四检测区域为方形区域中4个顶点与4个边框中点所占的区域,其余则为第三检测区域;
结合检测到的笔划关键点与洪泛算法提取图像中的文字组件;
基于文字组件相似性进行组件聚类,实现文字行的构造;
利用HOG+SVM系统构成的行分类器,对文字行进行HOG特征提取,以及文字行与非文字行的二分类;
其中,检测笔划关键点时,首先,将输入的图像从彩色图转换为灰度图,然后,基于检测模版对灰度图中每一像素进行验证,从而检测出笔划关键点;
位于检测区域的每个像素点x都会通过一个映射函数来判断其与待检测像素p的比较关系,映射函数定义为:
Figure FDA0002414235130000011
其中,t为设定的边缘阈值,Ip、Ix对应于待检测像素点p、像素点x的像素值;映射值0、1、2对应的表示待检测像素点p与像素点x亮度相似、待检测像素点p比像素点x亮、待检测像素点p比像素点x暗;
检测候选关键点,候选关键点满足的条件为:在第二检测区域中存在两段位置连续的像素点分别被映射为0和1,或者0和2;由此获得两个连续的像素点集P0和P1,或者P0和P2;并且,|P0|<8;
再根据|P0|的大小判断笔划关键点的种类:
1)笔划端点的第一判定条件为:|P0|<5,满足条件后再进行笔划相关性判别;
2)笔划交叉点的第一判定条件为:|P0|=5,满足条件后再进行笔划相关性判别;
3)笔划弯点第一判定条件为:5<|P0|<8,满足条件后再进行笔划相关性判别;
通过上述方式检测出所有笔划关键点并区分种类;
对所有检测到的笔划关键点进行非极大值抑制:对于出现在3×3邻域范围内的笔划关键点做响应值比较,保留响应值最大的笔划关键点,去除邻域内的其他笔划关键点;响应值的计算公式为:
Figure FDA0002414235130000021
上式中,y表示像素集P1或P2中的像素点,Iy表示像素点y的像素值。
2.根据权利要求1所述的一种快速的复杂背景图像中维语文字定位方法,其特征在于,该方法还包括对像素点集P0进行内部相似性规则和外部区分性规则的检测:
内部相似性规则检测:检测像素点集P0内外像素点与位于检测模版中心的待检测像素点的相似性,以保证找到的笔划关键点不是一个孤立的点而是笔划的一部分;
外部区分性规则检测:检测像素点集P1或P2内外像素点与位于检测模版中心的待检测像素点的区分性,以保证笔划关键点与背景的区分性;
其中,像素点集P0、P1或P2内像素点是指第一检测区域中的像素点,外像素点是指第三与第四检测区域中的像素点。
3.根据权利要求1所述的一种快速的复杂背景图像中维语文字定位方法,其特征在于,结合检测到的笔划关键点与洪泛算法提取图像中的文字组件时,通过检测到的笔划关键点选择洪泛种子,以及通过检测到的笔划关键点对洪泛相似判定阈值进行选择;
洪泛种子的选择:对于笔划端点直接选择为洪泛种子;对于笔划交叉点和笔划弯点进行反向洪泛,从而选出洪泛种子;
洪泛相似判定阈值的选择:
1)笔划关键点比背景亮,相似判定阈值θ1为:
θ1=max(Iy)+1|y∈P1
2)笔划关键点比背景暗,相似判定阈值θ1为:
θ2=min(Iy)-1|y∈P2
4.根据权利要求1所述的一种快速的复杂背景图像中维语文字定位方法,其特征在于,所述基于文字组件相似性进行组件聚类包括:启发式规则去噪和组件相似性聚类;
在启发式规则去噪阶段,仅选择满足如下条件的文字组件:
K≤wc≤wi/3和K≤hc≤hi/3;
其中,wc、hc分别表示文字组件的宽、高,wi、hi分别表示图像的宽、高,K为设定的尺寸阈值;
基于文字组件相似性对满足条件的文字组件进行组件聚类:首先位于同一水平线上的文字组件会被分为一组,然后对每组组件进行相似性聚类。
5.根据权利要求1所述的一种快速的复杂背景图像中维语文字定位方法,其特征在于,对文字行进行HOG特征提取时,假设包含文字行的图像大小为n×m,设定方向梯度区间,HOG的窗口大小为w×h单元以及HOG块的大小为s×s单元,其中,w,h≥s;
然后,将图像大小调整为((n/w)×w)×((m/h)×h),将边缘补零,且(n/w)的商向上取整,同时HOG单元的大小为(n/w)×(m/h)像素,块步长设为一个HOG单元;
最后,将调整好的图像,以及参数输入OpenCV实现的HOG特征提取函数即可获得该图像中文字行的HOG特征。
CN201810375055.9A 2018-04-24 2018-04-24 一种快速的复杂背景图像中维语文字定位方法 Active CN108573258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810375055.9A CN108573258B (zh) 2018-04-24 2018-04-24 一种快速的复杂背景图像中维语文字定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810375055.9A CN108573258B (zh) 2018-04-24 2018-04-24 一种快速的复杂背景图像中维语文字定位方法

Publications (2)

Publication Number Publication Date
CN108573258A CN108573258A (zh) 2018-09-25
CN108573258B true CN108573258B (zh) 2020-06-26

Family

ID=63575212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810375055.9A Active CN108573258B (zh) 2018-04-24 2018-04-24 一种快速的复杂背景图像中维语文字定位方法

Country Status (1)

Country Link
CN (1) CN108573258B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799922A (zh) * 2009-02-09 2010-08-11 北京新岸线网络技术有限公司 检测文字笔画的方法和装置、定位文字行的方法和装置、判断字幕重复的方法和装置
CN104899601A (zh) * 2015-05-29 2015-09-09 西安电子科技大学宁波信息技术研究院 一种手写维吾尔文单词识别方法
CN105069788A (zh) * 2015-08-05 2015-11-18 中北大学 一种古建墙壁题记受污毛笔文字图像聚类分割方法
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799922A (zh) * 2009-02-09 2010-08-11 北京新岸线网络技术有限公司 检测文字笔画的方法和装置、定位文字行的方法和装置、判断字幕重复的方法和装置
CN104899601A (zh) * 2015-05-29 2015-09-09 西安电子科技大学宁波信息技术研究院 一种手写维吾尔文单词识别方法
CN105069788A (zh) * 2015-08-05 2015-11-18 中北大学 一种古建墙壁题记受污毛笔文字图像聚类分割方法
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Robust Uyghur Text Localization in Complex Background Images;Jianjun Chen等;《Advances in Multimedia Information Processing - PCM 2016》;20161130;第406-416页 *
一种基于CIS的快速字符识别算法;钟阳等;《信息技术》;20161231;第161-167页 *

Also Published As

Publication number Publication date
CN108573258A (zh) 2018-09-25

Similar Documents

Publication Publication Date Title
US11922615B2 (en) Information processing device, information processing method, and storage medium
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
US10255691B2 (en) Method and system of detecting and recognizing a vehicle logo based on selective search
CN107609549B (zh) 一种自然场景下证件图像的文本检测方法
JP7113657B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Pan et al. A robust system to detect and localize texts in natural scene images
EP3101594A1 (en) Saliency information acquisition device and saliency information acquisition method
CN110298376B (zh) 一种基于改进b-cnn的银行票据图像分类方法
CN104680127A (zh) 手势识别方法及系统
JP2014232533A (ja) Ocr出力検証システム及び方法
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN104850822B (zh) 基于多特征融合的简单背景下的叶片识别方法
CN109409356B (zh) 一种基于swt的多方向中文印刷体文字检测方法
Shivakumara et al. New gradient-spatial-structural features for video script identification
Shivakumara et al. Gradient-angular-features for word-wise video script identification
Aubin et al. A new descriptor for person identity verification based on handwritten strokes off-line analysis
Verma et al. A novel approach for structural feature extraction: contour vs. direction
Gui et al. A fast caption detection method for low quality video images
CN107341487B (zh) 一种涂抹字符的检测方法及系统
Lu et al. Detection of image seam carving using a novel pattern
Kavitha et al. A robust script identification system for historical Indian document images
CN108573258B (zh) 一种快速的复杂背景图像中维语文字定位方法
Lakshmi et al. A new hybrid algorithm for Telugu word retrieval and recognition
Kobchaisawat et al. A method for multi-oriented Thai text localization in natural scene images using Convolutional Neural Network
Bloomberg et al. Document image applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant