CN107038409B - 检测图像中所含文本的方法、装置和计算机可读记录介质 - Google Patents
检测图像中所含文本的方法、装置和计算机可读记录介质 Download PDFInfo
- Publication number
- CN107038409B CN107038409B CN201710063689.6A CN201710063689A CN107038409B CN 107038409 B CN107038409 B CN 107038409B CN 201710063689 A CN201710063689 A CN 201710063689A CN 107038409 B CN107038409 B CN 107038409B
- Authority
- CN
- China
- Prior art keywords
- text
- candidate
- strong
- weak
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及检测图像中包含的文本的方法、装置和计算机可读记录介质。该方法包括:步骤a:在获得输入图像时,装置基于输入图像中包含的像素的特征值,在输入图像中检测至少一个候选文本,或对此进行协助;步骤b:装置基于在包含检测出的候选文本的区域内所选择的至少一个像素的特征值或该特征值的转换值,(i)将检测出的候选文本与第一阈值比较以将检测出的候选文本分类为强文本或非强文本,或对此进行协助,且(ii)将分类成非强文本的候选文本与第二阈值比较以将分类成非强文本的候选文本分类成弱文本或非文本,或对此进行协助;和步骤c:装置基于强文本和弱文本的相关信息,判断是否将弱文本分类为强文本,或是否对此进行协助。
Description
技术领域
本发明涉及检测图像中包含的文本的方法、装置和计算机可读记录介质,更具体地涉及包括如下步骤的方法、装置和计算机可读记录介质:在获得输入图像时,基于将所述输入图像中包含的像素的特征值,在所述输入图像中检测至少一个候选文本,或对此进行协助;基于在包含所检测出的候选文本的区域内所选择的至少一个像素的特征值或所述特征值的转换值,(i)将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,或对此进行协助,且(ii)将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本,或对此进行协助;以及基于所述强文本和所述弱文本的相关信息,判断是否将所述弱文本分类为所述强文本,或对此进行协助。
背景技术
图像内的文本经常提供有意义的信息,因此认为在诸如图像和视频检索(imageand video retrieval)、多语言翻译、汽车援助(automotive assistance)等各种计算机视觉应用中检测并识别场景文本(Scene Text)是重要的。
场景文本检测算法为用于在图像中检测文本(字符)的算法,根据候选文本提取方法大致可分为滑动窗口(sliding window)方式和连通域分析(connected componentanalysis)方式。
滑动窗口方式为在图像的所有位置中多尺度移动窗口以检测场景图像的文本的技术。该技术具有彻底地搜索输入图像因此表示检测了多少文本区域的查全率(recallrate)高的优点。然而,由于彻底的窗口扫描而不可避免地造成大量的计算量,且许多候选文本可以造成大量的误检(false positive)。因此,滑动窗口方式不适用于实时应用。在X.Chen和A.L.Yuille的Detecting and reading text in natural scenes(In Proc.CVPR2004,第366–373页,2004)等中介绍了窗口滑动方式。
因此,由于滑动窗口方式需要大量的计算量,因此近来的趋势是大量使用连通域分析方式。连通域分析方式为了从输入图像提取作为共享类似文本特性的像素的集合的候选文本且抑制非候选文本而执行检测候选文本的工作。笔画宽度变换(stroke widthtransform,SWT)和最大稳定极值区域(maximally stable extremal region,MSER)是连通域分析的代表性技术。这些方法在场景文本检测中提供最先进的性能。在B.Epshtein、E.Ofek和Y.Wexler的Detecting text in natural scenes with stroke widthtransform(In Proc.CVPR 2010,第2963–2970页,2010)等中介绍了连通域分析方式。
然而,在连通域分析方式中,在检测候选文本时使用的一般的约束条件具有在检测许多真文本时进行限制性的评估且结果示出低的查全率的局限性。
因此,需要在图像中检测文本时发挥最佳性能的同时也能够具有高的查全率的文本检测技术。
发明内容
技术问题
本发明的目的在于解决所有上述问题。
此外,本发明的另一目的在于提供在发挥最佳性能的同时也能够具有高的查全率的文本检测技术。
此外,本发明的又一目的在于提供能够通过利用多阈值将候选文本分类为强文本、弱文本和非文本而具有高的查全率的文本检测技术。
此外,本发明的又一目的在于提供能够通过在将候选文本分类为强文本和弱文本后,基于强文本和弱文本的位置信息、大小信息、颜色信息、笔画宽度信息中的至少一部分,来将弱文本编入强文本中,而具有高的查全率的文本检测技术。
技术方案
为了实现上述目的的本发明的代表性的结构如下。
根据本发明的一方面,提供一种检测图像中包含的文本的方法,包括:步骤a:装置在获得输入图像时,基于所述输入图像中包含的像素的特征值,在所述输入图像中检测至少一个候选文本,或对此进行协助;步骤b:所述装置基于在包含所检测出的候选文本的区域内选择的至少一个像素的特征值或所述特征值的转换值,(i)将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,或对此进行协助,且(ii)将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本,或对此进行协助;以及步骤c:所述装置基于所述强文本和所述弱文本的相关信息,判断是否将所述弱文本分类为所述强文本,或是否对此进行协助。
根据本发明的另一方面,提供一种检测图像中包含的文本的装置,包括:通信部,所述通信部获取图像;以及处理器,所述处理器在获得所述图像时,(i)基于所述输入图像中包含的像素的特征值,在所述输入图像中检测至少一个候选文本,或对此进行协助,(ii)基于在包含所检测出的候选文本的区域内选择的至少一个像素的特征值或所述特征值的转换值,将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,或对此进行协助,且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本,或对此进行协助,(iii)基于所述强文本和所述弱文本的相关信息,判断是否将所述弱文本分类为所述强文本,或对此进行协助。
此外,本发明还提供一种计算机可读记录介质,所述计算机可读记录介质用于记录用于实施实现本发明的其他方法、装置和所述方法的计算机程序。
有益效果
本发明具有如下效果。
本发明具有提供在发挥最佳性能的同时也能够具有高的查全率的文本检测技术的效果。
此外,本发明具有能够通过利用多阈值将候选文本分类为强文本、弱文本和非文本而在文本检测时实现高的查全率的效果。
此外,本发明具有能够通过在将候选文本分类为强文本和弱文本后,基于强文本和弱文本的位置信息、大小信息、颜色信息、笔画宽度信息中的至少一部分,来将弱文本编入强文本中,从而在文本检测时实现高的查全率的效果。
附图说明
图1是示出根据本发明的一实施例的用于检测图像中包含的文本的装置的结构的框图。
图2是示出根据本发明的一实施例的装置检测图像中包含的文本的过程的流程图。
图3是示出根据本发明的一实施例的ER树的示例的图。
图4是示出MLBP转换的示例的图。
图5是示出在利用根据本发明的文本检测方法在示例性图像中检测文本的各过程中的中间结果的图。
图6至图8是示出其他文本检测技术和本发明的性能的比较实验结果。
具体实施方式
后述的对本发明的详细说明参照示例性地示出能够实施本发明的特定实施例的附图。对这些实施例进行充分详细的说明,以使本领域的技术人员能够实施本发明。应当理解,本发明的各种实施例虽然彼此不同,但无需相互排斥。例如,本说明书中对于一实施例所记载的特定形状、结构和特性在不脱离本发明的精神和范围的情况下可以以其它实施例实现。此外,应理解为,各个所公开的实施例内的个别组成部分的位置或配置在不脱离本发明的精神和范围的情况下可进行变更。因此,后述的详细说明并不是限定性的,如果合理地说明,则本发明的保护范围仅通过所附的权利要求来限定,且包含与该权利要求所主张的范围等同的所有范围。在附图中,相似的附图标记在多个方面表示相同或相似的功能。
本发明提出考虑下列标准的文本检测技术。本发明人将满足下列标准的根据本发明的检测器命名为Canny文本检测器。用于满足各标准的本发明的结构在对相应结构的说明中详细提及。
1.查全率(recall):应检测尽可能多的文本区域。
2.精度(precision):检测结果不应包括非文本区域。
3.唯一性(uniqueness):所检测出的文本应只被标记一次。
4.紧密性(compactness):所检测出的区域(边界框)应在最小化额外的空白区域的同时包括文本区域。
以下,将详细说明满足上述标准的、根据本发明的各种实施例的用于检测图像中包含的文本的装置和方法。
图1是示出根据本发明的一实施例的用于检测图像中包含的文本的装置的结构的框图,图2是示出根据本发明的一实施例的装置检测图像中包含的文本的过程的流程图。
参照图1,根据本发明的一实施例的用于检测图像中包含的文本的装置100包括通信部110、处理器120和存储部130。
通信部110被配置成与外部装置收发数据或在内部部件之间收发数据。尤其是,通信部110可以获取用于文本检测的输入图像(步骤S210)。
处理器120被配置成执行各种数据运算。首先,处理器120可以在获得所述输入图像时,基于所述输入图像中包含的像素的特征值,在所述输入图像中检测至少一个候选文本,或对此进行协助(步骤S220)。
此时,当输入图像的预定区域中所包含的所有像素的特征值大于所述预定区域的外部边界区域的特征值时,处理器120可以将所述预定区域检测为一个候选文本,或对此进行协助。这可以通过下列等式来表示。
〈等式1〉
其中,x和y是针对单通道图像I的像素索引,t是为了提取候选文本区域而使用的阈值,B(Rt)是Rt的边界区域像素的集合。当然,在相反的情况下,即当输入图像的预定区域中所包含的所有像素的特征值小于所述预定区域的外部边界区域的特征值时,也可以将所述预定区域检测为一个候选文本,或对此进行协助。
此外,接下来,也可以利用极值区域(Extremal Region,ER)配置ER树。也就是说,处理器120可以改变所述预定区域的像素强度水平以检测所述至少一个候选文本,或对此进行协助,且在所检测出的所述至少一个候选文本中,可以将(i)所述预定区域的像素强度水平相对大的低等级候选文本中所述预定区域的像素强度水平最大的候选文本以及(ii)包含所述低等级候选文本的区域且所述预定区域的像素强度水平相对小的高等级候选文本中所述预定区域的像素强度水平最大的候选文本分别分配至子节点和母节点以配置树,或对此进行协助。
图3是示出根据本发明的一实施例的ER树的示例的图。
从图3所示的示例可知,强度水平为136的候选文本和包括所述强度水平为136的候选文本的区域且强度水平为133的候选文本分别被分配至子节点和母节点。
然后,处理器120可以执行多阈值分类,或对此进行协助(步骤S240)。也就是说,处理器120可以基于在包含所检测出的候选文本的区域内选择的至少一个像素的特征值或其转换值,将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,或对此进行协助,且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本,或对此进行协助。例如,处理器120可以使用由AdaBoost算法所训练的分类器对所检测出的候选文本进行分类,或对此进行协助。
其中,包含所检测出的候选文本的区域可以是额外的空白区域被最小化且包含所检测出的候选文本的边界框区域。
此外,强文本指的是所检测出的候选文本实际为文本的可能性相对高的候选文本。相反,弱文本指的是所检测出的候选文本实际为文本的可能性低于强文本的候选文本,非文本指的是所检测出的候选文本实际为文本的可能性非常低的候选文本。
此外,第一阈值可以为高阈值,第二阈值可以为低阈值。不同的阈值可以满足不同的查准率,例如,第一阈值可以满足99%的查准率,第二阈值可以满足90%的查准率。因此,第二阈值示出比第一阈值低的查准率,但是可以示出相对高的查全率。
此外,处理器120可以基于在包含所检测出的候选文本的区域内选择的像素的特征值的平均局部二进制模式(Mean Local Binary Pattern,MLBP)转换值,执行所述分类操作,或对此进行协助。
图4是示出MLBP转换的示例的图。
参照图4,首先计算围绕在包含所检测出的候选文本的区域内选择的像素的8个相邻像素(3×3块内的相邻像素)的平均值。而且,将除所选择的中央像素之外的其他8个相邻像素和所计算的平均值进行比较,若特定相邻像素的值大于平均值,则向相应的相邻像素分配1,若特定相邻像素的值小于平均值,则向相应的相邻像素分配0。而且,从左上方的相邻像素开始沿顺时针方向读取新分配的值,以编码成由8个比特组成的2进制数。从图4所示的示例可知,MLBP值为二进制数00110101(2)。然而,在本发明中可使用的特征不限于MLBP,也可以使用各种其他特征。
此外,候选文本可以经由两个步骤与两个阈值比较而进行分类(这被称为双阈值分类)。也可以经由两个步骤以上来执行分类。也就是说,在所述第一阈值和所述第二阈值之间可以存在至少一个中间阈值。在该情况下,处理器120(ii-1)可以将分类成非强文本的候选文本与所述中间阈值进行比较以将分类成非强文本的候选文本分类为所述强文本或次弱文本,或对此进行协助,(ii-1)将所述次弱文本与所述第二阈值进行比较以将所述次弱文本分类为所述弱文本或所述非文本,或对此进行协助。
此外,处理器120也可以在执行多阈值分类之前执行非极大值抑制,或对此进行协助(步骤S230)。
也就是说,在所检测出的候选文本为多个时,处理器120可以识别包括包含所检测出的多个候选文本的区域以预定比率以上彼此重叠的候选文本的至少一个候选文本组且针对所识别的各候选文本组选择满足预定条件的候选文本,或对此进行协助。在该情况下,处理器120可以基于在包含满足所述预定条件的候选文本的区域中选择的至少一个像素的特征值或其转换值,(i)将满足所述预定条件的候选文本与所述第一阈值比较以将该候选文本分类为所述强文本或所述非强文本,或对此进行协助,且(ii)将分类为所述非强文本的候选文本与所述第二阈值比较以将分类为所述非强文本的候选文本分类为所述弱文本或所述非文本,或对此进行协助。
如上所述,在MSER和ER中经常出现包含候选文本的区域相互重叠的情况。在ER树的情况下,为了确保唯一性标准,可以抑制重复的ER(节点),且仅选择具有最大稳定性的一个ER。
如下更详细地说明在配置ER树时的非极大值抑制过程,(a)针对上述ER树中的特定节点,包含与所述特定节点对应的候选文本的区域以及包含与祖先节点对应的候选文本的区域以预定比率以上重叠的情况出现预定次数以上时,(b)处理器120可以选择与包含候选文本的区域相比于自身的特定祖先节点的变化量相对最小的节点相对应的候选文本,或对此进行协助,其中,所述与祖先节点对应的候选文本包含与所述特定节点对应的候选文本的区域且所述预定区域的像素强度水平相对小。
可以使用下列等式对(a)进行判定。
〈等式2〉
其中,Rt-k指的是ER树中Rt的母节点。|R|指的是R的边界框区域(包括候选文本的区域)。
例如,在O(Rt-k,Rt)>0.7的情况出现5次以上时可以执行(b)。(b)可以表示选择稳定性最大的ER,稳定性可以由下列等式表示。
〈等式3〉
例如,在等式2中可以设置成k=2。在该情况下,可以针对特定节点和特定节点的祖父母节点考虑稳定性。
作为参考,在稳定性相同的ER存在两个以上时,可以选择ER的区域(边界框区域)最小的ER。由此可以满足唯一性和紧密性。
此外,在Rt中重叠的次数大于3且Rt没有通过非极大值抑制而去除时,可以将Rt考虑为候选文本。然而,在候选文本具有过大或多小的纵横比时,可以去除该候选文本。
在该情况下,处理器120可以基于在包含所选择的候选文本的区域中选择的至少一个像素的特征值或其转换值,(i)将满足所述预定条件的候选文本与所述第一阈值比较以将该候选文本分类为所述强文本或所述非强文本,或对此进行协助,且(ii)将分类为所述非强文本的候选文本与所述第二阈值比较以将分类为所述非强文本的候选文本分类为所述弱文本或所述非文本,或对此进行协助。
再次参照图2,处理器120可以考虑滞后(Hysteresis)来执行文本追踪,或对此进行协助(步骤S250)。也就是说,处理器120可以判断是否基于上述分类的强文本和弱文本的相关信息,将所述弱文本分类为所述强文本,或是否对此进行协助。更具体地,处理器120可以基于所述强文本和所述弱文本的相关信息,将所述弱文本分类为所述强文本或所述非文本,或对此进行协助。
如上所述,分类为强文本的候选文本实际为文本的可能性高。然而,分类为弱文本的候选文本实际也可能是文本。因此,在本发明中,在弱文本与强文本的特征相似时,将该弱文本编入强文本中。也就是说,在强文本附近找到分类为弱文本的候选文本,且在该候选文本具有与强文本类似的特征时,将该弱文本转换为强文本。因此可以实现高的查全率。
为了判断强文本和弱文本是否具有相似的特征而考虑的强文本和弱文本的相关信息可以包括所述强文本和所述弱文本的位置信息、大小信息、颜色信息、笔画宽度信息中的至少一部分。
然后,处理器120可以将通过与所述第一阈值比较而分类的强文本和从所述弱文本编入的强文本归组,或对此进行协助(步骤S260)。
此外,在将第一强文本和从与该第一强文本相邻的第一弱文本编入的第二强文本归组,且基于所述第二强文本和与其相邻的第二弱文本的相关信息,将所述第二弱文本分类为第三强文本时,处理器120可以将所述第三强文本与所述第一强文本和所述第二强文本归组在一起,或对此进行协助。
此外,为了输出紧密的边界框,可以计算最小面积包围矩形。可以使用字符像素的2D坐标在2D图像空间中计算包围所归组的文本的最小矩形。
图5是示出在利用根据本发明的文本检测方法在示例性图像中检测文本的各过程中的中间结果的图。
在获得图5的(a)的输入图像的情况下,(b)示出执行非极大值抑制而选择的ER。(c)示出利用高阈值对候选文本进行分类而得到的结果,可知分类成比较少数的强文本。(d)示出利用低阈值进行附加分类以将许多候选文本分类为弱文本的结果。(e)示出文本追踪结果。其结果是许多弱文本被编入强文本中。(f)示出文本归组后的最终结果。
此外,处理器120执行控制上述通信部110和后述存储部130之间的数据流动的功能。也就是说,处理器120通过控制在输入数据中检测文本的装置100的各部件间的数据流动,控制通信部110和存储部130以使通信部110和存储部130各自执行其自身的功能。
处理器120可以包括微处理单元(Micro Processing Unit,MPU)、中央处理单元(Central Processing Unit,CPU)、高速缓冲存储器(Cache Memory)、数据总线(Data Bus)等硬件配置。此外,还可以包括操作系统、执行特定目的的应用程序的软件配置。
存储部130被配置成存储各种数据。尤其是,存储部130可以存储在文本检测的各步骤中算出的中间结果数据。此外,可以存储操作系统、执行特定目的的应用程序的软件。
以下,简略示出本发明人利用上述文本检测方法和装置进行实验的结果。
图6至图8是示出其他文本检测技术和本发明的性能的比较实验结果。
图6是示出针对关于ICDAR 2011数据集的字符等级的查全率,M.-C.Sung、B.Jun、H.Cho和D.Kim的Scene text detection with robust character candidate extractionmethod(In Proc.ICDAR 2015,第426–430页,2015)中提出的最新候选文本检测方法和本发明的比较结果的表。
从图6可知,与Sung等相比,本发明在ER树中利用非极大值抑制以减小候选文本的数量,且初始ER是Sung等的约1/3。本发明的最终定位结果可以被评价为在将相关性下降的候选文本降低90%以上的同时,实现相当高的查全率。
图7是示出针对ICDAR 2013数据集,本发明和另一技术的查准率、查全率和调和平均数的评估结果的表。
从图7可知,与X.-C.Yin、X.Yin、K.Huang和H.-W.Hao的Robust text detectionin natural scene images(IEEE Trans.Pattern Analysis Machine Intelligence,36(5):970–983,2014年5月)中提出的算法相比,本发明的调和平均数等也更优异。
图8是示出针对Y.-F.Pan、X.Hou和C.-L.Liu的A hybrid approach to detectand localize texts in natural scene images(IEEE Trans.Image Processing,20(3):800–813,2011)中提出的多语言数据集的实验结果的表。
从图8可知,本发明相比其他算法示出提高的查全率、查准率和调和平均数。
此外,上述根据本发明的实施例可以以可通过各种计算机组成部分执行的程序指令的形式实现并存储在计算机可读记录介质中。上述计算机可读记录介质可单独或组合包括程序指令、数据文件、数据结构等。存储在上述计算机可读记录介质中的程序指令也可以是为了本发明而特别设计并配置的指令或计算机软件领域中的技术人员公知且能够使用的指令。作为计算机可读记录介质的例,包括如硬盘、软盘、诸如磁带的磁介质、如只读存储光盘(CD-ROM)、数字多功能光盘(DVD)的光记录介质、如光磁软盘(floptical disk)的磁-光介质(magneto-optical media)以及如只读存储器(ROM)、随机存取存储器(RAM)、闪存等的以存储并执行程序指令的方式特别配置的硬件装置。在程序指令的例中,不仅包括如由编译器编译的机器代码,而且还包括因使用解释程序等而能由计算系统执行的高级语言代码。上述硬件装置可以以为了执行根据本发明的处理而作为一个以上的软件模块来运行的方式配置,反过来也相同。
以上,通过如具体组成部分等的特定事项和被限定的实施例及附图,对本发明进行了说明,但这仅为了有助于本发明的更全面的理解而提供的,本发明并不限定于上述实施例,如果是本发明所属技术领域的技术人员则能从这种记载中试图多种修正及变形。
因此,不能局限于上述说明的实施例来确定本发明的技术思想,不仅是所附权利要求书而且与该权利要求书均等或等价变形的所有内容应属于本发明的技术思想范围内。
[附图标记的说明]
100:检测包含在图像中的文本的装置
110:通信部
120:处理器
130:存储部
Claims (16)
1.一种检测图像中包含的文本的方法,包括:
步骤a:装置在获得输入图像时,基于所述输入图像中包含的像素的特征值,在所述输入图像中检测至少一个候选文本;
步骤b:所述装置基于在包含所检测出的候选文本的区域内所选择的至少一个像素的特征值或所述特征值的转换值,将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本;以及
步骤c:所述装置基于所述强文本和所述弱文本的相关信息,判断是否将所述弱文本分类为所述强文本,
在所述步骤a中,
当所述输入图像的预定区域中所包含的所有像素的特征值大于或小于所述预定区域的外部边界区域的特征值时,所述装置将所述预定区域检测为一个候选文本,
所述装置改变所述预定区域的像素强度水平以检测所述至少一个候选文本,
在所检测出的所述至少一个候选文本中,所述装置将所述预定区域的像素强度水平大于预定值的低等级候选文本中所述预定区域的像素强度水平最大的候选文本以及包含所述预定区域的像素强度水平大于所述预定值的所述低等级候选文本的区域且所述预定区域的像素强度水平小于所述预定值的高等级候选文本中所述预定区域的像素强度水平最大的候选文本分别分配至子节点和母节点以配置树,
针对所述树中的特定节点,当包含与所述特定节点对应的候选文本的区域以及包含与祖先节点对应的候选文本的区域以预定比率以上重叠的情况出现预定次数以上时,所述装置选择与包含候选文本的区域相比于自身的特定祖先节点的变化量最小的节点相对应的候选文本,其中,所述与祖先节点对应的候选文本包含与所述特定节点对应的候选文本的区域且所述预定区域的像素强度水平小于所述预定值,
在所述步骤b中,
基于在包含所选择的候选文本的区域内所选择的至少一个像素的特征值或所述特征值的转换值,将满足预定条件的候选文本与所述第一阈值比较以将满足所述预定条件的候选文本分类为所述强文本或所述非强文本,且将分类为所述非强文本的候选文本与所述第二阈值比较以将分类为所述非强文本的候选文本分类为所述弱文本或所述非文本,
所述方法还包括:
步骤d:所述装置将通过与所述第一阈值比较而分类的强文本和从所述弱文本编入的强文本归组,
当将第一强文本和从第一弱文本编入的第二强文本归组,且基于所述第二强文本和第二弱文本的相关信息,将所述第二弱文本分类为第三强文本时,所述装置将所述第三强文本与所述第一强文本和所述第二强文本归组在一起。
2.根据权利要求1所述的方法,其特征在于,
在所述步骤c中,所述装置基于所述强文本和所述弱文本的相关信息,将所述弱文本分类为所述强文本或非文本。
3.根据权利要求1所述的方法,其特征在于,
在所检测出的候选文本为多个时,在所述步骤a后,还包括步骤a1:所述装置识别包括多个区域以预定比率以上彼此重叠的候选文本的至少一个候选文本组且针对所识别的各候选文本组选择满足预定条件的候选文本,其中,所述多个区域包含所检测出的多个候选文本,
其中,在所述步骤b中,
基于在包含满足所述预定条件的候选文本的区域中所选择的至少一个像素的特征值或所述特征值的转换值,将满足所述预定条件的候选文本与所述第一阈值比较以将满足所述预定条件的候选文本分类为所述强文本或所述非强文本,且将分类为所述非强文本的候选文本与所述第二阈值比较以将分类为所述非强文本的候选文本分类为所述弱文本或所述非文本。
4.根据权利要求1所述的方法,其特征在于,
在所述步骤b中,
当在所述第一阈值和所述第二阈值之间存在至少一个中间阈值时,将分类成所述非强文本的候选文本与所述中间阈值进行比较以将分类成所述非强文本的候选文本分类为所述强文本或次弱文本,且将所述次弱文本与所述第二阈值进行比较以将所述次弱文本分类为所述弱文本或所述非文本。
5.根据权利要求1所述的方法,其特征在于,
在所述步骤b中,
所述装置基于在包含所检测出的候选文本的区域内所选择的像素的特征值的平均局部二进制模式转换值,将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本。
6.根据权利要求1所述的方法,其特征在于,
在所述步骤b中,
所述装置使用由AdaBoost算法所训练的分类器对所检测出的候选文本进行分类。
7.根据权利要求1所述的方法,其特征在于,
在所述步骤c中,
所述相关信息包括所述强文本和所述弱文本的位置信息、大小信息、颜色信息、笔画宽度信息中的至少一部分。
8.根据权利要求1所述的方法,其特征在于,
包含所检测出的候选文本的区域是额外的空白区域被最小化且包含所检测出的候选文本的边界框区域。
9.一种用于检测图像中包含的文本的装置,包括:
通信部,所述通信部获取输入图像;以及
处理器,所述处理器在获得所述输入图像时,执行如下操作:
操作i:基于所述输入图像中包含的像素的特征值,在所述输入图像中检测至少一个候选文本;
操作ii:基于在包含所检测出的候选文本的区域内所选择的至少一个像素的特征值或所述特征值的转换值,将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本;
操作iii:基于所述强文本和所述弱文本的相关信息,判断是否将所述弱文本分类为所述强文本,
在所述操作i中,
当所述输入图像的预定区域中所包含的所有像素的特征值大于或小于所述预定区域的外部边界区域的特征值时,所述处理器将所述预定区域检测为一个候选文本,
所述处理器改变所述预定区域的像素强度水平以检测所述至少一个候选文本,
在所检测出的所述至少一个候选文本中,所述处理器将所述预定区域的像素强度水平大于预定值的低等级候选文本中所述预定区域的像素强度水平最大的候选文本以及包含所述预定区域的像素强度水平大于所述预定值的所述低等级候选文本的区域且所述预定区域的像素强度水平小于所述预定值的高等级候选文本中所述预定区域的像素强度水平最大的候选文本分别分配至子节点和母节点以配置树,
针对所述树中的特定节点,当包含与所述特定节点对应的候选文本的区域以及包含与祖先节点对应的候选文本的区域以预定比率以上重叠的情况出现预定次数以上时,所述处理器选择与包含候选文本的区域相比于自身的特定祖先节点的变化量最小的节点相对应的候选文本,其中,所述与祖先节点对应的候选文本包含与所述特定节点对应的候选文本的区域且所述预定区域的像素强度水平小于所述预定值,
所述处理器基于在包含所选择的候选文本的区域内所选择的至少一个像素的特征值或所述特征值的转换值,将满足预定条件的候选文本与所述第一阈值比较以将满足所述预定条件的候选文本分类为所述强文本或所述非强文本,且将分类为所述非强文本的候选文本与所述第二阈值比较以将分类为所述非强文本的候选文本分类为所述弱文本或所述非文本,
在所述操作iii后,所述处理器还执行操作iv:将通过与所述第一阈值比较而分类的强文本和从所述弱文本编入的强文本归组,
当将第一强文本和从第一弱文本编入的第二强文本归组,且基于所述第二强文本和第二弱文本的相关信息,将所述第二弱文本分类为第三强文本时,所述处理器将所述第三强文本与所述第一强文本和所述第二强文本归组在一起。
10.根据权利要求9所述的装置,其特征在于,
在所述操作iii中,所述处理器基于所述强文本和所述弱文本的相关信息,将所述弱文本分类为所述强文本或非文本。
11.根据权利要求9所述的装置,其特征在于,
在所检测出的候选文本为多个时,在所述操作i后,所述处理器识别包括多个区域以预定比率以上彼此重叠的候选文本的至少一个候选文本组且针对所识别的各候选文本组选择满足预定条件的候选文本,其中,所述多个区域包含所检测出的多个候选文本,
基于在包含满足所述预定条件的候选文本的区域内所选择的至少一个像素的特征值或所述特征值的转换值,将满足所述预定条件的候选文本与所述第一阈值比较以将满足所述预定条件的候选文本分类为所述强文本或所述非强文本,且将分类为所述非强文本的候选文本与所述第二阈值比较以将分类为所述非强文本的候选文本分类为所述弱文本或所述非文本。
12.根据权利要求9所述的装置,其特征在于,
在所述操作ii中,
当在所述第一阈值和所述第二阈值之间存在至少一个中间阈值时,将分类成所述非强文本的候选文本与所述中间阈值进行比较以将分类成所述非强文本的候选文本分类为所述强文本或次弱文本,且将所述次弱文本与所述第二阈值进行比较以将所述次弱文本分类为所述弱文本或所述非文本。
13.根据权利要求9所述的装置,其特征在于,
在所述操作ii中,
所述处理器基于在包含所检测出的候选文本的区域内所选择的像素的特征值的平均局部二进制模式转换值,将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本。
14.根据权利要求9所述的装置,其特征在于,
在所述操作ii中,
所述处理器使用由AdaBoost算法所训练的分类器对所检测出的候选文本进行分类。
15.根据权利要求9所述的装置,其特征在于,
在所述操作iii中,
所述相关信息包括所述强文本和所述弱文本的位置信息、大小信息、颜色信息、笔画宽度信息中的至少一部分。
16.根据权利要求9所述的装置,其特征在于,
包含所检测出的候选文本的区域是额外的空白区域被最小化且包含所检测出的候选文本的边界框区域。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/014,441 | 2016-02-03 | ||
US15/014,441 US9524430B1 (en) | 2016-02-03 | 2016-02-03 | Method for detecting texts included in an image and apparatus using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107038409A CN107038409A (zh) | 2017-08-11 |
CN107038409B true CN107038409B (zh) | 2021-06-04 |
Family
ID=57538559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710063689.6A Active CN107038409B (zh) | 2016-02-03 | 2017-02-03 | 检测图像中所含文本的方法、装置和计算机可读记录介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9524430B1 (zh) |
EP (1) | EP3203417B1 (zh) |
JP (1) | JP6188976B2 (zh) |
KR (1) | KR101782589B1 (zh) |
CN (1) | CN107038409B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9984305B2 (en) | 2016-04-19 | 2018-05-29 | Texas Instruments Incorporated | Efficient SIMD implementation of 3x3 non maxima suppression of sparse 2D image feature points |
US10496894B2 (en) | 2017-03-31 | 2019-12-03 | Tata Consultancy Services Limited | System and method for text localization in images |
CN107832202A (zh) * | 2017-11-06 | 2018-03-23 | 郑州云海信息技术有限公司 | 一种检测硬盘的方法、装置及计算机可读存储介质 |
WO2019095092A1 (en) * | 2017-11-14 | 2019-05-23 | Symbol Technologies, Llc | Methods and apparatus for detecting and recognizing graphical character representations in image data using symmetrically-located blank areas |
CN109460768B (zh) * | 2018-11-15 | 2021-09-21 | 东北大学 | 一种用于组织病理学显微图像的文本检测与去除方法 |
US10430691B1 (en) * | 2019-01-22 | 2019-10-01 | StradVision, Inc. | Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring |
US10713948B1 (en) * | 2019-01-31 | 2020-07-14 | StradVision, Inc. | Method and device for alerting abnormal driver situation detected by using humans' status recognition via V2V connection |
CN110188622B (zh) * | 2019-05-09 | 2021-08-06 | 新华三信息安全技术有限公司 | 一种文字定位方法、装置及电子设备 |
WO2021070089A1 (en) * | 2019-10-11 | 2021-04-15 | Pepper Esports Inc. | Method and system for processing textual depictions in a computer game screenshot |
CN112418220A (zh) * | 2020-12-02 | 2021-02-26 | 浙江诺诺网络科技有限公司 | 一种单字检测方法、装置、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182722A (zh) * | 2013-05-24 | 2014-12-03 | 佳能株式会社 | 文本检测方法和装置以及文本信息提取方法和系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000298725A (ja) * | 1999-04-15 | 2000-10-24 | Nec Corp | テキストデータ検出装置およびその方法 |
JP2001092921A (ja) * | 1999-09-17 | 2001-04-06 | Toshiba Corp | 文字行領域抽出方法と文字行領域検出に用いられる学習方法 |
US6778700B2 (en) * | 2001-03-14 | 2004-08-17 | Electronics For Imaging, Inc. | Method and apparatus for text detection |
US7236632B2 (en) * | 2003-04-11 | 2007-06-26 | Ricoh Company, Ltd. | Automated techniques for comparing contents of images |
WO2007028166A2 (en) * | 2005-09-02 | 2007-03-08 | Blindsight, Inc. | A system and method for detecting text in real-world color images |
KR100745753B1 (ko) * | 2005-11-21 | 2007-08-02 | 삼성전자주식회사 | 영상의 문자 영역 검출장치 및 방법 |
US8917935B2 (en) * | 2008-05-19 | 2014-12-23 | Microsoft Corporation | Detecting text using stroke width based text detection |
KR101645994B1 (ko) * | 2009-12-29 | 2016-08-05 | 삼성전자주식회사 | 문자 인식 영역 검출 장치 및 문자 인식 방법 |
US8867828B2 (en) * | 2011-03-04 | 2014-10-21 | Qualcomm Incorporated | Text region detection system and method |
KR101175597B1 (ko) * | 2011-09-27 | 2012-08-21 | (주)올라웍스 | 아다부스트 학습 알고리즘을 이용하여 얼굴 특징점 위치를 검출하기 위한 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체 |
JP6286866B2 (ja) * | 2013-05-20 | 2018-03-07 | オムロン株式会社 | 画像処理装置および画像処理方法 |
JP5796107B2 (ja) * | 2013-05-24 | 2015-10-21 | キヤノン株式会社 | テキスト検出の方法及び装置 |
CN103279753B (zh) * | 2013-06-09 | 2016-03-09 | 中国科学院自动化研究所 | 一种基于树结构指导的英文场景文本块识别方法 |
US20150039637A1 (en) * | 2013-07-31 | 2015-02-05 | The Nielsen Company (Us), Llc | Systems Apparatus and Methods for Determining Computer Apparatus Usage Via Processed Visual Indicia |
-
2016
- 2016-02-03 US US15/014,441 patent/US9524430B1/en active Active
-
2017
- 2017-02-03 KR KR1020170015453A patent/KR101782589B1/ko active IP Right Grant
- 2017-02-03 JP JP2017018957A patent/JP6188976B2/ja active Active
- 2017-02-03 EP EP17154710.2A patent/EP3203417B1/en active Active
- 2017-02-03 CN CN201710063689.6A patent/CN107038409B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182722A (zh) * | 2013-05-24 | 2014-12-03 | 佳能株式会社 | 文本检测方法和装置以及文本信息提取方法和系统 |
Non-Patent Citations (4)
Title |
---|
A text reading algorithm for natural images;Álvaro González et al;《Image and Vision Computing》;20131231;第33卷(第3期);第255-274页 * |
An improved scene text extraction method using Conditional Random Field and Optical Character Recognition;Hongwei Zhang et al;《2011 International Conference on Document Analysis and Recognition》;20111231;第708-712页 * |
Text Flow: A Unified Text Detection System in Natural Scene Images;Shangxuan Tian et al;《2015 IEEE International Conference on Computer Vision》;20151231;第4651-4659页 * |
自然场景图像中的文字检测;孙雷;《中国博士学位论文全文数据库信息科技辑》;20151015(第10期);第I138-9页 * |
Also Published As
Publication number | Publication date |
---|---|
KR101782589B1 (ko) | 2017-09-27 |
EP3203417B1 (en) | 2023-09-27 |
KR20170092476A (ko) | 2017-08-11 |
EP3203417C0 (en) | 2023-09-27 |
CN107038409A (zh) | 2017-08-11 |
EP3203417A2 (en) | 2017-08-09 |
JP6188976B2 (ja) | 2017-08-30 |
US9524430B1 (en) | 2016-12-20 |
EP3203417A3 (en) | 2017-08-16 |
JP2017138989A (ja) | 2017-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107038409B (zh) | 检测图像中所含文本的方法、装置和计算机可读记录介质 | |
Liu et al. | Adaptive nms: Refining pedestrian detection in a crowd | |
CN109918987B (zh) | 一种视频字幕关键词识别方法及装置 | |
JP5775225B2 (ja) | マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出 | |
US20160026900A1 (en) | Image processing device, information storage device, and image processing method | |
Kim et al. | X-ray image classification using random forests with local binary patterns | |
JP5063632B2 (ja) | 学習モデル生成装置、対象物検出システム、及びプログラム | |
KR102655789B1 (ko) | 얼굴 검출 방법 및 장치 | |
US20130342559A1 (en) | Temporally consistent superpixels | |
Shekar et al. | Discrete wavelet transform and gradient difference based approach for text localization in videos | |
US9710703B1 (en) | Method and apparatus for detecting texts included in a specific image | |
Pirgazi et al. | An End‐to‐End Deep Learning Approach for Plate Recognition in Intelligent Transportation Systems | |
Kara et al. | Image segmentation-based unsupervised multiple objects discovery | |
Bunel et al. | Detection of pedestrians at far distance | |
Ji et al. | Directional correlation analysis of local Haar binary pattern for text detection | |
CN110704667B (zh) | 一种基于语义信息的快速相似图检测方法 | |
Mahmoodi et al. | Boosting performance of face detection by using an efficient skin segmentation algorithm | |
Wu et al. | Vehicle detection in high-resolution images using superpixel segmentation and CNN iteration strategy | |
Qiu et al. | An optimized license plate recognition system for complex situations | |
Alajel et al. | Face detection based on skin color modeling and modified Hausdorff distance | |
Escalera et al. | Traffic sign recognition system with β-correction | |
Shirdhonkar et al. | Discrimination between printed and handwritten text in documents | |
Jamil et al. | Local statistical features for multilingual artificial text detection from video images | |
Kompella et al. | Co-saliency Detection via Weakly Supervised Learning | |
Shekar | Skeleton matching based approach for text localization in scene images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |