CN102799879A - 从自然场景图像中识别多言语、多字体文字的方法 - Google Patents

从自然场景图像中识别多言语、多字体文字的方法 Download PDF

Info

Publication number
CN102799879A
CN102799879A CN2012102415202A CN201210241520A CN102799879A CN 102799879 A CN102799879 A CN 102799879A CN 2012102415202 A CN2012102415202 A CN 2012102415202A CN 201210241520 A CN201210241520 A CN 201210241520A CN 102799879 A CN102799879 A CN 102799879A
Authority
CN
China
Prior art keywords
feature description
unique point
image
candidate region
character area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102415202A
Other languages
English (en)
Other versions
CN102799879B (zh
Inventor
毛俊骅
李厚强
周文罡
田奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201210241520.2A priority Critical patent/CN102799879B/zh
Publication of CN102799879A publication Critical patent/CN102799879A/zh
Application granted granted Critical
Publication of CN102799879B publication Critical patent/CN102799879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种从图像中识别文字的方法,该方法从图像中提取特征点,并获得所述特征点的特征描述子,并对所获得的特征描述子进行筛选,根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使每个候选区域中包含多个特征点。该方法还利用一个图片数据库训练得到一个分类器,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数,将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并对判断为文字区域的所述候选区域进行文字识别。本发明可以在各种困难条件下检测不同大小、颜色、字体、语言的文字。

Description

从自然场景图像中识别多言语、多字体文字的方法
技术领域
本发明属于计算机视觉和模式识别中的文字识别技术领域,具体涉及一种图像中定位文字区域和识别文字的方法,特别是从复杂自然场景图像中识别多字体(包括手写体和毛笔字)、多语言文字的方法.
背景技术
近年来,随着大量价格低廉、功能强大的手持照相机和智能手机的普及,人们可以轻松获得大量的数字图像。在这些图像中可能包含着大量的文字信息,例如出现在广告牌、建筑物的标识、路标、车牌以及路边的公告中。如果我们可以利用这种文字信息,就能使图像和景物理解技术的准确度得到大幅度提升。需要使用这种技术的应用包括车牌识别、自动地名识别、自动驾驶和导航技术等等。另外,现有的基于图像的搜索引擎技术基本上忽略了这种嵌入到图像中的文字,而文字却是一种非常直观的搜索线索,如果能够有效地识别嵌入到图像中的文字,则可以将嵌入的文字作为检索的重要信息来源,与原有的图像搜索引擎技术有效地结合。
导致对嵌入图像中的文字信息的未充分利用的原因是现有技术很难准确的定位和检测处于复杂场景图像中的文字。由于拍摄这些图像的手持设备本身或者拍摄场景的限制,包含这些文字的图像分辨率可能很低,或者可能因拍摄时的强光照射,图像会有一定的模糊,等等。这些因素会使传统的文字识别技术的准确度大大下降。另外,在自然场景图像中的文字本身可能表现为不同的语言、字体、颜色、大小等。而且,由于拍摄视角问题,文字可能还会呈现一定程度的变形,多个文字的排列方式也可能不是尚直线排列。所以,传统的从图像中识别文字的方法在上述情况中遇到了困难。
目前,传统的从图像中识别文字的方法可以归纳成三类:第一类是用阈值来分离文字(thresholding based);第二类是根据纹理来判断(texturebased);第三类是按区域来区分(region based)。
第一类方法用一个全局或者局部的阈值来分离前景(文字)和背景。这种方法比较简单,但无法处理背景复杂的情况。同时,它们要求文字的颜色和背景对比强烈,前景颜色要求均一。在自然场景的背景中,这种方法表现不好,准确度和识别率均较低。
第二类方法利用文字和背景不同的特征来区分它们。这些特征包括在傅里叶变换域和小波变换中文字部分具有的特殊参数。这类方法需要对图像进行多次扫描,所以非常耗时,并且对变换之后得到的信息无法在后续处理中应用。这类方法也无法处理倾斜或者弯曲的文字。
第三类方法以区域为基础。其将具有同样特征的像素,比如说颜色,笔画宽度,组成一个组(CCs)。这些形成的组通过一些几何上的筛选,去掉一定不是文字的部分。然后将剩余的CCs组成文字。比较成功的方法有Stroke Width Transform。这种方法的缺点在于只能寻找一些笔画宽度变化不大的字体,比如说拉丁文和英文,而对例如中文字的象形文字的表现不佳。另外,它也无法检测毛笔字等文字形式。
还有一种检测方法使用特征对比技术。其建立了专门的特征库以检测图像中是否出现的一些特殊的特征。由于这种方法找到的特征只是针对一类言语中的一些特殊的文字,因此只针对一种语言才有效。
发明内容
(一)要解决的技术问题
本发明所要解决的技术问题是现有的从图像中识别文字的技术不能有效地识别处于复杂自然场景图像中文字的问题。
(二)技术方案
为了解决上述技术问题,本发明提出了一种从图像中识别文字的方法,该方法从图像中提取特征点,并获得所述特征点的特征描述子,并对所获得的特征描述子进行筛选,根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使该每个候选区域中包含多个特征点。该方法还利用一个图片数据库训练得到一个分类器,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数,将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并对判断为文字区域的所述候选区域进行文字识别。
根据本发明的具体实施方式,该方法包括如下步骤:
步骤A、从待识别图像中提取特征点,并获得所述特征点的特征描述子,所述特征描述子是用于描述特征点的算子;
步骤B、对所获得的特征描述子进行筛选,筛除明显不包含在图像的文字区域中的特征点的特征描述子;
步骤C、根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使该每个候选区域中包含多个特征点,并且对某个候选区域中任意一个特征点,必存在属于这个候选区域的另一个特征点,使这两个特征点的距离小于其中一个特征点的尺度。
步骤D、利用一个图片数据库训练得到一个分类器,所述图片数据库中包括多个样本图像,并在所述样本图像中已对文字区域进行了标定,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数;
步骤E、将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并保留判断为文字区域的候选区域;
步骤F、对判断为文字区域的所述候选区域进行文字识别。
此外,本发明还提出一种与所述对应的装置,所述装置包括:
装置A、用于从待识别图像中提取特征点,并获得所述特征点的特征描述子,所述特征描述子是用于描述特征点的算子;
装置B、用于对所获得的特征描述子进行筛选,筛除明显不包含在图像的文字区域中的特征点的特征描述子;
装置C、根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使该每个候选区域中包含多个特征点,并且对某个候选区域中任意一个特征点,必存在属于这个候选区域的另一个特征点,使这两个特征点的距离小于其中一个的尺度。
装置D、用于利用一个图片数据库训练得到一个分类器,所述图片数据库中包括多个样本图像,并在所述样本图像中已对文字区域进行了标定,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数;
装置E、用于将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并保留判断为文字区域的候选区域;
装置F、用于对判断为文字区域的所述候选区域进行文字识别。
(三)有益效果
本发明可以在低分辨率、模糊、强光照等困难的条件下检测不同大小、颜色、字体、语言的文字。
本发明所提取的特征描述子可以很好的结合具体应用,例如结合图像搜索引擎可以达到更好的效果。
本发明对文字的语言、笔画宽度没有要求。训练所得到的分类器也可以在多语言的情况下使用。
附图说明
图1是本发明的从图像中识别文字的方法的流程图;
图2是本发明的方法中对待识别图像进行特征点的提取和特征描述子的初步筛选的示意图,其中图2(a)是待识别的图像,图2(b)是获得的特征描述子的示意图,图2(c)是图2(b)的局部放大图,用来说明第一类干扰特征点,图2(e)是图2(b)的局部放大图,用来说明第二类干扰特征点,图2(e)是经过两步特征筛选得到的图;
图3是本发明的方法中筛选特征描述子的示意图,其中图3(a)是筛除第一类主方向基本平行的特征描述子的示意图,图3(b)是筛除第二类为尺度过大的特征描述子的示意图;
图4是本发明的方法的生长候选区域的流程图;
图5是本发明的方法的生长候选区域的示意图;
图6(a)是本发明的方法对图2(a)所示的图像进行候选区域生长的示意图,图6(b)是对图6(a)所示的候选区域进行分类的示意图;
图7是本发明的方法的组合文字区域的示意图;
图8是经过本发明的方法对图2(a)处理后得到的最终效果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
为了解决现有的从图像中识别文字的技术中出现的问题,本发明提出了一种可以从图像中稳健定位、检测以及识别文字的方法。图1为本发明的从图像中识别文字的方法的流程图。如图1所示,本发明的方法包括以下依次执行的步骤:
步骤A、从待识别图像中提取特征点,并获得特征点的特征描述子。所述特征描述子是用于描述特征点的算子。
特征点是图像中的能够反映图像特性的稳健的感兴趣点。现有技术中,可以利用Dog,Affine Hessia等算法寻找图像中的兴趣点。稳健指的是该点的特征描述子在一定程度的旋转和尺度变化下保持基本不变。特征点一般包括位置(图像坐标系下的(x,y)的值)、尺度、主方向等信息。特征描述子是用于描述特征点的算子。例如SIFT特征描述子包含了一个128维的向量用以描述特征点。
本发明首先在所要进行识别的图像中提取特征点,并获得这些特征点的特征描述子,如SIFT(Scale Invariant Feature Transform,尺度不变特征转换)特征描述子、SURF(Speeded Up Robust Feature,快速鲁棒性)特征描述子。本发明的实施例以SIFT特征描述子为例,但本发明不限于此,也可以使用其它特征描述子。
特征描述子的提取方法可以直接采用现有技术,例如先做DoG,形成梯度金子塔数组,在此数组中寻找的感兴趣点。用一个128维的向量描述感兴趣点的特性,在此不再赘述。
步骤B、根据特征点的尺度和位置等信息对所获得的特征描述子进行筛选,筛除明显不包含在图像的文字区域中的特征点的特征描述子。
步骤A所得到的特征点过多,其中包含大量无用的特征描述子,本步骤将从中快速筛除明显不是描述图像中文字区域的特征点的特征描述子,以加快后续步骤的处理速度和准确度。
下面参照图2对本发明的特征点的提取与特征描述子的筛选进行说明。
图2(a)为待识别的图像。在该图像的场景中,背景对文字区域的识别干扰较大。背景中有灌木,包括树枝和树叶;有波浪型的屋顶和铁栅栏;写有文字的木板之前有铁栅栏进行遮挡;文字本身也是倾斜的。传统的文字识别方法对于该类图像处理效果较差。
图2(b)是从图2(a)所示的图像中获得的SIFT特征点的结果示意图。在此,使用箭头来表示SIFT特征点。箭头的起点表示特征描述子所描述的特征点的位置,箭头的方向表示特征描述子的主方向,长度表示特征描述子的尺度。从图2(b)可以看出,步骤A获得的特征描述子较多,但是大部分都是和图像中的文字区域无关的干扰特征描述子。由图2(b)可见,其中有两类明显干扰的特征描述子需要快速去除。
第一类为主方向基本相互平行的多个特征描述子。这里所指的基本相互平行定义为多个特征描述子主方向相差小于π/4或大于3π/4。此种特征描述子所描述的特征点一般出现在长、直背景图像中,比如直屋檐、窗台、装饰物、装饰线、铁栅栏中。此类特征描述子参见图2(c)中对图2(a)的栅栏部分局部放大图。这类特征描述子的筛除方法如图3a所示,具体如下:
以一个待筛选的特征描述子d0所描述的特征点的位置为圆心,尺度为半径作圆C0。将所有位于该圆C0中的特征点的特征描述子以其主方向投影到一个具有8个小区间的统计直方图中。8个小区间将全角度区间[0,2π]平均分成8份。如果有超过2个小区间中有投影到的特征描述子,则保留d0,否则将d0作为干扰特征描述子被筛除。
第二类为尺度过大或者过小的特征描述子。这里所述的尺度过大或过小指的是尺度大于其附近的大部分特征描述子或者尺度小于其附近的大部分特征描述子。由于文字区域的尺度一般比较均一,尺度过大或过小的特征描述子一般是用以描述前景(例如文字)和背景(例如树木等)的关系。由于这种关系在背景改变时有极大的变化,无法稳健的描述前景的性质,所以需要筛除。参见图2(d)中对图2(a)的局部放大图。此类特征描述子筛除方法如图3b所示,具体如下:
以一个待筛选的特征描述子d1所描述的特征点的位置为圆心,尺度s1为半径作圆C1。可以得到位于在该圆C1内的n0个特征描述子(d1不计算在内)。不妨假设其中尺度小于s1×r1的特征描述子的个数为n1,尺度大于s1×r2的特征描述子个数为n2。其中r1和r2是用来定义尺度过大和过小的具体参数,r1<1、r2>1。r1和r2的变化会引起算法准确度的变化,r1,r2可以通过针对训练数据库中的随机抽取的一组图像(例如100幅)进行训练,通过找最佳准确率得到。如果(n1+n2)/n0大于某一阈值,则去除d1,否则保留d1。
实施以上步骤后所得结果参见图2(e)。此步骤平均可以去除70%的干扰特征描述子。
步骤C、根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使该每个候选区域中包含多个特征点,并且对某个候选区域中任意一个特征点,必存在属于这个候选区域的另一个特征点,使这两个特征点的距离小于其中一个的尺度。
图4是本发明的方法的生长候选区域的流程图。如图4和图5所示。我们定义已被包含在候选区域内的特征点为已生长特征点,未被包含在候选区域内的特征点为待生长特征点。本发明的候选区域生长方法包括如下步骤:
步骤C1、随机选取一个待生长特征点作为种子特征点。初始的候选区域仅包含此种子特征点。
步骤C2、将所有处于在该种子特征点影响范围内的特征点加入该候选区域。在此,特征点影响范围定义为以该特征点的位置为圆心,该特征点的尺度为半径的圆C2。
步骤C3、将所有位置处于该候选区域影响范围的特征点加入该候选区域。在此,区域影响范围定义为所有在区域中的特征点影响范围之和。
步骤C4、重复上述步骤C3,直到没有特征点可以加入该候选区域,此时,一个候选区域生长完成。
步骤C5、如果还有待生长特征点,则重复上述步骤C1至C4产生新的候选区域。
图5是本发明的方法的生长候选区域的示意图。如图5所示,以特征点①为圆心画圆,将特征点②加入该区域。再以特征点②画圆,将特征点③加入该区域。如此重复下去,直到没有符合条件的特征点可以加入该区域。对图2(a)中区域生长所得结果如图6(a)所示。生长出的区域(候选区域)将全部落在文字区域中或者落在非文字区域中。
根据之前的步骤所提取的特征点的位置和筛选的特征描述子和尺度信息,本步骤能够快速生长出候选区域。本发明的区域生长方式改变了传统的以像素为单位的生长方式。它的单位是特征点提取之后的特征点(keypoints),每一步生长的候选点也变成以这个特征点为圆心,特征点描述子的尺度为半径的圆内的所有特征点。经过这种区域生长出的候选区域拥有以下良好的性质:
a.整个候选区域覆盖于文字区域,或者整个候选区域不覆盖于文字区域;
b.候选区域包含的特征点较多(超过5个)。
由于这样的性质,候选区域中所有的特征点的集体判断的正确率会有大幅度地提高。
步骤D、利用一个图片数据库训练得到一个分类器,所述图片数据库中包括多个样本图像,并在所述样本图像中已对文字区域进行了标定,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数。
在训练过程中,图片数据库中的每幅样本图像通过与本发明的识别步骤中的步骤A和步骤B相同的步骤。即对图片数据库中的样本图像提取特征点,经过特征描述子的筛选之后,将已标定好的位于文字区域内的特征点的特征描述子作为正样本,其他特征描述子作为负样本进行训练,得到一个针对单个特征描述子的分类器。
为了计算表示候选区域为文字区域的可能性参数,首先需要对单个特征描述子给出一个表示其是否为描述文字区域的特征点的参数v。根据一种实施方式,可以设定v=1表示该特征描述子为文字区域的特征点的特征描述子,v=-1表示其为非文字区域的特征点的特征描述子。
在建立分类器之后,使用该分类器对候选区域中所有的特征描述子进行分类,即对于候选区域中所有的特征描述子给出v值。图6(b)是对图6(a)所示的候选区域进行分类的示意图。
根据上述设定,我们可以将表示候选区域为文字区域的可能性参数定义为该候选区域中所有特征描述子的参数v的平均值
Figure BDA00001881333500091
Figure BDA00001881333500092
越大,则其为文字域的可能性越大。
步骤E、将表示候选区域为文字区域的可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并保留是文字区域的候选区域。如果所述可能性参数大于确定的阈值,则判断为文字区域,否则判断为非文字区域。
在所述表示候选区域为文字区域的可能性参数与所述阈值进行比较之前,需要先设定该阈值的大小。本发明借鉴了OTSU的图像前景背景分割的方法,重新定义了其中的灰度级概率,使得OTSU可以应用在一维自适应求阈值的问题上。
具体来说,本发明对所述图片数据库中的所有图片,基于训练过程中筛选的特征描述子所描述的特征点进行候选区域生长,不妨假设生长出N个候选区域。用步骤D所定义的算法给出每一个候选区域的可能性参数
Figure BDA00001881333500093
i=1、2...N。
对于给定的N个一维数据
Figure BDA00001881333500094
为这列数据中的最大值,
Figure BDA00001881333500096
为这列数据中的最小值,将区域平均分成L个小区间,L根据阈值所需要的精度来定。将这N个一维数据投影到每个小区间中,并设每个小区间中投影的数据个数为ni,则有:
N = Σ i = 1 L n i P i = n i N , P i > 0 , Σ i = 1 L p i = 1
这样就将离散一维数据转化成了概率分布。候选区域有两类,文字区域和非文字区域。两类区域的
Figure BDA00001881333500102
有一定的可区分的概率分布。文字区域和非文字区域之间的方差越大,说明本发明所区分两类区域的
Figure BDA00001881333500103
差别越大,区分也就越成功。当部分文字区域错分为非文字区域,或者部分非文字区域错分为文字区域,都会导致两类差别变小。因此,使区域之间的方差最大的分割意味着错分概率最小。
根据以上原则,
Figure BDA00001881333500104
的阈值k*满足
Figure BDA00001881333500105
即阈值k* arg max k σ B 2 ( k ) , 其中1≤k≤L, σ B 2 ( k ) = [ μ T · ω ( k ) - μ ( k ) ] 2 ω ( k ) · [ 1 - ω ( k ) ] , ω ( k ) = Σ i = 1 k p i , μ ( k ) = Σ i = 1 k i · p i , μ T = μ ( L ) = Σ i = 1 L i · p i .
当确定了可能性参数
Figure BDA000018813335001011
的阈值之后,将每个候选区域的可能性参数
Figure BDA000018813335001012
与该阈值进行比较,如果所述可能性参数
Figure BDA000018813335001013
大于该阈值,则判断为文字区域,否则判断为非文字区域。
步骤F、对判断为文字区域的所述候选区域进行文字识别。
以上步骤获得的文字区域还需要通过组合生成最终的文字行。本发明通过文字区域的颜色特征及其位置,将属于同一个文字行的文字区域组合起来,形成一个文字块。组合之后的文字块可能包含多个文字行,此时可以根据实际应用需要用改进的投影法分开各个文字行。故本发明的文字识别步骤包括组合文字区域和划分文字行的步骤。
(1)组合文字区域
本步骤根据如下的标准组合文字区域生成最终文字:
a.组合的文字区域以线性排布;
b.组合的文字区域相互之间距离不能超过其区域影响范围;
c.组合的文字区域的颜色特征接近;
所述文字区域影响范围定义为能覆盖该区域所有表示特征描述子的箭头的最小矩形。图7为组合文字区域的示意图,参见图7,其中实线矩形框表示生长出来的区域,虚线矩形框表示区域影响范围,影响范围重叠的区域需要合并。表示特征描述子的箭头定义为起点位于特征描述子的位置,方向为描述子的主方向,长度为描述子的尺度。
(2)划分文字行
此步骤在本发明中是可选的,用户可以根据需要选择是否本步骤。划分的方法可以通过投影法区分前景和背景。前景和背景的分离可以使用前面所述的自适应阈值确定法。区分前景和背景的方法为前景部分会包含更多的文字特征点。最后将区分好的前景组成文字行。
在已经准确提取了文字区域的基础上,现有的文字识别技术(OCR)可以准确顺利的进行文字识别。本发明的提取文字区域的方法可以极大增加现有文字识别技术的准确率,使其能在复杂自然场景中进行的文字识别。
本发明可以结合多种应用,包括路标识别和导航、图片检索。在用于路标识别时,分类器可在只包含路标为文字信息的图片数据库中进行训练,以加强对路标的识别率,同时减少对非路标文字的识别。在应用于图像搜索引擎技术中时,在实施识别步骤之前,需要在图片数据库进行训练。
本发明可以在复杂场景图像中以很高的判断准确率分离文字描述子和非文字描述子(对单个描述子的判断准确率达到了82%以上)。背景和前景越复杂,能提取到越多的特征描述子,特征描述子在文字和非文字区域的区分度也越高。由于很多种特征描述子(如SIFT)有尺度和旋转不变性,可以处理文字在图像中的可能的倾斜和大小变化。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种从图像中识别文字的方法,所述图像是包括多个像素点的电子图像,所述方法对图像中的文字区域进行定位并对文字区域中的文字进行识别,其特征在于,所述方法包括如下步骤:
步骤A、从待识别图像中提取特征点,并获得所述特征点的特征描述子,所述特征描述子是用于描述特征点的算子;
步骤B、对所获得的特征描述子进行筛选,筛除明显不包含在图像的文字区域中的特征点的特征描述子;
步骤C、根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使该每个候选区域中包含多个特征点,并且对于某个候选区域中任意一个特征点,必然存在属于这个候选区域的另一个特征点,使这两个特征点的距离小于其中一个特征点的尺度。
步骤D、利用一个图片数据库训练得到一个分类器,所述图片数据库中包括多个样本图像,并在所述样本图像中已对文字区域进行了标定,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数;
步骤E、将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并保留判断为文字区域的候选区域;
步骤F、对判断为文字区域的所述候选区域进行文字识别。
2.如权利要求1所述的从图像中识别文字的方法,其特征在于,
在步骤B中,筛除不包含在图像的文字区域中的特征点的特征描述子的步骤为:以一个待筛选的特征描述子所描述的特征点的位置为圆心,该特征描述子的尺度为半径作圆。将所有在该圆中的特征点的特征描述子以其主方向投影到一个具有8个小区间的统计直方图中,所述8个小区间将全角度区间[0,2π]平均分成8份,如果有超过2个小区间中有投影到的特征描述子,则保留该特征描述子,否则筛除该特征描述子。
3.如权利要求1所述的从图像中识别文字的方法,其特征在于,
在步骤B中,筛除不包含在图像的文字区域中的特征点的特征描述子的步骤为:以一个待筛选的特征描述子所描述的特征点的位置为圆心,该特征描述子的尺度s1为半径作圆,得到位于在该圆内的除了该待筛选的特征描述子的n0个特征描述子,如果(n1+n2)/n0大于一个阈值,则筛除该特征描述子,否则保留该特征描述子,其中n1、n2分别为尺度小于s1×r1和大于s1×r2的特征描述子的个数,其中r1和r2是用来定义尺度过大和过小的具体参数,且满足r1<1、r2>1。
4.如权利要求1所述的从图像中识别文字的方法,其特征在于,
步骤C包括如下步骤:
步骤C1、随机选取一个待生长特征点作为种子特征点;
步骤C2、将所有处于在该种子特征点影响范围内的特征点加入该候选区域,所述特征点影响范围是以特征点的位置为圆心,特征点的尺度为半径的圆;
步骤C3、将所有位置处于该候选区域影响范围的特征点加入该候选区域,所述区域影响范围是指在区域中的所有特征点的特征点影响范围之和;
步骤C4、重复上述步骤C3,直到没有特征点可以加入该候选区域。
5.如权利要求1所述的从图像中识别文字的方法,其特征在于,
在步骤D中,在训练所述分类器时,对所述图片数据库中的每幅样本图像执行步骤A和步骤B相同的步骤。
6.如权利要求5所述的从图像中识别文字的方法,其特征在于,在步骤D中,所述表示候选区域为文字区域的可能性参数为该候选区域中所有特征描述子的参数v的平均值
Figure FDA00001881333400021
,其中v=1表示该特征描述子为文字区域的特征点的特征描述子,v=-1表示该特征描述子为非文字区域的特征点的特征描述子。
7.如权利要求6所述的从图像中识别文字的方法,其特征在于,在步骤E中,所述阈值
Figure FDA00001881333400022
1≤k≤L其中 σ B 2 ( k ) = [ μ T · ω ( k ) - μ ( k ) ] 2 ω ( k ) · [ 1 - ω ( k ) ] , ω ( k ) = Σ i = 1 k p i , μ ( k ) = Σ i = 1 k i · p i , μ T = μ ( L ) = Σ i = 1 L i · p i , N = Σ i = 1 L n i p i = n i N , p i > 0 , Σ i = 1 L p i = 1 , 其中L为对区域
Figure FDA00001881333400032
平均划分成小区间的个数,
Figure FDA00001881333400033
为所述每个候选区域的平均值
Figure FDA00001881333400034
的最小值,
Figure FDA00001881333400035
为所述每个候选区域的平均值
Figure FDA00001881333400036
的最大值,ni为每个小区间中投影的数据个数,i为自然数,如果所述可能性参数大于所述阈值,则判断候选区域为文字区域,否则判断为非文字区域。
8.如权利要求1所述的从图像中识别文字的方法,其特征在于,
在步骤F中,通过对所述文字区域的颜色特征及其位置,将属于同一个文字行的文字区域组合起来,形成文字块。
9.如权利要求8所述的从图像中识别文字的方法,其特征在于,
在步骤F中,当组合之后的所述文字块包含多个文字行时,对多个行进行划分。
10.一种从图像中识别文字的装置,所述图像是包括多个像素点的电子图像,所述装置对图像中的文字区域进行定位并对文字区域中的文字进行识别,其特征在于,所述装置包括:
装置A、用于从待识别图像中提取特征点,并获得所述特征点的特征描述子,所述特征描述子是用于描述特征点的算子;
装置B、用于对所获得的特征描述子进行筛选,筛除明显不包含在图像的文字区域中的特征点的特征描述子;
装置C、根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使该每个候选区域中包含多个特征点,并且对于某个候选区域中任意一个特征点,必然存在属于这个候选区域的另一个特征点,使这两个特征点的距离小于其中一个特征点的尺度。
装置D、用于利用一个图片数据库训练得到一个分类器,所述图片数据库中包括多个样本图像,并在所述样本图像中已对文字区域进行了标定,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数;
装置E、用于将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并保留判断为文字区域的候选区域;
装置F、用于对判断为文字区域的所述候选区域进行文字识别。
11.如权利要求10所述的从图像中识别文字的装置,其特征在于,
用于筛除不包含在图像的文字区域中的特征点的特征描述子的装置B用于:以一个待筛选的特征描述子所描述的特征点的位置为圆心,该特征描述子的尺度为半径作圆。将所有在该圆中的特征点的特征描述子以其主方向投影到一个具有8个小区间的统计直方图中,所述8个小区间将全角度区间[0,2π]平均分成8份,如果有超过2个小区间中有投影到的特征描述子,则保留该特征描述子,否则筛除该特征描述子。
12.如权利要求10所述的从图像中识别文字的装置,其特征在于,
用于筛除不包含在图像的文字区域中的特征点的特征描述子的装置B用于:以一个待筛选的特征描述子所描述的特征点的位置为圆心,该特征描述子的尺度s1为半径作圆,得到位于在该圆内的除了该特筛选的特征描述子的n0个特征描述子,如果(n1+n2)/n0大于一个阈值,则筛除该特征描述子,否则保留该特征描述子,其中n1、n2分别为尺度小于s1×r1和大于s1×r2的特征描述子的个数,其中r1和r2是用来定义尺度过大和过小的具体参数,且满足r1<1、r2>1。
13.如权利要求10所述的图像中识别文字的装置,其特征在于,
装置C用于:
C1、随机选取一个待生长特征点作为种子特征点;
C2、将所有处于在该种子特征点影响范围内的特征点加入该候选区域,所述特征点影响范围是以特征点的位置为圆心,特征点的尺度为半径的圆;
C3、将所有位置处于该候选区域影响范围的特征点加入该候选区域,所述区域影响范围是指在区域中的所有特征点的特征点影响范围之和;
C4、重复C3,直到没有特征点可以加入该候选区域。
14.如权利要求10所述的从图像中识别文字的装置,其特征在于,
用于训练所述分类器的装置具有装置A和装置B相同的功能。
15.如权利要求14所述的从图像中识别文字的装置,其特征在于,在装置D中,所述表示候选区域为文字区域的可能性参数为该候选区域中所有特征描述子的参数v的平均值
Figure FDA00001881333400051
其中v=1表示该特征描述子为文字区域的特征点的特征描述子,v=-1表示该特征描述子为非文字区域的特征点的特征描述子。
16.如权利要求15所述的图像中定位文字区域和识别文字的装置,其特征在于,
在装置E中,所述阈值为1≤k≤L,其中 σ B 2 ( k ) = [ μ T · ω ( k ) - μ ( k ) ] 2 ω ( k ) · [ 1 - ω ( k ) ] , ω ( k ) = Σ i = 1 k p i , μ ( k ) = Σ i = 1 k i · p i , μ T = μ ( L ) = Σ i = 1 L i · p i , N = Σ i = 1 L n i p i = n i N , p i > 0 , Σ i = 1 L p i = 1 , 且其中L为对区域
Figure FDA00001881333400058
平均划分成小区间的个数,
Figure FDA00001881333400059
为所述每个候选区域的平均值
Figure FDA000018813334000510
的最小值,
Figure FDA000018813334000511
为所述每个候选区域的平均值
Figure FDA000018813334000512
的最大值,ni每个小区间中投影的数据个数,i为自然数,如果所述可能性参数大于所述阈值,则判断候选区域为文字区域,否则判断为非文字区域。
17.如权利要求10所述的从图像中识别文字的装置,其特征在于,
所述装置F用于根据所述文字区域的颜色特征及其位置,将属于同一个文字行的文字区域组合起来形成文字块。
18.如权利要求19所述的从图像中识别文字的装置,其特征在于,
所述装置F还用于:当组合之后的所述文字块包含多个文字行时,对多个行进行划分。
CN201210241520.2A 2012-07-12 2012-07-12 从自然场景图像中识别多言语、多字体文字的方法 Active CN102799879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210241520.2A CN102799879B (zh) 2012-07-12 2012-07-12 从自然场景图像中识别多言语、多字体文字的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210241520.2A CN102799879B (zh) 2012-07-12 2012-07-12 从自然场景图像中识别多言语、多字体文字的方法

Publications (2)

Publication Number Publication Date
CN102799879A true CN102799879A (zh) 2012-11-28
CN102799879B CN102799879B (zh) 2014-04-02

Family

ID=47198979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210241520.2A Active CN102799879B (zh) 2012-07-12 2012-07-12 从自然场景图像中识别多言语、多字体文字的方法

Country Status (1)

Country Link
CN (1) CN102799879B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942550A (zh) * 2014-05-04 2014-07-23 厦门大学 一种基于稀疏编码特征的场景文本识别方法
CN104050471A (zh) * 2014-05-27 2014-09-17 华中科技大学 一种自然场景文字检测方法及系统
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN106934386A (zh) * 2017-03-30 2017-07-07 湖南师范大学 一种基于自启发式策略的自然场景文字检测方法及系统
CN108304839A (zh) * 2017-08-31 2018-07-20 腾讯科技(深圳)有限公司 一种图像数据处理方法以及装置
CN108399405A (zh) * 2017-02-07 2018-08-14 腾讯科技(上海)有限公司 营业执照识别方法和装置
CN109711416A (zh) * 2018-11-23 2019-05-03 西安天和防务技术股份有限公司 目标识别方法、装置、计算机设备和存储介质
CN110135411A (zh) * 2019-04-30 2019-08-16 北京邮电大学 名片识别方法和装置
CN110276351A (zh) * 2019-06-28 2019-09-24 中国科学技术大学 多语言场景文本检测与识别方法
CN110378350A (zh) * 2019-07-23 2019-10-25 中国工商银行股份有限公司 一种文字识别的方法、装置及系统
CN110532855A (zh) * 2019-07-12 2019-12-03 西安电子科技大学 基于深度学习的自然场景证件图像文字识别方法
CN110781195A (zh) * 2019-08-19 2020-02-11 腾讯科技(深圳)有限公司 一种兴趣点信息更新的系统、方法和装置
CN111639639A (zh) * 2019-03-01 2020-09-08 杭州海康威视数字技术股份有限公司 检测文本区域的方法、装置、设备及存储介质
CN113536771A (zh) * 2021-09-17 2021-10-22 深圳前海环融联易信息科技服务有限公司 基于文本识别的要素信息提取方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615252A (zh) * 2008-06-25 2009-12-30 中国科学院自动化研究所 一种自适应图像文本信息提取方法
CN101751554A (zh) * 2008-12-10 2010-06-23 中国科学院自动化研究所 一种对互联网大麻图像进行的过滤方法
CN101819680A (zh) * 2010-05-12 2010-09-01 上海交通大学 图像匹配点对的检测方法
CN101833664A (zh) * 2010-04-21 2010-09-15 中国科学院自动化研究所 基于稀疏表达的视频图像文字检测方法
CN101866497A (zh) * 2010-06-18 2010-10-20 北京交通大学 基于双目立体视觉的智能三维人脸重建方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615252A (zh) * 2008-06-25 2009-12-30 中国科学院自动化研究所 一种自适应图像文本信息提取方法
CN101751554A (zh) * 2008-12-10 2010-06-23 中国科学院自动化研究所 一种对互联网大麻图像进行的过滤方法
CN101833664A (zh) * 2010-04-21 2010-09-15 中国科学院自动化研究所 基于稀疏表达的视频图像文字检测方法
CN101819680A (zh) * 2010-05-12 2010-09-01 上海交通大学 图像匹配点对的检测方法
CN101866497A (zh) * 2010-06-18 2010-10-20 北京交通大学 基于双目立体视觉的智能三维人脸重建方法及系统

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942550B (zh) * 2014-05-04 2018-11-02 厦门大学 一种基于稀疏编码特征的场景文本识别方法
CN103942550A (zh) * 2014-05-04 2014-07-23 厦门大学 一种基于稀疏编码特征的场景文本识别方法
CN104050471A (zh) * 2014-05-27 2014-09-17 华中科技大学 一种自然场景文字检测方法及系统
CN104050471B (zh) * 2014-05-27 2017-02-01 华中科技大学 一种自然场景文字检测方法及系统
CN105809164B (zh) * 2016-03-11 2019-05-14 北京旷视科技有限公司 文字识别方法和装置
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN108399405A (zh) * 2017-02-07 2018-08-14 腾讯科技(上海)有限公司 营业执照识别方法和装置
CN108399405B (zh) * 2017-02-07 2023-06-27 腾讯科技(上海)有限公司 营业执照识别方法和装置
CN106934386A (zh) * 2017-03-30 2017-07-07 湖南师范大学 一种基于自启发式策略的自然场景文字检测方法及系统
CN108304839A (zh) * 2017-08-31 2018-07-20 腾讯科技(深圳)有限公司 一种图像数据处理方法以及装置
CN108304839B (zh) * 2017-08-31 2021-12-17 腾讯科技(深圳)有限公司 一种图像数据处理方法以及装置
CN109711416A (zh) * 2018-11-23 2019-05-03 西安天和防务技术股份有限公司 目标识别方法、装置、计算机设备和存储介质
CN109711416B (zh) * 2018-11-23 2021-08-06 西安天和防务技术股份有限公司 目标识别方法、装置、计算机设备和存储介质
CN111639639A (zh) * 2019-03-01 2020-09-08 杭州海康威视数字技术股份有限公司 检测文本区域的方法、装置、设备及存储介质
CN111639639B (zh) * 2019-03-01 2023-05-02 杭州海康威视数字技术股份有限公司 检测文本区域的方法、装置、设备及存储介质
CN110135411B (zh) * 2019-04-30 2021-09-10 北京邮电大学 名片识别方法和装置
CN110135411A (zh) * 2019-04-30 2019-08-16 北京邮电大学 名片识别方法和装置
CN110276351B (zh) * 2019-06-28 2022-09-06 中国科学技术大学 多语言场景文本检测与识别方法
CN110276351A (zh) * 2019-06-28 2019-09-24 中国科学技术大学 多语言场景文本检测与识别方法
CN110532855A (zh) * 2019-07-12 2019-12-03 西安电子科技大学 基于深度学习的自然场景证件图像文字识别方法
CN110532855B (zh) * 2019-07-12 2022-03-18 西安电子科技大学 基于深度学习的自然场景证件图像文字识别方法
CN110378350A (zh) * 2019-07-23 2019-10-25 中国工商银行股份有限公司 一种文字识别的方法、装置及系统
CN110781195B (zh) * 2019-08-19 2021-03-12 腾讯科技(深圳)有限公司 一种兴趣点信息更新的系统、方法和装置
CN110781195A (zh) * 2019-08-19 2020-02-11 腾讯科技(深圳)有限公司 一种兴趣点信息更新的系统、方法和装置
CN113536771A (zh) * 2021-09-17 2021-10-22 深圳前海环融联易信息科技服务有限公司 基于文本识别的要素信息提取方法、装置、设备及介质
CN113536771B (zh) * 2021-09-17 2021-12-24 深圳前海环融联易信息科技服务有限公司 基于文本识别的要素信息提取方法、装置、设备及介质

Also Published As

Publication number Publication date
CN102799879B (zh) 2014-04-02

Similar Documents

Publication Publication Date Title
CN102799879B (zh) 从自然场景图像中识别多言语、多字体文字的方法
CN105373794B (zh) 一种车牌识别方法
Gllavata et al. A robust algorithm for text detection in images
CN103034848B (zh) 一种表单类型的识别方法
CN101937508B (zh) 一种基于高清图像的车牌定位与识别方法
CN103870803A (zh) 一种基于粗定位与精定位融合的车牌识别方法和系统
CN103310211B (zh) 一种基于图像处理的填注标记识别方法
CN101751568A (zh) 证件号码定位和识别方法
CN106529532A (zh) 一种基于积分特征通道与灰度投影的车牌识别系统
CN101122953A (zh) 一种图片文字分割的方法
CN107180230B (zh) 通用车牌识别方法
CN106709530A (zh) 基于视频的车牌识别方法
CN102024144A (zh) 集装箱箱号自动识别方法
CN101122952A (zh) 一种图片文字检测的方法
CN108509950B (zh) 基于概率特征加权融合的铁路接触网支柱号牌检测识别法
CN108154151B (zh) 一种快速多方向文本行检测方法
Leyk et al. Saliency and semantic processing: Extracting forest cover from historical topographic maps
CN109886168B (zh) 一种基于层阶的地面交通标志识别方法
CN116071763B (zh) 基于文字识别的教辅图书智能校编系统
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN101488182B (zh) 一种用于手写汉字识别的图像特征提取方法
Kumar et al. D-PNR: deep license plate number recognition
Sarkar et al. Suppression of non-text components in handwritten document images
Chowdhury et al. An adaptive technique for computer vision based vehicles license plate detection system
CN107392115B (zh) 一种基于分层特征提取的交通标志识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant