CN103077389B - 一种结合字符级分类和字符串级分类的文本检测和识别方法 - Google Patents

一种结合字符级分类和字符串级分类的文本检测和识别方法 Download PDF

Info

Publication number
CN103077389B
CN103077389B CN201310004707.5A CN201310004707A CN103077389B CN 103077389 B CN103077389 B CN 103077389B CN 201310004707 A CN201310004707 A CN 201310004707A CN 103077389 B CN103077389 B CN 103077389B
Authority
CN
China
Prior art keywords
character
string
character string
characters
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310004707.5A
Other languages
English (en)
Other versions
CN103077389A (zh
Inventor
白翔
姚聪
蔡超
刘文予
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201310004707.5A priority Critical patent/CN103077389B/zh
Publication of CN103077389A publication Critical patent/CN103077389A/zh
Application granted granted Critical
Publication of CN103077389B publication Critical patent/CN103077389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种结合字符级和字符串级分类的文本检测和识别方法,在图像中提取可能属于同一字符的像素集形成备选字符;滤除不满足字符几何特征统计规律的备选字符;采用基于字符旋转和尺度不变性特征的字符级分类器对备选字符分类,以确定备选字符为某字符的概率;将字符两两合并形成初始字符串;计算两两字符串间的相似度,将相似度最高的两字符串合并成新的字符串,直到没有可再合并的字符串;采用基于字符串结构特征的字符串级分类器对字符串分类,以确认具有语意的字符串;利用待识别字符为某一字符的概率对字符串识别,得到语意文本。本发明将文本检测和识别过程作为一个整体,利用检测和识别的相互作用提高结果精度,简单高效。

Description

一种结合字符级分类和字符串级分类的文本检测和识别方法
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种结合字符级分类和字符串级分类的文本检测和识别方法。
背景技术
在当今信息爆炸年代,运用计算机视觉技术从视觉信息(图片、视频等)中快速有效地分析和提取出有用信息变得越来越重要。文本检测和识别就是判断输入的自然场景图像中是否存在文本,如果存在,则标记其位置,然后对这些文本进行语意识别。自然图像中的文本检测和识别是计算机视觉技术领域中重要研究课题之一,有着广泛应用,例如机器人导航、图像检索、人机交互等。在过去的几十年里,文本检测和识别技术研究取得了长足进步,其主要有两类:一类是只进行文本检测或只进行文本识别;一种是将两者分开处理构成一个识别系统。但上述两类方法基本都集中在水平方向文本的检测和识别,其无法解决文本多样性问题和复杂背景问题。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种结合字符级分类和字符串级分类的文本检测和识别方法,该方法将文本检测和识别过程作为一个整体,利用检测和识别的相互作用提高结果精度,简单高效。
一种结合字符级和字符串级分类的文本检测和识别方法,包括以下步骤:
(1)依据字符的组成像素中相邻像素的笔画宽度相同或相近的规律,在输入图像中提取可能属于同一字符的像素集形成备选字符;
(2)滤除不满足字符几何特征统计规律的备选字符;
(3)采用基于字符旋转和尺度不变性特征的字符级分类器对步骤(2)保留的备选字符进行分类,以确定备选字符是否为字符以及为某字符的字符分布概率,记被确定为字符的备选字符为待识别字符;
(4)在步骤(3)确定的待识别字符中,将字符笔画宽度、尺度和颜色相同或相近以及间距小于两字符尺度之和的两字符进行合并,形成多个由两字符构成的初始字符串;计算两两字符串间的相似度,将相似度最高的两个字符串合并成一个新的字符串,重新计算合并后存在的两两字符串间的相似度,以此类推,直到没有可再合并的字符串,最终得到的字符串即为备选字符串;
(5)采用基于字符串结构特征的字符串级分类器对备选字符串进行分类,以确认具有实际语意的备选字符串为待识别字符串;
(6)利用步骤(3)得到的字符分布概率对待识别字符串进行识别,最终得到语意文本。
进一步地,所述步骤(2)中的字符几何特征统计规律具体为:字符c的宽度WV(c)变化范围为[0,1],高宽比AR(c)变化范围为[0.1,1],占空比OR(c)变化范围为[0.1,1],其中, WV ( c ) = σ ( c ) μ ( c ) , Ar ( c ) = min { w ( c ) h ( c ) , h ( c ) w ( c ) } , σ(c)为字符c的像素笔画宽度标准方差,μ(c)为字符c的像素笔画宽度均值,w(c)为字符c的宽度,h(c)为字符c的高度,q为字符c的组成像素个数。
进一步地,所述步骤(3)中基于字符旋转和尺度不变性特征的字符级分类器构建方法具体为:
(31)提取训练样本字符c的基本信息,包括重心o(c)、长轴L(c)、短轴l(c)以及方向θ(c),进而确定备选字符c的中心O(c)=o(c)、特征尺度S(c)=L(c)+l(c)和主方向Θ(c)=θ(c);
(32)提取训练样本字符的训练特征:首先,定义带参考方向的简略圆形特征模板和精细圆形特征模板;然后,基于上述模板定义旋转和尺度不变性特征,包括字符轮廓形状、字符边缘形状、字符占空比、字符轴比、字符宽度变化和字符密度;接着,将训练样本字符的中心分别与两特征模板中心重合,保持其主方向与对应特征模板的参考方向一致,并将训练样本字符缩放到对应特征模板的尺度;在对应特征模板中,将训练样本字符的梯度方向旋转Θ(c)角度并将其梯度方向归一化到[0,π],利用字符的基本信息计算六个方向的旋转和尺度不变性特征;最后,分别在每一个特征模板中,针对每一个方向,将模板中所有扇形区内字符的同一特征组合为一个特征描述子,最终得到轮廓形状描述子、边缘形状描述子、占空比描述子、轴比描述子、宽度变化描述子和密度描述子;
(33)利用训练样本字符的训练特征训练得到字符级分类器。
进一步地,所述步骤(4)中的相似度计算方法为:
相似度s(C1,C2)=w*so(C1,C2)+(1-w)*sp(C1,C2),
其中,
γ(C1,C2)表示字符串C1与C2的夹角,nC1和nC2分别表示C1和C2包含的字符数,参数w的取值范围[0,1]。
进一步地,所述步骤(5)中的字符串结构特征包括字符串的字符数量、概率均值、转角平均值、尺度变化、距离变化、方向偏差均值、轴比均值、密度均值、宽度变化均值、颜色自相似均值、结构自相似均值和自信度直方图。
进一步地,所述字符串的自信度直方图的定义为:
通过映射关系将备选字符xj为α的字符分布概率量化成字符集Ω的每个字符的索引值b,是向下取整函数;
包含m个字符xj的字符串自信度直方图其中,字符xj的自信度直方图 r x j ( b ) = Σ α 1 ( v x j ( α ) = b ) | Ω | .
进一步地,所述步骤(6)具体为:
对待识别字符串中的每一个待识别字符Si,其对应的个字符分布概率由大到小为最高字符分布概率对应的字符α1为待识别字符Si的候选字符;计算最高字符分布概率与它的其它字符分布概率的差值和均值,进一步计算差值与均值的比值的绝对值作为替换代价,若替换代价小于预定代价阈值,则将字符作为待识别字符Si的候选字符;
对待识别字符串中的所有待识别字符的候选字符进行组合,形成多个待定字符串;
采用字典对每个待定字符串进行查询,利用待定字符串中错误字符的个数与字符串长度的比值作为识别误差,选取识别误差最小的待定字符串对应的字典单词作为该字符串的语意,从而获得语意文本。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下的有益效果:
1、与将文本检测和识别分开或单独进行处理的技术相比,本发明运将文本检测和识别作过程为一个整体,共享相同的特征和分类器。
2、由于文本检测过程和识别过程共享相同的特征和分类器,使得特征和分类器可重复使用,因此,本发明更加简单有效。
3、与将文本检测和识别分开或单独进行处理的技术相比,由于本发明运将文本检测和识别作过程为一个整体,因此,本发明可以探索检测和识别的相互作用,且实验结果表明利用检测和识别的相互作用可以提高结果精度。
4、与现有集中在水平方向文本的检测和识别技术相比,本发明采用旋转、尺度不变性特征和顺序、倒序字典查询,可以检测和识别任意方向的文本。
5、本发明在整个文本检测和识别过程中,采用滤波器、字符级分类器、字符串级分类器对文本分层次的进行了多次过滤,能够保证结果的准确性。
附图说明
图1是本发明运用字符级分类器和字符串级分类器进行文本检测和识别的流程图。
图2是训练样本的示意图。
图3是特征模板的示意图。
图4是随机森林分类器的示意图。
图5是字符分布量化的示意图。
图6是字符串查询识别过程的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下首先就本发明的技术术语进行解释和说明:
本发明运用字符级分类器和字符串级分类器的文本检测和识别方法的基本技术思路为:提取待检测物体的组件,利用字符级分类器对组件进行检测和识别,得到备选字符,采用连接规则对这些备选字符进行合并组成字符串,然后通过字符串级分类器排除伪字符串,获得真正的字符串,最后对字符串进行识别,输出具有语意的文本。
训练图像:用于训练分类器的输入图像,本方法中为包含随机字符的正样本合成图像和不包含字符的负样本自然图像。
字符级分类器:能够检测定位和识别单个备选字符(组件)的分类器。
字符串级分类器:能够判断备选字符串是否为单词或句子、重复图样、杂图的分类器。
启发式:是在有限的搜索空间内,大大减少尝试的数量,快速解决问题。
数量一致性:用来衡量两个字符串包含共同的字符的程度。
方向一致性:用来衡量两个字符串方向的相同程度。
轮廓形状:是组件c轮廓上像素的梯度统计直方图。
边缘形状:是扇形区所有像素的梯度统计直方图。
占空比:是扇形区内组件c的面积和扇形区总面积之比。
轴比:是组件c的长轴L(c)与短轴之l(c)比:XR(c)=L(c)/l(c)。
宽度变化:是组件c的标准方差σ(c)和平均值μ(c)之比:WV(c)=σ(c)/μ(c)。
密度:是组件c的像素个数q和特征面积π*S2(c)之比:
D(c)=q/(π*S2(c))。
字符数量:是字符串中包含的字符数量。
概率均值:是字符串C(ci,i=1,2,...,n)中所有字符概率(p(ci),i=1,2,...,n)的平均值。
转角平均值:是字符串C(ci,i=1,2,...,n)中字符间转角的均值,字符ci-1和ci+1之间的转角是直线的夹角,O(ci-1)是字符ci-1的中心,O(ci+1)是字符ci+1的中心。
尺度变化:是字符串中字符尺度变化。
距离变化:是字符串C(ci,i=1,2,...,n)中相邻字符间的距离变化,相邻字符的距离是指它们中心O(ci-1)和O(ci)的距离。
方向偏差均值:是字符串中所有字符方向与字符串方向的家教平均值。
轴比均值:是字符串中所有字符轴比的平均值。
密度均值:是字符串中所有字符密度的平均值。
宽度变化均值:是字符串中所有字符宽度的平均值。
颜色自相似均值:是两字符串颜色统计直方图的余弦相似值。
结构自相似均值:是两字符串边缘形状描述子的余弦相似值。
如图1所示,本发明运用字符级分类器和字符串级分类器进行文本检测和识别方法包括以下步骤:
(1)在输入图像中提取备选字符;
此步骤是依据字符的组成像素中相邻像素的笔画宽度相同或相近的规律,将输入图像转换成边缘图,计算边缘图中每一个像素的笔画宽度值,若两相邻像素的笔画宽度值之比小于预定第一阈值,则该两相邻像素可能属于同一字符的组成像素,以此类推,得到可能属于同一字符的像素集形成备选字符。具体而言,包括以下步骤:
(1-1)将输入图像转换成边缘图;
本发明优选采用简洁高效的Canny算子对输入图像进行边缘检测,获得相应的边缘图。
(1-2)计算边缘图中每一个像素的笔画宽度值;
对于边缘图的每一边缘像素p,沿着其梯度方向dp找到另一个边缘像素q,若边缘像素p的梯度方向dq与边缘像素q的梯度方向dp满足关系dq=dp±θ,0≤θ≤π/3,推荐值为π/6。则计算边缘像素p和q之间的欧氏距离将其作为笔画宽度值赋予分布在线段[p,q]上的所有像素;
若边缘图存在拥有多个笔画宽度值的像素p′,则说明该像素位于转角处,计算边缘图中所有像素笔画宽度值的均值,将该均值更新为拥有多个笔画宽度值的像素的笔画宽度。
(1-3)利用笔画宽度值比较结果连接像素,形成备选字符。
像素连接规则是:如果两相邻像素的笔画宽度值之比z小于阈值时,即可连接该两像素。本发明实例采用的是:z=大笔画宽度值/小笔画宽度值,该阈值取值范围为[2.5,3.5],本发明推荐值3.0。
(2)滤除不满足字符几何特征统计规律的备选字符;
本步骤中的滤波采用可以快速计算的启发式规则,即字符的几何特征统计规律,对备选字符进行过滤。
字符的基本几何信息包括;宽度w(c)、高度h(c)、像素个数q、笔画宽度均值μ(c)、笔画宽度标准方差σ(c)。
字符c的几何特征统计规律为:字符c的宽度WV(c)变化范围为[0,1],高宽比AR(c)变化范围为[0.1,1],占空比OR(c)变化范围为[0.1,1],其中, WV ( c ) = σ ( c ) μ ( c ) , Ar ( c ) = min { w ( c ) h ( c ) , h ( c ) w ( c ) } , OR ( c ) = q w ( c ) * h ( c ) , σ(c)为字符c的像素笔画宽度标准方差,μ(c)为字符c的像素笔画宽度均值,w(c)为字符c的宽度,h(c)为字符c的高度,q为字符c的组成像素个数。
若备选字符满足上述的所有条件,则保留该备选字符,否则该备选字符为非文本文件滤除。
(3)采用基于字符旋转和尺度不变性特征的字符级分类器对步骤(2)保留的备选字符进行分类,以确定备选字符是否为字符以及为某字符的概率,记被确定为字符的备选字符为待识别字符;
本步骤采用事先训练好的基于字符旋转和尺度不变性特征的字符级分类器对备选字符进行过滤,用来过滤难辨别的伪字符。字符级分类器采用能够抓住文本字符和非文本字符之间几何特性、纹理特性区别的字符级特征进行训练,这些特征须具有尺度不变性、旋转不变性和计算复杂度小等特点。
字符级分类器需要事先训练。首先设计合理的训练特征,这些特征必须具有尺度不变性、旋转不变性和计算复杂度小等特点;其次构造合理的分类器,并进行训练和测试。具体包括以下子步骤:
(S1)获取字符的基本信息;
将字符图当作分布图,采用Camshift算法计算出组件c的重心o(c)、长轴L(c)、短轴l(c)以及方向θ(c)。
第一步,计算分布图I(x,y)的零阶矩阵M00
M 00 = Σ x Σ y I ( x , y )
第二步,计算分布图I(x,y)的一阶矩阵M10和M01
M 10 = Σ x Σ y xI ( x , y )
M 01 = Σ x Σ y yI ( x , y )
由此,可得字符c的重心坐标x(c)和y(c),
x ( c ) = M 10 M 00 , y ( c ) = M 01 M 00
第三步,计算分布图I(x,y)的二阶矩阵M20和M02
M 20 = Σ x Σ y x 2 I ( x , y )
M 02 = Σ x Σ y y 2 I ( x , y )
由此,可得字符c的θ(c),
θ ( c ) = arctan ( 2 ( M 11 M 00 - x c y c ) ( M 20 M 00 - x c 2 ) - ( M 02 M 00 - y c 2 ) ) 2
用a代替用b代替用d代替由此可得长轴L(c)和短轴l(c),
L ( c ) = ( a + d ) + b 2 + ( a - d ) 2 2
l ( c ) = ( a + d ) - b 2 + ( a - d ) 2 2
进而得到字符c的中心O(c)=o(c)、特征尺度S(c)=L(c)+l(c)和主方向Θ(c)=θ(c)。
(S2)获取样本字符的训练特征;
首先,定义两个带参考方向的具有尺度和旋转不变性的圆形特征模板:简略模板和精细模板(如图3所示,(a)是两个特征模板,黑色箭头代表参考方向,(b)是对齐到模板中的字符,(c)是轮廓形状,(d)是边缘形状,(e)是占空比),由图3中(a)可以看出,精细模板将模板圆划分得更精细。
然后,基于上述模板定义旋转和尺度不变性特征,包括轮廓形状、边缘形状、占空比、轴比、宽度变化、密度。接着,将字符c的中心分别与两特征模板中心重合,保持其主方向与对应特征模板的参考方向一致,并将字符c缩放到对应特征模板的尺度;在对应特征模板中,将字符c的梯度方向旋转Θ(c)角度并将其梯度方向归一化到[0,π],利用字符的基本信息计算六个方向的特征,包括字符轮廓形状、字符边缘形状、字符占空比、字符轴比、字符宽度变化和字符密度;最后,在每一个特征模板中,针对每一个方向,将模板中所有扇形区内字符的同一特征组合为一个特征描述子,最终得到轮廓形状描述子、边缘形状描述子、占空比描述子、轴比描述子、宽度变化描述子和密度描述子。
(S3)训练和测试字符级分类器。
此步骤可采用随机森林、神经网络、支持向量机(SVM)、Adboost等分类方法构建字符级分类器。本发明优选随机森林(RandomForests)(参见L.Breiman在期刊《MachineLearning》上的论文《Randomforests》)作为文本组件检测识别分类器,下面详细说明。
在训练过程中,将计算出的字符分布直方图存储到每一个正样本叶子点(如图4所示,n表示树的数目,颜色最暗、赋有直方图且没有下一级分支的圆代表正样本叶子点,即该点内所有样本都是文本部件;颜色最暗、无直方图且没有下一级分支的圆代表负样本叶子点,即该点内所有样本都不是文本部件;颜色偏浅且有下一级分支的圆代表树的节点,其中有且只有下一级分支的节点表示树的根节点。每一级分支表示一个层次,根节点的层次最低。每个正样本叶子点的字符分布直方图由该叶子点内样本计算得到)。包括以下子步骤:
(S3-1)准备训练样本;
训练样本图像包括正、负样本,正样本是包含字符串的合成图片,每个字符串由2到12个随机字符组成,负样本是不含任何文本的自然图片,如图2所示。训练样本对象是单个字符,每个训练样本xi配置两个标记:显性标记和隐性标记显性标记表示训练样本xi是否文本组件。若xi是文本组件,则是xi的字符索引;否则,是无效标记,由*代替。
y i h = α i ( y i v = 1 ) * ( y i v ≠ 1 )
其中,αi∈Ω是xi的字符索引,Ω是字符表。本发明推荐英文字母(52个)和阿拉伯数字(10个),因此Ω={a,...,z;A,...,Z;0,...,9}且|Ω|62。
(S3-2)训练字符级分类器;
显性标记用于区分树的节点,隐性标记用于计算正样本叶子点的字符分布直方图。在训练过程中,通过不断选择具有强区分性的特征描述子,完成随机森林分类器的构建。树中的每个节点存储一个具有强区分性的特征描述子,叶子点不存储特征描述子。节点中存储的特征描述子的区分性强度随着节点层次的增加而减小,因此,根节点存储的特征描述子的区分性最强。正样本叶子点l包含nl个正样本,字符分布直方图hl(α)为
h l ( α ) = Σ k = 1 n l 1 ( y k h = α ) n l , α ∈ Ω
其中,1(□)是指示函数,如果括号里的条件为真,指示函数值为1,否则为0。
(S3-3)测试字符级分类器。
将输入图像中通过第一次滤波保留下来的备选字符的特征描述子输入字符级分类器,根据其到达字符级分类器叶子节点的情况,计算出备选字x的两个概率,即备选字符x是字符的概率p(x)和备选字符x是某一字符α的概率qx(α),α∈Ω,Ω为字符集。
其中表示叶子点,T是随机森林分类器中树的数量,是判断叶子点是否为正样本叶子点的函数。
是叶子点lx,t预测文本组件x是字符α的响应。
其中,|Ω|为字符集Ω的字符数量。
(4)根据特定的规则对备选字符进行合并,组成备选字符串;
对保留的备选字符进行合并,组成可能具有实际语义的备选字符串。直接将备选字符连接成串的难度非常大,也没有明显的规律可循。因此,本发明提出了一种从易到难的方法对字符进行合并:首先采用启发式规则对备选字符初始化操作,将备选字符进行两两合并,组成字符串;然后采用贪婪算法,依据相似度对字符串进行合并,组成更长的字符串,直到没有可以合并的字符串为止。例如,在包含单词word的备选字符集中,首先得到初始化字符串wo、or、rd,然后对这三个字符串进行合并,可能得到字符串wor、ord,依据相似度最高合并原则并假设wo和or的相似度最高,于是得到wor,继续对wor和rd进行合并,得到word。
字符串的合并具体包括以下子步骤:
(4-1)将备选字符连接成对组成初始字符串;
备选字符连接成对的启发式规则:若两个字符有相似的笔画宽度(例如笔画宽度平均值之比小于2.0)、相似的尺度(例如大小之比不超过2.5)、相似的颜色以及足够接近(例如距离小于两字符尺度之和的2倍),则连接成对。上述比值采用的是大尺度与小尺度相比示意说明,具体恒量数值可根据多次试验结果调整确定。
(4-2)采用贪婪层次聚类算法对字符串进行合并。
其具体执行如下,依据两个字符串至少包含一个共同的字符(数量一致性sp(C1,C2))和字符串方向基本一致(方向一致性so(C1,C2))计算其相似度,然后将相似度最高的两个字符串合并,组成一个新的字符串,重复上述步骤,直到没有可以合并的字符串为止。
其中C1和C2表示两个不同的字符串,γ(C1,C2)表示C1和C2的夹角,nC1和nC2分别表示C1和C2包含的字符数。由此,可得到C1和C2的相似度s(C1,C2)为
s(C1,C2)=w*so(C1,C2)+(1-w)*sp(C1,C2)
其中,w是一个可调参数,决定数量一致性和方向一致性的权重,范围[0,1],本专利推荐赋值0.5。
(5)采用基于字符串结构特征的字符串级分类器对备选字符串进行分类,以确认具有实际语意的备选字符串为待识别字符串。
字符串级分类器需要事先训练。同样,首选设计合理的训练特征,这些特征须抓住字符串和伪字符串之间的区别;其次构造合理的分类器,并进行训练和测试。具体包括以下子步骤:
(T1)获取字符串的训练特征;
首先定义字符串结构特征,包括字符串的字符数量、概率均值、转角平均值、尺度变化、距离变化、方向偏差均值、轴比均值、密度均值、宽度变化均值、颜色自相似均值、结构自相似均值和自信度直方图(如图5所示)。
其中,自信度直方图定义如下:通过映射关系将备选字符xj为α的概率量化成字符集Ω的每个字符的索引值b,是向下取整函数。备选字符xj的自信度直方图
r x j ( b ) = Σ α 1 ( v x j ( α ) = b ) | Ω |
包含m个备选字符xj的备选字符串C,其自信度直方图Rc(b)是其包含j的所有备选字符的自信度均值。
R c ( b ) = Σ j = 1 m r x j ( b ) m
然后,根据字符串中单个字符的特征信息,分别计算出上述字符串特征信息。
(T2)构造、训练并测试字符串级分类器;
同字符级分类器一样,本发明采用随机森林(RandomForests)作为字符串级分类器(如图4所示)。包括以下子步骤:
(T2-1)准备训练样本;
训练样本图像与字符级分类器的训练样本图像一致,如图2所示,训练对象是字符串,每个训练样本xi配置显性标记yi,表示训练样本xi是否字符串。
(T2-2)训练字符串级分类器;
显性标记yi用于区分树的节点,训练过程与字符级分类器训练一致,得到的分类器中,树的每个节点存储一个强区分性字符串特征,叶子点存储训练样本。
(T2-3)测试字符串级分类器。
输入图像中经过滤波、连接操作而保留的备选字符串C(ci,i=1,...,n)是字符串的概率p(C)由两部分组成,备选字符串C(ci,i=1,...,n)是字符串的概率p(C)由两部分组成,备选字符串C中所有备选字符是字符的概率均值和备选字符串C是字符串的概率。p1(ci)表示字符级分类器计算出的每个备选字符概率,p(C)表示字符串级分类器计算出的备选字符串概率。
p ( C ) = ( Σ i = 1 n p 1 ( c i ) n + p 2 ( C ) ) / 2
其中p2(C)是随机森林分类器中正样本叶子点数量和树的数量之比。
如果备选字符串C的概率p(C)在范围[0.05,0.3]内,则视为伪字符串。在阈值大于阈值T的备选字符串中,若有多个字符串包含同一个字符,则保留概率值最高的字符串。
(6)利用步骤(3)得到的待识别字符为某一字符的概率对待识别字符串进行识别,最终得到语意文本。
对待识别字符串中的每一个待识别字符Si,其对应的个字符分布概率由大到小为最高字符分布概率对应的字符α1为待识别字符Si的候选字符;计算最高字符分布概率与它的其它字符分布概率的差值和均值,进一步计算差值与均值的比值的绝对值作为替换代价,若替换代价小于预定代价阈值,则将字符作为待识别字符Si的候选字符,代价阈值范围为[0,0.5],推荐值0.3;
对待识别字符串中的每一个待识别字符的候选字符进行组合,形成多个待定字符串;
采用字典对每个待定字符串进行查询,利用待定字符串中错误字符的个数与字符串长度的比值作为识别误差,选取识别误差最小的待定字符串对应的字典单词作为该字符串的语意,从而获得语意文本。
例如,字符串C包含两个字符c1和c2,c1是字符a的概率为0.345,是字符b的概率为0.342,是字符d的概率为0.221,c2是字符t的概率为0.265,是字符f的概率为0.243,并设定替换代价阈值为0.2。
c1是字符a概率最高,因此a是c1的候选字符;c1是字符b的概率为0.342与最高识别结果的概率0.345的差值为0.003、均值为0.3435,其替换代价约为0.009,小于阈值0.2,因此b为c1的候选字符;同样可以得到c1是字符d的替换代价约为0.359,大于阈值0.2,d被排除;针对字符c2采用同样的方法进行筛选,得到c2的候选字符为t,f。最终得到组合at、bt、af、bf,将这些组合输入到字典中进行查询,可得到at的识别误差为0,其它组合的识别误差均大于0。因此,字符串的语意为at。
其中字典由世界各国语言中的单词文字组成,推荐使用微软网页N-Gram服务提供的搜索次数最频繁的100000个单词构建字典。具体过程如图6所示。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种结合字符级和字符串级分类的文本检测和识别方法,包括以下步骤:
(1)依据字符的组成像素中相邻像素的笔画宽度相同或相近的规律,在输入图像中提取可能属于同一字符的像素集形成备选字符;
(2)滤除不满足字符几何特征统计规律的备选字符;
(3)采用基于字符旋转和尺度不变性特征的字符级分类器对步骤(2)保留的备选字符进行分类,以确定备选字符是否为字符以及为某字符的字符分布概率,记被确定为字符的备选字符为待识别字符;
(4)在步骤(3)确定的待识别字符中,将字符笔画宽度、尺度和颜色相同或相近以及间距小于两字符尺度之和的两字符进行合并,形成多个由两字符构成的初始字符串;计算两两字符串间的相似度,将相似度最高的两个字符串合并成一个新的字符串,重新计算合并后存在的两两字符串间的相似度,以此类推,直到没有可再合并的字符串,最终得到的字符串即为备选字符串;
(5)采用基于字符串结构特征的字符串级分类器对备选字符串进行分类,以确认具有实际语意的备选字符串为待识别字符串;
(6)利用步骤(3)得到的字符分布概率对待识别字符串进行识别,最终得到语意文本;
所述步骤(3)中基于字符旋转和尺度不变性特征的字符级分类器构建方法具体为:
(31)提取训练样本字符c的基本信息,包括重心o(c)、长轴L(c)、短轴l(c)以及方向θ(c),进而确定备选字符c的中心O(c)=o(c)、特征尺度S(c)=L(c)+l(c)和主方向Θ(c)=θ(c);
(32)提取训练样本字符的训练特征:首先,定义带参考方向的简略圆形特征模板和精细圆形特征模板;然后,基于上述模板定义旋转和尺度不变性特征,包括字符轮廓形状、字符边缘形状、字符占空比、字符轴比、字符宽度变化和字符密度;接着,将训练样本字符的中心分别与两特征模板中心重合,保持其主方向与对应特征模板的参考方向一致,并将训练样本字符缩放到对应特征模板的尺度;在对应特征模板中,将训练样本字符的梯度方向旋转Θ(c)角度并将其梯度方向归一化到[0,π],利用字符的基本信息计算六个方向的旋转和尺度不变性特征;最后,分别在每一个特征模板中,针对每一个方向,将模板中所有扇形区内字符的同一特征组合为一个特征描述子,最终得到轮廓形状描述子、边缘形状描述子、占空比描述子、轴比描述子、宽度变化描述子和密度描述子;
(33)利用训练样本字符的训练特征训练得到字符级分类器,具体为:(S3-1)准备训练样本;
训练样本图像包括正、负样本,正样本是包含字符串的合成图片,每个字符串由2到12个随机字符组成,负样本是不含任何文本的自然图片;训练样本对象是单个字符,每个训练样本xi配置两个标记:显性标记和隐性标记显性标记表示训练样本xi是否文本组件;若xi是文本组件,则是xi的字符索引;否则,是无效标记,由*代替;
y i h = α i ( y i v = 1 ) * ( y i v ≠ 1 )
其中,αi∈Ω是xi的字符索引,字符表Ω包括英文字母52个和阿拉伯数字10个,Ω={a,...,z;A,...,Z;0,...,9}且|Ω|=62;
(S3-2)训练字符级分类器:
显性标记用于区分树的节点,隐性标记用于计算正样本叶子点的字符分布直方图;在训练过程中,通过不断选择具有强区分性的特征描述子,完成随机森林分类器的构建;树中的每个节点存储一个具有强区分性的特征描述子,叶子点不存储特征描述子;正样本叶子点l包含nl个正样本,字符分布直方图hl(α)为
h l ( α ) = Σ i = 1 n l 1 ( y i h = α ) n l , α ∈ Ω
其中,是指示函数,如果括号里的条件为真,指示函数值为1,否则为0;
所述步骤(6)具体为:
对待识别字符串中的每一个待识别字符Si,其对应的zsi个字符分布概率由大到小为最高字符分布概率对应的字符α1为待识别字符Si的候选字符;计算最高字符分布概率与它的其它字符分布概率的差值和均值,进一步计算差值与均值的比值的绝对值作为替换代价,若替换代价小于预定代价阈值,则将字符αt,t∈[2,zsi]作为待识别字符Si的候选字符;
对待识别字符串中的所有待识别字符的候选字符进行组合,形成多个待定字符串;
采用字典对每个待定字符串进行查询,利用待定字符串中错误字符的个数与字符串长度的比值作为识别误差,选取识别误差最小的待定字符串对应的字典单词作为该字符串的语意,从而获得语意文本。
2.根据权利要求1所述的文本检测和识别方法,其特征在于,所述步骤(2)中的字符几何特征统计规律具体为:字符c的宽度WV(c)变化范围为[0,1],高宽比AR(c)变化范围为[0.1,1],占空比OR(c)变化范围为[0.1,1],其中, W V ( c ) = σ ( c ) μ ( c ) , A R ( c ) = m i n { w ( c ) h ( c ) , h ( c ) w ( c ) } , O R ( c ) = q w ( c ) * h ( c ) , σ(c)为字符c的像素笔画宽度标准方差,μ(c)为字符c的像素笔画宽度均值,w(c)为字符c的宽度,h(c)为字符c的高度,q为字符c的组成像素个数。
3.根据权利要求1所述的文本检测和识别方法,其特征在于,所述步骤(4)中的相似度计算方法为:
相似度s(C1,C2)=w*so(C1,C2)+(1-w)*sp(C1,C2),
其中,
γ(C1,C2)表示字符串C1与C2的夹角,nC1和nC2分别表示C1和C2包含的字符数,参数w的取值范围[0,1]。
4.根据权利要求1所述的文本检测和识别方法,其特征在于,所述步骤(5)中的字符串结构特征包括字符串的字符数量、概率均值、转角平均值、尺度变化、距离变化、方向偏差均值、轴比均值、密度均值、宽度变化均值、颜色自相似均值、结构自相似均值和自信度直方图。
5.根据权利要求4所述的文本检测和识别方法,其特征在于,所述字符串的自信度直方图的定义为:
通过映射关系将备选字符xj为α的字符分布概率量化成字符集Ω的每个字符的索引值b,是向下取整函数;
包含m个字符xj的字符串自信度直方图其中,字符xj的自信度直方图 r x j ( b ) = Σ α 1 ( v x j ( α ) = b ) | Ω | .
CN201310004707.5A 2013-01-07 2013-01-07 一种结合字符级分类和字符串级分类的文本检测和识别方法 Active CN103077389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310004707.5A CN103077389B (zh) 2013-01-07 2013-01-07 一种结合字符级分类和字符串级分类的文本检测和识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310004707.5A CN103077389B (zh) 2013-01-07 2013-01-07 一种结合字符级分类和字符串级分类的文本检测和识别方法

Publications (2)

Publication Number Publication Date
CN103077389A CN103077389A (zh) 2013-05-01
CN103077389B true CN103077389B (zh) 2016-08-03

Family

ID=48153913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310004707.5A Active CN103077389B (zh) 2013-01-07 2013-01-07 一种结合字符级分类和字符串级分类的文本检测和识别方法

Country Status (1)

Country Link
CN (1) CN103077389B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440472B (zh) * 2013-08-01 2016-08-10 西安交通大学 一种文字图像特征差异的快速计算方法
CN104050471B (zh) * 2014-05-27 2017-02-01 华中科技大学 一种自然场景文字检测方法及系统
CN104239879B (zh) * 2014-09-29 2017-11-07 小米科技有限责任公司 分割字符的方法及装置
CN105718926A (zh) * 2014-12-03 2016-06-29 夏普株式会社 一种文本检测的方法和装置
CN105005764B (zh) * 2015-06-29 2018-02-13 东南大学 自然场景多方向文本检测方法
CN106599900B (zh) * 2015-10-20 2020-04-21 华中科技大学 一种识别图像中的字符串的方法和装置
CN107368826B (zh) * 2016-05-13 2022-05-31 佳能株式会社 用于文本检测的方法和装置
CN107368830B (zh) * 2016-05-13 2021-11-09 佳能株式会社 文本检测方法和装置以及文本识别系统
CN106503634B (zh) * 2016-10-11 2020-02-14 讯飞智元信息科技有限公司 一种图像对齐方法及装置
CN108288061A (zh) * 2018-03-02 2018-07-17 哈尔滨理工大学 一种基于mser快速在自然场景中定位倾斜文本的方法
CN110858307B (zh) * 2018-08-24 2022-09-13 国信优易数据股份有限公司 字符识别模型训练方法及装置、识别字符的方法及装置
CN109214386B (zh) * 2018-09-14 2020-11-24 京东数字科技控股有限公司 用于生成图像识别模型的方法和装置
CN109359274B (zh) * 2018-09-14 2023-05-02 蚂蚁金服(杭州)网络技术有限公司 一种对批量生成的字符串进行识别的方法、装置及设备
CN111353016B (zh) * 2018-12-24 2023-04-18 阿里巴巴集团控股有限公司 文本处理方法及装置
CN109783811B (zh) * 2018-12-26 2023-10-31 东软集团股份有限公司 一种识别文本编辑错误的方法、装置、设备及存储介质
CN109766893A (zh) * 2019-01-09 2019-05-17 北京数衍科技有限公司 适于购物小票的图片文字识别方法
CN109886330B (zh) * 2019-02-18 2020-11-27 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机可读存储介质和计算机设备
CN110265104B (zh) * 2019-05-08 2022-04-29 长沙市中心医院 诊断报告符合度检测方法、装置、计算机设备和存储介质
CN110717492B (zh) * 2019-10-16 2022-06-21 电子科技大学 基于联合特征的图纸中字符串方向校正方法
CN110909161B (zh) * 2019-11-12 2022-04-08 西安电子科技大学 基于密度聚类和视觉相似度的英文单词分类方法
CN111444906B (zh) * 2020-03-24 2023-09-29 腾讯科技(深圳)有限公司 基于人工智能的图像识别方法和相关装置
CN113111238A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于正则表达式的极端行为识别方法与装置、设备及介质
US11514695B2 (en) * 2020-12-10 2022-11-29 Microsoft Technology Licensing, Llc Parsing an ink document using object-level and stroke-level processing
CN112801092B (zh) * 2021-01-29 2022-07-15 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN114387432A (zh) * 2022-01-13 2022-04-22 平安普惠企业管理有限公司 字符方向检测方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1571980A (zh) * 2001-10-15 2005-01-26 西尔弗布鲁克研究有限公司 字符串识别
CN101833648A (zh) * 2009-03-13 2010-09-15 汉王科技股份有限公司 文本图像的校正方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010277168A (ja) * 2009-05-26 2010-12-09 Fuji Xerox Co Ltd データ入力システム、データ入力受付装置及びプログラム
US8385652B2 (en) * 2010-03-31 2013-02-26 Microsoft Corporation Segmentation of textual lines in an image that include western characters and hieroglyphic characters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1571980A (zh) * 2001-10-15 2005-01-26 西尔弗布鲁克研究有限公司 字符串识别
CN101833648A (zh) * 2009-03-13 2010-09-15 汉王科技股份有限公司 文本图像的校正方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Detecting Texts of Arbitrary Orientations in Natural Images;Cong Yao 等;《Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference》;20120621;1083-1090 *

Also Published As

Publication number Publication date
CN103077389A (zh) 2013-05-01

Similar Documents

Publication Publication Date Title
CN103077389B (zh) 一种结合字符级分类和字符串级分类的文本检测和识别方法
CN108830188B (zh) 基于深度学习的车辆检测方法
Yu et al. Fully convolutional networks for surface defect inspection in industrial environment
CN106023220A (zh) 一种基于深度学习的车辆外观部件图像分割方法
CN107871144A (zh) 发票商品名分类方法、系统、设备及计算机可读存储介质
CN107368787A (zh) 一种面向深度智驾应用的交通标志识别算法
CN103106265B (zh) 相似图像分类方法及系统
CN105574550A (zh) 一种车辆识别方法及装置
CN109409384A (zh) 基于细粒度图像的图像识别方法、装置、介质及设备
CN109002834A (zh) 基于多模态表征的细粒度图像分类方法
Roy et al. Script identification from handwritten document
Obaidullah et al. A system for handwritten script identification from Indian document
CN105005764A (zh) 自然场景多方向文本检测方法
CN105760891A (zh) 一种中文字符验证码的识别方法
CN102156871A (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
Santiago-Bautista et al. Identification of filamentary structures in the environment of superclusters of galaxies in the Local Universe
CN109614484A (zh) 一种基于分类效用的文本聚类方法及其系统
CN112119397A (zh) 使用机器学习的管道及仪表流程图信息的分类
CN102024149B (zh) 物体检测的方法及层次型物体检测器中分类器的训练方法
CN103337248A (zh) 一种基于时间序列核聚类的机场噪声事件识别方法
Akhlaghi et al. Farsi handwritten phone number recognition using deep learning
CN113378962B (zh) 一种基于图注意力网络的服装属性识别方法与系统
CN106548195A (zh) 一种基于改进型hog‑ulbp特征算子的目标检测方法
CN110008899A (zh) 一种可见光遥感图像候选目标提取与分类方法
Abdo et al. An approach to analysis of Arabic text documents into text lines, words, and characters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant