CN1266643C - 基于阿拉伯字符集的印刷体字符识别方法 - Google Patents
基于阿拉伯字符集的印刷体字符识别方法 Download PDFInfo
- Publication number
- CN1266643C CN1266643C CN 200410009785 CN200410009785A CN1266643C CN 1266643 C CN1266643 C CN 1266643C CN 200410009785 CN200410009785 CN 200410009785 CN 200410009785 A CN200410009785 A CN 200410009785A CN 1266643 C CN1266643 C CN 1266643C
- Authority
- CN
- China
- Prior art keywords
- omega
- character
- chi
- centerdot
- sigma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000009466 transformation Effects 0.000 claims abstract description 41
- 238000006243 chemical reaction Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 239000000203 mixture Substances 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 79
- 238000007493 shaping process Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 39
- 238000005457 optimization Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 23
- 238000005520 cutting process Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 12
- 238000002474 experimental method Methods 0.000 claims description 11
- 238000013461 design Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 241000406668 Loxodonta cyclotis Species 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000002156 mixing Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000001149 cognitive effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000003696 structure analysis method Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
基于阿拉伯字符集的印刷体字符识别方法属于字符识别领域,其特征在于,提取阿拉伯字符集中字符独特的区域信息、字符形式信息、构成部件信息进行预分类,确定输入字符所属的字符类别子集,然后抽取能很好反映字符笔划构成信息的方向特征,在此基础上采用两个步骤进行特征优化处理:1.特征整形;2.由LDA(线性鉴别分析)和K-L变换相结合的特征变换,最后运用MQDF(改进的二次鉴别函数)统计分类器进行分类判决。本发明在多字体多字号维吾尔、哈萨克、柯尔克孜和阿拉伯印刷体字符测试集上的识别正确率均达到99.4%以上。
Description
技术领域
基于阿拉伯字符集的印刷体字符识别方法属于字符识别领域。
背景技术
我国的维吾尔、哈萨克、柯尔克孜等少数民族的文字采用阿拉伯字符集体系中的字符来书写,其文字构成规则与书写形式变化均与阿拉伯文相一致。因此,对维吾尔、哈萨克、柯尔克孜、阿拉伯等字符的识别可以运用统一的方法进行处理。在本发明中,把维吾尔、哈萨克、柯尔克孜、阿拉伯字符识别统称为基于阿拉伯字符集的字符识别。采用阿拉伯字符集书写的维吾尔、哈萨克、柯尔克孜、阿拉伯等文字均由30~40个基本字母构成。根据在词中出现的位置的不同,每个基本字母都有1-4种不同的书写形式——首写形式、中间形式、尾写形式、独立形式。于是,在实际文本中,30~40个基本字母就可以演化成100多个字符形式(图5)。基于阿拉伯字符集的文字行文方向为从右到左,字符前后相连形成一个或几个连体字符段,在连体段中,字符沿着基线相连(图6)。
维吾尔文、哈萨克文和柯尔克孜文是我国重要的少数民族文字,开展维吾尔、哈萨克、柯尔克孜字符识别技术研究是中文多文种信息处理系统发展的迫切需要。而以阿拉伯字符作为书写载体的阿拉伯语是世界上主要语言之一,使用人口超过3亿,阿拉伯字符识别系统具有迫切的现实需求和广泛的应用前景。目前,从总体上说,针对阿拉伯字符集的字符识别的研究要远远落后于其它广泛使用的文字(如拉丁字母、汉字、日文等)字符识别的研究,现有的主要方法可以分成两大类:
1.结构方法。对于给定的字符集,抽取数量有限的不可分割的最小子模式(基元),将这些基元按照特定的顺序和规则组合起来可以构成该字符集中的任何字符。这样,利用字符结构与语言之间的相似性,字符识别可以借助形式语言学的文法(包含了句法规则)来描述和剖析字符的结构。由于基于阿拉伯字符集的文本仅由30多个基本字母拼写而成,而且阿拉伯字符集中的字符笔划往往不多,结构不是非常复杂,所以按照拼音文字常用的方法,采用结构分析方法来识别字符,在理论上可期望得到非常高的识别率。迄今为止,绝大多数学者的研究均侧重于该类方法。但由于结构方法本身的局限性(易受各种噪声影响,鲁棒性不强)和阿拉伯字符集的特殊性(大量相似字符的存在),所以,此种方法的实际应用效果极不理想。
2.统计方法。抽取字符的统计特征,每个字符模式用一个特征向量表示,它被看成是特征空间中的一个点。识别的过程就是运用统计分类器在特征空间中将待识别字符模式正确地划分到所属的类别中。该方法具有抗噪性能好,可推广性强的优点。但如何选取简洁有效的特征来表示字符以及如何设计合理的分类器,是直接影响识别性能的关键环节。目前虽有少量基于统计方法的阿拉伯字符识别技术见诸文献,但选用的特征基本局限于矩特征,分类判决则采用象欧氏距离这样比较简单的准则。因为特征的局部刻画能力严重不足,又未能充分利用特征空间的高阶信息,现有统计方法的识别性能距离实用需求尚有不小差距。
字符笔划数少且笔划构成以弧线为主,笔划结构信息欠丰富且不易提取、字符集中相似字子集多,相似程度极高、字符宽度和高度都不具有一致性、字符左右边界存在不确定性、不同字体间字型差异大,某些字体接近手写草体、常用字号偏小等特点给基于阿拉伯字符集的字符识别研究带来了极大挑战。
本发明提出了一种基于统计模式识别方法针对阿拉伯字符集的多字体多字号印刷体字符识别的完整的方法。根据字符本身的特点(空间区域信息、字符形式、字符构成部件信息)进行预分类,提取方向特征,经特征优化处理,由修正二次鉴别函数完成分类判决,实现了高性能的基于阿拉伯字符集的印刷体字符识别方法,这是目前所有其他文献里都没有使用过的方法。
发明内容
本发明的目的在于实现一个多字体多字号的基于阿拉伯字符集的印刷体字符识别的方法。以单个印刷体字符作为处理对象,首先对字符对象进行预分类处理,确定其所属的字符类别子集,然后提取能很好反映字符特点的方向特征,再经过特征整形和LDA(线性鉴别分析)方法、K-L变换对特征进行优化,最后运用MQDF(改进的二次鉴别函数)统计分类器进行分类判决。由此,可以得到极高的单字识别正确率。根据该方法,实现了一个基于阿拉伯字符集的印刷体字符识别系统。
作为一个基于阿拉伯字符集的印刷体字符识别系统还包括单字样本的采集,即系统首先扫描输入印刷体维吾尔文、哈萨克文、柯尔克孜文或阿拉伯文的文本,采用自动的方式进行字符切分和字符预分类信息提取,得到单字符的训练样本库和相应的预分类信息集。利用预分类信息集,对字符全集进行初始划分,形成字符类别子集库;利用采集建立的训练样本数据库,进行方向特征的抽取和特征优化,得到训练样本的特征数据库。在训练样本的特征数据库的基础上,通过实验确定分类器的参数。对未知的输入字符样本,先对其进行预分类以确定其所属字符类别子集,然后采用同样的方法抽取特征,再送入分类器与特征库进行分类比较,从而判断输入字符的类别属性。
本发明由以下几部分组成:预分类、特征提取、特征优化、分类器设计。
1.预分类
预分类信息I:空间区域信息ZI(Zone Information)
因阿拉伯字符集中的字符的高度各不相同,在垂直方向上占据的空间区域也不一样。文本行的引线(Headline)和基线(Baseline)将空间区域在垂直方向上分为三个区,从上到下依次为:引线上方的上层区域(Upper Zone)、基线和引线之间的基准区域(Base Zone)、基线下方的下层区域(Lower Zone),如图7所示。
根据占据区域的不同,可将实际文本中出现的字符分为5种类型,通过对ZI赋予不同的数值来加以区分。ZI的5种合法取值对应于字符的5种类型,如下表所示:
表1 ZI的取值与对应的字符占据空间区域的关系
ZI | 字符占据的区域 |
1 | 上层区域 |
2 | 上层区域、基准区域 |
3 | 上层区域、基准区域、下层区域 |
4 | 基准区域 |
5 | 基准区域、下层区域 |
预分类信息II:字符形式信息FI(Form Information)
由于阿拉伯字符集中的基本字母在实际文本表现为4种字符形式:首写形式(InitialForm)、中间形式(Medial Form)、尾写形式(Final Form)和独立形式(Isolated Form),所以出现在实际文本中的每个字符必定为这4种字符形式中的一种。假设x为实际文本中的一个字符,判断其字符形式的准则为:
若x在其右侧不与其它字符直接相连,而在其左侧与其它字符直接相连,则x为首写形式字符,令FI=1表示;
若x在其右侧和左侧均与其它字符直接相连,则x为中间形式字符,令FI=2表示;
若x在其右侧与其它字符直接相连,而在其左侧不与其它字符直接相连,则x为尾写形式字符,令FI=3表示;
若x在其右侧和左侧均不与其它字符直接相连,则x为独立形式字符,令FI=4表示。
在以上准则中,两个字符“直接相连”是指这两个字符在基线位置处连结在一起,中间不存在空隙。
这样,根据字符形式信息,可将实际文本中出现的字符集划分为4个不同的子集。
预分类信息III:构成部件信息CI(Component Information)
对阿拉伯字符集中字符的连通性进行分析可知,字符可根据其部件的构成情况分成两类:
1)由主体部件和附加部件
重叠组成的字符,如图7中第1、2、5、7、12、13、15字符,令CI=1来表示;2)仅由
不可分割的部件构成的字符,令CI=2来表示,如图7中第3、4、6、8、9、10、11、14、16字符。根据部件信息,整个字符集可划分成2个子集。
基于上述分析,一组包含区域信息ZI、字符形式信息FI和字符构成部件信息CI的预分类信息可将整个待处理字符集Ω={ω1,ω2,…,ωc},c为字符集Ω中字符类别的数量,划分成5×4×2=40个字符类别子集Ωk,k=1,2,…,40,ck为字符类别子集Ωk中字符类别的数量,c和ck,k=1,2,…,40均为正整数,有
Ωm∩Ωn=_,m≠n
其中_表示空集。而且,划分子集后可使每个ck均远小于c。
将预分类信息表示为向量形式IPC=[ZI,FI,CI]T,其分量分别表示区域信息、字符形式信息和构成部件信息,记IPC Ωk和IPC ωm分别表示字符集合Ωk的预分类信息向量和单个字符类别ωm的预分类信息向量。由以上分析可知,每个字符子集Ωk均为具有完全相同的预分类信息的字符类别组成的集合,即:
_ωl,ωn∈Ωk,
对于输入未知类别的字符x,用IPC x表示其预分类信息向量,将IPC x与IPC Ωk比较可确定x所属的字符类别子集
其中‖·‖表示欧氏距离。
2.特征提取
2.1提取字符的轮廓
设原始二值字符图像为:
其中W为图像宽度,H为图像高度,图像位于第i行、第j列的象素点的值为B(i,j),i=0,1,…,H-1,j=0,1,…,W-1。采用双线性插值方法对[B(i,j)]H×W进行归一化处理得到高度为M、宽度为N的字符点阵图像:
假定字符图像其笔划所对应的点为黑象素点,用“1”表示、背景所对应的点为白象素点,用“0”表示,即:
其中δstroke和δbackground分别表示图像中由字符笔划对应的点和背景点所组成的点的集合。对于任意(i,j)∈δstroke,若其8邻域中既有白象素点又有黑象素点,则称该笔划象素点(i,j)为轮廓点。提取轮廓图像的方法是扫描整个字符点阵,对于某个位置的黑象素点,检测其8邻域中象素点的分布情况,如果它的8邻域中的黑象素个数和白象素个数均大于0,则保留该黑象素,否则将字符点阵在该位置的值改为0。这样,从归一化后的字符图像[G(i,j)]M×N就得到了其轮廓图像[Q(i,j)]M×N:
2.2象素特征分配
本发明采用12种基本方向特征元模板[R(k)(i,j)]3×3,k=1,2,…,12,来进行象素特征的分配,每个基本特征元模板大小均为3×3,如图10所示。将这12个模板分别作用于字符轮廓图像[Q(i,j)]M×N,得到字符的12个基本特征平面:
其中[P(k)(i,j)]M×N中的各元素P(k)(i,j),i=0,1,…,M-1,j=0,1,…,N-1,是[R(k)(i,j)]3×3与[Q(i,j)]M×N进行如下计算得到的:
2.3分块压缩
将每个M×N的基本特征平面[P(k)(i,j)]M×N,k=1,2,…,12均匀划分成高为u0、宽为v0的子区域(图11),每个子区域跟相邻的子区域之间在垂直方向有u1个象素的重合、在水平方向上有v1个象素的重合,故由每个M×N基本特征平面得到M′×N′个子区域,其中 将基本特征平面中每一个大小为u0×v0的子区域映射成
大小为M′×N′的平面上一个点,得到压缩特征平面为:
[E(k)(i,j)]M′×N′中各元素的值为:
式中Θ(k)(m,n),0≤m<u0,0≤n<v0为加权系数:
其中
2.4特征向量形成
将压缩特征平面[E(k)(i,j)]M′×N′,k=1,2,…,12中的各元素按照顺序排列成一个维数为d=12×M′×N′的向量X=[x0,x1,…,xd-1]T,就得到了表示输入字符的d维原始特征的向量X。
其中
it,jx,kt与t之间的关系为:
3.特征优化
特征维数的增大和训练样本的不足,将给分类器参数估计和识别计算量都带来很大的问题。根据一般的分类器设计经验,对训练样本的数目的要求是能够达到特征维数的10倍以上。为了减少过高的特征维数和训练样本的相对不足给分类器设计和参数估计带来的困难,本发明在将原始方向特征送入分类器进行字符类别判决前,对特征进行优化降维(图13)。
3.1特征整形
由于后续的LDA变换和MQDF分类器均以高斯分布为基础,提取的特征越接近高斯分布,系统识别性能就越好。为改善特征分布,使之更接近高斯分布,对原始特征向量X=[x0,x1,…,xd-1]T进行整形,得到新的特征向量Y=[y0,y1,…,yd-1]T,yt与xt之间的关系为:
其中α∈(0,1)为整形常数。
3.2特征变换
高维的特征向量Y包含很多冗余的信息。这些信息的存在不仅加大了计算的开销,而且会干扰字符识别的结果,本发明采用LDA(线性鉴别分析)和K-L变换的混合变换矩阵对Y进行特征变换,尽可能去除冗余信息,有效提取最具有鉴别能力的特征。
如“预分类”一节中所述,待处理字符集为Ω={ω1,ω2,…,ωc},c为集Ω中字符类别数,通过预分类被划分成40个字符类别子集Ωk,k=1,2,…,40,ck为字符子集Ωk中字符类别的数量。设第m类字符ωm的训练样本数为Oωm,m=1,2,…,c,对该字符类别的训练样本采用上述方法提取特征并经特征整形后,得到的d维特征向量集合为{Y1 ωm,Y2 ωm,…,YOωm ωm}。
3.2.1计算统计量
计算每个字符类ωm特征向量的中心μωm和类内散度矩阵Sωm:
计算各子集中所有字符类的特征向量的中心μ(Ωk):
计算各子集的类间散度矩阵Sb (Ωk)和平均类内散度矩阵Sw (Ωk);
3.2.2 LDA变换
用矩阵计算工具计算矩阵(Sw (Ωk))-1Sb (Ωk)的本征值ξ0 (Ωk),ξ1 (Ωk),…,ξd-1 (Ωk),k=1,2,…,40和与各本征值相对应的本征向量_0 (Ωk),_1 (Ωk),…,_d-1 (Ωk),k=1,2,…,40,使得下列方程成立:
或等价于
由LDA的理论知:若采用使矩阵[(Φ1 (Ωk))TSw (Ωk)Φ1 (Ωk)]-1[(Φ1 (Ωk))TSb (Ωk)(Φ1 (Ωk)],k=1,2,…,40的迹tr([(Φ1 (Ωk))TSw (Ωk)Φ1 (Ωk)]-1[(Φ1 (Ωk))TSb (Ωk)Φ1 (Ωk)]),k=1,2,…,40达到最大的d×r1(r1为LDA变换后截取的特征维数)矩阵Φ1 (Ωk)作为特征变换矩阵,则能使变换后的特征类内散度方差与类间散度方差的比值达到最大,从而达到增加子集中各模式类别间的可分性的目的。同时,数学上已经证明,使tr([(Φ1 (Ωk))TSw (Ωk)Φ1 (Ωk)]-1[(Φ1 (Ωk))TSb (Ωk)Φ1 (Ωk)])达到最大的Φ1 (Ωk)是由矩阵(Sw (Ωk))-1Sb (Ωk)的最大的r1个非零本征值对应的本征向量构成的。所以,将(Sw (Ωk))-1Sb (Ωk)的本征值按照从大到小的顺序排列,使得
同时,_0 (Ωk),_1 (Ωk),…,_d-1 (Ωk)的顺序也作相应的调整,使得它们保持与ξ0 (Ωk),ξ1 (Ωk),…,ξd-1 (Ωk)的对应关系,即满足:
k=1,2,…,40,l=0,1,…,d-1
由于(Sw (Ωk))-1Sb (Ωk)的秩
即(Sw (Ωk))-1Sb (Ωk)的非零本征值最多为ck-1个,所以本专利选取r1可选择为区间(0,ck-1]上的正整数。于是得到
k=1,2,…,40,这就是LDA变换矩阵。
3.2.3 K-L变换
本发明采用K-L变换得目的是将输入特征向量经过d×r2(r2为K-L变换后截取的特征维数)的矩阵Φ2 (Ωk)变换后的生成新的特征向量各分量互不相关,并且提取蕴涵在二阶统计量Sωm,ωm∈Ωk中的鉴别信息,以弥补单独使用由LDA提取的蕴涵在类平均向量μωm中鉴别信息的不足。
用矩阵计算工具计算矩阵Sw (Ωk)的本征值ζ0 (Ωk),ζ1 (Ωk),…,ζd-1 (Ωk),k=1,2,…,40和与各本征值相对应的本征向量ψ0 (Ωk),ψ1 (Ωk),…,ψd-1 (Ωk),k=1,2,…,40,使得下列方程成立:
令:
由K-L变换的理论可知,ηlm (Ωk)表示类ωm的输入特征向量在坐标轴ψl (Ωk)上投影后分布的方差。对某个固定的坐标轴ψl (Ωk),ηlm (Ωk)的分散度或不确定性表征了输入特征在该坐标轴上的投影对Ωk中各模式类的区分能力,所以,应该选取那些使得ηlm (Ωk)不确定性小的坐标轴来组成K-L变换矩阵。而熵是随机变量不确定性的一种有效的度量,熵越大,表明随机变量的不确定性越大。为此,先对ηlm (Ωk)进行归一化:
使得
令熵函数为:
计算对应于各本征向量ψ0 (Ωk),ψ1 (Ωk),…,ψd-1 (Ωk)的熵函数的值H(ψ0 (Ωk)),H(ψ1 (Ωk)),…,H(ψd-1 (Ωk)),将ψ0 (Ωk),ψ1 (Ωk),…,ψd-1 (Ωk)按各自熵值从小到大的顺序排列,使
这样,排在最前面的r2个本征向量ψ0 (Ωk),ψ1 (Ωk),…,ψr2-1 (Ωk)就是所求的目标向量,由它们组成了K-L变换矩阵
k=1,2,…,40。
3.2.4特征变换矩阵
将LDA变换矩阵Φ1 (Ωk)和K-L变换矩阵Φ2 (Ωk)的列向量排列在一起,就形成了总的d×r的特征变换矩阵Ф(Ωk):
k=1,2,…,40
r=r1+r2
将整形后的d维特征Y=[y0,y1,…,yd-1]T经过Ф(Ωk)变换就得到了r维优化特征Z=[z0,z1,…,zr-1]T,变换的过程为:
这就形成了最终送入分类器作为字符类型判决依据的特征向量。
4.分类器设计
分类器设计是字符识别的核心技术之一,研究者针对不同的问题提出了许多模式分类器。但在多种因素制约下,最小距离分类器以其简单有效而得到极大的应用。贝叶斯分类器是理论上最优的统计分类器,在处理实际问题时,人们希望尽量去逼近它。当在字符的特征为高斯分布且各类特征分布的先验概率相等的条件下,贝叶斯分类器简化为马氏距离分类器。但该条件在实际中通常不易满足,而且马氏距离分类器的性能随着协方差矩阵估计误差的产生而严重劣化。本发明采用MQDF(修正二次鉴别函数)作为分类度量,它是马氏距离的一个变形。MQDF鉴别函数形式为:
其中Z=[z0,z1,…,zd-1]T为送入分类器的未知字符的优化特征向量,
为字符类别ωm的标准特征向量,λl ωm和φl ωm分别为第ωm类样本的优化特征向量的协方差矩阵∑ωm的第l个本征值和本征向量,K表示所截取的主本征向量的个数,也是模式类的主子空间维数,其最优值由实验确定,h2是对小本征值的实验估计。
MQDF产生的是二次判决曲面,因只需估计每个类别协方差阵的前K个主本征向量,避免了小本征值估计误差的负面影响。MQDF鉴别距离可看作是在K维主子空间内的马氏距离和剩余的(r-K)维空间内的欧氏距离的加权和,加权因子为1/h2。
对每一个输入未知字符x的特征向量进行分类判决时,搜索范围限定于对该输入字符预分类得到的特定子集Ωkx。若
则判定该输入字符属于字符类别ωτ,即
本发明的特征在于,它是一种能够识别多字体多字号的基于阿拉伯字符集的印刷体字符识别技术。它依次含有以下步骤:
1.基于阿拉伯字符集的印刷体字符识别方法,其特征在于,它在对字符对象进行必要预处理后,首先对输入的单个字符进行预分类,将其划分到恰当的字符类别子集中去,然后提取能很好反映字符结构特点的方向特征,在此基础上,利用特征整形、LDA变换和K-L变换提取最具鉴别性的优化特征,把该特征送入MQDF分类器判定字符所属类别;在由图像采集设备和计算机组成的系统中,它依次含有以下步骤:
训练阶段:
第1步:在计算机中设定以下参数:
字符类别总数c;
归一化后字符高度M、字符宽度N;
基本特征平面分块参数u0、v0、u1、v1,其中
u0为基本特征平面中子区域的高度,
v0为基本特征平面中子区域的宽度,
u1为基本特征平面中子区域与相邻子区域之间在垂直方向上重合的象素个数,
v1为基本特征平面中子区域与相邻子区域之间在水平方向上重合的象素个数;
原始特征向量经特征整形形成更符合高斯分布的新特征向量时采用的整形参数α∈(0,1);
特征变换时LDA截取维数r1、K-L变换截取维数r2;
第2步:字符样本的采集
第2.1步:用图像采集设备扫描输入多字体多字号基于阿拉伯字符集的维吾尔文、哈萨克文、柯尔克孜文、阿拉伯文的文本,利用已有算法进行去噪声、二值化等必要的预处理;
第2.2步:对文本图像依次进行行切分、连体字符段切分、单字切分处理以分离单个字符,再对每个字符的图像标定其对应的正确的字符内码,然后把相同字符类别对应的原始字符图像提取出来,保存为用以训练和测试的单字样本集;
第2.3步:定义并标定每个字符类别的空间区域信息、字符形式信息和字符组成部件信息,保存标定结果,形成字符类别预分类信息集;它依次含有以下步骤:
第2.3.1步:形成字符空间区域信息,用ZI表示:
用文本行的引线Headline和基线Baseline将字符空间区域在垂直方向上分为三个区,从上到下依次为:引线上方的上层区域Upper Zone、基线和引线之间的基准区域Base Zone、基线下方的下层区域Lower Zone;
检测输入字符x在三个空间区域中的分布情况,根据x占据的区域,给ZI赋值如下:
若x仅占据上层区域,则ZI=1;
若x同时占据上层区域和基准区域,则ZI=2;
若x同时占据上层区域、基准区域和下层区域,则ZI=3;
若x仅占据基准区域,则ZI=4;
若x同时占据基准区域和下层区域,则ZI=5;
第2.3.2步:形成字符形式信息,用FI表示:
阿拉伯字符集中的基本字母在实际文本中表现为4种字符形式:首写形式、中间形式、尾写形式、独立形式;输入字符x必定为这4种字符形式中的一种,依据x与其左右字符的连接关系判断它的形式信息:
若x在其右侧不与其它字符直接相连,而在其左侧与其它字符直接相连,则x为首写形式字符,令FI=1;
若x在其右侧和左侧均与其它字符直接相连,则x为中间形式字符,令FI=2;
若x在其右侧与其它字符直接相连,而在其左侧不与其它字符直接相连,则x为尾写形式字符,令FI=3;
若x在其右侧和左侧均不与其它字符直接相连,则x为独立形式字符,令FI=4;
第2.3.3步:形成字符构成部件信息,用CI表示:
对输入字符x进行连通性分析,根据其部件的构成情况分成两类:
若x由主体部件和附加部件两部分组成,则CI=1;
若x仅由一个不可分割的部件构成,则CI=2;
第2.3.4步:依据同一字符类别的不同单字样本的预分类信息相一致的准则对属于各字符类别的单字样本的预分类信息进行检查纠错后保存起来,形成字符类别预分类信息集;
第3步:字符类别子集的划分
设待处理字符全集为Ω={ω1,ω2,…,ωc};
将第2.3步得到的字符类别预分类信息,用一个向量
表示,m=1,2,…,c;
依据IPC ωm将Ω划分成5×4×2个字符类别子集Ωk,k=1,2,…,40,Ωk包含的字符类别数为ck,使
Ωm∩Ωn=_,m≠n,
其中_表示空集;由以上划分得
_ωl,ωm∈Ωk,
若用IPC Ωk表示Ωk中各字符类别子集的共同的预分类信息向量,则Ωk表示为:
第4步:特征提取
第4.1步:提取字符轮廓,它依次含有以下步骤:
第4.1.1步:
设原始二值字符图像为:
其中W为原始二值字符图像宽度,
H为原始二值字符图像高度,
B(i,j)为图像位于第i行、第j列的象素点的值,i=0,1,…,H-1,j=0,1,…,W-1;用双线性插值方法对[B(i,j)]H×W进行归一化处理得到高度为M、宽度为N的归一化字符点阵图像:
第4.1.2步:
设字符图像其笔划所对应的点为黑象素点,用“1”表示、背景所对应的点为白象素点,用“0”表示,即:
其中
δsrtoke表示图像中由字符笔划对应的点所组成的点的集合,
δbackground表示图像中由背景点所组成的点的集合;
对于任意(i,j)∈δstroke,若其8邻域中既有白象素点又有黑象素点,则称该笔划象素点(i,j)为轮廓点;
第4.1.3步:
扫描整个字符点阵,对于某个位置的黑象素点,检测其8邻域中象素点的分布情况,如果它的8邻域中的黑象素个数和白象素个数均大于0,则保留该黑象素,否则将字符点阵在该位置的值改为0;
由归一化后的字符图像[G(i,j)]M×N得到其轮廓图像[Q(i,j)]M×N:
第4.2步:象素特征分配
设定12种大小均为3×3的基本方向特征元模板[R(k)(i,j)]3×3,k=1,2,…,12:
将每个基本特征平面中每一个大小为u0×v0的子区域映射成大小为M′×N′的平面上的一个点,形成压缩特征平面:
其中[E(k)(i,j)]M′×N′中各元素的值为:
而Θ(k)(m,n),0≤m<u0,0≤n<v0为加权系数:
其中
第4.4步:特征向量形成
将压缩特征平面[E(k)(i,j)]M′×N′,k=1,2,…,12,中的各元素按照顺序排列成一个维数为d=12×M′×N′的矢量X=[x0,x1,…,xd-1]T,得到了表示输入字符的d维原始方向特征向量:
其中
而it,jt,kt与t之间的关系为:
INT(·)表示向下取整函数;
第5步:特征优化
第5.1步:特征整形
对原始特征向量X=[x0,x1,…,xd-1]T进行整形,得到新的特征向量Y=[y0,y1,…,yd-1]T,yt与xt之间的关系为:
其中α∈(0,1)为整形常数;
第5.2步:特征变换
第5.2.1步:获取字符类别的特征向量集合
如“第3步:字符类别子集的划分”所述,待处理字符集为Ω={ω1,ω1,…,ωc},c为集Ω中字符类别数,通过预分类处理被划分为40个字符类别子集Ωk,k=1,2,…,40, ck为字符类别子集Ωk中字符类别的数量;
设第m类字符ωm的训练样本数为Oωm,m=1,2,…,c,对该字符类别的训练样本采用“第4步:特征提取”所述方法提取特征得到的d维原始特征向量集合为{X1 ωm,X2 ωm,…,XOωm ωm};则经“第5.1步:特征整形”后,得到的d维特征向量集合为{Y1 ωm,Y2 ωm,…,YOωm ωm};
第5.2.2步:统计量计算
计算每个字符类ωm特征向量的中心μωm和类内散度矩阵Sωm:
计算各子集中所有字符类的特征向量的中心μ(Ωk):
计算各子集的类间散度矩阵Sb (Ωk)和平均类内散度矩阵Sw (Ωk):
第5.2.3步:LDA变换,它依次含有以下步骤:
第5.2.3.1步:用矩阵计算工具计算矩阵(Sw (Ωk))-1Sb (Ωk)的本征值ξ0 (Ωk),ξ1 (Ωk),…,ξd-1 (Ωk),k=1,2,…,40和与各本征值相对应的本征向量_0 (Ωk),_1 (Ωk),…,_d-1 (Ωk),k=1,2,…,40,使得下列方程成立:
第5.2.3.2步:将(Sw (Ωk))-1Sb (Ωk)的本征值按从大到小的顺序排列,使
第5.2.3.2步:取(Sw (Ωk))-1Sb (Ωk)的前r1个非零本征值对应的本征向量构成LDA变换矩阵
第5.2.4步:K-L变换,它依次含有以下步骤:
第5.2.4.1步:用矩阵计算工具计算矩阵Sw (Ωk)的本征值ζ0 (Ωk),ζ1 (Ωk),…,ζd-1 (Ωk),k=1,2,…,40和与各本征值相对应的本征向量ψ0 (Ωk),ψ1 (Ωk),…,ψd-1 (Ωk),k=1,2,…,40,使下列方程成立:
第5.2.4.2步:
令:
对ηlm (Ωk)进行归一化:
使
第5.2.4.3步:
定义熵函数:
计算对应于各向量ψ0 (Ωk),ψ1 (Ωk),…,ψd-1 (Ωk)的熵函数的值H(ψ0 (Ωk)),H(ψ1 (Ωk)),…,H(ψd-1 (Ωk)),将ψ0 (Ωk),ψ1 (Ωk),…,ψd-1 (Ωk)按熵从小到大的顺序进行排列,使
第5.2.4.4步:取排在最前面的r2个本征向量ψ0 (Ωk),ψ1 (Ωk),…,ψr2-1 (Ωk)组成了K-L变换矩阵
第5.2.5步:特征变换矩阵形成
将LDA变换矩阵Φ1 (Ωk)和K-L变换矩阵Φ2 (Ωk)的列向量排列在一起,形成总的大小为d×r的特征变换矩阵Ф(Ωk):
r=r1+r2;
将整形后的d维特征Y=[y0,y1,…,yd-1]T经过Ф(Ωk)变换得到r维优化特征Z=[z0,z1,…,zr-1]T,变换的过程为:
形成最终送入分类器作为字符类型判决依据的字符特征向量Z;将Ф(Ωk),k=1,2,…,40,存入文件,形成优化参数库;
第6步:设计分类器
对于每个字符子集Ωk,计算包含在Ωk中的各字符类别的优化特征的均值向量
Zωm和协方差矩阵∑ωm:
利用矩阵计算工具求取∑ωm的本征值λl ωm和对应得本征向量φl ωm,l=0,1,…,r-1,通过实验确定MQDF分类器的相关参数K、h2;将
Zωm、K、h2、λl ωm、φl ωm存入文件中;对所有的Ωk,k=1,2,…,40,依次进行如上操作,得到了用于分类判决的字符特征库;
识别阶段:
第1步:预分类,即对输入的未知字符,判定其所属的字符类别子集;它依次包含以下步骤:
第1.1步:获取字符预分类信息
依照“训练阶段第3.2步”所述的方法,分别检测输入未知字符x的空间区域信息ZI、字符形式信息FI和构成部件信息CI,形成x的预分类信息向量
第2.2步:确定输入字符所属子集
设x所属的字符类别子集为Ωkx,则Ωkx由下式给出:
其中‖·‖表示欧氏距离,IPC Ωk为字符子集Ωk的预分类信息;
得到Ωkx后,完成了对x的预分类;
第2步:特征提取
按照“训练阶段第4步”所述的方法,提取输入未知字符x的d维原始方向特征向量
第3步:特征优化
第3.1步:特征整形
以“训练部分第一步”所设定的整形参数α对原始方向特征向量
进行整形,得到整形特征
其中:
第3.2步:特征变换
从“训练阶段第第5.2.5步”所生成的优化参数库文件中读取对应于输入字符x所属字符类别子集Ωkx的LDA和K-L混合变换矩阵Ф(Ωkx),将d维整形方向特征向量
第4步:分类判决,即将未知类别的字符的特征向量与识别库中已有的数据进行比较,以确定输入字符对应的正确的字符代码;它依次含有以下步骤:
第4.1步:从“训练阶段第6步”所生成的字符特征库文件中读取输入字符x所属字符类别子集Ωkx中的所有字符类别的均值向量
和相应的分类参数;
第4.2步:分别计算Zx到Ωkx中各字符类别的MQDF鉴别距离:
若
则判定该输入字符x属于字符类别ωτ,即
实验证明,本发明在基于阿拉伯字符集的印刷体单字测试集上的识别正确率达到99.4%以上。
附图说明
图1 一个典型的基于阿拉伯字符集的字符识别系统的硬件构成。
图2 基于阿拉伯字符集的字符识别系统的单字样本生成。
图3 基于阿拉伯字符集的字符识别系统的构成。
图4 采用的图像坐标系示意。
图5 4种基于阿拉伯字符集的文字的字符集。
(a)阿拉伯文字符集;(b)柯尔克孜文字符集;(c)维吾尔文字符集;(d)哈萨克文字符集;(e)维/哈/柯/阿文常用符号、数字。
图6 基于阿拉伯字符集的文字构成特点示意。
1从右向左的书写方向;2基线;3五个字符相连的连体字符段;4首写形式字符;5中间形式字符;6尾写形式字符;7独立形式字符;8插入的直杠
a由三个字符、两个字符段构成的词;b由六个字符、四个字符段构成的词;c由五个字符、一个字符段构成的词;d由七个字符、两个字符段构成的词
图7 预分类信息示意。
图8 预分类流程。
图9 方向特征抽取流程。
图10 12种基本方向特征元模板。
图11 基本特征平面分块示意。
图12 方向特征抽取示意。
图13 特征优化流程。
图14 基于本算法的多字体多字号维/哈/柯/阿印刷体字符识别系统。
具体实施方式
如图1所示,一个基于阿拉伯字符集的印刷体字符识别系统在硬件上由两部分构成:图像采集设备和计算机。图像采集设备一般是扫描仪,用来获取待识别字符的数字图像。计算机用于对数字图像进行处理,并完成判决分类。
图2所示的是单字训练样本和单字测试样本的生成过程。对于一篇印刷体维吾尔文、哈萨克文、柯尔克孜文或阿拉伯文样张,首先通过扫描仪将其扫入计算机,使之变为数字图像。对数字图像采取二值化、去除噪声等预处理措施,得到二值化的图像。再对输入图像进行行切分以得到文本行,对文本行进行连体字符段切分得到连体字符段,在此基础上对每一个连体字符段进行单字切分,得到单个字符,然后标定每个字符图像所属的字符类别。此后,要进行一次检查,对行文本切分、连体字符段切分、单字切分阶段和字符类别标定阶段产生的错误采用手动方式改正。最后,将相同的字符类别对应的原始字符图像提取出来,并保存,完成单字样本的采集。同时,对每个字符类别的空间区域信息、字符形式信息和字符构成部件信息进行标定,将标定结果保存在文件中,从而完成字符预分类信息的采集。
如图3所示,基于阿拉伯文的印刷体字符识别算法分为两个部分:训练系统和测试系统。训练系统中,对输入的单字训练样本集中的每一个字符类别的所有样本,依据预分类信息将其划分至恰当的字符子集中,形成子集库。对属于各字符子集的所有字符类别的各单字样本,提取反映其组成信息的方向特征,利用特征整形和特征变换进行优化,然后,采用合适的分类器,训练分类器,得到字符特征库。在测试系统中,对输入的未知类别字符图像,提取预分类信息确定其所属的字符子集,采用和训练系统同样的特征提取和特征优化方法形成表示字符的特征向量,然后送入分类器进行分类,判断输入字符所属的类别。
因而,实用的基于阿拉伯字符集的印刷体字符识别系统的实现需要考虑如下几个方面:
A)字符样本的采集
B)训练系统的实现
C)测试系统的实现
下面分别对这三个方面进行详细介绍。
A)字符样本的采集
A.1文本图像的获取
基于阿拉伯文字符集的印刷体单字样本的获取过程如图2所示。输入的一篇纸质印刷体维吾尔文、哈萨克文、柯尔克孜文或阿拉伯文文档,通过扫描仪得到数字图像,完成从纸质文档到计算机存储图像的转换。然后对该图像进行噪声去除、二值化等预处理措施。利用各种滤波方法去除噪声在现有文献中已经有大量记载。二值化方法可采用已有的全局二值化或局部自适应二值化。接着对文档进行版面分析,得到字符区域。
A.2单字样本集的形成
对字符区域分别利用水平投影直方图进行文本行切分得到单个文本行,再对各文本行采用垂直投影直方图分析进行连体字符段切分得到单个连体字符段,进而采用垂直象素游程分析方法切分连体字符段,得到单个字符图像。在此阶段的切分错误采用手动的方式进行更正。对得到的单个字符的类别进行标定,一般采用计算机自动标定,对其中的错误进行人工处理(更改、删除等)。最后,把具有相同内码的字符所对应的不同字体、不同字号的原始字符图像保存起来,就得到了基于阿拉伯字符集的印刷体单字样本。
A.3预分类信息检测
对单行文本进行水平象素投影分析,确定行引线Headline和行基线Baseline,将该行文本所占的空间区域划分成上层区域Upper zone、基准区域Base zone和下层区域Lower zone,从而在进行单字切分得到单个字符的同时也根据该单字所占的空间区域得到了其空间区域信息ZI。对各连体字符段进行单字切分的同时,检测切割出来的单字左右边界与其它字符之间的连接关系,从而确定其字符形式信息CI。对单个字符进行连通性分析,确定其字符构成部件信息CI。从而确定了每个字符的预分类信息。具体包含如下步骤(令x表示输入未知字符):
A.3.1检测空间区域信息ZI
文本行的引线(Headline)和基线(Baseline)将字符空间区域在垂直方向上分为三个区,从上到下依次为:引线上方的上层区域(Upper Zone)、基线和引线之间的基准区域(BaseZone)、基线下方的下层区域(Lower Zone)。检测输入字符在三个空间区域中的分布情况,根据x占据区域的不同,给ZI赋予不同的取值,对应关系为:
若x仅占据上层区域,则ZI=1;
若x同时占据上层区域和基准区域,则ZI=2;
若x同时占据上层区域、基准区域和下层区域,则ZI=3;
若x仅占据基准区域,则ZI=4;
若x同时占据基准区域和下层区域,则ZI=5。
A.3.2检测字符形式信息H
阿拉伯字符集中的基本字母在实际文本中表现为4种字符形式:首写形式、中间形式、尾写形式、独立形式,x必定为这4种字符形式中的一种,依据x与其左右字符的连接关系可判断它的形式信息:
若x在其右侧不与其它字符直接相连,而在其左侧与其它字符直接相连,则x为首写形式字符,此时FI=1;
若x在其右侧和左侧均与其它字符直接相连,则x为中间形式字符,此时FI=2;
若x在其右侧与其它字符直接相连,而在其左侧不与其它字符直接相连,则x为尾写形式字符,此时FI=3;
若x在其右侧和左侧均不与其它字符直接相连,则x为独立形式字符,此时FI=4。
A.3.3检测字符构成部件信息CI
对x进行连通性分析,根据其部件的构成情况分成两类:
若x由主体部件和附加部件
重叠组成,则CI=1;
若x仅由
不可分割的部件构成,则CI=2。
A.3.4检查纠错和保存
属于同一字符类别的不同单字样本的预分类信息相同,依据该原则对属于各字符类别的单字样本的预分类信息进行检查,对预分类信息提取过程中产生的错误通过人机交互的方式进行纠正。最后,将每个字符类别的预分类信息保存起来,形成字符类别预分类信息集。
B)训练系统的实现
B.1预分类
根据样本采集环节得到各字符类别的预分类信息向量
m=1,2,…,c,将包含c不同字符类别的待处理字符全集Ω={ω1,ω2,…,ωc}划分成5×4×2=40个字符类别子集Ωk,k=1,2,…,40,每个Ωk字符包含的字符类别数为ck,使
Ωm∩Ωn=_,m≠n
k=1,2,…,40,其中_表示空集。
将各Ωk所含的字符类别的内码和相应的预分类信息保存在文件中,形成子集库。
B.2特征提取
B.2.1提取字符的轮廓
设原始二值字符图像为:
其中W为图像宽度,H为图像高度。采用双线性插值方法对[B(i,j)]H×W进行归一化处理得到高度为M、宽度为N的字符点阵图像:
扫描整个字符点阵,对于某个位置的黑象素点,检测其8邻域中象素的分布情况,如果它的8邻域中的黑象素个数和白象素个数均大于0,则保留该黑象素,否则将字符点阵在该位置的值改为0。这样,由归一化后的字符图像[G(i,j)]M×N得到了其轮廓图像:
B.2.2象素特征分配
采用12种3×3基本特征元模板[R(k)(i,j)]3×3,k=1,2,…,12分别作用于字符轮廓图像[Q(i,j)]M×N,得到字符的12个基本特征平面:
其中[P(k)(i,j)]M×N中的各元素P(k)(i,j),i=0,1,…,M-1,j=0,1,…,N-1,是[R(k)(i,j)]3×3与[Q(i,j)]M×N进行如下计算得到的:
B.2.3分块压缩
将每个M×N的基本特征平面[P(k)(i,j)]M×N,k=1,2,…,12均匀划分成高为u0、宽为v0的子区域,每个子区域跟相邻的子区域之间在垂直方向有u1个象素的重合、在水平方向上有v1个象素的重合,故由每个M×N基本特征平面得到M′×N′个子区域,其中
将基本特征平面中每一个大小为u0×v0的子区域映射成一个大小为M′×N′的平面上的一个点,得到压缩特征平面为:
[E(k)(i,j)M′×N′中各元素的值表示为:
式中Θ(k)(m,n),0≤m<u0,0≤n<v0为加权系数:
其中
B.2.4特征向量形成
将压缩特征平面[E(k)(i,j)]M′×N′,k=1,2,…,12中的各元素按照顺序排列成一个维数为d=12×M′×N′的矢量X=[x0,x1,…,xd-1]T,就得到了表示输入字符的d维原始特征的向量。其中:
it,jt,kt与t之间的关系为:
B.3特征优化
B.3.1特征整形
对原始特征向量X=[x0,x1,…,xd-1]T进行整形,得到新的特征向量Y=[y0,y1,…,yd-1]T,yt与xt之间的关系为:
其中α∈(0,1)为整形常数。
B.3.2特征变换
待处理字符集为Ω={ω1,ω2,…,ωc},c为集Ω中字符类别数,通过预分类已被划分成40个字符子集Ωk,k=1,2,…,40,ck为字符子集Ωk中字符类别的数量。设第m类字符ωm的训练样本数为Oωm,m=1,2,…,c,对该字符类别的训练样本采用上述方法提取特征并经特征整形后,得到的d维特征向量集合为{Y1 ωm,Y2 ωm,…,YOωm ωm}。
B.3.2.1计算统计量
计算每个字符类ωm特征向量的中心μωm和类内散度矩阵Sωm:
计算各子集中所有字符类的特征向量的中心μ(Ωk):
计算各子集的类间散度矩阵Sb (Ωk)和平均类内散度矩阵Sw (Ωk);
B.3.2.2 LDA变换
用矩阵计算工具计算矩阵(Sw (Ωk))-1Sb (Ωk)的本征值ξ0 (Ωk),ξ1 (Ωk),…,ξd-1 (Ωk),k=1,2,…,40和与各本征值相对应的本征向量_0 (Ωk),_1 (Ωk),…,_d-1 (Ωk),k=1,2,…,40,使得下列方程成立:
k=1,2,…,40,l=0,1,…,d-1
将(Sw (Ωk))-1Sb (Ωk)的本征值按照从大到小的顺序排列,使得
同时,_0 (Ωk),_1 (Ωk),…,_d-1 (Ωk)的顺序也作相应的调整,使得它们保持与ξ0 (Ωk),ξ1 (Ωk),…,ξd-1 (Ωk)的对应关系。r1可根据需要设定为不大于
的正整数,这样得到的LDA变换矩阵为
k=1,2,…,40。
B.3.2.3 K-L变换:
用矩阵计算工具计算矩阵Sw (Ωk)的本征值ζ0 (Ωk),ζ1 (Ωk),…,ζd-1 (Ωk),k=1,2,…,40和与各本征值相对应的本征向量ψ0 (Ωk),ψ1 (Ωk),…,ψd-1 (Ωk),k=1,2,…,40,使得下列方程成立:
令:
对ηlm (Ωk)进行归一化:
使得
定义熵函数:
计算对应于各向量ψ0 (Ωk),ψ1 (Ωk),…,ψd-1 (Ωk)的熵函数的值H(ψ0 (Ωk),H(ψ1 (Ωk)),…,H(ψd-1 (Ωk)),将ψ0 (Ωk),ψ1 (Ωk),…,ψd-1 (Ωk)按熵从小到大的顺序进行排列,使
B.3.2.4特征变换矩阵
将LDA变换矩阵Φ1 (Ωk)和K-L变换矩阵Φ2 (Ωk)的列向量排列在一起,就形成了总的大小为d×r的特征变换矩阵Ф(Ωk):
r=r1+r2
整形后的d维特征Y=[y0,y1,…,yd-1]T经过Ф(Ωk)变换得到了r维优化特征Z=[z0,z1,…,zr-1]T,变换的过程为:
将特征整形参数α和各字符类别子集的特征变换矩阵Ф(Ωk)保存起来,形成特征优化参数库文件。
B.4设计分类器
对于每个字符子集Ωk,计算包含在Ωk中的各字符类别的优化特征的均值向量
Zωm和协方差矩阵∑ωm:
利用矩阵计算工具求取∑ωm的本征值λl ωm和本征向量φl ωm,l=0,1,…,r-1,通过实验确定MQDF分类器的相关参数K、h2。将
Zωm、K、h2、λl ωm、φl ωm存入库文件中。对所有的Ωk,k=1,2,…,40,依次进行如上操作,得到了用于分类判决的字符特征库。
C)测试系统的实现
令x为输入未知字符。
C.1输入字符的预分类判决
C.1.2检测输入字符的预分类信息
依据“A.3.1~A.3.3”所述的方法分别检测x的空间区域信息ZI、字符形式信息FI和字符部件构成信息CI,并将其表示成向量形式
C.1.2确定输入字符所属子集设x所属的字符类别子集为Ωkx,则Ωkx由下式给出:
其中‖·‖表示欧氏距离,IPC Ωk为字符子集Ωk的预分类信息
C.2特征提取
依据“测试系统”中特征提取的相同办法,提取输入字符x的原始d维特征向量
C.3特征优化
从优化参数库文件中读取训练得到特征优化参数α和对应于x所属的字符类别子集Ωkx的LDA与K-L混合变换矩阵Ф(Ωkx)。
用α为参数对
进行特征整形,得到
其中:
对
进行特征变换
得到r维特征向量
C.4分类判决
从特征库文件中读取Ωkx中所有字符类的均值向量
和相应的分类参数,计算Zx到Ωkx中各字符类别的MQDF鉴别距离
若
则判定该输入字符x属于字符类别ωτ,即
以下给出一个具体的实现例子。
实施例1:基于阿拉伯字符集的多字体多字号印刷体字符识别系统
基于本发明的多字体多字号印刷体字符识别系统如图14所示,实验的硬件设备平台为扫描仪(型号:紫光Uniscan 1248US)和普通PC机(CPU:Intel_Pentium_42.40GHz;Memory:512MB RAM;OS:Microsoft_Windows_XP)实验在收集到维吾尔文、哈萨克文、柯尔克孜文和阿拉伯文各1600套印刷体文档上进行的,这些样本文档大部分采自当今主要的印刷体维/哈/柯出版系统和阿拉伯文出版系统,也有少量由Windows TrueType字体直接打印生成。字体包括大部分最常用的、部分次常用的和少量不常用的字体,每类样本的字体至少有6种。字号从小五号到初号。样本质量不等,正常、断裂、粘连字符的比例约为2∶1∶1。经过扫描输入、文本行切分、单字切分和内码标定过程,将每个语种的1600套文档转换为1600套单字样本(即每个字符类别有1600个单字样本),从中随机抽出1200套组成训练集,其余400套留作测试样本。
实验中,采用本发明的方法将输入字符归一化为32×32的点阵,即取M=N=32。在特征提取时基本特征平面按图11所示的方式划分,取u0=v0=8,u1=v1=4,故M′=N′=7。依图9所示的流程提取原始方向特征后,采用α=0.75进行特征整形,再采用LDA与K-L的混合变换矩阵进行特征变换,变换后特征维数r选定为96,其中各字符子集的LDA变换矩阵的列向量个数r1取该字符类别子集中包含的字符类别的数目减去1,为保证r=96,取K-L变换矩阵的列向量个数为r2=96-r1。分类器MQDF中的参数K=24,h2用各字符类的协方差阵的第K个本征值的均值作为估计值。在测试集上的实验结果如下表所示。
表2 系统在维、哈、柯、阿4种字符测试样本集上的识别率
字符种类 | 维吾尔 | 哈萨克 | 柯尔克孜 | 阿拉伯 |
字符集大小 | 147 | 156 | 158 | 163 |
测试字符数 | 58800 | 62400 | 63200 | 65200 |
识别率(%) | 99.52 | 99.54 | 99.43 | 99.42 |
从表2可见,系统对维吾尔、哈萨克、柯尔克孜、阿拉伯等4种基于阿拉伯字符集的印刷体字符在测试集上的识别正确率均达到99.4%以上,表明本发明所提的方法的有效性。
综上所述,本发明提出的基于阿拉伯字符集的印刷体字符识别方法具有以下优点:
1)基于阿拉伯字符集的独特特点而提出的预分类方法,缩小了后续分类判决的搜索范围,不仅降低了计算量,而且提高整体识别性能。
2)本发明采用的方向特征符合阿拉伯字符集中字符的笔划构成特点,计算方便。
3)本发明提出的特征整形和LDA与K-L相结合的特征变换方法可以很好改善特征分布,去除冗余信息,提高特征的鉴别能力。
4)本发明提出的方法具有很好的推广性,能够快速方便地移植到其它基于阿拉伯字符集的字符(如波斯、乌尔都、克什米尔等等)识别中去并可望取得良好的识别性能。
本发明提出的方法在实验中获得了优异的识别性能,具有广泛的应用前景。
Claims (1)
1.基于阿拉伯字符集的印刷体字符识别方法,其特征在于,它在对字符对象进行预处理后,首先对输入的单个字符进行预分类,将其划分到恰当的字符类别子集中去,然后提取能反映字符结构特点的方向特征,在此基础上,利用特征整形、LDA变换和K-L变换提取最具鉴别性的优化特征,把该特征送入MQDF分类器判定字符所属类别;该方法用于图像采集设备和计算机组成的系统中,它依次含有以下步骤:
训练阶段:
第1步:在计算机中设定以下参数:
字符类别总数c;
归一化后字符高度M、字符宽度N;
基本特征平面分块参数u0、v0、u1、v1,其中
u0为基本特征平面中子区域的高度,
v0为基本特征平面中子区域的宽度,
u1为基本特征平面中子区域与相邻子区域之间在垂直方向上重合的象素个数,
v1为基本特征平面中子区域与相邻子区域之间在水平方向上重合的象素个数;
原始特征向量经特征整形形成更符合高斯分布的新特征向量时采用的整形参数α∈(0,1);
特征变换时LDA截取维数r1、K-L变换截取维数r2;
第2步:字符样本的采集
第2.1步:用图像采集设备扫描输入多字体多字号基于阿拉伯字符集的维吾尔文、哈萨克文、柯尔克孜文、阿拉伯文的文本,利用已有算法进行去噪声、二值化预处理;
第2.2步:对文本图像依次进行行切分、连体字符段切分、单字切分处理以分离单个字符,再对每个字符的图像标定其对应的正确的字符内码,然后把相同字符类别对应的原始字符图像提取出来,保存为用以训练和测试的单字样本集;
第2.3步:定义并标定每个字符类别的空间区域信息、字符形式信息和字符组成部件信息,保存标定结果,形成字符类别预分类信息集;它依次含有以下步骤:
第2.3.1步:形成字符空间区域信息,用ZI表示:
用文本行的引线Headline和基线Baseline将字符空间区域在垂直方向上分为三个区,从上到下依次为:引线上方的上层区域Upper Zone、基线和引线之间的基准区域Base Zone、基线下方的下层区域Lower Zone;
检测输入字符χ在三个空间区域中的分布情况,根据χ占据的区域,给ZI赋值如下:
若χ仅占据上层区域,则ZI=1;
若χ同时占据上层区域和基准区域,则ZI=2;
若χ同时占据上层区域、基准区域和下层区域,则ZI=3;
若χ仅占据基准区域,则ZI=4;
若χ同时占据基准区域和下层区域,则ZI=5;
第2.3.2步:形成字符形式信息,用FI表示:
阿拉伯字符集中的基本字母在实际文本中表现为4种字符形式:首写形式、中间形式、尾写形式、独立形式;输入字符χ必定为这4种字符形式中的一种,依据χ与其左右字符的连接关系判断它的形式信息:
若χ在其右侧不与其它字符直接相连,而在其左侧与其它字符直接相连,则χ为首写形式字符,令FI=1;
若χ在其右侧和左侧均与其它字符直接相连,则χ为中间形式字符,令FI=2;
若χ在其右侧与其它字符直接相连,而在其左侧不与其它字符直接相连,则χ为尾写形式字符,令FI=3;
若χ在其右侧和左侧均不与其它字符直接相连,则χ为独立形式字符,令FI=4;
第2.3.3步:形成字符构成部件信息,用CI表示:
对输入字符χ进行连通性分析,根据其部件的构成情况分成两类:
若χ由主体部件和附加部件两部分组成,则CI=1;
若χ仅由一个不可分割的部件构成,则CI=2;
第2.3.4步:依据同一字符类别的不同单字样本的预分类信息相一致的准则对属于各字符类别的单字样本的预分类信息进行检查纠错后保存起来,形成字符类别预分类信息集;
第3步:字符类别子集的划分
设待处理字符全集为Ω={ω1,ω2,L,ωc};
将第2.3步得到的字符类别预分类信息,用一个向量
表示,m=1,2,L,c;
依据IPC ωm将Ω划分成5×4×2个字符类别子集Ωk,k=1,2,L,40,Ωk包含的字符类别数为ck,使
ΩmIΩn=_,m≠n,
其中_表示空集;由以上划分得
_ωl,ωn∈Ωk,
若用IPC Ωk表示Ωk中各字符类别子集的共同的预分类信息向量,则Ωk表示为:
第4步:特征提取
第4.1步:提取字符轮廓,它依次含有以下步骤:
第4.1.1步:
设原始二值字符图像为:
其中W为原始二值字符图像宽度,
H为原始二值字符图像高度,
B(i,j)为图像位于第i行、第j列的象素点的值,i=0,1,L,H-1,j=0,1,L,W-1;
用双线性插值方法对[B(i,j)]H×W进行归一化处理得到高度为M、宽度为N的归一化字符点阵图像:
第4.1.2步:
设字符图像其笔划所对应的点为黑象素点,用“1”表示、背景所对应的点为白象素点,用“0”表示,即:
其中
δstroke表示图像中由字符笔划对应的点所组成的点的集合,
δbackground表示图像中由背景点所组成的点的集合;
对于任意(i,j)∈δstroke,若其8邻域中既有白象素点又有黑象素点,则称该笔划象素点(i,j)为轮廓点;
第4.1.3步:
扫描整个字符点阵,对于某个位置的黑象素点,检测其8邻域中象素点的分布情况,如果它的8邻域中的黑象素个数和白象素个数均大于0,则保留该黑象素,否则将字符点阵在该位置的值改为0;
由归一化后的字符图像[G(i,j)]M×N得到其轮廓图像[Q(i,j)]M×N:
第4.2步:象素特征分配
设定12种大小均为3×3的基本方向特征元模板[R(k)(i,j)]3×3,k=1,2,L,12:
将上述12种模板分别作用于字符轮廓图像[Q(i,j)]M×N,得到字符的12个基本特征平面:
其中[P(k)(i,j)]M×N中的各元素P(k)(i,j),i=0,1,L,M-1,j=0,1,L,N-1,为:
而
而
第4.3步:分块压缩
将每个大小为M×N的基本特征平面[P(k)(i,j)]M×N,k=1,2,L,12,均匀划分成高为u0、宽为v0的子区域,每个子区域跟相邻的子区域之间在垂直方向有u1个象素的重合、在水平方向上有v1个象素的重合;由每个M×N基本特征平面得到M′×N′个子区域,其中
将每个基本特征平面中每一个大小为u0×v0的子区域映射成大小为M′×N′的平面上的一个点,得到压缩特征平面:
其中[E(k)(i,j)]M′×N′中各元素的值为:
而Θ(k)(m,n),0≤m<u0,0≤n<v0为加权系数:
其中
第4.4步:特征向量形成
将压缩特征平面[E(k)(i,j)]M′×N′,k=1,2,L,12,中的各元素按照顺序排列成一个维数为d=12×M′×N′的矢量X=[x0,x1,L,xd-1]T,得到了表示输入字符的d维原始方向特征向量:其中
而it,jt,kt与t之间的关系为:
INT(g)表示向下取整函数;
第5步:特征优化
第5.1步:特征整形
对原始特征向量X=[x0,x1,L,xd-1]T进行整形,得到新的特征向量Y=[y0,y1,L,yd-1]T,yt与xt之间的关系为:
其中α∈(0,1)为整形常数;
第5.2步:特征变换
第5.2.1步:获取字符类别的特征向量集合
如“第3步:字符类别子集的划分”所述,待处理字符集为Ω={ω1,ω2,L,ωc},c为集Ω中字符类别数,通过预分类处理被划分为40个字符类别子集Ωk,k=1,2,L,40,ck为字符类别子集Ωk中字符类别的数量;
设第m类字符ωm的训练样本数为Oωm,m=1,2,L,c,对该字符类别的训练样本采用“第4步:特征提取”所述方法提取特征得到的d维原始特征向量集合为{X1 ωm,X2 ωm,L,XOωm ωm};则经“第5.1步:特征整形”后,得到的d维特征向量集合为{Y1 ωm,Y2 ωm,L,YOωm ωm};
第5.2.2步:统计量计算
计算每个字符类ωm特征向量的中心μωm和类内散度矩阵Sωm:
计算各子集中所有字符类的特征向量的中心μ(Ωk):
计算各子集的类间散度矩阵Sb (Ωk)和平均类内散度矩阵Sw (Ωk):
第5.2.3步:LDA变换,它依次含有以下步骤:
第5.2.3.1步:用矩阵计算工具计算矩阵(Sw (Ωk))-1Sb (Ωk)的本征值ξ0 (Ωk),ξ1 (Ωk),L,ξd-1 (Ωk),k=1,2,L,40和与各本征值相对应的本征向量_0 (Ωk),_1 (Ωk),L,_d-1 (Ωk),k=1,2,L,40,使得下列方程成立:
k=1,2,L,40,l=0,1,L,d-1;
第5.2.3.2步:将(Sw (Ωk))-1Sb (Ωk)的本征值按从大到小的顺序排列,使 同时,_0 (Ωk),_1 (Ωk),L,_d-1 (Ωk)的顺序也作相应的调整,使得它们保持与ξ0 (Ωk),ξ1 (Ωk),L,ξd-1 (Ωk)的对应关系;
第5.2.3.3步:取(Sw (Ωk))-1Sb (Ωk)的前r1个非零本征值对应的本征向量构成LDA变换矩阵k=1,2,L,40;r1的有效值可根据需要选取为小于或等于矩阵(Sw (Ωk))-1Sb (Ωk)的秩
的正整数
第5.2.4步:K-L变换,它依次含有以下步骤:
第5.2.4.1步:用矩阵计算工具计算矩阵Sw (Ωk)的本征值ζ0 (Ωk),ζ1 (Ωk),L,ζd-1 (Ωk),k=1,2,L,40和与各本征值相对应的本征向量ψ0 (Ωk),ψ1 (Ωk),L,ψd-1 (Ωk),k=1,2,L,40,使下列方程成立:
第5.2.4.2步:
令:
对ηlm (Ωk)进行归一化:
使
第5.2.4.3步:
定义熵函数:
计算对应于各向量ψ0 (Ωk),ψ1 (Ωk),L,ψd-1 (Ωk)的熵函数的值H(ψ0 (Ωk)),H(ψ1 (Ωk)),L,H(ψd-1 (Ωk)),将ψ0 (Ωk),ψ1 (Ωk),L,ψd-1 (Ωk)按熵从小到大的顺序进行排列,使
第5.2.4.4步:取排在最前面的r2个本征向量ψ0 (Ωk),ψ1 (Ωk),L,ψr2-1 (Ωk)组成了K-L变换矩阵 k=1,2,L,40;r2为K-L变换截取的特征维数;
第5.2.5步:特征变换矩阵形成
将LDA变换矩阵Ф1 (Ωk)和K-L变换矩阵Ф2 (Ωk)的列向量排列在一起,形成总的大小为d×r的特征变换矩阵Ф(Ωk):
k=1,2,L,40,
r=r1+r2;
将整形后的d维特征Y=[y0,y1,L,yd-1]T经过Ф(Ωk)变换得到r维优化特征Z=[z0,z1,L,zr-1]T,变换的过程为:
形成最终送入分类器作为字符类型判决依据的字符特征向量Z;将Ф(Ωk),k=1,2,L,40,存入文件,形成优化参数库;
第6步:设计分类器
对于每个字符子集Ωk,计算包含在Ωk中的各字符类别的优化特征的均值向量
Zωm和协方差矩阵∑ωm:
利用矩阵计算工具求取∑ωm的本征值λl ωm和对应得本征向量φl ωm,l=0,1,L,r-1,通过实验确定MQDF分类器的相关参数K、h2;将
Zωm、K、h2、λl ωm、φl ωm存入文件中;对所有的Ωt,k=1,2,L,40,依次进行如上操作,得到了用于分类判决的字符特征库;
识别阶段:
第1步:预分类,即对输入的未知字符,判定其所属的字符类别子集;它依次包含以下步骤:
第1.1步:获取字符预分类信息
依照“训练阶段第2.3步”所述的方法,分别检测输入未知字符χ的空间区域信息ZI、字符形式信息FI和构成部件信息CI,形成χ的预分类信息向量
第1.2步:确定输入字符所属子集
设χ所属的字符类别子集为Ωkχ,则Ωkχ由下式给出:
其中‖g‖表示欧氏距离,IPC Ωk为字符子集Ωk的预分类信息;
得到Ωkχ后,完成了对χ的预分类;
第2步:特征提取
按照“训练阶段第4步”所述的方法,提取输入未知字符χ的d维原始方向特征向量
第3步:特征优化
第3.1步:特征整形
以 “训练部分第一步”所设定的整形参数α对原始方向特征向量
进行整形,得到整形特征
其中:
第3.2步:特征变换
从“训练阶段第5.2.5步”所生成的优化参数库文件中读取对应于输入字符χ所属字符类别子集Ωkχ的LDA和K-L混合变换矩阵Ф(Ωkχ),将d维整形方向特征向量 变换成r维变换特征向量
变换的过程为:
第4步:分类判决,即将未知类别的字符的特征向量与识别库中已有的数据进行比较,以确定输入字符对应的正确的字符代码;它依次含有以下步骤:
第4.1步:从“训练阶段第6步”所生成的字符特征库文件中读取输入字符χ所属字符类别子集Ωkχ中的所有字符类别的均值向量
和相应的分类参数;
第4.2步:分别计算Zχ到Ωkχ中各字符类别的MQDF鉴别距离:
若
则判定该输入字符χ属于字符类别ωτ,即
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410009785 CN1266643C (zh) | 2004-11-12 | 2004-11-12 | 基于阿拉伯字符集的印刷体字符识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410009785 CN1266643C (zh) | 2004-11-12 | 2004-11-12 | 基于阿拉伯字符集的印刷体字符识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1606028A CN1606028A (zh) | 2005-04-13 |
CN1266643C true CN1266643C (zh) | 2006-07-26 |
Family
ID=34763091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410009785 Expired - Fee Related CN1266643C (zh) | 2004-11-12 | 2004-11-12 | 基于阿拉伯字符集的印刷体字符识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1266643C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101303731B (zh) * | 2007-05-09 | 2010-09-01 | 仁宝电脑工业股份有限公司 | 印刷线生成方法 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1332348C (zh) * | 2005-09-23 | 2007-08-15 | 清华大学 | 印刷体阿拉伯字符集文本切分方法 |
CN100440250C (zh) * | 2007-03-09 | 2008-12-03 | 清华大学 | 印刷体蒙古文字符识别方法 |
CN101394512B (zh) * | 2007-09-19 | 2010-07-07 | 青岛海信电器股份有限公司 | 媒体播放设备的连体文字处理方法和装置 |
CN101814286B (zh) * | 2010-04-14 | 2012-06-06 | 深圳市茁壮网络股份有限公司 | 阿拉伯字符显示的修复方法及装置 |
CN101866417B (zh) * | 2010-06-18 | 2013-06-12 | 西安电子科技大学 | 一种手写体维吾尔字符识别方法 |
CN102142088B (zh) * | 2010-08-17 | 2013-01-23 | 穆罕默德S·卡尔希德 | 基于有效阿拉伯文特征提取的阿拉伯文识别方法及系统 |
CN102446275B (zh) * | 2010-09-30 | 2014-04-16 | 汉王科技股份有限公司 | 阿拉伯文字符的识别方法和装置 |
CN102456138B (zh) * | 2010-11-03 | 2013-09-11 | 汉王科技股份有限公司 | 印刷体阿拉伯字符预处理方法和装置 |
CN104899571B (zh) * | 2015-06-12 | 2018-12-04 | 成都数联铭品科技有限公司 | 一种用于复杂文字识别的随机样本产生方法 |
CN107016387B (zh) * | 2016-01-28 | 2020-02-28 | 苏宁云计算有限公司 | 一种识别标签的方法及装置 |
CN107944478A (zh) * | 2017-11-14 | 2018-04-20 | 深圳码隆科技有限公司 | 图像识别方法、系统以及电子设备 |
CN112507866B (zh) * | 2020-12-03 | 2021-07-13 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
-
2004
- 2004-11-12 CN CN 200410009785 patent/CN1266643C/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101303731B (zh) * | 2007-05-09 | 2010-09-01 | 仁宝电脑工业股份有限公司 | 印刷线生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1606028A (zh) | 2005-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100336071C (zh) | 复杂背景图像中鲁棒的眼睛精确定位方法 | |
CN1324521C (zh) | 用于识别图象字符的预处理设备和方法 | |
CN1269068C (zh) | 标题抽取设备及标题抽取方法 | |
CN1156791C (zh) | 模式识别设备与方法 | |
CN100347723C (zh) | 基于几何代价与语义-识别代价结合的脱机手写汉字字符的切分方法 | |
CN1191536C (zh) | 手形手势识别装置及识别方法 | |
CN1266643C (zh) | 基于阿拉伯字符集的印刷体字符识别方法 | |
CN1136516C (zh) | 图案抽取装置和方法 | |
CN1213592C (zh) | 采用自适应二值化的图象处理方法和设备 | |
CN1254769C (zh) | 图像处理方法和装置 | |
CN1159673C (zh) | 从图像中提取管理信息的设备与方法 | |
CN1225484A (zh) | 地址识别设备和方法 | |
CN1910900A (zh) | 防止擅自复制的设备、方法和程序 | |
CN1741035A (zh) | 印刷体阿拉伯字符集文本切分方法 | |
CN1102270C (zh) | 信息处理方法和信息处理设备 | |
CN1664846A (zh) | 基于统计结构特征的联机手写汉字识别方法 | |
CN1624696A (zh) | 信息处理设备、方法及其程序、信息处理系统及其方法 | |
CN1530856A (zh) | 布局系统和布局程序以及布局方法 | |
CN1207896C (zh) | 图象数据的压缩和恢复方法 | |
CN1178461C (zh) | 图像编码装置、图像译码装置、传真装置 | |
CN1251130C (zh) | 多字体多字号印刷体藏文字符识别方法 | |
CN1200387C (zh) | 基于单个字符的统计笔迹鉴别和验证方法 | |
CN1147116A (zh) | 模式识别方法和系统以及模式数据处理系统 | |
CN1625206A (zh) | 图像处理装置及其控制方法 | |
CN1612132A (zh) | 视线诱导度算出系统、程序及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060726 Termination date: 20181112 |
|
CF01 | Termination of patent right due to non-payment of annual fee |