CN1251130C - 多字体多字号印刷体藏文字符识别方法 - Google Patents

多字体多字号印刷体藏文字符识别方法 Download PDF

Info

Publication number
CN1251130C
CN1251130C CN 200410034107 CN200410034107A CN1251130C CN 1251130 C CN1251130 C CN 1251130C CN 200410034107 CN200410034107 CN 200410034107 CN 200410034107 A CN200410034107 A CN 200410034107A CN 1251130 C CN1251130 C CN 1251130C
Authority
CN
China
Prior art keywords
character
omega
sigma
overbar
centerdot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200410034107
Other languages
English (en)
Other versions
CN1570958A (zh
Inventor
丁晓青
王�华
刘长松
彭良瑞
方驰
于洪志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN 200410034107 priority Critical patent/CN1251130C/zh
Publication of CN1570958A publication Critical patent/CN1570958A/zh
Application granted granted Critical
Publication of CN1251130C publication Critical patent/CN1251130C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

多字体多字号印刷体藏文字符识别方法属于字符识别领域,其特征在于,提出了针对属于非方块字的印刷体藏文字符特点的归一化方案:将字符图像以基线,即上平线,为分界点分解成互不交叠的两个子图像,对每个子图像分别采用以重心和边框相结合的位置归一化和基于三次B样条函数插值的大小归一化方法;提取能充分反映藏文字符组成信息的四方向线素特征,利用线性鉴别分析LDA压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的粗、细两级分类策略进行字符类别的判决,粗、细分类器分别采用带偏差的欧氏距离EDD和修正的二次鉴别函数MQDF。本发明在多字体多字号印刷体藏文单字测试集上的识别正确率达到99.83%,对实际文本的识别率也可达99%以上。

Description

多字体多字号印刷体藏文字符识别方法
技术领域
多字体多字号印刷体藏文字符识别方法属于字符识别领域。
背景技术
藏文字符识别技术是中文多文种信息处理系统的重要组成部分,具有极高的理论价值和广阔的应用前景。字符识别方法可以归结为两类:统计决策方法和句法结构方法。在统计决策方法中,每个字符模式用一个特征矢量表示,它被看成是特征空间中的一个点,识别的过程就是在特征空间中将待识别字符模式正确地划分到所属的类别中。而句法结构方法则对于给定的字符集,抽取数量有限的不可分割的最小子模式(基元),将这些基元按照特定的顺序和规则组合起来可以构成该字符集中的任何字符。这样,利用字符结构与语言之间的相似性,字符识别可以借助形式语言学的文法(包含了句法规则)来描述剖析字符的结构。
字符数量大、字型结构复杂、字体种类多、相似字比例高给藏文字符识别研究带来了挑战。目前国内外对藏文识别的研究基本上还非常有限,尚未见到有成功的算法和系统出现。藏文虽然是拼音文字,每个字符都由若干个部件(字母及某些字母的变体)组成,但由于部件的结构及其相互间的连接方式复杂,使得正确分离字符中各部件非常困难,又考虑到句法结构方法的抗干扰性差等显著的弱点,所以本发明采用统计决策的方法来进行多字体多字号印刷体藏文字符识别的研究,以单个藏文字符的整体作为基本的识别单位。
在汉字识别中,方向线素很好地描述了它在所占空间的不同位置上横、竖、撇、捺四种基本单元的数量关系,从而全面、准确、稳定地反映了汉字的组成信息。藏文字符由各部件按照一定的次序纵向叠加在一起构成,而部件又由笔划组成,各部件中笔划之间的连接关系是固定不变的。这样,每个藏文字符都有特定的结构,并且这种结构可以被从层次、局部和细节三方面反映出来,而方向线素正是刻画这些结构特征的有效手段。
本发明在全面细致考察藏文字符特点的基础上,根据藏文字符的特殊形态,选择了恰当的归一化方法,抽取描述能力强的方向线素特征,利用基于置信度分析的两级统计分类器获得识别结果,实现了高性能的多字体多字号藏文字符识别方法,这是目前所有其他文献里都没有使用过的方法。
发明内容
本发明的目的在于实现一个多字体多字号印刷体藏文字符识别的方法。以单个藏文字符作为处理对象,首先对字符对象进行必要的归一化处理,包括位置归一化和大小归一化,然后提取能很好反映字符特点的四方向线素特征并采用LDA(线性鉴别分析)方法对特征进行压缩变换,采用基于置信度分析的粗、细两级统计分类器进行分类判决。由此,可以得到极高的单字识别正确率。根据该方法,实现了一个多字体多字号印刷体藏文字符识别系统。
作为一个印刷体藏文字符识别系统还包括单字样本的采集,即系统首先扫描输入印刷体藏文的文本,采用自动的方式进行字符切分。利用采集建立的训练样本数据库,进行方向线素特征抽取和特征变换,得到训练样本的特征数据库。在训练样本的特征数据库的基础上,通过实验确定分类器的参数。对未知的输入字符样本,采用同样的方法抽取特征,然后送入分类器与特征库进行分类比较,从而判断输入字符的类别属性。
本发明由以下几部分组成:字符归一化、四方向线素特征提取、特征变换、分类器设计。
1.字符归一化
1.1 位置归一化
设原始字符图像为[F(i,j)]W×H,图像宽度为W,高度为H,图像位于第i行第j列的象素点的值为F(i,j),i=1,2,…,H,j=1,2,…,W。根据藏文字符的特点,[F(i,j)]W×H可以看作两个互不重叠的子图像[F1(i,j)]W×H1、[F2(i,j)]W×H2的纵向拼接而成,其中[F1(i,j)]W×H1为基线(上平线)以上部分图像,即上元音部分,[F2(i,j)]W×H2,为基线以下部分,且H1+H2=H。设字符图像的水平投影V(i),i=1,2,…,H由下式计算:
V ( i ) = Σ j = 1 W F ( i , j )
则基线所在位置的纵坐标值PI为:
P I = arg max i ( V ( i ) - V ( i - 1 ) ) , i = 2,3 , · · · , H
根据PI和字符顶部的纵坐标的值就可以确定H1,而在本发明所采用的坐标系(图4)中,H1在数值上等于PI
设归一化后字符图像为[G(i,j)]M×N,图像宽度为M,高度为N,图像位于第i行第j列的象素点的值为G(i,j),i=1,2,…,N,j=1,2,…,M。同样的,[G(i,j)]M×N也可看作两个互不重叠子图像[G1(i,j)]M×N1、[G2(i,j)]M×N2的纵向拼接而成,其中[G1(i,j)]M×N1为基线以上部分图像,[G2(i,j)]M×N2,为基线以下部分,根据对藏文字符中基线的位置特性分析,此处设定N1=N/4,N2=3N/4。这样,归一化可以看成是将输入图像点阵[F1(i,j)]W×H1、[F2(i,j)]W×H2分别映射成目标图像点阵[G1(i,j)]M×N1、[G2(i,j)]M×N2的处理过程。在此过程中,选定输入图像点阵[Fk(i,j)]W×Hk,k=1,2中的参考点Uk(uIk uJk),k=1,2,移动输入图像点阵,使该参考点位于目标点阵[Gk(i,j)]M×Nk,k=1,2的中心,从而完成输入字符的位置归一化。
令[Fk(i,j)]W×Hk,k=1,2重心和外边框几何的中心分别为Ak(aIk,aJk),k=1,2和Bk(bIk,bJk),k=1,2,则有:
b Ik = H k / 2 b Jk = W / 2 , k = 1,2
a Ik = ( Σ j = 1 W Σ i = 1 H k ( i · F k ( i , j ) ) ) / ( Σ j = 1 W Σ i = 1 H k F k ( i , j ) ) a Jk = ( Σ i = 1 H k Σ j = 1 W ( j · F k ( i , j ) ) ) / ( Σ i = 1 H k Σ j = 1 W F k ( i , j ) ) , k = 1,2
令Uk(uIk,uJk),k=1,2为介于Ak(aIk,aJk),k=1,2与Bk(bIk,bJk),k=1,2之间的一点,即: u Ik = βa Ik + ( 1 - β ) b Ik u Jk = βa Jk + ( 1 - β ) b Jk , k = 1,2
其中β为常数且0≤β≤1。
1.2 大小归一化
藏文字符是非方块字,字符宽度具有相对稳定性,而各字符间高度差异很大,无法象汉字那样归一化为方形点阵。据对收集到的1200套藏文字符样本中共710,400个(6种字体、7种字号,每套样本592个字符)字符的高宽比特性所做的统计,取归一化之后的藏文字符的高宽比为2较合理,它是差别各异的各字体字符高宽比的一个折衷。
考察输入输入字符图像[Fk(i,j)]W×Hk,k=1,2,与归一化后目标字符点阵为[Gk(i,j)]M×Nk,k=1,2,之间的关系可知:
Gk(i,j)=Fk(i/ri,j/rj),k=1,2其中ri和rj分别为i和j方向的尺度变换因子:ri=Nk/Hk,rj=M/W。根据上式,输出图像点阵中的点(i,j)对应于输入字符中的点(i/ri,j/rj)。Fk(i,j)为离散函数,而i/ri、j/rj的取值一般不为整数,故需要根据Fk中已知的离散点处的值来估计其在(i/ri,j/rj)处的取值。本发明采用三次B样条函数来进行插值运算,以减少归一化后字符点阵出现诸如阶梯状边缘等畸变。对于给定(i,j),令:
p = i / r i = x 0 + &Delta; p q = j / r j = y 0 + &Delta; q , 0 &le; &Delta; p , &Delta; q < 1
其中: p 0 = [ p ] , &Delta; p = p - p 0 q 0 = [ q ] , &Delta; q = q - q 0 , [·]为取整函数。插值过程可表示为:
G k ( i , j ) = F k ( p 0 + &Delta; p , q 0 + &Delta; q ) = &Sigma; m = - 1 2 &Sigma; l = - 1 2 F k ( p 0 + m , q 0 + l ) R B ( m - &Delta; p ) R B ( - ( l - &Delta; q ) )
式中的RB(z)为三次B样条函数:
R B ( z ) = 1 6 [ ( z + 2 ) 3 W ( z + 2 ) - 4 ( z + 1 ) 3 W ( z + 1 ) + 6 z 3 W ( z ) - 4 ( z - 1 ) 3 W ( z - 1 ) ]
其中W(z)为阶跃函数, W ( z ) = 1 , z &GreaterEqual; 0 0 , z < 0
2.方向线素特征提取
2.1 提取字符的轮廓
假定特征字图像其笔划所对应的点为黑象素点,背景点为白象素点。对于笔划象素点,如果其8邻域有白象素点且当前黑象素不是孤立黑象素点(8邻域黑象素点的个数为0),则称该笔划象素点为轮廓点。提取轮廓图像的方法是扫描整个字符点阵,对于某个位置的黑象素,如果它的8邻域中的黑象素个数和白象素个数均大于0,则保留该黑象素,否则将字符点阵在该位置的值改为0。这样,从归一化后的字符图像[G(i,j)]M×N得到了其轮廓图像[G′(i,j)]M×N
2.2 分块和特征矢量的构成
对于字符轮廓点阵[G′(i,j)]M×N中的每一个黑象素,根据它与相邻的另外两个黑象素的位置关系,赋予它横(0°)、竖(90°)、撇(45°)、捺(135°)四种线素。考虑两种情况:一种是3个黑象素在同一直线上,则只给该中心象素分配一种线素特征并且赋值为2(图9a-d);另一种3个黑象素不在同一直线上,那么就同时给中心象素分配两种线素特征并分别赋值为1(图9e-p),如图9k所示的情况则给中心线素分配的线素是捺和竖,数值均为1,其余情况类推。按照这些原则对字符点阵中的各黑象素的进行线素特征的分配,对每个黑象素点(i,j),都可以得到一个4维向量X(i,j)=(xv,xk,xp,xo)T,其分量分别表示该黑象素点处的4种线索的数量。
完成上述工作以后,将M×N的点阵均匀分成宽为M0、高为N0的子区域(图10),每个子区域跟相邻的子区域之间在水平方向有M0/2、在垂直方向上有N0/2个象素的重合,故从整个M×N点阵可以得到的子区域个数为 ( 2 M M 0 - 1 ) &times; ( 2 N N 0 - 1 ) . 然后,将每个子区域划分成互相嵌套A、B、C、D四个小方块(图11),A、B、C、D的大小依次为(M0/4)×(N0/4)、(M0/2)×(N0/2)、(3M0/4)×(3N0/4)和M0×N0。对于每个小方块,分别定义一个4维向量XA=(xv,xk,xp,xo)T、XB=(xv,xk,xp,xo)T、XC=(xv,xk,xp,xo)T、XD=(xv,xk,xp,xo)T,表示各自的方块内各象素的在0°、90°、45°、135°方向上的线素数量的总和,即:
X A = &Sigma; ( i , j ) &Element; A X ( i , j )
X B = &Sigma; ( i , j ) &Element; B X ( i , j )
X C = &Sigma; ( i , j ) &Element; C X ( i , j )
X D = &Sigma; ( i , j ) &Element; D X ( i , j )
而整个子区域的方向线素特征向量XS=(xv,xk,xp,xo)T由该子区域中各方块特征向量的加权和来表示,即:
XS=αAXABXBCXCDXD其中αA,αB,αC,αD为介于0和1之间的常数,它们刻画了不同方块内的特征向量对本子区域整体特征向量的贡献的重要程度。这样,从每个子区域都可以得到一个4维特征向量后,将所有子区域的特征向量按顺序排列在一起组成的 4 ( 2 M M 0 - 1 ) &times; ( 2 N N 0 - 1 ) 维特征向量,这就是表示该字符的方向线素特征。
3.特征变换
特征维数的增大和训练样本的不足,将给分类器参数估计和识别计算量都带来很大的问题。根据一般的分类器设计的经验,对训练样本数的要求是达到特征维数的10倍以上。为了减少过高的特征维数和训练样本的相对不足给分类器设计和参数估计带来的困难,本发明利用LDA方法对高维的原始特征进行了压缩。
设字符类别数为c(在藏文字符识别中c=592),第ω类字符的训练样本数为Oω,ω=1,2,…,c,则对第该字符类别的训练样本采用上述方法提取四方向线素特征后,得到特征向量集合为{X1 ω,X2 ω,…,X ω},其中Xk ω(k=1,2,…,Oω)是 4 ( 2 M M 0 - 1 ) &times; ( 2 N N 0 - 1 ) 维向量。
首先计算每个字符类ω(1≤ω≤c)特征向量的中心μω和所有字符类的特征向量的中心μ
&mu; r = 1 O &omega; &Sigma; k = 1 O &omega; X k &omega;
&mu; = 1 c &Sigma; &omega; = 1 c &mu; &omega;
然后计算类间散度矩阵Sb和平均类内散度矩阵Sw
S b = 1 c &Sigma; &omega; = 1 c ( &mu; &omega; - &mu; ) ( &mu; &omega; - &mu; ) T
S w = 1 c &Sigma; &omega; = 1 c 1 O &omega; &Sigma; k = 1 O &omega; ( X k &omega; - &mu; &omega; ) ( X k &omega; - &mu; &omega; ) T
寻找变换矩阵Φ,使得tr[(ΦTSwΦ)-1TSbΦ)]达到最大,从而使模式类内散度方差与类间散度方差的比值达到最大以增加各模式类别间的可分性。
用矩阵计算工具计算矩阵Sw -1Sb的前 d ( d &le; 4 ( 2 M M 0 - 1 ) &times; ( 2 N N 0 - 1 ) ) 个最大的非零本征值ξk(k=1,2,…,d)和相应的本征向量_k(k=1,2,…,d),(Sw -1Sb)_k=ξk_k。则LDA变换的变换矩阵Φ=[_1,_2,…,_d]。相应的特征变换为Y=ΦTX,这里Y是最具判别性的d维特征。
4.分类器设计
分类器设计是字符识别的核心技术之一,研究者针对不同的问题提出了许多模式分类器。但在多种因素制约下,目前在处理大字符集识别问题时,往往还是选择最小距离分类器。本发明采用基于置信度分析的粗、细两级分类策略(图13)来完成输入待识别藏文字符所属类别的判断。
4.1 粗分类
粗分类的目的是在一个大的字符集中快速选出一个数目相对很小的候选字子集,并保证候选集中包含待识别字符所属正确类别的概率尽可能大。这就要求粗分类器结构简单、运算速度快。为此,本发明设计了一种带偏差的欧氏距离(EDD)分类器。
令Y=(y1,y2,…,yd)T为输入未知字符的d维特征向量,Yω=(yω 1,yω 2,…,yω d)T为第ω类字符的标准特征向量,带偏差的欧氏距离定义如下:
D ( Y , Y &omega; ) = &Sigma; k = 1 d [ t ( y k , y &omega; k ) ] 2
式中
t ( y k , y &omega; k ) = 0 , | y k - y &omega; k | < &theta; &omega; &CenterDot; &sigma; &omega; k &gamma; &omega; &CenterDot; &sigma; &omega; k + C , | y k - y &omega; k | > &gamma; &omega; &CenterDot; &sigma; &omega; k | y k - y &omega; k | , else
其中,σω k是第ω类字符特征向量的第k个分量的均方差,θω,γω为与ω相关的常数,C为与字符类别无关的常量。上式的一个最重要的特性是在欧氏距离中引入了字符特征的二阶统计量,这使得分类器对特征在空间上的分布具有一定的刻画能力。
4.2 细分类
贝叶斯分类器是理论上最优的统计分类器,在处理实际问题时,人们希望尽量去逼近它。当在字符的特征为高斯分布且各类特征分布的先验概率相等的条件下,贝叶斯分类器简化为马氏距离分类器。但该条件在实际中通常不易满足,而且马氏距离分类器的性能随着协方差矩阵估计误差的产生而严重劣化。本发明采用MQDF(修正二次鉴别函数)作为细分类度量,它是马氏距离的一个变形。MQDF鉴别函数形式为:
Q ( Y , Y &omega; ) = 1 h 2 { &Sigma; l = 1 d ( y l - y &omega; l ) 2 - &Sigma; l = 1 K ( 1 - h 2 &lambda; &omega;l ) [ ( Y - Y &omega; ) T &phi; &omega;l ] 2 } + ln ( h 2 ( d - K ) &Pi; l = 1 K &lambda; &omega;l )
其中λωl和φωl分别为第ω类样本的协方差矩阵Σω的第l个特征值和特征向量,K表示所截取的主本征向量的个数,也是模式类的主子空间维数,其最优值由实验确定,h2是对小本征值的实验估计。MQDF产生的是二次判决曲面,因只需估计每个类别协方差阵的前K个主本征向量,避免了小本征值估计误差的负面影响。MQDF鉴别距离可以看作是在K维主子空间内的马氏距离和剩余的(d-K)维空间内的欧氏距离的加权和,加权因子为1/h2
4.3 置信度计算
设粗分类器的输出候选集为CanSet={(e1,D1),(e2,D2)…,(eL,DL)},L为候选集容量,ek和Dk分别为候选字符和对应的粗分类距离,D1≤D2≤…≤DL。细分类器的作用是根据重新计算的鉴别距离对CanSet进行再排序,找到输入字符所属的最可能的类别。如果粗分类结果的可靠性相当高,换言之,若e1已经为输入字符的正确分类时,则细分类完全没必要进行。本发明对候选集CanSet进行置信度分析以决定是否需要进行细分类,采用EDD输出的距离作为度量,依下式计算置信度:
Conf ( CanSet ) = D 2 - D 1 D 1
当置信度低于一定的阈值ConfTH时,将CanSet送入细分类器处理,否则直接输出CanSet。本发明的特征在于,它是一种能够识别多种字体和多种字号的印刷体藏文字符识别技术。它依次含有以下步骤:
它首先对输入的单个藏文字符进行适当的位置归一化和大小归一化,以最大限度地消除输入字符因字号和字体的不同而造成的形状、姿态等方面的差异,然后提取能很好反映藏文字符结构特点的四方向线素特征,在此基础上,利用LDA变换提取最具鉴别性的特征以降低特征维数,把变换后特征送入基于识别置信度分析的粗、细两级分类器判定字符所属类别。在由图像采集设备和计算机组成的系统中,它依次含有以下步骤:
1.字符样本的采集
扫描输入印有多字体多字号藏文字符的文本,利用已有算法进行去除噪声、二值化等必要预处理后,将藏文文本进行切分以分离单个字符,对每个字符的图像标定其对应的正确的字符的内码,由此完成用以训练和测试的藏文字符单字样本的采集,建立训练样本数据库。
2.归一化处理,包含字符位置和大小的线性归一化
2.1 定位单个藏文字符的基线位置
设原始字符图像为[F(i,j)]W×H,其中W为图像宽度,H为图像高度,图像位于第i行第j列的象素点的值为F(i,j),i=1,2,…,H,j=1,2,…,W由下式计算字符图像的水平投影V(i),i=1,2,…,H:
V ( i ) = &Sigma; j = 1 W F ( i , j )
则基线的位置PL为:
P L = arg max i ( V ( i ) - V ( i - 1 ) ) , i = 2,3 , &CenterDot; &CenterDot; &CenterDot; , H
2.2 以基线为分界点将输入图像分离成两个子图像
[F(i,j)]W×H可以看作两个子图像[F1(i,j)]W×H1、[F2(i,j)]W×H2的纵向拼接其中[F1(i,j)]W×H1,为基线以上部分,即上元音部分;[F2(i,j)]W×H2为基线以下部分。两者没有交叠而是纵向组合在一起合成[F(i,j)]W×H,且H1+H2=H
对应的,归一化后的目标字符图像[G(i,j)]M×N也可以看作两个子图像[G1(i,j)]M×N1、[G2(i,j)]M×N2的纵向拼接其中M为目标图像的宽度,N为图像高度。[G1(i,j)]M×N1为基线以上部分图像,即上元音部分;[G2(i,j)]M×N2为基线以下部分。两者也没有交叠而是纵向组合成[G(i,j)]M×N,且设定N1=N/4,N2=3N/4。
2.3 位置归一化参考点Uk(uIk,uJk),k=1,2的选择
[Fk(i,j)]W×Hk,k=1,2重心和外边框中心分别为Ak(aIk,aJk),k=1,2和Bk(bIk,bJl),k=1,2其中
b Ik = H k / 2 b Jk = W / 2 , k = 1,2
a Ik = ( &Sigma; j = 1 W &Sigma; i = 1 H k ( i &CenterDot; F k ( i , j ) ) ) / ( &Sigma; j = 1 W &Sigma; i = 1 H k F k ( i , j ) ) a Jk = ( &Sigma; i = 1 H k &Sigma; j = 1 W ( j &CenterDot; F k ( i , j ) ) ) / ( &Sigma; i = 1 H k &Sigma; j = 1 W F k ( i , j ) ) , k = 1,2
令Uk(uIk,uJk),k=1,2为介于Ak(aIk,aJk),k=1,2与Bk(bIk,bJk),k=1,2之间的一点,即:
u Ik = &beta;a Ik + ( 1 - &beta; ) b Ik u Jk = &beta;a Jk + ( 1 - &beta; ) b Jk , k = 1,2
其中β为常数且0≤β≤1。
移动输入图像点阵,使该参考点位于目标点阵[Gk(i,j)]M×Nk,k=1,2的几何中心,从而完成输入字符的位置归一化
2.4 大小归一化
因[Fk(i,j)]W×Hk,k=1,2与[Gk(i,j)]M×Nk,k=1,2之间的关系为
Gk(i,j)=Fk(i/ri,j/rj),k=1,2其中ri和rj分别为i和j方向的尺度变换因子:ri=Nk/Hk,rj=M/W。故采用三次B样条函数进行插值运算,以减少归一化后字符出现诸如阶梯状边缘等畸变。对于给定(i,j),令:
p = i / r i = p 0 + &Delta; p q = j / r j = q 0 + &Delta; q , 0 &le; &Delta; p , &Delta; q < 1
其中: p 0 = [ p ] , &Delta; p = p - p 0 q 0 = [ q ] , &Delta; q = q - q 0 , [·]为取整函数。插值过程可表示为:
G k ( i , j ) = F k ( p 0 + &Delta; p , q 0 + &Delta; q ) = &Sigma; m = - 1 2 &Sigma; l = - 1 2 F k ( p 0 + m , q 0 + l ) R B ( m - &Delta; p ) R B ( - ( l - &Delta; q ) )
式中的RB(z)为三次B样条函数:
R B ( z ) = 1 6 [ ( z + 2 ) 3 W ( z + 2 ) - 4 ( z + 1 ) 3 W ( z + 1 ) + 6 z 3 W ( z ) - 4 ( z - 1 ) 3 W ( z - 1 ) ]
其中W(z)为阶跃函数, W ( z ) = 1 , z &GreaterEqual; 0 0 , z < 0
3.提取藏文字符的四方向线素特征
3.1 字符轮廓提取
扫描整个字符点阵,对于某个位置的黑象素,根据它的8邻域中的象素分布情况决定是否保留该黑象素。这样,可以得到归一化后的字符图像[G(i,j)]M×N的轮廓图像[G′(i,j)]M×N
3.2 方向线素特征的提取
首先,对于字符轮廓点阵[G′(i,j)]M×N中的每一个黑象素(i,j),根据它与相邻的另外两个黑象素的之间的位置关系,赋予它横(0°)、竖(90°)、撇(45°)、捺(135°)四种线素。并记为一个4维向量X(i,j)=(xv,xk,xp,xo)T
将整个大小为M×N的字符轮廓图像[G′(i,j)]M×N均匀划分为 ( 2 M M 0 - 1 ) &times; ( 2 N N 0 - 1 ) 个子区域,每个子区域又进一步划分成互相嵌套的、大小依次为(M0/4)×(N0/4)、(M0/2)×(N0/2)、(3M0/4)×(3N0/4)和M0×N0的A、B、C、D等4个小方块。每个上小方块的特征向量XA=(xv,xk,xp,xo)T、XB=(xv,xk,xp,xo)T、XC=(xv,xk,xp,xo)T、XD=(xy,xk,xp,xo)T表示为该方块内所有黑象素特征向量的和:
X A = &Sigma; ( i , j ) &Element; A X ( i , j )
X B = &Sigma; ( i , j ) &Element; B X ( i , j )
X C = &Sigma; ( i , j ) &Element; C X ( i , j )
X D = &Sigma; ( i , j ) &Element; D X ( i , j )
整个子区域的方向线素特征向量XS=(xv,xk,xp,xo)T由该子区域中各方块特征向量的加权和来表示:
XS=αAXABXBCXC+aDXD这样,从每个子区域都可以得到一个4维特征向量后,将所有子区域的特征向量按顺序排列在一起组成的表示输入字符的 4 ( 2 M M 0 - 1 ) &times; ( 2 N N 0 - 1 ) 维方向线素特征向量。
4.特征变换
设字符类别数为c,第ω类字符的训练样本数为Oω,ω=1,2,…,c,则对第该字符类别的训练样本采用上述方法提取四方向线素特征后,得到特征向量集合为{X1 ω,X2 ω,…,X ω},其中Xk ω(k=1,2,…,Oω)是 4 ( 2 M M 0 - 1 ) &times; ( 2 N N 0 - 1 ) 维向量。
利用LDA变换对原始特征压缩如下
首先计算每个字符类ω(1≤ω≤c)特征向量的中心μω、所有字符类的特征向量的中心μ、类间散度矩阵Sb和平均类内散度矩阵Sw
&mu; r = 1 O &omega; &Sigma; k = 1 O &omega; X k &omega;
&mu; = 1 c &Sigma; &omega; = 1 c &mu; &omega;
S b = 1 c &Sigma; &omega; = 1 c ( &mu; &omega; - &mu; ) ( &mu; &omega; - &mu; ) T
S w = 1 c &Sigma; &omega; = 1 c 1 O &omega; &Sigma; k = 1 O &omega; ( X k &omega; - &mu; &omega; ) ( X k &omega; - &mu; &omega; ) T
寻找变换矩阵Ф,使得tr[(ФTSwФ)-1TSbФ)]达到最大,则LDA相应的特征变换为Y=ФTX,这里Y是最具判别性的d维特征。
5.对输入字符所属类别的判断,即对未知类别的字符图像,提取特征,与识别库中已有的数据进行比较,以确定其正确的字符代码。
5.1 设计分类器
对由LDA压缩得到的特征向量Y,计算各字符的均值向量
Figure C20041003410700193
(ω=1,2,…,c)和各字符的特征向量在每一维上的方差σs ω(ω=1,2,…,c,s=1,2,…,d),d为Y的维数,
Y &omega; &OverBar; = 1 O &omega; &Sigma; k = 1 O &omega; Y k &omega; ,
&sigma; s &omega; = 1 O &omega; &Sigma; k = 1 O &omega; ( y &omega; ks - y &omega; &OverBar; s ) 2
其中每个藏文字符类别ω(1≤ω≤c)的特征集合为{Y1 ω,Y2 ω,…,Y ω),将各字符的鉴别特征均值向量和各维的方差存入鉴别特征数据库文件中,同时将通过实验得到的分类器的参数存入库文件中。
5.2 分类判决
对未知类别的输入字符图像,首先进行位置归一化和大小归一化处理,再提取四方向线素特征X,利用LDA线性变换矩阵Ф将原始方向线素特征X变换成Y=ФTX=(y1,y2,…,yd)T,d是变换后特征的维数。
从库文件中读取所有字符类的均值向量 Y &omega; &OverBar; = ( y 1 &omega; &OverBar; , y 2 &omega; &OverBar; , &CenterDot; &CenterDot; &CenterDot; y d &omega; &OverBar; ) T , (ω=1,2,…,c)和各字符类的各维的方差σs ω(ω=1,2,…,c,s=1,2,…,d)。计算Y到
Figure C20041003410700197
的带偏差的欧氏距离D
Figure C20041003410700198
D ( Y , Y &omega; &OverBar; ) = &Sigma; s = 1 d [ t ( y s , y &omega; s &OverBar; ) ] 2
其中
t ( y s , y &omega; s &OverBar; ) = 0 , | y s - y &omega; s &OverBar; | < &theta; &omega; &CenterDot; &sigma; &omega; s &gamma; &omega; &CenterDot; &sigma; &omega; s + C , | y s - y &omega; s &OverBar; | > &gamma; &omega; &CenterDot; &sigma; &omega; s | y s - y &omega; s &OverBar; | , else
将所有经过计算的 ω=1,2,…,c按照由小到大的顺序重新排序,选出前L(1≤L≤c)个距离及其所代表的字符类别码ek,k=1,2,…,L组成粗分类候选集CanSet={(e1,D1),(e2,D2)…,(eL,DL)},D1≤D2≤…≤DL
计算CanSet中首字符的识别置信度Conf(CanSet)
Conf ( CanSet ) = D 2 - D 1 D 1
若Conf(CanSet)高于一定的阈值ConfTH,直接将(e1,D1)作为输入字符的识别结果输出,即认为输入字符属于e1所对应的字符类别,且识别距离是D1。否则,计算Y到CanSet中各内码所对应的字符类别的MQDF鉴别距离
Figure C20041003410700204
ω=1,2,…,L
Q = ( Y , Y &omega; &OverBar; ) = 1 h 2 { &Sigma; l = 1 d ( y l - y &omega; l &OverBar; ) 2 - &Sigma; l = 1 K ( 1 - h 2 &lambda; &omega;l ) [ ( Y - Y &omega; &OverBar; ) T &phi; &omega;l ] 2 } + ln ( h 2 ( d - K ) &Pi; l = 1 K &lambda; &omega;l )
Q ( Y , Y &tau; &OverBar; ) = min 1 &le; &omega; &le; L Q ( Y , Y &omega; &OverBar; ) , 则该输入字符属于eτ所对应的字符类别,即 &tau; = arg min 1 &le; &omega; &le; L Q ( Y , Y &omega; &OverBar; ) .
实验证明,本发明在多字体多字号印刷体藏文单字测试集上的识别正确率达到99.83%,对实际文本的识别率也可达99%以上。
附图说明
图1一个典型的藏文字符识别系统的硬件构成。
图2藏文单字样本的生成。
图3藏文字符识别系统的构成。
图4采用的图像坐标系示意。
图5字符归一化流程
图6字符归一化示例
图7方向线素特征提取流程。
图8归一化后字符及其轮廓。
图9四方向线索特征中的横、竖、撇、捺四种方向属性。
图10图像子区域的划分方法。
图11构成子区域的小方块示意。
图12LDA特征变换流程图。
图13分类策略
图14基于本算法的多字体多字号印刷藏文字符识别系统。
图15多字体印刷藏文(混排汉英)文档识别系统
具体实施方式
如图1所示,一个印刷体藏文字符识别系统在硬件上由两部分构成:图像采集设备和计算机。图像采集设备一般是扫描仪,用来获取藏文字符的数字图像。计算机用于对数字图像进行处理,并进行判决分类。
图2所示的是训练藏文单字样本和测试藏文单字样本的生成过程。对于一篇印刷体藏文样张,首先通过扫描仪将其扫入计算机,使之变为数字图像。对数字图像二值化、去除噪声等预处理措施,得到二值化的图像。再对输入图像进行行切分,得到文本行,在此基础上对每一个文本行进行字切分,得到单个藏文字符,然后标定每个字符图像所属的字符类别。此后,要进行一次检查,对行、字切分阶段和字符类别标定阶段产生的错误采用手动方式改正。最后,将相同的字符类别对应的原始字符图像提取出来,并保存,完成藏文单字样本的采集。
如图3所示,印刷体藏文字符识别算法分为两个部分:训练系统和测试系统。训练系统中,对输入的藏文单字训练样本集中的每一个样本,恰当地进行归一化处理,提取反映其组成信息的四方向线素特征,利用LDA对特征进行变换,降低原始特征维数,然后,采用合适的分类器,训练分类器,得到特征库文件。在测试系统中,对输入的未知类别字符图像,采用和训练系统同样的归一化和特征提取方法,并用训练系统得到的变换矩阵对特征进行变换,然后送入分类器进行分类,判断输入字符所属的类别。
因而,实用的多字体多字号印刷体藏文字符识别系统的实现需要考虑如下几个方面:
A)藏文字符单字样本的获取;
B)训练系统的实现;
C)测试系统的实现。
下面分别对这三个方面进行详细介绍。
A)藏文字符单字本的获取
印刷体藏文单字样本的获取过程如图2所示。输入的一篇纸质印刷体藏文文档通过扫描仪得到数字图像,输入计算机。然后对该图像进行噪声去除、二值化等预处理措施。利用各种虑波方法去除噪声在现有文献中已经有大量记载。二值化方法可采用已有的全局二值化或局部自适应二值化。接着对文档进行版面分析,得到字符区域。对字符区域分别利用水平投影直方图和垂直投影直方图进行行切分和字切分得到单个字符。在此阶段的切分错误采用手动的方式进行更正。对得到的单个藏文字符的类别进行标定,一般采用计算机自动标定,对其中的错误进行人工处理(更该、删除等)。最后,把具有相同内码的字符所对应的不同字体、不同字号的原始字符图像保存起来,就得到了多字体多字号印刷体藏文单字样本。
B)训练系统的实现
B.1 字符归一化
B.1.1 位置归一化
设原始字符图像为[F(i,j)]W×H,图像宽度为W,高度为H,图像位于第i行第j列的象素点的值为F(i,j),i=1,2,…,H,j=1,2,…,W。[F(i,j)]W×H可以看作由两个子图像——基线以上部分[F1(i,j)]W×H1和基线以下部分[F2(i,j)]W×H2的纵向拼接而成,H1+H2=H。设字符图像的水平投影为V(i),i=1,2,…,H,可由下式计算:
V ( i ) = &Sigma; j = 1 W F ( i , j )
则基线所在位置的纵坐标值PI为:
P I = arg max i ( V ( i ) - V ( i - 1 ) ) , i = 2,3 , &CenterDot; &CenterDot; &CenterDot; , H
根据PI和字符顶部的纵坐标的值就可以确定H1,而在本发明所采用的坐标系(图4)中,H1在数值上等于PI
设归一化后字符图像为[G(i,j)]M×N,图像宽度为M,高度为N,图像位于第i行第j列的象素点的值为G(i,j),i=1,2,…,N,j=1,2,…,M。同样的,[G(i,j)]M×N也可以看作两个子图像——基线以上部分[G1(i,j)]M×N1和基线以下部分[G2(i,j)]M×N2的纵向拼接而成,此处设定N1=N/4,N2=3N/4。这样,归一化可以看成是将输入图像点阵[F1(i,j)]W×H1、[F2(i,j)]W×H2分别映射成目标图像点阵[G1(i,j)]M×N1、[G2(i,j)]M×N2的处理过程。在此过程中,选定输入图像点阵[Fk(i,j)]W×Hk,k=1,2中的参考点Uk(uIk,uJk),k=1,2,移动输入图像点阵,使该参考点,位于目标点阵[Gk(i,j)]M×Nk,k=1,2的中心,从而完成输入字符的位置归一化。
令[Fk(i,j)]W×Hk,k=1,2重心和外边框几何的中心分别为Ak(aIk,aJk),k=1,2和Bk(bIk,bJk),k=1,2,则有:
b Ik = H k / 2 b Jk = W / 2 , k = 1,2
a Ik = ( &Sigma; j = 1 W &Sigma; i = 1 H k ( i &CenterDot; F k ( i , j ) ) ) / ( &Sigma; j = 1 W &Sigma; i = 1 H k F k ( i , j ) ) a Jk = ( &Sigma; i = 1 H k &Sigma; j = 1 W ( j &CenterDot; F k ( i , j ) ) ) / ( &Sigma; i = 1 H k &Sigma; j = 1 W F k ( i , j ) ) , k = 1,2
令Uk(uIk,uJk),k=1,2为介于Ak(aIk,aJk),k=1,2与Bk(bIk,bJk),k=1,2之间的一点,即:
u Ik = &beta;a Ik + ( 1 - &beta; ) b Ik u Jk = &beta;a Jk + ( 1 - &beta; ) b Jk , k = 1,2
其中β为常数且0≤β≤1。
B.1.2 大小归一化
考察输入字符图像[Fk(i,j)]W×Hk,k=1,2与归一化后目标字符点阵为[Gk(i,j)]M×Nk,k=1,2之间的关系可知:
Gk(i,j)=Fk(i/ri,j/rj),k=1,2其中ri和rj分别为i和j方向的尺度变换因子:ri=Nk/Hk,rj=M/W。根据上式,输出图像点阵中的点(i,j)对应于输入字符中的点(i/ri,j/rj)。Fk(i,j)为离散函数,而i/ri、j/rj的取值一般不为整数,故需要根据Fk中已知的离散点处的值来估计其在(i/ri,j/rj)处的取值。采用三次B样条函数进行插值运算,以减少归一化后字符出现畸变。对于给定(i,j),令:
p = i / r i = p 0 + &Delta; p q = j / r j = q 0 + &Delta; q , 0 &le; &Delta; p , &Delta; q < 1
其中: p 0 = [ p ] , &Delta; p = p - p 0 q 0 = [ q ] , &Delta; q = q - q 0 , [·]为取整函数。插值过程可表示为:
G k ( i , j ) = F k ( p 0 + &Delta; p , q 0 + &Delta; q ) = &Sigma; m = - 1 2 &Sigma; l = - 1 2 F k ( p 0 + m , q 0 + l ) R B ( m - &Delta; p ) R B ( - ( l - &Delta; q ) )
式中的RB(z)为三次B样条函数:
R B ( z ) = 1 6 [ ( z + 2 ) 3 W ( z + 2 ) - 4 ( z + 1 ) 3 W ( z + 1 ) + 6 z 3 W ( z ) - 4 ( z - 1 ) 3 W ( z - 1 ) ]
其中W(z)为阶跃函数, W ( z ) = 1 , z &GreaterEqual; 0 0 , z < 0
B.2 方向线素特征提取
B.2.1 取字符的轮廓
扫描整个字符点阵,对于某个位置的黑象素,如果它的8邻域中黑象素个数和白象素个数均大于0,则保留该黑象素,否则将字符点阵在该位置的值改为0。这样,可以从归一化后的字符图像[G(i,j)]M×N的轮廓图像[G′(i,j)]M×N
B.2.2 分块和特征矢量的构成
对于字符轮廓点阵[G′(i,j)]M×N中的每一个黑象素,根据它与相邻的另外两个黑象素的位置关系,赋予它横(0°)、竖(90°)、撇(45°)、捺(135°)四种线索。考虑两种情况:一种是3个黑象素在同一直线上,则只给该中心象素分配一种线素特征并且赋值为2;另一种3个黑象素不在同一直线上,那么就同时给中心象素分配两种线素特征并分别赋值为1。按照这些原则对字符点阵中的各黑象素的进行线素特征的分配,对每个黑象素点(i,j),都可以得到一个4维向量X(i,j)=(xv,xk,xp,xo)T,其分量分别表示该黑象素点处的4种线素数量。
完成上述工作以后,将M×N的点阵均匀划分成宽为M0、高为N0的子区域,每个子区域跟相邻的子区域之间在水平方向有M0/2、在垂直方向上有N0/2个象素的重合,故子区域的总个数为 ( 2 M M 0 - 1 ) &times; ( 2 N N 0 - 1 ) 然后,将每个子区域划分成互相嵌套、大小依次为(M0/4)×(N0/4)、(M0/2)×(N0/2)、(3M0/4)×(3N0/4)和M0×N0的A、B、C、D等4个小方块。对每个小方块,分别定义一个4维向量XA=(xv,xk,xp,xo)T、XB=(xv,xk,xp,xo)T、XC=(xv,xk,xp,xo)T、XD=(xv,xk,xp,xo)T,它们表示各自方块内各象素的0°、90°、45°、135°方向线素数量的总和,即:
X A = &Sigma; ( i , j ) &Element; A X ( i , j )
X B = &Sigma; ( i , j ) &Element; B X ( i , j )
X C = &Sigma; ( i , j ) &Element; C X ( i , j )
X D = &Sigma; ( i , j ) &Element; D X ( i , j )
而整个子区域的方向线素特征向量XS=(xv,xk,xp,xo)T表示为该子区域中各方块特征向量的加权和,即:
XS=αAXABXBCXCDXD其中αA,αB,αC,αD为介于0和1之间的常数,它们刻画了不同方块内的特征向量对本子区域总体特征向量的贡献的重要程度。这样,从每个子区域都可以得到一个4维特征向量后,将所有子区域的特征向量按顺序排列在一起组成的 4 ( 2 M M 0 - 1 ) &times; ( 2 N N 0 - 1 ) 维方向线素特征向量。
B.3特征变换
设字符类别数为c(在藏文字符识别中c=592),第ω类字符的训练样本数为Oω,ω=1,2,…,c,原始方向线素特征向量集合为{X1 ω,X2 ω,…,X ω},其中Xk ω(k=1,2,…,Oω)是 4 ( 2 M M 0 - 1 ) &times; ( 2 N N 0 - 1 ) 维向量。
首先计算每个字符类ω(1 ≤ω≤c)特征向量的中心μω、所有字符类的特征向量的中心μ、类间散度矩阵Sb和平均类内散度矩阵Sw
&mu; r = 1 O &omega; &Sigma; k = 1 O &omega; X k &omega;
&mu; = 1 c &Sigma; &omega; = 1 c &mu; &omega;
S b = 1 c &Sigma; &omega; = 1 c ( &mu; &omega; - &mu; ) ( &mu; &omega; - &mu; ) T
S w = 1 c &Sigma; &omega; = 1 c 1 O &omega; &Sigma; k = 1 O &omega; ( X k &omega; - &mu; &omega; ) ( X k &omega; - &mu; &omega; ) T
寻找变换矩阵Ф,使得tr[(ФTSwФ)-1TSbФ)]达到最大,从而使模式类内散度方差与类间散度方差的比值达到最大以增加各模式类别间的可分性。
用矩阵计算工具计算矩阵占Sw -1Sb的前 d ( d &le; 4 ( 2 M M 0 - 1 ) &times; ( 2 N N 0 - 1 ) ) 个最大的非零本征值ξk(k=1,2,…,d)和相应的本征向量_k(k=1,2,…,d),(Sw -1Sb)_k=ξk_k。则LDA变换的变换矩阵Ф=[_1,_2,…,_d]。相应的特征变换为Y=ФTX,这里Y是最具判别性的d维特征。
B.4 设计分类器
对经LDA变换得到特征向量Y,计算各字符的均值向量
Figure C20041003410700262
(ω=1,2,…,c)和各字符的特征向量在每一维上的方差σs ω(ω=1,2,…,c,s=1,2,…,d),d为Y的维数,
Y &omega; &OverBar; = 1 O &omega; &Sigma; k = 1 O &omega; Y k &omega; ,
&sigma; s &omega; = 1 O &omega; &Sigma; k = 1 O &omega; ( y &omega; ks - y &omega; &OverBar; s ) 2
其中每个藏文字符类别ω(1≤ω≤c)的最具可分性的特征集合为{Y1 ω,Y2 ω,…,Y ω},将各字符的鉴别特征均值向量和各维上的方差存入鉴别特征数据库文件中,同时将通过实验调整分类器的各相关参数的值并存入库文件中。这样就完成了分类器的设计和训练。
C)测试系统的实现
对未知类别的输入字符图像,首先进行位置归一化和大小归一化处理,再提取四方向线素特征X,利用LDA线性变换矩阵Ф将原始方向线素特征X变换成Y=ФTX=(y1,y2,…,yd)T,d是变换后特征的维数。
从库文件中读取所有字符类的均值向量 Y &omega; &OverBar; = ( y 1 &omega; &OverBar; , y 2 &omega; &OverBar; , &CenterDot; &CenterDot; &CenterDot; y d &omega; &OverBar; ) T , ,(ω=1,2,…,c)和各字符类的各维的方差σs ω(ω=1,2,…,c,s=1,2,…,d)。计算Y到 的带偏差的欧氏距离
Figure C20041003410700267
D ( Y , Y &omega; &OverBar; ) = &Sigma; s = 1 d [ t ( y s , y &omega; s &OverBar; ) ] 2
其中
t ( y s , y &omega; s &OverBar; ) = 0 , | y s - y &omega; s &OverBar; | < &theta; &omega; &CenterDot; &sigma; &omega; s &gamma; &omega; &CenterDot; &sigma; &omega; s + C , | y s - y &omega; s &OverBar; | > &gamma; &omega; &CenterDot; &sigma; &omega; s | y s - y &omega; s &OverBar; | , else
将所有经过计算的
Figure C20041003410700272
ω=1,2,…,c按照由小到大的顺序重新排序,选出前L(1≤L≤c)个距离及其所代表的字符类别码ek,k=1,2,…,L组成粗分类候选集CanSet={(e1,D1),(e2,D2)…,(eL,DL)},D1≤D2≤…≤DL
计算CanSet中首字符的识别置信度Conf(CanSet)
Conf ( CanSet ) = D 2 - D 1 D 1
若Conf(CanSet)高于一定的阈值ConfTH,直接将(e1,D1)作为输入字符的识别结果输出,即认为输入字符属于e1所对应的字符类别,且识别距离是D1。否则,计算Y到CanSet中各内码所对应的字符类别的MQDF鉴别距离
Figure C20041003410700274
ω=1,2,…,L
Q = ( Y , Y &omega; &OverBar; ) = 1 h 2 { &Sigma; l = 1 d ( y l - y &omega; l &OverBar; ) 2 - &Sigma; l = 1 K ( 1 - h 2 &lambda; &omega;l ) [ ( Y - Y &omega; &OverBar; ) T &phi; &omega;l ] 2 } + ln ( h 2 ( d - K ) &Pi; l = 1 K &lambda; &omega;l )
Q ( Y , Y &tau; &OverBar; ) = min 1 &le; &omega; &le; L Q ( Y , Y &omega; &OverBar; ) , 则该输入字符属于eτ所对应的字符类别,即 &tau; = arg min 1 &le; &omega; &le; L Q ( Y , Y &omega; &OverBar; ) . 以下给出两个具体的实现例子。
实施例1:多字体多字号印刷体藏文字符识别系统
基于本发明的多字体多字号印刷体藏文字符识别系统如图14a所示,实验在收集到的1200套印刷体藏文文档(每个文档包涵全部592个现代藏文字符)上进行的,这些样本文档大部分采自当今主要的印刷藏文出版系统(方正、华光),也有少量由TureType字体直接打印形成。字体不仅有最常用的白体、黑体和通用体,还包括圆体、长体、竹体,字号从六号到初号。样本质量不等,正常、断裂、粘连字符的比例约为2∶1∶1。经过扫描输入、行、字切分和内码标定等过程,将这1200套藏文文档转换为1200套单字样本(即每个字符类别有1200个单字样本),从中随机抽出900套组成训练集,其余300套留作测试样本。
实验中,采用本发明的方法将每个藏文字符归一化为48×96的点阵,归一化参数β=0.5。四方向线素特征提取中子区域的如图10所示方式划分,取M0=N0=16,子区域中各方块的特征向量对整个子区域特征向量的加权系数αA,αB,αC,αD分别为0.4,0.3,0.2,0.1。按照图7所示的流程提取方向线索特征后,采用LDA线性变换进行特征压缩,变换后特征维数d选定为128(图14c)。粗分类器EDD中的参数θ1=θ2=…=θ592=0.8,γ1=γ2=…=γ592=2.2,C=20,粗分类置信度分析时采用阈值ConfTH=0.9,细分类器MQDF中的参数K=32(图14b),h2用各字符类的协方差阵的第K个本征值的均值作为估计值。在测试集上的实验结果如表1所示
表1系统在六种藏文字体测试样本集上的识别率
  字体   白体   黑体   通用体   圆体   长体   竹体 平均识别率
  字符数   36112   39072   35520   30192   14800   22496
  识别率   99.94%   99.86%   99.83%   99.85%   99.58%   99.76% 99.83%
从表1可见,多字体多字号藏文字符的平均识别正确率达到99.83%,表明本发明所提的方法的有效性。
实施例2:多字体印刷藏文(混排汉英)文档识别系统
多字体印刷藏文(混排汉英)文档识别系统的研究是为适应藏族地区办公自动化和促进中文多文种信息处理技术发展的需求而展开的,它的系统框图如图15所示。主要包括图像输入和预处理子系统、行字切分子系统、字符识别子系统和后处理子系统。本发明是字符识别子系统的主要组成部分,在汉字和英文识别核心的配合下对藏文占主体、夹杂一定汉字和英文、数字、符号的多字体印刷文档进行自动识别,将文档图像转换为计算机可“阅读”的文本。
在该系统中的藏文字符识别部分采用本发明提出的方法,具体参数与实施例1一致,移植了实施例1中的字符特征库。该系统于2003年11月通过了教育部主持的专家鉴定。在鉴定测试时,从由西北民族大学提供的500余页,共52万余字的实际印刷体藏文文档(采自书籍、报刊、杂志等出版物)中随机选出62页,共95583个字符进行了测试,结果如下:
表2多字体印刷藏文(混排汉英)文档识别系统的测试性能
字符种类   字符数目   识别正确率(%)             错误率分布
  ACE(%)    ASE(%)  UTE(%)
藏文   91636   99.06   0.30    0.57  0.07
汉字   804   96.27   1.99    1.74  0
英文+符号     2118     86.59     5.24     6.66     1.51
数字     1025     92.39     3.61     3.42     0.58
合计     95583     98.68     -     -     -
注:ACE为可判断的识别错误率  ASE为可判断的切分错误率  UTE为不可判断错误类型的错误率
该结果表明,本发明提出的多字体多字号印刷体藏文字符识别完全适应实际应用的需要,能够获得良好的识别性能,具有广泛的应用前景。

Claims (1)

1.多字体多字号印刷体藏文字符识别方法,其特征在于,提出了针对属于非方块字的印刷体藏文字符特点的归一化方案:将字符图像以基线,即上平线,为分界点分解成互不交叠的两个子图像,对每个子图像分别采用以重心和边框相结合的位置归一化和基于三次B样条函数插值的大小归一化方法;提取能充分反映藏文字符组成信息的四方向线素特征,利用线性鉴别分析LDA压缩降维后得到紧凑的字符特征向量;采用基于置信度分析的粗、细两级分类策略进行字符类别的判决,粗、细分类器分别采用带偏差的欧氏距离EDD和修正的二次鉴别函数MQDF;在由图像采集设备和计算机组成的系统中,多字体多字号印刷体藏文字符识别方法依次含有以下步骤:
(1)设定:
(1.1)本发明处理的藏文字符类别总数c=592;
(1.2)归一化后字符宽度M、高度N;
位置归一化参数β;
(1.3)提取方向线素特征时,划分的子区域宽度M0、高度N0
子区域中各方块的特征向量对整个子区域特征向量的加权系数αA,αB,αC,αD
(1.4)粗分类器EDD中的参数C为与字符类别无关的常量,设定C=20;θk,γk为设定的常量,θk=0.8,γk=2.2,其中k=1,2,…,592;
(1.5)置信度阈值ConfTH
(2)字符样本的采集
通过扫描仪向计算机输入印有多字体多字号藏文字符的文本,利用已有方法进行除噪声、二值化等必要预处理后,将藏文文本进行切分以分离单个字符,对每个字符的图像标定其对应的正确的字符的内码,由此完成用以训练和测试的藏文字符单字样本的采集,建立训练样本数据库;
(3)归一化处理,包含字符位置和大小的归一化
(3.1)定位单个藏文字符的基线位置
设原始字符图像为[F(i,j)]W×H
其中W为图像宽度,H为图像高度,图像位于第i行第j列的象素点的值为F(i,j),i=1,2,…,H,j=1,2,…,W,
计算字符图像的水平投影V(i),i=1,2,…,H为:
V ( i ) = &Sigma; j = 1 W F ( i , j ) ,
则基线所在位置的纵坐标值PI为:
P I = arg max i ( V ( i ) - V ( i - 1 ) ) , i = 2,3 , &CenterDot; &CenterDot; &CenterDot; , H ;
(3.2)以基线为分界点将输入图像分离成两个子图像
[F(i,j)]W×H可以看作两个子图像[F1(i,j)]W×H1、[F2(i,j)]W×H2的纵向拼接,
其中[F1(i,j)]W×H1为基线以上部分,即上元音部分;[F2(i,j)]W×H2为基线以下部分,两者没有交叠而是纵向组合在一起合成[F(i,j)]W×H,且H1+H2=H,由PI和字符顶部的纵坐标的差值可确定出H1的大小;
对应的,归一化后的目标字符图像[G(i,j)]M×N也可以看作两个子图像[G1(i,j)]M×N1、[G2(i,j)]M×N2的纵向拼接,
其中,M为目标图像的宽度,N为图像高度;[G1(i,j)]M×N1为基线以上部分图像,即上元音部分;[G2(i,j)]M×N2为基线以下部分;两者也没有交叠而是纵向组合成[G(i,j)]M×N,且设定N1=N/4,N2=3N/4;
(3.3)位置归一化参考点Uk(uIk,uJk),k=1,2的选择
[Fk(i,j)]W×Hk,k=1,2重心和外边框中心分别为Ak(aIk,aJk),k=1,2和Bk(BIk,bJk),k=1,2
其中
b Ik = H k / 2 b Jk = W / 2 , k = 1,2 ,
a Ik = ( &Sigma; j = 1 W &Sigma; i = 1 H k ( i &CenterDot; F k ( i , j ) ) ) / ( &Sigma; j = 1 W &Sigma; i = 1 H k F k ( i , j ) ) a Jk = ( &Sigma; i = 1 H k &Sigma; j = 1 W ( j &CenterDot; F k ( i , j ) ) ) / ( &Sigma; i = 1 H k &Sigma; j = 1 W F k ( i , j ) ) , k = 1,2 ,
则Uk(UIk,UJk),k=1,2取介于Ak(aIk,aJk),k=1,2与Bk(bIk,bJk),k=1,2之间的一点,即:
u Ik = &beta; &alpha; Ik + ( 1 - &beta; ) b Ik u Jk = &beta; &alpha; Jk + ( 1 - &beta; ) b Jk , k = 1 , 2 ,
其中β为常数且0≤β≤1;
移动输入图像点阵,使该参考点,位于目标点阵[Gk(i,j)]M×Nk,k=1,2的几何中心,从而完成输入字符的位置归一化;
(3.4)大小归一化
因[Fk(i,j)]W×Hk,k=1,2与[Gk(i,j)]M×Nk,k=1,2之间的关系为:
Gk(i,j)=Fk(i/ri,j/rj),k=1,2,
其中ri和rj分别为i和j方向的尺度变换因子:ri=Nk/Hk,rj=M/W;采用三次B样条函数进行插值运算;
对于给定(i,j),令:
p = i / r i = p 0 + &Delta; p q = j / r j = q 0 + &Delta; q , 0 &le; &Delta; p , &Delta; q < 1 ,
其中: p 0 = [ p ] , &Delta; p = p - p 0 q 0 = [ q ] , &Delta; q = q - q 0 , [·]为取整函数;
插值过程可表示为:
G k ( i , j ) = F k ( p 0 + &Delta; p , q 0 + &Delta; q ) = &Sigma; m = - 1 2 &Sigma; l = - 1 2 F k ( p 0 + m , q 0 + l ) R B ( m - &Delta; p ) R B ( - ( l - &Delta; q ) ) ,
式中的RB(z)为三次B样条函数:
R B ( z ) = 1 6 [ ( z + 2 ) 3 W ( z + 2 ) - 4 ( z + 1 ) 3 W ( z + 1 ) + 6 z 3 W ( z ) - 4 ( z - 1 ) 3 W ( z - 1 ) ] ,
其中W(z)为阶跃函数, W ( z ) = 1 , z &GreaterEqual; 0 0 , z < 0 ;
(4)提取藏文字符的四方向线素特征
(4.1)字符轮廓提取
扫描整个字符点阵,对于某个位置的黑象素,若它的8邻域中的黑象素和背景象素的个数均大于0,则保留该黑象素,否则,将该黑象素设为背景象素;这样,得到归一化后的字符图像[G(i,j)]M×N的轮廓图像[G′(i,j)]M×N
(4.2)方向线素特征的形成
首先,对于字符轮廓点阵[G′(i,j)]M×N中的每一个黑象素(i,j),根据它与相邻的另外两个黑象素的之间的位置关系,赋予它横、竖、撇、捺四种线素,并记为一个4维向量X(i,j)=(xv,xk,xp,xo)T
将整个大小为M×N的字符轮廓图像[G′(i,j)]M×N均匀划分为 个宽度为M0、高度为N0的子区域,每个子区域又进一步划分成互相嵌套的、大小依次为(M0/4)×(N0/4)、(M0/2)×(N0/2)、(3M0/4)×(3N0/4)和M0×N0的A、B、C、D等4个小方块;每个上小方块的特征向量XA=(xv,xk,xp,xo)T、XB=(xv,xk,xp,xo)T、XC=(xv,xk,xp,xo)T、XD=(xv,xk,xp,xo)T表示为该方块内所有黑象素特征向量的和:
X A = &Sigma; ( i , j ) &Element; A X ( i , j ) ,
X B = &Sigma; ( i , j ) &Element; B X ( i , j ) ,
X C = &Sigma; ( i , j ) &Element; C X ( i , j ) ,
X D = &Sigma; ( i , j ) &Element; D X ( i , j ) ,
整个子区域的方向线素特征向量XS=(xv,xk,xp,xo)T由该子区域中各方块特征向量的加权和来表示:
XS=αAXABXBCXCDXD
其中αA,αB,αC,αD为介于0和1之间的常数;这样,从每个子区域都可以得到一个4维特征向量后,将所有子区域的特征向量按顺序排列在一起组成的表示输入字符的维原始方向线素特征向量;
(5)特征变换
设藏文字符类别数为c,第ω类字符的训练样本数为Oω,ω=1,2,…,c,则对该字符类别的训练样本采用上述方法提取四方向线素特征后,得到特征向量集合为{X1 ω,X2 ω,…,X ω},其中Xk ω(k=1,2,…,Oω)是 维向量;
利用LDA变换对原始特征压缩如下:
首先计算每个字符类ω(1≤ω≤c)特征向量的中心μω、所有字符类的特征向量的中心μ、类间散度矩阵Sb和平均类内散度矩阵Sw
&mu; r = 1 O &omega; &Sigma; k = 1 O &omega; X k &omega; ,
&mu; = 1 c &Sigma; &omega; c &mu; &omega; ,
S b = 1 c &Sigma; &omega; = 1 c ( &mu; &omega; - &mu; ) ( &mu; &omega; - &mu; ) T ,
S w = 1 c &Sigma; &omega; = 1 c 1 O &omega; &Sigma; k = 1 O &omega; ( X k &omega; - &mu; &omega; ) ( X k &omega; - &mu; &omega; ) T ,
寻找变换矩阵Φ,使得tr[(ΦTSwΦ)-1TSbΦ)]达到最大,则LDA相应的特征变换为Y=ΦTX,这里Y是最具判别性的d维特征;
(6)对输入字符所属类别的判断,即对未知类别的字符图像,提取特征,与识别库中已有的数据进行比较,以确定其正确的字符代码;
(6.1)设计分类器
对由LDA压缩得到的特征向量Y,计算各字符的均值向量 Y &omega; &OverBar; ( &omega; = 1,2 , &CenterDot; &CenterDot; &CenterDot; , c ) 和各字符的特征向量在每一维上的方差σs ω(ω=1,2,…,c,s=1,2,…,d),d为Y的维数,
Y &omega; &OverBar; = 1 O &omega; &Sigma; k = 1 O &omega; Y k &omega; ,
&sigma; s &omega; = 1 O &omega; &Sigma; k = 1 O &omega; ( y &omega; ks - y &omega; &OverBar; s ) 2 ,
其中每个藏文字符类别ω(1≤ω≤c)的特征集合为
Figure C2004100341070006C9
将各字符的鉴别特征均值向量和各维的方差存入鉴别特征数据库文件中,同时将通过实验得到的分类器的参数存入库文件中;
(6.2)分类判决
对未知类别的输入字符图像,首先进行位置归一化和大小归一化处理,再提取四方向线素特征X,利用LDA线性变换矩阵Φ将原始方向线素特征X变换成Y=ΦTX=(y1,y2,…,yd)T,d是变换后特征的维数;
从库文件中读取所有字符类的均值向量 Y &omega; &OverBar; = ( y 1 &omega; &OverBar; , y 2 &omega; &OverBar; , &CenterDot; &CenterDot; &CenterDot; y d &omega; &OverBar; ) T (ω=1,2,…,c)和各字符类的各维的方差σs ω(ω=1,2,…,c,s=1,2,…,d),计算Y到
Figure C2004100341070007C2
的带偏差的欧氏距离
D ( Y , Y &omega; &OverBar; ) = &Sigma; s = 1 d [ t ( y s , y &omega; s &OverBar; ) ] 2 ,
其中
t ( y s , y &omega; s &OverBar; ) = 0 , | y s - y &omega; s &OverBar; | < &theta; &omega; &CenterDot; &sigma; &omega; s &gamma; &omega; &CenterDot; &sigma; &omega; s + C , | y s - y &omega; s &OverBar; | > &gamma; &omega; &CenterDot; &sigma; &omega; s ; | y s - y &omega; s &OverBar; | , else
将所有经过计算的 D ( Y , Y &omega; &OverBar; ) , &omega; = 1,2 , &CenterDot; &CenterDot; &CenterDot; , c 按照由小到大的顺序重新排序,选出前L(1≤L≤c)个距离及其所代表的字符类别码ek,k=1,2,…,L组成粗分类候选集CanSet={(e1,D1),(e2,D2)…,(eL,DL)},D1≤D2≤…≤DL
计算CanSet中首字符的识别置信度Conf(CanSet)
Conf ( CanSet ) = D 2 - D 1 D 1 ,
若Conf(CanSet)高于一定的阈值ConfTH,直接将(e1,D1)作为输入字符的识别结果输出,即认为输入字符属于e1所对应的字符类别,且识别距离是D1;否则,计算Y到CanSet中各内码所对应的字符类别的MQDF鉴别距离 Q ( Y , Y &omega; &OverBar; ) , &omega; = 1,2 , &CenterDot; &CenterDot; &CenterDot; , L :
Q ( Y , Y &omega; &OverBar; ) = 1 h 2 { &Sigma; l = 1 d ( y l - y &omega; l &OverBar; ) 2 - &Sigma; l = 1 K ( 1 - h 2 &lambda; &omega;l ) [ ( Y - Y &omega; &OverBar; ) T &phi; &omega;l ] 2 } + ln ( h 2 ( d - K ) &Sigma; l = 1 K &lambda; &omega;l ) ,
Q ( Y , Y &tau; &OverBar; ) = min 1 &le; &omega; &le; L Q ( Y , Y &omega; &OverBar; ) , 则该输入字符属于eτ所对应的字符类别,即 &tau; = arg min 1 &le; &omega; &le; L Q ( Y , Y &omega; &OverBar; ) .
CN 200410034107 2004-04-23 2004-04-23 多字体多字号印刷体藏文字符识别方法 Expired - Fee Related CN1251130C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410034107 CN1251130C (zh) 2004-04-23 2004-04-23 多字体多字号印刷体藏文字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410034107 CN1251130C (zh) 2004-04-23 2004-04-23 多字体多字号印刷体藏文字符识别方法

Publications (2)

Publication Number Publication Date
CN1570958A CN1570958A (zh) 2005-01-26
CN1251130C true CN1251130C (zh) 2006-04-12

Family

ID=34481469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410034107 Expired - Fee Related CN1251130C (zh) 2004-04-23 2004-04-23 多字体多字号印刷体藏文字符识别方法

Country Status (1)

Country Link
CN (1) CN1251130C (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844114B2 (en) * 2005-12-12 2010-11-30 Microsoft Corporation Logical structure layout identification and classification for offline character recognition
CN100440250C (zh) * 2007-03-09 2008-12-03 清华大学 印刷体蒙古文字符识别方法
CN101896920A (zh) * 2008-03-19 2010-11-24 东莞市步步高教育电子产品有限公司 基于移动扫描的图像处理方法及装置
CN101510259B (zh) * 2009-03-18 2011-04-06 西北民族大学 一种联机手写藏文字丁的识别方法
CN102184383B (zh) * 2011-04-18 2013-04-10 哈尔滨工业大学 一种印刷体字符图像样本的自动生成方法
US8755605B2 (en) * 2011-07-11 2014-06-17 Futurewei Technologies, Inc. System and method for compact descriptor for visual search
CN102360436B (zh) * 2011-10-24 2012-11-07 中国科学院软件研究所 一种基于部件的联机手写藏文字符的识别方法
CN104809442B (zh) * 2015-05-04 2017-11-17 北京信息科技大学 一种东巴象形文字字素智能识别方法
CN107025452A (zh) * 2016-01-29 2017-08-08 富士通株式会社 图像识别方法和图像识别设备
CN106355200A (zh) * 2016-08-29 2017-01-25 大连民族大学 手写满文字母识别装置
CN106408002A (zh) * 2016-08-29 2017-02-15 大连民族大学 手写满文字母识别的系统
CN106127266A (zh) * 2016-08-29 2016-11-16 大连民族大学 手写满文字母识别方法
CN108932454A (zh) * 2017-05-23 2018-12-04 杭州海康威视系统技术有限公司 一种基于图片的字体识别方法、装置及电子设备
CN107730511B (zh) * 2017-09-20 2020-10-27 北京工业大学 一种基于基线估计的藏文历史文献文本行切分方法
CN111553336B (zh) * 2020-04-27 2023-03-24 西安电子科技大学 基于连体段的印刷体维吾尔文文档图像识别系统及方法
CN111583217A (zh) * 2020-04-30 2020-08-25 深圳开立生物医疗科技股份有限公司 一种肿瘤消融疗效预测方法、装置、设备及计算机介质

Also Published As

Publication number Publication date
CN1570958A (zh) 2005-01-26

Similar Documents

Publication Publication Date Title
CN1251130C (zh) 多字体多字号印刷体藏文字符识别方法
CN1158627C (zh) 用于字符识别的方法和装置
CN1664846A (zh) 基于统计结构特征的联机手写汉字识别方法
CN1794266A (zh) 生物特征融合的身份识别和认证方法
CN100336070C (zh) 复杂背景图像中的鲁棒人脸检测方法
CN1156791C (zh) 模式识别设备与方法
CN1171162C (zh) 基于字符分类检索字符串的装置和方法
CN1275201C (zh) 参数估计装置和数据匹配装置
CN1151465C (zh) 利用候选表进行分类的模式识别设备及其方法
CN1310825A (zh) 用于分类文本以及构造文本分类器的方法和装置
CN1200387C (zh) 基于单个字符的统计笔迹鉴别和验证方法
CN1599913A (zh) 虹膜识别系统和方法以及具有其程序的存储介质
CN1041773C (zh) 由字符图象直方图0-1图形表示识别字符的方法和装置
CN1741035A (zh) 印刷体阿拉伯字符集文本切分方法
CN1400807A (zh) 图象处理方法和设备,图象处理系统以及存储介质
CN1877598A (zh) 手机中使用图像识别进行名片信息的采集与录入的方法
CN1122022A (zh) 手写体匹配技术
CN1945599A (zh) 图像处理装置,图像处理方法和计算机程序产品
CN1574269A (zh) 不合格检测方法和不合格检测装置
CN1251128C (zh) 文字列匹配装置和文字列匹配方法
CN1403959A (zh) 基于文本内容特征相似度和主题相关程度比较的内容过滤器
CN1973757A (zh) 基于舌象特征的病证计算机分析系统
CN1310182C (zh) 用于增强文档图像和字符识别的方法和装置
CN1266643C (zh) 基于阿拉伯字符集的印刷体字符识别方法
CN1247615A (zh) 模式识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060412

Termination date: 20140423