CN1251130C

CN1251130C - 多字体多字号印刷体藏文字符识别方法

Info

Publication number: CN1251130C
Application number: CN 200410034107
Authority: CN
Inventors: 丁晓青; 王�华; 刘长松; 彭良瑞; 方驰; 于洪志
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2004-04-23
Filing date: 2004-04-23
Publication date: 2006-04-12
Anticipated expiration: 2024-04-23
Also published as: CN1570958A

Abstract

多字体多字号印刷体藏文字符识别方法属于字符识别领域，其特征在于，提出了针对属于非方块字的印刷体藏文字符特点的归一化方案：将字符图像以基线，即上平线，为分界点分解成互不交叠的两个子图像，对每个子图像分别采用以重心和边框相结合的位置归一化和基于三次B样条函数插值的大小归一化方法；提取能充分反映藏文字符组成信息的四方向线素特征，利用线性鉴别分析LDA压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的粗、细两级分类策略进行字符类别的判决，粗、细分类器分别采用带偏差的欧氏距离EDD和修正的二次鉴别函数MQDF。本发明在多字体多字号印刷体藏文单字测试集上的识别正确率达到99.83%，对实际文本的识别率也可达99%以上。

Description

多字体多字号印刷体藏文字符识别方法

技术领域

多字体多字号印刷体藏文字符识别方法属于字符识别领域。

背景技术

藏文字符识别技术是中文多文种信息处理系统的重要组成部分，具有极高的理论价值和广阔的应用前景。字符识别方法可以归结为两类：统计决策方法和句法结构方法。在统计决策方法中，每个字符模式用一个特征矢量表示，它被看成是特征空间中的一个点，识别的过程就是在特征空间中将待识别字符模式正确地划分到所属的类别中。而句法结构方法则对于给定的字符集，抽取数量有限的不可分割的最小子模式(基元)，将这些基元按照特定的顺序和规则组合起来可以构成该字符集中的任何字符。这样，利用字符结构与语言之间的相似性，字符识别可以借助形式语言学的文法(包含了句法规则)来描述剖析字符的结构。

字符数量大、字型结构复杂、字体种类多、相似字比例高给藏文字符识别研究带来了挑战。目前国内外对藏文识别的研究基本上还非常有限，尚未见到有成功的算法和系统出现。藏文虽然是拼音文字，每个字符都由若干个部件(字母及某些字母的变体)组成，但由于部件的结构及其相互间的连接方式复杂，使得正确分离字符中各部件非常困难，又考虑到句法结构方法的抗干扰性差等显著的弱点，所以本发明采用统计决策的方法来进行多字体多字号印刷体藏文字符识别的研究，以单个藏文字符的整体作为基本的识别单位。

在汉字识别中，方向线素很好地描述了它在所占空间的不同位置上横、竖、撇、捺四种基本单元的数量关系，从而全面、准确、稳定地反映了汉字的组成信息。藏文字符由各部件按照一定的次序纵向叠加在一起构成，而部件又由笔划组成，各部件中笔划之间的连接关系是固定不变的。这样，每个藏文字符都有特定的结构，并且这种结构可以被从层次、局部和细节三方面反映出来，而方向线素正是刻画这些结构特征的有效手段。

本发明在全面细致考察藏文字符特点的基础上，根据藏文字符的特殊形态，选择了恰当的归一化方法，抽取描述能力强的方向线素特征，利用基于置信度分析的两级统计分类器获得识别结果，实现了高性能的多字体多字号藏文字符识别方法，这是目前所有其他文献里都没有使用过的方法。

发明内容

本发明的目的在于实现一个多字体多字号印刷体藏文字符识别的方法。以单个藏文字符作为处理对象，首先对字符对象进行必要的归一化处理，包括位置归一化和大小归一化，然后提取能很好反映字符特点的四方向线素特征并采用LDA(线性鉴别分析)方法对特征进行压缩变换，采用基于置信度分析的粗、细两级统计分类器进行分类判决。由此，可以得到极高的单字识别正确率。根据该方法，实现了一个多字体多字号印刷体藏文字符识别系统。

作为一个印刷体藏文字符识别系统还包括单字样本的采集，即系统首先扫描输入印刷体藏文的文本，采用自动的方式进行字符切分。利用采集建立的训练样本数据库，进行方向线素特征抽取和特征变换，得到训练样本的特征数据库。在训练样本的特征数据库的基础上，通过实验确定分类器的参数。对未知的输入字符样本，采用同样的方法抽取特征，然后送入分类器与特征库进行分类比较，从而判断输入字符的类别属性。

本发明由以下几部分组成：字符归一化、四方向线素特征提取、特征变换、分类器设计。

1.字符归一化

1.1 位置归一化

设原始字符图像为[F(i，j)]_W×H，图像宽度为W，高度为H，图像位于第i行第j列的象素点的值为F(i，j)，i＝1，2，…，H，j＝1，2，…，W。根据藏文字符的特点，[F(i，j)]_W×H可以看作两个互不重叠的子图像[F₁(i，j)]_W×H1、[F₂(i，j)]_W×H2的纵向拼接而成，其中[F₁(i，j)]_W×H1为基线(上平线)以上部分图像，即上元音部分，[F₂(i，j)]_W×H2，为基线以下部分，且H₁+H₂＝H。设字符图像的水平投影V(i)，i＝1，2，…，H由下式计算：

V (i) = Σ_{j = 1}^{W} F (i, j)

则基线所在位置的纵坐标值P_I为：

P_{I} = \arg \max_{i} (V (i) - V (i - 1)), i = 2,3, \cdot \cdot \cdot, H

根据P_I和字符顶部的纵坐标的值就可以确定H₁，而在本发明所采用的坐标系(图4)中，H₁在数值上等于P_I。

设归一化后字符图像为[G(i，j)]_M×N，图像宽度为M，高度为N，图像位于第i行第j列的象素点的值为G(i，j)，i＝1，2，…，N，j＝1，2，…，M。同样的，[G(i，j)]_M×N也可看作两个互不重叠子图像[G₁(i，j)]_M×N1、[G₂(i，j)]_M×N2的纵向拼接而成，其中[G₁(i，j)]_M×N1为基线以上部分图像，[G₂(i，j)]_M×N2，为基线以下部分，根据对藏文字符中基线的位置特性分析，此处设定N₁＝N/4，N₂＝3N/4。这样，归一化可以看成是将输入图像点阵[F₁(i，j)]_W×H1、[F₂(i，j)]_W×H2分别映射成目标图像点阵[G₁(i，j)]_M×N1、[G₂(i，j)]_M×N2的处理过程。在此过程中，选定输入图像点阵[F_k(i，j)]_W×Hk，k＝1，2中的参考点U_k(u_Ik u_Jk)，k＝1，2，移动输入图像点阵，使该参考点位于目标点阵[G_k(i，j)]_M×Nk，k＝1，2的中心，从而完成输入字符的位置归一化。

令[F_k(i，j)]_W×Hk，k＝1，2重心和外边框几何的中心分别为A_k(a_Ik，a_Jk)，k＝1，2和B_k(b_Ik，b_Jk)，k＝1，2，则有：

\{\begin{matrix} b_{Ik} = H_{k} / 2 \\ b_{Jk} = W / 2 \end{matrix}, k = 1,2

\{\begin{matrix} a_{Ik} = (Σ_{j = 1}^{W} Σ_{i = 1}^{H_{k}} (i \cdot F_{k} (i, j))) / (Σ_{j = 1}^{W} Σ_{i = 1}^{H_{k}} F_{k} (i, j)) \\ a_{Jk} = (Σ_{i = 1}^{H_{k}} Σ_{j = 1}^{W} (j {\cdot F}_{k} (i, j))) / (Σ_{i = 1}^{H_{k}} Σ_{j = 1}^{W} F_{k} (i, j)) \end{matrix}, k = 1,2

令U_k(u_Ik，u_Jk)，k＝1，2为介于A_k(a_Ik，a_Jk)，k＝1，2与B_k(b_Ik，b_Jk)，k＝1，2之间的一点，即：

\{\begin{matrix} u_{Ik} = {βa}_{Ik} + {(1 - β) b}_{Ik} \\ u_{Jk} = {βa}_{Jk} + {(1 - β) b}_{Jk} \end{matrix}, k = 1,2

其中β为常数且0≤β≤1。

1.2 大小归一化

藏文字符是非方块字，字符宽度具有相对稳定性，而各字符间高度差异很大，无法象汉字那样归一化为方形点阵。据对收集到的1200套藏文字符样本中共710,400个(6种字体、7种字号，每套样本592个字符)字符的高宽比特性所做的统计，取归一化之后的藏文字符的高宽比为2较合理，它是差别各异的各字体字符高宽比的一个折衷。

考察输入输入字符图像[F_k(i，j)]_W×Hk，k＝1，2，与归一化后目标字符点阵为[G_k(i，j)]_M×Nk，k＝1，2，之间的关系可知：

G_k(i，j)＝F_k(i/r_i，j/r_j)，k＝1，2其中r_i和r_j分别为i和j方向的尺度变换因子：r_i＝N_k/H_k，r_j＝M/W。根据上式，输出图像点阵中的点(i，j)对应于输入字符中的点(i/r_i，j/r_j)。F_k(i，j)为离散函数，而i/r_i、j/r_j的取值一般不为整数，故需要根据F_k中已知的离散点处的值来估计其在(i/r_i，j/r_j)处的取值。本发明采用三次B样条函数来进行插值运算，以减少归一化后字符点阵出现诸如阶梯状边缘等畸变。对于给定(i，j)，令：

\{\begin{matrix} p = i / r_{i} = x_{0} + Δ_{p} \\ q = j / r_{j} = y_{0} + Δ_{q} \end{matrix}, 0 {\leq Δ}_{p}, Δ_{q} < 1

其中：

\{\begin{matrix} p_{0} = [p], & Δ_{p} = p - p_{0} \\ q_{0} = [q], & Δ_{q} = q - q_{0} \end{matrix},

[·]为取整函数。插值过程可表示为：

G_{k} (i, j) = F_{k} (p_{0} + Δ_{p}, q_{0} + Δ_{q}) = Σ_{m = - 1}^{2} Σ_{l = - 1}^{2} F_{k} (p_{0} + m, q_{0} + l) R_{B} (m - Δ_{p}) R_{B} (- (l - Δ_{q}))

式中的R_B(z)为三次B样条函数：

R_{B} (z) = \frac{1}{6} [{(z + 2)}^{3} W (z + 2) - 4 {(z + 1)}^{3} W (z + 1) + 6 z^{3} W (z) - 4 {(z - 1)}^{3} W (z - 1)]

其中W(z)为阶跃函数，

W (z) = \{\begin{matrix} 1, z &GreaterEqual; 0 \\ 0, z < 0 \end{matrix}

2.方向线素特征提取

2.1 提取字符的轮廓

假定特征字图像其笔划所对应的点为黑象素点，背景点为白象素点。对于笔划象素点，如果其8邻域有白象素点且当前黑象素不是孤立黑象素点(8邻域黑象素点的个数为0)，则称该笔划象素点为轮廓点。提取轮廓图像的方法是扫描整个字符点阵，对于某个位置的黑象素，如果它的8邻域中的黑象素个数和白象素个数均大于0，则保留该黑象素，否则将字符点阵在该位置的值改为0。这样，从归一化后的字符图像[G(i，j)]_M×N得到了其轮廓图像[G′(i，j)]_M×N。

2.2 分块和特征矢量的构成

对于字符轮廓点阵[G′(i，j)]_M×N中的每一个黑象素，根据它与相邻的另外两个黑象素的位置关系，赋予它横(0°)、竖(90°)、撇(45°)、捺(135°)四种线素。考虑两种情况：一种是3个黑象素在同一直线上，则只给该中心象素分配一种线素特征并且赋值为2(图9a-d)；另一种3个黑象素不在同一直线上，那么就同时给中心象素分配两种线素特征并分别赋值为1(图9e-p)，如图9k所示的情况则给中心线素分配的线素是捺和竖，数值均为1，其余情况类推。按照这些原则对字符点阵中的各黑象素的进行线素特征的分配，对每个黑象素点(i，j)，都可以得到一个4维向量X(i，j)＝(x_v，x_k，x_p，x_o)^T，其分量分别表示该黑象素点处的4种线索的数量。

完成上述工作以后，将M×N的点阵均匀分成宽为M₀、高为N₀的子区域(图10)，每个子区域跟相邻的子区域之间在水平方向有M₀/2、在垂直方向上有N₀/2个象素的重合，故从整个M×N点阵可以得到的子区域个数为

(\frac{2 M}{M_{0}} - 1) \times (\frac{2 N}{N_{0}} - 1) .

然后，将每个子区域划分成互相嵌套A、B、C、D四个小方块(图11)，A、B、C、D的大小依次为(M₀/4)×(N₀/4)、(M₀/2)×(N₀/2)、(3M₀/4)×(3N₀/4)和M₀×N₀。对于每个小方块，分别定义一个4维向量X_A＝(x_v，x_k，x_p，x_o)^T、X_B＝(x_v，x_k，x_p，x_o)^T、X_C＝(x_v，x_k，x_p，x_o)^T、X_D＝(x_v，x_k，x_p，x_o)^T，表示各自的方块内各象素的在0°、90°、45°、135°方向上的线素数量的总和，即：

X_{A} = \underset{(i, j) &Element; A}{Σ} X (i, j)

X_{B} = \underset{(i, j) &Element; B}{Σ} X (i, j)

X_{C} = \underset{(i, j) &Element; C}{Σ} X (i, j)

X_{D} = \underset{(i, j) &Element; D}{Σ} X (i, j)

而整个子区域的方向线素特征向量X_S＝(x_v，x_k，x_p，x_o)^T由该子区域中各方块特征向量的加权和来表示，即：

X_S＝α_AX_A+α_BX_B+α_CX_C+α_DX_D其中α_A，α_B，α_C，α_D为介于0和1之间的常数，它们刻画了不同方块内的特征向量对本子区域整体特征向量的贡献的重要程度。这样，从每个子区域都可以得到一个4维特征向量后，将所有子区域的特征向量按顺序排列在一起组成的

4 (\frac{2 M}{M_{0}} - 1) \times (\frac{2 N}{N_{0}} - 1)

维特征向量，这就是表示该字符的方向线素特征。

3.特征变换

特征维数的增大和训练样本的不足，将给分类器参数估计和识别计算量都带来很大的问题。根据一般的分类器设计的经验，对训练样本数的要求是达到特征维数的10倍以上。为了减少过高的特征维数和训练样本的相对不足给分类器设计和参数估计带来的困难，本发明利用LDA方法对高维的原始特征进行了压缩。

设字符类别数为c(在藏文字符识别中c＝592)，第ω类字符的训练样本数为O_ω，ω＝1，2，…，c，则对第该字符类别的训练样本采用上述方法提取四方向线素特征后，得到特征向量集合为{X₁ ^ω，X₂ ^ω，…，X_Oω ^ω}，其中X_k ^ω(k＝1，2，…，O_ω)是

4 (\frac{2 M}{M_{0}} - 1) \times (\frac{2 N}{N_{0}} - 1)

维向量。

首先计算每个字符类ω(1≤ω≤c)特征向量的中心μ_ω和所有字符类的特征向量的中心μ

μ_{r} = \frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} {X_{k}}^{ω}

μ = \frac{1}{c} Σ_{ω = 1}^{c} μ_{ω}

然后计算类间散度矩阵S_b和平均类内散度矩阵S_w

S_{b} = \frac{1}{c} Σ_{ω = 1}^{c} (μ_{ω} - μ) {(μ_{ω} - μ)}^{T}

S_{w} = \frac{1}{c} Σ_{ω = 1}^{c} \frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} ({X_{k}}^{ω} - μ_{ω}) {({X_{k}}^{ω} - μ_{ω})}^{T}

寻找变换矩阵Φ，使得tr[(Φ^TS_wΦ)^-1(Φ^TS_bΦ)]达到最大，从而使模式类内散度方差与类间散度方差的比值达到最大以增加各模式类别间的可分性。

用矩阵计算工具计算矩阵S_w ^-1S_b的前

d (d \leq 4 (\frac{2 M}{M_{0}} - 1) \times (\frac{2 N}{N_{0}} - 1))

个最大的非零本征值ξ_k(k＝1，2，…，d)和相应的本征向量__k(k＝1，2，…，d)，(S_w ^-1S_b)__k＝ξ_k__k。则LDA变换的变换矩阵Φ＝[_₁，_₂，…，__d]。相应的特征变换为Y＝Φ^TX，这里Y是最具判别性的d维特征。

4.分类器设计

分类器设计是字符识别的核心技术之一，研究者针对不同的问题提出了许多模式分类器。但在多种因素制约下，目前在处理大字符集识别问题时，往往还是选择最小距离分类器。本发明采用基于置信度分析的粗、细两级分类策略(图13)来完成输入待识别藏文字符所属类别的判断。

4.1 粗分类

粗分类的目的是在一个大的字符集中快速选出一个数目相对很小的候选字子集，并保证候选集中包含待识别字符所属正确类别的概率尽可能大。这就要求粗分类器结构简单、运算速度快。为此，本发明设计了一种带偏差的欧氏距离(EDD)分类器。

令Y＝(y₁，y₂，…，y_d)^T为输入未知字符的d维特征向量，Y^ω＝(y^ω ₁，y^ω ₂，…，y^ω _d)^T为第ω类字符的标准特征向量，带偏差的欧氏距离定义如下：

D (Y, Y_{ω}) = Σ_{k = 1}^{d} {[t (y_{k}, {y^{ω}}_{k})]}^{2}

式中

t (y_{k}, {y^{ω}}_{k}) = \{\begin{matrix} 0, & | y_{k} - {y^{ω}}_{k} | < θ_{ω} \cdot {σ^{ω}}_{k} \\ γ_{ω} \cdot {σ^{ω}}_{k} + C, & | y_{k} - {y^{ω}}_{k} | > γ_{ω} \cdot {σ^{ω}}_{k} \\ | y_{k} - {y^{ω}}_{k} |, & else \end{matrix}

其中，σ^ω _k是第ω类字符特征向量的第k个分量的均方差，θ_ω，γ_ω为与ω相关的常数，C为与字符类别无关的常量。上式的一个最重要的特性是在欧氏距离中引入了字符特征的二阶统计量，这使得分类器对特征在空间上的分布具有一定的刻画能力。

4.2 细分类

贝叶斯分类器是理论上最优的统计分类器，在处理实际问题时，人们希望尽量去逼近它。当在字符的特征为高斯分布且各类特征分布的先验概率相等的条件下，贝叶斯分类器简化为马氏距离分类器。但该条件在实际中通常不易满足，而且马氏距离分类器的性能随着协方差矩阵估计误差的产生而严重劣化。本发明采用MQDF(修正二次鉴别函数)作为细分类度量，它是马氏距离的一个变形。MQDF鉴别函数形式为：

Q (Y, Y^{ω}) = \frac{1}{h^{2}} {Σ_{l = 1}^{d} {(y_{l} - {y^{ω}}_{l})}^{2} - Σ_{l = 1}^{K} (1 - \frac{h^{2}}{λ_{ωl}}) [{(Y - Y^{ω})}^{T} φ_{ωl}]^{2}} + \ln (h^{2 (d - K)} Π_{l = 1}^{K} λ_{ωl})

其中λ_ωl和φ_ωl分别为第ω类样本的协方差矩阵Σ_ω的第l个特征值和特征向量，K表示所截取的主本征向量的个数，也是模式类的主子空间维数，其最优值由实验确定，h²是对小本征值的实验估计。MQDF产生的是二次判决曲面，因只需估计每个类别协方差阵的前K个主本征向量，避免了小本征值估计误差的负面影响。MQDF鉴别距离可以看作是在K维主子空间内的马氏距离和剩余的(d-K)维空间内的欧氏距离的加权和，加权因子为1/h²。

4.3 置信度计算

设粗分类器的输出候选集为CanSet＝{(e₁，D₁)，(e₂，D₂)…，(e_L，D_L)}，L为候选集容量，e_k和D_k分别为候选字符和对应的粗分类距离，D₁≤D₂≤…≤D_L。细分类器的作用是根据重新计算的鉴别距离对CanSet进行再排序，找到输入字符所属的最可能的类别。如果粗分类结果的可靠性相当高，换言之，若e₁已经为输入字符的正确分类时，则细分类完全没必要进行。本发明对候选集CanSet进行置信度分析以决定是否需要进行细分类，采用EDD输出的距离作为度量，依下式计算置信度：

Conf (CanSet) = \frac{D_{2} - D_{1}}{D_{1}}

当置信度低于一定的阈值Conf_TH时，将CanSet送入细分类器处理，否则直接输出CanSet。本发明的特征在于，它是一种能够识别多种字体和多种字号的印刷体藏文字符识别技术。它依次含有以下步骤：

它首先对输入的单个藏文字符进行适当的位置归一化和大小归一化，以最大限度地消除输入字符因字号和字体的不同而造成的形状、姿态等方面的差异，然后提取能很好反映藏文字符结构特点的四方向线素特征，在此基础上，利用LDA变换提取最具鉴别性的特征以降低特征维数，把变换后特征送入基于识别置信度分析的粗、细两级分类器判定字符所属类别。在由图像采集设备和计算机组成的系统中，它依次含有以下步骤：

1.字符样本的采集

扫描输入印有多字体多字号藏文字符的文本，利用已有算法进行去除噪声、二值化等必要预处理后，将藏文文本进行切分以分离单个字符，对每个字符的图像标定其对应的正确的字符的内码，由此完成用以训练和测试的藏文字符单字样本的采集，建立训练样本数据库。

2.归一化处理，包含字符位置和大小的线性归一化

2.1 定位单个藏文字符的基线位置

设原始字符图像为[F(i，j)]_W×H，其中W为图像宽度，H为图像高度，图像位于第i行第j列的象素点的值为F(i，j)，i＝1，2，…，H，j＝1，2，…，W由下式计算字符图像的水平投影V(i)，i＝1，2，…，H：

V (i) = Σ_{j = 1}^{W} F (i, j)

则基线的位置P_L为：

P_{L} = \arg \max_{i} (V (i) - V (i - 1)), i = 2,3, \cdot \cdot \cdot, H

2.2 以基线为分界点将输入图像分离成两个子图像

[F(i，j)]_W×H可以看作两个子图像[F₁(i，j)]_W×H1、[F₂(i，j)]_W×H2的纵向拼接其中[F₁(i，j)]_W×H1，为基线以上部分，即上元音部分；[F₂(i，j)]_W×H2为基线以下部分。两者没有交叠而是纵向组合在一起合成[F(i，j)]_W×H，且H₁+H₂＝H

对应的，归一化后的目标字符图像[G(i，j)]_M×N也可以看作两个子图像[G₁(i，j)]_M×N1、[G₂(i，j)]_M×N2的纵向拼接其中M为目标图像的宽度，N为图像高度。[G₁(i，j)]_M×N1为基线以上部分图像，即上元音部分；[G₂(i，j)]_M×N2为基线以下部分。两者也没有交叠而是纵向组合成[G(i，j)]_M×N，且设定N₁＝N/4，N₂＝3N/4。

2.3 位置归一化参考点U_k(u_Ik，u_Jk)，k＝1，2的选择

[F_k(i，j)]_W×Hk，k＝1，2重心和外边框中心分别为A_k(a_Ik，a_Jk)，k＝1，2和B_k(b_Ik，b_Jl)，k＝1，2其中

\{\begin{matrix} b_{Ik} = H_{k} / 2 \\ b_{Jk} = W / 2 \end{matrix}, k = 1,2

\{\begin{matrix} a_{Ik} = (Σ_{j = 1}^{W} Σ_{i = 1}^{H_{k}} (i \cdot F_{k} (i, j))) / (Σ_{j = 1}^{W} Σ_{i = 1}^{H_{k}} F_{k} (i, j)) \\ a_{Jk} = (Σ_{i = 1}^{H_{k}} Σ_{j = 1}^{W} (j {\cdot F}_{k} (i, j))) / (Σ_{i = 1}^{H_{k}} Σ_{j = 1}^{W} F_{k} (i, j)) \end{matrix}, k = 1,2

\{\begin{matrix} u_{Ik} = {βa}_{Ik} + {(1 - β) b}_{Ik} \\ u_{Jk} = {βa}_{Jk} + {(1 - β) b}_{Jk} \end{matrix}, k = 1,2

其中β为常数且0≤β≤1。

移动输入图像点阵，使该参考点位于目标点阵[G_k(i，j)]_M×Nk，k＝1，2的几何中心，从而完成输入字符的位置归一化

2.4 大小归一化

因[F_k(i，j)]_W×Hk，k＝1，2与[G_k(i，j)]_M×Nk，k＝1，2之间的关系为

G_k(i，j)＝F_k(i/r_i，j/r_j)，k＝1，2其中r_i和r_j分别为i和j方向的尺度变换因子：r_i＝N_k/H_k，r_j＝M/W。故采用三次B样条函数进行插值运算，以减少归一化后字符出现诸如阶梯状边缘等畸变。对于给定(i，j)，令：

\{\begin{matrix} p = i / r_{i} = p_{0} + Δ_{p} \\ q = j / r_{j} = q_{0} + Δ_{q} \end{matrix}, 0 {\leq Δ}_{p}, Δ_{q} < 1

其中：

\{\begin{matrix} p_{0} = [p], & Δ_{p} = p - p_{0} \\ q_{0} = [q], & Δ_{q} = q - q_{0} \end{matrix},

[·]为取整函数。插值过程可表示为：

G_{k} (i, j) = F_{k} (p_{0} + Δ_{p}, q_{0} + Δ_{q}) = Σ_{m = - 1}^{2} Σ_{l = - 1}^{2} F_{k} (p_{0} + m, q_{0} + l) R_{B} (m - Δ_{p}) R_{B} (- (l - Δ_{q}))

式中的R_B(z)为三次B样条函数：

R_{B} (z) = \frac{1}{6} [{(z + 2)}^{3} W (z + 2) - 4 {(z + 1)}^{3} W (z + 1) + 6 z^{3} W (z) - 4 {(z - 1)}^{3} W (z - 1)]

其中W(z)为阶跃函数，

W (z) = \{\begin{matrix} 1, z &GreaterEqual; 0 \\ 0, z < 0 \end{matrix}

3.提取藏文字符的四方向线素特征

3.1 字符轮廓提取

扫描整个字符点阵，对于某个位置的黑象素，根据它的8邻域中的象素分布情况决定是否保留该黑象素。这样，可以得到归一化后的字符图像[G(i，j)]_M×N的轮廓图像[G′(i，j)]_M×N。

3.2 方向线素特征的提取

首先，对于字符轮廓点阵[G′(i，j)]_M×N中的每一个黑象素(i，j)，根据它与相邻的另外两个黑象素的之间的位置关系，赋予它横(0°)、竖(90°)、撇(45°)、捺(135°)四种线素。并记为一个4维向量X(i，j)＝(x_v，x_k，x_p，x_o)^T。

将整个大小为M×N的字符轮廓图像[G′(i，j)]_M×N均匀划分为

(\frac{2 M}{M_{0}} - 1) \times (\frac{2 N}{N_{0}} - 1)

个子区域，每个子区域又进一步划分成互相嵌套的、大小依次为(M₀/4)×(N₀/4)、(M₀/2)×(N₀/2)、(3M₀/4)×(3N₀/4)和M₀×N₀的A、B、C、D等4个小方块。每个上小方块的特征向量X_A＝(x_v，x_k，x_p，x_o)^T、X_B＝(x_v，x_k，x_p，x_o)^T、X_C＝(x_v，x_k，x_p，x_o)^T、X_D＝(x_y，x_k，x_p，x_o)^T表示为该方块内所有黑象素特征向量的和：

X_{A} = \underset{(i, j) &Element; A}{Σ} X (i, j)

X_{B} = \underset{(i, j) &Element; B}{Σ} X (i, j)

X_{C} = \underset{(i, j) &Element; C}{Σ} X (i, j)

X_{D} = \underset{(i, j) &Element; D}{Σ} X (i, j)

整个子区域的方向线素特征向量X_S＝(x_v，x_k，x_p，x_o)^T由该子区域中各方块特征向量的加权和来表示：

X_S＝α_AX_A+α_BX_B+α_CX_C+a_DX_D这样，从每个子区域都可以得到一个4维特征向量后，将所有子区域的特征向量按顺序排列在一起组成的表示输入字符的

4 (\frac{2 M}{M_{0}} - 1) \times (\frac{2 N}{N_{0}} - 1)

维方向线素特征向量。

4.特征变换

设字符类别数为c，第ω类字符的训练样本数为O_ω，ω＝1，2，…，c，则对第该字符类别的训练样本采用上述方法提取四方向线素特征后，得到特征向量集合为{X₁ ^ω，X₂ ^ω，…，X_Oω ^ω}，其中X_k ^ω(k＝1，2，…，O_ω)是

4 (\frac{2 M}{M_{0}} - 1) \times (\frac{2 N}{N_{0}} - 1)

维向量。

利用LDA变换对原始特征压缩如下

首先计算每个字符类ω(1≤ω≤c)特征向量的中心μ_ω、所有字符类的特征向量的中心μ、类间散度矩阵S_b和平均类内散度矩阵S_w

μ_{r} = \frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} {X_{k}}^{ω}

μ = \frac{1}{c} Σ_{ω = 1}^{c} μ_{ω}

S_{b} = \frac{1}{c} Σ_{ω = 1}^{c} (μ_{ω} - μ) {(μ_{ω} - μ)}^{T}

S_{w} = \frac{1}{c} Σ_{ω = 1}^{c} \frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} ({X_{k}}^{ω} - μ_{ω}) {({X_{k}}^{ω} - μ_{ω})}^{T}

寻找变换矩阵Ф，使得tr[(Ф^TS_wФ)^-1(Ф^TS_bФ)]达到最大，则LDA相应的特征变换为Y＝Ф^TX，这里Y是最具判别性的d维特征。

5.对输入字符所属类别的判断，即对未知类别的字符图像，提取特征，与识别库中已有的数据进行比较，以确定其正确的字符代码。

5.1 设计分类器

对由LDA压缩得到的特征向量Y，计算各字符的均值向量

(ω＝1，2，…，c)和各字符的特征向量在每一维上的方差σ_s ^ω(ω＝1，2，…，c，s＝1，2，…，d)，d为Y的维数，

\overset{&OverBar;}{Y^{ω}} = \frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} {Y_{k}}^{ω},

{σ_{s}}^{ω} = \sqrt{\frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} {({y^{ω}}_{ks} - {\overset{&OverBar;}{y^{ω}}}_{s})}^{2}}

其中每个藏文字符类别ω(1≤ω≤c)的特征集合为{Y₁ ^ω，Y₂ ^ω，…，Y_Oω ^ω)，将各字符的鉴别特征均值向量和各维的方差存入鉴别特征数据库文件中，同时将通过实验得到的分类器的参数存入库文件中。

5.2 分类判决

对未知类别的输入字符图像，首先进行位置归一化和大小归一化处理，再提取四方向线素特征X，利用LDA线性变换矩阵Ф将原始方向线素特征X变换成Y＝Ф^TX＝(y₁，y₂，…，y_d)^T，d是变换后特征的维数。

从库文件中读取所有字符类的均值向量

\overset{&OverBar;}{Y^{ω}} = {(\overset{&OverBar;}{{y_{1}}^{ω}}, \overset{&OverBar;}{{y_{2}}^{ω}}, \cdot \cdot \cdot \overset{&OverBar;}{{y_{d}}^{ω}})}^{T},

(ω＝1，2，…，c)和各字符类的各维的方差σ_s ^ω(ω＝1，2，…，c，s＝1，2，…，d)。计算Y到

的带偏差的欧氏距离D

D (Y, \overset{&OverBar;}{Y^{ω}}) = Σ_{s = 1}^{d} {[t (y_{s}, \overset{&OverBar;}{{y^{ω}}_{s}})]}^{2}

其中

t (y_{s}, \overset{&OverBar;}{{y^{ω}}_{s}}) = \{\begin{matrix} 0, & | y_{s} - \overset{&OverBar;}{{y^{ω}}_{s}} | < θ_{ω} \cdot {σ^{ω}}_{s} \\ γ_{ω} \cdot {σ^{ω}}_{s} + C, & | y_{s} - \overset{&OverBar;}{{y^{ω}}_{s}} | > γ_{ω} \cdot {σ^{ω}}_{s} \\ | y_{s} - \overset{&OverBar;}{{y^{ω}}_{s}} |, & else \end{matrix}

将所有经过计算的 ω＝1，2，…，c按照由小到大的顺序重新排序，选出前L(1≤L≤c)个距离及其所代表的字符类别码e_k，k＝1，2，…，L组成粗分类候选集CanSet＝{(e₁，D₁)，(e₂，D₂)…，(e_L，D_L)}，D₁≤D₂≤…≤D_L。

计算CanSet中首字符的识别置信度Conf(CanSet)

Conf (CanSet) = \frac{D_{2} - D_{1}}{D_{1}}

若Conf(CanSet)高于一定的阈值Conf_TH，直接将(e₁，D₁)作为输入字符的识别结果输出，即认为输入字符属于e₁所对应的字符类别，且识别距离是D₁。否则，计算Y到CanSet中各内码所对应的字符类别的MQDF鉴别距离

ω＝1，2，…，L

Q = (Y, \overset{&OverBar;}{Y^{ω}}) = \frac{1}{h^{2}} {Σ_{l = 1}^{d} {(y_{l} - \overset{&OverBar;}{{y^{ω}}_{l}})}^{2} - Σ_{l = 1}^{K} (1 - \frac{h^{2}}{λ_{ωl}}) [{(Y - \overset{&OverBar;}{Y^{ω}})}^{T} φ_{ωl}]^{2}} + \ln (h^{2 (d - K)} Π_{l = 1}^{K} λ_{ωl})

若

Q (Y, \overset{&OverBar;}{Y^{τ}}) = \min_{1 \leq ω \leq L} Q (Y, \overset{&OverBar;}{Y^{ω}}),

则该输入字符属于e_τ所对应的字符类别，即

τ = \arg \min_{1 \leq ω \leq L} Q (Y, \overset{&OverBar;}{Y^{ω}}) .

实验证明，本发明在多字体多字号印刷体藏文单字测试集上的识别正确率达到99.83％，对实际文本的识别率也可达99％以上。

附图说明

图1一个典型的藏文字符识别系统的硬件构成。

图2藏文单字样本的生成。

图3藏文字符识别系统的构成。

图4采用的图像坐标系示意。

图5字符归一化流程

图6字符归一化示例

图7方向线素特征提取流程。

图8归一化后字符及其轮廓。

图9四方向线索特征中的横、竖、撇、捺四种方向属性。

图10图像子区域的划分方法。

图11构成子区域的小方块示意。

图12LDA特征变换流程图。

图13分类策略

图14基于本算法的多字体多字号印刷藏文字符识别系统。

图15多字体印刷藏文(混排汉英)文档识别系统

具体实施方式

如图1所示，一个印刷体藏文字符识别系统在硬件上由两部分构成：图像采集设备和计算机。图像采集设备一般是扫描仪，用来获取藏文字符的数字图像。计算机用于对数字图像进行处理，并进行判决分类。

图2所示的是训练藏文单字样本和测试藏文单字样本的生成过程。对于一篇印刷体藏文样张，首先通过扫描仪将其扫入计算机，使之变为数字图像。对数字图像二值化、去除噪声等预处理措施，得到二值化的图像。再对输入图像进行行切分，得到文本行，在此基础上对每一个文本行进行字切分，得到单个藏文字符，然后标定每个字符图像所属的字符类别。此后，要进行一次检查，对行、字切分阶段和字符类别标定阶段产生的错误采用手动方式改正。最后，将相同的字符类别对应的原始字符图像提取出来，并保存，完成藏文单字样本的采集。

如图3所示，印刷体藏文字符识别算法分为两个部分：训练系统和测试系统。训练系统中，对输入的藏文单字训练样本集中的每一个样本，恰当地进行归一化处理，提取反映其组成信息的四方向线素特征，利用LDA对特征进行变换，降低原始特征维数，然后，采用合适的分类器，训练分类器，得到特征库文件。在测试系统中，对输入的未知类别字符图像，采用和训练系统同样的归一化和特征提取方法，并用训练系统得到的变换矩阵对特征进行变换，然后送入分类器进行分类，判断输入字符所属的类别。

因而，实用的多字体多字号印刷体藏文字符识别系统的实现需要考虑如下几个方面：

A)藏文字符单字样本的获取；

B)训练系统的实现；

C)测试系统的实现。

下面分别对这三个方面进行详细介绍。

A)藏文字符单字本的获取

印刷体藏文单字样本的获取过程如图2所示。输入的一篇纸质印刷体藏文文档通过扫描仪得到数字图像，输入计算机。然后对该图像进行噪声去除、二值化等预处理措施。利用各种虑波方法去除噪声在现有文献中已经有大量记载。二值化方法可采用已有的全局二值化或局部自适应二值化。接着对文档进行版面分析，得到字符区域。对字符区域分别利用水平投影直方图和垂直投影直方图进行行切分和字切分得到单个字符。在此阶段的切分错误采用手动的方式进行更正。对得到的单个藏文字符的类别进行标定，一般采用计算机自动标定，对其中的错误进行人工处理(更该、删除等)。最后，把具有相同内码的字符所对应的不同字体、不同字号的原始字符图像保存起来，就得到了多字体多字号印刷体藏文单字样本。

B)训练系统的实现

B.1 字符归一化

B.1.1 位置归一化

设原始字符图像为[F(i，j)]_W×H，图像宽度为W，高度为H，图像位于第i行第j列的象素点的值为F(i，j)，i＝1，2，…，H，j＝1，2，…，W。[F(i，j)]_W×H可以看作由两个子图像——基线以上部分[F₁(i，j)]_W×H1和基线以下部分[F₂(i，j)]_W×H2的纵向拼接而成，H₁+H₂＝H。设字符图像的水平投影为V(i)，i＝1，2，…，H，可由下式计算：

V (i) = Σ_{j = 1}^{W} F (i, j)

则基线所在位置的纵坐标值P_I为：

P_{I} = \arg \max_{i} (V (i) - V (i - 1)), i = 2,3, \cdot \cdot \cdot, H

设归一化后字符图像为[G(i，j)]_M×N，图像宽度为M，高度为N，图像位于第i行第j列的象素点的值为G(i，j)，i＝1，2，…，N，j＝1，2，…，M。同样的，[G(i，j)]_M×N也可以看作两个子图像——基线以上部分[G₁(i，j)]_M×N1和基线以下部分[G₂(i，j)]_M×N2的纵向拼接而成，此处设定N₁＝N/4，N₂＝3N/4。这样，归一化可以看成是将输入图像点阵[F₁(i，j)]_W×H1、[F₂(i，j)]_W×H2分别映射成目标图像点阵[G₁(i，j)]_M×N1、[G₂(i，j)]_M×N2的处理过程。在此过程中，选定输入图像点阵[F_k(i，j)]_W×Hk，k＝1，2中的参考点U_k(u_Ik，u_Jk)，k＝1，2，移动输入图像点阵，使该参考点，位于目标点阵[G_k(i，j)]_M×Nk，k＝1，2的中心，从而完成输入字符的位置归一化。

\{\begin{matrix} b_{Ik} = H_{k} / 2 \\ b_{Jk} = W / 2 \end{matrix}, k = 1,2

\{\begin{matrix} a_{Ik} = (Σ_{j = 1}^{W} Σ_{i = 1}^{H_{k}} (i \cdot F_{k} (i, j))) / (Σ_{j = 1}^{W} Σ_{i = 1}^{H_{k}} F_{k} (i, j)) \\ a_{Jk} = (Σ_{i = 1}^{H_{k}} Σ_{j = 1}^{W} (j {\cdot F}_{k} (i, j))) / (Σ_{i = 1}^{H_{k}} Σ_{j = 1}^{W} F_{k} (i, j)) \end{matrix}, k = 1,2

\{\begin{matrix} u_{Ik} = {βa}_{Ik} + {(1 - β) b}_{Ik} \\ u_{Jk} = {βa}_{Jk} + {(1 - β) b}_{Jk} \end{matrix}, k = 1,2

其中β为常数且0≤β≤1。

B.1.2 大小归一化

考察输入字符图像[F_k(i，j)]_W×Hk，k＝1，2与归一化后目标字符点阵为[G_k(i，j)]_M×Nk，k＝1，2之间的关系可知：

G_k(i，j)＝F_k(i/r_i，j/r_j)，k＝1，2其中r_i和r_j分别为i和j方向的尺度变换因子：r_i＝N_k/H_k，r_j＝M/W。根据上式，输出图像点阵中的点(i，j)对应于输入字符中的点(i/r_i，j/r_j)。F_k(i，j)为离散函数，而i/r_i、j/r_j的取值一般不为整数，故需要根据F_k中已知的离散点处的值来估计其在(i/r_i，j/r_j)处的取值。采用三次B样条函数进行插值运算，以减少归一化后字符出现畸变。对于给定(i，j)，令：

\{\begin{matrix} p = i / r_{i} = p_{0} + Δ_{p} \\ q = j / r_{j} = q_{0} + Δ_{q} \end{matrix}, 0 {\leq Δ}_{p}, Δ_{q} < 1

其中：

\{\begin{matrix} p_{0} = [p], & Δ_{p} = p - p_{0} \\ q_{0} = [q], & Δ_{q} = q - q_{0} \end{matrix},

[·]为取整函数。插值过程可表示为：

G_{k} (i, j) = F_{k} (p_{0} + Δ_{p}, q_{0} + Δ_{q}) = Σ_{m = - 1}^{2} Σ_{l = - 1}^{2} F_{k} (p_{0} + m, q_{0} + l) R_{B} (m - Δ_{p}) R_{B} (- (l - Δ_{q}))

式中的R_B(z)为三次B样条函数：

R_{B} (z) = \frac{1}{6} [{(z + 2)}^{3} W (z + 2) - 4 {(z + 1)}^{3} W (z + 1) + 6 z^{3} W (z) - 4 {(z - 1)}^{3} W (z - 1)]

其中W(z)为阶跃函数，

W (z) = \{\begin{matrix} 1, z &GreaterEqual; 0 \\ 0, z < 0 \end{matrix}

B.2 方向线素特征提取

B.2.1 取字符的轮廓

扫描整个字符点阵，对于某个位置的黑象素，如果它的8邻域中黑象素个数和白象素个数均大于0，则保留该黑象素，否则将字符点阵在该位置的值改为0。这样，可以从归一化后的字符图像[G(i，j)]_M×N的轮廓图像[G′(i，j)]_M×N。

B.2.2 分块和特征矢量的构成

对于字符轮廓点阵[G′(i，j)]_M×N中的每一个黑象素，根据它与相邻的另外两个黑象素的位置关系，赋予它横(0°)、竖(90°)、撇(45°)、捺(135°)四种线索。考虑两种情况：一种是3个黑象素在同一直线上，则只给该中心象素分配一种线素特征并且赋值为2；另一种3个黑象素不在同一直线上，那么就同时给中心象素分配两种线素特征并分别赋值为1。按照这些原则对字符点阵中的各黑象素的进行线素特征的分配，对每个黑象素点(i，j)，都可以得到一个4维向量X(i，j)＝(x_v，x_k，x_p，x_o)^T，其分量分别表示该黑象素点处的4种线素数量。

完成上述工作以后，将M×N的点阵均匀划分成宽为M₀、高为N₀的子区域，每个子区域跟相邻的子区域之间在水平方向有M₀/2、在垂直方向上有N₀/2个象素的重合，故子区域的总个数为

(\frac{2 M}{M_{0}} - 1) \times (\frac{2 N}{N_{0}} - 1)

然后，将每个子区域划分成互相嵌套、大小依次为(M₀/4)×(N₀/4)、(M₀/2)×(N₀/2)、(3M₀/4)×(3N₀/4)和M₀×N₀的A、B、C、D等4个小方块。对每个小方块，分别定义一个4维向量X_A＝(x_v，x_k，x_p，x_o)^T、X_B＝(x_v，x_k，x_p，x_o)^T、X_C＝(x_v，x_k，x_p，x_o)^T、X_D＝(x_v，x_k，x_p，x_o)^T，它们表示各自方块内各象素的0°、90°、45°、135°方向线素数量的总和，即：

X_{A} = \underset{(i, j) &Element; A}{Σ} X (i, j)

X_{B} = \underset{(i, j) &Element; B}{Σ} X (i, j)

X_{C} = \underset{(i, j) &Element; C}{Σ} X (i, j)

X_{D} = \underset{(i, j) &Element; D}{Σ} X (i, j)

而整个子区域的方向线素特征向量X_S＝(x_v，x_k，x_p，x_o)^T表示为该子区域中各方块特征向量的加权和，即：

X_S＝α_AX_A+α_BX_B+α_CX_C+α_DX_D其中α_A，α_B，α_C，α_D为介于0和1之间的常数，它们刻画了不同方块内的特征向量对本子区域总体特征向量的贡献的重要程度。这样，从每个子区域都可以得到一个4维特征向量后，将所有子区域的特征向量按顺序排列在一起组成的

4 (\frac{2 M}{M_{0}} - 1) \times (\frac{2 N}{N_{0}} - 1)

维方向线素特征向量。

B.3特征变换

设字符类别数为c(在藏文字符识别中c＝592)，第ω类字符的训练样本数为O_ω，ω＝1，2，…，c，原始方向线素特征向量集合为{X₁ ^ω，X₂ ^ω，…，X_Oω ^ω}，其中X_k ^ω(k＝1，2，…，O_ω)是

4 (\frac{2 M}{M_{0}} - 1) \times (\frac{2 N}{N_{0}} - 1)

维向量。

首先计算每个字符类ω(1 ≤ω≤c)特征向量的中心μ_ω、所有字符类的特征向量的中心μ、类间散度矩阵S_b和平均类内散度矩阵S_w

μ_{r} = \frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} {X_{k}}^{ω}

μ = \frac{1}{c} Σ_{ω = 1}^{c} μ_{ω}

S_{b} = \frac{1}{c} Σ_{ω = 1}^{c} (μ_{ω} - μ) {(μ_{ω} - μ)}^{T}

S_{w} = \frac{1}{c} Σ_{ω = 1}^{c} \frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} ({X_{k}}^{ω} - μ_{ω}) {({X_{k}}^{ω} - μ_{ω})}^{T}

寻找变换矩阵Ф，使得tr[(Ф^TS_wФ)^-1(Ф^TS_bФ)]达到最大，从而使模式类内散度方差与类间散度方差的比值达到最大以增加各模式类别间的可分性。

用矩阵计算工具计算矩阵占S_w ^-1S_b的前

d (d \leq 4 (\frac{2 M}{M_{0}} - 1) \times (\frac{2 N}{N_{0}} - 1))

个最大的非零本征值ξ_k(k＝1，2，…，d)和相应的本征向量__k(k＝1，2，…，d)，(S_w ^-1S_b)__k＝ξ_k__k。则LDA变换的变换矩阵Ф＝[_₁，_₂，…，__d]。相应的特征变换为Y＝Ф^TX，这里Y是最具判别性的d维特征。

B.4 设计分类器

对经LDA变换得到特征向量Y，计算各字符的均值向量

\overset{&OverBar;}{Y^{ω}} = \frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} {Y_{k}}^{ω},

{σ_{s}}^{ω} = \sqrt{\frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} {({y^{ω}}_{ks} - {\overset{&OverBar;}{y^{ω}}}_{s})}^{2}}

其中每个藏文字符类别ω(1≤ω≤c)的最具可分性的特征集合为{Y₁ ^ω，Y₂ ^ω，…，Y_Oω ^ω}，将各字符的鉴别特征均值向量和各维上的方差存入鉴别特征数据库文件中，同时将通过实验调整分类器的各相关参数的值并存入库文件中。这样就完成了分类器的设计和训练。

C)测试系统的实现

从库文件中读取所有字符类的均值向量

\overset{&OverBar;}{Y^{ω}} = {(\overset{&OverBar;}{{y_{1}}^{ω}}, \overset{&OverBar;}{{y_{2}}^{ω}}, \cdot \cdot \cdot \overset{&OverBar;}{{y_{d}}^{ω}})}^{T},

，(ω＝1，2，…，c)和各字符类的各维的方差σ_s ^ω(ω＝1，2，…，c，s＝1，2，…，d)。计算Y到的带偏差的欧氏距离

D (Y, \overset{&OverBar;}{Y^{ω}}) = Σ_{s = 1}^{d} {[t (y_{s}, \overset{&OverBar;}{{y^{ω}}_{s}})]}^{2}

其中

t (y_{s}, \overset{&OverBar;}{{y^{ω}}_{s}}) = \{\begin{matrix} 0, & | y_{s} - \overset{&OverBar;}{{y^{ω}}_{s}} | < θ_{ω} \cdot {σ^{ω}}_{s} \\ γ_{ω} \cdot {σ^{ω}}_{s} + C, & | y_{s} - \overset{&OverBar;}{{y^{ω}}_{s}} | > γ_{ω} \cdot {σ^{ω}}_{s} \\ | y_{s} - \overset{&OverBar;}{{y^{ω}}_{s}} |, & else \end{matrix}

将所有经过计算的

ω＝1，2，…，c按照由小到大的顺序重新排序，选出前L(1≤L≤c)个距离及其所代表的字符类别码e_k，k＝1，2，…，L组成粗分类候选集CanSet＝{(e₁，D₁)，(e₂，D₂)…，(e_L，D_L)}，D₁≤D₂≤…≤D_L。

计算CanSet中首字符的识别置信度Conf(CanSet)

Conf (CanSet) = \frac{D_{2} - D_{1}}{D_{1}}

ω＝1，2，…，L

Q = (Y, \overset{&OverBar;}{Y^{ω}}) = \frac{1}{h^{2}} {Σ_{l = 1}^{d} {(y_{l} - \overset{&OverBar;}{{y^{ω}}_{l}})}^{2} - Σ_{l = 1}^{K} (1 - \frac{h^{2}}{λ_{ωl}}) [{(Y - \overset{&OverBar;}{Y^{ω}})}^{T} φ_{ωl}]^{2}} + \ln (h^{2 (d - K)} Π_{l = 1}^{K} λ_{ωl})

若

Q (Y, \overset{&OverBar;}{Y^{τ}}) = \min_{1 \leq ω \leq L} Q (Y, \overset{&OverBar;}{Y^{ω}}),

则该输入字符属于e_τ所对应的字符类别，即

τ = \arg \min_{1 \leq ω \leq L} Q (Y, \overset{&OverBar;}{Y^{ω}}) .

以下给出两个具体的实现例子。

实施例1：多字体多字号印刷体藏文字符识别系统

基于本发明的多字体多字号印刷体藏文字符识别系统如图14a所示，实验在收集到的1200套印刷体藏文文档(每个文档包涵全部592个现代藏文字符)上进行的，这些样本文档大部分采自当今主要的印刷藏文出版系统(方正、华光)，也有少量由TureType字体直接打印形成。字体不仅有最常用的白体、黑体和通用体，还包括圆体、长体、竹体，字号从六号到初号。样本质量不等，正常、断裂、粘连字符的比例约为2∶1∶1。经过扫描输入、行、字切分和内码标定等过程，将这1200套藏文文档转换为1200套单字样本(即每个字符类别有1200个单字样本)，从中随机抽出900套组成训练集，其余300套留作测试样本。

实验中，采用本发明的方法将每个藏文字符归一化为48×96的点阵，归一化参数β＝0.5。四方向线素特征提取中子区域的如图10所示方式划分，取M₀＝N₀＝16，子区域中各方块的特征向量对整个子区域特征向量的加权系数α_A，α_B，α_C，α_D分别为0.4，0.3，0.2，0.1。按照图7所示的流程提取方向线索特征后，采用LDA线性变换进行特征压缩，变换后特征维数d选定为128(图14c)。粗分类器EDD中的参数θ₁＝θ₂＝…＝θ₅₉₂＝0.8，γ₁＝γ₂＝…＝γ₅₉₂＝2.2，C＝20，粗分类置信度分析时采用阈值Conf_TH＝0.9，细分类器MQDF中的参数K＝32(图14b)，h²用各字符类的协方差阵的第K个本征值的均值作为估计值。在测试集上的实验结果如表1所示

表1系统在六种藏文字体测试样本集上的识别率

字体	白体	黑体	通用体	圆体	长体	竹体	平均识别率
字体	白体	黑体	通用体	圆体	长体	竹体		字符数	36112	39072	35520	30192	14800	22496
识别率	99.94％	99.86％	99.83％	99.85％	99.58％	99.76％		字符数	36112	39072	35520	30192	14800	22496	99.83％

从表1可见，多字体多字号藏文字符的平均识别正确率达到99.83％，表明本发明所提的方法的有效性。

实施例2：多字体印刷藏文(混排汉英)文档识别系统

多字体印刷藏文(混排汉英)文档识别系统的研究是为适应藏族地区办公自动化和促进中文多文种信息处理技术发展的需求而展开的，它的系统框图如图15所示。主要包括图像输入和预处理子系统、行字切分子系统、字符识别子系统和后处理子系统。本发明是字符识别子系统的主要组成部分，在汉字和英文识别核心的配合下对藏文占主体、夹杂一定汉字和英文、数字、符号的多字体印刷文档进行自动识别，将文档图像转换为计算机可“阅读”的文本。

在该系统中的藏文字符识别部分采用本发明提出的方法，具体参数与实施例1一致，移植了实施例1中的字符特征库。该系统于2003年11月通过了教育部主持的专家鉴定。在鉴定测试时，从由西北民族大学提供的500余页，共52万余字的实际印刷体藏文文档(采自书籍、报刊、杂志等出版物)中随机选出62页，共95583个字符进行了测试，结果如下：

表2多字体印刷藏文(混排汉英)文档识别系统的测试性能

字符种类	字符数目	识别正确率(％)	错误率分布
			错误率分布			ACE(％)	ASE(％)	UTE(％)
			藏文	91636	99.06	ACE(％)	ASE(％)	UTE(％)	0.30	0.57	0.07
汉字	804	96.27	藏文	91636	99.06	1.99	1.74	0	0.30	0.57	0.07

英文+符号	2118	86.59	5.24	6.66	1.51
英文+符号	2118	86.59	5.24	6.66	1.51	数字	1025	92.39	3.61	3.42	0.58
合计	95583	98.68	-	-	-	数字	1025	92.39	3.61	3.42	0.58

注：ACE为可判断的识别错误率 ASE为可判断的切分错误率 UTE为不可判断错误类型的错误率

该结果表明，本发明提出的多字体多字号印刷体藏文字符识别完全适应实际应用的需要，能够获得良好的识别性能，具有广泛的应用前景。

Claims

1.多字体多字号印刷体藏文字符识别方法，其特征在于，提出了针对属于非方块字的印刷体藏文字符特点的归一化方案：将字符图像以基线，即上平线，为分界点分解成互不交叠的两个子图像，对每个子图像分别采用以重心和边框相结合的位置归一化和基于三次B样条函数插值的大小归一化方法；提取能充分反映藏文字符组成信息的四方向线素特征，利用线性鉴别分析LDA压缩降维后得到紧凑的字符特征向量；采用基于置信度分析的粗、细两级分类策略进行字符类别的判决，粗、细分类器分别采用带偏差的欧氏距离EDD和修正的二次鉴别函数MQDF；在由图像采集设备和计算机组成的系统中，多字体多字号印刷体藏文字符识别方法依次含有以下步骤：

(1)设定：

(1.1)本发明处理的藏文字符类别总数c＝592；

(1.2)归一化后字符宽度M、高度N；

位置归一化参数β；

(1.3)提取方向线素特征时，划分的子区域宽度M₀、高度N₀；

子区域中各方块的特征向量对整个子区域特征向量的加权系数α_A，α_B，α_C，α_D；

(1.4)粗分类器EDD中的参数C为与字符类别无关的常量，设定C＝20；θ_k，γ_k为设定的常量，θ_k＝0.8，γ_k＝2.2，其中k＝1，2，…，592；

(1.5)置信度阈值Conf_TH；

(2)字符样本的采集

通过扫描仪向计算机输入印有多字体多字号藏文字符的文本，利用已有方法进行除噪声、二值化等必要预处理后，将藏文文本进行切分以分离单个字符，对每个字符的图像标定其对应的正确的字符的内码，由此完成用以训练和测试的藏文字符单字样本的采集，建立训练样本数据库；

(3)归一化处理，包含字符位置和大小的归一化

(3.1)定位单个藏文字符的基线位置

设原始字符图像为[F(i，j)]_W×H，

其中W为图像宽度，H为图像高度，图像位于第i行第j列的象素点的值为F(i，j)，i＝1，2，…，H，j＝1，2，…，W，

计算字符图像的水平投影V(i)，i＝1，2，…，H为：

V (i) = Σ_{j = 1}^{W} F (i, j),

则基线所在位置的纵坐标值P_I为：

P_{I} = \arg \max_{i} (V (i) - V (i - 1)), i = 2,3, \cdot \cdot \cdot, H;

(3.2)以基线为分界点将输入图像分离成两个子图像

[F(i，j)]_W×H可以看作两个子图像[F₁(i，j)]_W×H1、[F₂(i，j)]_W×H2的纵向拼接，

其中[F₁(i，j)]_W×H1为基线以上部分，即上元音部分；[F₂(i，j)]_W×H2为基线以下部分，两者没有交叠而是纵向组合在一起合成[F(i，j)]_W×H，且H₁+H₂＝H，由P_I和字符顶部的纵坐标的差值可确定出H₁的大小；

对应的，归一化后的目标字符图像[G(i，j)]_M×N也可以看作两个子图像[G₁(i，j)]_M×N1、[G₂(i，j)]_M×N2的纵向拼接，

其中，M为目标图像的宽度，N为图像高度；[G₁(i，j)]_M×N1为基线以上部分图像，即上元音部分；[G₂(i，j)]_M×N2为基线以下部分；两者也没有交叠而是纵向组合成[G(i，j)]_M×N，且设定N₁＝N/4，N₂＝3N/4；

(3.3)位置归一化参考点U_k(u_Ik，u_Jk)，k＝1，2的选择

[F_k(i，j)]_W×Hk，k＝1，2重心和外边框中心分别为A_k(a_Ik，a_Jk)，k＝1，2和B_k(B_Ik，b_Jk)，k＝1，2

其中

\{\begin{matrix} b_{Ik} = H_{k} / 2 \\ b_{Jk} = W / 2 \end{matrix}, k = 1,2,

\{\begin{matrix} a_{Ik} = (Σ_{j = 1}^{W} Σ_{i = 1}^{H_{k}} (i \cdot F_{k} (i, j))) / (Σ_{j = 1}^{W} Σ_{i = 1}^{H_{k}} F_{k} (i, j)) \\ a_{Jk} = (Σ_{i = 1}^{H_{k}} Σ_{j = 1}^{W} (j \cdot F_{k} (i, j))) / (Σ_{i = 1}^{H_{k}} Σ_{j = 1}^{W} F_{k} (i, j)) \end{matrix}, k = 1,2,

则U_k(U_Ik，U_Jk)，k＝1，2取介于A_k(a_Ik，a_Jk)，k＝1，2与B_k(b_Ik，b_Jk)，k＝1，2之间的一点，即：

\{\begin{matrix} u_{Ik} = β α_{Ik} + (1 - β) b_{Ik} \\ u_{Jk} = β α_{Jk} + (1 - β) b_{Jk} \end{matrix}, k = 1, 2,

其中β为常数且0≤β≤1；

移动输入图像点阵，使该参考点，位于目标点阵[G_k(i，j)]_M×Nk，k＝1，2的几何中心，从而完成输入字符的位置归一化；

(3.4)大小归一化

因[F_k(i，j)]_W×Hk，k＝1，2与[G_k(i，j)]_M×Nk，k＝1，2之间的关系为：

G_k(i，j)＝F_k(i/r_i，j/r_j)，k＝1，2，

其中r_i和r_j分别为i和j方向的尺度变换因子：r_i＝N_k/H_k，r_j＝M/W；采用三次B样条函数进行插值运算；

对于给定(i，j)，令：

\{\begin{matrix} p = i / r_{i} = p_{0} + Δ_{p} \\ q = j / r_{j} = q_{0} + Δ_{q} \end{matrix}, 0 \leq Δ_{p}, Δ_{q} < 1,

其中：

\{\begin{matrix} p_{0} = [p], Δ_{p} = p - p_{0} \\ q_{0} = [q], Δ_{q} = q - q_{0} \end{matrix},

[·]为取整函数；

插值过程可表示为：

G_{k} (i, j) = F_{k} (p_{0} + Δ_{p}, q_{0} + Δ_{q}) = Σ_{m = - 1}^{2} Σ_{l = - 1}^{2} F_{k} (p_{0} + m, q_{0} + l) R_{B} (m - Δ_{p}) R_{B} (- (l - Δ_{q})),

式中的R_B(z)为三次B样条函数：

R_{B} (z) = \frac{1}{6} [{(z + 2)}^{3} W (z + 2) - 4 {(z + 1)}^{3} W (z + 1) + 6 z^{3} W (z) - 4 {(z - 1)}^{3} W (z - 1)],

其中W(z)为阶跃函数，

W (z) = \{\begin{matrix} 1, z &GreaterEqual; 0 \\ 0, z < 0 \end{matrix};

(4)提取藏文字符的四方向线素特征

(4.1)字符轮廓提取

扫描整个字符点阵，对于某个位置的黑象素，若它的8邻域中的黑象素和背景象素的个数均大于0，则保留该黑象素，否则，将该黑象素设为背景象素；这样，得到归一化后的字符图像[G(i，j)]_M×N的轮廓图像[G′(i，j)]_M×N；

(4.2)方向线素特征的形成

首先，对于字符轮廓点阵[G′(i，j)]_M×N中的每一个黑象素(i，j)，根据它与相邻的另外两个黑象素的之间的位置关系，赋予它横、竖、撇、捺四种线素，并记为一个4维向量X(i，j)＝(x_v，x_k，x_p，x_o)^T；

将整个大小为M×N的字符轮廓图像[G′(i，j)]_M×N均匀划分为个宽度为M₀、高度为N₀的子区域，每个子区域又进一步划分成互相嵌套的、大小依次为(M₀/4)×(N₀/4)、(M₀/2)×(N₀/2)、(3M₀/4)×(3N₀/4)和M₀×N₀的A、B、C、D等4个小方块；每个上小方块的特征向量X_A＝(x_v，x_k，x_p，x_o)^T、X_B＝(x_v，x_k，x_p，x_o)^T、X_C＝(x_v，x_k，x_p，x_o)^T、X_D＝(x_v，x_k，x_p，x_o)^T表示为该方块内所有黑象素特征向量的和：

X_{A} = \underset{(i, j) &Element; A}{Σ} X (i, j),

X_{B} = \underset{(i, j) &Element; B}{Σ} X (i, j),

X_{C} = \underset{(i, j) &Element; C}{Σ} X (i, j),

X_{D} = \underset{(i, j) &Element; D}{Σ} X (i, j),

X_S＝α_AX_A+α_BX_B+α_CX_C+α_DX_D，

其中α_A，α_B，α_C，α_D为介于0和1之间的常数；这样，从每个子区域都可以得到一个4维特征向量后，将所有子区域的特征向量按顺序排列在一起组成的表示输入字符的维原始方向线素特征向量；

(5)特征变换

设藏文字符类别数为c，第ω类字符的训练样本数为O_ω，ω＝1，2，…，c，则对该字符类别的训练样本采用上述方法提取四方向线素特征后，得到特征向量集合为{X₁ ^ω，X₂ ^ω，…，X_Oω ^ω}，其中X_k ^ω(k＝1，2，…，O_ω)是维向量；

利用LDA变换对原始特征压缩如下：

首先计算每个字符类ω(1≤ω≤c)特征向量的中心μ_ω、所有字符类的特征向量的中心μ、类间散度矩阵S_b和平均类内散度矩阵S_w：

μ_{r} = \frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} X_{k}^{ω},

μ = \frac{1}{c} Σ_{ω}^{c} μ_{ω},

S_{b} = \frac{1}{c} Σ_{ω = 1}^{c} (μ_{ω} - μ) {(μ_{ω} - μ)}^{T},

S_{w} = \frac{1}{c} Σ_{ω = 1}^{c} \frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} ({X_{k}}^{ω} - μ_{ω}) {({X_{k}}^{ω} - μ_{ω})}^{T},

寻找变换矩阵Φ，使得tr[(Φ^TS_wΦ)^-1(Φ^TS_bΦ)]达到最大，则LDA相应的特征变换为Y＝Φ^TX，这里Y是最具判别性的d维特征；

(6)对输入字符所属类别的判断，即对未知类别的字符图像，提取特征，与识别库中已有的数据进行比较，以确定其正确的字符代码；

(6.1)设计分类器

对由LDA压缩得到的特征向量Y，计算各字符的均值向量

\overset{&OverBar;}{Y^{ω}} (ω = 1,2, \cdot \cdot \cdot, c)

和各字符的特征向量在每一维上的方差σ_s ^ω(ω＝1，2，…，c，s＝1，2，…，d)，d为Y的维数，

\overset{&OverBar;}{Y^{ω}} = \frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} {Y_{k}}^{ω},

{σ_{s}}^{ω} = \sqrt{\frac{1}{O_{ω}} Σ_{k = 1}^{O_{ω}} {({y^{ω}}_{ks} - {\overset{&OverBar;}{y^{ω}}}_{s})}^{2}},

其中每个藏文字符类别ω(1≤ω≤c)的特征集合为

将各字符的鉴别特征均值向量和各维的方差存入鉴别特征数据库文件中，同时将通过实验得到的分类器的参数存入库文件中；

(6.2)分类判决

对未知类别的输入字符图像，首先进行位置归一化和大小归一化处理，再提取四方向线素特征X，利用LDA线性变换矩阵Φ将原始方向线素特征X变换成Y＝Φ^TX＝(y₁，y₂，…，y_d)^T，d是变换后特征的维数；

从库文件中读取所有字符类的均值向量

\overset{&OverBar;}{Y^{ω}} = {(\overset{&OverBar;}{{y_{1}}^{ω}}, \overset{&OverBar;}{{y_{2}}^{ω}}, \cdot \cdot \cdot \overset{&OverBar;}{{y_{d}}^{ω}})}^{T}

(ω＝1，2，…，c)和各字符类的各维的方差σ_s ^ω(ω＝1，2，…，c，s＝1，2，…，d)，计算Y到

的带偏差的欧氏距离

D (Y, \overset{&OverBar;}{Y^{ω}}) = Σ_{s = 1}^{d} {[t (y_{s}, \overset{&OverBar;}{{y^{ω}}_{s}})]}^{2},

其中

t (y_{s}, \overset{&OverBar;}{{y^{ω}}_{s}}) = \{\begin{matrix} 0, & | y_{s} - \overset{&OverBar;}{{y^{ω}}_{s}} | < θ_{ω} \cdot {σ^{ω}}_{s} \\ γ_{ω} \cdot {σ^{ω}}_{s} + C, & | y_{s} - \overset{&OverBar;}{{y^{ω}}_{s}} | > γ_{ω} \cdot {σ^{ω}}_{s}; \\ | y_{s} - \overset{&OverBar;}{{y^{ω}}_{s}} |, & else \end{matrix}

将所有经过计算的

D (Y, \overset{&OverBar;}{Y^{ω}}), ω = 1,2, \cdot \cdot \cdot, c

按照由小到大的顺序重新排序，选出前L(1≤L≤c)个距离及其所代表的字符类别码e_k，k＝1，2，…，L组成粗分类候选集CanSet＝{(e₁，D₁)，(e₂，D₂)…，(e_L，D_L)}，D₁≤D₂≤…≤D_L；

计算CanSet中首字符的识别置信度Conf(CanSet)

Conf (CanSet) = \frac{D_{2} - D_{1}}{D_{1}},

若Conf(CanSet)高于一定的阈值Conf_TH，直接将(e₁，D₁)作为输入字符的识别结果输出，即认为输入字符属于e₁所对应的字符类别，且识别距离是D₁；否则，计算Y到CanSet中各内码所对应的字符类别的MQDF鉴别距离

Q (Y, \overset{&OverBar;}{Y^{ω}}), ω = 1,2, \cdot \cdot \cdot, L :

Q (Y, \overset{&OverBar;}{Y^{ω}}) = \frac{1}{h^{2}} {Σ_{l = 1}^{d} {(y_{l} - \overset{&OverBar;}{{y^{ω}}_{l}})}^{2} - Σ_{l = 1}^{K} (1 - \frac{h^{2}}{λ_{ωl}}) {[{(Y - \overset{&OverBar;}{Y^{ω}})}^{T} φ_{ωl}]}^{2}} + \ln (h^{2 (d - K)} Σ_{l = 1}^{K} λ_{ωl}),

若

Q (Y, \overset{&OverBar;}{Y^{τ}}) = \min_{1 \leq ω \leq L} Q (Y, \overset{&OverBar;}{Y^{ω}}),

则该输入字符属于e_τ所对应的字符类别，即

τ = \arg \min_{1 \leq ω \leq L} Q (Y, \overset{&OverBar;}{Y^{ω}}) .