CN1606028A

CN1606028A - 基于阿拉伯字符集的印刷体字符识别方法

Info

Publication number: CN1606028A
Application number: CN 200410009785
Authority: CN
Inventors: 丁晓青; 王�华; 靳简明; 彭良瑞; 刘长松; 方驰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2004-11-12
Filing date: 2004-11-12
Publication date: 2005-04-13
Anticipated expiration: 2024-11-12
Also published as: CN1266643C

Abstract

基于阿拉伯字符集的印刷体字符识别方法属于字符识别领域，其特征在于，提取阿拉伯字符集中字符独特的区域信息、字符形式信息、构成部件信息进行预分类，确定输入字符所属的字符类别子集，然后抽取能很好反映字符笔划构成信息的方向特征，在此基础上采用两个步骤进行特征优化处理：1.特征整形；2.由LDA(线性鉴别分析)和K－L变换相结合的特征变换，最后运用MQDF(改进的二次鉴别函数)统计分类器进行分类判决。本发明在多字体多字号维吾尔、哈萨克、柯尔克孜和阿拉伯印刷体字符测试集上的识别正确率均达到99.4％以上。

Description

基于阿拉伯字符集的印刷体字符识别方法

技术领域

基于阿拉伯字符集的印刷体字符识别方法属于字符识别领域。

背景技术

我国的维吾尔、哈萨克、柯尔克孜等少数民族的文字采用阿拉伯字符集体系中的字符来书写，其文字构成规则与书写形式变化均与阿拉伯文相一致。因此，对维吾尔、哈萨克、柯尔克孜、阿拉伯等字符的识别可以运用统一的方法进行处理。在本发明中，把维吾尔、哈萨克、柯尔克孜、阿拉伯字符识别统称为基于阿拉伯字符集的字符识别。采用阿拉伯字符集书写的维吾尔、哈萨克、柯尔克孜、阿拉伯等文字均由30～40个基本字母构成。根据在词中出现的位置的不同，每个基本字母都有1-4种不同的书写形式——首写形式、中间形式、尾写形式、独立形式。于是，在实际文本中，30～40个基本字母就可以演化成100多个字符形式(图5)。基于阿拉伯字符集的文字行文方向为从右到左，字符前后相连形成一个或几个连体字符段，在连体段中，字符沿着基线相连(图6)。

维吾尔文、哈萨克文和柯尔克孜文是我国重要的少数民族文字，开展维吾尔、哈萨克、柯尔克孜字符识别技术研究是中文多文种信息处理系统发展的迫切需要。而以阿拉伯字符作为书写载体的阿拉伯语是世界上主要语言之一，使用人口超过3亿，阿拉伯字符识别系统具有迫切的现实需求和广泛的应用前景。目前，从总体上说，针对阿拉伯字符集的字符识别的研究要远远落后于其它广泛使用的文字(如拉丁字母、汉字、日文等)字符识别的研究，现有的主要方法可以分成两大类：

1.结构方法。对于给定的字符集，抽取数量有限的不可分割的最小子模式(基元)，将这些基元按照特定的顺序和规则组合起来可以构成该字符集中的任何字符。这样，利用字符结构与语言之间的相似性，字符识别可以借助形式语言学的文法(包含了句法规则)来描述和剖析字符的结构。由于基于阿拉伯字符集的文本仅由30多个基本字母拼写而成，而且阿拉伯字符集中的字符笔划往往不多，结构不是非常复杂，所以按照拼音文字常用的方法，采用结构分析方法来识别字符，在理论上可期望得到非常高的识别率。迄今为止，绝大多数学者的研究均侧重于该类方法。但由于结构方法本身的局限性(易受各种噪声影响，鲁棒性不强)和阿拉伯字符集的特殊性(大量相似字符的存在)，所以，此种方法的实际应用效果极不理想。

2.统计方法。抽取字符的统计特征，每个字符模式用一个特征向量表示，它被看成是特征空间中的一个点。识别的过程就是运用统计分类器在特征空间中将待识别字符模式正确地划分到所属的类别中。该方法具有抗噪性能好，可推广性强的优点。但如何选取简洁有效的特征来表示字符以及如何设计合理的分类器，是直接影响识别性能的关键环节。目前虽有少量基于统计方法的阿拉伯字符识别技术见诸文献，但选用的特征基本局限于矩特征，分类判决则采用象欧氏距离这样比较简单的准则。因为特征的局部刻画能力严重不足，又未能充分利用特征空间的高阶信息，现有统计方法的识别性能距离实用需求尚有不小差距。

字符笔划数少且笔划构成以弧线为主，笔划结构信息欠丰富且不易提取、字符集中相似字子集多，相似程度极高、字符宽度和高度都不具有一致性、字符左右边界存在不确定性、不同字体间字型差异大，某些字体接近手写草体、常用字号偏小等特点给基于阿拉伯字符集的字符识别研究带来了极大挑战。

本发明提出了一种基于统计模式识别方法针对阿拉伯字符集的多字体多字号印刷体字符识别的完整的方法。根据字符本身的特点(空间区域信息、字符形式、字符构成部件信息)进行预分类，提取方向特征，经特征优化处理，由修正二次鉴别函数完成分类判决，实现了高性能的基于阿拉伯字符集的印刷体字符识别方法，这是目前所有其他文献里都没有使用过的方法。

发明内容

本发明的目的在于实现一个多字体多字号的基于阿拉伯字符集的印刷体字符识别的方法。以单个印刷体字符作为处理对象，首先对字符对象进行预分类处理，确定其所属的字符类别子集，然后提取能很好反映字符特点的方向特征，再经过特征整形和LDA(线性鉴别分析)方法、K-L变换对特征进行优化，最后运用MQDF(改进的二次鉴别函数)统计分类器进行分类判决。由此，可以得到极高的单字识别正确率。根据该方法，实现了一个基于阿拉伯字符集的印刷体字符识别系统。

作为一个基于阿拉伯字符集的印刷体字符识别系统还包括单字样本的采集，即系统首先扫描输入印刷体维吾尔文、哈萨克文、柯尔克孜文或阿拉伯文的文本，采用自动的方式进行字符切分和字符预分类信息提取，得到单字符的训练样本库和相应的预分类信息集。利用预分类信息集，对字符全集进行初始划分，形成字符类别子集库；利用采集建立的训练样本数据库，进行方向特征的抽取和特征优化，得到训练样本的特征数据库。在训练样本的特征数据库的基础上，通过实验确定分类器的参数。对未知的输入字符样本，先对其进行预分类以确定其所属字符类别子集，然后采用同样的方法抽取特征，再送入分类器与特征库进行分类比较，从而判断输入字符的类别属性。

本发明由以下几部分组成：预分类、特征提取、特征优化、分类器设计。

1.预分类

预分类信息I：空间区域信息ZI(Zone Information)

因阿拉伯字符集中的字符的高度各不相同，在垂直方向上占据的空间区域也不一样。文本行的引线(Headline)和基线(Baseline)将空间区域在垂直方向上分为三个区，从上到下依次为：引线上方的上层区域(Upper Zone)、基线和引线之间的基准区域(Base Zone)、基线下方的下层区域(Lower Zone)，如图7所示。

根据占据区域的不同，可将实际文本中出现的字符分为5种类型，通过对ZI赋予不同的数值来加以区分。ZI的5种合法取值对应于字符的5种类型，如下表所示：

表1ZI的取值与对应的字符占据空间区域的关系

ZI	字符占据的区域
ZI	字符占据的区域	1	上层区域
2	上层区域、基准区域	1	上层区域
2	上层区域、基准区域	3	上层区域、基准区域、下层区域
4	基准区域	3	上层区域、基准区域、下层区域
4	基准区域	5	基准区域、下层区域

预分类信息II：字符形式信息FI(Form Information)

由于阿拉伯字符集中的基本字母在实际文本表现为4种字符形式：首写形式(InitialForm)、中间形式(Medial Form)、尾写形式(Final Form)和独立形式(Isolated Form)，所以出现在实际文本中的每个字符必定为这4种字符形式中的一种。假设χ为实际文本中的一个字符，判断其字符形式的准则为：

若χ在其右侧不与其它字符直接相连，而在其左侧与其它字符直接相连，则χ为首写形式字符，令FI＝1表示；

若χ在其右侧和左侧均与其它字符直接相连，则χ为中间形式字符，令FI＝2表示；

若χ在其右侧与其它字符直接相连，而在其左侧不与其它字符直接相连，则χ为尾写形式字符，令FI＝3表示；

若χ在其右侧和左侧均不与其它字符直接相连，则χ为独立形式字符，令FI＝4表示。

在以上准则中，两个字符“直接相连”是指这两个字符在基线位置处连结在一起，中间不存在空隙。

这样，根据字符形式信息，可将实际文本中出现的字符集划分为4个不同的子集。

预分类信息III：构成部件信息CI(Component Information)

对阿拉伯字符集中字符的连通性进行分析可知，字符可根据其部件的构成情况分成两类：

1)由主体部件和附加部件两部分重叠组成的字符，如图7中第1、2、5、7、12、13、15字符，令CI＝1来表示；2)仅由一个不可分割的部件构成的字符，令CI＝2来表示，如图7中第3、4、6、8、9、10、11、14、16字符。根据部件信息，整个字符集可划分成2个子集。

基于上述分析，一组包含区域信息ZI、字符形式信息FI和字符构成部件信息CI的预分类信息可将整个待处理字符集Ω＝{ω₁，ω₂，…，ω_c}，c为字符集Ω中字符类别的数量，划分成5×4×2＝40个字符类别子集Ω_k，k＝1，2，…，40，c_k为字符类别子集Ω_k中字符类别的数量，c和c_k，k＝1，2，…，40均为正整数，有

Ω_m∩Ω_n＝，m≠n

Σ_{k = 1}^{40} c_{k} = c

其中表示空集。而且，划分子集后可使每个c_k均远小于c。

将预分类信息表示为向量形式I_PC＝[ZI，FI，CI]^T，其分量分别表示区域信息、字符形式信息和构成部件信息，记I_PC ^Ωk和I_PC ^ωm分别表示字符集合Ω_k的预分类信息向量和单个字符类别ω_m的预分类信息向量。由以上分析可知，每个字符子集Ω_k均为具有完全相同的预分类信息的字符类别组成的集合，即：

&ForAll; ω_{l}, ω_{n} &Element; Ω_{k}, I_{PC}^{ω_{l}} &equiv; I_{PC}^{ω_{n}}

Ω_{k} = {ω_{m} | ω_{m} &Element; Ω, I_{PC}^{ω_{m}} = I_{PC}^{Ω_{k}}}

对于输入未知类别的字符χ，用I_PC ^χ表示其预分类信息向量，将I_PC ^χ与I_PC ^Ωk比较可确定χ所属的字符类别子集

Ω_{k_{χ}} = \arg \min_{\overset{Ω_{k}}{1 \leq k \leq 40}} | | I_{PC}^{Ω_{k}} - I_{PC}^{χ} | |,

其中‖·‖表示欧氏距离。

2.特征提取

2.1提取字符的轮廓

设原始二值字符图像为：

{[B (i, j)]}_{H \times W} = [\begin{matrix} B (0,0), & B (0,1), & \cdot \cdot \cdot, & B (0, W - 1) \\ B (1,0), & B (1,1), & \cdot \cdot \cdot, & B (1, W - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ B (H - 1,0), & B (H - 1,1), & \cdot \cdot \cdot, & B (H - 1, W - 1) \end{matrix}]

其中W为图像宽度，H为图像高度，图像位于第i行、第j列的象素点的值为B(i，j)，i＝0，1，…，H-1，j＝0，1，…，W-1。采用双线性插值方法对[B(i，j)]_H×W进行归一化处理得到高度为M、宽度为N的字符点阵图像：

{[G (i, j)]}_{M \times N} = [\begin{matrix} G (0,0), & G (0,1), & \cdot \cdot \cdot, & G (0, N - 1) \\ G (1,0), & G (1,1), & \cdot \cdot \cdot, & G (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ G (M - 1,0), & G (M - 1,1), & \cdot \cdot \cdot, & G (M - 1, N - 1) \end{matrix}]

假定字符图像其笔划所对应的点为黑象素点，用“1”表示、背景所对应的点为白象素点，用“0”表示，即：

其中δ_stroke和δ_background分别表示图像中由字符笔划对应的点和背景点所组成的点的集合。对于任意(i，j)∈δ_stroke，若其8邻域中既有白象素点又有黑象素点，则称该笔划象素点(i，j)为轮廓点。提取轮廓图像的方法是扫描整个字符点阵，对于某个位置的黑象素点，检测其8邻域中象素点的分布情况，如果它的8邻域中的黑象素个数和白象素个数均大于0，则保留该黑象素，否则将字符点阵在该位置的值改为0。这样，从归一化后的字符图像[G(i，j)]_M×N就得到了其轮廓图像[Q(i，j)]_M×N：

{[Q (i, j)]}_{M \times N} = [\begin{matrix} Q (0,0), & Q (0,1), & \cdot \cdot \cdot, & Q (0, N - 1) \\ Q (1,0), & Q (1,1), & \cdot \cdot \cdot, & Q (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ Q (M - 1,0), & Q (M - 1,1), & \cdot \cdot \cdot, & Q (M - 1, N - 1) \end{matrix}]

2.2象素特征分配

本发明采用12种基本方向特征元模板[R^(k)(i，j)]_3×3，k＝1，2，…，12，来进行象素特征的分配，每个基本特征元模板大小均为3×3，如图10所示。将这12个模板分别作用于字符轮廓图像[Q(i，j)]_M×N，得到字符的12个基本特征平面：

{[P^{(k)} (i, j)]}_{M \times N} = [\begin{matrix} P^{(k)} (0,0), & P^{(k)} (0,1), & \cdot \cdot \cdot, & P^{(k)} (0, N - 1) \\ P^{(k)} (1,0), & P^{(k)} (1,1), & \cdot \cdot \cdot, & P^{(k)} (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ P^{(k)} (M - 1,0), & P^{(k)} (M - 1,1), & \cdot \cdot \cdot, & P^{(k)} (M - 1, N - 1) \end{matrix}], k = 1,2, \cdot \cdot \cdot, 12

其中[P^(k)(i，j)]_M×N中的各元素P^(k)(i，j)，i＝0，1，…，M-1，j＝0，1，…，N-1，是[R^(k)(i，j)]_3×3与[Q(i，j)]_M×N进行如下计算得到的：

ρ^{(k)} (i, j) = Σ_{m = 0}^{m = 2} Σ_{n = 0}^{n = 2} R^{(k)} (m, n) Q^{'} (i + m - 1, j + n - 1)

2.3分块压缩

将每个M×N的基本特征平面[P^(k)(i，j)]_M×N，k＝1，2，…，12均匀划分成高为u₀、宽为v₀的子区域(图11)，每个子区域跟相邻的子区域之间在垂直方向有u₁个象素的重合、在水平方向上有v₁个象素的重合，故由每个M×N基本特征平面得到M′×N′个子区域，其中

M^{'} = (\frac{M - u_{0}}{u_{0} - u_{1}} + 1),

N^{'} = (\frac{N - v_{0}}{v_{0} - v_{1}} + 1) .

将基本特征平面中每一个大小为u₀×v₀的子区域映射成大小为M′×N′的平面上一个点，得到压缩特征平面为：

{[E^{(k)} (i, j)]}_{M^{'} \times N^{'}} = [\begin{matrix} E^{(k)} (0,0), & E^{(k)} (0,1), & \cdot \cdot \cdot, & E^{(k)} (0, N^{'} - 1) \\ E^{(k)} (1,0), & E^{(k)} (1,1), & \cdot \cdot \cdot, & E^{(k)} (1, N^{'} - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ E^{(k)} (M^{'} - 1,0), & E^{(k)} (M^{'} - 1,1), & \cdot \cdot \cdot, & E^{(k)} (M^{'} - 1, N^{'} - 1) \end{matrix}], k = 1,2, \cdot \cdot \cdot, 12

[E^(k)(i，j)]_M′×N′中各元素的值为：

E^{(k)} (i, j) = Σ_{m = 0}^{u_{0} - 1} Σ_{n = 0}^{v_{0} - 1} Θ^{(k)} (m, n) P^{(k)} ((u_{0} - u_{1}) i + m, (v_{0} - v_{1}) j + n), i = 0,1, \cdot \cdot \cdot, {M^{'} - 1, j = 0,1, \cdot \cdot \cdot, N}^{'} - 1

式中Θ^(k)(m，n)，0≤m＜u₀，0≤n＜v₀为加权系数：

Θ^{(k)} (m, n) = \frac{1}{2 π σ_{1} σ_{2}} \exp (- \frac{{(m - \frac{u_{0}}{2})}^{2}}{2 {σ_{1}}^{2}} - \frac{{(n - \frac{v_{0}}{2})}^{2}}{2 {σ_{2}}^{2}})

其中

σ_{1} = \frac{\sqrt{2}}{π} u_{1},

σ_{2} = \frac{\sqrt{2}}{π} v_{1} .

2.4特征向量形成

将压缩特征平面[E^(k)(i，j)]_M′×N′，k＝1，2，…，12中的各元素按照顺序排列成一个维数为d＝12×M′×N′的向量X＝[x₀，x₁，…，x_d-1]^T，就得到了表示输入字符的d维原始特征的向量X。

其中

x_{t} = E^{(k_{t})} (i_{t}, j_{t}), t = 0,1, \cdot \cdot \cdot, d - 1

i_t，j_t，k_t与t之间的关系为：

INT(·)表示向下取整函数。

3.特征优化

特征维数的增大和训练样本的不足，将给分类器参数估计和识别计算量都带来很大的问题。根据一般的分类器设计经验，对训练样本的数目的要求是能够达到特征维数的10倍以上。为了减少过高的特征维数和训练样本的相对不足给分类器设计和参数估计带来的困难，本发明在将原始方向特征送入分类器进行字符类别判决前，对特征进行优化降维(图13)。

3.1特征整形

由于后续的LDA变换和MQDF分类器均以高斯分布为基础，提取的特征越接近高斯分布，系统识别性能就越好。为改善特征分布，使之更接近高斯分布，对原始特征向量X＝[x₀，x₁，…，x_d-1]^T进行整形，得到新的特征向量Y＝[y₀，y₁，…，y_d-1]^T，y_t与x_t之间的关系为：

y_{t} = \frac{{x_{t}}^{α} - 1}{α}, t = 0,1, \cdot \cdot \cdot, d - 1

其中α∈(0，1)为整形常数。

3.2特征变换

高维的特征向量Y包含很多冗余的信息。这些信息的存在不仅加大了计算的开销，而且会干扰字符识别的结果，本发明采用LDA(线性鉴别分析)和K-L变换的混合变换矩阵对Y进行特征变换，尽可能去除冗余信息，有效提取最具有鉴别能力的特征。

如“预分类”一节中所述，待处理字符集为Ω＝{ω₁，ω₂，…，ω_c}，c为集Ω中字符类别数，通过预分类被划分成40个字符类别子集Ω_k，k＝1，2，…，40，c_k为字符子集Ω_k中字符类别的数量。设第m类字符ω_m的训练样本数为O_ωm，m＝1，2，…，c，对该字符类别的训练样本采用上述方法提取特征并经特征整形后，得到的d维特征向量集合为{Y₁ ^ωm，Y₂ ^ωm，…，Y_Oωm ^ωm}。

3.2.1计算统计量

计算每个字符类ω_m特征向量的中心μ_ωm和类内散度矩阵S_ωm：

μ_{ω_{m}} = \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} Y_{l}^{ω_{m}}, m = 1,2, \cdot \cdot \cdot, c

S_{ω_{m}} = \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} {(Y_{l}^{ω_{m}} - μ_{ω_{m}}) (Y_{l}^{ω_{m}} - μ_{ω_{m}})}^{T}, m = 1,2, \cdot \cdot \cdot, c

计算各子集中所有字符类的特征向量的中心μ^(Ωk)：

μ^{(Ω_{k})} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} μ_{ω_{m}}, k = 1,2, \cdot \cdot \cdot, 40

计算各子集的类间散度矩阵S_b ^(Ωk)和平均类内散度矩阵S_w ^(Ωk)；

S_{b}^{(Ω_{k})} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} (μ_{ω_{m}} - μ^{(Ω_{k})}) {(μ_{ω_{m}} - μ^{(Ω_{k})})}^{T}, k = 1,2, \cdot \cdot \cdot, 40

S_{w}^{(Ω_{k})} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} {(Y_{l}^{ω_{m}} - μ_{ω_{m}}) (Y_{l}^{ω_{m}} - μ_{ω_{m}})}^{T} = \frac{1}{c_{k}} \underset{\overset{ω_{m} &Element; Ω_{k}}{1 \leq m \leq c}}{Σ} S_{ω_{m}}, k = 1,2, \cdot \cdot \cdot, 40

3.2.2 LDA变换

用矩阵计算工具计算矩阵(S_w ^(Ωk))^-1S_b ^(Ωk)的本征值ξ₀ ^(Ωk)，ξ₁ ^(Ωk)，…，ξ_d-1 ^(Ωk)，k＝1，2，…，40和与各本征值相对应的本征向量₀ ^(Ωk)，₁ ^(Ωk)，…，_d-1 ^(Ωk)，k＝1，2，…，40，使得下列方程成立：

或等价于

由LDA的理论知：若采用使矩阵[(Φ₁ ^(Ωk))^TS_w ^(Ωk)Φ₁ ^(Ωk)]^-1[(Φ₁ ^(Ωk))^TS_b ^(Ωk)Φ₁ ^(Ωk)]，k＝1，2，…，40的迹tr([(Φ₁ ^(Ωk) ^TS_w ^(Ωk)Φ₁ ^(Ωk)]^-1[(Φ₁ ^(Ωk))^TS_b ^(Ωk)Φ₁ ^(Ωk)])，k＝1，2，…，40达到最大的d×r₁(r₁为LDA变换后截取的特征维数)矩阵Φ₁ ^(Ωk)作为特征变换矩阵，则能使变换后的特征类内散度方差与类间散度方差的比值达到最大，从而达到增加子集中各模式类别间的可分性的目的。同时，数学上已经证明，使tr([(Φ₁ ^(Ωk))^TS_w ^(Ωk)Φ₁ ^(Ωk)]^-1[(Φ₁ ^(Ωk))^TS_b ^(Ωk)Φ₁ ^(Ωk)])达到最大的Φ₁ ^(Ωk)是由矩阵(S_w ^(Ωk))^-1S_b ^(Ωk)的最大的r₁个非零本征值对应的本征向量构成的。所以，将(S_w ^(Ωk))^-1S_b ^(Ωk)的本征值按照从大到小的顺序排列，使得

ξ_{0}^{(Ω_{k})} &GreaterEqual; ξ_{1}^{(Ω_{k})} &GreaterEqual; \cdot \cdot \cdot &GreaterEqual; ξ_{d - 1}^{(Ω_{k})},

同时，₀ ^(Ωk)，₁ ^(Ωk)，…，_d-1 ^(Ωk)的顺序也作相应的调整，使得它们保持与ξ₀ ^(Ωk)，ξ₁ ^(Ωk)，…，ξ_d-1 ^(Ωk)的对应关系，即满足：

由于(S_w ^(Ωk))^-1S_b ^(Ωk)的秩

rank ({(S_{w}^{(Ω_{k})})}^{- 1} S_{b}^{(Ω_{k})}) = c_{k} - 1,

即(S_w ^(Ωk))^-1S_b ^(Ωk)的非零本征值最多为c_k-1个，所以本专利选取r₁可选择为区间(0，c_k-1]上的正整数。于是得到这就是LDA变换矩阵。

3.2.3 K-L变换

本发明采用K-L变换得目的是将输入特征向量经过d×r₂(r₂为K-L变换后截取的特征维数)的矩阵Φ₂ ^(Ωk)变换后的生成新的特征向量各分量互不相关，并且提取蕴涵在二阶统计量S_ωm，ω_m∈Ω_k中的鉴别信息，以弥补单独使用由LDA提取的蕴涵在类平均向量μ_ωm中鉴别信息的不足。

用矩阵计算工具计算矩阵S_w ^(Ωk)的本征值ξ₀ ^(Ωk)，ξ₁ ^(Ωk)，…，ξ_d-1 ^(Ωk)，k＝1，2，…，40和与各本征值相对应的本征向量Ψ₀ ^(Ωk)，Ψ₁ ^(Ωk)，…，Ψ_d-1 ^(Ωk)，k＝1，2，…，40，使得下列方程成立：

S_{w}^{(Ω_{k})} ψ_{l}^{(Ω_{k})} = ζ_{l}^{(Ω_{k})} ψ_{l}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1

令：

η_{lm}^{(Ω_{k})} = {(ψ_{l}^{(Ω_{k})})}^{T} S_{ω_{m}} ψ_{l}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1, ω_{m} &Element; Ω_{k}

由K-L变换的理论可知，η_lm ^(Ωk)表示类ω_m的输入特征向量在坐标轴ψ_l ^(Ωk)上投影后分布的方差。对某个固定的坐标轴ψ_l ^(Ωk)，η_lm ^(Ωk)的分散度或不确定性表征了输入特征在该坐标轴上的投影对Ω_k中各模式类的区分能力，所以，应该选取那些使得η_lm ^(Ωk)不确定性小的坐标轴来组成K-L变换矩阵。而熵是随机变量不确定性的一种有效的度量，熵越大，表明随机变量的不确定性越大。为此，先对η_lm ^(Ωk)进行归一化：

{\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})} = \frac{η_{lm}^{(Ω_{k})}}{\underset{\overset{1 \leq n \leq c}{ω_{n} &Element; Ω_{k}}}{Σ} η_{\ln}^{(Ω_{k})}}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1, ω_{m} &Element; Ω_{k}

使得

\underset{\underset{ω_{m} &Element; Ω_{k}}{1 \leq m \leq c}}{Σ} {\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})} = 1, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1

令熵函数为：

H (ψ_{l}^{(Ω_{k})}) = - \underset{\overset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} {\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})} \log_{2} {\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1

计算对应于各本征向量ψ₀ ^(Ωk)，ψ₁ ^(Ωk)，…，ψ_d-1 ^(Ωk)的熵函数的值H(ψ₀ ^(Ωk))，H(ψ₁ ^(Ωk))，…，H(ψ_d-1 ^(Ωk))，将ψ₀ ^(Ωk)，ψ₁ ^(Ωk)，…，ψ_d-1 ^(Ωk)按各自熵值从小到大的顺序排列，使

H (ψ_{0}^{(Ω_{k})}) \leq H (ψ_{1}^{(Ω_{k})}) \leq \cdot \cdot \cdot \leq H (ψ_{d - 1}^{(Ω_{k})}) .

这样，排在最前面的r₂个本征向量ψ₀ ^(Ωk)，ψ₁ ^(Ωk)，…，ψ_r2-1 ^(Ωk)就是所求的目标向量，由它们组成了K-L变换矩阵

Φ_{2}^{(Ω_{k})} = [ψ_{0}^{(Ω_{k})}, ψ_{1}^{(Ω_{k})}, \cdot \cdot \cdot, ψ_{r_{2} - 1}^{(Ω_{k})}], k = 1,2, \cdot \cdot \cdot, 40 .

3.2.4特征变换矩阵

将LDA变换矩阵Φ₁ ^(Ωk)和K-L变换矩阵Φ₂ ^(Ωk)的列向量排列在一起，就形成了总的d×r的特征变换矩阵φ^(Ωk)：

r = r_{1} + r_{2}

将整形后的d维特征Y＝[y₀，y₁，…，y_d-1]^T经过Φ^(Ωk)变换就得到了r维优化特征Z＝[z₀，z₁，…，z_r-1]^T，变换的过程为：

Z = {(Φ^{(Ω_{k})})}^{T} Y

这就形成了最终送入分类器作为字符类型判决依据的特征向量。

4.分类器设计

分类器设计是字符识别的核心技术之一，研究者针对不同的问题提出了许多模式分类器。但在多种因素制约下，最小距离分类器以其简单有效而得到极大的应用。贝叶斯分类器是理论上最优的统计分类器，在处理实际问题时，人们希望尽量去逼近它。当在字符的特征为高斯分布且各类特征分布的先验概率相等的条件下，贝叶斯分类器简化为马氏距离分类器。但该条件在实际中通常不易满足，而且马氏距离分类器的性能随着协方差矩阵估计误差的产生而严重劣化。本发明采用MQDF(修正二次鉴别函数)作为分类度量，它是马氏距离的一个变形。MQDF鉴别函数形式为：

g^{(Ω_{k})} (Z, {\overset{&OverBar;}{Z}}^{ω_{m}}) = Σ_{l = 0}^{r - 1} \frac{{(z_{l} - {\overset{&OverBar;}{z}}_{l}^{ω_{m}})}^{2}}{h^{2}} - Σ_{l = 0}^{K - 1} \frac{λ_{l}^{ω_{m}} - h^{2}}{h^{2} λ_{l}^{ω_{m}}} {[{(Z - {\overset{&OverBar;}{Z}}^{ω_{M}})}^{T} φ_{l}^{ω_{m}}]}^{2} + \ln (h^{2 (r - K)} Π_{l = 0}^{K - 1} λ_{l}^{ω_{m}}), ω_{m} &Element; Ω_{k}

其中Z＝[z₀，z₁，…，z_d-1]^T为送入分类器的未知字符的优化特征向量，

{\overset{&OverBar;}{Z}}^{ω_{m}} = {[{\overset{&OverBar;}{z}}_{0}^{ω_{m}}, {\overset{&OverBar;}{z}}_{1}^{ω_{m}}, \cdot \cdot \cdot, {\overset{&OverBar;}{z}}_{r - 1}^{ω_{m}}]}^{T}

为

字符类别ω_m的标准特征向量，λ_l ^ωm和φ_l ^ωm分别为第ω_m类样本的优化特征向量的协方差矩阵∑_ωm的第l个本征值和本征向量，K表示所截取的主本征向量的个数，也是模式类的主子空间维数，其最优值由实验确定，h²是对小本征值的实验估计。

{\overset{&OverBar;}{Z}}^{ω_{m}} = {(Φ^{(Ω_{k})})}^{T} μ_{ω_{M}}, ω_{m} {&Element; Ω}_{k}, k = 1,2, \cdot \cdot \cdot, 40

Σ_{ω_{m}} = {(Φ^{(Ω_{k})})}^{T} S_{ω_{m}} Φ^{(Ω_{k})}, ω_{m} &Element; Ω_{k}, k = 1,2, \cdot \cdot \cdot, 40

MQDF产生的是二次判决曲面，因只需估计每个类别协方差阵的前K个主本征向量，避免了小本征值估计误差的负面影响。MQDF鉴别距离可看作是在K维主子空间内的马氏距离和剩余的(r-K)维空间内的欧氏距离的加权和，加权因子为1/h²。

对每一个输入未知字符χ的特征向量进行分类判决时，搜索范围限定于对该输入字符预分类得到的特定子集Ω_kχ。

g^{(Ω_{k_{χ}})} (Z, {\overset{&OverBar;}{Z}}^{ω_{τ}}) = \min_{ω_{m} {&Element; Ω}_{k_{χ}}} g^{(Ω_{k_{χ}})} (Z, {\overset{&OverBar;}{Z}}^{ω_{m}}),

则判定该输入字符属于字符类别ω_τ，即

ω_{τ} = \arg \min_{ω_{m} {&Element; Ω}_{k_{χ}}} g^{(Ω_{k_{χ}})} (Z, {\overset{&OverBar;}{Z}}^{ω_{m}}) .

本发明的特征在于，它是一种能够识别多字体多字号的基于阿拉伯字符集的印刷体字符识别技术。它依次含有以下步骤：

1.基于阿拉伯字符集的印刷体字符识别方法，其特征在于，它在对字符对象进行必要预处理后，首先对输入的单个字符进行预分类，将其划分到恰当的字符类别子集中去，然后提取能很好反映字符结构特点的方向特征，在此基础上，利用特征整形、LDA变换和K-L变换提取最具鉴别性的优化特征，把该特征送入MQDF分类器判定字符所属类别；在由图像采集设备和计算机组成的系统中，它依次含有以下步骤：

训练阶段：

第1步：在计算机中设定以下参数：

字符类别总数c；

归一化后字符高度M、字符宽度N；

基本特征平面分块参数u₀、v₀、u₁、v₁，其中

u₀为基本特征平面中子区域的高度，

v₀为基本特征平面中子区域的宽度，

u₁为基本特征平面中子区域与相邻子区域之间在垂直方向上重合的象素个数，

v₁为基本特征平面中子区域与相邻子区域之间在水平方向上重合的象素个数；

原始特征向量经特征整形形成更符合高斯分布的新特征向量时采用的整形参数α∈(0，1)；特征变换时LDA截取维数r₁、K-L变换截取维数r₂；

第2步：字符样本的采集

第2.1步：用图像采集设备扫描输入多字体多字号基于阿拉伯字符集的维吾尔文、哈萨克文、柯尔克孜文、阿拉伯文的文本，利用已有算法进行去噪声、二值化等必要的预处理；

第2.2步：对文本图像依次进行行切分、连体字符段切分、单字切分处理以分离单个字符，再对每个字符的图像标定其对应的正确的字符内码，然后把相同字符类别对应的原始字符图像提取出来，保存为用以训练和测试的单字样本集；

第2.3步：定义并标定每个字符类别的空间区域信息、字符形式信息和字符组成部件信息，保存标定结果，形成字符类别预分类信息集；它依次含有以下步骤：

第2.3.1步：形成字符空间区域信息，用ZI表示：

用文本行的引线Headline和基线Baseline将字符空间区域在垂直方向上分为三个区，从上到下依次为：引线上方的上层区域Upper Zone、基线和引线之间的基准区域Base Zone、基线下方的下层区域Lower Zone；

检测输入字符χ在三个空间区域中的分布情况，根据χ占据的区域，给ZI赋值如下：

若χ仅占据上层区域，则ZI＝1；

若χ同时占据上层区域和基准区域，则ZI＝2；

若χ同时占据上层区域、基准区域和下层区域，则ZI＝3；

若χ仅占据基准区域，则ZI＝4；

若χ同时占据基准区域和下层区域，则ZI＝5；

第2.3.2步：形成字符形式信息，用FI表示：

阿拉伯字符集中的基本字母在实际文本中表现为4种字符形式：首写形式、中间形式、尾写形式、独立形式；输入字符χ必定为这4种字符形式中的一种，依据χ与其左右字符的连接关系判断它的形式信息：

若χ在其右侧不与其它字符直接相连，而在其左侧与其它字符直接相连，则χ为首写形式字符，令FI＝1；

若χ在其右侧和左侧均与其它字符直接相连，则χ为中间形式字符，令FI＝2；

若χ在其右侧与其它字符直接相连，而在其左侧不与其它字符直接相连，则χ为尾写形式字符，令FI＝3；

若χ在其右侧和左侧均不与其它字符直接相连，则χ为独立形式字符，令FI＝4；

第2.3.3步：形成字符构成部件信息，用CI表示：

对输入字符χ进行连通性分析，根据其部件的构成情况分成两类：

若χ由主体部件和附加部件两部分组成，则CI＝1；

若χ仅由一个不可分割的部件构成，则CI＝2；

第2.3.4步：依据同一字符类别的不同单字样本的预分类信息相一致的准则对属于各字符类别的单字样本的预分类信息进行检查纠错后保存起来，形成字符类别预分类信息集；

第3步：字符类别子集的划分

设待处理字符全集为Ω＝{ω₁，ω₂，…，ω_c}；

将第2.3步得到的字符类别预分类信息，用一个向量

I_{PC}^{ω_{m}} = {[ZI, FI, CI]}^{T}

表示，m＝1，2，…，c；

依据I_PC ^ωm将Ω划分成5×4×2个字符类别子集Ω_k，k＝1，2，…，40，Ω_k包含的字符类别数为c_k，使

Ω_m∩Ω_n＝，m≠n，

Σ_{k = 1}^{40} c_{k} = c;

其中表示空集；由以上划分得

&ForAll; ω_{l}, ω_{n} &Element; Ω_{k}, I_{PC}^{ω_{l}} &equiv; I_{PC}^{ω_{n}}

若用I_PC ^Ωk表示Ω_k中各字符类别子集的共同的预分类信息向量，则Ω_k表示为：

Ω_{k} = {ω_{m} | ω_{m} &Element; Ω, I_{PC}^{ω_{m}} = I_{PC}^{Ω_{k}}}, k = 1,2, \cdot \cdot \cdot, 40

第4步：特征提取

第4.1步：提取字符轮廓，它依次含有以下步骤：

第4.1.1步：

设原始二值字符图像为：

{[B (i, j)]}_{H \times W} = [\begin{matrix} B (0,0), & B (0,1), & \cdot \cdot \cdot, & B (0, W - 1) \\ B (1,0), & B (1,1), & \cdot \cdot \cdot, & B (1, W - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ B (H - 1,0), & B (H - 1,1), & \cdot \cdot \cdot, & B (H - 1, W - 1) \end{matrix}],

其中W为原始二值字符图像宽度，

H为原始二值字符图像高度，

B(i，j)为图像位于第i行、第j列的象素点的值，i＝0，1，…，H-1，j＝0，1，…，W-1；用双线性插值方法对[B(i，j)]_H×W进行归一化处理得到高度为M、宽度为N的归一化字符点阵图像：

{[G (i, j)]}_{M \times N} = [\begin{matrix} G (0,0), & G (0,1), & \cdot \cdot \cdot, & G (0, N - 1) \\ G (1,0), & G (1,1), & \cdot \cdot \cdot, & G (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ G (M - 1,0), & G (M - 1,1), & \cdot \cdot \cdot, & G (M - 1, N - 1) \end{matrix}];

第4.1.2步：

设字符图像其笔划所对应的点为黑象素点，用“1”表示、背景所对应的点为白象素点，用“0”表示，即：

其中

δ_stroke表示图像中由字符笔划对应的点所组成的点的集合，

δ_background表示图像中由背景点所组成的点的集合；

对于任意(i，j)∈δ_stroke，若其8邻域中既有白象素点又有黑象素点，则称该笔划象素点(i，j)为轮廓点；

第4.1.3步：

扫描整个字符点阵，对于某个位置的黑象素点，检测其8邻域中象素点的分布情况，如果它的8邻域中的黑象素个数和白象素个数均大于0，则保留该黑象素，否则将字符点阵在该位置的值改为0；

由归一化后的字符图像[G(i，j)]_M×N得到其轮廓图像[Q(i，j)]_M×N：

{[Q (i, j)]}_{M \times N} = [\begin{matrix} Q (0,0), & Q (0,1), & \cdot \cdot \cdot, & Q (0, N - 1) \\ Q (1,0), & Q (1,1), & \cdot \cdot \cdot, & Q (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ Q (M - 1,0), & Q (M - 1,1), & \cdot \cdot \cdot, & Q (M - 1, N - 1) \end{matrix}];

第4.2步：象素特征分配

设定12种大小均为3×3的基本方向特征元模板[R^(k)(i，j)]_3×3，k＝1，2，…，12：

{[R^{(1)} (i, j)]}_{3 \times 3} = [\begin{matrix} 0,0,0 \\ 1,1,1 \\ 0,0, 0 \end{matrix}],

{[R^{(2)} (i, j)]}_{3 \times 3} = [\begin{matrix} 0,1,0 \\ 0,1,0 \\ 0,1,0 \end{matrix}],

{[R^{(3)} (i, j)]}_{3 \times 3} = [\begin{matrix} 0,0,1 \\ 0,1,0 \\ 1,0,0 \end{matrix}],

{[R^{(4)} (i, j)]}_{3 \times 3} = [\begin{matrix} 0,0,0 \\ 1,1,0 \\ 0,0,1 \end{matrix}],

{[R^{(5)} (i, j)]}_{3 \times 3} = [\begin{matrix} 0,0,1 \\ 1,1,0 \\ 0,0,0 \end{matrix}],

{[R^{(6)} (i, j)]}_{3 \times 3} = [\begin{matrix} 0,0,0 \\ 1,1,0 \\ 0,0,1 \end{matrix}],

{[R^{(7)} (i, j)]}_{3 \times 3} = [\begin{matrix} 1, 0,0 \\ 0,1,1 \\ 0,0, 0 \end{matrix}],

{[R^{(8)} (i, j)]}_{3 \times 3} = [\begin{matrix} 0,0,0 \\ 0,1,1 \\ 1,0,0 \end{matrix}],

{[R^{(9)} (i, j)]}_{3 \times 3} = [\begin{matrix} 0,1,0 \\ 0,1,0 \\ 1,0,0 \end{matrix}],

{[R^{(10)} (i, j)]}_{3 \times 3} = [\begin{matrix} 0, 1, 0 \\ 0,1,0 \\ 0,0,1 \end{matrix}],

{[R^{(11)} (i, j)]}_{3 \times 3} = [\begin{matrix} 1,0,0 \\ 0,1,0 \\ 0,1,0 \end{matrix}],

{[R^{(12)} (i, j)]}_{3 \times 3} = [\begin{matrix} 0,0,1 \\ 0,1,0 \\ 0,1,0 \end{matrix}];

将上述12种模板分别作用于字符轮廓图像[Q(i，j)]_M×N，得到字符的12个基本特征平面：

{[P^{(k)} (i, j)]}_{M \times N} = [\begin{matrix} P^{(k)} (0,0), & P^{(k)} (0,1), & \cdot \cdot \cdot, & P^{(k)} (0, N - 1) \\ P^{(k)} (1,0), & P^{(k)} (1,1), & \cdot \cdot \cdot, & P^{(k)} (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ P^{(k)} (M - 1,0), & P^{(k)} (M - 1,1), & \cdot \cdot \cdot, & P^{(k)} (M - 1, N - 1) \end{matrix}], k = 1,2, \cdot \cdot \cdot, 12,

其中[P^(k)(i，j)]_M×N中的各元素P^(k)(i，j)，i＝0，1，…，M-1，j＝0，1，…，N-1，为：

而

ρ^{(k)} (i, j) = Σ_{m = 0}^{m = 2} Σ_{n = 0}^{n = 2} R^{(k)} (m, n) Q^{'} (i + m - 1, j + n - 1),

而

第4.3步：分块压缩

将每个大小为M×N的基本特征平面[P^(k)(i，j)]_M×N，k＝1，2，…，12，均匀划分成高为u₀、宽为v₀的子区域，每个子区域跟相邻的子区域之间在垂直方向有u₁个象素的重合、在水平方向上有v₁个象素的重合；由每个M×N基本特征平面得到M′×N′个子区域，其中

M^{'} = (\frac{M - u_{0}}{u_{0} - u_{1}} + 1),

N^{'} = (\frac{N - v_{0}}{v_{0} - v_{1}} + 1);

将每个基本特征平面中每一个大小为u₀×v₀的子区域映射成大小为M′×N′的平面上的一个点，形成压缩特征平面：

{[E^{(k)} (i, j)]}_{M^{'} \times N^{'}} = [\begin{matrix} E^{(k)} (0,0), & E^{(k)} (0,1), & \cdot \cdot \cdot, & E^{(k)} (0, N^{'} - 1) \\ E^{(k)} (1,0), & E^{(k)} (1,1), & \cdot \cdot \cdot, & E^{(k)} (1, N^{'} - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ E^{(k)} (M^{'} - 1,0), & E^{(k)} (M^{'} - 1,1), & \cdot \cdot \cdot, & E^{(k)} (M^{'} - 1, N^{'} - 1) \end{matrix}], k = 1,2, \cdot \cdot \cdot, 12,

其中[E^(k)(i，j)]_M′×N′中各元素的值为：

E^{(k)} (i, j) = Σ_{m = 0}^{u_{0} - 1} Σ_{n = 0}^{v_{0} - 1} Θ^{(k)} (m, n) P^{(k)} ((u_{0} - u_{1}) i + m, (v_{0} - v_{1}) j + n),

而Θ^(k)(m，n)，0≤m＜u₀，0≤n＜v₀为加权系数：

Θ^{(k)} (m, n) = \frac{1}{2 π σ_{1} σ_{2}} \exp (- \frac{{(m - \frac{u_{0}}{2})}^{2}}{2 {σ_{1}}^{2}} - \frac{{(n - \frac{v_{0}}{2})}^{2}}{2 {σ_{2}}^{2}}),

其中

σ_{1} = \frac{\sqrt{2}}{π} u_{1},

σ_{2} = \frac{\sqrt{2}}{π} v_{1};

第4.4步：特征向量形成

将压缩特征平面[E^(k)(i，j)]_M′×N′，k＝1，2，…，12，中的各元素按照顺序排列成一个维数为d＝12×M′×N′的矢量X＝[x₀，x₁，…，x_d-1]^T，得到了表示输入字符的d维原始方向特征向量：

其中

x_{t} = E^{(k_{t})} (i_{t}, j_{t}), t = 0,1, \cdot \cdot \cdot, d - 1;

而i_t，j_t，k_t与t之间的关系为：

INT(·)表示向下取整函数：

第5步：特征优化

第5.1步：特征整形

对原始特征向量X＝[x₀，x₁，…，x_d-1]^T进行整形，得到新的特征向量Y＝[y₀，y₁，…，y_d-1]^T，y_t与x_t之间的关系为：

y_{t} = \frac{{x_{t}}^{α} - 1}{α}, t = 0,1, \cdot \cdot \cdot, d - 1,

其中α∈(0，1)为整形常数；

第5.2步：特征变换

第5.2.1步：获取字符类别的特征向量集合

如“第3步：字符类别子集的划分”所述，待处理字符集为Ω＝{ω₁，ω₂，…，ω_c}，c为集Ω中字符类别数，通过预分类处理被划分为40个字符类别子集Ω_k，k＝1，2，…，40，c_k为字符类别子集Ω_k中字符类别的数量；

设第m类字符ω_m的训练样本数为O_ωm，m＝1，2，…，c，对该字符类别的训练样本采用“第4步：特征提取”所述方法提取特征得到的d维原始特征向量集合为{X₁ ^ωm，X₂ ^ωm，…，X_Oωm ^ωm}；则经“第5.1步：特征整形”后，得到的d维特征向量集合为{Y₁ ^ωm，Y₂ ^ωm，…，Y_Oωm ^ωm}；

第5.2.2步：统计量计算

μ_{ω_{m}} = \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} Y_{l}^{ω_{m}}, m = 1,2, \cdot \cdot \cdot, c,

S_{ω_{m}} = \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} {(Y_{l}^{ω_{m}} - μ_{ω_{m}}) (Y_{l}^{ω_{m}} - μ_{ω_{m}})}^{T}, m = 1,2, \cdot \cdot \cdot, c;

计算各子集中所有字符类的特征向量的中心μ^(Ωk)：

μ^{(Ω_{k})} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} μ_{ω_{m}}, k = 1,2, \cdot \cdot \cdot, 40;

计算各子集的类间散度矩阵S_b ^(Ωk)和平均类内散度矩阵S_w ^(Ωk)：

S_{b}^{(Ω_{k})} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} (μ_{ω_{m}} - μ^{(Ω_{k})}) {(μ_{ω_{m}} - μ^{(Ω_{k})})}^{T}, k = 1,2, \cdot \cdot \cdot, 40,

S_{w}^{(Ω_{k})} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} {(Y_{l}^{ω_{m}} - μ_{ω_{m}}) (Y_{l}^{ω_{m}} - μ_{ω_{m}})}^{T} = \frac{1}{c_{k}} \underset{\overset{ω_{m} &Element; Ω_{k}}{1 \leq m \leq c}}{Σ} S_{ω_{m}}, k = 1,2, \cdot \cdot \cdot, 40;

第5.2.3步：LDA变换，它依次含有以下步骤：

第5.2.3.1步：用矩阵计算工具计算矩阵(S_w ^(Ωk))-1S_b ^(Ωk)的本征值ξ₀ ^(Ωk)，ξ₁ ^(Ωk)，…，ξ_d-1 ^(Ωk)，k＝1，2，…，40和与各本征值相对应的本征向量₀ ^(Ωk)，₁ ^(Ωk)，…，_d-1 ^(Ωk)，k＝1，2，…，40，使得下列方程成立：

第5.2.3.2步：将(S_w ^(Ωk))^-1S_b ^(Ωk)的本征值按从大到小的顺序排列，使

ξ_{0}^{(Ω_{k})} &GreaterEqual; ξ_{1}^{(Ω_{k})} &GreaterEqual; \cdot \cdot \cdot &GreaterEqual; ξ_{d - 1}^{(Ω_{k})},

同时，₀ ^(Ωk)，₁ ^(Ωk)，…，_d-1 ^(Ωk)的顺序也作相应的调整，使得它们保持与ξ₀ ^(Ωk)，ξ₁ ^(Ωk)，…，ξ_d-1 ^(Ωk)的对应关系；

第5.2.3.2步：取(S_w ^(Ωk))^-1S_b ^(Ωk)的前r₁个非零本征值对应的本征向量构成LDA变换矩阵r₁的有效值可根据需要选取为小于或等于矩阵(S_w ^(Ωk))^-1S_b ^(Ωk)的秩

rank ({(S_{w}^{(Ω_{k})})}^{- 1} S_{b}^{(Ω_{k})}) = c_{k} - 1

的正整数

第5.2.4步：K-L变换，它依次含有以下步骤：

第5.2.4.1步：用矩阵计算工具计算矩阵S_w ^(Ωk)的本征值ξ₀ ^(Ωk)，ξ₁ ^(Ωk)，…，ξ_d-1 ^(Ωk)，k＝1，2，…，40和与各本征值相对应的本征向量ψ₀ ^(Ωk)，ψ₁ ^(Ωk)，…，ψ_d-1 ^(Ωk)，k＝1，2，…，40，使下列方程成立：

S_{w}^{(Ω_{k})} ψ_{l}^{(Ω_{k})} = ζ_{l}^{(Ω_{k})} ψ_{l}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1;

第5.2.4.2步：

令：

η_{lm}^{(Ω_{k})} = {(ψ_{l}^{(Ω_{k})})}^{T} S_{ω_{m}} ψ_{l}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1, ω_{m} &Element; Ω_{k};

对η_lm ^(Ωk)进行归一化：

{\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})} = \frac{η_{lm}^{(Ω_{k})}}{\underset{\overset{1 \leq n \leq c}{ω_{n} &Element; Ω_{k}}}{Σ} η_{\ln}^{(Ω_{k})}}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1, ω_{m} &Element; Ω_{k};

使

\underset{\underset{ω_{m} &Element; Ω_{k}}{1 \leq m \leq c}}{Σ} {\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})} = 1, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1;

第5.2.4.3步；

定义熵函数：

H (ψ_{l}^{(Ω_{k})}) = - \underset{\overset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} {\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})} \log_{2} {\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1;

计算对应于各向量ψ₀ ^(Ωk)，ψ₁ ^(Ωk)，…，ψ_d-1 ^(Ωk)的熵函数的值H(ψ₀ ^(Ωk))，H(ψ₁ ^(Ωk))，…，H(ψ_d-1 ^(Ωk))，将ψ₀ ^(Ωk)，ψ₁ ^(Ωk)，…，ψ_d-1 ^(Ωk)按熵从小到大的顺序进行排列，使

H (ψ_{0}^{(Ω_{k})}) \leq H (ψ_{1}^{(Ω_{k})}) \leq \cdot \cdot \cdot \leq H (ψ_{d - 1}^{(Ω_{k})});

第5.2.4.4步：取排在最前面的r₂个本征向量ψ₀ ^(Ωk)，ψ₁ ^(Ωk)，…，ψ_r2-1 ^(Ωk)组成了K-L变换矩阵

Φ_{2}^{(Ω_{k})} = [ψ_{0}^{(Ω_{k})}, ψ_{1}^{(Ω_{k})}, \cdot \cdot \cdot, ψ_{r_{2} - 1}^{(Ω_{k})}], k = 1,2, \cdot \cdot \cdot, 40;

r₂为K-L变换截取的特征维数；

第5.2.5步：特征变换矩阵形成

将LDA变换矩阵Φ₁ ^(Ωk)和K-L变换矩阵Φ₂ ^(Ωk)的列向量排列在一起，形成总的大小为d×r的特征变换矩阵Φ^(Ωk)：

r = r_{1} + r_{2};

将整形后的d维特征Y＝[y₀，y₁，…，y_d-1]^T经过Φ^(Ωk)变换得到r维优化特征Z＝[z₀，z₁，…，z_r-1]^T，变换的过程为：

Z = {(Φ^{(Ω_{k})})}^{T} Y

形成最终送入分类器作为字符类型判决依据的字符特征向量Z；将Φ^(Ωk)，k＝1，2，…，40，存入文件，形成优化参数库；

第6步：设计分类器

对于每个字符子集Ω_k，计算包含在Ω_k中的各字符类别的优化特征的均值向量 Z^ωm和协方差矩阵∑_ωm：

{\overset{&OverBar;}{Z}}^{ω_{m}} = {(Φ^{(Ω_{k})})}^{T} μ_{ω_{m}}, ω_{m} &Element; Ω_{k}

Σ_{ω_{m}} = {(Φ^{(Ω_{k})})}^{T} S_{ω_{m}} Φ^{(Ω_{k})}, ω_{m} &Element; Ω_{k}

利用矩阵计算工具求取∑_ωm的本征值λ_l ^ωm和对应得本征向量φ_l ^ωm，l＝0，1，…，r-1，通过实验确定MQDF分类器的相关参数K、h²；将 Z^ωm、K、h²、λ_l ^ωm、φ_l ^ωm存入文件中；对所有的Ω_k，k＝1，2，…，40，依次进行如上操作，得到了用于分类判决的字符特征库；识别阶段：

第1步：预分类，即对输入的未知字符，判定其所属的字符类别子集；它依次包含以下步骤：

第1.1步：获取字符预分类信息

依照“训练阶段第3.2步”所述的方法，分别检测输入未知字符χ的空间区域信息ZI、字符形式信息FI和构成部件信息CI，形成χ的预分类信息向量

I_{PC}^{χ} = {[ZI, FI, CI]}^{T};

第2.2步：确定输入字符所属子集

设χ所属的字符类别子集为Ω_kχ，则Ω_kχ由下式给出：

Ω_{k_{χ}} = \arg \min_{\overset{Ω_{k}}{1 \leq k \leq 40}} | | I_{PC}^{Ω_{k}} - I_{PC}^{χ} | |,

其中‖·‖表示欧氏距离，I_PC ^Ωk为字符子集Ω_k的预分类信息；

得到Ω_kχ后，完成了对χ的预分类；

第2步：特征提取

按照“训练阶段第4步”所述的方法，提取输入未知字符χ的d维原始方向特征向量

X^{χ} = {[x_{0}^{χ}, x_{1}^{χ}, \cdot \cdot \cdot, x_{d - 1}^{χ}]}^{T};

第3步：特征优化

第3.1步：特征整形

以“训练部分第一步”所设定的整形参数α对原始方向特征向量

X^{χ} = {[x_{0}^{χ}, x_{1}^{χ}, \cdot \cdot \cdot, x_{d - 1}^{χ}]}^{T}

进行整形，得到整形特征

Y^{χ} = {[y_{0}^{χ}, y_{1}^{χ}, \cdot \cdot \cdot, y_{d - 1}^{χ}]}^{T},

其中：

y_{t}^{χ} = \frac{{(x_{t}^{χ})}^{α} - 1}{α}, t = 0,1, \cdot \cdot \cdot, d - 1;

第3.2步：特征变换

从“训练阶段第第5.2.5步”所生成的优化参数库文件中读取对应于输入字符χ所属字符类别子集Ω_kχ的LDA和K-L混合变换矩阵Φ^(Ωkχ)，将d维整形方向特征向量

Y^{χ} = {[y_{0}^{χ}, y_{1}^{χ}, \cdot \cdot \cdot, y_{d - 1}^{χ}]}^{T}

变换成r维变换特征向量

Z^{χ} = {[z_{0}^{χ}, z_{1}^{χ}, \cdot \cdot \cdot, z_{r - 1}^{χ}]}^{T},

变换的过程为：

Z^{χ} = {(Φ^{(Ω_{k_{χ}})})}^{T} Y^{χ};

第4步：分类判决，即将未知类别的字符的特征向量与识别库中已有的数据进行比较，以确定输入字符对应的正确的字符代码；它依次含有以下步骤：

第4.1步：从“训练阶段第6步”所生成的字符特征库文件中读取输入字符χ所属字符类别子集Ω_kχ中的所有字符类别的均值向量

{\overset{&OverBar;}{Z}}^{ω_{m}} = {[{\overset{&OverBar;}{z}}_{0}^{ω_{m}}, {\overset{&OverBar;}{z}}_{1}^{ω_{m}}, \cdot \cdot \cdot, {\overset{&OverBar;}{z}}_{r - 1}^{ω_{m}}]}^{T}, ω_{m} &Element; Ω_{k_{χ}},

和相应的分类参数；

第4.2步：分别计算Z^χ到Ω_kχ中各字符类别的MQDF鉴别距离：

g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{m}}) = Σ_{l = 0}^{r - 1} \frac{{(z_{l}^{χ} - {\overset{&OverBar;}{z}}_{l}^{ω_{m}})}^{2}}{h^{2}} - Σ_{l = 0}^{K - 1} \frac{λ_{l}^{ω_{m}} - h^{2}}{h^{2} λ_{l}^{ω_{m}}} {[{(Z^{χ} - {\overset{&OverBar;}{Z}}^{ω_{m}})}^{T} φ_{l}^{ω_{m}}]}^{2} + \ln (h^{2 (r - K)} Π_{l = 0}^{K - 1} λ_{l}^{ω_{m}}), ω_{m} &Element; Ω_{k_{χ}};

若

g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{τ}}) = \min_{ω_{m} {&Element; Ω}_{k_{χ}}} g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{m}}),

则判定该输入字符χ属于字符类别ω_τ，即

ω_{τ} = \arg \min_{ω_{m} {&Element; Ω}_{k_{χ}}} g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{m}}) .

实验证明，本发明在基于阿拉伯字符集的印刷体单字测试集上的识别正确率达到99.4％以上。

附图说明

图1一个典型的基于阿拉伯字符集的字符识别系统的硬件构成。

图2基于阿拉伯字符集的字符识别系统的单字样本生成。

图3基于阿拉伯字符集的字符识别系统的构成。

图4采用的图像坐标系示意。

图5 4种基于阿拉伯字符集的文字的字符集。

(a)阿拉伯文字符集；(b)柯尔克孜文字符集；(c)维吾尔文字符集；(d)哈萨克文字符集；(e)维/哈/柯/阿文常用符号、数字。

图6基于阿拉伯字符集的文字构成特点示意。

1从右向左的书写方向；2基线；3五个字符相连的连体字符段；4首写形式字符；5中间形式字符；6尾写形式字符；7独立形式字符；8插入的直杠

a由三个字符、两个字符段构成的词；b由六个字符、四个字符段构成的词；c由五个字符、一个字符段构成的词；d由七个字符、两个字符段构成的词

图7预分类信息示意。

图8预分类流程。

图9方向特征抽取流程。

图10 12种基本方向特征元模板。

图11基本特征平面分块示意。

图12方向特征抽取示意。

图13特征优化流程。

图14基于本算法的多字体多字号维/哈/柯/阿印刷体字符识别系统。

具体实施方式

如图1所示，一个基于阿拉伯字符集的印刷体字符识别系统在硬件上由两部分构成：图像采集设备和计算机。图像采集设备一般是扫描仪，用来获取待识别字符的数字图像。计算机用于对数字图像进行处理，并完成判决分类。

图2所示的是单字训练样本和单字测试样本的生成过程。对于一篇印刷体维吾尔文、哈萨克文、柯尔克孜文或阿拉伯文样张，首先通过扫描仪将其扫入计算机，使之变为数字图像。对数字图像采取二值化、去除噪声等预处理措施，得到二值化的图像。再对输入图像进行行切分以得到文本行，对文本行进行连体字符段切分得到连体字符段，在此基础上对每一个连体字符段进行单字切分，得到单个字符，然后标定每个字符图像所属的字符类别。此后，要进行一次检查，对行文本切分、连体字符段切分、单字切分阶段和字符类别标定阶段产生的错误采用手动方式改正。最后，将相同的字符类别对应的原始字符图像提取出来，并保存，完成单字样本的采集。同时，对每个字符类别的空间区域信息、字符形式信息和字符构成部件信息进行标定，将标定结果保存在文件中，从而完成字符预分类信息的采集。

如图3所示，基于阿拉伯文的印刷体字符识别算法分为两个部分：训练系统和测试系统。训练系统中，对输入的单字训练样本集中的每一个字符类别的所有样本，依据预分类信息将其划分至恰当的字符子集中，形成子集库。对属于各字符子集的所有字符类别的各单字样本，提取反映其组成信息的方向特征，利用特征整形和特征变换进行优化，然后，采用合适的分类器，训练分类器，得到字符特征库。在测试系统中，对输入的未知类别字符图像，提取预分类信息确定其所属的字符子集，采用和训练系统同样的特征提取和特征优化方法形成表示字符的特征向量，然后送入分类器进行分类，判断输入字符所属的类别。

因而，实用的基于阿拉伯字符集的印刷体字符识别系统的实现需要考虑如下几个方面：

A)字符样本的采集

B)训练系统的实现

C)测试系统的实现

下面分别对这三个方面进行详细介绍。

A)字符样本的采集

A.1文本图像的获取

基于阿拉伯文字符集的印刷体单字样本的获取过程如图2所示。输入的一篇纸质印刷体维吾尔文、哈萨克文、柯尔克孜文或阿拉伯文文档，通过扫描仪得到数字图像，完成从纸质文档到计算机存储图像的转换。然后对该图像进行噪声去除、二值化等预处理措施。利用各种滤波方法去除噪声在现有文献中已经有大量记载。二值化方法可采用已有的全局二值化或局部自适应二值化。接着对文档进行版面分析，得到字符区域。

A.2单字样本集的形成

对字符区域分别利用水平投影直方图进行文本行切分得到单个文本行，再对各文本行采用垂直投影直方图分析进行连体字符段切分得到单个连体字符段，进而采用垂直象素游程分析方法切分连体字符段，得到单个字符图像。在此阶段的切分错误采用手动的方式进行更正。对得到的单个字符的类别进行标定，一般采用计算机自动标定，对其中的错误进行人工处理(更改、删除等)。最后，把具有相同内码的字符所对应的不同字体、不同字号的原始字符图像保存起来，就得到了基于阿拉伯字符集的印刷体单字样本。

A.3预分类信息检测

对单行文本进行水平象素投影分析，确定行引线Headline和行基线Baseline，将该行文本所占的空间区域划分成上层区域Upper zone、基准区域Base zone和下层区域Lower zone，从而在进行单字切分得到单个字符的同时也根据该单字所占的空间区域得到了其空间区域信息ZI。对各连体字符段进行单字切分的同时，检测切割出来的单字左右边界与其它字符之间的连接关系，从而确定其字符形式信息CI。对单个字符进行连通性分析，确定其字符构成部件信息CI。从而确定了每个字符的预分类信息。具体包含如下步骤(令χ表示输入未知字符)：

A.3.1检测空间区域信息ZI

文本行的引线(Headline)和基线(Baseline)将字符空间区域在垂直方向上分为三个区，从上到下依次为：引线上方的上层区域(Upper Zone)、基线和引线之间的基准区域(BaseZone)、基线下方的下层区域(Lower Zone)。检测输入字符在三个空间区域中的分布情况，

根据χ占据区域的不同，给ZI赋予不同的取值，对应关系为：

若χ仅占据上层区域，则ZI＝1；

若χ同时占据上层区域和基准区域，则ZI＝2；

若χ同时占据上层区域、基准区域和下层区域，则ZI＝3；

若χ仅占据基准区域，则ZI＝4；

若χ同时占据基准区域和下层区域，则ZI＝5。

A.3.2检测字符形式信息FI

阿拉伯字符集中的基本字母在实际文本中表现为4种字符形式：首写形式、中间形式、尾写形式、独立形式，χ必定为这4种字符形式中的一种，依据χ与其左右字符的连接关系可判断它的形式信息：

若χ在其右侧不与其它字符直接相连，而在其左侧与其它字符直接相连，则χ为首写形式字符，此时FI＝1；

若χ在其右侧和左侧均与其它字符直接相连，则χ为中间形式字符，此时FI＝2；

若χ在其右侧与其它字符直接相连，而在其左侧不与其它字符直接相连，则χ为尾写形式字符，此时FI＝3；

若χ在其右侧和左侧均不与其它字符直接相连，则χ为独立形式字符，此时FI＝4。

A.3.3检测字符构成部件信息CI

对χ进行连通性分析，根据其部件的构成情况分成两类：

若χ由主体部件和附加部件两部分重叠组成，则CI＝1；

若χ仅由一个不可分割的部件构成，则CI＝2。

A.3.4检查纠错和保存

属于同一字符类别的不同单字样本的预分类信息相同，依据该原则对属于各字符类别的单字样本的预分类信息进行检查，对预分类信息提取过程中产生的错误通过人机交互的方式进行纠正。最后，将每个字符类别的预分类信息保存起来，形成字符类别预分类信息集。

B)训练系统的实现

B.1预分类

根据样本采集环节得到各字符类别的预分类信息向量

I_{PC}^{ω_{m}} = {[ZI, FI, CI]}^{T}, m = 1,2, \cdot \cdot \cdot, c,

将包含c不同字符类别的待处理字符全集Ω＝{ω₁，ω₂，…，ω_c}划分成5×4×2＝40个字符类别子集Ω_k，k＝1，2，…，40，每个Ω_k字符包含的字符类别数为c_k，使

Ω_m∩Ω_n＝，m≠n

Σ_{k = 1}^{40} c_{k} = c

k＝1，2，…，40，其中表示空集。

将各Ω_k所含的字符类别的内码和相应的预分类信息保存在文件中，形成子集库。

B.2特征提取

B.2.1提取字符的轮廓

设原始二值字符图像为：

{[B (i, j)]}_{H \times W} = [\begin{matrix} B (0,0), & B (0,1), & \cdot \cdot \cdot, & B (0, W - 1) \\ B (1,0), & B (1,1), & \cdot \cdot \cdot, & B (1, W - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ B (H - 1,0), & B (H - 1,1), & \cdot \cdot \cdot, & B (H - 1, W - 1) \end{matrix}]

其中W为图像宽度，H为图像高度。采用双线性插值方法对[B(i，j)]_H×W进行归一化处理得到高度为M、宽度为N的字符点阵图像：

{[G (i, j)]}_{M \times N} = [\begin{matrix} G (0,0), & G (0,1), & \cdot \cdot \cdot, & G (0, N - 1) \\ G (1,0), & G (1,1), & \cdot \cdot \cdot, & G (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ G (M - 1,0), & G (M - 1,1), & \cdot \cdot \cdot, & G (M - 1, N - 1) \end{matrix}]

扫描整个字符点阵，对于某个位置的黑象素点，检测其8邻域中象素的分布情况，如果它的8邻域中的黑象素个数和白象素个数均大于0，则保留该黑象素，否则将字符点阵在该位置的值改为0。这样，由归一化后的字符图像[Gi，j)]_M×N得到了其轮廓图像：

{[Q (i, j)]}_{M \times N} = [\begin{matrix} Q (0,0), & Q (0,1), & \cdot \cdot \cdot, & Q (0, N - 1) \\ Q (1,0), & Q (1,1), & \cdot \cdot \cdot, & Q (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ Q (M - 1,0), & Q (M - 1,1), & \cdot \cdot \cdot, & Q (M - 1, N - 1) \end{matrix}]

B.2.2象素特征分配

采用12种3×3基本特征元模板[R^(k)(i，j)]_3×3，k＝1，2，…，12分别作用于字符轮廓图像[Q(i，j)]_M×N，得到字符的12个基本特征平面：

{[P^{(k)} (i, j)]}_{M \times N} = [\begin{matrix} P^{(k)} (0,0), & P^{(k)} (0,1), & \cdot \cdot \cdot, & P^{(k)} (0, N - 1) \\ P^{(k)} (1,0), & P^{(k)} (1,1), & \cdot \cdot \cdot, & P^{(k)} (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ P^{(k)} (M - 1,0), & P^{(k)} (M - 1,1), & \cdot \cdot \cdot, & P^{(k)} (M - 1, N - 1) \end{matrix}], k = 1,2, \cdot \cdot \cdot, 12

ρ^{(k)} (i, j) = Σ_{m = 0}^{m = 2} Σ_{n = 0}^{n = 2} R^{(k)} (m, n) Q^{'} (i + m - 1, j + n - 1)

B.2.3分块压缩

将每个M×N的基本特征平面[P^(k)(i，j)]_M×N，k＝1，2，…，12均匀划分成高为u₀、宽为v₀的子区域，每个子区域跟相邻的子区域之间在垂直方向有u₁个象素的重合、在水平方向上有v₁个象素的重合，故由每个M×N基本特征平面得到M′×N′个子区域，其中

M^{'} = (\frac{M - u_{0}}{u_{0} - u_{1}} + 1),

N^{'} = (\frac{N - v_{0}}{v_{0} - v_{1}} + 1) .

将基本特征平面中每一个大小为u₀×v₀的子区域映射成一个大小为M′×N′的平面上的一个点，得到压缩特征平面为：

{[E^{(k)} (i, j)]}_{M^{'} \times N^{'}} = [\begin{matrix} E^{(k)} (0,0), & E^{(k)} (0,1), & \cdot \cdot \cdot, & E^{(k)} (0, N^{'} - 1) \\ E^{(k)} (1,0), & E^{(k)} (1,1), & \cdot \cdot \cdot, & E^{(k)} (1, N^{'} - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ E^{(k)} (M^{'} - 1,0), & E^{(k)} (M^{'} - 1,1), & \cdot \cdot \cdot, & E^{(k)} (M^{'} - 1, N^{'} - 1) \end{matrix}], k = 1,2, \cdot \cdot \cdot, 12

[E^(k)(i，j)]_M′×N′中各元素的值表示为：

E^{(k)} (i, j) = Σ_{m = 0}^{u_{0} - 1} Σ_{n = 0}^{v_{0} - 1} Θ^{(k)} (m, n) P^{(k)} ((u_{0} - u_{1}) i + m, (v_{0} - v_{1}) j + n)

式中Θ^(k)(m，n)，0≤m＜u₀，0≤n＜v₀为加权系数：

Θ^{(k)} (m, n) = \frac{1}{2 π σ_{1} σ_{2}} \exp (- \frac{{(m - \frac{u_{0}}{2})}^{2}}{2 {σ_{1}}^{2}} - \frac{{(n - \frac{v_{0}}{2})}^{2}}{2 {σ_{2}}^{2}})

其中

σ_{1} = \frac{\sqrt{2}}{π} u_{1},

σ_{2} = \frac{\sqrt{2}}{π} v_{1} .

B.2.4特征向量形成

将压缩特征平面[E^(k)(i，j)]_M′×N′，k＝1，2，…，12中的各元素按照顺序排列成一个维数为d＝12×M′×N′的矢量X＝[x₀，x₁，…，x_d-1]^T，就得到了表示输入字符的d维原始特征的向量。

其中：

x_{t} = E^{(k_{t})} (i_{t}, j_{t}), t = 0,1, \cdot \cdot \cdot, d - 1

i_t，j_t，k_t与t之间的关系为：

INT(·)表示向下取整函数。

B.3特征优化

B.3.1特征整形

y_{t} = \frac{{x_{t}}^{α} - 1}{α}, t = 0,1, \cdot \cdot \cdot, d - 1

其中α∈(0，1)为整形常数。

B.3.2特征变换

待处理字符集为Ω＝{ω₁，ω₂，…，ω_c}，c为集Ω中字符类别数，通过预分类已被划分成40个字符子集Ω_k，k＝1，2，…，40，c_k为字符子集Ω_k中字符类别的数量。设第m类字符ω_m的训练样本数为0_ωm，m＝1，2，…，c，对该字符类别的训练样本采用上述方法提取特征并经特征整形后，得到的d维特征向量集合为{Y₁ ^ωm，Y₂ ^ωm，…，Y_Oωm ^ωm}。

B.3.2.1计算统计量

μ_{ω_{m}} = \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} Y_{l}^{ω_{m}}, m = 1,2, \cdot \cdot \cdot, c

S_{ω_{m}} = \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} {(Y_{l}^{ω_{m}} - μ_{ω_{m}}) (Y_{l}^{ω_{m}} - μ_{ω_{m}})}^{T}, m = 1,2, \cdot \cdot \cdot, c

计算各子集中所有字符类的特征向量的中心μ^(Ωk)：

μ^{(Ω_{k})} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} μ_{ω_{m}}, k = 1,2, \cdot \cdot \cdot, 40

S_{b}^{(Ω_{k})} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} (μ_{ω_{m}} - μ^{(Ω_{k})}) {(μ_{ω_{m}} - μ^{(Ω_{k})})}^{T}, k = 1,2, \cdot \cdot \cdot, 40

S_{w}^{(Ω_{k})} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} {(Y_{l}^{ω_{m}} - μ_{ω_{m}}) (Y_{l}^{ω_{m}} - μ_{ω_{m}})}^{T} =, \frac{1}{c_{k}} \underset{\overset{ω_{m} &Element; Ω_{k}}{1 \leq m \leq c}}{Σ} S_{ω_{m}}, k = 1,2, \cdot \cdot \cdot, 40

B.3.2.2 LDA变换

将(S_w ^(Ωk))^-1S_b ^(Ωk)的本征值按照从大到小的顺序排列，使得

ξ_{0}^{(Ω_{k})} &GreaterEqual; ξ_{1}^{(Ω_{k})} &GreaterEqual; \cdot \cdot \cdot &GreaterEqual; ξ_{d - 1}^{(Ω_{k})},

同时，₀ ^(Ωk)，₁ ^(Ωk)，…，_d-1 ^(Ωk)的顺序也作相应的调整，使得它们保持与ξ₀ ^(Ωk)，ξ₁ ^(Ωk)，…，ξ_d-1 ^(Ωk)的对应关系。r₁可根据需要设定为不大于

rank ({(S_{w}^{(Ω_{k})})}^{- 1} S_{b}^{(Ω_{k})}) = c_{k} - 1

的正整数，这样得到的LDA变换矩阵为

B.3.2.3 K-L变换：

S_{w}^{(Ω_{k})} ψ_{l}^{(Ω_{k})} = ζ_{l}^{(Ω_{k})} ψ_{l}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1

令：

η_{lm}^{(Ω_{k})} = {(ψ_{l}^{(Ω_{k})})}^{T} S_{ω_{m}} ψ_{l}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1, ω_{m} &Element; Ω_{k}

对η_lm ^(Ωk)进行归一化：

{\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})} = \frac{η_{lm}^{(Ω_{k})}}{\underset{\overset{1 \leq n \leq c}{ω_{n} &Element; Ω_{k}}}{Σ} η_{\ln}^{(Ω_{k})}}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1, ω_{m} &Element; Ω_{k}

使得

\underset{\underset{ω_{m} &Element; Ω_{k}}{1 \leq m \leq c}}{Σ} {\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})} = 1, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1

定义熵函数：

H (ψ_{l}^{(Ω_{k})}) = - \underset{\overset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} {\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})} \log_{2} {\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1

H (ψ_{0}^{(Ω_{k})}) \leq H (ψ_{1}^{(Ω_{k})}) \leq \cdot \cdot \cdot \leq H (ψ_{d - 1}^{(Ω_{k})}) .

由排在最前面的r₂个本征向量ψ₀ ^(Ωk)，ψ₁ ^(Ωk)，…，ψ_r2-1 ^(Ωk)组成了K-L变换矩阵

Φ_{2}^{(Ω_{k})} = [ψ_{0}^{(Ω_{k})}, ψ_{1}^{(Ω_{k})}, \cdot \cdot \cdot, ψ_{r_{2} - 1}^{(Ω_{k})}], k = 1,2, \cdot \cdot \cdot, 40;

r₂为K-L变换截取的特征维数。

B.3.2.4特征变换矩阵

将LDA变换矩阵Φ₁ ^(Ωk)和K-L变换矩阵Φ₂ ^(Ωk)的列向量排列在一起，就形成了总的大小为d×r的特征变换矩阵Φ^(Ωk)：

r = r_{1} + r_{2}

整形后的d维特征Y＝[y₀，y₁，…，y_d-1]^T经过Φ^(Ωk)变换得到了r维优化特征Z＝[z₀，z₁，…，z_r-1]^T，变换的过程为：

Z = {(Φ^{(Ω_{k})})}^{T} Y

将特征整形参数α和各字符类别子集的特征变换矩阵Φ^(Ωk)保存起来，形成特征优化参数库文件。

B.4设计分类器

对于每个字符子集Ω_k，计算包含在Ω_k中的各字符类别的优化特征的均值向量 Z_ωm和协方差矩阵∑_ωm：

{\overset{&OverBar;}{Z}}^{ω_{m}} = {(Φ^{(Ω_{k})})}^{T} μ_{ω_{m}}, ω_{m} &Element; Ω_{k}

Σ_{ω_{m}} = {(Φ^{(Ω_{k})})}^{T} S_{ω_{m}} Φ^{(Ω_{k})}, ω_{m} &Element; Ω_{k}

利用矩阵计算工具求取∑_ωm的本征值λ_l ^ωm和本征向量φ_l ^ωm，l＝0，1，…，r-1，通过实验确定MQDF分类器的相关参数K、h²。将 Z^ωm、K、h²、λ_l ^ωm、φ_l ^ωm存入库文件中。对所有的Ω_k，k＝1，2，…，40，依次进行如上操作，得到了用于分类判决的字符特征库。

C)测试系统的实现

令χ为输入未知字符。

C.1输入字符的预分类判决

C.1.2检测输入字符的预分类信息

依据“A.3.1～A.3.3”所述的方法分别检测χ的空间区域信息ZI、字符形式信息FI和字符部件构成信息CI，并将其表示成向量形式

I_{PC}^{χ} = {[ZI, FI, CI]}^{T} .

C.1.2确定输入字符所属子集

设χ所属的字符类别子集为Ω_kχ，则Ω_kχ由下式给出：

Ω_{k_{χ}} = \arg \min_{\underset{1 \leq k \leq 40}{Ω_{k}}} | | I_{PC}^{Ω_{k}} - I_{PC}^{χ} | |,

其中‖·‖表示欧氏距离，I_PC ^Ωk为字符子集Ω_k的预分类信息

C.2特征提取

依据“测试系统”中特征提取的相同办法，提取输入字符χ的原始d维特征向量

X^{χ} = {[x_{0}^{χ}, x_{1}^{χ}, \cdot \cdot \cdot, x_{d - 1}^{χ}]}^{T} .

C.3特征优化

从优化参数库文件中读取训练得到特征优化参数α和对应于χ所属的字符类别子集Ω_kχ的LDA与K-L混合变换矩阵Φ^(Ωkχ)。

用α为参数对

X^{χ} = {[x_{0}^{χ}, x_{1}^{χ}, \cdot \cdot \cdot, x_{d - 1}^{χ}]}^{T}

进行特征整形，得到

Y^{χ} = {[y_{0}^{χ}, y_{1}^{χ}, \cdot \cdot \cdot, y_{d - 1}^{χ}]}^{T},

其中：

y_{t}^{χ} = \frac{{(x_{t}^{χ})}^{α} - 1}{α}, t = 0,1, \cdot \cdot \cdot, d - 1

对

Y^{χ} = {[y_{0}^{χ}, y_{1}^{χ}, \cdot \cdot \cdot, y_{d - 1}^{χ}]}^{T}

进行特征变换

Z^{χ} = {(Φ^{(Ω_{k_{χ}})})}^{T} Y^{χ}

得到r维特征向量

Z^{χ} = {[z_{0}^{χ}, z_{1}^{χ}, \cdot \cdot \cdot, z_{r - 1}^{χ}]}^{T} .

C.4分类判决

从特征库文件中读取Ω_kχ中所有字符类的均值向量

{\overset{&OverBar;}{Z}}^{ω_{m}} = {[{\overset{&OverBar;}{z}}_{0}^{ω_{m}}, {\overset{&OverBar;}{z}}_{1}^{ω_{m}}, \cdot \cdot \cdot, {\overset{&OverBar;}{z}}_{r - 1}^{ω_{m}}]}^{T}, ω_{m} &Element; Ω_{k_{χ}}

和相应的分类参数，计算Z^χ到Ω_kχ中各字符类别的MQDF鉴别距离

g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{m}}) = Σ_{l = 0}^{r - 1} \frac{{(z_{l}^{χ} - {\overset{&OverBar;}{z}}_{l}^{ω_{m}})}^{2}}{h^{2}} - Σ_{l = 0}^{K - 1} \frac{λ_{l}^{ω_{m}} - h^{2}}{h^{2} λ_{l}^{ω_{m}}} {[{(Z^{χ} - {\overset{&OverBar;}{Z}}^{ω_{m}})}^{T} φ_{l}^{ω_{m}}]}^{2} + \ln (h^{2 (r - K)} Π_{l = 0}^{K - 1} λ_{l}^{ω_{m}}), ω_{m} &Element; Ω_{k_{χ}}

若

g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{τ}}) = \min_{ω_{m} {&Element; Ω}_{k_{χ}}} g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{m}}),

则判定该输入字符χ属于字符类别ω_τ，即

ω_{τ} = \arg \min_{ω_{m} {&Element; Ω}_{k_{χ}}} g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{m}}) .

以下给出一个具体的实现例子。

实施例1：基于网拉伯字符集的多字体多字号印刷体字符识别系统

基于本发明的多字体多字号印刷体字符识别系统如图14所示，实验的硬件设备平台为扫描仪(型号；紫光Uniscan 1248US)和普通PC机(CPU：Intel^Pentium^4 2.40GHz；Memory：512MB RAM；OS：Microsoft^Windows^XP)实验在收集到维吾尔文、哈萨克文、柯尔克孜文和阿拉伯文各1600套印刷体文档上进行的，这些样本文档大部分采自当今主要的印刷体维/哈/柯出版系统和阿拉伯文出版系统，也有少量由Windows TrueType字体直接打印生成。字体包括大部分最常用的、部分次常用的和少量不常用的字体，每类样本的字体至少有6种。字号从小五号到初号。样本质量不等，正常、断裂、粘连字符的比例约为2∶1∶1。经过扫描输入、文本行切分、单字切分和内码标定过程，将每个语种的1600套文档转换为1600套单字样本(即每个字符类别有1600个单字样本)，从中随机抽出1200套组成训练集，其余400套留作测试样本。

实验中，采用本发明的方法将输入字符归一化为32×32的点阵，即取M＝N＝32。在特征提取时基本特征平面按图11所示的方式划分，取u₀＝v₀＝8，u₁＝v₁＝4，故M′＝N′＝7。依图9所示的流程提取原始方向特征后，采用α＝0.75进行特征整形，再采用LDA与K-L的混合变换矩阵进行特征变换，变换后特征维数r选定为96，其中各字符子集的LDA变换矩阵的列向量个数r₁取该字符类别子集中包含的字符类别的数目减去1，为保证r＝96，取K-L变换矩阵的列向量个数为r₂＝96-r₁。分类器MQDF中的参数K＝24，h²用各字符类的协方差阵的第K个本征值的均值作为估计值。在测试集上的实验结果如下表所示。

表2系统在维、哈、柯、阿4种字符测试样本集上的识别率

字符种类	维吾尔	哈萨克	柯尔克孜	阿拉伯
字符种类	维吾尔	哈萨克	柯尔克孜	阿拉伯	字符集大小	147	156	158	163
测试字符数	58800	62400	63200	65200	字符集大小	147	156	158	163
测试字符数	58800	62400	63200	65200	识别率(％)	99.52	99.54	99.43	99.42

从表2可见，系统对维吾尔、哈萨克、柯尔克孜、阿拉伯等4种基于阿拉伯字符集的印刷体字符在测试集上的识别正确率均达到99.4％以上，表明本发明所提的方法的有效性。

综上所述，本发明提出的基于阿拉伯字符集的印刷体字符识别方法具有以下优点：

1)基于阿拉伯字符集的独特特点而提出的预分类方法，缩小了后续分类判决的搜索范围，不仅降低了计算量，而且提高整体识别性能。

2)本发明采用的方向特征符合阿拉伯字符集中字符的笔划构成特点，计算方便。

3)本发明提出的特征整形和LDA与K-L相结合的特征变换方法可以很好改善特征分布，去除冗余信息，提高特征的鉴别能力。

4)本发明提出的方法具有很好的推广性，能够快速方便地移植到其它基于阿拉伯字符集的字符(如波斯、乌尔都、克什米尔等等)识别中去并可望取得良好的识别性能。

本发明提出的方法在实验中获得了优异的识别性能，具有广泛的应用前景。

Claims

训练阶段：

第1步：在计算机中设定以下参数：

字符类别总数c；

归一化后字符高度M、字符宽度N；

基本特征平面分块参数u₀、v₀、u₁、v₁，其中

u₀为基本特征平面中子区域的高度，

v₀为基本特征平面中子区域的宽度，

原始特征向量经特征整形形成更符合高斯分布的新特征向量时采用的整形参数α∈(0，1)；

特征变换时LDA截取维数r₁、K-L变换截取维数r₂；

第2步：字符样本的采集

第2.3.1步：形成字符空间区域信息，用ZI表示：

若χ仅占据上层区域，则ZI＝1；

若χ同时占据上层区域和基准区域，则ZI＝2；

若χ同时占据上层区域、基准区域和下层区域，则ZI＝3；

若χ仅占据基准区域，则ZI＝4；

若χ同时占据基准区域和下层区域，则ZI＝5；

第2.3.2步：形成字符形式信息，用FI表示：

第2.3.3步：形成字符构成部件信息，用CI表示：

若χ由主体部件和附加部件两部分组成，则CI＝1；

若χ仅由一个不可分割的部件构成，则CI＝2；

第3步：字符类别子集的划分

设待处理字符全集为Ω＝{ω₁，ω₂，…，ω_c}；

将第2.3步得到的字符类别预分类信息，用一个向量

I_{PC}^{ω_{m}} = {[ZI, FI, CI]}^{T}

表示，m＝1，2，…，c；

Ω_m∩Ω_n＝，m≠n，

Ω = \cup_{k = 1}^{40} Ω_{k},

Σ_{k = 1}^{40} c_{k} = c;

其中表示空集；由以上划分得

&ForAll; ω_{l}, ω_{n} &Element; Ω_{k}, I_{PC}^{ω_{l}} &equiv; I_{PC}^{ω_{n}}

Ω_{k} = {ω_{m} | ω_{m} &Element; Ω, I_{PC}^{ω_{m}} = I_{PC}^{Ω_{k}}}, k = 1,2, \cdot \cdot \cdot, 40

第4步：特征提取

第4.1步：提取字符轮廓，它依次含有以下步骤：

第4.1.1步：

设原始二值字符图像为：

{[B (i, j)]}_{H \times W} = [\begin{matrix} B (0,0), & B (0,1), & \cdot \cdot \cdot, & B (0, W - 1) \\ B (1,0), & B (1,1), & \cdot \cdot \cdot, & B (1, W - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ B (H - 1,0), & B (H - 1,1) & \cdot \cdot \cdot, & B (H - 1, W - 1) \end{matrix}]

其中W为原始二值字符图像宽度，

H为原始二值字符图像高度，

B(i，j)为图像位于第i行、第j列的象素点的值，i＝0，1，…，H-1，j＝0，1，…，W-1；

用双线性插值方法对[B(i，j)]_H×W进行归一化处理得到高度为M、宽度为N的归一化字符点阵图像：

{[G (i, j)]}_{M \times N} = [\begin{matrix} G (0,0), & G (0,1), & \cdot \cdot \cdot, & G (0, N - 1) \\ G (1,0), & G (1,1), & \cdot \cdot \cdot, & G (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ G (M - 1,0), & G (M - 1,1) & \cdot \cdot \cdot, & G (M - 1, N - 1) \end{matrix}];

第4.1.2步：

其中

δ_stroke表示图像中由字符笔划对应的点所组成的点的集合，

δ_background表示图像中由背景点所组成的点的集合；

第4.1.3步：

{[Q (i, j)]}_{M \times N} = [\begin{matrix} Q (0,0), & Q (0,1), & \cdot \cdot \cdot, & Q (0, N - 1) \\ Q (1,0), & Q (1,1), & \cdot \cdot \cdot, & Q (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ Q (M - 1,0), & Q (M - 1,1) & \cdot \cdot \cdot, & Q (M - 1, N - 1) \end{matrix}];

第4.2步：象素特征分配

[R^{(1)} (i, j)]_{3 \times 3} = [\begin{matrix} 0,0,0 \\ 1,1,1 \\ 0,0,0 \end{matrix}],

[R^{(2)} (i, j)]_{3 \times 3} = [\begin{matrix} 0,1,0 \\ 0,1,0 \\ 0,1,0 \end{matrix}],

[R^{(3)} (i, j)]_{3 \times 3} = [\begin{matrix} 0,0, 1 \\ 0, 1, 0 \\ 1, 0,0 \end{matrix}],

[R^{(4)} (i, j)]_{3 \times 3} = [\begin{matrix} 1, 0,0 \\ 0, 1, 0 \\ 0,0, 1 \end{matrix}],

[R^{(5)} (i, j)]_{3 \times 3} = [\begin{matrix} 0,0, 1 \\ 1,1, 0 \\ 0,0,0 \end{matrix}],

[R^{(6)} (i, j)]_{3 \times 3} = [\begin{matrix} 0, 0,0 \\ 1, 1, 0 \\ 0,0, 1 \end{matrix}],

[R^{(7)} (i, j)]_{3 \times 3} = [\begin{matrix} 1, 0,0 \\ 0, 1, 1 \\ 0,0, 0 \end{matrix}],

[R^{(8)} (i, j)]_{3 \times 3} = [\begin{matrix} 0, 0,0 \\ 0, 1, 1 \\ 1, 0, 0 \end{matrix}],

[R^{(9)} (i, j)]_{3 \times 3} = [\begin{matrix} 0, 1, 0 \\ 0, 1, 0 \\ 1, 0,0 \end{matrix}],

[R^{(10)} (i, j)]_{3 \times 3} = [\begin{matrix} 0, 1, 0 \\ 0, 1, 0 \\ 0,0, 1 \end{matrix}],

[R^{(11)} (i, j)]_{3 \times 3} = [\begin{matrix} 1, 0,0 \\ 0, 1, 0 \\ 0, 1, 0 \end{matrix}],

[R^{(12)} (i, j)]_{3 \times 3} = [\begin{matrix} 0, 0, 1 \\ 0, 1, 0 \\ 0, 1, 0 \end{matrix}],

{[P^{(k)} (i, j)]}_{M \times N} = [\begin{matrix} P^{(k)} (0,0), & P^{(k)} (0,1), & \cdot \cdot \cdot, & P^{(k)} (0, N - 1) \\ P^{(k)} (1,0), & P^{(k)} (1,1), & \cdot \cdot \cdot, & P^{(k)} (1, N - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ P^{(k)} (M - 1,0), & P^{(k)} (M - 1,1) & \cdot \cdot \cdot, & P^{(k)} (M - 1, N - 1) \end{matrix}], k = 1,2, \cdot \cdot \cdot, 12,

而

ρ^{(k)} (i, j) = Σ_{m = 0}^{m = 2} Σ_{n = 0}^{n = 2} R^{(k)} (m, n) Q^{'} (i + m - 1, j + n - 1),

而

第4.3步：分块压缩

M^{'} = (\frac{M - u_{0}}{u_{0} - u_{1}} + 1),

N^{'} = (\frac{N - v_{0}}{v_{0} - v_{1}} + 1);

将每个基本特征平面中每一个大小为u₀×v₀的子区域映射成大小为M′×N′的平面上的一个点，得到压缩特征平面：

{[E^{(k)} (i, j)]}_{M^{'} \times N^{'}} = [\begin{matrix} E^{(k)} (0,0), & E^{(k)} (0,1), & \cdot \cdot \cdot, & E^{(k)} (0, N^{'} - 1) \\ E^{(k)} (1,0), & E^{(k)} (1,1), & \cdot \cdot \cdot, & E^{(k)} (1, N^{'} - 1) \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \cdot \cdot & \cdot \\ \cdot & \cdot & \cdot \\ E^{(k)} (M^{'} - 1,0), & E^{(k)} (M^{'} - 1,1) & \cdot \cdot \cdot, & E^{(k)} (M^{'} - 1, N^{'} - 1) \end{matrix}], k = 1,2, \cdot \cdot \cdot, 12,

其中[E^(k)(i，j)]_M′×N′中各元素的值为：

E^{(k)} (i, j) = Σ_{m = 0}^{u_{0} - 1} Σ_{n = 0}^{v_{0} - 1} Θ^{(k)} (m, n) P^{(k)} ((u_{0} - u_{1}) i + m, (v_{0} - v_{1}) j + n),

而Θ^(k)(m，n)，0≤m＜u₀，0≤n＜v₀为加权系数：

Θ^{(k)} (m, n) = \frac{1}{2 π σ_{1} σ_{2}} \exp (- \frac{{(m - \frac{u_{0}}{2})}^{2}}{{2 σ}_{1}^{2}} - \frac{{(n - \frac{v_{0}}{2})}^{2}}{{2 σ}_{2}^{2}}),

其中

σ_{1} = \frac{\sqrt{2}}{π} u_{1}, σ_{2} = \frac{\sqrt{2}}{π} v_{1};

第4.4步：特征向量形成

其中

x_{t} = E^{(k_{t})} (i_{t}, j_{t}), t = 0,1, \cdot \cdot \cdot, d - 1;

而i_t，j_t，k_t与t之间的关系为：

INT(·)表示向下取整函数；

第5步：特征优化

第5.1步：特征整形

y_{t} = \frac{{x_{t}}^{α} - 1}{α}, t = 0,1, \cdot \cdot \cdot, d - 1,

其中α∈(0，1)为整形常数；

第5.2步：特征变换

第5.2.1步：获取字符类别的特征向量集合

第5.2.2步：统计量计算

μ_{ω_{m}} = \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} Y_{l}^{ω_{m}}, m = 1,2, \cdot \cdot \cdot, c,

S_{ω_{m}} = \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} (Y_{l}^{ω_{m}} - μ_{ω_{m}}) {(Y_{l}^{ω_{m}} - μ_{ω_{m}})}^{T}, m = 1,2, \cdot \cdot \cdot, c;

计算各子集中所有字符类的特征向量的中心μ^(Ωk)：

μ^{(Ω_{k})} = \frac{1}{c_{k}} \underset{1 \leq m \leq c}{\underset{ω_{m} &Element; Ω_{k}}{Σ}} μ_{ω_{jm}}, k = 1,2, \cdot \cdot \cdot, 40;

S_{b}^{(Ω_{k})} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} (μ_{ω_{m}} - μ^{(Ω_{k})}) {(μ_{ω_{m}} - μ^{(Ω_{k})})}^{T}, k = 1,2, \cdot \cdot \cdot, 40,

S_{w}^{(Ω_{k})} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} \frac{1}{O_{ω_{m}}} Σ_{l = 1}^{O_{ω_{m}}} (Y_{l}^{ω_{n}} - μ_{ω_{m}}) {(Y_{l}^{ω_{m}} - μ_{ω_{m}})}^{T} = \frac{1}{c_{k}} \underset{\underset{1 \leq m \leq c}{ω_{m} &Element; Ω_{k}}}{Σ} S_{ω_{m}}, k = 1,2, \cdot \cdot \cdot, 40;

第5.2.3步：LDA变换，它依次含有以下步骤：

第5.2.3.1步：用矩阵计算工具计算矩阵(S_w ^(Ωk))^-1S_b ^(Ωk)的本征值ξ₀ ^(Ωk)，ξ₁ ^(Ωk)，…，ξ_d-1 ^(Ωk)，k＝1，2，…，40和与各本征值相对应的本征向量₀ ^(Ωk)，₁ ^(Ωk)，…，_d-1 ^(Ωk)，k＝1，2，…，40，使得下列方程成立：

ξ_{0}^{(Ω_{k})} &GreaterEqual; ξ_{1}^{(Ω_{k})} &GreaterEqual; \cdot \cdot \cdot &GreaterEqual; ξ_{d - 1}^{(Ω_{k})},

第5.2.3.2步：取(S_w ^(Ωk))^-1S_b ^(Ωk)的前r₁个非零本征值对应的本征向量构成LDA变换矩阵

r₁的有效值可根据需要选取为小于或等于矩阵(S_w ^(Ωk))^-1S_b ^(Ωk)的秩

rank ({(S_{w}^{(Ω_{k})})}^{- 1} S_{b}^{(Ω_{k})}) = c_{k} - 1

的正整数

第5.2.4步：K-L变换，它依次含有以下步骤：

第5.2.4.1步：用矩阵计算工具计算矩阵S_w ^(Ωk)的本征值ζ₀ ^(Ωk)，ζ₁ ^(Ωk)，…，ζ_d-1 ^(Ωk)，k＝1，2，…，40和与各本征值相对应的本征向量ψ₀ ^(Ωk)，ψ₁ ^(Ωk)，…，ψ_d-1 ^(Ωk)，k＝1，2，…，40，使下列方程成立：

S_{w}^{(Ω_{k})} ψ_{l}^{(Ω_{k})} = ξ_{l}^{(Ω_{k})} ψ_{l}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1;

第5.2.4.2步：

令：

η_{lm}^{(Ω_{k})} = {(ψ_{l}^{(Ω_{k})})}^{T} S_{ω_{m}} ψ_{l}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1, ω_{m} &Element; Ω_{k};

对η_lm ^(Ωk)进行归一化：

{\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})} = \frac{η_{lm}^{(Ω_{k})}}{\underset{\underset{ω_{n} &Element; Ω_{k}}{1 \leq n \leq c}}{Σ} η_{\ln}^{(Ω_{k})}}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1, ω_{m} &Element; Ω_{k};

使

\underset{\underset{ω_{m} &Element; Ω_{k}}{1 \leq m \leq c}}{Σ} {\overset{&OverBar;}{η}}_{lm}^{(k)} = 1, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1;

第5.2.4.3步：

定义熵函数：

H (ψ_{l}^{(Ω_{k})}) = - \underset{\underset{ω_{m} &Element; Ω_{k}}{1 \leq m \leq c}}{Σ} {\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})} \log_{2} {\overset{&OverBar;}{η}}_{lm}^{(Ω_{k})}, k = 1,2, \cdot \cdot \cdot, 40, l = 0,1, \cdot \cdot \cdot, d - 1;

H (ψ_{0}^{(Ω_{k})}) \leq H (ψ_{1}^{(Ω_{k})}) \leq \cdot \cdot \cdot \leq H (ψ_{d - 1}^{(Ω_{k})});

Φ_{2}^{(Ω_{k})} = [ψ_{0}^{(Ω_{k})}, ψ_{1}^{(Ω_{k})}, \cdot \cdot \cdot, ψ_{r_{2} - 1}^{(Ω_{k})}], k = 1,2, \cdot \cdot \cdot, 40;

r₂为K-L变换截取的特征维数；

第5.2.5步：特征变换矩阵形成

r = r_{1} + r_{2};

Z = {(Φ^{(Ω_{k})})}^{T} Y

第6步：设计分类器

{\overset{&OverBar;}{Z}}^{ω_{m}} = {(Φ^{(Ω_{k})})}^{T} μ_{ω_{m}}, ω_{m} &Element; Ω_{k}

Σ_{ω_{m}} = {(Φ^{(Ω_{k})})}^{T} S_{ω_{m}} Φ^{(Ω_{k})}, ω_{m} &Element; Ω_{k}

利用矩阵计算工具求取∑_ωm的本征值λ_l ^ωm和对应得本征向量φ_l ^ωm，l＝0，1，…，r-1，通过实验确定MQDF分类器的相关参数K、h²；将 Z^ωm、K、h²、λ_l ^ωm、φ_l ^ωm存入文件中；对所有的Ω_k，k＝1，2，…，40，依次进行如上操作，得到了用于分类判决的字符特征库；

识别阶段：

第1.1步：获取字符预分类信息

I_{PC}^{χ} = {[ZI, FI, CI]}^{T};

第2.2步：确定输入字符所属子集

设χ所属的字符类别子集为Ω_kχ，则Ω_kχ由下式给出：

Ω_{k_{χ}} = \underset{\underset{1 \leq k \leq 40}{Ω_{k}}}{\arg \min} | | I_{PC}^{Ω_{k}} - I_{PC}^{χ} | |,

得到Ω_kχ后，完成了对χ的预分类；

第2步：特征提取

X^{χ} = [x_{0}^{χ}, x_{1}^{χ}, \cdot \cdot \cdot, x_{d - 1}^{χ}]^{T};

第3步：特征优化

第3.1步：特征整形

X^{χ} = [x_{0}^{χ}, x_{1}^{χ}, \cdot \cdot \cdot, x_{d - 1}^{χ}]^{T}

进行整形，得到整形特征

Y^{χ} = [y_{0}^{χ}, y_{1}^{χ}, \cdot \cdot \cdot, y_{d - 1}^{χ}]^{T},

其中：

y_{t}^{χ} = \frac{{(x_{t}^{χ})}^{α} - 1}{α}, t = 0,1, \cdot \cdot \cdot, d - 1;

第3.2步：特征变换

Y^{χ} = [y_{0}^{χ}, y_{1}^{χ}, \cdot \cdot \cdot, y_{d - 1}^{χ}]^{T}

变换成r维变换特征向量

Z^{χ} = [z_{0}^{χ}, z_{1}^{χ}, \cdot \cdot \cdot z_{r - 1}^{χ}]^{T},

变换的过程为：

Z^{χ} = {(Φ^{(Ω_{x_{χ}})})}^{T} Y^{χ};

{\overset{&OverBar;}{Z}}^{ω_{m}} = [{\overset{&OverBar;}{z}}_{0}^{ω_{m}}, {\overset{&OverBar;}{z}}_{1}^{ω_{m}}, \cdot \cdot \cdot, {\overset{&OverBar;}{z}}_{r - 1}^{ω_{m}}]^{T}, ω_{m} &Element; Ω_{k_{χ}},

和相应的分类参数；

第4.2步：分别计算Z^χ到Ω_kχ中各字符类别的MQDF鉴别距离：

g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{m}}) = Σ_{l = 0}^{r - 1} \frac{{(z_{i}^{χ} - {\overset{&OverBar;}{z}}_{l}^{ω_{m}})}^{2}}{h^{2}} - Σ_{l = 0}^{K - 1} \frac{λ_{l}^{ω_{m}} - h^{2}}{h^{2} λ_{l}^{ω_{m}}} [{(Z^{χ} - {\overset{&OverBar;}{Z}}^{ω_{m}})}^{T} φ_{l}^{ω_{m}}]^{2} + \ln (h^{2 (r - K)} Π_{l = 0}^{K - 1} λ_{l}^{ω_{m}}), ω_{m} &Element; Ω_{k_{χ}};

若

g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{x}}) = \min_{ω_{m} &Element; Ω_{k_{χ}}} g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{m}}),

则判定该输入字符χ属于字符类别ω_τ，即

ω_{τ} = \arg \min_{ω_{k} &Element; Ω_{k_{χ}}} g^{(Ω_{k_{χ}})} (Z^{χ}, {\overset{&OverBar;}{Z}}^{ω_{m}}) .