CN1147652A

CN1147652A - 文字辨识系统数据库的组建方法

Info

Publication number: CN1147652A
Application number: CN96106617A
Authority: CN
Inventors: 黄雅轩
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 1995-06-30
Filing date: 1996-06-07
Publication date: 1997-04-16
Anticipated expiration: 2016-06-07
Also published as: US5802207A; CN1091905C

Abstract

一种文字辨识系统数据库的组建方法，该系统主要包括信号输入装置、中央处理单元、主存储器、磁盘存储器及图象/声音输出介面；其数据库的组建方法包括以下步骤：输入每类字的训练样本；对每一训练样本抽取特征向量；对每类字元选取适当的参考模型个数及初始位置以及当训练样本比接近其真实字元的参考模型更接近某一错误字元的参考模型时，相关的参考模型的特征值向量被适当改变。

Description

文字辨识系统数据库的组建方法

本发明涉及一套利用事先建构好的标准模型来辨认经由光学扫描器所输入的手写或印刷字形的系统与方法。特别是一种文字辨识系统数据库的组建方法。

字形识别通常被用于处理欲输入的人类眼睛可阅读的文字(那就是机器印刷或人类手写字形)。例如，许多电脑是以键盘敲打输入数据，其它电脑系统则以光学扫描机接收文件式输入数据。更有一些电脑系统是以光笔和数字板接收手写输入信号。这样的文字和手写输入装置可能为了各种原因而被提供出来。例如，使用者较习惯用手写方式输入而不愿使用键盘式输入。另外，键盘需要占用很大的空间，这使得它不能安装在小型、可携式电脑上(例如个人数字辅助器)。图1显示一套传统文字辨识系统10，其包括一个数字板和光笔18，一个光学扫描器16，或者两者都有。假如是前者，使用者将在数字板表面移动光笔，以图形表现的二维化数据。亦即，假如使用笔和纸，此动作将在纸上产生符号，而数字板及光笔18则以数字形式产生点数化影像。若辨识系统包含一个光学扫描器16，则可置放存有手写或机器印刷文字的纸张于其上，并产生以图形表现纸张上文字的二维化数据。

数字板及光笔18或光学扫描器16数据输至输出输入介面14，而介面再将数据转输至系统10的总线12。文字辨识系统10包括一处理器(processor)或中央处理单元(CPU)20，一个主记忆体22，一个磁盘存储器24及一个视听输出装置26。任何一个装置20、22、24、26均连接到总线12以传输数据并从其他的装置或输出输入介面接收数据。视听输出装置26是以图象或声音的形式将信号传达给使用者。为此，视听输出装置26可以为一个阴极射线管、液晶显示器LCD显示板或扩音器。主存储器22及磁碟存储器24是做数据及程序储存用，而处理器20用来产生数据，处理器20在连接其他装置如12、14、16、18、22、24及26执行步骤以从输入的数据辨识文字。

图2说明一个以图1的文字辨识系统10来执行的传统手写辨识过程。第一步骤32将接收输入的手写或机器印刷文字，例如，数字板18及光笔将使用者所写一个或更多的文字传输到输出输入介面14。或者，使用者将已有手写或机器印刷文字的纸张输入到光学扫描器16。再依序移转这些文字数据到输出输入介面14，而介面将经由系统总线12移转文字数据到，相应装置，如主存储器22。

在步骤34中，处理器20将事先储存在主存储器22的输入文字数据进行处理。例如，处理器20可以经由丢弃小于最小临界值的小区块图象来除去杂信，处理器20也可能对输入字形图象做平滑化处理。接下来，在步骤36中，处理器20可选择性地将输入字形图象细化，然后将细化后的图象转换成具平均笔画宽度的图象。在步骤38中，处理器20分割文字图象成为大小不同的小区域范围以进行文字特征抽取。在此，“特征”代表任何有助于分辨不同文字的定量图象图形特性。在美国专利申请序号08/313,686中描述一种根据输入字形图象分布来进行文字分割的方法。例如，输入文字为手写数字“8”，则此输入方案“8”的图形可能被分割成如图3，4或5所示部分。在图形3中，8个区域321，322，326，327，341，342，346和347被形成。在图形4中，8个区域352，354，356，358，372，374，376和378被形成。在图5中，4个区域332，334，336和338被形成。

在步骤40中，处理器20对每个输入图象抽取特征向量。美国专利申请序号08/313，686提供由图3到图5所分割的图象文字特征范例。这些说明性的特征被简单地描述如下。事实上，对每个文字图象同样方式的文字特征向量将被抽取出来。

图6表示可用来描述笔画密度函数(SDF)的特征抽取法。首先处理器20在每一个待产生密度函数的区域中投射某一数目的扫描线，然后再计算在这区域中扫描线穿过文字笔画的次数。最后此区域的密度函数特征即为总穿越次数除以扫描线数目。

图7描述周边背景面积(PBA)特征的抽取方法。首先处理器20计算下列方程式：

PBA = \frac{Σ_{n = 1}^{N} λ_{n}}{X_{m} * Y_{m}} (1)

此处n为水平垂直轴点数指标，其值由1到输入文字在此n所对应轴的最大维次N。λ_n为于指标n由字形图象的外框矩形在水平或垂直方向扫描直到碰到第一个笔画点的空白点素数长度值。就如图7所示，处理器20从相对应的座标轴垂直地测量λ_n，变数m为一数值用来指示那一特殊区域正在计算PBA值。Xm表示这个区域m的水平长度，而Ym表示区域m的垂直长度。

处理器20对每一区域321，322，326，327，341，342，346和347计算其垂直方向的PBA，同时对区域352，354，356，358，372，374，376和378计算水平方向的PBA。所以，共有16个特征值被抽取出来。

参考图8，轮廓线特征(CLL)可由公式(2)计算得到，

Δλ_n＝λ_n+1-λ_n

{CLL}_{1} = \frac{Σ_{n = 1}^{N} Δλn}{Xm + Ym}

对每一个Δλn＜0

(2)

{CLL}_{2} = \frac{Σ_{n = 1}^{N} Δλn}{Xm + Ym}

，封每一個Δλn＞0

其中变数m’n’Xm’Ym’和λn已描述于PBA特征抽取段落中。处理器20对每一垂直和水平区域324，328，344和348得出的二个CLL(即CCL₁和CLL₂)特征值。所以，亦有16个特征值被抽取出来。

参考图4，倾斜度特征(Gradient)被抽取出来。首先，处理器20对输入图象的第i行及第j列的图象点计算出其方向码Dir_ij。变数i和j分别表示水平轴(X)和垂直轴(y)的位置指标。这方向码为对应此图象点的法线向量。如图9所示，共有8个可能的方向码，每一个对应45度的角度，那就是0对应从337.5度到22.5度，1对应从22.5度到67.5度，2对应从67.5度到112.5度，3对应从112.5到157.5度，4对应从157.5度到202.5度，5对应从202.5度到247.5度，6对应从247.5度到292.5度，7对应从292.5度到337.5度。所以，处理器20以下列公式对每一区域产生一个长度向量

Len(Dir_ij)：

Len = \sqrt{X^{2} + Y^{2}} - - - (3 a)

(Dirij - 1) \cdot \frac{π}{8} \leq ta n^{- 1} (\frac{Y}{X}) \leq (Dirij) \cdot \frac{π}{8} - - - (3 b)

Σ_{i = 1}^{I} Σ_{j = 1}^{J} \frac{Lenij (Dirij)}{Bddm (Dirij)}

，封每一Dir_ij

(3c)

此处Bdd_m(Dir_ij)代表于第m区域中与方向Dir_ij垂直的边界宽度，而X和Y是经由下列二个3×3矩阵与图象做运算产生。

-1	1
-1	1	-1	*	1
-1	1	-1	*	1

X

1	1	1
1	1	1	0	*	0
-1	-1	-1	0	*	0

Y(3d)处理器20以这二个矩阵对输入图象做运算则可获得Len和Dir_ij。然后再以方程式(3c)计算出每一区域中每一方向的长度值。

例如：倾斜度特征可从8个区域352，354，356，358，372，374，376和378抽取出来，而每一个区域包含有8个方向码的长度特征，故将产生64个特征值。

在对一输入图象进行特征抽取以后，处理器20执行步骤42。在此步骤中，处理器20以先前制做出来的每一字参考特征值向量与目前输入文字所抽取出来的特征值向量进行比对。这些参考特征值可能被存放于磁盘存储器24或主存储器22中，这些参考特征值将被组织在一参考特征值数据库中，简称数据库。这数据库对系统10要辨识的每一文字至少包含有一个特征值向量。例如，当系统10为辨识英文字母时，每一字母有至少有一参考特征值向量。根据这些比对，处理器20可决定出那一文字的参考特值向量与输入文字的特征值向量最接近，则以此字为最终辨识的结果。

很多对改善文字辨识的方法已经被提出来，例如美国专利：

5,151,950，5,050,219，

5,034,989，4,903,312，

4,731,857，4,718,103，

4,685,142，4,284,975，

以及

D.Lee&N.Sirhari，Handprinted DigitalRecognition：A Comparison of Algorithms，ThirdInternational Workshop on Frontiers In HandwritingRecognition p.153-162(1993)，G.Srikantan，GradientRepresentation for Handwritten CharacterRecognition，Third International Workshop onFrontiers In Handwriting Recognition，p.318-24(1993)and L.Tu，W.Lin，Y.Chan&I.Shyu，APC BasedHandwritten Chinese Character Recognition System，Third International Workshop on Frontiers InHandwriting Recognition，p.349-54(1993)。

如上所述，一个典型的文字辨识系统10是比较输入字形所抽取的特征值和事先所预存的各类文字参考模型特征值数据库。这样的数据库可经由许多方法来组成。例如，美国专利序号第5,050,219提出一种以树状结构来组织文字辨识特征数据库。在这树状结构中每个终结节点代表一类欲辨识的字元。而每一个非终结的节点代表一组仍需与输入字形以某种事先已决定的特征做比较的特定文字群，然后根据比较的结果，这树状数据库将前进至其某一个子节点。在这比较过程中，除非已到达某一终结节点，这树状数据库将一直前进，继续处理下一个节点。而最后其终结节点所对应的字元即是辨识的结果。

其它的文字辨识特征数据库是平面式的，这样的数据库对辨识范围的每一类文字至少包含一个参考模型特征值向量。输入文字的特征向量将与数据库中每一参考模型特征向量做比较，然后取与输入文字特征最接近的参考模型特征向量所对应的文字类别为最终的辨识结果。

一般而言，求取参考模型字元特征是由下述步骤来完成。起初，对每一类字元，以图1中的系统10收集很多辨识范围内的字形输入样本。然后对每一样本进行特征抽取。接下来为了存储器空间的考虑，对处理器20每类字元特征值将以一个或少数几个参考模型来代表，而这些参考模型特征值为最终被存放于前述字元数据库中的数据。举例来说，处理器20可能对每一类字元的训练样本计算其平均特征向量，然后以此向量当作此字元的参考模型特征向量而存放于字元数据库内。事实上，这些参考模型特征向量是用来代表字元以进行比对用的。与此相关的有美国专利序号08/313,683，其提出求取每类字元特征值向量的一种处理法则。

上述方法所求出的参考模型特征值向量可能不是最佳的。例如，对所求出的参考模型，某一类字元的训练样一可能会比对自己的参考模型更接近其它字元的参考模型。一般来说，一个参考模型与输入字元的对应程度是以此二物体的特征值向量在每个维次上的距离总和来计算。然后这个距离总和即被拿来当做这二向量的距离指标。当一个训练字形样本被说成与某一参考模型最接近即是表示此二对应特征值向量的距离最小。为了表示上的方便，真实字元类别代表一个输入字元图象的真正归属字元类别，而最佳比对字元类别则为与输入字元图象最接近的参考模型所对应的字元类别。在一个非最佳化的参考模型特征向量数据库中，最佳比对字元类别并不为真实字元类别的字元训练样本数目可能会高得不可接受。若如此，这代表辨识系统不具有好的辨识效能。

为了避免这个问题，参考模型特征值向量需要被最佳求取。在这最佳化的处理过程中，参考模型特征值向量是不断的被调整来减少最佳比对字元类别不为真实字元类别的字元训练样本数目。

第一个习知的参考模型最佳化处理为K平均值(K-means)法则。可参看Devijer和Kittler于1982年所著的“图形识别：一种统计方法”的第409页。根据这个法则，处理器20对每个训练样本执行下述步骤。处理器20指定每个训练样本一个与其最接近的字元类别。代表此字元类别的参考模型中有与该训练样本的特征值向量距离最小者。对某一训练样本，假如其最接近的字元类别不为上次训练所指定的字元类别时，处理器20将产生一个信号表示已发生字元类别的变更。然后处理器20将根据新的字元类别指定，重新计算每类字元的参考模型。处理器20将再重复上述动作一直等到对所有训练样本已不再发生字元类别变更的情形。

第二个习知的参考模型最佳化处理方法为线性向量量化法(Linear Vector Quantization或是LVQ2)，请参考1990年由T.Kobonen的文章”自我组织地图法“The Self Organixzation Map”，其为了要解释这个最佳化处理过程，一些符号介绍于下

N 特征元素总数。

i 特征元素指标，其中1≤i≤N。

X 一个训练样本的特征值向量，其元素表示为X₁……X_N。

K 训练样本字元类别总数。

C_K 第k个字元类别。

B_k 第k个字元类别的参考模型总数。

j 参考模型指标。

j

r_k ^j 第k类字元的第j个参考模型的特征值向量，其元素表示为r_kl ^j，....，r_kN ^j。

D(r_k ^j，X)r_k ^j 和X的距离。

q_k 在第k类字元中，与输入样本特征值向量量X最接近的参考模型指标。

I 输入样本X的真实字元类别。

M 与输入样本特征最接近的字元类别，那就是与X最接近的参考模型所归属的字元类别。

距离测量D(r_k ^j，X)计算方式为

D (r_{k}^{j}, X) = Σ_{i = 1}^{N} (Xi - r_{k 1}^{j})^{2} - - - (4)

下列公式是用来决定在第k类字元的参考模型中与输入字元特征X最接近者的指标q_k

D (r_{k}^{q_{k}}, X) = \min_{j = 1}^{Bk} D (r_{k}^{i}, X) - - - (5)

并且最接近字元类别M及此类别中最接近X的参考模型q_M满足

D (r_{k}^{q_{M}}, X) = \min_{k = 1}^{K} D (r_{k}^{q_{k}}, X)

= \min_{k = 1}^{K} \min_{j = 1}^{B_{k}} D

(r_{k}^{j}, X) - - - (6)

于LVQ2的处理方式中。处理器20对每个训练样本特征值向量执行以下步骤。首先，它找出与X最接近的字元类别M和最接近的参考模型q_M。若是M等于X的真实字元类别I，则没有任何参考模型被更动。然而若M不等于1，则有二个参考模型q_M和q₁需要被更动，使得的q_M的参考模型能远离X，而q₁的参考模型能更加接近X。以数学符号表示则为

Δ r_{Mi}^{q_{M}} = - α (Xi - r_{Mi}^{q_{M}}) - - - (7 a)

Δ_{r_{Ii}^{q_{I}}} = - α (Xi - r_{Ii}^{q_{I}}) - - - (7 b)

其中a为学习参数系数，可为固定或可变值。

一般而言，LVQ2得到比K-means效果更好的参考模型。然而，改善参考模型一直是重要的研究方向。特别的是，LVQ2本质上存在有三个严重的缺点：

(1)其最佳化方程式7(a)和7(b)并不直接与错误辨识的个数产生关系；

(2)当含有不正常的训练样本时，可能导至参考模型被剧烈变更，造成辨识效能的降低；

(3)LVQ2对每个维次的特征一视同仁，保有相同的加权值。但事实上，某些维次的特征在辨识方面可能会比其它维次特征重要。

本发明的目的在于提供一种能避免上述缺点，具有最佳化参考模型的文字识别系统及方法。

本发明是采用一种比较式分类检查法(Competitive Classifcation Learning或简称CCL)来产生最佳化的参考模型特征值向量。这个CCL法能被一具有一个或多个处理器系统来执行，且此系统具有与处理器相连接的存储器，以及一个文字信息输入装置(例如数字板和光笔)。在处理过程中，首先由输入装置接收输入字形信息，然后利用一个或多个处理器进行计算所有字元参考模型与输入字形特征值向量的距离。并且找出最佳比对字元类别。对所有训练样本，处理器抽取其特征值向量，然后以每类字元的样本最少为一个参考模型来代表。根据CCL法，处理器将逐渐调整参考模型的特征值使得所对应的文字识别系统产生更佳的辨识结果。

在本质上，CCL最佳模型建构法具有下列优点：

(1)参考模型是被逐渐调整以减少辨识错误的机会。

(2)不正常的训练样本不会影响参考模型的辨识能力的好坏。

(3)对具有分辨能力特征元素能给予较大的加权值，反之，对较不具分辨能力的特征元素给予较小的加权值。

为了满足这些优点，处理器针对每个训练样本执行下列步骤：

(a)以方程式(8)计算每一个参考模型r_k ^j与输入样本特征值向量X间的距离y_k ^j，

y_{k}^{j} = Σ_{i = 1}^{N} \frac{(Xi - r_{ki}^{j})^{2}}{θi} - - - (8)

其中，

N 为特征维次数目

X 为输入样本的特征值向量，其元素为X₁，…X₁，…，X_N

K 为字元样本的总字元类别数目

r_k ^j 为第k类字元的第j个参考模型的特征值向量，其元素为：r_kl ^j，...r_ki ^j....，r_kN ^j

y_k ^j 为第k类字元的第j个参考模型与输入样本的特征值向量间距离。

θ₁ 为第i个特征元素的正规化因子；

(b)以方程式(9)计算输入样本与每类字元的最近参考模型距离，

Z_{k} = \min_{j = 1}^{Bk} y_{k}^{j} - - - (9)

其中，

B_k为第k类字元的参考模型总数；

Z_k为输入样本与最接近的第k类的参考模型的间的特征值向量距离。

(C)以方程式(9a)和(9b)分别计算O_M和O_I。

O_{M} = y_{M}^{q_{M}}

= \min_{j = 1}^{B_{M}} Σ_{i = 1}^{N} \frac{(Xi - r_{Mi}^{j})^{2}}{θi}

= \min_{k = 1}^{K} Z_{K}

(9a)

O_{I} = Y_{I}^{q_{I}}

= \min_{j = 1}^{BI} Σ_{i = 1}^{N} \frac{(Xi - r_{Ii}^{i})^{2}}{θ_{i}} - - -

(9 b)

其中，

I 为输入样本的真实字元类别

M 为与输入样本最接近的字元类别

B_M 为字元类别I中的参考模型总个数

B_I 为字元类别M中的参考模型总个数

O_M 为输入样本与其最接近的字元类别M中的所有参考模型间的最短距离。

O_I 为输入样本与其真实字元类别I中的所有参考模型间的最短距离。

q_k为第k类参考模型中与输入样本特征X最接近的参考模型指标；

(d)假如最接近的字元类别M与真实的字元类别I是相同时，则所有字元类别的参考模型均不被改变；反之，则有二个模型q_M与q_I的值特征值向量会被改变，且其改变量为

Δ_{r_{Mi}^{q_{M}}} = - η (n) e^{\frac{O_{M} - O_{I}}{A (n)}} \frac{{(X}_{i} - r_{Mi}^{q_{M}})}{θ_{i}} - - - (10 a)

Δ_{r_{Ii}^{qI}} = η (n) e^{\frac{O_{M} - O_{I}}{A (n)}} \frac{(X_{i} - r_{Ii}^{q_{I}})}{θ_{i}} - - - (10 b)

此外，每个特征元素的正规化系数θ_i则根据公式(10)来做改变，

Δ θ_{i} = μ (n) e^{\frac{O_{M} - O_{I}}{A (n)}} \frac{(X_{i} - r_{Ii}^{q_{I}})^{2} - (X_{i} - r_{Mi}^{q_{M}})^{2}}{θ_{I}^{2}} - - - (11)

其中，

n 为所有训练样本已被反复训练的次数

A(n) 为一随着反复次数n改变的单调递减频宽函数

η(n) 为特征检查参数

μ(n) 为正规化因子检查参数频宽参数A(n)有时也被称为S型函数

exp[(O_M-O_I)/A(n)]能接收的信号宽度，此宽度控制了该S型函数的有效区域大小。那就是一个大的A(n)值使得一个S型函数上升曲线缓慢，而A(n)值小时则S型函数具有快速的上升曲线。而检查参数η(n)和μ(n)被设计成当n等于0时具有大的值而随着训练次数n的增加而逐渐变小。

在公式(10a)和(10b)中，检查参数η(n)和数μ(n)与参考模型的改变量有关。η(n)和μ(n)的逐渐变小造成参考模型的变量随着反复训练次数n增加而变小。特别的是对应一个已知的O_M和O_I，当n增大时，则参考模型的改变量将会变小。其实，这是一个所期待的行为。因为当n逐渐增大时(经过多次的反复训练处理后)，参考模型已经快要收敛到他们最好的位置，此时应该避免参考模型做出剧烈的改变。若不是如此，大的改变量很可能使参考模型远离了他们的最佳位置，造成检查过程又需重新开始。

由始参考模型的修正量与项目exp[(O_M-O_I)/A(n)]有关，这使得不正常的训练样本对参考模型所产生的影响可降至最低。当O_M≠O_I，但是O_M非常接近O_I时，exp[(O_M-O_I)/A(n)]趋近于1，此时参考模型会有较大的改变量。当O_M的值与O_I差距很大时，exp[(O_M-O_I)/A(n)]趋近于0，则参考模型的改变量会很小。所以，当O_M≠O_I且O_M值远小于O_I值时，参考模型只有很小的改变量。此种情况所对应的情形是训练样本不但远离其真实字元类别的参考模型，而且又是接近其它字元类别的参考模型。然而，当这种情况发生时，这个训练样本极可能是一个不正常的样本(例如由于人工疏忽而标志不正确的字元类别)。所以，这个发明所提出的参考模型改变量方式具有降低不正常训练样本所产生的影向。

在方程式(8)，距离计算时每个特征元素i使用了一个正规化参数θ_i°在方程式(11)中，有二个项目控制了θ_i的调整量，那就是

。这第一个项目是输入样本与其真实字元类别中最接近的参考模型的特征值差距，而第二个项目为输入样本与最接近的参考模型间的特征值差距。当O_M≠O_I且第一个项目大于第二个项目时，Q_I值将被增加以致于在计算距离时能降低这第i个特征元素所产生的影响。另外，当O_M≠O_I且第一个项目值比第二个项目小时，Q_i值将被减小使得第i个特征元素对距离计算的影响力可增大。如此一来，有分辨能力的特征值元素将在计算两个特征值向量的距离时具有较大的影响力。

本发明的文字识别系统包括由多个互相连接的处理节点所构成的神经网络处理器，而且这些处理节点是被组织成四个阶层。第一个阶层称为输入层，它是由N个节点所组成，而每个节点收取输入样本的一个特征元素的值。第二阶层称为第一隐藏层，它包含J个节点，而J的值等于所有字元的参考模型个数。那就是

J = Σ_{k = 1}^{K} B_{k}

每一个第一隐藏层的节点对应一个参考模型，而且它与输入层的每个节点相连。所以对字元K而言，在第一隐藏层中将有B_k个节点与之对应，而且每一个节点对应它的一个参考模型。在动作上，字元k的第j个第一隐藏层的节点计算输入样本和这个参考模型间的距离Y_k ^j。此神经网络的第三阶层称为第二隐藏层，它包含有K个节点，且每个节点代表某一类字元的参考模型中与输入样本间的最小距离。在图形表示上，每一第k个第二隐藏层的节点只与那些代表字元k的参考模型所对应的第一隐藏层节点相接，并且这些连接系数值均为1。在动作上，每一第k个第二隐藏层的节点收取B_k个距离值(其值为y_k ^l，....， )，然后由其中决定最小的距离值Z_k，并且此最小值是由那一个第一隐藏层节点所产生的。最后，第四层为输出层，它由二个节点所组成，而每一节点与所有第二隐藏层节点相连。输出层中的第一个节点记录在所有字元中最小的Z_k值，并且这最小的Z_k值是由那一类字元M所产出。输出层中第二个节点记录输入样本的真实字元类别I以及字元类别所对应的第二隐藏层节点的输出值Z_I。因此，这神经网络处理器能容易找出M，I，O_M(即输出层第一个节点的距离输出值)和O_I(即输出层第二个节点的距离输出值)。

本发明的文字识别系统具有如下效果：

本发明揭露一套能产生针对辨识目的最佳化参考模型的系统与处理流程。本发明的最佳化处理过程可得到具有较佳辨识能力的参考模型数据库。本发明系统的文字辨识率高。

结合附图及实施例对本发明的要点说明如下：

附图简述：

图1是传统的文字辨识系统的电路方框图；

图2是传统文字处理的流程图；

图3到图5为单一文字区域切割的示意图；

图6到图9为文字特征抽取的范例示意图；

图10为本发明的文字辨识系统的电路方框图；

图11为本发明所需的文字识别处理流程图；

图12为本发明实施例的最佳化参考模型处理流程图；

图13为本发明的神经网络处理器示意图。

图10说明一文字辨识系统100。就象前述系统10，系统100有一个与文字输入装置(例如光学扫描机116或是光笔及数字板118)相连接的输入/输出介面。光学扫描机116能够扫描纸张上的印刷或手写文字，并且产生这些文字的数字化图象数据。这光笔和数字板能够收取人为输入的手写文字笔迹数据并且产生这些输入文字的图象信息。所产生的文字信息可经由输入/输出介面114和系统总线112传送至主存储器122或是磁盘存储器124。处理器120能处理图象数据，特别是它能比较每个输入样本与所有参考模型特征值，并决定出与输入样本最接近的参考模型。事实上，输入文字最终是被辨认为与最近参考模型型的字元类别。所辨识出来的文字类别然后能经由声音/图象的输出介面126而被输出。

系统100或是其它相似的系统能够产生参考模型数据库。这可从图11所描述的处理流程来完成。根据第一步骤202，文字训练样本经由扫描机或光笔及数字板被输入。输入样本的图象数据被储存于存储器122或124。然后在步骤204输入样本经由处理器120执行前处理动作进行杂信去除。

在步骤206中，处理器120先将每个输入样本图象骨干化，然后再转换这骨干图象成具均匀笔划宽度的字形图象。在步骤208中，处理器120将输入样本做区域分割。在步骤210，处理器120从每个已分割的输入样本进行特征抽取。在步骤212，处理器120组织文字训练样本成为不同的族群。这个动作可经由许多方法完成。例如在美国专利序号08/313-686中，为了能更佳的表达一般为非均匀的文字分布，每个字元类别的训练样本被区分成数个群团。这些参考模型的特征值可由其所对应群团的特征平均值表示。另外一种选择的方法是每个群团被区分成多个子群，则每个子群的特征平均值可充当参考模型特征值向量。

在选择了参考模型个数及其初始特征值向量后，处理器120执行步骤216来使参考模型最佳化。这一点在以下篇幅中将有很仔细的介绍。在参考模型最佳化后，处理器120将组织一套参考模型数据库以供辨识用。这数据库是被储存在主存储器122或是磁盘存储器124内。

一种根据上述发明的原则而具体化的最佳处理法称为“比较式分类检查法”(Competieive Classification Learning或是简称CCL)介绍于下。根据本发明，一些原则已经被纳入其最佳化的处理过程中，为了要解释这些原则，首先需要来定义一些名词：

n 为目前反复训练次数，而在每次反复训练中，所有训练样本均被处理过。

y_k ^j 是第k类字元的第j个参考模型与输入样本间的距离。

θ_i 是特征元素i的正规化因子。

Z_k 是第k类字元中参考模型与输入样本间最近的距离。

J 是所有字元所包含的参考模型总个数。

B_k 是在第k类字元的参考模型个数。

M 是与输入样本最接近的字元类别。

O_I 是第I类字元的参考模型与输入样本间的最小距离。

O_M 是第M类字元的参考模型与输入样本间的最小距离。

M 是输入样本最接近的字元类别。

I 是输入样本的真实字元类别

CCL 在计算距离时将每个特征元素i的正规化因子纳入计算中，这一点是与LVQ2不太相同的。所以，每个特征元素对距离计算的比重均可能不同。以数学公式表示时，CCL所采用的距离计算式为

y_{k}^{j} = Σ_{k = 1}^{N} \frac{(X_{i} - r_{ki}^{j})^{2}}{θ_{i}} - - - (8)

正规化因子的值在训练阶段中将被改变使得较具有分辨性的特征元素其正规化因子值较小。这造成此种特征元素对距离计算具有较大的影响力。E为一错误函数，它代表根据所建构的字元参考模型辨识系统将得到错误辨识个数的大小。E的计算方法与反复检查次数n以及O_I和O_M间的差距有关，如式(12)所示：

E = 1 - e^{\frac{O_{M} - O_{I}}{A (n)}} - - - (12)

其中A(n)是一个大于0且随着n值的增加而变小的函数，也就是0＜A(n)＜A(n+1)。A(n)有时被称为S型函数exp[(O_M-O_I)/A(n)]的可接受领域宽度，此宽度是用来控制S型函数的活动区域范围。对一个训练样本而言，当A(n)趋近于0时，若O_I＝O_M，则E的值为0；若O_M≠O_I，则E值几乎为1。这也就是说根据目前所建构的参考模型，若O_I＝O_M(表示输入样本被正确地辩认)，则错误函数E值增加为0；反之，若O_M≠O_I(表示输入样本被错误地辨认)，则错误函数E值增加几乎为1。可知，此处所定义的错误函与辩认时错误的样本个数有很密切且直接的关系。

CCL演绎法是以将E值求出最小值的过程中来逐渐调整参考模型特征值向量。所以定义下列反复式的参数调整方式：

Δ_{r_{k}^{j}} = - α (n) \frac{&PartialD; E}{&PartialD; r_{ki}^{j}} - - - (13)

和

Δ θ_{i} = - β (n) \frac{&PartialD; E}{{&PartialD; θ}_{I}} - - - (14)

其中α(n)和β(n)为单调递减的函数。那就是0＜α(n)＜α(n+1)，而且0＜β(n)＜β(n+1)。这样的检查参数函数是由实验来决定的。

应用链结法则(chain rule)，则方程式(13)变成

\frac{&PartialD; E}{&PartialD; r_{ki}^{j}} = Σ_{k = 1}^{K} \frac{&PartialD; E}{{&PartialD; Z}_{k}} \frac{&PartialD; Z_{k}}{&PartialD; r_{ki}^{j}}

这一部分可被改写成同样的，第二部份可用链结法则而成

\frac{&PartialD; Z_{k}}{&PartialD; r_{ki}^{j}} = Σ_{k = 1}^{K} \frac{&PartialD; Z_{k}}{{&PartialD; y}_{k}^{j}} \frac{&PartialD; y_{k}^{j}}{&PartialD; r_{ki}^{j}}

这第一个偏导数为

第二个偏导数为

\frac{{&PartialD; Z}_{k}}{&PartialD; r_{ki}^{j}} = \frac{2 \cdot (X_{i} - r_{ki}^{j})}{θ_{i}}

组合上述的偏导数，方程式(13)变成

其中，

η (n) = \frac{2 \cdot α (n)}{A (n)}

以相似的推导过程于方程式(14)得

\frac{&PartialD; E}{&PartialD; θ_{i}} = Σ_{k = 1}^{K} \frac{&PartialD; E}{Z_{k}} \frac{&PartialD; Z_{k}}{{&PartialD; θ}_{i}}

\frac{&PartialD; Z_{k}}{{&PartialD; θ}_{i}} = Σ_{j = 1}^{B_{k}} \frac{&PartialD; Z_{k}}{&PartialD; y_{k}^{j}} \frac{&PartialD; y_{k}^{j}}{{&PartialD; θ}_{i}}

且

\frac{{&PartialD; Y}_{k}^{j}}{&PartialD; θ_{i}} = - \frac{(X_{i} - r_{ki}^{j})^{2}}{θ_{i}^{2}}

所以，方程式(14)变成

此时

μ (n) = \frac{β (n)}{A (n)}

为使此参考模型最佳化能收敛，η(n)和μ(n)均被设定为单调递减函数。

方程式(15)和(16)是以本发明的实施例的参考模型特征值及正规化因子调整法。参考图12，CCL最佳化处理过程描述如下。在步骤302，处理器120设定某些参数的初始值。这些参数包括每一个正规化因子θ_i，频宽参数A(0)，和η(0)和μ(0)，变数“error”(错误计数器)和n(反复训练次数)被设为0。接下来，处理器120针对每个训练样本执行步骤304-318。在步骤304中，处理器120选择下一个输入样本来进行处理。在步骤306，处理器120以公式(8)计算正被处理的样本与第k字元的第j个参考模型间的距离y_k ^j。在步骤308中，处理器120决定每一字元k中与处理样本X最接近的参考模型指标q_k。这个动作是以方程式(9)来完成。

Z_{k} = y_{k}^{q_{k}} = \min_{J = 1}^{B_{K}} y_{k}^{j} - - - (9)

在步骤310，处理器120决定与处理样本X最接近字元类别M，并且设定此距离为O_M，同时设定处理样本与其真实字元中最接近的参考模型间的距离Z_I给O_I。那就是处理器120执行下述的设定

O_{M} = \min_{K = 1}^{K} Z_{K} - - - (9 a)

O₁＝Z₁ (9b)

在步骤310中，处理器比较O_I值与O_M值。假如O_I＝O_M，那么，没有任何字元的参考模型会因目前的这一个训练样本而被改变。然而假如O_I≠O_M，则处理器120执行步骤314。在步骤314中，处理器120更改二个参考模型的特征值向量(一为最接近字元中的

，一为真实字元中的 )。那就是对每一i值(1≤i≤N)，

Δ_{r_{Mi}^{q_{M}}} = - η (n) e^{\frac{O_{M} - O_{I}}{A (n)} \frac{(Xi - r_{Mi}^{q_{M}})}{θ_{i}}} - - - (10 a)

Δ_{r_{Ii}^{q_{I}}} = η (n) e^{\frac{O_{M} - O_{I}}{A (n)}} \frac{(Xi - r_{li}^{qi})}{θ_{i}} - - - (10 b)

另外，处理器120也以方程式(16)来更改每一个正规化因子θ_i的值。

处理器120也增加1到错误计数器。按着处理器120执行步骤315。在步骤315中，处理器120会根据是否所有训练样本在此次反复检查中均已被处理而有二种反应。若是所有训练样本均已被处理则处理器120执行步骤316，否则处理器120选择下一个训练样本。然后跳回步骤306。

在步骤316中处理器加1到训练次数n，在步骤317中处理器120决定是否要停止检查过程或者要跳回步骤304而继续检查。处理器120有二个判断条件来决定检查是否应继续进行。第一个条件为是否反复训练次数n已超过预先设定的最大训练次数(iter-thresh)，第二个条件为是否此次反复训练过程中错误个数小于预先设定的最小错误个数(err-thresh)。假如此二条件均没有满足，则处理器120执行步骤318来降低A(n)，η(n)和μ(n)值然后返回步骤304。若此二条件有一个或一个以上被满足，则处理器120停止并跳出此训练过程。

在方程式(15)，(10a)和(10b)对参考模型的更改中有二个项目需要特别解释其物理意义。第一个项目是X_i-r_ki ^j，它使得参考模型特征值的修正量与此参考模型和处理样本在第i个特征空间的距离成正比。第二个项目是

e^{\frac{O_{M} - O_{I}}{A (n)}}

，它造成参考模型特征值的修正量与O_M-O_I和频宽参数A(n)有关。而且这个频宽参数A(n)被设计成单调递减函数。这使得当n增加时，对同一(O_M-O_I)值而言，

e^{\frac{O_{M} - O_{I}}{A_{(n)}}}

会变小。所以当n值大时，参考模型特徵值的修正量趋于小值。这也符合我们直觉的想法，即在反覆检查中，参考模型会逐渐收敛至其最佳位置，所以当n大时，应该避免参考模型被的大改变以免破坏原先检查的成果。

更值得一提的是这个修正量与值O_M-O_I相关，如此一来可降低正常训练样本对参考模型的不良影响。明显地，当O_I≠O_M时，则参考模型会被更改。然而这个更改量会随着O_M逼近O_I而变大，亦随着O_M值远离O_I而变小。这是一个理想的行为现象。因为当O_M值是远小于O_I时，表示此训练样本非常接近某一错误字元M的某一参考模型，而远离其真正字元的所有参考模型。当此现象发生时，此训练样本极可能属于不正常的训练样本，所以它并不适合用来训练参考模型。以上探讨可知方程式(15)，(10a)和(10b)使得不正常的训练样本对参考模型的更改量降至最小。方程式(8)中计算在训练样本X与一参考模型r_k ^j间的距离时，每一特征元素i对应有一个正规化因子θ_i。所以这些特征元素是具有不同的比重。特别的是方程式(16)控制θ_i的更正量与

(X_{i} - r_{Ii}^{q_{I}})^{2} - (X_{i} - r_{Mi}^{q_{M}})^{2}

成正比。当

大时，则此时正规化因子θ₁将被增大。这也造成第i个特征元素对距离计算的影响力变小。相反的，当

(X_{i} - r_{Ii}^{q_{I}})^{2}

比

(X_{i} - r_{Mi}^{q_{I}})^{2}

小时，则正规化因子θ_i会被减小。这使得第i个特征元素对距离计算的影响力变大。

再来思考方程式(8)和(16)的内含意义。除非M≠I，正规化因子不会被改变。假设在某一次反覆训练时，某一训练样本的M不等于I。若是

{(X}_{i} - r_{Ii}^{q_{I}})^{2}

比

{(X}_{i} - r_{Mi}^{q_{I}})^{2}

大，此时代表对第i个特征元素而言，训练样本与其真实字元间的距离大于训练样本与错误字元M间的距离。这表示第i个特征元素的分辨能力不好。因为第i个特征元素使得训练样本比接近其真实字元更接近错误字元M。所以这个特征元素应以增大其正规化因子来降低其距离计算的影响力。

根据本发明，CCL参考模型构标准模构建法能得到对辨认较有用的参考模型。下表综合式的表示本发明的改进程度。

方法名称	数目	每类文字参考模型个数(BK)	错误个数(测试样本)	辨识率
方法名称	数目	每类文字参考模型个数(BK)	错误个数(测试样本)	辨识率	K平均值法	50	1	151(5000)	96.98％
线性向量量化法(LVQ2)	50	1	99(5000)	98.02％	K平均值法	50	1	151(5000)	96.98％
线性向量量化法(LVQ2)	50	1	99(5000)	98.02％	比较分类检查法(CCL)	50	1	75(5000)	98.50％
K平均值法	50	2	108(5000)	97.84％	比较分类检查法(CCL)	50	1	75(5000)	98.50％
K平均值法	50	2	108(5000)	97.84％	线性向量量化法(LVQ2)	50	2	76(5000)	98.48％
比较分类检查法(CCL)	50	2	54(5000)	98.92％	线性向量量化法(LVQ2)	50	2	76(5000)	98.48％
比较分类检查法(CCL)	50	2	54(5000)	98.92％	K平均值法	200	1	1226(5000)	93.87％
线性向量量化法(LVQ2)	200	1	760(5000)	96.20％	K平均值法	200	1	1226(5000)	93.87％
线性向量量化法(LVQ2)	200	1	760(5000)	96.20％	比较分类检查法(CCL)	200	1	580(5000)	97.10％
K平均值法	200	2	949(5000)	95.25％	比较分类检查法(CCL)	200	1	580(5000)	97.10％
K平均值法	200	2	949(5000)	95.25％	线性向量量化法(LVQ2)	200	2	623(5000)	96.88％
比较分类检查法(CCL)	200	2	540(5000)	97.30％	线性向量量化法(LVQ2)	200	2	623(5000)	96.88％
比较分类检查法(CCL)	200	2	540(5000)	97.30％	K平均值法	400	1	3321(5000)	91.70％
线性向量量化法(LVQ2)	400	1	2031(5000)	94.92％	K平均值法	400	1	3321(5000)	91.70％
线性向量量化法(LVQ2)	400	1	2031(5000)	94.92％	比较式分类检查法(CCL)	400	1	1639(5000)	95.91％

上表中，B_K是每个字元的参考模型个数，而文字数目是为可辨认字元的总数。对每个例子而，每类字元拥有200个样本，其中100个为训练样本，而另外100个为测试样本。由上表可知，由本发明所实现的CLL处理方法可得到具有最佳辨识能力的参考模型。

参考图形13，一个神经纲络处理器400是用来说明如何执行上述最佳化处理过程。这样的神经纲路处理器可和图形10中的处理器120设计在一起。或者，假如处理器120是一个事先已设计好的微处理器，这个神经纲路处理器400可与处理器120及存储器122和124经由数据总线112相连结。

在解说上，神经纲路处理器400被构造成4个阶层410，420，430和440。最低阶层410称做为输入层，它具有N个处理节点410-1，420-2，…，410-i，…，410-N，N是特徵元素的总个数。

每一个输入层处理节点410-i对应第i个元素。下个阶层420也被称做为第一隐藏层，它具有

个处理节点，410-1-1，…，420-1-B₁，…，420-K-1，…，420-K-B_K，…420-K-1，…，420-K-B_K。每一个第一隐藏层处理节点420-K-J对应一个第K类字元的第J个参考模型，它与输入层的所有节点均连接。再下一个阶层430被称为第二隐藏层类别的总个数。每一个第二隐藏层处理节点430-K对应第K类的字元，而它只连接所有对应第K类字元参考模型的第一隐藏层处理节点420-K-1，…，420-K-B_K。最后一介440被称为输出层，它具有二个处理节点440-I和440-M。处理节点440-I对应输入样本的真实字元类别I，而处理节点440-M对应最接近输入样本的字元类别M。

一个训练样本的特徵值向量可输入神经网络处理器400。特别是第i个特徵元素的值先被载入第i个输入层处理节点410-i。然后输入会处理节点410-1，…，410-N同时输出他们所记录的特徵值至第一隐藏层的每一个处理节点420-1-1，…，420-K-B_K。

每一个第一隐藏层处理节点420-k-j根据方程式(8)计算输入样本与第K类字元的第j个参考模型间的距离Y_k ^j。第一隐藏层处理节点420-1-I，…，420-K-B_k分别地输出距离值

y_{l}^{l}, \cdot \cdot \cdot y_{l}^{B_{l}}, \cdot \cdot \cdot y_{K}^{l}, \cdot \cdot \cdot y_{K}^{B_{K}}

。每一个第二隐藏层处理节点430-K接收代表字元K的B_k个第一隐藏层节点所产生的距离当做输入，而选择其中最小的一个距离值当做输出并且记录这最小的距离是由那一个第一隐藏层节点所产出的。事实上，这个距离就是输入样本与第K字元最接近参考模型间的距离。接着第二隐藏层处理节点430-1，…430-K输出距离Z₁，…，Z_K至每一个输出层处理节点440-I和440-M。处理节点440-M从Z₁，…，Z_K中选择输出出最小值并以变数O_M代表，此时M即表示这最小的值是由字元M所产生的，可知

O_{M} = Z_{M} = \min_{k = 1}^{K} Z_{k}

。处理节点440-I从Z₁，...Z_K中选择输入样本的真实字元所对应的距离值Z_I，并且以变数O_I代表。此时I即为输入样本的真实字元，所以O_I＝Z_I。

因此，此神经网络处理器400以一个并行结构可快速且有效率的对每一输入样本决定出O_M，O_I，M和I。就像以上所述，假如O_I≠O_M，参考模型和正规化因子将被更变。变更的结果然后被载入适当的第一隐藏层节点参数中。

简言之，一套为了文字辨识的系统和处理流程在此被揭示。为了产生适当参考模型的目的，训练样本被输入及辨识。本发明提供一种能增加参考模型辨识率的最佳化更改处理方法。这更改的处理方法具有下列三个理想的特性：

(1)对于与错误字元非常接近而远离其真实字元的正常样本，参考模型特徵值向量产生的更正量很小。这是以增加O_M-O_I而会降低更正量的结果来达到。

(2)参考模型特徵向量的更正具有减少辨错误的功能。这个更正量会随着反覆训练次数的增多而递减的A(n)和η(n)和μ(n)的影响而逐渐变小。所以本参考模型建构法具有收敛性。

(3)计算距离时，较具分辨性的特徵元素具有较大的比重。为了这个目的，每一个第i个特徵元素对应一个正规化因子θ_i。而正规化因子于O_M≠O_I时会被调整，使得当

(Xi - r_{Ii}^{q_{I}})^{2} > (Xi - r_{Mi}^{q_{M}})^{2} Q_{i}

时，θ₁变大(即降低第i个特徵元素的影响力)，而当

(Xi - r_{Ii}^{q_{I}})^{2} < (Xi - r_{Mi}^{q_{M}})^{2}

时，θ_i变小(即增大第i个特徵元素的影响力)，此处，

(Xi - r_{Ii}^{q_{I}})^{2}

为输入样本和其真实字元I中最接近的参考模型的第i个特徵元素的欧拉(Eucler)距离。

(Xi - r_{Mi}^{q_{M}})^{2}

为输入样本和其最近字元M的最接近参考模型于第i个特徵元素的欧拉距离。

最后，以上的讨论只是本发明的较佳实施例，不离开本发明构思的修改皆应涵盖在本权利范围内。

Claims

1、一种文字辨识系统数据库的组建方法，其特征在于，包括以下步骤：

输入每类字的训练样本；

对每一训练样本抽取特征向量；

对每类字元，选取适当的参考模型个数及初始位置；以及

当训练样本比接近其真实字元的参考模型更接近某一错误字元的参考模型时，相关的参考模型的特征值向量会被适当的改变。

2、一种文字辨识数据库的组建方法，其特征在于，包括以下步骤：

输入每类字元的训练样本；

对每一个训练样本抽取特征，并将抽取的特征组织成特征值向量；

对每类字元，选取至少一个参考模型的初始位置；对每一训练样本，当它比接近其真实字元的参考模型更接近错误字元M时，相关的参考模型特征值向量会依据值O_M-O_I来做适当的改变，其中：

O_M为训练样本和错误字元M的最接近参考模型间的距离值；

O_I为训练样本和其真实字元I的最接近参考模型间的距离值。

3、一种文字辨识系统数据库的组建方法，其特征在于，包括以下步骤：

输入各类字元的训练样本；

对每一个训练样本抽取特征，并组织成特征值向量；

对每一类字元，选取至少一个参考模型的初始位置；以及

对每一训练样本，当它比接近其真实字元的参考模型更接近某一错误字元时，相关的参考模型特征值向量会依据特征正规化因子做适当的改变。

4、根据权利要求1至3中任一项所述的文字辨识系统数据库的组建方法，其特征在于，每一字元具有至少一个参考模型，所述参考模型的组建方法，包括下列步骤：

对每一个训练样本，以一个处理器决定出包含与其最接近的参考模型的字元类别M，而若最接近的字元类别M并不是真实字元类别I时，根据值

e^{\frac{O_{M} - O_{I}}{A (n)}}

改变部分参考模型特征值向量，其中：

n为反覆训练次数；

O_M为此训练样本和字元M中最接近的参考模型间的距离；

O_I为此训练样本和其真实字元I中最接近的参考模型间的距离；以及

A(n)为一单调递减的频宽函数。

5、根据权利要求4所述的方法，其特征在于，所述每一训练样本特征值向量X的第i个特征元素Xi而言，对所述字元M的参考模型

的改变量为：

Δ_{r_{M_{i}}^{q_{M}}} = - η (n) e^{\frac{O_{M} - O_{I}}{A (n)}} \frac{X_{i} - r_{M_{i}}^{q_{M}}}{θi}

及对其真实字元I的参考模型

的改变量为

Δ_{r_{I_{i}}^{q_{I}}} = η (n) e^{\frac{O_{M} - O_{I}}{A (n)}} \frac{Xi - r_{Ii}^{q_{I}}}{θi};

其中η(n)为一单调递减的函数；及

θ为第i个特征元素的正规化因子。

6、根据权利要求4所述的方法，其特征在于，所述每一训练样本有一特征值向量X，它是由特征元素Xi组成，其中i是一个参数指标，其值由1到特征维次个数N；其步骤包括：

用处理器决定计算输入样本X与一参考模型r_k ^j的距离y_k ^j是以

y_{k}^{j} = Σ_{i = 1}^{N} \frac{(Xi - r_{ki}^{j})^{2}}{θi}

来衡量；以及θ₁是所述的的第i个特征元素的正规化因子。

7、根据权利要求6所述的方法，其特征在于，所述参考模型的改变步骤进一步包括：

如用处理器运作对正规化因子θi所做的改变藉由：

{Δθ}_{i} = {μ (n) e}^{\frac{O_{M} - O_{I}}{A (n)}} \frac{(Xi - r_{li}^{q_{I}})^{2} - (Xi - r_{M_{1}}^{q^{M}})^{2}}{θ_{1}^{2}},

其中μ(n)为一单调递减函数。

8、根据权利要求6所述的方法，其特征在于，所述决定输入样本最接近的字元M的步骤如下：

以所述处理器从每一字元的B_K个参考模型找出与此输入样本最接近的参考模型及距离Z_K，以

Z_{k} = {Min y_{k}^{j}}_{j = 1}^{B_{k}}

来衡量。

9、根据权利要求8所述的方法，其特征在于，以所述处理器的找出此输入样本最接近的字元M，即

O_{M} = Z_{M} = {Min}_{k = 1}^{k} Z_{k}

同时，以变数O₁表示输入样本与真实字元I的最接近参考模型间的距离，即O₁＝Z₁。

10、根据权利要求1至3中任一项所述的文字辨识系统数据库的组建方法，其特征在于，每一字元具有至少一个参考模型，所述参考模型的组建方法，包括下列步骤：此系统在建构参考模型时包含每一个训练样本，以一个处理器决定出包括与其最接近的参考模型的字元M，假如M不等于其真实字元I时，则根据项目：

e^{\frac{O_{M} - O_{I}}{A (n)}}

来改变参考模型特征值量，其中：

n是反复训练次数；

O_M是输入样本与最接近元M间的距离；

O_I是输入样本与其真实字元I间的距离；以及

A(η)是一大于0的单调递减函数。

11、一种文字辨识系统的字元参考模型，其特征在于，其中每一字元具有至少一个参考模型，字元参考模型包括一个由多阶层组成的神经网络处理器，第一阶层由多个处理节点组成，所述神经网络处理器包括：

一个具有N个节点的输入层，每一节点接受一个特征元素的输入并且直接传送出去；

一个具有个节点的第一隐藏层，此层的每一节点对应一个参考模型，所以与输入层的所有节点均相连，且所对应参考模型的特征值储存在此节点与输入节点的连线上，此层各节点的输出为输入样本与此节点所对应的参考模型间的距离y_k ^j，按下式计算：

y_{k}^{j} = Σ_{i = 1}^{N} \frac{{(X}_{i} - r_{ki}^{j})^{2}}{θ_{i}}

其中：

N是特征元素的个数；

θ_i是第i个特征元素的正规化因子；

一个具有K个节点的第二隐藏层的每一个节点输出一类字元参考模型中与输入样本的最小距离，因而此层的每一个节点只有与其对应字元参考模型的第一稳藏节点相连结，且其输出其中最小的距离，并记录此最小距离是由那一参考模型所产生；以及一个具有二个节点的输出层，其中一个节点记录与输入样本最接近的字元类别M及其间距离，另一个节点记录此输入样本的真实字元类别及其间的距离。