CN101630367A

CN101630367A - 基于多分类器的手写体字符识别拒识方法

Info

Publication number: CN101630367A
Application number: CN200910089147A
Authority: CN
Inventors: 殷绪成; 郝红卫; 唐云峰
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2009-07-31
Filing date: 2009-07-31
Publication date: 2010-01-20

Abstract

基于多分类器的手写体字符识别拒识方法，属于手写字符识别领域。将拒识方法引入手写体字符识别系统，可以有效提高识别系统的可靠性，从而提高识别系统的识别率。该发明提出了一种基于单分类器的拒识方法和一种基于多分类器的拒识方法。针对单个特征拒识方法存在的局限性，采用多分类器系统的思想为每一种特征设计单独的分类器，进而对各分类器的拒识结果进行集成，可以发挥各种特征的优势，进一步提高拒识的可靠性。该发明以单分类器拒识方法为基础，给出多分类器拒识方法。该方法可以更好的解决手写体识别系统的识别率和拒识率之间的矛盾，提高识别系统的可靠性。

Description

基于多分类器的手写体字符识别拒识方法

技术领域

本发明提出了几种基于多分类器的手写体字符识别拒识方法，能够有效提高识别拒识字符的可靠性和识别其余字符的准确性。

背景技术

在模式识别领域中，脱机手写体字符识别依然是一个具有挑战性的难题，在某些应用领域中要达到较低的错误率往往会带来很大的系统风险。因此在手写体字符识别的实际应用中，为了提高系统的稳定性和可靠性，将拒识算法应用到系统中，从而提高系统的整体性能。此外，还可以检测出未正确识别的字符，将其提交给一个辅助的识别系统中，或提交给人工处理。

目前普遍采用的一种方法是计算每个字符的置信度。利用简单的阈值操作便可以实现拒识。置信度的计算方法主要有两种，一种方法是置信度由一个简单的函数组成，在识别处理中产生合适的参数，或者被看成是一种学习任务，通过训练数据得到新的分类器输出。另一种方法是在识别处理后计算置信度。这种方法计算的置信度可以用识别评分，似然比，后验概率估计，指数概率，和负熵来表示。

为了克服单分类器的局限性，采用多分类器的思想可以进一步提高系统的性能。分类器集成的方法可分为：抽象级(类标签)，排序级(排序)，和测量级(类置信度)。本发明在抽象级，提出了0R，AND和VOTING的拒识方法；在测量级，提出了均值和权值线性结合的拒识方法。具有不同特征、结构、学习算法和训练数据的分类器会表现出不同的分类特性，将这些特性进行融合会优于最好的单分类器。

发明内容

为了提高手写体字符识别系统的可靠性，更好的解决识别率和拒识率的矛盾，本发明提出了一种基于单分类器的拒识方法和一种基于多分类器的拒识方法。

本发明以单分类器拒识方法为基础，研究了抽象级和测量级的多分类器拒识方法。在抽象级，提出了OR，AND和VOTING三种投票组合拒识方法；在测量级，提出了求和(均值)和加权两种线性组合拒识方法。本发明提出的拒识方法能够有效的提高识别拒识字符的可靠性和识别其余字符的准确性。

本发明的技术方案是：首先，给出单分类器拒识方法，然后，以单分类器拒识方法为基础，给出多分类器拒识方法。

1.单分类器拒识方法

单分类器拒识方法分为三个步骤：(1)初始归一化，(2)置信度计算和(3)拒识。分类器输出经过初始归一化变换到一个适当的范围，使得不同分类器的输出值具有可比性。用激活函数将经过初始归一化的输出值变换成置信度。相应的激活函数有三种：log-likelihood，likelihood，和sigmoid。归一化函数包括全局归一化，一维高斯密度模型，和多维高斯密度。

1.1.初始归一化

选取归一化函数的一个基本原则是，分类器的输出经归一化函数的变换将分布在0附近。经过归一化函数变换的置信度的理想值应能表示输入模式属于一个具体类别的概率。

确定分类器输出范围的一个简单的方法是将输出变换到均值为0，标准差为1，即：

f_{i} (d) = \frac{d - μ_{0}}{σ_{0}} - - - (1)

这里d表示分类器的输出，μ₀和σ₀ ²分别代表分类器输出的均值和方差。这个归一化函数为全局归一化函数。

假设对于每个类别，分类器的输出满足多维高斯分布，方差为σ²。分类器输出经过排序，目标类别的输出值排位高其他类别的输出值排位低，假设输出值有两种：目标类为μ⁺，其他类为μ^-，即对于ω_i类，m_ii＝μ⁺和m_ij＝μ^-，j≠i。如果负样本均值为μ^r，则归一化函数为：

f_{i} (d) = \frac{μ^{+} - μ^{-}}{σ^{2}} (d_{i} - \frac{μ^{+} + μ^{r}}{2}) . - - - (2)

假设每类的输出满足一维高斯分布，则归一化函数为：

f_i(d)＝α[d_i-(β+γ/α)]， (3)

其中

α = \frac{μ^{+} - μ^{-}}{σ^{2}},

β = \frac{μ^{+} + μ^{-}}{2},

γ＝ln(P(ω_i)/P(ω_i))，P

和P(ω_i)分别表示负样本和正样本的先验概率。

1.2.置信度计算

在神经网络中普遍使用的sigmoid函数，能够很好的将网络输出逼近概率分布。将其作为置信度变换的激活函数：

g_{i} (d) = \frac{1}{1 + e^{- f_{i} (d)}} - - - (4)

许多参数分类器(如LDF和QDF)的类别判定方法是贝叶斯估计的对数或反对数，其输出值为d_i(x)：

d_i(x)＝log[p(ω_i)p(x|ω_i)]

其中d_i(x)表示输入样本x对应的分类器输出，这样可以计算后验概率为：

p (ω_{i} | x) = \frac{\exp [d_{i} (x)]}{Σ_{j = 1}^{M} \exp [d_{i} (x)]}

经过指数运算可以得到一种置信度：

g_{i} (d) = e^{f_{i} (d)} - - - (5)

第三种类型的置信度是似然对数。当用指数逼近贝叶斯估计，对数似然就是一种简单的线性归一化函数：

g_i(d)＝f_i(d) (6)

为了使类别后验概率满足概率公理，上述指数和sigmoid值将进行“概率”形式归一化：

p (ω_{i} | d) = \frac{g_{i} (d)}{Σ_{j = 1}^{M} g_{j} (d)}

1.3.拒识

经过初始归一化(公式(1)，(3)和(4))和置信度计算(公式(4)，(5)和(6))，最后是拒识。最简单的拒识方法是阈值操作。

假设输入样本为x，类别数为M，经过降序排列的识别系统的输出为

{g_{i_{1}} (x), g_{i_{2}} (x), . . ., g_{i_{M}} (x)} .

对这个输出直接进行阈值操作：

r_{1} (x) = g_{i_{1}} (x) < {TH}_{1} - - - (7)

得到0≤r₁(x)≤1。还可以通过计算输出前两位的相关比率：

\frac{g_{i_{1}} (x)}{g_{i_{2}} (x)} < {TH}_{2}^{0}

此外，也可以用上面公式的变换形式：

r_{2} (x) = \frac{g_{i_{1}} (x) - g_{i_{2}} (x)}{g_{i_{1}} (x)} < {TH}_{2} - - - (8)

类似的，得到0≤r₂(x)≤1。

如果置信度值很大，公式(7)更适合。相反，如果类别区分明显，则公式(8)更合理。一种混合的方法是用两个权值将上面两种方法进行线性结合，

r_{3} (x) = α r_{1} (x) + β r_{2} (x)

= α g_{i_{1}} (x) + β \frac{g_{i_{1}} (x) - g_{i_{2}} (x)}{g_{i_{1}} (x)} < {TH}_{3} - - - (9)

这里α+β＝1，α和β的值可以通过实验或学习来获得(例如，GA算法)。类似的，得到0≤r₃(x)≤1。

2.多分类器的拒识方法

将单分类器中使用的拒识方法用于多分类器中。假设给定K个分类器{H₁，H₂，...，H_K}，每个分类器采用公式(9)的拒识方法。

即，

H_{k} (x | ω_{i_{1}}) = \{\begin{matrix} 1 & r_{3}^{k} (x) = α g_{i_{1}}^{k} (x) + β \frac{g_{i_{1}} (x) - g_{i_{2}} (x)}{g_{i_{1}} (x)} < {TH}_{3} \\ 0 & otherwise \end{matrix} . - - - (10)

也就是说，如果

H_{k} (x | ω_{i_{1}}) = 1,

则拒绝，否则接受。

2.1.多分类器投票组合

本发明提出了三种基于多分类器手写体字符识别的拒识方法：(1)OR，(2)AND，和(3)VOTING。假设多分类器输出的类标签是相同的。也就是在公式(10)中，对样本x，有，

ω_{i_{1}} (x) = ω_{i_{2}} (x) = . . . = ω_{i_{M}} (x)

如果对样本x输出的类标签不同，则拒绝。

如果F_I(x|ω_i)＝1，则拒绝，否则接受。

(2) AND - - - F_{II} (x | ω_{i}) = Π_{k = 1}^{K} H_{k} (x | ω_{i})

如果F_II(x|ω_i)＝1，则拒绝，否则接受。

(3) VOTING - - - F_{III} (x | ω_{i}) = Σ_{k = 1}^{K} H_{k} (x | ω_{i})

如果F_III(x|ω_i)＜N_thres，则拒绝，否则接受。N_thres可以预定义。通常，N_thres＞N/2，这就是多数投票表决。

2.2.多分类器线性组合

这种方式的拒识方法有两种：均值组合和加权组合。

(1)均值组合

对于M个类别，K个分类器，分类器输出经归一化变换得到置信度g_m ^k(x)，k＝1，..，K，m＝1，...，M。则总的置信度为：

g_{m} (x) = \frac{1}{K} Σ_{k = 1}^{K} g_{m}^{k} (x),

m＝1，...，M

这相当于类别的平均置信度。

拒识方法和单分类器相同(公式(10))，即：

r_{3} (x) = α g_{m_{1}} (x) + β \frac{g_{i_{1}} (x) - g_{i_{2}} (x)}{g_{i_{1}} (x)} > {TH}_{3}

这里{g_m(x)，m＝1，...，M}经降序排列成

{g_{m_{1}} (x), g_{m_{2}} (x), . . ., g_{m_{M}} (x)} .

(2)加权组合

这种方式中每个分类器的所有类别共享一个权值。因此，置信度为：

g_{m} (x) = Σ_{k = 1}^{K} w_{k} g_{m}^{k} (x),

m＝1，...，M

分类器权值w＝{w₁，w₂，...，w_K}，可以通过有效数据集经CE，MSE或MCE优化得到。

本发明提出的手写体字符识别拒识方法，能够有效的提高识别系统的可靠性，并且针对单个特征拒识方法存在的局限性，采用多分类器系统的思想为每一种特征设计单独的分类器，进而对各分类器的拒识结果进行集成，可以发挥各种特征的优势，进一步提高拒识的可靠性，从而提高识别系统的识别率。

附图说明

图1是拒识方法流程图。

图2是单分类器拒识方法流程图。

图3是抽象级的多分类器拒识方法流程图。

图4是测量级的多分类器拒识方法流程图。

具体实施方式

以手写体数字识别为例，用三种分类器：三层BP神经网络，改进二次判别函数(MQDF)，和支持向量机(SVMs)。特征用加权方向直方图。

在单分类器试验中，用公式(1)

f_{i} (d) = \frac{d_{i} - μ_{0}}{σ_{0}}

所述的初始归一化函数，用公式(4)

g_{i} (d) = \frac{1}{1 + e^{- f_{i} (d)}}

所述的置信度计算方法，用公式(9)

\begin{matrix} r_{3} (x) = α r_{1} (x) + β r_{2} (x) \\ = α g_{i_{1}} (x) + β \frac{g_{i_{1}} (x) - g_{i_{2}} (x)}{g_{i_{1}} (x)} < {TH}_{3} \end{matrix}

所述的拒识方法。

其中α＝β＝0.5，TH₃＝0.6。试验结果表明，公式(9)所述的拒识方法表现出了最好的性能。

在多分类器试验中，对于每个单分类器，用公式(1)

f_{i} (d) = \frac{d_{i} - μ_{0}}{σ_{0}}

所述的初始归一化函数，公式(4)

g_{i} (d) = \frac{1}{1 + e^{- f_{i} (d)}}

所述的置信度计算方法和公式(10)

H_{k} (x | ω_{i_{1}}) = \{\begin{matrix} 1 & r_{3}^{k} (x) = α g_{i_{1}}^{k} (x) + β \frac{g_{i_{1}} (x) - g_{i_{2}} (x)}{g_{i_{1}} (x)} < {TH}_{3} \\ 0 & otherwise \end{matrix}

所述的拒识方法。抽象级分类器组合分别用用AND，OR和VOTING三种拒识方法进行了试验；测量级分类器组合分别用均值组合和加权组合的拒识方法进行了试验。试验结果表明，AND拒识方法表现出了最好的性能，OR拒识方法强调了拒识，VOTING拒识方法的表现不如其它两种方法。在多分类器线性组合中，加权组合方法的表现略优于求和方法。

Claims

1、基于多分类器的手写体字符识别拒识方法，其特征在于：所述方法由两个或两个以上的单分类器拒识结果为基础的多分类器拒识方法；其中单分类器拒识方法分为三个步骤：初始归一化、置信度计算和拒识；将两个或两个以上的单分类器拒识方法所得到的结果，通过投票组合方式或线性组合方法，最终得到拒识结果；

1)初始归一化

选取归一化函数的一个基本原则是：分类器的输出经归一化函数的变换将分布在0附近，经过归一化函数变换的置信度的理想值能表示输入模式属于一个具体类别的概率；

f_{i} (d) = \frac{d - μ_{0}}{σ_{0}}

其中d代表分类器的输出，μ₀和σ₀ ²分别代表分类器输出的均值和方差，这个归一化函数为全局归一化函数；

2)置信度计算

在神经网络中普遍使用的sigmoid函数，能够很好的将网络输出逼近概率分布；将其作为置信度变换的激活函数：

g_{i} (d) = \frac{1}{1 + e^{- f_{i} (d)}};

3)拒识

输入样本为x，类别数为M，经过降序排列的识别系统的输出为

对这个输出直接进行阈值操作：

r_{1} (x) = g_{i_{1}} (x) < {TH}_{1} - - - (7)

得到0≤r₁(x)≤1。

2、如权利要求1所述的拒识方法，其特征在于：所述的归一化函数，当分类器的输出满足多维高斯分布，方差为σ²，分类器输出d经过排序，目标类别的输出值排位高其他类别的输出值排位低，输出值为：目标类为μ⁺，其他类为μ^-，对于ω_i类，m_ii＝μ⁺和m_ij＝μ^-，j≠i，当负样本均值为μ^r，则归一化函数为：

f_{i} (d) = \frac{μ^{+} - μ^{-}}{σ^{2}} (d - \frac{μ^{+} + μ^{r}}{2}) .;

当每类的输出满足一维高斯分布，则归一化函数为：

f_i(d)＝α[d-(β+γ/α)]；

其中

α = \frac{μ^{+} - μ^{-}}{σ^{2}},

β = \frac{μ^{+} - μ^{-}}{2},

γ＝ln(P(ω_i)/P(ω_i))，和P(ω_i)分别表示负样本和正样本的先验概率。

3、如权利要求1所述的拒识方法，其特征在于：所述的置信度变换函数，在当参数分类器的类别判定方法是贝叶斯估计的对数或反对数：

d_i(x)＝log[p(ω_i)p(x|ω_i)]

其中d_i(x)表示输入样本x对应的分类器输出，计算后验概率为：

p (ω_{i} | x) = \frac{\exp [d_{i} (x)]}{Σ_{j = 1}^{M} \exp [d_{i} (x)]}

经过指数运算得到一种置信度：

g_{i} (d) = e^{f_{i} (d)};

或者当置信度是似然对数，当用指数逼近贝叶斯估计，对数似然就是一种简单的线性归一化函数：

g_i(d)＝f_i(d)

为了使类别后验概率满足概率公理，指数和sigmoid值将进行“概率”形式归一化：

p (ω_{i} | d) = \frac{g_{i} (d)}{Σ_{j = 1}^{M} g_{j} (d)} .

4、如权利要求1所述的拒识方法，其特征在于：所述的拒识步骤中，通过计算输出前两位的相关比率：

\frac{g_{i_{1}} (x)}{g_{i_{2}} (x)} < {TH}_{2}^{0}

用比率公式的变换形式：

r_{2} (x) = \frac{g_{i_{1}} (x) - g_{i_{2}} (x)}{g_{i_{1}} (x)} < {TH}_{2} - - - (8)

得到0≤r₂(x)≤1；

当置信度值很大，公式(7)更适合；相反，当类别区分明显，则公式(8)更合理；一种混合的方法是用两个权值将上面两种方法进行线性结合，

r_{3} (x) = {αr}_{1} (x) + {βr}_{2} (x)

= {αg}_{i_{1}} (x) + β \frac{g_{i_{1}} (x) - g_{i_{2}} (x)}{g_{i_{1}} (x)} < {TH}_{3}

这里α+β＝1，α和β的值通过实验或学习来获得，通过此公式得到0≤r₃(x)≤1。

5、如权利要求1所述的拒识方法，其特征在于：所述多分类器投票组方式采用OR或AND或VOTING方式，当K个单分类器通过公式

H_{k} (x | ω_{i_{1}}) = \{\begin{matrix} 1 & r_{3}^{k} (x) = {αg}_{i_{1}}^{k} (x) + β \frac{g_{i_{1}} (x) - g_{i_{2}} (x)}{g_{i_{1}} (x)} < {TH}_{3} \\ 0 & otherwise \end{matrix}

得到的结果为{H₁，H₂，...，H_K}；

采用OR方式，则有

当F_I(x|ω_i)＝1，则拒绝，否则接受；

采用AND方式，则有

F_{II} (x | ω_{i}) = Π_{k = 1}^{K} H_{k} (x | ω_{i}),

当F_II(x|ω_i)＝1，则拒绝，否则接受；

采用VOTING方式，则有

F_{III} (x | ω_{i}) = Σ_{k = 1}^{K} H_{k} (x | ω_{i}),

当F_III(x|ω_i)＜N_thres，则拒绝，否则接受，N_thres＞N/2。

6、如权利要求1所述的拒识方法，其特征在于：所述的多分类器线性组合方式采用均值组合或加权组合方式，

采用均值组合方式：对于M个类别，K个分类器，分类器输出经归一化变换得到置信度g_m ^k(x)，k＝1，...，K，m＝1，...，M，则总的置信度为：

g_{m} (x) = \frac{1}{K} Σ_{k = 1}^{K} g_{m}^{k} (x),

m＝1，...，M

这相当于类别的平均置信度；

拒识方法，即：

r_{3} (x) = {αg}_{m_{1}} (x) + β \frac{g_{i_{1}} (x) - g_{i_{2}} (x)}{g_{i_{1}} (x)} > {TH}_{3}

其中{g_m(x)，m＝1，...，M}经降序排列成

采用加权组合方式：每个分类器的所有类别共享一个权值，置信度为：

g_{m} (x) = Σ_{k = 1}^{K} w_{k} g_{m}^{k} (x),

m＝1，...，M

分类器权值w＝{w₁，w₂，...，w_K}，通过有效数据集经CE，MSE或MCE优化得到分类器权值。