CN101630368B

CN101630368B - 一种用于手写汉字识别的用户书写风格自适应方法

Info

Publication number: CN101630368B
Application number: CN2009100421175A
Authority: CN
Inventors: 金连文; 黄志斌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2009-08-25
Filing date: 2009-08-25
Publication date: 2011-09-14
Anticipated expiration: 2029-08-25
Also published as: CN101630368A

Abstract

本发明提供一种用于手写汉字识别的用户书写风格自适应方法，主要包括普通ILDA书写者自适应方法，基于权重的ILDA书写者自适应方法。其原理为利用具有用户个性风格的增量学习样本动态更新LDA识别模型，使更新后的LDA识别模型能自适应用户的书写风格。从而达到提高识别率的效果。本发明创新性的把ILDA应用于汉字识别领域，解决了手写汉字识别引擎对特定用户识别率不高的问题。利用本发明提供的方法，手写汉字识别引擎能自适应用户的手写风格，提高识别准确度。

Description

一种用于手写汉字识别的用户书写风格自适应方法

技术领域

本发明属于利用计算机处理设备识别手写文字图像的技术领域，特别是涉及一种用于手写汉字识别的书写自适应方法。

技术背景

手写汉字识别一般是指用户通过手写输入设备(比如：手写板、触摸屏、鼠标等)书写汉字，同时计算机将手写输入设备采集到的汉字书写轨迹转换为相应的汉字机器内码的识别技术。传统的手写识别技术通常所采用的输入方式为单字符识别，即书写一个汉字识别一个汉字。使用的识别引擎与用户无关，即识别引擎事先通过大量的训练样本训练出来，对于不同用户，识别引擎使用的模型及参数都是一样的，事先由开发人员训练并设置好。由于采用了大数据量的训练样本，所以识别引擎能满足书写规范的用户的识别准确率要求。但是不同用户的书写风格差异很大，每个用户书写风格除了存在共性外，往往还包括自己个性化的地方，与用户无关的识别引擎针对这类用户时书写汉字时，识别准确率往往不尽人意，有待改进。

发明内容

本发明的目的在于克服传统的识别引擎无法适应特定用户的书写风格的不足，提供一种让识别引擎能动态适应用户书写风格从而提高识别率的方法。

本发明采用的技术方案为：

一种用于手写汉字识别的用户书写风格自适应方法，其步骤如下：

(1)、选取用户少量的增量学习样本；

(2)、动态更新模板均值；

(3)、基于ILDA的增量学习，通过采用增量的线性判决分析ILDA方法进行增量学习；

(4)、动态更新识别分类器；

所述步骤(1)为选择用户少量的样本，用于更新模板及识别引擎。用户样本的选择应能充分体现用户的书写风格。设增量学习样本均值为总个数为L。原始样本总个数为N，原始样本总均值为

则新的样本总均值为

\overset{&OverBar;}{x^{'}} = \frac{N \overset{&OverBar;}{x} + L \overset{&OverBar;}{y}}{N + L}

所述步骤(2)利用增量学习样本动态更新模板均值，其步骤包括：

(A)、恢复模板样本均值。当前识别引擎使用的模板都是经过线性判决分析LDA变换，LDA变换的目的是使各个汉字类别能最大程度的分开，从而提高识别率。但是在动态更新模板过程中，需要使用到原始模板均值。为此需要对汉字模板进行逆LDA变换。设LDA变换矩阵为W_lda，其逆矩阵为

类别c经过LDA变换后的模板为

原始模板均值为

通过以下公式可求得原始模板均值。

{\overset{&OverBar;}{x}}_{c} = W_{lda}^{- 1} x_{ldac}

(B)、增量学习样本特征提取。对于每一个样本，都采用八方向特征提取方法对增量学习样本提取其八方向特征。

(C)、更新模板均值。设样本类别数为p，每一类别经过LDA逆变换后的原始模板均值为

原始样本个数为n_c，增量学习样本的均值为

增量学习样本的个数为l_c，则新的样本均值为

可由以下公式求得：

其中r为增量学习样本占原始样本总个数的百分比；

所述步骤(3)利用增量学习样本，更新LDA模型。LDA变换矩阵由类间散度矩阵S_b与类内散度矩阵S_w决定。由于引入了增量学习样本，S_b与S_w都发生了变化。所以需要重新计算出S_b与S_w。其步骤包括：

(A)、求类间散度矩阵S′_b，计算S′_b的公式为

{S^{'}}_{b} = Σ_{c = 1}^{M} {c^{'}}_{c} ({\overset{&OverBar;}{x^{'}}}_{c} - \overset{&OverBar;}{x^{'}}) {({\overset{&OverBar;}{x^{'}}}_{c} - \overset{&OverBar;}{x^{'}})}^{T}

其中n′_c为此类别样本总数，

为每一类别的模板均值，

为所有类别的总均值，T代表矩阵的转置，M为原始训练样本与增量样本混合后的总类别数。

(B)、求类内散度矩阵S′_w，计算S′_w的公式为

{S^{'}}_{w} = Σ_{c = 1}^{M} {Σ^{'}}_{c} = Σ_{c = 1}^{T} Σ_{j = 1}^{{n^{'}}_{c}} (x_{cj} - {\overset{&OverBar;}{x^{'}}}_{c}) {(x_{cj} - {\overset{&OverBar;}{x^{'}}}_{c})}^{T}

用此公式计算类内散度矩阵S_w，计算量大且没有利用以前计算的S_w矩阵，通过对此公式进行化简，可得新的计算公式：

{S^{'}}_{w} = S_{w} + S_{yw} + \underset{c &Element; Ψ}{Σ} \frac{n_{c} l_{c}}{n_{c} + l_{c}} ({\overset{&OverBar;}{y}}_{c} - {\overset{&OverBar;}{x}}_{c}) {({\overset{&OverBar;}{y}}_{c} - {\overset{&OverBar;}{x}}_{c})}^{T}

此公式中，S_w为原先识别引擎的样本类内散度矩阵，S_yw为增量学习样本的类内散度矩阵，Ψ为存在增量样本的类别的集合，M为原始训练样本与增量样本混合后的总类别数，通过此公式，可以快速的求出S′_w矩阵。

(C)、求新LDA变换矩阵。计算

的特征向量，以特征向量作为列向量生成LDA变换矩阵W′_lda。

所述步骤(4)动态更新识别分类器，利用新的LDA变换矩阵W′_lda，对每一类别新的模板均值做LDA变换，变换公式如下：

{\overset{&OverBar;}{x^{'}}}_{ldac} = W_{lda}^{'} {\overset{&OverBar;}{x^{'}}}_{c}

经过(1)～(4)步骤，基于增量LDA的书写者自适应过程更新完毕。

本发明首次提出了与用户相关的手写自适应技术，手写识别引擎能自动的根据用户的书写风格自动调整其识别模型及参数，把用户无关的识别系统转变为用户相关的识别系统，从而大大提高了对相关用户手写汉字的识别准确率，同时，该识别引擎对于其他用户，其识别准确率仍能基本保持不变。

附图说明

图1是本发明的系统结构框图；

图2是本发明的动态更新模板均值的流程框图；

图3是对基于ILDA的增量学习的流程框图；

图4是识别引擎进行汉字识别的流程框图。

具体实施方式

下面结合附图对本发明做进一步的说明，实施本发明所用的识别设备可以采用手写板书写汉字，用计算机进行识别，用纯平型显示器显示用户图形界面，可采用C语言编制各类处理程序，便能较好地实施本发明。

本发明的系统结构如附图1所示，采用八方向特征提取方法对增量学习样本进行特征提取，更新每一个类别的模板均值，接着求出新的类内散度矩阵和类间散度矩阵，通过类内散度矩阵与类间散度矩阵求出新的LDA变换矩阵，最后通过新的LDA变换矩阵对新的模板均值进行变换，计算出新的模板与分类器。

本发明中的选择用户少量的样本，用于更新模板及识别引擎，具体实施方法为在用户样本选择时，应能充分体现用户的书写风格。设增量学习样本均值为

总个数为L。原始样本总个数为N，原始样本总均值为

由于在实际实施过程中，每一个类别L的个数不一样，有的甚至相差很大，把增量学习样本的个数统一成固定值，并以假设占原始样本总个数N的r百分比。则新的样本总均值为

{\overset{&OverBar;}{x}}^{'} = \frac{N \overset{&OverBar;}{x} + (N \times r) \overset{&OverBar;}{y}}{(1 + r) \times N} = \frac{\overset{&OverBar;}{x} + r \times \overset{&OverBar;}{y}}{(1 + r)}

本发明中的利用增量学习样本动态更新模板均值过程如附图2所示，具体包括以下三个骤：

(A)、恢复模板样本均值。当前识别引擎使用的模板都是经过LDA变换，LDA变换的目的是使各个汉字类别能最大程度的分开，从而提高识别率。但是在动态更新模板过程中，需要使用到原始模板均值。为此需要对汉字模板进行逆LDA变换。设LDA变换矩阵为W_lda，其逆矩阵为

类别c经过LDA变换后的模板为

原始模板均值为

通过公式以下可求得原始模板均值。

{\overset{&OverBar;}{x}}_{c} = W_{lda}^{- 1} x_{ldac}

原始样本个数为n_c，增量学习样本的均值为

增量学习样本的个数为l_c，则新的样本均值为

可由以下公式求得：

{\overset{&OverBar;}{x^{'}}}_{c} = \frac{n_{c} {\overset{&OverBar;}{x}}_{c} + (r \times n_{c}) {\overset{&OverBar;}{y}}_{c}}{(1 + r) n_{c}} = \frac{{\overset{&OverBar;}{x}}_{c} + r \times {\overset{&OverBar;}{y}}_{c}}{(1 + r)}

本发明中的利用增量学习样本过程如附图3所示，更新LDA模型，其具体实施步骤包括以下三个步骤：

LDA变换矩阵由类间散度矩阵S_b与类内散度矩阵S_w决定。由于引入了增量学习样本，S_b与S_w都发生了变化。所以需要重新计算出S_b与S_w。其步骤包括：

(A)、求类间散度矩阵S′_b，计算S′_b的公式为

{S^{'}}_{b} = Σ_{c = 1}^{M} {n^{'}}_{c} ({\overset{&OverBar;}{x^{'}}}_{c} - \overset{&OverBar;}{x^{'}}) {({\overset{&OverBar;}{x^{'}}}_{c} - \overset{&OverBar;}{x^{'}})}^{T}

其中n′_c为此类别样本总数，

为每一类别的模板均值，为所有类别的总均值，T代表矩阵的转置，M为原始训练样本与增量样本混合后的总类别数。

(B)、求类内散度矩阵S′_w，计算S′_w的公式为

{S^{'}}_{w} = Σ_{c = 1}^{M} {Σ^{'}}_{c} = Σ_{c = 1}^{T} Σ_{j = 1}^{{n^{'}}_{c}} (x_{cj} - {\overset{&OverBar;}{x^{'}}}_{c}) {(x_{cj} - {\overset{&OverBar;}{x^{'}}}_{c})}^{T}

{S^{'}}_{w} = S_{w} + S_{yw} + \underset{c &Element; Ψ}{Σ} \frac{n_{c} l_{c}}{n_{c} + l_{c}} ({\overset{&OverBar;}{y}}_{c} - {\overset{&OverBar;}{x}}_{c}) {({\overset{&OverBar;}{y}}_{c} - {\overset{&OverBar;}{x}}_{c})}^{T}

此公式中，S_w为原先识别引擎的样本类内散度矩阵，S_yw为增量学习样本的类内散度矩阵，Ψ为存在增量样本的类别的集合，M为原始训练样本与增量样本混合后的总的类别数。通过此公式，可以快速的求出S′_w矩阵。

(C)、求新LDA变换矩阵。计算

本发明中的动态更新识别分类器，具体实施为利用新的LDA变换矩阵W′_lda，对每一类别新的模板均值做LDA变换，变换公式如下：

{\overset{&OverBar;}{x^{'}}}_{ldac} = W_{lda}^{'} {\overset{&OverBar;}{x^{'}}}_{c}

采用本发明的基于增量LDA的书写者自适应技术用其优异的性能通过大样本和大类别的实验得到了证实。利用本发明的识别引擎进行汉字识别的流程如附图4所示。

下面描述采用本发明所述的方法，对大量联机手写汉字样本的进行相关实验的结果。

本发明采用的了两个数据库的子集作为实验使用数据，一是由本实验室采集并已公开发布SCUT-COUCH联机手写样本数据库中的一级汉字样本数据子集，该子集包括168位不同书写者的3755个国标一级汉字样本，每位书写者独立书写完成一套样本数据，称此数据库为数据库A。二是由本实验室采集的8888个汉字词组，把这些词组全切出来变成单字构成的数据库。这些词组中的单字均为一二级汉字，经过统计分析，这些词组切成单字后，共包括2078类一级汉字，该子集包括30位不同书写者的8888个词组，共19595个汉字，称为数据库B。

对于数据库A，为了对3755个类进行测试，每个类的样本数目，随机选取总数的80％左右进行训练，余下20％左右进行测试，对于SCUT-COUCH数据，每个类别随机选取134套样本进行训练，剩下34套样本进行测试，称为数据库A测试集。

对于数据库B，对于每一套数据，由于其中的汉字大部分都有重复。故按照实验的需要，随机取一定比例重复的汉字，作为更新集，称为数据库B更新集，剩下的数据作为测试集，称为数据库B测试集。

下表列出的是当增量学习样本占总样本的比例不同时，没有采用本发明与采用本发明对特定用户书写汉字的识别率。

由表可知，对于指定的用户，采用基于增量LDA的书写者自适应技术后，对该用户的汉字识别率有较大幅度的提高。

下表中列出的是当增量学习样本占总样本的比例不同时，没有采用本发明与采用本发明对普通用户书写汉字的识别率。

由表可知，采用了基于增量LDA的书写者自适应技术后，对其他用户的手写汉字的识别率，影响非常的小。