CN1231864C

CN1231864C - 用于文字识别的训练样本自动挑选装置及其方法

Info

Publication number: CN1231864C
Application number: CN 02157956
Authority: CN
Inventors: 刘刚; 徐蔚然; 郭军; 郑瑞虹; 张洪刚
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2002-12-23
Filing date: 2002-12-23
Publication date: 2005-12-14
Anticipated expiration: 2022-12-23
Also published as: CN1419214A

Abstract

本发明公开了一种用于文字识别的训练样本自动挑选装置和方法，所述的装置包括：样本输入装置、样本数据存储单元、训练装置、模型数据库、识别装置、识别结果分析装置、边界样本选择装置、挑选结果输出装置和控制处理装置。所述的方法是根据训练样本对于训练的作用，将训练样本分为好样本、边界样本、差样本三种类型，并通过训练样本进行训练、识别的结果计算广义距离差，根据广义距离差给出三种样本的定义，最后通过边界样本的选择实现训练样本的挑选。本发明的装置和方法思路简捷，能够实现训练样本的自动挑选，挑选结果更加准确，从而使得训练出的模型更加精确，有效提高文字识别系统的识别率。

Description

用于文字识别的训练样本自动挑选装置及其方法

技术领域

本发明涉及一种文字识别技术领域，特别涉及文字识别设备中在进行模型训练前样本预处理及训练样本自动挑选装置及其方法。

背景技术

设计一个文字识别系统的最终目标，是要获得最好的系统性能，即最佳的效率和最高的识别精度。影响识别器性能的因素：训练样本、特征、识别器的复杂程度及其它们之间的相互关系，其中，训练样本直接影响训练出的模型的好坏，进而影响到文字识别系统的性能。如何选择训练样本参加训练，使得训练出的模型最佳，是一个难题。

训练样本集的特性，可以用样本集的大小(即样本数量)和样本分布来描述。样本数量对于训练的影响，可以简单的描述为，当样本数量过少时，容易出现训练不足(欠训练)的问题，样本数量过多，则容易出现过训练的问题。而样本分布的概念比较复杂，对于同一个文字的训练样本集来说，它应该尽可能的包括该文字的各种种类，而且每个种类的样本数量以及全部数据中所占的比例应该有利于模型的建立和评价。问题在于同一个文字体现在样本数据上千差万别，人工难以进行正确的分类，而且对于每种类别的样本数量的比例也难以确定。

在实际工作中，往往采用人工挑选的方法来选择训练样本数据，这种方法的主要缺点在于对于人的依赖性大，受挑选人的影响较大，不同的人挑选的结果是不同的，而且人工挑选的样本不一定满足训练的要求，此外，在大样本集的情况下，人工挑选是非常费力费时的。因此，训练样本的自动挑选显得尤为重要。

发明内容

本发明的目的是为了更好地解决文字识别中训练样本挑选的的问题，提出了一种用于文字识别的训练样本自动挑选装置及其方法。该装置是通过如下技术方案实现的，所述的装置包括：

样本输入装置，用于将训练样本和测试样本输入到样本选择装置中；

样本数据存储单元，用于存储由样本输入装置输入的训练样本和测试样本数据，存储在样本数据存储单元中；

训练装置，用于根据输入的样本训练出一套模型参数，并存储到模型数据库中，以供识别装置使用；

模型数据库，用于保存训练装置训练出的模型参数，并为识别装置提供模型数据；

识别装置，用于根据存储在模型数据库中的模型参数，识别输入的样本；

识别结果分析装置，用于当系统识别的是训练样本的时候，计算训练样本中每个样本的广义距离差，并按照广义距离差从小到大对所有训练样本进行排序，得到好样本、差样本或边界样本三类样本；当系统识别的是测试样本的时候，本装置将直接输出测试样本的识别率；

边界样本选择装置，用于根据识别结果分析装置的输出，判断当前边界样本选择是否最佳，如果最佳，则通知挑选结果输出装置输出最佳边界样本，否则，适当改变边界样本的数量，在控制处理装置的控制下，将边界样本送入训练装置进行训练，然后将测试样本送入识别装置进行测试，得到当前边界样本训练的性能；

挑选结果输出装置，用于将边界样本选择装置中的挑选结果输出，输出的内容可以是最佳边界样本的编号，也可以是全部最佳训练样本数据本身，输出形式可以直接打印输出到纸张上，也可以直接输出到显示装置上；

控制处理装置，用于对整个训练样本挑选装置的控制处理，负责样本数据的读取操作，训练，识别，识别结果的分析，边界样本的选择以及挑选结果的输出。

一种用于文字识别的训练样本自动挑选方法，在控制处理装置的控制下，包括如下步骤：

将训练样本和测试样本输入到样本选择装置中；

存储由样本输入装置输入的训练样本和测试样本数据，存储在样本数据存储单元中；

根据输入的样本训练出一套模型参数，并存储到模型数据库中，以供识别装置使用；

保存训练装置训练出的模型参数，并为识别装置提供模型数据；

根据存储在模型数据库中的模型参数，识别输入的样本；

当系统识别的是训练样本的时候，计算训练样本中每个样本的广义距离差，并按照广义距离差从小到大对所有训练样本进行排序，得到好样本、差样本或边界样本三类样本；当系统识别的是测试样本的时候，将直接输出测试样本的识别率；

根据识别结果分析装置的输出，判断当前边界样本选择是否最佳。如果最佳，则通知挑选结果输出装置输出最佳边界样本，否则，适当改变边界样本的数量，在控制处理装置的控制下，将边界样本送入训练装置进行训练，然后将测试样本送入识别装置进行测试，得到当前边界样本训练的性能；

将边界样本选择装置中的挑选结果输出，输出的内容可以是最佳边界样本的编号，也可以是全部最佳训练样本数据本身，输出形式可以直接打印输出到纸张上，也可以直接输出到显示装置上。

所述的计算训练样本中每个样本的广义距离差进一步包括：所述的广义距离差D_r的定义为：

1)在采用基于统计的识别装置时，在识别时保存每个样本在各个模型下的概率P_i按照概率值由大到小的顺序排序，其中i＝0～9，即P₀＞P₁＞……＞P₈＞P₉，并设正确候选字的位置为n，即P_n表示在期望模型下的识别概率，然后按照式(1)计算广义概率差D_p，并令D_r＝D_p。

D_{r} = D_{p} = \{\begin{matrix} P_{0} - P_{1} & n = 0 \\ n (P_{n} - P_{0}) & n &NotEqual; 0 \end{matrix} - - - (1)

当n＝0，表示正确候选字的概率最大，该样本能够被正确识别，D_r＞0。当n≠0，表示该样本正确候选字的概率不是最大的，该样本被错误识别，D_r＜0，此时在计算D_r时加上一个惩罚性系数n，n越大，就意味着这个样本容易与更多的文字类别混淆。

2)对于采用基于模板匹配方法的识别装置，在识别时保存每个样本在各个模型下的距离D_i按照距离值由小到大的顺序排序，i＝0～9，即D₀＜D₁＜……＜D₈＜D₉，并设正确候选字的位置为n，即D_n表示在期望模型下的距离，然后按照式(2)计算广义距离差D_r。

D_{r} = \{\begin{matrix} D_{1} - D_{0} & n = 0 \\ n (D_{0} - D_{n}) & n &NotEqual; 0 \end{matrix} - - - (2)

D_r的含义同上，在识别错误时，同样增加了一个惩罚性参数n。

其中，每个样本的广义距离差D_r的含义如下：D_r＜0，表示该样本识别错，D_r越小说明样本越差，D_r＞0表明该样本能够被正确识别，而且D_r越大，样本越好并按广义距离差从小到大的顺序对所有样本进行排序。

本发明的装置和方法思路简捷，能够实现训练样本的自动挑选，挑选结果更加准确，从而使得训练出的模型更加精确，有效提高文字识别系统的识别率。

附图说明

图1是用于文字识别的训练样本自动挑选装置系统框图；

图2是各种样本及其对于训练所起作用的示意图；

图3是以数字”0”(零)为例，给出三种样本的具体定义的示意图；

图4是用于文字识别的训练样本自动挑选的工作流程图。

具体实施方式

图1是训练样本自动挑选装置构成示意图。如图1所示，该训练样本自动挑选装置包括：

样本输入装置1，主要是将训练样本和测试样本输入到样本选择装置中；

样本数据存储单元2，由样本输入装置1输入的训练样本和测试样本数据存储在样本数据存储单元中，为下一步的训练样本选择做好准备；

训练装置3，用于根据输入的样本训练出一套模型参数，并存储到模型数据库中，以供识别装置使用；

模型数据库4，用于保存训练装置训练出的模型参数，并为识别装置提供模型数据。

识别装置5，用于根据存储在模型数据库中的模型参数，识别输入的样本；

识别结果分析装置6，用于当系统识别的是训练样本的时候，本装置计算训练样本中每个样本的广义距离差，并按照广义距离差从小到大对所有训练样本进行排序，得到三种样本(好样本、差样本、边界样本)的大致分类；当系统识别的是测试样本的时候，本装置将直接输出测试样本的识别率；

边界样本选择装置7，用于根据识别结果分析装置的输出，判断当前边界样本选择是否最佳，如果最佳，则通知挑选结果输出装置输出最佳边界样本，否则，适当改变边界样本的数量，在控制处理装置的控制下，将边界样本送入训练装置进行训练，然后将测试样本送入识别装置进行测试，得到当前边界样本训练的性能；

挑选结果输出装置8，用于将边界样本选择装置中的挑选结果输出，输出的内容可以是最佳边界样本的编号，也可以是全部最佳训练样本数据本身，输出形式可以直接打印输出到纸张上，也可以直接输出到显示装置上。

控制处理装置9，用于整个训练样本挑选装置的控制处理单元，主要负责样本数据的读取操作，训练，识别，识别结果的分析，边界样本的选择以及挑选结果的输出。

文字识别，本质上是一个分类问题，分类的任务在于寻找分类面，将分类空间划分为不同的类区域，训练的作用在于分类超曲面的生成。

从训练样本对于训练的作用来说，可将训练样本分为三类：好样本、边界样本和差样本。好样本是位于分类区域的中心地带，因而好样本可以很好地与其它文字类样本区分开；边界样本是指位于理想分类超曲面附近的样本，它们位于不同文字类之中，但又相距很近；差样本，是指位于本文字类区域以外的区域，样本很差，极易与其它文字类混淆的样本。训练样本中，好样本的存在，可以使得训练出的文字类区域更加紧凑，不同文字类区域间隔更大，但好样本数目太多，容易使得训练出的类区域过于狭小，从而增加了边界样本和差样本的误识风险；差样本的存在可能使得每个文字类的区域尽可能的大，同时也使得不同文字类区域产生重叠，增大了分类误差，好的边界样本应该是使得训练出的类区域尽量大，而相邻类区域尽量没有重叠，此时分类性能最佳。

图2是各种样本及其对于训练所起作用的示意图。如图2所示，该图给出了三种样本的作用以及在分类空间中所处的位置。其中第一类文字和第二类文字是指要识别的文字种类，以小写数字识别为例，第一类文字可以是0～9中的任何一个数字，第二类文字则是0～9中除第一类文字以外的任何一个数字，如第一类文字为9，第二类文字可以是0～8中的任何一个数字。圆A、B、C表示第一类文字在不同训练数据下的类区域(类区域不一定是规则的，采用圆区域只是为了描述方便)，圆A表示采用好样本得到的类区域，B表示采用理想边界样本得到的类区域，C表示采用差样本训练得到的类区域，圆D表示第二类文字的分类区域。图中o、@、x分别表示第一类文字的三种样本：好样本、边界样本、差样本。

通过以上分析可以看出，训练样本的选择，就是要尽可能的采用边界样本来进行训练。我们以10个小写数字的识别为例，根据实验，给出一个简单的各种样本的具体定义。

取全部训练样本进行训练，得到十个数字的模型，然后对全部训练样本进行识别，保存每个样本的广义距离差D_r(广义距离差D_r的含义如下：D_r＜0，表示该样本识别错，D_r越小说明样本越差，D_r＞0表明该样本能够被正确识别，而且D_r越大，样本越好)，并按广义距离差从小到大的顺序对所有样本进行排序，统计处于不同广义距离差值下的样本数目。

图3是以数字”0”(零)为例，给出三种样本的具体定义的示意图。即图3给出了数字”0”(零)的全部训练样本在不同的广义距离差值下的分布图。图中横轴表示广义距离差D_r，纵轴为每个广义距离差所对应的样本数目。我们将D_r＝0附近的样本称为边界样本，D_r为正值且较大的样本称为好样本，D_r为负值且较小的样本称为差样本。

由于识别装置可以是基于统计方法的，也可以是基于模板匹配等非统计方法的，因而识别结果的度量方式也不同，统计方法采用的是概率，而模板匹配方法采用的是距离，如欧氏距离。下面分两种情况，讨论广义距离差D_r的计算。

在采用基于统计的识别装置时，在识别时保存每个样本在各个模型下的概率P_i(i＝0～9)(按照概率值由大到小的顺序排序，即P₀＞P₁＞……＞P₈＞P₉)，并设正确候选字的位置为n，即P_n表示在期望模型下的识别概率，然后按照式(1)计算广义概率差D_p，并令D_r＝D_p。

D_{r} = D_{p} = \{\begin{matrix} P_{0} - P_{1} & n = 0 \\ n (P_{n} - P_{0}) & n &NotEqual; 0 \end{matrix} - - - (1)

对于采用基于模板匹配方法的识别装置，在识别时保存每个样本在各个模型下的距离D_i(i＝0～9)(按照距离值由小到大的顺序排序，即D₀＜D₁＜……＜D₈＜D₉)，并设正确候选字的位置为n，即D_n表示在期望模型下的距离，然后按照式(2)计算广义距离差D_r。

D_{r} = \{\begin{matrix} D_{1} - D_{0} & n = 0 \\ n (D_{0} - D_{n}) & n &NotEqual; 0 \end{matrix} - - - (2)

D_r的含义同上，在识别错误时，同样增加了一个惩罚性系数n。

下面来确定边界样本的数目，首先从训练样本中选择少量(一般＜500)D_r最接近于0的样本作为边界样本，从D_r＜0和D_r＞0两个方向进行选取，在选择的边界样本中，D_r＞0的样本要多一些；将选择的边界样本送入训练装置进行训练，得到各个数字的模型，然后将测试样本送入识别装置进行识别测试；判断测试结果是否最佳，如果是，则将当前选择的边界样本作为最佳边界样本输出，否则，沿着D_r＜0和D_r＞0两个方向适量增加边界样本的数量(一般步长为50，其中D_r＞0的方向要多选择一些)，然后进行训练、测试、判断……，直至测试结果最佳。

图4是用于文字识别的训练样本自动挑选的工作流程图。如图4所示，具体步骤是：

步骤41从输入装置读入数据，可以由扫描仪或类似功能的图像输入设备组成，主要将训练样本和测试样本输入到训练样本挑选装置中；

步骤42将样本数据存入样本数据存储单元，为后面的训练样本挑选提供原始图像像素信息；

步骤43从样本数据存储单元中读出训练样本，送入训练装置进行训练，得到各个文字的模型；

步骤44将训练得到的模型参数数据保存到模型参数数据库；

步骤45将训练样本数据送入识别装置，利用训练出的模型进行识别，并将识别结果输出到识别结果分析装置；

步骤46在识别结果分析装置中，计算训练样本中每个样本的广义距离差，并按照广义距离差从小到大对所有训练样本进行排序，得到三种样本(好样本、差样本、边界样本)三种样本的大致分类；

步骤47根据步骤46中的训练样本排序信息，从训练样本中选择少量(一般＜500)D_r最接近于0的样本作为边界样本，从D_r＜0和D_r＞0两个方向进行选取，在选择的边界样本中，D_r＞0的样本要多一些。

步骤48将边界样本送入训练装置进行训练，得到模型参数；

步骤49将测试样本送入识别装置，利用训练出的模型进行识别，并将识别结果输出到识别结果分析装置；

步骤410判断测试样本的识别结果是否最佳，如果是，则转到步骤412，否则，转到步骤411；

步骤411在当前边界样本的基础上，沿着D_r＜0和D_r＞0两个方向适量增加边界样本的数量(一般步长为50，其中D_r＞0的方向要多选择一些)，转到步骤48；

步骤412将得到的最佳边界样本由挑选结果输出装置输出，完成训练样本的自动挑选

以上描述仅仅借助于实施例提供本发明的实现方法。对于本领域的技术人员是显而易见的，本发明不限于上面提供的实施细节，可以在不脱离本发明特征的情况下以另外的实施例实现，实施例中的一些部件进行分解、合并或使用微处理器实现。因此，提供的实施例应当被认为是说明性的，而不是限制性的。因此，实现和使用本发明的可能性是由所附的权利要求限定。因而，由权利要求确定的实现本发明的各种选择包括等效实施例也属于本发明的范围。

Claims

1、一种用于文字识别的训练样本自动挑选装置，所述的装置包括：

样本输入装置(1)，用于将训练样本和测试样本输入到样本数据存储单元(2)中；

样本数据存储单元(2)，用于存储由样本输入装置(1)输入的训练样本和测试样本数据；

训练装置(3)，用于根据输入的样本训练出一套模型参数，并存储到模型数据库(4)中，以供识别装置(5)使用；

模型数据库(4)，用于保存训练装置(3)训练出的模型参数，并为识别装置(5)提供模型数据；

识别装置(5)，用于根据存储在模型数据库中的模型参数，识别输入的样本；

识别结果分析装置(6)，用于当系统识别的是训练样本的时候，计算训练样本中每个样本的广义距离差，并按照广义距离差从小到大对所有训练样本进行排序，得到好样本、差样本或边界样本三类样本；当系统识别的是测试样本的时候，本装置将直接输出测试样本的识别率；

边界样本选择装置(7)，用于根据识别结果分析装置(6)的输出，判断当前边界样本选择是否最佳，如果最佳，则通知挑选结果输出装置输出最佳边界样本，否则，适当改变边界样本的数量，在控制处理装置的控制下，将边界样本送入训练装置进行训练，然后将测试样本送入识别装置(5)进行测试，得到当前边界样本训练的性能；

挑选结果输出装置(8)，用于将边界样本选择装置(7)中的挑选结果输出，输出的内容可以是最佳边界样本的编号，也可以是全部最佳训练样本数据本身，输出形式可以直接打印输出到纸张上，也可以直接输出到显示装置上；

控制处理装置(9)，用于对整个训练样本挑选装置的控制处理，负责样本数据的读取操作，训练，识别，识别结果的分析，边界样本的选择以及挑选结果的输出。

2、一种用于文字识别的训练样本自动挑选方法，其特征在于：在控制处理装置的控制下，该方法包括如下步骤：

将训练样本和测试样本输入到样本选择装置中；

保存训练装置(3)训练出的模型参数，并为识别装置(5)提供模型数据；

根据存储在模型数据库(4)中的模型参数，识别输入的样本；

当系统识别的是训练样本的时候，计算训练样本中每个样本的广义距离差，并按照广义距离差从小到大对所有训练样本进行排序，得到好样本、差样本和边界样本三类样本；当系统识别的是测试样本的时候，将直接输出测试样本的识别率；

根据识别结果分析装置(6)的输出，判断当前边界样本选择是否最佳。如果最佳，则通知挑选结果输出装置(8)输出最佳边界样本，否则，适当改变边界样本的数量，在控制处理装置(9)的控制下，将边界样本送入训练装置(5)进行训练，然后将测试样本送入识别装置(5)进行测试，得到当前边界样本训练的性能；

将边界样本选择装置(7)中的挑选结果输出，输出的内容可以是最佳边界样本的编号，也可以是全部最佳训练样本数据本身，输出形式可以直接打印输出到纸张上，也可以直接输出到显示装置上。

3、根据权利要求2的方法，其特征在于：所述的计算训练样本中每个样本的广义距离差进一步包括：所述的广义距离差D_r的定义为：

1)在采用基于统计的识别装置时，在识别时保存每个样本在各个模型下的概率P_i，按照概率值由大到小的顺序排序，其中i＝0～9，即P₀＞P₁＞……＞P₈＞P₉，并设正确候选字的位置为n，即P_n表示在期望模型下的识别概率，然后按照式(1)计算广义概率差D_p，并令D_r＝D_p；

D_{r} = D_{p} = \{\begin{matrix} P_{0} - P_{1}, n = 0 \\ n (P_{n} - P_{0}), n &NotEqual; 0 \end{matrix} - - - (1)

当n＝0，表示正确候选字的概率最大，该样本能够被正确识别，D_r＞0；当n≠0，表示该样本正确候选字的概率不是最大的，该样本被错误识别，D_r＜0，此时在计算D_r时加上一个惩罚性系数n，n越大，就意味着这个样本容易与更多的文字类别混淆；

2)对于采用基于模板匹配方法的识别装置，在识别时保存每个样本在各个模型下的距离D_i，按照距离值由小到大的顺序排序，i＝0～9，即D₀＜D₁＜……＜D₈＜D₉，并设正确候选字的位置为n，即D_n表示在期望模型下的距离，然后按照式(2)计算广义距离差D_r；

D_{r} = \{\begin{matrix} D_{1} - D_{0}, n = 0 \\ n (D_{0} - D_{n}), n &NotEqual; 0 \end{matrix} - - - (2)

D_r的含义同上，在识别错误时，同样增加了一个惩罚性系数n；

其中，每个样本的广义距离差D_r的含义如下：D_r＜0，表示该样本识别错，D_r越小说明样本越差，D_r＞0表明该样本能够被正确识别，而且D_r越大，样本越好，并按广义距离差从小到大的顺序对所有样本进行排序。