CN101964059B

CN101964059B - 构建级联分类器的方法、识别对象的方法及装置

Info

Publication number: CN101964059B
Application number: CN 200910161237
Authority: CN
Inventors: 朱远平; 孙俊; 皆川明洋; 堀田悦伸; 直井聪; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-07-24
Filing date: 2009-07-24
Publication date: 2013-09-11
Anticipated expiration: 2029-07-24
Also published as: CN101964059A

Abstract

公开了构建级联分类器的方法、识别对象的方法以及装置。该方法包括：基于第一级样本集来构建第一级节点分类器作为临时级联分类器，循环执行以下步骤：基于下级样本集来构建下级节点分类器，下级样本集是上级样本集中针对上级节点分类器的上级识别分数小于与上级节点分类器相对应的上级识别分数阈值与大于或等于0的识别分数阈值偏量之和的样本的集合；将下级节点分类器与临时级联分类器级联以构建新的临时级联分类器；比较增加该下级节点分类器前后的临时级联分类器的识别精度；如果增加下级节点分类器后识别精度不变或降低，则将删除下级节点分类器后的临时级联分类器确定为最终的级联分类器并终止循环，否则继续构建下一个下级节点分类器。

Description

构建级联分类器的方法、识别对象的方法及装置

技术领域

本发明总体上涉及模式识别领域，更具体地涉及级联分类器。

背景技术

随着计算机技术的发展，图像处理技术也取得了很大的进步。目前，人们已经能够采用光学字符识别(OCR)技术将一个文档图像中的文字识别出来，避免了繁重的人工键盘录入的劳动。

众所周知，字符语言类型识别技术有助于提高OCR的性能。现有的大部分字符语言类型识别技术的文本单位是整篇文档图像、文本行或词，这要求在文本单位内存在语言同一性的假设，因此在使用上具有一定的局限性。

然而，实际中存在多语言混排文档，其中包括两种或两种以上的语言文字，各语言文字间混合排列，例如票据。如果采用上述字符语言类型识别技术对该混合文档进行识别，则可能产生不理想的识别结果。

为此，在Yefeng Zheng、Changsong Liu和Xiaoqing Ding所著的“Single character type identification”(SPIE Document Recognition andRetrieval IX论文集，4670卷，第49-56页，2002年)一文中公开了一种采用Fisher分类器和支持向量机(SVM)分类器来识别英文和中文字符的方法，其中，首先使用Fisher分类器计算Fisher分类置信度，然后再使用SVM分类器进一步提高识别准确度。

上述现有技术中的分类器运算复杂度高，构建代价较高，运算速度较慢。

发明内容

有必要提供一种构建方法较简单，分类速度较快的分类器来识别单字符语言类型。

本发明提出了构建一种级联分类器，该级联分类器可以用来识别单字符语言类型。

根据本发明的一方面，提供了一种构建级联分类器的方法，该级联分类器包括一个或多个级，每一级包括一个节点分类器，该方法包括：基于第一级样本集来构建第一级节点分类器作为临时级联分类器，循环执行以下步骤：基于下级样本集来构建下级节点分类器，该下级样本集是上级样本集中针对上级节点分类器的上级识别分数小于与上级节点分类器相对应的上级识别分数阈值与识别分数阈值偏量之和的样本的集合，识别分数阈值偏量是大于或等于0的数，将构建的下级节点分类器与临时级联分类器级联以构建新的临时级联分类器，比较增加该下级节点分类器前后的临时级联分类器的识别精度；以及如果增加下级节点分类器后识别精度不变或降低，则将删除下级节点分类器后的临时级联分类器确定为最终的级联分类器并终止循环，否则继续构建下一个下级节点分类器。

根据本发明的另一方面，提供了一种利用前述方法构建的级联分类器来识别对象的方法，包括：对于级联分类器的从第一级节点分类器到最后一级节点分类器的每一级节点分类器，循环执行以下步骤：获取对象的与节点分类器相对应的特征；将对象的与节点分类器相对应的特征输入到节点分类器进行识别；如果对象在节点分类器的识别分数小于与节点分类器所对应的识别分数阈值并且节点分类器不是最后一级节点分类器，则将对象输入到下一级节点分类器，否则将节点分类器的识别结果确定为最终的识别结果。

根据本发明的又一方面，提供了一种用于识别对象的装置，包括：特征获取单元，用于获取对象的特征；以及由上述构建级联分类器的方法所构建的级联分类器，与特征获取单元相耦合。

本发明的构建级联分类器的方法较简单，所构建的分类器分类速度较快，精度也比较高。

附图说明

本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1所示为根据本发明的第一实施例的构建级联分类器的方法流程图；

图2所示为根据本发明的第四实施例的构建下级节点分类器的一个实施例的示意图；

图3所示为根据本发明一个实施例的识别对象的方法流程图；以及

图4所示为根据本发明一个实施例的用于识别对象的装置。

具体实施方式

下面参照附图来说明本发明的实施例。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

目前，GBK Level 1收录的中文字符集包括3755个字符。而英文字符集包括62个字符，包括：26个大写英文字、26个小写英文字和10个数字。大部分中文字符(例如表1所示的)与英文字符有较大差别。然而，有些中文字符(例如表2所示的)在结构上与英文字符相似。

表1：

表2：

这些结构相似的字符在特征空间上可能重叠，造成识别困难和识别精度的下降。

在本发明的实施例中，提供一种构建级联分类器的方法。该级联分类器包括一个或多个级，每一级包括一个节点分类器。下面以识别中、英文两类字符为例，对该方法进行描述。

图1所示为根据本发明的第一实施例的构建级联分类器的方法流程图。

在步骤102中，基于一个训练样本集来构建第一级节点分类器作为临时级联分类器。该训练样本集被称为第一样本集。在本实施例中，可以将第一级节点分类器训练为最近邻分类器，更具体地，可以是标准最近邻分类器或k近邻分类器。最近邻分类器是本领域技术人员公知的，这里不再详细描述。

在步骤104中，构建下级节点分类器。这里下级节点分类器是针对上级节点分类器而言的。例如第二级节点分类器是第一级节点分类器的下级节点分类器，而第一级节点分类器是第二级节点分类器的上级节点分类器，

首先，选择上级节点分类器中所使用的样本集的一个子集作为该下级节点分类器的训练集(称为下级样本集)。可以通过以下方式来得到下级样本集。例如，在上级节点分类器为最近邻分类器的情况下，该最近邻分类器可以获得中、英文两字符类的类中心。以d1和d2分别表示样本到中、英两字符类中心的距离。一般地，如果d1＞d2，则将字符识别为英文，如果d1＜d2，则将字符识别为中文。然而，如果一个样本的d1和d2很接近，识别结果可能有错误。于是可以将这样的样本的集合作为下级节点分类器的训练样本集。具体地，可以定义识别分数(或者，具体地这里可以称为置信度)Conf为：

Conf＝100＊|d1-d2|/(d1+d2)。

按照上述定义的Conf的范围是0～100，如果针对上级节点分类器的样本识别分数Conf小于对应于上级节点分类器的识别分数阈值，则确定该样本为下级节点分类器的训练样本。在本实施例中，识别分数阈值可以是预先设定的值，例如可以是25。对于每级节点分类器，识别分数阈值可以相同，也可以不同。

在得到下级样本集后，基于该下级样本集来进行分类器训练，以构建下级节点分类器。下级节点分类器也可以训练为标准最近邻分类器或k近邻分类器。

在步骤106中，将构建的下级节点分类器与临时级联分类器级联以构建新的临时级联分类器。

在步骤108中，比较步骤104中训练得到的下级节点分类器增加前后的临时级联分类器的识别精度。可以通过利用一个测试样本集对临时级联分类器进行测试来确定临时级联分类器的识别精度。例如，首先将测试样本输入临时级联分类器的第一级节点分类器进行识别。如果识别分数大于第一级节点分类器的识别分数阈值，则输出识别结果并结束识别过程。如果识别分数小于第一级节点分类器的识别分数阈值，则将测试样本传递到下级节点分类器进行识别。依此类推。注意，如果测试样本被传递到最后一级节点分类器，则在该级节点分类器中不需要进行识别分数与识别分数阈值的比较，而是直接将该级节点分类器的识别结果作为最终识别结果输出。对测试样本集中的每个测试样本的测试结果进行综合评价可以得到临时级联分类器的识别精度。

如果在步骤108中的比较结果表明增加该下级节点分类器后的临时级联分类器的识别精度相比增加该下级节点分类器前的临时级联分类器的识别精度增加，则返回步骤104继续构建下一个下级节点分类器。如果在步骤108中的比较结果表明增加该下级节点分类器后的临时级联分类器的识别精度相比增加该下级节点分类器前的临时级联分类器的识别精度不变或降低，则进行到步骤110。在步骤110中，将删除该下级节点分类器后的临时级联分类器确定为最终的级联分类器，并结束该构建级联分类器的方法。

在识别单个字符图像的语言类型中，可以采用的特征有字符纵横比、连通域数目、笔画像素密度、笔划密度直方图、游程直方图、水平投影差分累积、垂直投影差分累积、水平笔划密度差分累积和垂直笔划密度差分累积等。在本实施例中，可以预先确定每级节点分类器所采用的一个或多个特征。例如，可以预先确定第一级节点分类器采用字符纵横比和连通域数目作为特征，第二级节点分类器采用笔画像素密度和笔划密度直方图作为特征，等等。不同级的分类器所采用的特征可以有重合。例如第一级节点分类器采用字符纵横比和连通域数目作为特征，第二级节点分类器采用字符纵横比和笔划密度直方图作为特征。上述特征中，字符纵横比、连通域数目、笔画像素密度、笔划密度直方图、游程直方图等是本领域技术人员公知的，这里不再详细描述。下面介绍水平投影差分累积、垂直投影差分累积、水平笔划密度差分累积和垂直笔划密度差分累积等特征。在本实施例的一个示例中，在预先确定各级节点分类器所采用的特征时，可以为第一级节点分类器优先选择已知的分类效果较好的特征。例如，已知利用连通域数目这一特征可以有效地识别80％的中文字符图像。因此可以预先确定第一级节点分类器采用连通域数目这一特征。

由于各特征之间存在互补性，在各级节点分类器中采用不完全相同的特征可以有助于提高识别的精度。

水平投影差分累积C_ph通过如下公式1计算得到：

公式1：

C_{ph} = \frac{1}{M} Σ_{j = 1}^{N - 1} | P_{h} (j + 1) - P_{h} (j) |

垂直投影差分累积C_pv通过如下公式2计算得到：

公式2：

C_{pv} = \frac{1}{N} Σ_{i = 1}^{M - 1} | P_{v} (i + 1) - P_{v} (i) |

在上述公式1和2中，M和N分别为待识别字符图像的高度和宽度，i和j为整数，P_h(j+1)和P_h(j)分别表示待识别字符图像的第j+1行和第j行的有效像素数。有效像素数是指待识别字符图像中属于字符本身的像素数。P_v(i+1)和P_v(i)分别表示待识别字符图像的第i+1列和第i列的有效像素数，

水平笔划密度差分累积C_sh通过如下公式3计算得到：

公式3：

C_{sh} = Σ_{j = 1}^{N - 1} | P_{sh} (j + 1) - P_{sh} (j) |

垂直笔划密度差分累积C_sv通过如下公式4计算得到：

公式4：

C_{sv} = Σ_{i = 1}^{M - 1} | P_{sv} (i + 1) - P_{sv} (i) |

在上述公式3和4中，M和N分别为待识别字符图像的高度和宽度，i和j为整数，P_sh(j+1)和P_sh(j)分别表示待识别字符图像的第j+1行和第j行像素的水平笔画密度，P_sv(i+1)和P_sv(i)分别待识别字符图像的表示第i+1列和第i列像素的垂直笔画密度。水平笔画密度和垂直笔画密度是本领域技术人员公知的，这里不再详细描述。

在本实施例中，各级节点分类器的类型不一定相同。例如上级节点分类器可以是标准最近邻分类器，而下级节点分类器可以是k近邻分类器。

根据本发明的第二实施例，提供了一种构建级联分类器的方法。该方法与第一实施例的构建节点分类器的方法不同的是：在构建节点分类器的过程中，每级节点分类器所采用的特征不是预先确定的，而是利用特征选择方法在特征集中进行特征选择而得到的。特征选择方法可以采用例如前向序贯选择方法或后向序贯选择方法。前向序贯选择方法或后向序贯选择方法为本领域的技术人员所公知的，这里不再赘述。

在本实施例中，在构建每级节点分类器时，特征选择可以是独立的。例如如果上级节点分类器已经选择了某个特征，在构建下级节点分类器时，仍然把把该特征作为候选特征来进行特征选择。

根据本发明的第三实施例，提供了一种构建级联分类器的方法。该方法与第二实施例不同的是，在构建下级节点分类器中的确定下级样本集的过程中，不是将针对上级节点分类器的样本的识别分数与上级节点分类器所对应的识别分数阈值直接比较，而是将针对上级节点分类器的样本的识别分数与上级节点分类器所对应的识别分数阈值和识别分数阈值偏量之和进行比较。如果针对上级节点分类器的样本的识别分数小于所述和，则确定该样本为下级节点分类器的训练样本。识别分数阈值偏量是大于或等于0的数，例如在识别分数阈值为25的情况下，识别分数阈值偏量可以是5。注意，第一实施例可以认为是识别分数阈值偏量取0的特殊情况。另外，确定临时级联分类器的识别精度的过程与第一实施例相同，不需要考虑识别分数阈值偏量。例如，首先将测试样本输入临时级联分类器的第一级节点分类器进行识别。如果识别分数大于第一级节点分类器的识别分数阈值，则输出识别结果并结束识别过程。如果识别分数小于第一级节点分类器的识别分数阈值，则将测试样本传递到下级节点分类器进行识别。依此类推。

在第三实施例中，各级节点分类器的识别分数阈值偏量可以相同，也可以不相同。

在实际分类中，位于识别分数阈值附近的样本被确定为高于识别分数阈值或者低于识别分数阈值具有一定的随机性。通过设置识别分数阈值偏量，在训练级联分类器的阶段，将低于识别分数阈值和识别分数阈值偏量之和的样本作为低识别分数样本，从而作为下级训练样本，而在利用构建好的级联分类器进行识别的时候，只将低于识别分数阈值的待识别对象作为低识别分数样本并传递到下级节点分类器进行识别。这样的处理提高了训练样本对实际分类中被确定为低识别分数样本的覆盖度，从而有助于增强分类器的推广性能。

根据本发明的第四实施例，提供了一种构建级联分类器的方法。该方法与第三实施例不同的是，在构建下级节点分类器器中的确定下级样本集的过程中，不是直接利用预先设置的上级识别分数阈值，而是从多个候选上级识别分数阈值进行选择。例如，多个候选上级识别分数阈值可以是5，10，15，20，25。具体地，如图2所示。图2为根据本发明的第四实施例构建下级节点分类器的一个实施例的示意图。在步骤202中，针对多个候选上级识别分数阈值，构建多个候选下级节点分类器。其中构建每个候选下级节点分类器的过程与实施例三中的构建下级节点分类器的方法相同，这里不再详细描述。

在步骤204中，从所构建的多个下级候选节点分类器中选取识别精度最高的候选节点分类器作为下级节点分类器。识别精度的计算与实施例一相同，这里不再详细描述。在本实施例的一个示例中，如果有多个下级候选节点分类器的识别精度都高于一个预先设定的识别精度阈值，则可以从这些下级候选节点分类器中任意选取一个作为下级节点分类器。

在步骤206中，将该下级节点分类器所对应的识别分数阈值确定为上级识别分数阈值。

在第四实施例中，各级节点分类器的候选上级识别分数阈值可以相同，也可以不相同。候选上级识别分数阈值的个数可以考虑计算量的大小来确定。

本领域的技术人员应当明白，上述实施例中的各个要素可以任意结合，而不限于上述公开的形式。例如在第四实施例的一个变形中，可以如实施例一一样预先确定每级节点分类器所采用的一个或多个特征，而不是在构建节点分类器的过程中利用特征选择方法进行特征选择。

上文中，以识别单个字符图像的语言类型为例介绍了本发明的实施例。但是本领域的技术人员应当明白，本发明的实施例不限于此。例如，本发明的实施例也可以用于识别手写汉字。在用于识别手写汉字时，各级节点分类器可以不采用最近邻分类器，而采用MQDF(二次分类函数)分类器。当然，各级节点分类器所采用的特征也是与识别手写汉字有关的特征。这里不再详细描述。

图3所示为根据本发明的第五实施例的一种识别对象的方法的流程图。该方法可以通过前述实施例一至四之一所构建的级联分类器来实现。

首先，将待识别对象输入级联分类器中。

对于级联分类器的从第一级节点分类器到最后一级节点分类器的每一级节点分类器，循环执行步骤302-308。

在步骤302中，获取待识别对象的与第k(k ＝1，2，...)级节点分类器相对应的特征。

在步骤304中，利用第k级节点分类器对待识别对象进行识别。具体地，将该待识别对象的与该节点分类器相对应的特征输入到第k级节点分类器，第k级节点分类器基于该特征来对该待识别对象进行识别。

在步骤306中，确定待识别对象针对第k级节点分类器的识别分数，如果该识别分数小于与该节点分类器所对应的识别分数阈值，则拒绝识别，并执行步骤308。否则，将执行步骤310，将该节点分类器的识别结果确定为最终的分类结果。

在步骤308中，判断第k级节点分类器是否是最后一级节点分类器。如果是，则执行步骤310，由该节点分类器确定最终的分类结果。如果不是，则返回步骤302，继续由第k+1级节点分类器对该对象进行识别。

图4所示为根据本发明的第六实施例的一种用于识别对象的装置。

该装置400包括：特征获取单元402和根据前述第一到第四实施例之一提供的方法所构建的级联分类器404。

特征获取单元402用于获取待识别对象的特征。级联分类器404与特征获取单元402相耦合。特征获取单元402和级联分类器404的具体操作可以参考对本发明的第五实施例的识别对象的方法的描述，这里不再重复。

需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本申请的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上述实施例只是用于说明本发明，而并不构成对本发明的限制。对本领域的技术人员来说，可以对上述实施方式做出各种修改和变更而没有背离本发明的范围。因此，本发明的范围仅由所附的权利要求及其等同含义来限定。

Claims

1.一种构建级联分类器的方法，所述级联分类器包括一个或多个级，每一级包括一个节点分类器，所述方法包括：

基于第一级样本集来构建第一级节点分类器作为临时级联分类器，

循环执行以下步骤：

基于下级样本集来构建下级节点分类器，所述下级样本集是上级样本集中针对上级节点分类器的上级识别分数小于与上级节点分类器相对应的上级识别分数阈值与识别分数阈值偏量之和的样本的集合，所述识别分数阈值偏量是大于或等于0的数，

将构建的下级节点分类器与所述临时级联分类器级联以构建新的临时级联分类器，

比较增加该下级节点分类器前后的临时级联分类器的识别精度；以及

如果增加所述下级节点分类器后识别精度不变或降低，则将删除所述下级节点分类器后的所述临时级联分类器确定为最终的级联分类器并终止循环，否则继续构建下一个下级节点分类器。

2.如权利要求1所述的方法，其中在构建每一级节点分类器的过程中，在特征集中进行特征选择以选择与每一级节点分类器相对应的特征。

3.如权利要求1所述的方法，其中构建下级节点分类器的步骤包括：

针对多个候选上级识别分数阈值，构建多个候选下级节点分类器；

从所构建的多个候选下级节点分类器中选取识别精度最高的候选节点分类器作为所述下级节点分类器，以及

将所述下级节点分类器所对应的候选上级识别分数阈值作为上级识别分数阈值。

4.如权利要求1-3之一所述的方法，其中，所述级联分类器用于识别单个字符图像的语言类型。

5.如权利要求2所述的方法，其中所述级联分类器用于识别单个字符图像的语言类型，所述特征集包括下述特征中的至少一个：字符纵横比、连通域数目、笔画像素密度、笔划密度直方图、游程直方图、水平投影差分累积、垂直投影差分累积、水平笔划密度差分累积和垂直笔划密度差分累积，

其中所述水平投影差分累积C_ph通过如下公式1计算得到：

公式1：

C_{ph} = \frac{1}{M} Σ_{j = 1}^{N - 1} | P_{h} (j + 1) - P_{h} (j) |

所述垂直投影差分累积C_pv通过如下公式2计算得到：

公式2：

C_{pv} = \frac{1}{N} Σ_{i = 1}^{M - 1} | P_{v} (i + 1) - P_{v} (i) |

在上述公式1和2中，M和N分别为待识别字符图像的高度和宽度，i和j为整数，P_h(k+1)和P_h(j)分别表示待识别字符图像的第j+1行和第j行的有效像素数，P_v(i+1)和P_v(i)分别表示待识别字符图像的第i+1列和第i列的有效像素数，

所述水平笔划密度差分累积C_sh通过如下公式3计算得到：

公式3：

C_{sh} = Σ_{j = 1}^{N - 1} | P_{sh} (j + 1) - P_{sh} (j) |

所述垂直笔划密度差分累积C_sv通过如下公式4计算得到：

公式4：

C_{sv} = Σ_{i = 1}^{M - 1} | P_{sv} (i + 1) - P_{sv} (i) |

在上述公式3和4中，M和N分别为待识别字符图像的高度和宽度，i和j为整数，P_sh(j+1)和P_sh(j)分别表示待识别字符图像的第j+1行和第j行像素的水平笔画密度，P_sv(i+1)和P_sv(i)分别待识别字符图像的表示第i+1列和第i列像素的垂直笔画密度。

6.如权利要求2所述的方法，其中，采用前向序贯选择方法或后向序贯选择方法来在所述特征集中进行特征选择。

7.如权利要求1所述的方法，其中每一级节点分类器是最近邻节点分类器。

8.一种利用由权利要求1-7之一所述的方法构建级联分类器来识别对象的方法，包括：

将待识别对象输入到所述级联分类器中；

对于所述级联分类器的从第一级节点分类器到最后一级节点分类器的每一级节点分类器，循环执行以下步骤：

获取所述对象的与每一级节点分类器相对应的特征；

将所述对象的与每一级节点分类器相对应的特征输入到每一级节点分类器进行识别；

如果所述对象在每一级节点分类器的识别分数小于与每一级节点分类器所对应的识别分数阈值并且每一级节点分类器不是最后一级节点分类器，则将所述对象输入到下一级节点分类器，否则将这一级节点分类器的识别结果确定为最终的识别结果。

9.一种用于识别对象的装置，包括：

特征获取单元，用于获取所述对象的特征；以及

由权利要求1-7之一所述的方法所构建的级联分类器，与所述特征获取单元相耦合。