CN109472276A

CN109472276A - 模式识别模型的构建方法和装置及模式识别方法

Info

Publication number: CN109472276A
Application number: CN201710807294.2A
Authority: CN
Inventors: 肖晗; 于小亿; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2019-03-15

Abstract

本发明涉及模式识别模型的构建方法和装置及模式识别方法。该构建方法包括：将给定训练集里的多个样本分为两组，多个样本中的每个样本具有各自对应的类；训练用于区分两组样本的二类分类器；重复上述步骤N次，得到N个二类分类器，N为任意正整数；以及将N个二类分类器进行组合来构建组合分类器用于模式识别。与传统方法相比，根据本发明的方法和装置构建的组合分类器能够在不降低性能的同时，大大缩短特征匹配时间。

Description

模式识别模型的构建方法和装置及模式识别方法

技术领域

本发明涉及模式识别领域，更具体地涉及一种模式识别模型的构建方法和装置及模式识别方法和模式识别装置。

背景技术

当前的模式识别技术大都面向固定的类别数进行识别。例如，传统的文字识别系统将待识别样本归类为在训练集里学习过的众多文字中的一种。然而，在很多实际应用中，可能遇到的类别数不是固定的。例如，在人脸识别应用中，模式识别系统不仅需要识别已经见过的人脸，而且需要拒绝从未见过的人脸。如果一个模式识别系统不仅能够识别有限数量的已知类，而且能够拒绝无限数量的未知类，它就是一个开放集识别系统。更进一步，人们还希望开放集识别系统能够对被拒绝的未知类样本进行聚类，以形成新的类别。

模式识别领域目前的主流方法是卷积神经网络(CNN)。以人脸识别为主要应用的传统开放集识别方法使用CNN的倒数第二层输出作为特征向量，并使用某种度量标准来确定两个样本是否属于同一类。其中，余弦相似度是最常用的度量标准。然而，余弦相似度的计算中需要进行大量的平方和乘法运算，而且还要进行开方和除法运算，计算量较大。在对未知类样本进行聚类时，需要进行大量的特征匹配计算，导致聚类时间非常漫长。如何得到一种效率更高的特征和度量标准，从而有效地缩短特征匹配时间和聚类时间，是一个亟待解决的问题。

因此，需要一种能够解决上述问题的模式识别模型的构建方法和装置及模式识别方法。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的一个主要目的在于，提供了一种模式识别模型的构建方法，包括：将给定训练集里的多个样本分为两组，多个样本中的每个样本具有各自对应的类；训练用于区分两组样本的二类分类器；重复上述步骤N次，得到N个二类分类器，N为任意正整数；以及将N个二类分类器进行组合来构建组合分类器用于模式识别。

根据本发明的一个方面，提供一种模式识别模型的构建装置，包括：分组单元，被配置为将给定训练集里的多个样本分为两组，多个样本中的每个样本具有各自对应的类；二类分类器训练单元，被配置为训练用于区分两组样本的二类分类器；重复控制单元，被配置为重复分组单元和二类分类器训练单元的操作N次，得到N个二类分类器，N为任意正整数；以及组合分类器构建单元，被配置为将N个二类分类器进行组合来构建组合分类器用于模式识别。

根据本发明的又一个方面，提供一种模式识别方法，包括：将待识别样本输入根据以上的方法构建的模式识别模型；用模式识别模型中的N个二类分类器对待识别样本进行处理，得到用于描述待识别样本的、长度为N的特征串，特征串的每一位为1或0；计算待识别样本的特征串与模式识别模型中每个类的特征概率串的相似度或距离，或者计算待识别样本的特征串与模式识别模型中每个类的特征串的相似度或距离；以及根据所计算出的相似度或距离和模式识别模型中的每个类的相似度阈值或距离阈值，对待识别样本是否属于该类做出判断，根据每个类的判断结果得到待识别样本的识别结果。

根据本发明的再一个方面，提供一种模式识别装置，包括：输入单元，被配置为将待识别样本输入根据以上的方法构建的模式识别模型；待识别样本处理单元，被配置为用模式识别模型中的N个二类分类器对待识别样本进行处理，得到用于描述待识别样本的、长度为N的特征串，特征串的每一位为1或0；相似度或距离计算单元，被配置为计算待识别样本的特征串与模式识别模型中每个类的特征概率串的相似度或距离，或者计算待识别样本的特征串与模式识别模型中每个类的特征串的相似度或距离；以及识别单元，识别单元根据所计算出的相似度或距离和模式识别模型中的每个类的相似度阈值或距离阈值，对待识别样本是否属于该类做出判断，根据每个类的判断结果得到待识别样本的识别结果。

另外，本发明的实施例还提供了用于实现上述方法的计算机程序。

此外，本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述方法的计算机程序代码。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1示出了根据本发明的一个实施例的模式识别模型的构建方法100的示例性过程的流程图；

图2是示出了步骤S110的一种示例性过程的流程图；

图3是示出了步骤S110的另一种示例性过程S110’的流程图；

图4是示出根据本发明的另一个实施例的模式识别模型的构建装置400的示例性配置的框图；

图5是示出了根据本发明的一个实施例的利用上述模式识别模型的构建方法和装置构建的模式识别模型进行模式识别的方法的示例性过程的流程图；

图6是示出了根据本发明的另一个实施例的利用上述模式识别模型的构建方法和装置构建的模式识别模型进行模式识别的装置600的示例性配置的框图；以及

图7是示出可以用于实施本发明的基于神经网络的开放集模式识别模型的训练方法和装置的计算设备的示例性结构图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明通过引入一种新的框架来解决现有技术中的问题。在该框架中，利用CNN构建许多独立的二类分类器，来形成强大的组合分类器。该组合分类器与传统框架下适当规模的单个CNN多分类器在开放集识别方面的性能相当，但是能够提供一种效率非常高的特征表述，在这种特征表述下，能够使用汉明距离和/或柔性汉明距离实现快速的特征匹配，从而能够大大加速后续的聚类过程。除此之外，这种新方案还可能带来以下好处。

1.采用这种框架，可以方便地实现增量学习，即逐渐增加已知类或用于训练的已知类样本的数量。

2.利用组合分类器获得的特征表述，在不同类之间混淆程度较低，因而可能带来更好的聚类性能。

3.除了分类和预测，如果想要根据不同类型的特征索引或搜索数据库，可以通过将基本的CNN划分成组，然后用不同类型的特征来训练每组CNN，来在新的框架下实现。不同类型的特征可以为线条组合、颜色模式或纹理等。由于在这种新的框架下实现了特征解耦，甚至可能实现某些高级的特征搜索，例如在人脸数据库中搜索具有大鼻子的人脸。

下面结合附图详细说明根据本发明实施例基于神经网络的开放集模式识别模型的训练方法和装置。下文中的描述按如下顺序进行：

1.模式识别模型的构建方法

2.模式识别模型的构建装置

3.模式识别方法和装置

4.用以实施本申请的方法和装置的计算设备

[1.模式识别模型的构建方法]

图1示出了根据本发明的一个实施例的模式识别模型的构建方法100的示例性过程的流程图。下面将结合图1具体说明模式识别模型的构建方法100的过程。

首先，在步骤S102中，将给定训练集里的多个样本分为两组，多个样本中的每个样本具有各自对应的类。

该给定训练集具有多个类，被划分的两组中的类的数目可以不相等，但是样本的数目应该近似均衡(即近似相等)。

例如，在中文古汉字数据集中，可以选择前269个类(即269个不同的字)作为训练集，在269个类中不均匀地分布着50214个样本。然后，将50214个样本划分为两组，每组大约有25000个样本。

接着，在步骤S104中，训练用于区分两组样本的二类分类器。

可以采用卷积神经网络(亦可用支持向量机或其他方法)来训练二类分类器，通过该二类分类器可以区分两组样本。

接着，在步骤S106中，重复上面的步骤S102和S104N次，得到N个二类分类器，N为任意正整数。

最后，在步骤S108中，将N个二类分类器进行组合来构建组合分类器用于模式识别。

其中，将给定训练集里的多个样本分为两组包括：将给定训练集里的多个样本根据其所属类随机分为两组，具有相同类的样本位于相同的组中。

在一个示例中，如果想要将特定特征与某些二类分类器关联，可以将给定训练集里的多个样本分为包含特定特征和不包含特定特征的两组。

例如，如果在人脸识别系统中想要索引特征“大鼻子”，只需要准备一组具有大鼻子的人脸图片，和另一组不具有大鼻子的人脸图片，保持两组样本的数目均衡，然后训练二类分类器。重复该过程，获得多个这样的分类器，从而确保性能。

在使用N个二类分类器构建的组合分类器进行模式识别时，可以针对每个类设定合适的阈值来判断一个样本是否属于该类。因此，模式识别模型的构建方法100优选地还包括步骤S110(图中未示出)，用于确定每个类的阈值。

图2是示出了步骤S110的一种示例性过程的流程图。

在图2中，在步骤S1102中，对于训练集里的每个样本，用N个二类分类器分别对其进行处理，得到用于描述该样本的、长度为N的特征串，特征串的每一位为1或0。

在步骤S1104中，基于每个类的所有样本的特征串，计算该类的特征概率串，特征概率串为实数序列，长度为N，其第k个(k＝1,2,...,N)实数元素代表该类的样本被第k个二类分类器处理得到1的概率。

例如，如果训练375个二类分类器，那么每个类的特征概率串的长度为375，其中每个元素是范围在[0,1]区间上的浮点数。

在步骤S1106中，准备验证集，验证集包括多个类别已知的样本，并且验证集里的样本不同于训练集里的样本，验证集里的样本包括属于训练集里某个类的已知类样本和不属于训练集里任何类的未知类样本。

在步骤S1108中，对验证集里的每个样本，用N个二类分类器分别对其进行处理，得到验证集里每个样本的特征串，特征串的长度为N，其每一位为1或0。

在步骤S1110中，将训练集里每个类的特征概率串与验证集里每个样本的特征串进行比较并计算其之间的相似度或距离。

在一个优选的示例中，计算训练集里每个类的特征概率串与验证集里每个样本的特征串之间的距离时采用柔性汉明距离。

其中，柔性汉明距离的定义为：长度为N的特征串与长度为N的特征概率串进行比较，设特征概率串的第k个(k＝1,2,...,N)实数元素为p(0≤p≤1)，如果特征串的第k位为0，那么第k位上的比较结果对柔性汉明距离的贡献为p，如果特征串的第k位为1，那么第k位上的比较结果对柔性汉明距离的贡献为1-p，将所有N个位上的比较结果的贡献求和，即得到特征串与特征概率串之间的柔性汉明距离，其取值范围为0到N之间的实数。

在步骤S1112中，对训练集里每个类确定适当的相似度阈值或距离阈值，使得已知类识别正确率与未知类识别正确率之和达到最高。其中，已知类识别正确率是正确识别的已知类样本在验证集里所有已知类样本中占的比例，未知类识别正确率是被判断为未知类的未知类样本在验证集里所有未知类样本中占的比例。

在采用柔性汉明距离的情况下，首先要选择训练集里所有类的柔性汉明距离的全局距离阈值，然后计算训练集里每个类的特征概率串与验证集里每个样本的特征串之间的柔性汉明距离。如果计算得到的柔性汉明距离小于距离阈值，则认为验证集里的该样本属于训练集里的该类，可以将这种情形称为“该样本被该类接受”。如果一个样本未被任何类接受，则认为其属于未知类。如果该样本确实不属于训练集里的任何类，则称之为“被判断为未知类的未知类样本”。如果样本属于训练集里的某个类并且被正确的类接受，那么称之为“正确识别的已知类样本”。正确识别的已知类样本在验证集里所有已知类样本中占的比例称为已知类识别正确率(KCAPA)。被判断为未知类的未知类样本在验证集里所有未知类样本中占的比例称为未知类识别正确率(UCPA)。

通过柔性汉明距离的全局阈值来控制KCAPA和UCPA之间的折衷。可以适当地选择柔性汉明距离的全局阈值以将KCAPA和UCPA都保持在较高的水平，例如，可以以使得KCAPA与UCPA的和达到其峰值的方式来选择柔性汉明距离的全局阈值。

利用该全局阈值作为初始值，针对训练集里的每个类分别微调柔性汉明距离的阈值，目标是进一步提高KCAPA和UCPA。具体的标准可以是使得KCAPA与UCPA的和达到最高。

利用步骤S108构建的组合分类器和步骤S110确定的类的相似度阈值或者柔性汉明距离阈值就获得了可用于开放集识别的组合分类器。将该组合分类器应用于新的待测样本，可以判断出该样本是属于训练集里的某个类，还是属于新的未知类。

根据本发明所构建的模式识别模型可以用于开放集的识别。开放集是指待识别样本可能属于训练集里的某个类，也可能不属于训练集里的任何类。例如人脸识别系统就是一个开放集的识别。

在图2所示的利用柔性汉明距离来确定距离阈值的情况下，可以方便地实现增量学习。增量学习是指，随着新样本的加入，已知类的个数以及每个已知类的样本个数能够不断增加，并且每个已知类的特征概率串能够随之做出调整。已知类是指用于训练模式识别模型的所有类别，初始已知类是训练集里的所有类别。当加入一个新类的样本时，已知类的个数增加1，新增加的已知类的特征串和特征概率串都等于该样本的特征串。在一个示例中，对某个已知类A的特征概率串S(长度为N)做出调整的方法是：设已知类A现有样本数为m，特征概率串S的第k个(k＝1,2,...,N)实数元素为p，如果新加入的样本不属于类A，那么S保持不变，如果新加入的样本属于类A，那么考察该样本特征串的每一位，设其第k位为b，如果b＝0，那么S的第k个实数元素调整为mp/(m+1)，如果b＝1,那么S的第k个实数元素调整为(mp+1)/(m+1)。

图3是示出了步骤S110的另一种示例性过程S110’的流程图。

如图3所示，在步骤S1102’中，对于训练集里的每个样本，用N个二类分类器分别对其进行处理，得到用于描述该样本的、长度为N的特征串，特征串的每一位为1或0。

在步骤S1104’中，基于每个类的所有样本的特征串，计算该类的特征概率串，特征概率串为实数序列，长度为N，其第k个(k＝1,2,...,N)实数元素代表该类的样本被第k个二类分类器处理得到1的概率。

在步骤S1106’中，对于训练集里的每个类，基于该类的特征概率串得到其特征串。

在一个示例中，基于类的特征概率串得到其特征串的方法为：如果特征概率串的第k个(k＝1,2,...,N)实数元素小于0.5，那么相应特征串的第k个元素为0，否则相应特征串的第k个元素为1，由此得到的训练集里每个类的特征串的长度为N，其每一位为1或0。

在步骤S1108’中，准备验证集，验证集包括多个类别已知的样本，并且验证集里的样本不同于训练集里的样本，验证集里的样本包括属于训练集里某个类的已知类样本和不属于训练集里任何类的未知类样本。

在步骤S1110’中，对验证集里的每个样本，用N个二类分类器分别对其进行处理，得到验证集里每个样本的特征串，该特征串的长度为N，其中每一位为1或0。

在步骤S1112’中，将训练集里每个类的特征串与验证集里每个样本的特征串进行比较并计算其之间的相似度或距离。

在一个优选的示例中，在计算训练集里每个类的特征串与验证集里每个样本的特征串的距离时采用汉明距离。

汉明距离的定义为：两个长度为N的特征串进行比较时，如果某一位上相同(同为1或同为0)，那么该位比较结果对汉明距离的贡献为0，否则该位比较结果对汉明距离的贡献为1，将所有N个位上比较结果的贡献求和，即得到两个特征串之间的汉明距离，其取值范围为0到N之间的整数。

最后，在步骤S1114’中，对训练集里每个类确定适当的相似度阈值或距离阈值，使得已知类识别正确率与未知类识别正确率之和达到最高。

在采用汉明距离的情况下，首先要选择训练集里所有类的汉明距离的全局距离阈值，然后计算训练集里每个类的特征串与验证集里的每个样本的特征串之间的汉明距离。如果所计算的汉明距离小于距离阈值，则认为验证集里的该样本属于训练集里的该类，可以将此情形称为“该样本被该类接受”。如果一个样本未被任何类接受，则认为其属于未知类。如果该样本确实不属于训练集里的任何类，则称之为“被判断为未知类的未知类样本”。如果样本属于训练集里的某个类并且被正确的类接受，称之为“正确识别的已知类样本”。正确识别的已知类样本在验证集里所有已知类样本中占的比例称为已知类识别正确率(KCAPA)。被判断为未知类的未知类样本在验证集里所有未知类样本中占的比例称为未知类识别正确率(UCPA)。

通过汉明距离的全局阈值来控制KCAPA和UCPA之间的折衷。可以适当地选择汉明距离的全局阈值以将KCAPA和UCPA都保持在较高的水平，例如，可以以使得KCAPA与UCPA的和达到其峰值的方式来选择汉明距离的全局阈值。

利用该全局阈值作为初始值，针对训练集里的每个类分别微调汉明距离的阈值，目标是进一步提高KCAPA和UCPA。具体的标准可以是使得KCAPA与UCPA的和达到最高。

利用步骤S108构建的组合分类器和步骤S110’确定的类的相似度阈值或者汉明距离阈值就获得了可用于开放集识别的组合分类器。将该组合分类器应用于新的待测样本，可以判断出该样本是属于训练集里的某个类，还是属于新的未知类。

[2.模式识别模型的构建装置]

图4是示出根据本发明的另一个实施例的模式识别模型的构建装置400的示例性配置的框图。

如图4所示，模式识别模型的构建装置400包括分组单元402、二类分类器训练单元404、重复控制单元406以及组合分类器构建单元408。

分组单元402被配置为将给定训练集里的多个样本分为两组，多个样本中的每个样本具有各自对应的类。

二类分类器训练单元404被配置为训练用于区分两组样本的二类分类器。

重复控制单元406被配置为重复分组单元和二类分类器训练单元的操作N次，得到N个二类分类器，N为任意正整数。

组合分类器构建单元408被配置为将N个二类分类器进行组合来构建组合分类器用于模式识别。

在一个示例中，模式识别模型的构建装置400还可以包括阈值确定单元(图中未示出)。

阈值确定单元被配置为：对于训练集里的每个样本，用N个二类分类器分别对其进行处理，得到用于描述该样本的、长度为N的特征串，特征串的每一位为1或0；基于每个类的所有样本的特征串，计算该类的特征概率串，特征概率串为实数序列，长度为N，其第k个实数元素代表该类的样本被第k个二类分类器处理得到1的概率，其中，k大于或等于1且小于或等于N；准备验证集，验证集包括多个类别已知的样本，并且验证集里的样本不同于训练集里的样本，验证集里的样本包括属于训练集里的某个类的已知类样本和不属于训练集里的任何类的未知类样本；对验证集里的每个样本，用N个二类分类器分别对其进行处理，得到验证集里的每个样本的特征串，特征串的长度为N，其每一位为1或0；将训练集里的每个类的特征概率串与验证集里的每个样本的特征串进行比较并计算其之间的相似度或距离；对训练集里每个类确定相似度阈值或距离阈值，使得已知类识别正确率与未知类识别正确率之和达到最高，其中，已知类识别正确率是正确识别的已知类样本在验证集里所有已知类样本中占的比例，未知类识别正确率是被判断为未知类的未知类样本在验证集里所有未知类样本中占的比例。

在另一个示例中，模式识别模型的构建装置400可以包括不同于上述阈值确定单元的另一阈值确定单元(图中未示出)。

该另一阈值确定单元被配置为：对于训练集里的每个样本，用N个二类分类器分别对其进行处理，得到用于描述该样本的、长度为N的特征串，其每一位为1或0；基于每个类的所有样本的特征串，计算该类的特征概率串，特征概率串为实数序列，长度为N，其第k个实数元素代表该类的样本被第k个二类分类器处理得到1的概率，其中，k大于或等于1且小于或等于N；对于训练集里的每个类，基于该类的特征概率串得到该类的特征串，类的特征串的长度为N，其每一位为1或0；准备验证集，验证集包括多个类别已知的样本，并且验证集里的样本不同于训练集里的样本，验证集里的样本包括属于训练集里的某个类的已知类样本和不属于训练集里的任何类的未知类样本；对验证集里的每个样本，用N个二类分类器分别对其进行处理，得到验证集里的每个样本的特征串，特征串的长度为N，其每一位为1或0；将训练集里的每个类的特征串与验证集里的每个样本的特征串进行比较并计算其之间的相似度或距离；对训练集里的每个类确定相似度阈值或距离阈值，使得已知类识别正确率与未知类识别正确率之和达到最高，其中，已知类识别正确率是正确识别的已知类样本在验证集里所有已知类样本中占的比例，未知类识别正确率是被判断为未知类的未知类样本在验证集里所有未知类样本中占的比例。

在一个示例中，分组单元402进一步被配置为：将给定训练集里的多个样本根据其所属类随机分为两组，具有相同类的样本位于相同的组中。

在另一个示例中，分组单元402进一步被配置为：将给定训练集里的多个样本分为包含特定特征和不包含特定特征的两组。

其中，阈值确定单元可以进一步被配置为：在计算训练集里的每个类的特征概率串与验证集里的每个样本的特征串之间的距离时，采用柔性汉明距离。

其中，另一阈值确定单元可以进一步被配置为：在计算训练集里的每个类的特征串与验证集里的每个样本的特征串之间的距离时，采用汉明距离。

其中，阈值确定单元可以进一步被配置为：通过采用柔性汉明距离实现增量学习。

关于模式识别模型的构建装置400的各个部分的操作和功能的细节可以参照结合图1-3描述的本发明的模式识别模型的构建方法的实施例，这里不再详细描述。

在此需要说明的是，图4所示的模式识别模型的构建装置400及其组成单元的结构仅仅是示例性的，本领域技术人员可以根据需要对图4所示的结构框图进行修改。

[3.模式识别方法和装置]

图5是示出了利用上述模式识别模型的构建方法和装置构建的模式识别模型进行模式识别的示例性过程的流程图。下面将结合图5具体说明模式识别方法500的过程。

首先，在步骤S502中，将待识别样本输入利用上述模式识别模型的构建方法构建的模式识别模型。

接着，在步骤S504中，用模式识别模型中的N个二类分类器对待识别样本进行处理，得到用于描述待识别样本的、长度为N的特征串，特征串的每一位为1或0。

在步骤S506中，计算待识别样本的特征串与模式识别模型中每个类的特征概率串的相似度或距离，或者计算待识别样本的特征串与模式识别模型中每个类的特征串的相似度或距离。

最后，在步骤S508中，根据所计算出的相似度或距离和模式识别模型中的每个类的相似度阈值或距离阈值，对待识别样本是否属于该类做出判断，根据每个类的判断结果得到待识别样本的识别结果。

具体地，对于某个类而言，如果待识别样本与该类的相似度大于该类的相似度阈值，或待识别样本与该类的距离小于该类的距离阈值，那么判断待识别样本属于该类，否则判断待识别样本不属于该类。

图6是示出了根据本发明的另一个实施例的利用上述模式识别模型的构建方法和装置构建的模式识别模型进行模式识别的装置600的示例性配置的框图。

如图6所示，模式识别装置600包括输入单元602、待识别样本处理单元604、相似度或距离计算单元606以及识别单元608。

输入单元602被配置为：将待识别样本输入利用上述模式识别模型的构建方法构建的模式识别模型。

待识别样本处理单元604被配置为：用模式识别模型中的N个二类分类器对待识别样本进行处理，得到用于描述待识别样本的、长度为N的特征串，特征串的每一位为1或0。

相似度或距离计算单元606被配置为：计算待识别样本的特征串与模式识别模型中每个类的特征概率串的相似度或距离，或者计算待识别样本的特征串与模式识别模型中每个类的特征串的相似度或距离。

识别单元608被配置为：根据所计算出的相似度或距离和模式识别模型中的每个类的相似度阈值或距离阈值，对待识别样本是否属于该类做出判断，根据每个类的判断结果得到待识别样本的识别结果。

[4.用以实施本申请的方法和装置的计算设备]

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图7所示的通用计算机700安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，也根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此链路。输入/输出接口705也链路到总线704。

下述部件链路到输入/输出接口705：输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如LAN卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要，驱动器710也可链路到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本领域的普通技术人员应理解，在此所例举的是示例性的，本发明并不局限于此。

在本说明书中，“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

作为一个示例，上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合，并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。

作为一个示例，在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

本发明及其优点，但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此，所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。

基于以上的说明，可知公开至少公开了以下技术方案：

附记1、一种模式识别模型的构建方法，包括：

将给定训练集里的多个样本分为两组，所述多个样本中的每个样本具有各自对应的类；

训练用于区分所述两组样本的二类分类器；

重复上述步骤N次，得到N个二类分类器，N为任意正整数；以及

将所述N个二类分类器进行组合来构建组合分类器用于模式识别。

附记2、根据附记1所述的方法，还包括确定每个类的阈值的步骤，包括：

对于所述训练集里的每个样本，用所述N个二类分类器分别对其进行处理，得到用于描述该样本的、长度为N的特征串，所述特征串的每一位为1或0；

基于每个类的所有样本的特征串，计算该类的特征概率串，所述特征概率串为实数序列，长度为N，其第k个实数元素代表该类的样本被第k个二类分类器处理得到1的概率，其中，k大于或等于1且小于或等于N；

准备验证集，所述验证集包括多个类别已知的样本，并且所述验证集里的样本不同于所述训练集里的样本，所述验证集里的样本包括属于所述训练集里的某个类的已知类样本和不属于所述训练集里的任何类的未知类样本；

对所述验证集里的每个样本，用所述N个二类分类器分别对其进行处理，得到所述验证集里的每个样本的特征串，所述特征串的长度为N，其每一位为1或0；

将所述训练集里的每个类的特征概率串与所述验证集里的每个样本的特征串进行比较并计算其之间的相似度或距离；以及

对所述训练集里每个类确定相似度阈值或距离阈值，使得已知类识别正确率与未知类识别正确率之和达到最高，其中，所述已知类识别正确率是正确识别的已知类样本在验证集里所有已知类样本中占的比例，所述未知类识别正确率是被判断为未知类的未知类样本在验证集里所有未知类样本中占的比例。

附记3、根据附记1所述的方法，还包括确定每个类的阈值的步骤，包括：

对于所述训练集里的每个样本，用所述N个二类分类器分别对其进行处理，得到用于描述该样本的、长度为N的特征串，其每一位为1或0；

对于所述训练集里的每个类，基于该类的特征概率串得到该类的特征串，类的特征串的长度为N，其每一位为1或0；

将所述训练集里的每个类的特征串与所述验证集里的每个样本的特征串进行比较并计算其之间的相似度或距离；以及

对所述训练集里的每个类确定相似度阈值或距离阈值，使得已知类识别正确率与未知类识别正确率之和达到最高，其中，所述已知类识别正确率是正确识别的已知类样本在验证集里所有已知类样本中占的比例，所述未知类识别正确率是被判断为未知类的未知类样本在验证集里所有未知类样本中占的比例。

附记4、根据附记1所述的方法，其中，将给定训练集里的多个样本分为两组包括：

将给定训练集里的多个样本根据其所属类随机分为两组，具有相同类的样本位于相同的组中。

附记5、根据附记1所述的方法，其中，将给定训练集里的多个样本分为两组包括：

将给定训练集里的多个样本分为包含特定特征和不包含特定特征的两组。

附记6、根据附记2所述的方法，其中，在计算所述训练集里的每个类的特征概率串与所述验证集里的每个样本的特征串的距离时，采用柔性汉明距离。

附记7、根据附记3所述的方法，其中，将所述训练集里的每个类的特征串与所述验证集里的每个样本的特征串进行比较时，采用汉明距离。

附记8、根据附记6所述的方法，其中，

通过采用柔性汉明距离实现增量学习。

附记9、根据附记1所述的方法，其中，所述方法用于开放集的识别。

附记10、根据附记1所述的方法，其中，利用卷积神经网络或者支持向量机来训练二类分类器。

附记11、一种模式识别模型的构建装置，包括：

分组单元，被配置为将给定训练集里的多个样本分为两组，所述多个样本中的每个样本具有各自对应的类；

二类分类器训练单元，被配置为训练用于区分所述两组样本的二类分类器；

重复控制单元，被配置为重复所述分组单元和所述二类分类器训练单元的操作N次，得到N个二类分类器，N为任意正整数；以及

组合分类器构建单元，被配置为将所述N个二类分类器进行组合来构建组合分类器用于模式识别。

附记12、根据附记11所述的装置，还包括阈值确定单元，所述阈值确定单元被配置为：

将所述训练集里每个类的特征概率串与所述验证集里每个样本的特征串进行比较并计算其之间的相似度或距离；以及

附记13、根据附记11所述的装置，还包括阈值确定单元，所述阈值确定单元被配置为：

附记14、根据附记11所述的装置，其中，所述分组单元进一步被配置为：

附记15、根据附记11所述的装置，其中，所述分组单元进一步被配置为：

附记16、根据附记12所述的装置，其中，所述阈值确定单元进一步被配置为：

在计算所述训练集里的每个类的特征概率串与所述验证集里的每个样本的特征串之间的距离时，采用柔性汉明距离。

附记17、根据附记13所述的装置，其中，所述阈值确定单元进一步被配置为：

在计算所述训练集里的每个类的特征串与所述验证集里的每个样本的特征串之间的距离时，采用汉明距离。

附记18、根据附记16所述的装置，其中，所述阈值确定单元进一步被配置为：

通过采用柔性汉明距离实现增量学习。

附记19、一种模式识别方法，包括：

将待识别样本输入根据附记1-10所述的方法构建的模式识别模型；

用所述模式识别模型中的N个二类分类器对所述待识别样本进行处理，得到用于描述所述待识别样本的、长度为N的特征串，所述特征串的每一位为1或0；

计算所述待识别样本的特征串与所述模式识别模型中每个类的特征概率串的相似度或距离，或者计算所述待识别样本的特征串与所述模式识别模型中每个类的特征串的相似度或距离；以及

根据所计算出的相似度或距离和所述模式识别模型中的每个类的相似度阈值或距离阈值，对所述待识别样本是否属于该类做出判断，根据每个类的判断结果得到所述待识别样本的识别结果。

Claims

1.一种模式识别模型的构建方法，包括：

训练用于区分所述两组样本的二类分类器；

2.根据权利要求1所述的方法，还包括确定每个类的阈值的步骤，包括：

准备验证集，所述验证集包括多个类别已知的样本，并且所述验证集里的样本不同于所述训练集里的样本，所述验证集里的样本包括属于所述训练集里某个类的已知类样本和不属于所述训练集里任何类的未知类样本；

对所述验证集里的每个样本，用所述N个二类分类器分别对其进行处理，得到所述验证集里每个样本的特征串，所述特征串的长度为N，其每一位为1或0；

3.根据权利要求1所述的方法，还包括确定每个类的阈值的步骤，包括：

将所述训练集里每个类的特征串与所述验证集里每个样本的特征串进行比较并计算其之间的相似度或距离；以及

4.根据权利要求1所述的方法，其中，将给定训练集里的多个样本分为两组包括：

5.根据权利要求1所述的方法，其中，将给定训练集里的多个样本分为两组包括：

6.根据权利要求2所述的方法，其中，在计算所述训练集里每个类的特征概率串与所述验证集里每个样本的特征串的距离时，采用柔性汉明距离。

7.根据权利要求3所述的方法，其中，将所述训练集里每个类的特征串与所述验证集里每个样本的特征串进行比较时，采用汉明距离。

8.根据权利要求6所述的方法，其中，

通过采用柔性汉明距离实现增量学习。

9.一种模式识别模型的构建装置，包括：

10.一种模式识别方法，包括：

将待识别样本输入根据权利要求1-8所述的方法构建的模式识别模型；

根据所计算出的相似度或距离以及所述模式识别模型中的每个类的相似度阈值或距离阈值，对所述待识别样本是否属于该类做出判断，根据每个类的判断结果得到所述待识别样本的识别结果。