CN106980872A

CN106980872A - 基于投票委员会的k最近邻分类方法

Info

Publication number: CN106980872A
Application number: CN201710085831.7A
Authority: CN
Inventors: 史皓天; 刘烨航
Original assignee: Beijing One-Dimensional Chord Technology Co Ltd
Current assignee: Beijing One-Dimensional Chord Technology Co Ltd
Priority date: 2017-02-17
Filing date: 2017-02-17
Publication date: 2017-07-25

Abstract

一种基于投票委员会的k最近邻分类方法，包括：建立分类数据库，其中存在M种物体类别，每种物体类别由至少一个第一特征向量表示；获取表示类别待确定的物体的第二特征向量；将第二特征向量与M组第一特征向量分别进行对比，计算相关系数，得到M组相关系数，且每组包括N个相关系数；将每组中的N个相关系数按照从高到低的顺序排列，选取前A个相关系数组成投票委员会；分别对每组中的A个相关系数进行加权相加，得到M组加权和；以及选取加权和值最高的一组和加权和值次高的一组，在最高加权和值减去次高加权和值的差值不小于差值阈值，且最高的加权和值不小于决定阈值的情况下，将第二特征向量所表示的物体归属为最高加权和值表示的物体类别。

Description

基于投票委员会的k最近邻分类方法

技术领域

本发明涉及一种基于投票委员会的k最近邻分类方法。

背景技术

在一般的物体识别方法中，在得出目标物体的特征信息之后，需要将此特征信息与已知数据库中表示物体的类别的特征信息进行比较，方能做出判断目标物体的类别。一般对于多分类问题而言，KNN分类方法是一个简单且有效的分类方法。

传统KNN分类方法的做法是，将数据库中不同的类别形成一个特征空间，每个类别的特征向量单独形成一个独立的区域。当希望对表示某种物体的新得到的特征向量进行分类时，需计算新特征向量到每个类别的特征向量组成的区域的距离(设其距离为Dmin)，当新特征向量到A类别的特征向量组成的区域的距离最小时，将该新特征向量所表述的物体归属于A类别。需要对Dmin进行衡量，为此需确定一个阈值，当Dmin大于该阈值时，分类结果将被舍弃，即认为新特征向量不属于原数据库中的任何一种类别。

KNN分类方法在类别决策时，只与极少量的相邻样本有关。由于KNN分类方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因而无需估计参数，无需训练，对于类域的交叉或重叠较多的待分样本集来说，KNN分类方法较其他方法更为适合。

但是，这种传统做法逻辑简单，但是分类能力较差，分类能力主要取决于用于分类的特征向量的强弱，但数据库类别较多或特征向量的描述性不够强时，常陷入到无法确定阈值、分类效果差的情况。常用的KNN分类方法往往缺乏有效的阈值确定方式，而难以有效的工作。对于家用移动机器人的实际应用而言，这远远不能满足要求。

发明内容

本发明的目的旨在解决现有技术中存在的上述问题和缺陷的至少一个方面。

根据本发明的一个方面，提供一种基于投票委员会的K最近邻分类方法，包括如下的步骤：

S1：建立分类数据库，在所述分类数据库中存在M种物体类别，M为大于1的整数，每种物体类别由至少一个第一特征向量表示；

S2：获取表示类别待确定的物体的第二特征向量；

S3：将第二特征向量与分类数据库中的表示M种物体类别的M组第一特征向量分别进行对比，并计算它们之间的相关系数，得到M组相关系数，每组相关系数中包括N个相关系数，N为大于1的整数；

S4：针对M组相关系数的每一组中，将相关系数按照从高到低的顺序排列，选取前A个相关系数组成投票委员会，A为小于等于N的正整数，从而组成M组投票委员会；

S5：针对M组投票委员会，分别对每组中的A个相关系数进行加权相加，得到M组加权和；以及

S6：从M组加权和中选取加权和值最高的一组和加权和值次高的一组，在最高的加权和值减去次高的加权和值的差值大于或等于差值阈值，且最高的加权和值大于或等于决定阈值的情况下，将第二特征向量所表示的物体类别归属为最高的加权和值所表示的物体类别，否则认为类别待确定的物体不属于分类数据库中的M种物体类别中的任一种。

在根据本发明的一个优选实施例中，在步骤S2中，如果M组相关系数的一组中的最大相关系数小于特定阈值，则舍弃该组相关系数，对剩余的若干组相关系数执行步骤S3至S6中的处理，所述特定阈值位于0.1至0.6之间。

在根据本发明的一个优选实施例中，所述差值阈值位于0.15至0.3的范围内。

在根据本发明的一个优选实施例中，所述决定阈值位于1至3的范围内。

在根据本发明的一个优选实施例中，所述相关系数是欧式距离、余弦距离或皮尔森相关系数中的一种。

在根据本发明的一个优选实施例中，所述相关系数为皮尔森系数。

在根据本发明的一个优选实施例中，加权方式是线性加权、指数加权、Sigmoid型加权中的一种。

在根据本发明的一个优选实施例中，加权方式是sigmoid型加权。

通过根据本发明的基于投票委员会的k最近邻分类算法，通过规定最高的加权和值和次高的加权和值之间的差值需大于或等于差值阈值，并且最高的加权和值需大于或等于决定阈值，那么通过两个阈值的限定可以更加精确地确定物体所归属的类别，大大提高了分类的准确度。

附图说明

图1是根据本发明的示例性实施例的基于投票委员会的k最近邻分类方法的流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。下述参照附图对本发明实施方式的说明旨在对本发明的总体发明构思进行解释，而不应当理解为对本发明的一种限制。

另外，在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本披露实施例的全面理解。然而明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。

根据本发明的总的发明构思，提供一种基于投票委员会的k最近邻分类方法，包括如下的步骤：

S2：获取表示类别待确定的物体的第二特征向量；

通过根据本发明的基于投票委员会的k最近邻分类算法，通过规定最高的加权和值和次高的加权和值之间的差值需大于或等于差值阈值，并且最高的加权和值需大于或等于决定阈值，那么通过两个阈值的限定可以更加精确地确定物体所归属的类别，大大提高了分类的准确度。此外，在分类数据库中，当同一物体的样本是基于多个角度、多个距离、多种光照条件下获得的图片时，分类数据库中同一物体可以由多个不同的第一特征向量表示，根据本发明的基于投票委员会的k最近邻分类算法利用了多角度样本间的共性，为适应多种类多角度分类提供了良好的基础。

在根据本发明的一个示例性实施例中，在步骤S2中，如果M组相关系数的一组中的最大相关系数小于特定阈值，则舍弃该组相关系数，对剩余的若干组相关系数执行步骤S3至S6中的处理，所述特定阈值位于0.1至0.6之间。通过限定该相关系数的阈值，可以初步排除明显不合适的物体类别，例如如果第二特征向量和某组第一特征向量之间的相关系数都小于0.1，那么可以认为第二特征向量所表示的物体明显不是该组第一特征向量所表示的物体。通过初步筛选可以降低该方法的计算量。

在根据本发明的一个示例性实施例中，所述差值阈值位于0.15至0.3的范围内。具体的差值阈值的值可以根据实际情况而定。如上的范围只是差值阈值的优选范围。

在根据本发明的一个示例性实施例中，所述决定阈值位于1至3的范围内。具体的决定阈值的值可以根据实际情况而定。如上的范围只是决定阈值的优选范围。

在根据本发明的一个示例性实施例中，所述相关系数是欧式距离、余弦距离或皮尔森相关系数中的一种。如上仅仅列举出了相关系数的优选实施例，能够计算相关系数的所有计算方式均应落在本发明的保护范围之内。

在根据本发明的一个优选实施例中，所述相关系数为皮尔森系数，其计算式由如下的计算式表示：

R表示X，Y两个长度为n的向量的相关性，为X向量的均值，为Y向量的均值，X_i和Y_i为X向量和Y向量中的第i个元素。

在根据本发明的一个示例性实施例中，加权方式是线性加权、指数加权、Sigmoid型加权中的一种。如上仅仅列举出了加权方式的优选实施例，能够计算权重值的所有计算方式均应落在本发明的保护范围之内。

在根据本发明的一个优选实施例中，加权方式是Sigmoid型加权，sigmoid型加权的权重值由如下的等式表示：

其中，i为整数，且0≤i≤A-1，i与0至A-1中的整数一一对应。

本领域的技术人员可以理解，上面所描述的实施例都是示例性的，并且本领域的技术人员可以对其进行改进，各种实施例中所描述的结构在不发生结构或者原理方面的冲突的情况下可以进行自由组合。

虽然结合附图对本发明进行了说明，但是附图中公开的实施例旨在对本发明优选实施方式进行示例性说明，而不能理解为对本发明的一种限制。

虽然本总体发明构思的一些实施例已被显示和说明，本领域普通技术人员将理解，在不背离本总体发明构思的原则和精神的情况下，可对这些实施例做出改变，本发明的范围以权利要求和它们的等同物限定。

应注意，措词“包括”不排除其它元件或步骤，措词“一”或“一个”不排除多个。另外，权利要求的任何元件标号不应理解为限制本发明的范围。

Claims

1.一种基于投票委员会的k最近邻分类方法，包括如下的步骤：

S2：获取表示类别待确定的物体的第二特征向量；

2.根据权利要求1所述基于投票委员会的k最近邻分类算法，其中，在步骤S2中，如果M组相关系数的一组中的最大相关系数小于特定阈值，则舍弃该组相关系数，对剩余的若干组相关系数执行步骤S3至S6中的处理，所述特定阈值位于0.1至0.6之间。

3.根据权利要求1所述基于投票委员会的k最近邻分类方法，其中，所述差值阈值位于0.15至0.3的范围内。

4.根据权利要求1所述基于投票委员会的k最近邻分类方法，其中，所述决定阈值位于1至3的范围内。

5.根据权利要求1所述基于投票委员会的k最近邻分类方法，其中，所述相关系数是欧式距离、余弦距离或皮尔森相关系数中的一种。

6.根据权利要求1所述基于投票委员会的k最近邻分类方法，其中，所述相关系数为皮尔森系数，其计算式由如下的计算式表示：

R = \frac{Σ_{i = 1}^{n} (X_{i} - \overset{&OverBar;}{X}) * (Y_{i} - \overset{&OverBar;}{Y})}{\sqrt{Σ_{i = 1}^{n} {(X_{i} - \overset{&OverBar;}{X})}^{2}} * \sqrt{Σ_{i = 1}^{n} {(Y_{i} - \overset{&OverBar;}{Y})}^{2}}}

7.根据权利要求1所述基于投票委员会的k最近邻分类方法，其中，加权方式是线性加权、指数加权、Sigmoid型加权中的一种。

8.根据权利要求1所述基于投票委员会的k最近邻分类方法，其中，加权方式是sigmoid型加权，其权重值由如下的等式表示：

X_{i} = \frac{1}{1 + e^{i / 5}}

其中，i为整数，且0≤i≤A-1，i与0至A-1中的整数一一对应。