CN106980872A - 基于投票委员会的k最近邻分类方法 - Google Patents

基于投票委员会的k最近邻分类方法 Download PDF

Info

Publication number
CN106980872A
CN106980872A CN201710085831.7A CN201710085831A CN106980872A CN 106980872 A CN106980872 A CN 106980872A CN 201710085831 A CN201710085831 A CN 201710085831A CN 106980872 A CN106980872 A CN 106980872A
Authority
CN
China
Prior art keywords
group
polling
committee
coefficient correlation
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710085831.7A
Other languages
English (en)
Inventor
史皓天
刘烨航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing One-Dimensional Chord Technology Co Ltd
Original Assignee
Beijing One-Dimensional Chord Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing One-Dimensional Chord Technology Co Ltd filed Critical Beijing One-Dimensional Chord Technology Co Ltd
Priority to CN201710085831.7A priority Critical patent/CN106980872A/zh
Publication of CN106980872A publication Critical patent/CN106980872A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于投票委员会的k最近邻分类方法,包括:建立分类数据库,其中存在M种物体类别,每种物体类别由至少一个第一特征向量表示;获取表示类别待确定的物体的第二特征向量;将第二特征向量与M组第一特征向量分别进行对比,计算相关系数,得到M组相关系数,且每组包括N个相关系数;将每组中的N个相关系数按照从高到低的顺序排列,选取前A个相关系数组成投票委员会;分别对每组中的A个相关系数进行加权相加,得到M组加权和;以及选取加权和值最高的一组和加权和值次高的一组,在最高加权和值减去次高加权和值的差值不小于差值阈值,且最高的加权和值不小于决定阈值的情况下,将第二特征向量所表示的物体归属为最高加权和值表示的物体类别。

Description

基于投票委员会的k最近邻分类方法
技术领域
本发明涉及一种基于投票委员会的k最近邻分类方法。
背景技术
在一般的物体识别方法中,在得出目标物体的特征信息之后,需要将此特征信息与已知数据库中表示物体的类别的特征信息进行比较,方能做出判断目标物体的类别。一般对于多分类问题而言,KNN分类方法是一个简单且有效的分类方法。
传统KNN分类方法的做法是,将数据库中不同的类别形成一个特征空间,每个类别的特征向量单独形成一个独立的区域。当希望对表示某种物体的新得到的特征向量进行分类时,需计算新特征向量到每个类别的特征向量组成的区域的距离(设其距离为Dmin),当新特征向量到A类别的特征向量组成的区域的距离最小时,将该新特征向量所表述的物体归属于A类别。需要对Dmin进行衡量,为此需确定一个阈值,当Dmin大于该阈值时,分类结果将被舍弃,即认为新特征向量不属于原数据库中的任何一种类别。
KNN分类方法在类别决策时,只与极少量的相邻样本有关。由于KNN分类方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因而无需估计参数,无需训练,对于类域的交叉或重叠较多的待分样本集来说,KNN分类方法较其他方法更为适合。
但是,这种传统做法逻辑简单,但是分类能力较差,分类能力主要取决于用于分类的特征向量的强弱,但数据库类别较多或特征向量的描述性不够强时,常陷入到无法确定阈值、分类效果差的情况。常用的KNN分类方法往往缺乏有效的阈值确定方式,而难以有效的工作。对于家用移动机器人的实际应用而言,这远远不能满足要求。
发明内容
本发明的目的旨在解决现有技术中存在的上述问题和缺陷的至少一个方面。
根据本发明的一个方面,提供一种基于投票委员会的K最近邻分类方法,包括如下的步骤:
S1:建立分类数据库,在所述分类数据库中存在M种物体类别,M为大于1的整数,每种物体类别由至少一个第一特征向量表示;
S2:获取表示类别待确定的物体的第二特征向量;
S3:将第二特征向量与分类数据库中的表示M种物体类别的M组第一特征向量分别进行对比,并计算它们之间的相关系数,得到M组相关系数,每组相关系数中包括N个相关系数,N为大于1的整数;
S4:针对M组相关系数的每一组中,将相关系数按照从高到低的顺序排列,选取前A个相关系数组成投票委员会,A为小于等于N的正整数,从而组成M组投票委员会;
S5:针对M组投票委员会,分别对每组中的A个相关系数进行加权相加,得到M组加权和;以及
S6:从M组加权和中选取加权和值最高的一组和加权和值次高的一组,在最高的加权和值减去次高的加权和值的差值大于或等于差值阈值,且最高的加权和值大于或等于决定阈值的情况下,将第二特征向量所表示的物体类别归属为最高的加权和值所表示的物体类别,否则认为类别待确定的物体不属于分类数据库中的M种物体类别中的任一种。
在根据本发明的一个优选实施例中,在步骤S2中,如果M组相关系数的一组中的最大相关系数小于特定阈值,则舍弃该组相关系数,对剩余的若干组相关系数执行步骤S3至S6中的处理,所述特定阈值位于0.1至0.6之间。
在根据本发明的一个优选实施例中,所述差值阈值位于0.15至0.3的范围内。
在根据本发明的一个优选实施例中,所述决定阈值位于1至3的范围内。
在根据本发明的一个优选实施例中,所述相关系数是欧式距离、余弦距离或皮尔森相关系数中的一种。
在根据本发明的一个优选实施例中,所述相关系数为皮尔森系数。
在根据本发明的一个优选实施例中,加权方式是线性加权、指数加权、Sigmoid型加权中的一种。
在根据本发明的一个优选实施例中,加权方式是sigmoid型加权。
通过根据本发明的基于投票委员会的k最近邻分类算法,通过规定最高的加权和值和次高的加权和值之间的差值需大于或等于差值阈值,并且最高的加权和值需大于或等于决定阈值,那么通过两个阈值的限定可以更加精确地确定物体所归属的类别,大大提高了分类的准确度。
附图说明
图1是根据本发明的示例性实施例的基于投票委员会的k最近邻分类方法的流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。下述参照附图对本发明实施方式的说明旨在对本发明的总体发明构思进行解释,而不应当理解为对本发明的一种限制。
另外,在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本披露实施例的全面理解。然而明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。
根据本发明的总的发明构思,提供一种基于投票委员会的k最近邻分类方法,包括如下的步骤:
S1:建立分类数据库,在所述分类数据库中存在M种物体类别,M为大于1的整数,每种物体类别由至少一个第一特征向量表示;
S2:获取表示类别待确定的物体的第二特征向量;
S3:将第二特征向量与分类数据库中的表示M种物体类别的M组第一特征向量分别进行对比,并计算它们之间的相关系数,得到M组相关系数,每组相关系数中包括N个相关系数,N为大于1的整数;
S4:针对M组相关系数的每一组中,将相关系数按照从高到低的顺序排列,选取前A个相关系数组成投票委员会,A为小于等于N的正整数,从而组成M组投票委员会;
S5:针对M组投票委员会,分别对每组中的A个相关系数进行加权相加,得到M组加权和;以及
S6:从M组加权和中选取加权和值最高的一组和加权和值次高的一组,在最高的加权和值减去次高的加权和值的差值大于或等于差值阈值,且最高的加权和值大于或等于决定阈值的情况下,将第二特征向量所表示的物体类别归属为最高的加权和值所表示的物体类别,否则认为类别待确定的物体不属于分类数据库中的M种物体类别中的任一种。
通过根据本发明的基于投票委员会的k最近邻分类算法,通过规定最高的加权和值和次高的加权和值之间的差值需大于或等于差值阈值,并且最高的加权和值需大于或等于决定阈值,那么通过两个阈值的限定可以更加精确地确定物体所归属的类别,大大提高了分类的准确度。此外,在分类数据库中,当同一物体的样本是基于多个角度、多个距离、多种光照条件下获得的图片时,分类数据库中同一物体可以由多个不同的第一特征向量表示,根据本发明的基于投票委员会的k最近邻分类算法利用了多角度样本间的共性,为适应多种类多角度分类提供了良好的基础。
在根据本发明的一个示例性实施例中,在步骤S2中,如果M组相关系数的一组中的最大相关系数小于特定阈值,则舍弃该组相关系数,对剩余的若干组相关系数执行步骤S3至S6中的处理,所述特定阈值位于0.1至0.6之间。通过限定该相关系数的阈值,可以初步排除明显不合适的物体类别,例如如果第二特征向量和某组第一特征向量之间的相关系数都小于0.1,那么可以认为第二特征向量所表示的物体明显不是该组第一特征向量所表示的物体。通过初步筛选可以降低该方法的计算量。
在根据本发明的一个示例性实施例中,所述差值阈值位于0.15至0.3的范围内。具体的差值阈值的值可以根据实际情况而定。如上的范围只是差值阈值的优选范围。
在根据本发明的一个示例性实施例中,所述决定阈值位于1至3的范围内。具体的决定阈值的值可以根据实际情况而定。如上的范围只是决定阈值的优选范围。
在根据本发明的一个示例性实施例中,所述相关系数是欧式距离、余弦距离或皮尔森相关系数中的一种。如上仅仅列举出了相关系数的优选实施例,能够计算相关系数的所有计算方式均应落在本发明的保护范围之内。
在根据本发明的一个优选实施例中,所述相关系数为皮尔森系数,其计算式由如下的计算式表示:
R表示X,Y两个长度为n的向量的相关性,为X向量的均值,为Y向量的均值,Xi和Yi为X向量和Y向量中的第i个元素。
在根据本发明的一个示例性实施例中,加权方式是线性加权、指数加权、Sigmoid型加权中的一种。如上仅仅列举出了加权方式的优选实施例,能够计算权重值的所有计算方式均应落在本发明的保护范围之内。
在根据本发明的一个优选实施例中,加权方式是Sigmoid型加权,sigmoid型加权的权重值由如下的等式表示:
其中,i为整数,且0≤i≤A-1,i与0至A-1中的整数一一对应。
本领域的技术人员可以理解,上面所描述的实施例都是示例性的,并且本领域的技术人员可以对其进行改进,各种实施例中所描述的结构在不发生结构或者原理方面的冲突的情况下可以进行自由组合。
虽然结合附图对本发明进行了说明,但是附图中公开的实施例旨在对本发明优选实施方式进行示例性说明,而不能理解为对本发明的一种限制。
虽然本总体发明构思的一些实施例已被显示和说明,本领域普通技术人员将理解,在不背离本总体发明构思的原则和精神的情况下,可对这些实施例做出改变,本发明的范围以权利要求和它们的等同物限定。
应注意,措词“包括”不排除其它元件或步骤,措词“一”或“一个”不排除多个。另外,权利要求的任何元件标号不应理解为限制本发明的范围。

Claims (8)

1.一种基于投票委员会的k最近邻分类方法,包括如下的步骤:
S1:建立分类数据库,在所述分类数据库中存在M种物体类别,M为大于1的整数,每种物体类别由至少一个第一特征向量表示;
S2:获取表示类别待确定的物体的第二特征向量;
S3:将第二特征向量与分类数据库中的表示M种物体类别的M组第一特征向量分别进行对比,并计算它们之间的相关系数,得到M组相关系数,每组相关系数中包括N个相关系数,N为大于1的整数;
S4:针对M组相关系数的每一组中,将相关系数按照从高到低的顺序排列,选取前A个相关系数组成投票委员会,A为小于等于N的正整数,从而组成M组投票委员会;
S5:针对M组投票委员会,分别对每组中的A个相关系数进行加权相加,得到M组加权和;以及
S6:从M组加权和中选取加权和值最高的一组和加权和值次高的一组,在最高的加权和值减去次高的加权和值的差值大于或等于差值阈值,且最高的加权和值大于或等于决定阈值的情况下,将第二特征向量所表示的物体类别归属为最高的加权和值所表示的物体类别,否则认为类别待确定的物体不属于分类数据库中的M种物体类别中的任一种。
2.根据权利要求1所述基于投票委员会的k最近邻分类算法,其中,在步骤S2中,如果M组相关系数的一组中的最大相关系数小于特定阈值,则舍弃该组相关系数,对剩余的若干组相关系数执行步骤S3至S6中的处理,所述特定阈值位于0.1至0.6之间。
3.根据权利要求1所述基于投票委员会的k最近邻分类方法,其中,所述差值阈值位于0.15至0.3的范围内。
4.根据权利要求1所述基于投票委员会的k最近邻分类方法,其中,所述决定阈值位于1至3的范围内。
5.根据权利要求1所述基于投票委员会的k最近邻分类方法,其中,所述相关系数是欧式距离、余弦距离或皮尔森相关系数中的一种。
6.根据权利要求1所述基于投票委员会的k最近邻分类方法,其中,所述相关系数为皮尔森系数,其计算式由如下的计算式表示:
R = Σ i = 1 n ( X i - X ‾ ) * ( Y i - Y ‾ ) Σ i = 1 n ( X i - X ‾ ) 2 * Σ i = 1 n ( Y i - Y ‾ ) 2
R表示X,Y两个长度为n的向量的相关性,为X向量的均值,为Y向量的均值,Xi和Yi为X向量和Y向量中的第i个元素。
7.根据权利要求1所述基于投票委员会的k最近邻分类方法,其中,加权方式是线性加权、指数加权、Sigmoid型加权中的一种。
8.根据权利要求1所述基于投票委员会的k最近邻分类方法,其中,加权方式是sigmoid型加权,其权重值由如下的等式表示:
X i = 1 1 + e i / 5
其中,i为整数,且0≤i≤A-1,i与0至A-1中的整数一一对应。
CN201710085831.7A 2017-02-17 2017-02-17 基于投票委员会的k最近邻分类方法 Pending CN106980872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710085831.7A CN106980872A (zh) 2017-02-17 2017-02-17 基于投票委员会的k最近邻分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710085831.7A CN106980872A (zh) 2017-02-17 2017-02-17 基于投票委员会的k最近邻分类方法

Publications (1)

Publication Number Publication Date
CN106980872A true CN106980872A (zh) 2017-07-25

Family

ID=59338260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710085831.7A Pending CN106980872A (zh) 2017-02-17 2017-02-17 基于投票委员会的k最近邻分类方法

Country Status (1)

Country Link
CN (1) CN106980872A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596251A (zh) * 2018-04-25 2018-09-28 中国地质大学(北京) 一种基于委员会机器利用测井数据进行储层流体识别方法
CN109190803A (zh) * 2018-08-14 2019-01-11 北京粉笔未来科技有限公司 预测方法、装置、计算设备及存储介质
CN109598211A (zh) * 2018-11-16 2019-04-09 恒安嘉新(北京)科技股份公司 一种实时动态人脸识别方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596251A (zh) * 2018-04-25 2018-09-28 中国地质大学(北京) 一种基于委员会机器利用测井数据进行储层流体识别方法
CN109190803A (zh) * 2018-08-14 2019-01-11 北京粉笔未来科技有限公司 预测方法、装置、计算设备及存储介质
CN109190803B (zh) * 2018-08-14 2020-08-25 北京猿力未来科技有限公司 预测方法、装置、计算设备及存储介质
CN109598211A (zh) * 2018-11-16 2019-04-09 恒安嘉新(北京)科技股份公司 一种实时动态人脸识别方法及系统

Similar Documents

Publication Publication Date Title
Wang et al. An approach to multiattribute decision making with interval-valued intuitionistic fuzzy assessments and incomplete weights
Herbert et al. Game-theoretic rough sets
CN104462827B (zh) 一种综合评价中指标权重的柔性耦合方法
CN110751121B (zh) 基于聚类与sofm的无监督雷达信号分选方法
CN102750286B (zh) 一种处理缺失数据的新型决策树分类器方法
CN104751469B (zh) 基于核模糊c均值聚类的图像分割方法
CN106228389A (zh) 基于随机森林算法的网络潜力用户挖掘方法及系统
CN101256631B (zh) 一种字符识别的方法、装置
CN101894270A (zh) 面向遥感影像分类的样本自动选取方法
CN106980872A (zh) 基于投票委员会的k最近邻分类方法
CN110533116A (zh) 基于欧式距离的自适应集成的不平衡数据分类方法
CN106384119A (zh) 一种利用方差分析确定k值的k‑均值聚类改进算法
CN104915679A (zh) 一种基于随机森林加权距离的大规模高维数据分类方法
CN103679207A (zh) 一种手写体数字识别方法及系统
CN106599924A (zh) 一种基于三支决策的分类器构建方法
Phate et al. Clustered ANFIS weighing models for sweet lime (Citrus limetta) using computer vision system
CN107770813A (zh) 基于pca与二维偏度特征的lte上行干扰分类方法
CN107451617A (zh) 一种图转导半监督分类方法
CN107592635B (zh) 认知无线电中基于som神经网络的恶意用户判别方法
Xu et al. Bidirectional matrix feature pyramid network for object detection
Kato et al. Considerations on rule induction procedures by STRIM and their relationship to VPRS
CN107562778A (zh) 一种基于偏离特征的离群点挖掘方法
Ahani et al. A hybrid regionalization method based on canonical correlation analysis and cluster analysis: a case study in northern Iran
CN110516741A (zh) 基于动态分类器选择的类别重叠不平衡数据分类方法
US20240160196A1 (en) Hybrid model creation method, hybrid model creation device, and recording medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170725

WD01 Invention patent application deemed withdrawn after publication