CN106845537A - 一种基于自适应阈值的分类器半径确定方法及装置 - Google Patents
一种基于自适应阈值的分类器半径确定方法及装置 Download PDFInfo
- Publication number
- CN106845537A CN106845537A CN201710012563.6A CN201710012563A CN106845537A CN 106845537 A CN106845537 A CN 106845537A CN 201710012563 A CN201710012563 A CN 201710012563A CN 106845537 A CN106845537 A CN 106845537A
- Authority
- CN
- China
- Prior art keywords
- training data
- data
- category
- determining
- radius
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 448
- 239000012535 impurity Substances 0.000 claims abstract description 51
- 238000012360 testing method Methods 0.000 claims description 97
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000001960 triggered effect Effects 0.000 claims description 4
- 241001269238 Data Species 0.000 abstract 2
- 238000013507 mapping Methods 0.000 description 6
- 239000010749 BS 2869 Class C1 Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 241000219109 Citrullus Species 0.000 description 2
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 2
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 description 1
- 239000010750 BS 2869 Class C2 Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种基于自适应阈值的分类器半径确定方法及装置,方法包括:获取各类别的训练数据;针对任一目标训练数据,计算目标训练数据与其他训练数据的欧式距离;按照所计算得到的欧式距离从小到大的顺序,对其他训练数据进行排序;按照排序结果,判断第一次出现的其他类别中的训练数据是否为特殊异类数据;如果是,将该训练数据之后的最小不纯度对应的第一训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径;如果否,将第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径。应用本发明实施例,通过对特殊异类数据进行判断,可以准确的确定分类器半径,进而能够准确的对数据进行分类。
Description
技术领域
本发明涉及机器学习技术领域,特别是涉及一基于自适应阈值的分类器半径确定方法及装置。
背景技术
数据分类问题就是根据数据的属性或特征,对数据所归属的类别进行判定。例如,根据一个西瓜的一些属性,包括颜色、花纹、大小、拍打声音等,把西瓜归属为“熟”或“不熟”两个类别中的一个。数据分类方法的基础思想是,选取一些已知类别的训练数据,训练分类器,之后利用分类器,对未知类别的测试数据进行分类。然后根据各个分类器的判断结果,计算测试数据属于每种类别的置信度,最后将测试数据归属于置信度最大的类别。
现有技术中,Armanfard提出了LFS特征选择算法,该算法中,首先训练了针对每个训练数据的聚类情况进行分类的分类器,并根据阈值与不纯度的关系,确定了每个分类器的半径,之后利用分类器的半径,对未知类别的测试数据进行分类。
具体地,LFS特征选择算法中,根据阈值与不纯度的关系,确定分类器半径的过程包括:首先,选取一些已知类别的训练数据,即选取的训练数据归属的类别有多种,且每一种类别均有一个训练数据集合,并根据训练数据特征,给定一阈值。然后,在某一类别的训练数据集合中选取一个训练数据作为选定训练数据,确定选定训练数据与选取的其他训练数据的欧式距离,并按照欧式距离从小到大的顺序,将其他训练数据进行排序。之后,按照该顺序,逐个计算每个训练数据对应的不纯度,并判断不纯度是否大于阈值,如果是,将该不纯度对应的训练数据与选定训练数据的欧式距离确定为选定训练数据的分类器半径。其中,计算任一训练数据对应的不纯度时应用的训练数据包括该训练数据以及排序在该训练数据之前的所有训练数据,不纯度为不属于该类别的数据数量与属于该类别的数据数量之比。循环选取选定训练数据的过程,直至计算出每个训练数据的分类器半径。
在LFS特征选择算法中,选取的已知类别的训练数据中可能包括选定训练数据的特殊异类数据,特殊异类数据与选定训练数据相似,但不属于同一个类别,其与选定训练数据的欧式距离较小,即在欧式距离从小到大的排序中,特殊异类数据可能会排在选定训练数据的同类训练数据前面,也就是说,特殊异类数据后面还会有很多选定训练数据的同类训练数据。这样的话,由于特殊异类数据的存在,导致特殊异类数据对应的不纯度或特殊异类数据之后较小范围内的训练数据对应的不纯度大于阈值,进而导致选定训练数据的分类器半径较小,致使该分类器对测试数据的分类结果不准确,从而导致最后确定测试数据的类别不准确。
发明内容
本发明实施例的目的在于提供一种基于自适应阈值的分类器半径确定方法及装置,以准确的确定训练数据的分类器半径,进而能够准确的对数据进行分类。具体技术方案如下:
一种基于自适应阈值的分类器半径确定方法,包括:
获取各类别的训练数据;
针对任一类别中的任一目标训练数据,计算所述目标训练数据与其他训练数据的欧式距离,其中,所述其他训练数据包括该类别中除所述目标训练数据之外的其他训练数据以及其他类别中的各训练数据;
按照所计算得到的欧式距离从小到大的顺序,对所述其他训练数据进行排序;
按照排序结果,判断第一次出现的其他类别中的训练数据是否为特殊异类数据;
如果是,按照所述排序结果,计算该训练数据之后的各训练数据对应的不纯度,并将该训练数据之后的最小不纯度对应的第一训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径;
如果否,按照所述排序结果,依次计算该训练数据之后的训练数据对应的不纯度,直到确定第二训练数据,将所述第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径;其中,所述第二训练数据对应的不纯度小于等于预设阈值,所述第二训练数据的后一个训练数据对应的不纯度大于所述阈值。
可选地,所述判断第一次出现的其他类别中的训练数据是否为特殊异类数据包括:
根据所述排序结果,确定该训练数据的位数a;
判断是否满足或a=1,如果是,则该训练数据为特殊异类数据,其中,所述τ为所述预设阈值。
可选地,所述方法还包括:
获取测试数据;
针对每个类别,计算该类别中各个训练数据与所述测试数据的欧氏距离;
根据该类别中各个训练数据对应的欧氏距离,以及该训练数据的分类器半径,确定所述训练数据针对所述测试数据的分类信息,其中,所述分类信息包括所述训练数据与所述测试数据属于同一类别或不属于同一类别;
根据该类别中各个训练数据针对所述测试数据的分类信息,确定所述测试数据属于该类别的置信度;
确定所述测试数据属于最大置信度对应的类别。
可选地,所述根据该类别中各个训练数据对应的欧氏距离,以及该训练数据的分类器半径,确定所述训练数据针对所述测试数据的分类信息包括:
针对该类别中每个训练数据,根据以下公式,确定该训练数据针对所述测试数据的分类信息:
其中,所述r(i)是该训练数据x(i)的分类器半径,所述dqi为该训练数据x(i)与所述测试数据x(q)的欧氏距离,所述s(i)(x(q))为该训练数据x(i)针对所述测试数据x(q)的分类信息。
可选地,所述根据该类别中各个训练数据针对所述测试数据的分类信息,确定所述测试数据属于该类别的置信度包括:
根据以下公式,确定所述测试数据属于该类别的置信度:
其中,所述为所述测试数据x(q)属于该类别Cl的置信度,所述|Cl|是所述类别Cl中包括的训练数据x(i)的数量。
为达到上述目的,本发明实施例还提供了一种基于自适应阈值的分类器半径确定装置,包括:
第一获取模块,用于获取各类别的训练数据;
第一计算模块,用于针对任一类别中的任一目标训练数据,计算所述目标训练数据与其他训练数据的欧式距离,其中,所述其他训练数据包括该类别中除所述目标训练数据之外的其他训练数据以及其他类别中的各训练数据;
排序模块,用于按照所计算得到的欧式距离从小到大的顺序,对所述其他训练数据进行排序;
判断模块,用于按照排序结果,判断第一次出现的其他类别中的训练数据是否为特殊异类数据,如果是,触发第二计算模块,如果否,触发第三计算模块;
所述第二计算模块,用于按照所述排序结果,计算该训练数据之后的各训练数据对应的不纯度,并将该训练数据之后的最小不纯度对应的第一训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径;
所述第三计算模块,用于按照所述排序结果,依次计算该训练数据之后的训练数据对应的不纯度,直到确定第二训练数据,将所述第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径;其中,所述第二训练数据对应的不纯度小于等于预设阈值,所述第二训练数据的后一个训练数据对应的不纯度大于所述阈值。
可选地,所述判断模块包括:
确定子单元,用于根据所述排序结果,确定该训练数据的位数a;
判断子单元,用于判断是否满足或a=1,如果是,则该训练数据为特殊异类数据,其中,所述τ为所述预设阈值。
可选地,所述装置还包括:
第二获取模块,用于获取测试数据;
第四计算模块,用于针对每个类别,计算该类别中各个训练数据与所述测试数据的欧氏距离;
第一确定模块,用于根据该类别中各个训练数据对应的欧氏距离,以及该训练数据的分类器半径,确定所述训练数据针对所述测试数据的分类信息,其中,所述分类信息包括所述训练数据与所述测试数据属于同一类别或不属于同一类别;
第二确定模块,用于根据该类别中各个训练数据针对所述测试数据的分类信息,确定所述测试数据属于该类别的置信度;
第三确定模块,用于确定所述测试数据属于最大置信度对应的类别。
可选地,所述第一确定模块具体用于:
针对该类别中每个训练数据,根据以下公式,确定该训练数据针对所述测试数据的分类信息:
其中,所述r(i)是该训练数据x(i)的分类器半径,所述dqi为该训练数据x(i)与所述测试数据x(q)的欧氏距离,所述s(i)(x(q))为该训练数据x(i)针对所述测试数据x(q)的分类信息。
可选地,所述第二确定模块具体用于:
根据以下公式,确定所述测试数据属于该类别的置信度:
其中,所述为所述测试数据x(q)属于该类别Cl的置信度,所述|Cl|是所述类别Cl中包括的训练数据x(i)的数量。
本发明实施例提供了一种基于自适应阈值的分类器半径确定方法及装置,方法包括:获取各类别的训练数据;针对任一目标训练数据,计算目标训练数据与其他训练数据的欧式距离;按照所计算得到的欧式距离从小到大的顺序,对其他训练数据进行排序;按照排序结果,判断第一次出现的其他类别中的训练数据是否为特殊异类数据;如果是,将该训练数据之后的最小不纯度对应的第一训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径;如果否,将第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径。与现有技术相比,应用本发明实施例,通过对第一次出现的其他类别中的训练数据是否为特殊异类数据进行判断,之后,根据判断结果分为两种情况确定分类器的半径,可以在考虑特殊异类数据的基础上准确的确定分类器半径,进而能够准确的对数据进行分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种基于自适应阈值的分类器半径确定方法的第一种流程示意图;
图2为本发明实施例所提供的一种基于自适应阈值的分类器半径确定方法的第二种流程示意图;
图3为本发明实施例所提供的一种基于自适应阈值的分类器半径确定装置的第一种结构示意图;
图4为本发明实施例所提供的一种基于自适应阈值的分类器半径确定装置的第二种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为准确的确定训练数据的分类器半径,进而能够准确的对数据进行分类,本发明实施例提供了一种基于自适应阈值的分类器半径确定方法及装置。需要说明的是,本发明实施例所提供的一种基于自适应阈值的分类器半径确定方法及装置可以应用于服务器。
如图1所示,本实施例提供了一种基于自适应阈值的分类器半径确定方法,应用于服务器,该方法包括以下步骤:
S101,获取各类别的训练数据。
即服务器针对待分析的各类别,获取每个类别的训练数据。例如,针对西瓜“熟”和“不熟”两个类别,获取多个颜色数据、花纹数据、大小数据等,并将这些数据作为训练数据。
S102,针对任一类别中的任一目标训练数据,计算所述目标训练数据与其他训练数据的欧式距离。
其中,其他训练数据可以包括目标训练数据所属的类别中除目标训练数据之外的其他训练数据,以及其他类别中的各训练数据。
具体地,服务器可以首先选取一个训练数据作为目标训练数据x(i),然后,计算目标训练数据x(i)与其他训练数据x(j)(j≠i)的欧式距离dij。详细地,服务器首先把除目标训练数据x(i)之外的所有其他训练数据x(j)映射到目标训练数据x(i)的特征空间内,并计算目标训练数据x(i)与每一个其他训练数据x(j)的欧式距离其中,x* (j)为其他训练数据x(j)在目标训练数据x(i)的特征空间的映射。
例如,假设目标训练数据为x1,其他训练数据有5个,为{x2,x3,x4,x5,x6},则服务器可以先把其他训练数据{x2,x3,x4,x5,x6}映射到目标训练数据x1的特征空间内,然后根据公式分别计算目标训练数据x1与其他5个训练数据{x2,x3,x4,x5,x6}的欧式距离dij,最后得到5个欧式距离{d12,d13,d14,d15,d16}。
需要说明的是,服务器计算目标训练数据与其他训练数据的欧式距离的过程,还可以采用现有的任一种方法,本发明实施例对此不进行赘述。
S103,按照所计算得到的欧式距离从小到大的顺序,对所述其他训练数据进行排序。
在计算出目标训练数据与其他训练数据的欧式距离之后,服务器按照所计算得到的所有欧式距离从小到大的顺序,对其他训练数据进行排序。例如,S102得到的5个欧式距离{d12,d13,d14,d15,d16}从小到大的顺序为{d12,d14,d13,d15,d16},则服务器将按照该顺序,对其他训练数据进行排序的结果为{x2,x4,x3,x5,x6}。
S104,按照排序结果,判断第一次出现的其他类别中的训练数据是否为特殊异类数据,如果是,执行S105,如果否,执行S106。
具体地,判断第一次出现的其他类别中的训练数据是否为特殊异类数据可以包括:
根据S103的排序结果,确定该训练数据的位数a;
判断是否满足或a=1,如果是,则该训练数据为特殊异类数据,其中,τ为预设阈值,可以根据训练数据的属性确定;如果否,即则该训练数据不为特殊异类数据。需要说明的是,特殊异类数据与目标训练数据的欧式距离较小,但却与目标训练数据不为同一类别。
例如,如果第一次出现的其他类别中的训练数据在S103的排序结果中的位数是a=15,预设阈值τ为0.02,则有则该训练数据为特殊异类数据;如果第一次出现的其他类别中的训练数据在S103的排序结果中的位数是a=56,预设阈值τ为0.02,则有则该训练数据不为特殊异类数据。
可以理解,如果第一次出现的其他类别中的训练数据在S103的排序结果中的位数是a=1,即第一个训练数据为其他类别中的训练数据,则说明与目标训练数据属于相同类别的训练数据排在了第一个训练数据之后,那么第一个训练数据即为特殊异类数据。
S105,按照所述排序结果,计算该训练数据之后的各训练数据对应的不纯度,并将该训练数据之后的最小不纯度对应的第一训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径。
需要说明的是,计算任一训练数据对应的不纯度时应用的训练数据可以包括该训练数据以及排序在该训练数据之前的所有训练数据,具体地,任一训练数据的不纯度为不属于该类别的训练数据数量与属于该类别的训练数据数量之比。
例如,服务器获取的训练数据有三个类别C1、C2、C3,C1类别中的训练数据有{m1,m2,m3,m4},C2类别中的训练数据有{b1,b2,b3,b4},C3类别中的训练数据有{c1,c2,c3,c4}。假设选取目标训练数据为m1,S103的排序结果为{m2,m3,b1,m4,b2,b3,b4,c1,c2,c3,c4},则训练数据m3对应的不纯度为训练数据b1对应的不纯度为训练数据m4对应的不纯度为
服务器在确定第一次出现的其他类别中的训练数据x(p)为特殊异类数据后,按照S103的排序结果,依次计算训练数据x(p)之后的每一个训练数据对应的不纯度,计算出训练数据x(p)之后的所有训练数据的不纯度之后,确定该训练数据x(p)之后的最小不纯度,并将最小不纯度对应的第一训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径。
S106,按照所述排序结果,依次计算该训练数据之后的训练数据对应的不纯度,直到确定第二训练数据,将第二训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径;其中,第二训练数据对应的不纯度小于等于预设阈值,第二训练数据的后一个训练数据对应的不纯度大于所述阈值。
具体地,服务器在确定第一次出现的其他类别中的训练数据x(p)不为特殊异类数据后,按照S103的排序结果,依次计算训练数据x(p)之后的训练数据对应的不纯度,计算出一个训练数据x(c)的不纯度ρc后,确定该训练数据x(c)不纯度ρc与预设阈值τ的大小关系,然后计算该训练数据x(c)的后一个训练数据x(c+1)的不纯度ρc+1,确定训练数据x(c+1)不纯度ρc+1与预设阈值的大小关系τ,然后判断不纯度与预设阈值的大小关系是否满足预设条件关系,即是否满足ρc≤τ且ρc+1>τ,如果满足,则确定训练数据x(c)与目标训练数据的欧氏距离为目标训练数据的分类器半径。
例如,假设预设阈值τ为0.02,按照S103的排序结果,第一次出现的其他类别中的训练数据x(p)的位数为50,且训练数据x(p)不为特殊异类数据。则服务器将依次计算训练数据x(p)之后的训练数据对应的不纯度,并判断不纯度与预设阈值的大小关系。假设第51个训练数据的不纯度为ρ51=1/50=0.02=τ,第52个训练数据的不纯度为ρ52=1/51=0.0196<τ,不满足预设条件关系,则继续计算下一个训练数据的不纯度;第53个训练数据的不纯度为ρ53=2/51=0.04>τ,满足预设条件关系,则将第52个训练数据与目标训练数据的欧式距离确定为目标训练数据的分类器半径。
需要说明的是,“第一训练数据”和“第二训练数据”仅仅用来将两个训练数据进行区分,并不具有任何限定意义。
与现有技术相比,应用本发明实施例,通过对第一次出现的其他类别中的训练数据是否为特殊异类数据进行判断,之后,根据判断结果分为两种情况确定分类器的半径,可以在考虑特殊异类数据的基础上准确的确定分类器半径,进而能够准确的对数据进行分类。
下面以一个具体实施例对本发明实施例所提供的一种基于自适应阈值的分类器半径确定方法进行详细说明。
首先,获取各类别的训练数据,假设服务器获取的类别有C1、C2、C3,C1类别中的训练数据有{m1,m2,m3,m4},C2类别中的训练数据有{b1,b2,b3,b4},C3类别中的训练数据有{c1,c2,c3,c4},预设阈值τ=0.02。
然后,选取训练数据m1作为目标训练数据,把所有其他训练数据x(j)(j=11)={m2,m3,m4,b1,b2,b3,b4,c1,c2,c3,c4}映射到目标训练数据m1的特征空间内,并计算目标训练数据m1与每一个其他训练数据x(j)的欧式距离dm1j,其中,x* (j)为其他训练数据x(j)在目标训练数据m1的特征空间的映射;则服务器会计算m1与其他11个训练数据的欧式距离,得到11个欧式距离。
之后,服务器在计算好m1与其他11个训练数据的欧式距离后,按照欧式距离从小到大的顺序,对11个其他训练数据进行排序,假设其他训练数据的排序结果是{m2,m3,b1,m4,b2,b3,b4,c1,c2,c3,c4}。
然后,按照排序结果,判断第一次出现的其他类别中的训练数据b1是否为特殊异类数据;
具体地,根据排序结果,确定b1的位数为a=3;然后有则该训练数据为特殊异类数据。
之后,服务器按照排序结果,计算训练数据b1之后的各训练数据对应的不纯度,其中,计算每个训练数据对应的不纯度时应用的训练数据包括该训练数据以及排序在该训练数据之前的所有训练数据,且,不纯度为不是类别C1的训练数据的数量与是类别C1的训练数据的数量之比,例如,计算训练数据b1时应用的训练数据有m2,m3,b1,则b1对应的不纯度为计算训练数据m4时应用的训练数据有m2,m3,b1,m4,则b1对应的不纯度为服务器计算训练数据b1之后的各训练数据对应的不纯度后,将最小不纯度对应的第一训练数据与目标训练数据m1的欧氏距离确定为目标训练数据m1的分类器半径。
循环选取目标训练数据,并确定目标训练数据的分类器半径的步骤,直到确定出每一个训练数据的分类器半径。
进一步地,作为本实施例的一种可选方案,在计算出每个训练数据的分类器半径之后,即在S105和S106之后,该方法还包括:
S201,获取测试数据x(q)。
S202,针对每个类别,计算该类别中各个训练数据与测试数据x(q)的欧氏距离。
例如假设有三个类别,则服务器计算测试数据与这三个类别中的每个训练数据x(i)的欧式距离dqi。具体地,其中,为测试数据x(q)在训练数据x(i)的特征空间内的映射。
S203,根据该类别中各个训练数据对应的欧氏距离,以及该训练数据的分类器半径,确定该训练数据针对测试数据的分类信息,其中,所述分类信息包括所述训练数据与所述测试数据属于同一类别或不属于同一类别。
具体地,针对该类别中每个训练数据,根据以下公式,确定该训练数据针对测试数据的分类信息:
其中,r(i)是该训练数据x(i)的分类器半径,dqi为该训练数据x(i)与测试数据x(q)的欧氏距离,s(i)(x(q))为该训练数据xi针对测试数据x(q)的分类信息。
例如,类别C1中有三个训练数据{x(1),x(2),x(3)},训练数据x(1)的分类器半径为r(1)=0.5,测试数据x(q)与训练数据x(1)的欧式距离为dq1=0.4,则有dq1≤r(1),则训练数据x(1)针对测试数据x(q)的分类信息是1。
S204,根据该类别中各个训练数据针对所述测试数据的分类信息,确定所述测试数据属于该类别的置信度。
具体地,根据以下公式,确定测试数据属于该类别的置信度:
其中,为测试数据x(q)属于该类别Cl的置信度,|Cl|是该类别Cl中包括的训练数据x(i)的数量。
例如,类别C1中有三个训练数据{x(1),x(2),x(3)},每个训练数据x(1)针对测试数据x(q)的分类信息分别是s(1)(x(q))=1,s(2)(x(q))=0,s(3)(x(q))=1,则测试数据x(q)属于类别C1的置信度为
S205,确定所述测试数据属于最大置信度对应的类别。
服务器在计算出测试数据属于每个类别的置信度后,确定测试数据属于最大置信度对应的类别,即
例如,有三个类别C1,C2,C3,测试数据x(q)属于每个类别的置信度为则服务器确定测试数据x(q)属于类别C2,即
应用本实施例,与现有技术相比,应用本发明实施例,通过对第一次出现的其他类别中的训练数据是否为特殊异类数据进行判断,之后,根据判断结果分为两种情况确定分类器的半径,可以在考虑特殊异类数据的基础上准确的确定分类器半径。确定出分类器半径后,利用分类器半径对测试数据进行分类,能够准确的确定测试数据所属的类别。
如图3,图3为本发明实施例所提供的一种基于自适应阈值的分类器半径确定装置的第一种结构示意图,该装置可以包括:
第一获取模块301,用于获取各类别的训练数据;
第一计算模块302,用于针对任一类别中的任一目标训练数据,计算目标训练数据与其他训练数据的欧式距离,其中,其他训练数据包括该类别中除目标训练数据之外的其他训练数据以及其他类别中的各训练数据;
排序模块303,用于按照所计算得到的欧式距离从小到大的顺序,对其他训练数据进行排序;
判断模块304,用于按照排序结果,判断第一次出现的其他类别中的训练数据是否为特殊异类数据,如果是,触发第二计算模块305,如果否,触发第三计算模块306;
第二计算模块305,用于按照所述排序结果,计算该训练数据之后的各训练数据对应的不纯度,并将该训练数据之后的最小不纯度对应的第一训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径;
第三计算模块306,用于按照所述排序结果,依次计算该训练数据之后的训练数据对应的不纯度,直到确定第二训练数据,将第二训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径;其中,第二训练数据对应的不纯度小于等于预设阈值,第二训练数据的后一个训练数据对应的不纯度大于所述阈值。
与现有技术相比,应用本发明实施例,通过对第一次出现的其他类别中的训练数据是否为特殊异类数据进行判断,之后,根据判断结果分为两种情况确定分类器的半径,可以在考虑特殊异类数据的基础上准确的确定分类器半径,进而能够准确的对测试数据进行分类。
具体地,判断模块304包括:
确定子单元(图3中未示出),用于根据排序结果,确定该训练数据的位数a;
判断子单元(图3中未示出),用于判断是否满足或a=1,如果是,则该训练数据为特殊异类数据,其中,τ为预设阈值。
进一步地,如图4,图4为本发明实施例所提供的一种基于自适应阈值的分类器半径确定装置的第二种结构示意图,在第二计算模块305以及第三计算模块306之后,该装置还可以包括:
第二获取模块401,用于获取测试数据;
第四计算模块402,用于针对每个类别,计算该类别中各个训练数据与测试数据的欧氏距离;
第一确定模块403,用于根据该类别中各个训练数据对应的欧氏距离,以及该训练数据的分类器半径,确定该训练数据针对测试数据的分类信息,其中,分类信息包该述训练数据与测试数据属于同一类别或不属于同一类别;
第二确定模块404,用于根据该类别中各个训练数据针对测试数据的分类信息,确定测试数据属于该类别的置信度;
第三确定模块405,用于确定测试数据属于最大置信度对应的类别。
具体地,第一确定模块403具体用于:
针对该类别中每个训练数据,根据以下公式,确定该训练数据针对所述测试数据的分类信息:
其中,r(i)是该训练数据x(i)的分类器半径,dqi为该训练数据x(i)与测试数据x(q)的欧氏距离,s(i)(x(q))为该训练数据x(i)针对测试数据x(q)的分类信息。
具体地,第二确定模块404具体用于:
根据以下公式,确定测试数据属于该类别的置信度:
其中,为测试数据x(q)属于该类别Cl的置信度,|Cl|是该类别Cl中包括的训练数据x(i)的数量。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种基于自适应阈值的分类器半径确定方法,其特征在于,包括:
获取各类别的训练数据;
针对任一类别中的任一目标训练数据,计算所述目标训练数据与其他训练数据的欧式距离,其中,所述其他训练数据包括该类别中除所述目标训练数据之外的其他训练数据以及其他类别中的各训练数据;
按照所计算得到的欧式距离从小到大的顺序,对所述其他训练数据进行排序;
按照排序结果,判断第一次出现的其他类别中的训练数据是否为特殊异类数据;
如果是,按照所述排序结果,计算该训练数据之后的各训练数据对应的不纯度,并将该训练数据之后的最小不纯度对应的第一训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径;
如果否,按照所述排序结果,依次计算该训练数据之后的训练数据对应的不纯度,直到确定第二训练数据,将所述第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径;其中,所述第二训练数据对应的不纯度小于等于预设阈值,所述第二训练数据的后一个训练数据对应的不纯度大于所述阈值。
2.根据权利要求1所述的方法,其特征在于,所述判断第一次出现的其他类别中的训练数据是否为特殊异类数据包括:
根据所述排序结果,确定该训练数据的位数a;
判断是否满足或a=1,如果是,则该训练数据为特殊异类数据,其中,所述τ为所述预设阈值。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取测试数据;
针对每个类别,计算该类别中各个训练数据与所述测试数据的欧氏距离;
根据该类别中各个训练数据对应的欧氏距离,以及该训练数据的分类器半径,确定所述训练数据针对所述测试数据的分类信息,其中,所述分类信息包括所述训练数据与所述测试数据属于同一类别或不属于同一类别;
根据该类别中各个训练数据针对所述测试数据的分类信息,确定所述测试数据属于该类别的置信度;
确定所述测试数据属于最大置信度对应的类别。
4.根据权利要求3所述的方法,其特征在于,所述根据该类别中各个训练数据对应的欧氏距离,以及该训练数据的分类器半径,确定所述训练数据针对所述测试数据的分类信息包括:
针对该类别中每个训练数据,根据以下公式,确定该训练数据针对所述测试数据的分类信息:
其中,所述r(i)是该训练数据x(i)的分类器半径,所述dqi为该训练数据x(i)与所述测试数据x(q)的欧氏距离,所述s(i)(x(q))为该训练数据x(i)针对所述测试数据x(q)的分类信息。
5.根据权利要求4所述的方法,其特征在于,所述根据该类别中各个训练数据针对所述测试数据的分类信息,确定所述测试数据属于该类别的置信度包括:
根据以下公式,确定所述测试数据属于该类别的置信度:
其中,所述为所述测试数据x(q)属于该类别Cl的置信度,所述|Cl|是所述类别Cl中包括的训练数据x(i)的数量。
6.一种基于自适应阈值的分类器半径确定装置,其特征在于,包括:
第一获取模块,用于获取各类别的训练数据;
第一计算模块,用于针对任一类别中的任一目标训练数据,计算所述目标训练数据与其他训练数据的欧式距离,其中,所述其他训练数据包括该类别中除所述目标训练数据之外的其他训练数据以及其他类别中的各训练数据;
排序模块,用于按照所计算得到的欧式距离从小到大的顺序,对所述其他训练数据进行排序;
判断模块,用于按照排序结果,判断第一次出现的其他类别中的训练数据是否为特殊异类数据,如果是,触发第二计算模块,如果否,触发第三计算模块;
所述第二计算模块,用于按照所述排序结果,计算该训练数据之后的各训练数据对应的不纯度,并将该训练数据之后的最小不纯度对应的第一训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径;
所述第三计算模块,用于按照所述排序结果,依次计算该训练数据之后的训练数据对应的不纯度,直到确定第二训练数据,将所述第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径;其中,所述第二训练数据对应的不纯度小于等于预设阈值,所述第二训练数据的后一个训练数据对应的不纯度大于所述阈值。
7.根据权利要求6所述的装置,其特征在于,所述判断模块包括:
确定子单元,用于根据所述排序结果,确定该训练数据的位数a;
判断子单元,用于判断是否满足或a=1,如果是,则该训练数据为特殊异类数据,其中,所述τ为所述预设阈值。
8.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取测试数据;
第四计算模块,用于针对每个类别,计算该类别中各个训练数据与所述测试数据的欧氏距离;
第一确定模块,用于根据该类别中各个训练数据对应的欧氏距离,以及该训练数据的分类器半径,确定所述训练数据针对所述测试数据的分类信息,其中,所述分类信息包括所述训练数据与所述测试数据属于同一类别或不属于同一类别;
第二确定模块,用于根据该类别中各个训练数据针对所述测试数据的分类信息,确定所述测试数据属于该类别的置信度;
第三确定模块,用于确定所述测试数据属于最大置信度对应的类别。
9.根据权利要求8所述的装置,其特征在于,所述第一确定模块具体用于:
针对该类别中每个训练数据,根据以下公式,确定该训练数据针对所述测试数据的分类信息:
其中,所述r(i)是该训练数据x(i)的分类器半径,所述dqi为该训练数据x(i)与所述测试数据x(q)的欧氏距离,所述s(i)(x(q))为该训练数据x(i)针对所述测试数据x(q)的分类信息。
10.根据权利要求9所述的装置,其特征在于,所述第二确定模块具体用于:
根据以下公式,确定所述测试数据属于该类别的置信度:
其中,所述为所述测试数据x(q)属于该类别Cl的置信度,所述|Cl|是所述类别Cl中包括的训练数据x(i)的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710012563.6A CN106845537B (zh) | 2017-01-09 | 2017-01-09 | 一种基于自适应阈值的分类器半径确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710012563.6A CN106845537B (zh) | 2017-01-09 | 2017-01-09 | 一种基于自适应阈值的分类器半径确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106845537A true CN106845537A (zh) | 2017-06-13 |
CN106845537B CN106845537B (zh) | 2020-12-04 |
Family
ID=59117996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710012563.6A Active CN106845537B (zh) | 2017-01-09 | 2017-01-09 | 一种基于自适应阈值的分类器半径确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106845537B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462301A (zh) * | 2014-11-28 | 2015-03-25 | 北京奇虎科技有限公司 | 一种网络数据的处理方法和装置 |
CN105718490A (zh) * | 2014-12-04 | 2016-06-29 | 阿里巴巴集团控股有限公司 | 一种用于更新分类模型的方法及装置 |
CN105894032A (zh) * | 2016-04-01 | 2016-08-24 | 南京大学 | 一种针对样本性质提取有效特征的方法 |
WO2016182857A1 (en) * | 2015-05-08 | 2016-11-17 | Kla-Tencor Corporation | Method and system for defect classification |
CN106228183A (zh) * | 2016-07-18 | 2016-12-14 | 北京邮电大学 | 一种半监督学习分类方法与装置 |
CN106295666A (zh) * | 2015-05-14 | 2017-01-04 | 佳能株式会社 | 分类器生成、更新与对象检测方法和装置及图像处理设备 |
-
2017
- 2017-01-09 CN CN201710012563.6A patent/CN106845537B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462301A (zh) * | 2014-11-28 | 2015-03-25 | 北京奇虎科技有限公司 | 一种网络数据的处理方法和装置 |
CN105718490A (zh) * | 2014-12-04 | 2016-06-29 | 阿里巴巴集团控股有限公司 | 一种用于更新分类模型的方法及装置 |
WO2016182857A1 (en) * | 2015-05-08 | 2016-11-17 | Kla-Tencor Corporation | Method and system for defect classification |
CN106295666A (zh) * | 2015-05-14 | 2017-01-04 | 佳能株式会社 | 分类器生成、更新与对象检测方法和装置及图像处理设备 |
CN105894032A (zh) * | 2016-04-01 | 2016-08-24 | 南京大学 | 一种针对样本性质提取有效特征的方法 |
CN106228183A (zh) * | 2016-07-18 | 2016-12-14 | 北京邮电大学 | 一种半监督学习分类方法与装置 |
Non-Patent Citations (2)
Title |
---|
N. ARMANFARD 等: "Local Feature Selection for Data Classification", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
郭颂 等: "一种基于凝聚K-means的决策簇分类器", 《信阳师范学院学报: 自然科学版》 * |
Also Published As
Publication number | Publication date |
---|---|
CN106845537B (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144459B (zh) | 一种类不平衡的网络流量分类方法、装置及计算机设备 | |
WO2015062384A1 (zh) | 图像目标类别识别方法及装置 | |
CN106295666B (zh) | 获取分类器、检测对象的方法和装置及图像处理设备 | |
CN103617429A (zh) | 一种主动学习分类方法和系统 | |
CN105069470A (zh) | 分类模型训练方法及装置 | |
CN105574547B (zh) | 适应动态调整基分类器权重的集成学习方法及装置 | |
CN103729351A (zh) | 查询词推荐方法及装置 | |
CN110909868A (zh) | 基于图神经网络模型的节点表示方法和装置 | |
CN107016416B (zh) | 基于邻域粗糙集和pca融合的数据分类预测方法 | |
CN107526805B (zh) | 一种基于权重的ML-kNN多标签中文文本分类方法 | |
WO2018006631A1 (zh) | 一种用户等级自动划分方法及系统 | |
CN108470194B (zh) | 一种特征筛选方法及装置 | |
CN109104257A (zh) | 一种无线信号检测方法及装置 | |
WO2015146113A1 (ja) | 識別辞書学習システム、識別辞書学習方法および記録媒体 | |
CN107291706B (zh) | 一种图片检索方法及装置 | |
CN107798351A (zh) | 一种基于深度学习神经网络的身份识别方法和系统 | |
CN107357776B (zh) | 一种相关词挖掘方法及装置 | |
Siraj-Ud-Doulah et al. | Defining homogenous climate zones of Bangladesh using cluster analysis | |
CN107423319B (zh) | 一种垃圾网页检测方法 | |
CN103310205B (zh) | 一种手写体数字识别方法及装置 | |
JP6573233B2 (ja) | 認識容易性指標算出装置、方法、及びプログラム | |
Garcıa et al. | On the suitability of numerical performance measures for class imbalance problems | |
CN106845537B (zh) | 一种基于自适应阈值的分类器半径确定方法及装置 | |
CN107403199B (zh) | 数据处理方法和装置 | |
CN112069806A (zh) | 简历筛选方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |