CN106845537B

CN106845537B - 一种基于自适应阈值的分类器半径确定方法及装置

Info

Publication number: CN106845537B
Application number: CN201710012563.6A
Authority: CN
Inventors: 赵海英; 贾耕云
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-01-09
Filing date: 2017-01-09
Publication date: 2020-12-04
Anticipated expiration: 2037-01-09
Also published as: CN106845537A

Abstract

本发明实施例提供了一种基于自适应阈值的分类器半径确定方法及装置，方法包括：获取各类别的训练数据；针对任一目标训练数据，计算目标训练数据与其他训练数据的欧式距离；按照所计算得到的欧式距离从小到大的顺序，对其他训练数据进行排序；按照排序结果，判断第一次出现的其他类别中的训练数据是否为特殊异类数据；如果是，将该训练数据之后的最小不纯度对应的第一训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径；如果否，将第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径。应用本发明实施例，通过对特殊异类数据进行判断，可以准确的确定分类器半径，进而能够准确的对数据进行分类。

Description

一种基于自适应阈值的分类器半径确定方法及装置

技术领域

本发明涉及机器学习技术领域，特别是涉及一基于自适应阈值的分类器半径确定方法及装置。

背景技术

数据分类问题就是根据数据的属性或特征，对数据所归属的类别进行判定。例如，根据一个西瓜的一些属性，包括颜色、花纹、大小、拍打声音等，把西瓜归属为“熟”或“不熟”两个类别中的一个。数据分类方法的基础思想是，选取一些已知类别的训练数据，训练分类器，之后利用分类器，对未知类别的测试数据进行分类。然后根据各个分类器的判断结果，计算测试数据属于每种类别的置信度，最后将测试数据归属于置信度最大的类别。

现有技术中，Armanfard提出了LFS特征选择算法，该算法中，首先训练了针对每个训练数据的聚类情况进行分类的分类器，并根据阈值与不纯度的关系，确定了每个分类器的半径，之后利用分类器的半径，对未知类别的测试数据进行分类。

具体地，LFS特征选择算法中，根据阈值与不纯度的关系，确定分类器半径的过程包括：首先，选取一些已知类别的训练数据，即选取的训练数据归属的类别有多种，且每一种类别均有一个训练数据集合，并根据训练数据特征，给定一阈值。然后，在某一类别的训练数据集合中选取一个训练数据作为选定训练数据，确定选定训练数据与选取的其他训练数据的欧式距离，并按照欧式距离从小到大的顺序，将其他训练数据进行排序。之后，按照该顺序，逐个计算每个训练数据对应的不纯度，并判断不纯度是否大于阈值，如果是，将该不纯度对应的训练数据与选定训练数据的欧式距离确定为选定训练数据的分类器半径。其中，计算任一训练数据对应的不纯度时应用的训练数据包括该训练数据以及排序在该训练数据之前的所有训练数据，不纯度为不属于该类别的数据数量与属于该类别的数据数量之比。循环选取选定训练数据的过程，直至计算出每个训练数据的分类器半径。

在LFS特征选择算法中，选取的已知类别的训练数据中可能包括选定训练数据的特殊异类数据，特殊异类数据与选定训练数据相似，但不属于同一个类别，其与选定训练数据的欧式距离较小，即在欧式距离从小到大的排序中，特殊异类数据可能会排在选定训练数据的同类训练数据前面，也就是说，特殊异类数据后面还会有很多选定训练数据的同类训练数据。这样的话，由于特殊异类数据的存在，导致特殊异类数据对应的不纯度或特殊异类数据之后较小范围内的训练数据对应的不纯度大于阈值，进而导致选定训练数据的分类器半径较小，致使该分类器对测试数据的分类结果不准确，从而导致最后确定测试数据的类别不准确。

发明内容

本发明实施例的目的在于提供一种基于自适应阈值的分类器半径确定方法及装置，以准确的确定训练数据的分类器半径，进而能够准确的对数据进行分类。具体技术方案如下：

一种基于自适应阈值的分类器半径确定方法，包括：

获取各类别的训练数据；

针对任一类别中的任一目标训练数据，计算所述目标训练数据与其他训练数据的欧式距离，其中，所述其他训练数据包括该类别中除所述目标训练数据之外的其他训练数据以及其他类别中的各训练数据；

按照所计算得到的欧式距离从小到大的顺序，对所述其他训练数据进行排序；

按照排序结果，判断第一次出现的其他类别中的训练数据是否为特殊异类数据；

如果是，按照所述排序结果，计算该训练数据之后的各训练数据对应的不纯度，并将该训练数据之后的最小不纯度对应的第一训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径；

如果否，按照所述排序结果，依次计算该训练数据之后的训练数据对应的不纯度，直到确定第二训练数据，将所述第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径；其中，所述第二训练数据对应的不纯度小于等于预设阈值，所述第二训练数据的后一个训练数据对应的不纯度大于所述阈值。

可选地，所述判断第一次出现的其他类别中的训练数据是否为特殊异类数据包括：

根据所述排序结果，确定该训练数据的位数a；

判断是否满足

或a＝1，如果是，则该训练数据为特殊异类数据，其中，所述τ为所述预设阈值。

可选地，所述方法还包括：

获取测试数据；

针对每个类别，计算该类别中各个训练数据与所述测试数据的欧氏距离；

根据该类别中各个训练数据对应的欧氏距离，以及该训练数据的分类器半径，确定所述训练数据针对所述测试数据的分类信息，其中，所述分类信息包括所述训练数据与所述测试数据属于同一类别或不属于同一类别；

根据该类别中各个训练数据针对所述测试数据的分类信息，确定所述测试数据属于该类别的置信度；

确定所述测试数据属于最大置信度对应的类别。

可选地，所述根据该类别中各个训练数据对应的欧氏距离，以及该训练数据的分类器半径，确定所述训练数据针对所述测试数据的分类信息包括：

针对该类别中每个训练数据，根据以下公式，确定该训练数据针对所述测试数据的分类信息：

其中，所述r⁽ⁱ⁾是该训练数据x⁽ⁱ⁾的分类器半径，所述d_qi为该训练数据x⁽ⁱ⁾与所述测试数据x^(q)的欧氏距离，所述s⁽ⁱ⁾(x^(q))为该训练数据x⁽ⁱ⁾针对所述测试数据x^(q)的分类信息。

可选地，所述根据该类别中各个训练数据针对所述测试数据的分类信息，确定所述测试数据属于该类别的置信度包括：

根据以下公式，确定所述测试数据属于该类别的置信度：

其中，所述

为所述测试数据x^(q)属于该类别C_l的置信度，所述|C_l|是所述类别C_l中包括的训练数据x⁽ⁱ⁾的数量。

为达到上述目的，本发明实施例还提供了一种基于自适应阈值的分类器半径确定装置，包括：

第一获取模块，用于获取各类别的训练数据；

第一计算模块，用于针对任一类别中的任一目标训练数据，计算所述目标训练数据与其他训练数据的欧式距离，其中，所述其他训练数据包括该类别中除所述目标训练数据之外的其他训练数据以及其他类别中的各训练数据；

排序模块，用于按照所计算得到的欧式距离从小到大的顺序，对所述其他训练数据进行排序；

判断模块，用于按照排序结果，判断第一次出现的其他类别中的训练数据是否为特殊异类数据，如果是，触发第二计算模块，如果否，触发第三计算模块；

所述第二计算模块，用于按照所述排序结果，计算该训练数据之后的各训练数据对应的不纯度，并将该训练数据之后的最小不纯度对应的第一训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径；

所述第三计算模块，用于按照所述排序结果，依次计算该训练数据之后的训练数据对应的不纯度，直到确定第二训练数据，将所述第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径；其中，所述第二训练数据对应的不纯度小于等于预设阈值，所述第二训练数据的后一个训练数据对应的不纯度大于所述阈值。

可选地，所述判断模块包括：

确定子单元，用于根据所述排序结果，确定该训练数据的位数a；

判断子单元，用于判断是否满足

可选地，所述装置还包括：

第二获取模块，用于获取测试数据；

第四计算模块，用于针对每个类别，计算该类别中各个训练数据与所述测试数据的欧氏距离；

第一确定模块，用于根据该类别中各个训练数据对应的欧氏距离，以及该训练数据的分类器半径，确定所述训练数据针对所述测试数据的分类信息，其中，所述分类信息包括所述训练数据与所述测试数据属于同一类别或不属于同一类别；

第二确定模块，用于根据该类别中各个训练数据针对所述测试数据的分类信息，确定所述测试数据属于该类别的置信度；

第三确定模块，用于确定所述测试数据属于最大置信度对应的类别。

可选地，所述第一确定模块具体用于：

可选地，所述第二确定模块具体用于：

根据以下公式，确定所述测试数据属于该类别的置信度：

其中，所述

本发明实施例提供了一种基于自适应阈值的分类器半径确定方法及装置，方法包括：获取各类别的训练数据；针对任一目标训练数据，计算目标训练数据与其他训练数据的欧式距离；按照所计算得到的欧式距离从小到大的顺序，对其他训练数据进行排序；按照排序结果，判断第一次出现的其他类别中的训练数据是否为特殊异类数据；如果是，将该训练数据之后的最小不纯度对应的第一训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径；如果否，将第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径。与现有技术相比，应用本发明实施例，通过对第一次出现的其他类别中的训练数据是否为特殊异类数据进行判断，之后，根据判断结果分为两种情况确定分类器的半径，可以在考虑特殊异类数据的基础上准确的确定分类器半径，进而能够准确的对数据进行分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种基于自适应阈值的分类器半径确定方法的第一种流程示意图；

图2为本发明实施例所提供的一种基于自适应阈值的分类器半径确定方法的第二种流程示意图；

图3为本发明实施例所提供的一种基于自适应阈值的分类器半径确定装置的第一种结构示意图；

图4为本发明实施例所提供的一种基于自适应阈值的分类器半径确定装置的第二种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为准确的确定训练数据的分类器半径，进而能够准确的对数据进行分类，本发明实施例提供了一种基于自适应阈值的分类器半径确定方法及装置。需要说明的是，本发明实施例所提供的一种基于自适应阈值的分类器半径确定方法及装置可以应用于服务器。

如图1所示，本实施例提供了一种基于自适应阈值的分类器半径确定方法，应用于服务器，该方法包括以下步骤：

S101，获取各类别的训练数据。

即服务器针对待分析的各类别，获取每个类别的训练数据。例如，针对西瓜“熟”和“不熟”两个类别，获取多个颜色数据、花纹数据、大小数据等，并将这些数据作为训练数据。

S102，针对任一类别中的任一目标训练数据，计算所述目标训练数据与其他训练数据的欧式距离。

其中，其他训练数据可以包括目标训练数据所属的类别中除目标训练数据之外的其他训练数据，以及其他类别中的各训练数据。

具体地，服务器可以首先选取一个训练数据作为目标训练数据x⁽ⁱ⁾，然后，计算目标训练数据x⁽ⁱ⁾与其他训练数据x^(j)(j≠i)的欧式距离d_ij。详细地，服务器首先把除目标训练数据x⁽ⁱ⁾之外的所有其他训练数据x^(j)映射到目标训练数据x⁽ⁱ⁾的特征空间内，并计算目标训练数据x⁽ⁱ⁾与每一个其他训练数据x^(j)的欧式距离

其中，x_* ^(j)为其他训练数据x^(j)在目标训练数据x⁽ⁱ⁾的特征空间的映射。

例如，假设目标训练数据为x¹，其他训练数据有5个，为{x²,x³,x⁴,x⁵,x⁶}，则服务器可以先把其他训练数据{x²,x³,x⁴,x⁵,x⁶}映射到目标训练数据x¹的特征空间内，然后根据公式

分别计算目标训练数据x¹与其他5个训练数据{x²,x³,x⁴,x⁵,x⁶}的欧式距离d_ij，最后得到5个欧式距离{d₁₂,d₁₃,d₁₄,d₁₅,d₁₆}。

需要说明的是，服务器计算目标训练数据与其他训练数据的欧式距离的过程，还可以采用现有的任一种方法，本发明实施例对此不进行赘述。

S103，按照所计算得到的欧式距离从小到大的顺序，对所述其他训练数据进行排序。

在计算出目标训练数据与其他训练数据的欧式距离之后，服务器按照所计算得到的所有欧式距离从小到大的顺序，对其他训练数据进行排序。例如，S102得到的5个欧式距离{d₁₂,d₁₃,d₁₄,d₁₅,d₁₆}从小到大的顺序为{d₁₂,d₁₄,d₁₃,d₁₅,d₁₆}，则服务器将按照该顺序，对其他训练数据进行排序的结果为{x²,x⁴,x³,x⁵,x⁶}。

S104，按照排序结果，判断第一次出现的其他类别中的训练数据是否为特殊异类数据，如果是，执行S105，如果否，执行S106。

具体地，判断第一次出现的其他类别中的训练数据是否为特殊异类数据可以包括：

根据S103的排序结果，确定该训练数据的位数a；

判断是否满足

或a＝1，如果是，则该训练数据为特殊异类数据，其中，τ为预设阈值，可以根据训练数据的属性确定；如果否，即

则该训练数据不为特殊异类数据。需要说明的是，特殊异类数据与目标训练数据的欧式距离较小，但却与目标训练数据不为同一类别。

例如，如果第一次出现的其他类别中的训练数据在S103的排序结果中的位数是a＝15，预设阈值τ为0.02，则有

则该训练数据为特殊异类数据；如果第一次出现的其他类别中的训练数据在S103的排序结果中的位数是a＝56，预设阈值τ为0.02，则有

则该训练数据不为特殊异类数据。

可以理解，如果第一次出现的其他类别中的训练数据在S103的排序结果中的位数是a＝1，即第一个训练数据为其他类别中的训练数据，则说明与目标训练数据属于相同类别的训练数据排在了第一个训练数据之后，那么第一个训练数据即为特殊异类数据。

S105，按照所述排序结果，计算该训练数据之后的各训练数据对应的不纯度，并将该训练数据之后的最小不纯度对应的第一训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径。

需要说明的是，计算任一训练数据对应的不纯度时应用的训练数据可以包括该训练数据以及排序在该训练数据之前的所有训练数据，具体地，任一训练数据的不纯度为不属于该类别的训练数据数量与属于该类别的训练数据数量之比。

例如，服务器获取的训练数据有三个类别C₁、C₂、C₃，C₁类别中的训练数据有{m₁,m₂,m₃,m₄}，C₂类别中的训练数据有{b₁,b₂,b₃,b₄}，C₃类别中的训练数据有{c₁,c₂,c₃,c₄}。假设选取目标训练数据为m₁，S103的排序结果为{m₂,m₃,b₁,m₄,b₂,b₃,b₄,c₁,c₂,c₃,c₄}，则训练数据m₃对应的不纯度为

训练数据b₁对应的不纯度为

训练数据m₄对应的不纯度为

服务器在确定第一次出现的其他类别中的训练数据x^(p)为特殊异类数据后，按照S103的排序结果，依次计算训练数据x^(p)之后的每一个训练数据对应的不纯度，计算出训练数据x^(p)之后的所有训练数据的不纯度之后，确定该训练数据x^(p)之后的最小不纯度，并将最小不纯度对应的第一训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径。

S106，按照所述排序结果，依次计算该训练数据之后的训练数据对应的不纯度，直到确定第二训练数据，将第二训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径；其中，第二训练数据对应的不纯度小于等于预设阈值，第二训练数据的后一个训练数据对应的不纯度大于所述阈值。

具体地，服务器在确定第一次出现的其他类别中的训练数据x^(p)不为特殊异类数据后，按照S103的排序结果，依次计算训练数据x^(p)之后的训练数据对应的不纯度，计算出一个训练数据x^(c)的不纯度ρ_c后，确定该训练数据x^(c)不纯度ρ_c与预设阈值τ的大小关系，然后计算该训练数据x^(c)的后一个训练数据x^(c+1)的不纯度ρ_c+1，确定训练数据x^(c+1)不纯度ρ_c+1与预设阈值的大小关系τ，然后判断不纯度与预设阈值的大小关系是否满足预设条件关系，即是否满足ρ_c≤τ且ρ_c+1＞τ，如果满足，则确定训练数据x^(c)与目标训练数据的欧氏距离为目标训练数据的分类器半径。

例如，假设预设阈值τ为0.02，按照S103的排序结果，第一次出现的其他类别中的训练数据x^(p)的位数为50，且训练数据x^(p)不为特殊异类数据。则服务器将依次计算训练数据x^(p)之后的训练数据对应的不纯度，并判断不纯度与预设阈值的大小关系。假设第51个训练数据的不纯度为ρ₅₁＝1/50＝0.02＝τ，第52个训练数据的不纯度为ρ₅₂＝1/51＝0.0196＜τ，不满足预设条件关系，则继续计算下一个训练数据的不纯度；第53个训练数据的不纯度为ρ₅₃＝2/51＝0.04＞τ，满足预设条件关系，则将第52个训练数据与目标训练数据的欧式距离确定为目标训练数据的分类器半径。

需要说明的是，“第一训练数据”和“第二训练数据”仅仅用来将两个训练数据进行区分，并不具有任何限定意义。

与现有技术相比，应用本发明实施例，通过对第一次出现的其他类别中的训练数据是否为特殊异类数据进行判断，之后，根据判断结果分为两种情况确定分类器的半径，可以在考虑特殊异类数据的基础上准确的确定分类器半径，进而能够准确的对数据进行分类。

下面以一个具体实施例对本发明实施例所提供的一种基于自适应阈值的分类器半径确定方法进行详细说明。

首先，获取各类别的训练数据，假设服务器获取的类别有C₁、C₂、C₃，C₁类别中的训练数据有{m₁,m₂,m₃,m₄}，C₂类别中的训练数据有{b₁,b₂,b₃,b₄}，C₃类别中的训练数据有{c₁,c₂,c₃,c₄}，预设阈值τ＝0.02。

然后，选取训练数据m₁作为目标训练数据，把所有其他训练数据x^(j)(j＝11)＝{m₂,m₃,m₄,b₁,b₂,b₃,b₄,c₁,c₂,c₃,c₄}映射到目标训练数据m₁的特征空间内，并计算目标训练数据m₁与每一个其他训练数据x^(j)的欧式距离d_m1j，

其中，x_* ^(j)为其他训练数据x^(j)在目标训练数据m₁的特征空间的映射；则服务器会计算m₁与其他11个训练数据的欧式距离，得到11个欧式距离。

之后，服务器在计算好m₁与其他11个训练数据的欧式距离后，按照欧式距离从小到大的顺序，对11个其他训练数据进行排序，假设其他训练数据的排序结果是{m₂,m₃,b₁,m₄,b₂,b₃,b₄,c₁,c₂,c₃,c₄}。

然后，按照排序结果，判断第一次出现的其他类别中的训练数据b₁是否为特殊异类数据；

具体地，根据排序结果，确定b₁的位数为a＝3；然后有

则该训练数据为特殊异类数据。

之后，服务器按照排序结果，计算训练数据b₁之后的各训练数据对应的不纯度，其中，计算每个训练数据对应的不纯度时应用的训练数据包括该训练数据以及排序在该训练数据之前的所有训练数据，且，不纯度为不是类别C₁的训练数据的数量与是类别C₁的训练数据的数量之比，例如，计算训练数据b₁时应用的训练数据有m₂,m₃,b₁，则b₁对应的不纯度为

计算训练数据m₄时应用的训练数据有m₂,m₃,b₁,m₄，则b₁对应的不纯度为

服务器计算训练数据b₁之后的各训练数据对应的不纯度后，将最小不纯度对应的第一训练数据与目标训练数据m₁的欧氏距离确定为目标训练数据m₁的分类器半径。

循环选取目标训练数据，并确定目标训练数据的分类器半径的步骤，直到确定出每一个训练数据的分类器半径。

进一步地，作为本实施例的一种可选方案，在计算出每个训练数据的分类器半径之后，即在S105和S106之后，该方法还包括：

S201，获取测试数据x^(q)。

S202，针对每个类别，计算该类别中各个训练数据与测试数据x^(q)的欧氏距离。

例如假设有三个类别，则服务器计算测试数据与这三个类别中的每个训练数据x⁽ⁱ⁾的欧式距离d_qi。具体地，

其中，

为测试数据x^(q)在训练数据x⁽ⁱ⁾的特征空间内的映射。

S203，根据该类别中各个训练数据对应的欧氏距离，以及该训练数据的分类器半径，确定该训练数据针对测试数据的分类信息，其中，所述分类信息包括所述训练数据与所述测试数据属于同一类别或不属于同一类别。

具体地，针对该类别中每个训练数据，根据以下公式，确定该训练数据针对测试数据的分类信息：

其中，r⁽ⁱ⁾是该训练数据x⁽ⁱ⁾的分类器半径，d_qi为该训练数据x⁽ⁱ⁾与测试数据x^(q)的欧氏距离，s⁽ⁱ⁾(x^(q))为该训练数据xi针对测试数据x^(q)的分类信息。

例如，类别C₁中有三个训练数据{x⁽¹⁾,x⁽²⁾,x⁽³⁾}，训练数据x⁽¹⁾的分类器半径为r⁽¹⁾＝0.5，测试数据x^(q)与训练数据x⁽¹⁾的欧式距离为d_q1＝0.4，则有d_q1≤r⁽¹⁾，则训练数据x⁽¹⁾针对测试数据x^(q)的分类信息是1。

S204，根据该类别中各个训练数据针对所述测试数据的分类信息，确定所述测试数据属于该类别的置信度。

具体地，根据以下公式，确定测试数据属于该类别的置信度：

其中，

为测试数据x^(q)属于该类别C_l的置信度，|C_l|是该类别C_l中包括的训练数据x⁽ⁱ⁾的数量。

例如，类别C₁中有三个训练数据{x⁽¹⁾,x⁽²⁾,x⁽³⁾}，每个训练数据x⁽¹⁾针对测试数据x^(q)的分类信息分别是s⁽¹⁾(x^(q))＝1，s⁽²⁾(x^(q))＝0，s⁽³⁾(x^(q))＝1，则测试数据x^(q)属于类别C₁的置信度为

S205，确定所述测试数据属于最大置信度对应的类别。

服务器在计算出测试数据属于每个类别的置信度后，确定测试数据属于最大置信度对应的类别，即

例如，有三个类别C₁，C₂，C₃，测试数据x^(q)属于每个类别的置信度为

则服务器确定测试数据x^(q)属于类别C₂，即

应用本实施例，与现有技术相比，应用本发明实施例，通过对第一次出现的其他类别中的训练数据是否为特殊异类数据进行判断，之后，根据判断结果分为两种情况确定分类器的半径，可以在考虑特殊异类数据的基础上准确的确定分类器半径。确定出分类器半径后，利用分类器半径对测试数据进行分类，能够准确的确定测试数据所属的类别。

如图3，图3为本发明实施例所提供的一种基于自适应阈值的分类器半径确定装置的第一种结构示意图，该装置可以包括：

第一获取模块301，用于获取各类别的训练数据；

第一计算模块302，用于针对任一类别中的任一目标训练数据，计算目标训练数据与其他训练数据的欧式距离，其中，其他训练数据包括该类别中除目标训练数据之外的其他训练数据以及其他类别中的各训练数据；

排序模块303，用于按照所计算得到的欧式距离从小到大的顺序，对其他训练数据进行排序；

判断模块304，用于按照排序结果，判断第一次出现的其他类别中的训练数据是否为特殊异类数据，如果是，触发第二计算模块305，如果否，触发第三计算模块306；

第二计算模块305，用于按照所述排序结果，计算该训练数据之后的各训练数据对应的不纯度，并将该训练数据之后的最小不纯度对应的第一训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径；

第三计算模块306，用于按照所述排序结果，依次计算该训练数据之后的训练数据对应的不纯度，直到确定第二训练数据，将第二训练数据与目标训练数据的欧氏距离确定为目标训练数据的分类器半径；其中，第二训练数据对应的不纯度小于等于预设阈值，第二训练数据的后一个训练数据对应的不纯度大于所述阈值。

与现有技术相比，应用本发明实施例，通过对第一次出现的其他类别中的训练数据是否为特殊异类数据进行判断，之后，根据判断结果分为两种情况确定分类器的半径，可以在考虑特殊异类数据的基础上准确的确定分类器半径，进而能够准确的对测试数据进行分类。

具体地，判断模块304包括：

确定子单元(图3中未示出)，用于根据排序结果，确定该训练数据的位数a；

判断子单元(图3中未示出)，用于判断是否满足

或a＝1，如果是，则该训练数据为特殊异类数据，其中，τ为预设阈值。

进一步地，如图4，图4为本发明实施例所提供的一种基于自适应阈值的分类器半径确定装置的第二种结构示意图，在第二计算模块305以及第三计算模块306之后，该装置还可以包括：

第二获取模块401，用于获取测试数据；

第四计算模块402，用于针对每个类别，计算该类别中各个训练数据与测试数据的欧氏距离；

第一确定模块403，用于根据该类别中各个训练数据对应的欧氏距离，以及该训练数据的分类器半径，确定该训练数据针对测试数据的分类信息，其中，分类信息包该述训练数据与测试数据属于同一类别或不属于同一类别；

第二确定模块404，用于根据该类别中各个训练数据针对测试数据的分类信息，确定测试数据属于该类别的置信度；

第三确定模块405，用于确定测试数据属于最大置信度对应的类别。

具体地，第一确定模块403具体用于：

其中，r⁽ⁱ⁾是该训练数据x⁽ⁱ⁾的分类器半径，d_qi为该训练数据x⁽ⁱ⁾与测试数据x^(q)的欧氏距离，s⁽ⁱ⁾(x^(q))为该训练数据x⁽ⁱ⁾针对测试数据x^(q)的分类信息。

具体地，第二确定模块404具体用于：

根据以下公式，确定测试数据属于该类别的置信度：

其中，

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于自适应阈值的分类器半径确定方法，其特征在于，应用于服务器，包括：

获取各类别的训练数据；所述各类别的训练数据包括：西瓜的已成熟类别所对应的所述西瓜的颜色数据、花纹数据和大小数据，所述西瓜的未成熟类别所对应的所述西瓜的颜色数据、花纹数据和大小数据；

如果否，按照所述排序结果，依次计算该训练数据之后的训练数据对应的不纯度，直到确定第二训练数据，将所述第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径；其中，所述第二训练数据对应的不纯度小于等于预设阈值，所述第二训练数据的后一个训练数据对应的不纯度大于所述阈值；

获取测试数据；所述测试数据包括待测试西瓜的颜色数据、花纹数据和大小数据；

确定所述测试数据属于最大置信度对应的类别；

其中，所述判断第一次出现的其他类别中的训练数据是否为特殊异类数据包括：

根据所述排序结果，确定该训练数据的位数a；

判断是否满足

2.根据权利要求1所述的方法，其特征在于，所述根据该类别中各个训练数据对应的欧氏距离，以及该训练数据的分类器半径，确定所述训练数据针对所述测试数据的分类信息包括：

3.根据权利要求2所述的方法，其特征在于，所述根据该类别中各个训练数据针对所述测试数据的分类信息，确定所述测试数据属于该类别的置信度包括：

根据以下公式，确定所述测试数据属于该类别的置信度：

其中，所述

4.一种基于自适应阈值的分类器半径确定装置，其特征在于，应用于服务器，包括：

第一获取模块，用于获取各类别的训练数据；所述各类别的训练数据包括：西瓜的已成熟类别所对应的所述西瓜的颜色数据、花纹数据和大小数据，所述西瓜的未成熟类别所对应的所述西瓜的颜色数据、花纹数据和大小数据；

所述第三计算模块，用于按照所述排序结果，依次计算该训练数据之后的训练数据对应的不纯度，直到确定第二训练数据，将所述第二训练数据与所述目标训练数据的欧氏距离确定为所述目标训练数据的分类器半径；其中，所述第二训练数据对应的不纯度小于等于预设阈值，所述第二训练数据的后一个训练数据对应的不纯度大于所述阈值；

第二获取模块，用于获取测试数据；所述测试数据包括待测试西瓜的颜色数据、花纹数据和大小数据；

第三确定模块，用于确定所述测试数据属于最大置信度对应的类别；

其中，所述判断模块包括：

判断子单元，用于判断是否满足

5.根据权利要求4所述的装置，其特征在于，所述第一确定模块具体用于：

6.根据权利要求5所述的装置，其特征在于，所述第二确定模块具体用于：

根据以下公式，确定所述测试数据属于该类别的置信度：

其中，所述