CN105184311B

CN105184311B - 一种测试分类数据集的方法

Info

Publication number: CN105184311B
Application number: CN201510519071.7A
Authority: CN
Inventors: 颜雪松
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2015-08-21
Filing date: 2015-08-21
Publication date: 2019-01-01
Anticipated expiration: 2035-08-21
Also published as: CN105184311A

Abstract

本发明公开了一种测试分类数据集的方法。在获得分类数据集之后，若需要对其进行标准化处理，则使用绝对标准差的方式对所述分类数据集进行标准化；将PSO算法与KNN分类算法进行结合，利用PSO算法学习加权KNN算法中的权重值，提出了基于PSO算法的加权KNN分类算法，对测试集进行种群初始化；在确定所述训练集中每个粒子的预测标记向量后，根据适应度函数值公式计算每个粒子的初始度适应值。通过适应度函数值进行评价后得到最后的优化权重值，然后代入测试集进行预测。本发明在传统KNN分类算法的基础上增加了数据的训练过程，再对测试集进行预测，可以提高分类的准确度。

Description

一种测试分类数据集的方法

技术领域

本申请涉及多标记学习及其应用领域，尤其涉及一种测试分类数据集的方法。

背景技术

多标记学习及其应用，是当前机器学习和数据挖掘领域的热点研究问题。多标记学习起源于文本分类问题。其中，每个文件可能属于多个事先预定的不同主题。除文本分类以外，多标记学习已广泛应用于许多实际问题当中。例如蛋白质功能分类、语义场景分类和音乐分类等。在功能基因组学研究中，每个基因可能隶属于多个功能类别，例如代谢、转录和蛋白质合成等；在语义场景分类问题中，一张图片可能同时属于多种主题类别，例如一张图片中如果同时存在沙滩和阳光的场景，那么在图片分类当中，这张图片既可以属于沙滩类，也可以属于阳光类；同样的，在音乐分类中，一首歌可以既属于摇滚乐也可以属于民谣，如蝎子乐队的歌曲。在这些应用当中，训练集中的每个示例都属于多个标记，而多标记学习的任务就是通过对已知标记的训练集数据的分析，为每个未知的示例预测输出一组标记集。

现有的做法，是使用K最近邻分类算法进行分类。该算法由Hart和Cover 于上世纪60年代末首次提出，是一种典型的Lazy型分类算法，也是基于实例学习的分类算法中比较常用的一种方法。是基于统计的分类方法，是根据测试样本在特征空间中K格最近邻样本中的多数样本的类别来进行分类，因此具有直观、无需先验统计知识等特点，从而成为非参数分类的一种重要方法。但是此算法的精确度还有待提高。

发明内容

本发明提供了一种测试分类数据集的方法，以解决现有的KNN算法精确度不够高的技术问题。本发明基于粒子群优化算法，使用新的加权KNN分类算法，并将其运用到多种多标记数据集中，对测试数据集进行测试，提高了 KNN分类算法的准确度。

为解决上述技术问题，本发明提供了一种测试分类数据集的方法，所述方法包括：

步骤1，获得分类数据集；

步骤2，判断所述分类数据集是否需要进行标准化，若是，使用绝对标准差的方式对所述分类数据集进行标准化；

步骤3，标准化之后，将所述分类数据集分成训练集和测试集；

步骤4，利用PSO算法学习加权KNN算法中的权重值，然后根据获得的权重值的取值范围对所述训练集进行种群初始化；

步骤5，确定所述训练集中每个粒子的预测标记向量，然后根据适应度函数值公式计算每个粒子的初始度适应值；

步骤6，根据粒子群速度公式对每个粒子进行更新操作，然后对每个粒子进行适应度评价以及适应度排序；

步骤7，判断粒子是否达到停止条件；

若满足，转入步骤8，根据每个粒子的适应度排序获得优化权重值；基于所述优化权重值对所述测试集进行分类测试；

若不满足，转入步骤5。

优选的，在所述步骤4中，利用PSO算法学习加权KNN算法中的权重值，具体包括：

获得距离计算公式：d_i表示第i个粒子与全局最优粒子之间的距离，gBest_l表示全局最优粒子的位置，χ_il表示第i个粒子的位置，m表示粒子的总数；

每当一个粒子靠近当前全局最优位置时，增加惯性权重值w，缩小c₂：

其中m为粒子维度值，n为种群大小，c_2max＝2，c_2min＝0.5，ω_max＝1.1，ω_min＝0.4；ω(i)表示第i个粒子的惯性权重,c₁表示学习因子，c₂(i)表示第i个粒子的“社会知识”因子，c₁(i)表示第i个粒子的学习因子；动态调整学习因子c₁(i)： c₁(i)＝4.0-c₂(i)。

优选的，在所述步骤5中，确定所述训练集中每个粒子的预测标记向量，具体为：

利用0/1的方式对所述训练集进行标记，将每个粒子的预测标记向量确定为0/1的向量集合，其中，0表示标记不属于粒子，1表示标记属于粒子。

优选的，在所述步骤5中，适应度函数值公式具体为：

其中，Y表示所述训练集的数据标记集合，N表示集合中的粒子数，Y_i表示第i个粒子的实际标记向量集，Z_i表示第i个粒子的预测标记向量集。

优选的，在所述步骤8中，基于所述优化权重值对所述测试集进行分类测试，具体包括：

对所述优化权重值的适应度值进行排序，然后再求取各自的平均权值；

利用所述平均权值和预测函数，获得所述测试集的预测类标记；

计算所述测试集的分类准确度。

优选的，在所述步骤8中，基于所述优化权重值对所述测试集进行分类测试，具体还包括：

对所述优化权重值的适应度值进行排序；

基于排序后的优化权重值和预测函数，获得所述测试集的最终类标记，所述最终类标记具体是类标记匹配度最高的标记；

计算所述测试集的分类准确度。

优选的，在所述根据每个粒子的适应度排序获得优化权重值之后，所述方法还包括：

利用所述优化权重值对待分类数据集进行分类预测。

通过本发明的一个或者多个技术方案，本发明具有以下有益效果或者优点：

在本发明中，描述了一种测试分类数据集的方法。在获得分类数据集之后，若需要对其进行标准化处理，则使用绝对标准差的方式对所述分类数据集进行标准化；将PSO算法与KNN分类算法进行结合，利用PSO算法学习加权KNN 算法中的权重值，提出了基于PSO算法的加权KNN分类算法，对测试集进行种群初始化；在确定所述训练集中每个粒子的预测标记向量后，然后根据适应度函数值公式计算每个粒子的初始度适应值。通过适应度函数值进行评价后得到最后的优化权重值，然后代入测试集进行预测。本发明在传统KNN分类算法的基础上增加了数据的训练过程，然后再对测试数据集进行预测。本发明通过使用粒子群优化算法对传统的数据分类进行改进，改进后的算法可以提高分类的准确度。

进一步的，在计算初始度适应值时，是根据多标记学习中的二分类评估标准，采用0/1向量标记集的方式，设计相应的适应度函数。

进一步的，采用了两种不同的方式对测试数据集进行预测，以提高分类的准确度。

附图说明

图1为本发明实施例中测试分类数据集的流程图；

图2为本发明实施例中CAL500最优适应度权值分类结果；

图3为本发明实施例中CAL500适应度排名前10权值分类结果；

图4为本发明实施例中CAL500适应度排名前20权值分类结果；

图5本发明实施例中CAL500适应度排名前30权值分类结果；

图6为本发明实施例中emotions最优适应度权值分类结果；

图7为本发明实施例中emotions适应度排名前10权值分类结果；

图8为本发明实施例中emotions适应度排名前20权值分类结果；

图9为本发明实施例中emotions适应度排名前30权值分类结果；

图10为本发明实施例中scene最优适应度权值分类结果；

图11为本发明实施例中scene适应度排名前10权值分类结果；

图12为本发明实施例中scene适应度排名前20权值分类结果；

图13为本发明实施例中scene适应度排名前10权值分类结果；

图14为本发明实施例中scene最优适应度权值分类结果；

图15为本发明实施例中scene适应度排名前10权值分类结果；

图16为本发明实施例中scene适应度排名前20权值分类结果；

图17为本发明实施例中scene适应度排名前30权值分类结果；

图18为本发明实施例中CAL500分类结果对比；

图19为本发明实施例中emotions分类结果对比；

图20为本发明实施例中scene分类结果对比；

图21为本发明实施例中yeast分类结果对比。

具体实施方式

具体来说，本发明针对KNN(K-Nearest Neighbor，K最近邻)分类算法在对数据进行分类时只考虑到样本的数值特征，并未虑样本结构特征的缺点，提出对样本的属性进行加权处理，以提高K最近邻分类算法的精确度。本发明采用的方法是将PSO(Particle SwarmOptimization，粒子群算法)融入到KNN 分类算法当中去，在传统的KNN分类算法的欧氏距离公式上做了调整，为每个属性加入了权值。采用调整后的距离公式通过粒子群优化算法对训练数据集进行训练后，优化出所有属性的一组权值，将这组优化出来的属性权值代入调整后的距离公式当中，计算测试数据集中每条示例与训练集中的距离，对测试集进行预测。本发明提出的算法与传统的KNN分类算法相比，增加了对数据集的训练过程，更大化的利用了已知数据的特性，在一定程度上提高了数据利用率。

为了使本申请所属技术领域中的技术人员更清楚地理解本申请，下面结合附图，通过具体实施例对本申请技术方案作详细描述。

在本发明实施例中，提供了一种测试分类数据集的方法，具体请参看图1，该方法包括：

步骤1，获得分类数据集。

步骤2，判断所述分类数据集是否需要进行标准化，若是，使用绝对标准差的方式对所述分类数据集进行标准化。

由于数据集某些属性之间的数据差异较大，会影响属性对预测结果的准确性，因此研究合适的数据集标准化处理策略，减小数据间差异较大时对数据集分类准确度的预测误差是很有必要的。本发明对数据集的标准化处理采用的是统计学中的“对变量标准化”方法，不同于原始方法中用到的‘数据的平均值’和‘标准差’，本发明中使用了数据的‘绝对标准差’进行标准化。

步骤3，标准化之后，将所述分类数据集分成训练集和测试集。

具体来说，可以随机将分类数据集分成训练集和测试集。也可以采用分层随机取样的方法，对分类数据集进行预处理操作。随机取读入的分类数据集的 70％进入到训练集，剩余30％进入到测试集。

步骤4，利用PSO算法学习加权KNN算法中的权重值，然后根据获得的权重值的取值范围对所述训练集进行种群初始化。

PSO算法，是演化算法中的一种，同所有的演化算法一样，首先都是随机初始化一个种群，与其他演化算法不同的是，PSO算法的每个个体都是一个粒子，每个粒子都有自己的速度和位置。该算法的基本思想是：在可行解空间随机初始化一群粒子，每个粒子代表优化问题的一种可行解，通过实际问题来设定适应度函数评价一个粒子的优劣，种群中每个粒子根据速度变量来更新自己的位置。通常种群中每个粒子朝着当前最优粒子的方向运动，在运动的过程中保留自己的历史最优位置，经过逐代搜索得到最优解。

具体来说，PSO算法学习加权KNN算法中的权重值，具体改进方法如下：

获得距离计算公式：d_i表示第i个粒子与全局最优粒子之间的距离，gBest_l表示全局最优粒子的位置，χ_il表示第i个粒子的位置，m表示粒子的总数。

每当一个粒子靠近当前全局最优位置时，增加惯性权重值，缩小c₂(c₂表示的是学习因子)。

其中n为种群大小，c_2max＝2，c_2min＝0.5，ω_max＝1.1，ω_min＝0.4；ω表示惯性权重。ω(i)表示第i个粒子的惯性权重。

动态调整学习因子c₁(i)：c₁(i)＝4.0-c₂(i)。

步骤5，确定所述训练集中每个粒子的预测标记向量，然后根据适应度函数值公式计算每个粒子的初始度适应值。

其中，所述粒子代表的含义是种群中的一个个体：

具体来说，适应度函数值的具体形式化描述如下：假设Y为数据标记集合，通过0/1 的方式对训练集进行标记，最后每个示例(即：粒子)的标记集合是 0/1的向量集合。其中0 表示该标记不属于该粒子，1表示该标记属于该粒子。例如一粒子的标记向量为(1,1,0,1, 0)，其预测标记向量为(1,0,1,1,0)，则该粒子的预测准确度为3/5。设测试的数据集示例数为N，Y_i为第i个粒子的实际标记向量集，Z_i为第i个粒子的预测标记向量集，则适应度函数值公式为：

步骤6，根据粒子群速度公式对每个粒子进行更新操作，然后对每个粒子进行适应度评以及适应度排序。

对适应度进行排序的主要目的是为了得到优化权重值。

步骤7，判断粒子是否达到停止条件。

若满足，转入步骤8，根据每个粒子的适应度排序获得优化权重值；基于所述优化权重值对所述测试集进行分类测试。

若不满足，转入步骤5继续执行。

在具体的分类测试中，可以采用两种方式进行测试：

第一种：对所述优化权重值的适应度值进行排序，然后再求取各自的平均权值；利用所述平均权值和预测函数，获得所述测试集的预测类标记；计算所述测试集的分类准确度。

第二种：对所述优化权重值的适应度值进行排序；基于排序后的优化权重值和预测函数，获得所述测试集的最终类标记，所述最终类标记具体是类标记匹配度最高的标记；计算所述测试集的分类准确度。

具体来说，预测方法二则是在第一种方法的基础上做了一定的调整，将优化后的权值的适应度值进行排序，依次选择适应度值相等的、排名前10、排名前20、排名前30的权值，代入预测函数中，选择类标记匹配度最高的标记作为预测的最终类标记，计算整体的准确度值。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施步骤：

1.下载相关测试所用的公认数据集，本发明以数据集CAL500，yeast，scene 和emotions进行说明。数据集yeast为生物数据集，是关于基因功能的分类；数据集scene包括的数据是关于场景分类问题的；数据集emotions为音乐情感的分类；数据集CAL500是音乐曲目分类。数据集描述如下表1：

表1

2.判断各分类数据集是否需要标准化，若需要则采用本发明提到的标准化处理策略对各分类数据集进行处理，否则直接进行试验测试。在测试时，先将分类数据集划分为训练集和预测集。

3.利用PSO对加权KNN算法的权值进行学习，对训练集进行训练，优化得到最终的权值，然后初始化种群。

4.采用本发明设计的适应度函数进行粒子评价，并对每个粒子按照适应度值递减的顺序对粒子进行排序。

5.采用本发明提出的两种方式对测试集进行分类预测，保存预测结果和该算法的运行时间，用以实验对比。

6.采用KNN算法对数据集进行分类预测，保存实验结果与程序运行时间，用以实验对比。

7.对实验结果进行对比统计，以表格、图片及文字的方式对分类结果进行分类。如下所示：

表2-最优适应度权值分类准确度对比

表3-适应度排名前10分类准确度对比

表4-适应度排名前20分类准确度对比

表5-适应度排名前30分类准确度对比

从表2-5可是看出以下几点：(1)预测方法二的分类准确度高于预测方法一的准确度，表示预测方法二在分类性能上较好；(2)计算最优适应度值的粒子数大于10左右的优化分类结果较好(3)由表2-5可以看出，预测方法二的分类效果，从三个方面比较来看结果都是比较优的，从拓扑排名前10起，无论是Best、Mean还是Worst，其分类准确度都高于预测方法一和传统的KNN 分类算法；(4)预测方法一虽然不能保证所有的分类结果都优于传统的KNN 分类算法，但是其中大部分的结果都是优于KNN分类算法的，且最优情况下分类准确度都是高于KNN分类算法的。

下面将从实验结果图进行分析。

请参看图2-图5，是数据集CAL500的分类结果对比。由图2知本文算法提出的两种预测方式虽然不能保证所有情况都是优于KNN算法的，但是可是明显看出，在大部情况下，本文提出的算法还是优于KNN分类算法的；由图 2-图5可以看出，在对应适应度拓扑排名下，预测方法二的分类结果100％优于KNN分类算法，预测方法一虽然较预测方法二差，但是分类结果70％都优于KNN分类算法。

请参看图6-图9，是数据集emotions的分类结果对比。由图6-图9可知，本文分类算法对于数据集emotions的分类效果较数据集CAL500的分类效果好。由emotions的分类结果图可知，本文算法对于emotions数据集而言，预测方法一的预测准确度80％都优于KNN分类算法；对于预测方法二，除图6 中情况准确度80％优于KNN分类算法外，其余情况下都是100％优于KNN分类算法的。

请参看图10-图13，是数据集scene的分类结果。由图可知，对于scene 数据集来说，从整体看来，最优适应度权值的分类结果中预测方法一较好。在图10-图13中，预测方法二的分类结果仍能保证100％的优于KNN分类算法，相较于其他两个数据集而言其准确度提高较大。

请参看图14-图17，是数据集yeast的分类结果。由图知本文提出的分类算法中的预测方法一并不适合yeast数据集分类；但是由图14-图17知预测方法二仍能保证分类结果100％优于KNN分类算法。

综合以上几种数据集的分类结果曲线图可知，为了保证算法对于不同数据集的普适性，本文提出的基于粒子群优化算法的加权KNN分类算法，采用预测方法二对数据集进行分类预测，可确保分类准确度的提高。

本文将改进的粒子群优化算法运用到提出的多标记分类算法当中，基于改进PSO的加权KNN分类算法和基于标准PSO的加权KNN分类算法的结果对比如表6-表9所示：

表6-最优适应度权值分类准确度对比

表7-适应度排名前10分类准确度对比

表8-适应度排名前20分类准确度对比

表9-适应度排名前30分类准确度对比

综合标准粒子群算法和改进粒子群算法的分类结果分析，为了减少分类运行时间的同时保证分类的准确度，粒子群优化算法在进行多标记数据分类时，预测阶段可采用预测方法二进行分类预测，且在预测的过程中选择适应度排名前20的权重值组合进行预测。图18-图21为该预测方法预测得到的结果曲线对比图，以便直观看出分类结果。

通过本发明的一个或者多个实施例，本发明具有以下有益效果或者优点：

尽管已描述了本申请的优选实施例，但本领域内的普通技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种测试分类数据集的方法，应用于文本分类，其特征在于，所述方法包括：

步骤1，获得分类数据集；

步骤4，利用PSO算法学习加权KNN算法中的权重值，然后根据获得的权重值的取值范围对所述训练集进行种群初始化；在所述步骤4中，利用PSO算法学习加权KNN算法中的权重值，具体包括：获得距离计算公式：d_i表示第i个粒子与全局最优粒子之间的距离，gBest_l表示全局最优粒子的位置，χ_il表示第i个粒子的位置，m表示粒子的总数；

其中m为粒子维度值，n为种群大小，c_2max＝2，c_2min＝0.5，ω_max＝1.1，ω_min＝0.4；ω(i)表示第i个粒子的惯性权重,c₁表示学习因子，c₂(i)表示第i个粒子的“社会知识”因子，c₁(i)表示第i个粒子的学习因子；动态调整学习因子c₁(i)：c₁(i)＝4.0-c₂(i)；

步骤7，判断粒子是否达到停止条件；

若不满足，转入步骤5。

2.如权利要求1所述的方法，其特征在于，在所述步骤5中，确定所述训练集中每个粒子的预测标记向量，具体为：

3.如权利要求2所述的方法，其特征在于，在所述步骤5中，适应度函数值公式具体为：

4.如权利要求1所述的方法，其特征在于，在所述步骤8中，基于所述优化权重值对所述测试集进行分类测试，具体包括：

计算所述测试集的分类准确度。

5.如权利要求1所述的方法，其特征在于，在所述步骤8中，基于所述优化权重值对所述测试集进行分类测试，具体还包括：

对所述优化权重值的适应度值进行排序；

计算所述测试集的分类准确度。

6.如权利要求1所述的方法，其特征在于，在所述根据每个粒子的适应度排序获得优化权重值之后，所述方法还包括：

利用所述优化权重值对待分类数据集进行分类预测。