CN108133240A

CN108133240A - 一种基于烟花算法的多标签分类方法及系统

Info

Publication number: CN108133240A
Application number: CN201810092707.8A
Authority: CN
Inventors: 王春枝; 陈颖哲; 叶志伟; 严灵毓; 任紫扉; 罗启星; 王毅超; 吴盼; 周方禹; 王鑫; 蔡文成; 张鸿鑫
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2018-06-08

Abstract

本发明公开一种基于烟花算法的多标签分类方法及系统，具体为已知训练样本的标签，所述训练样本有多个训练样本节点，根据所述训练样本的标签对待预测样本进行多标签分类，采用烟花算法计算所述待预测样本与所述训练样本之间的最优特征权值；根据所述最优特征权值计算所述待预测样本与所述训练样本节点之间的加权欧氏距离；根据所述加权欧氏距离，从多个所述训练样本节点中获得k个距离所述待预测样本最近的最邻近节点；根据k个所述最邻近节点的标签，获取所述待预测样本的标签。采用烟花算法计算分类算法中的最优特征值，提高了多标签分类的精度。

Description

一种基于烟花算法的多标签分类方法及系统

技术领域

本发明涉及多标签分类领域，特别是涉及一种基于烟花算法的多标签分类方法及系统。

背景技术

对于多标签的分类问题，目前的主要解决途径分为问题转换和算法适应两种，问题转换的基本思想是通过对多标签训练样本进行处理，将多标签分类问题转换为已知的学习问题求解。

现有技术中提出了一种基于粒子群优化算法的多标签分类算法，包括优化阶段和分类阶段，优化阶段是采用粒子群算法优化特征加权最近邻分类算法的特征权值，分类阶段是将优化阶段得出的特征权值应用到特征加权最近邻分类算法中给测试样本进行分类，最终输出测试集中所有样本的标签。

但是当样本不平衡时，例如当一个类的样本容量很大，而其他类的样本容量很小时，有可能导致当输入一个新样本时，输入样本的邻居中大容量类的样本占多数，就会导致新样本并不接近目标样本，或者新样本非常靠近目标样本，粒子群优化算法容易出现收敛于局部最优解，导致多标签分类的精度低。

发明内容

本发明的目的是提供一种能够提高多标签分类精度的基于烟花算法的多标签分类方法及系统。

为实现上述目的，本发明提供了如下方案：

一种基于烟花算法的多标签分类方法，所述分类方法具体包括：

获取训练样本的标签，所述训练样本有多个训练样本节点，根据所述训练样本的标签对待预测样本进行多标签分类，采用烟花算法计算所述待预测样本与所述训练样本之间的最优特征权值；

根据所述最优特征权值计算所述待预测样本与所述训练节点之间的加权欧氏距离；

根据所述加权欧氏距离，从多个所述训练节点中获得k个距离所述待预测样本最近的最邻近节点的标签；

根据k个所述最邻近节点的标签，获取所述待预测样本的标签。

可选的，所述采用烟花算法计算所述待预测样本与所述训练样本之间的最优特征权值具体包括：

在空间坐标系内随机设置N个初始烟花，所述初始烟花的位置对应所述待预测样本的位置；所述初始烟花爆炸产生爆炸火花，所述爆炸火花的位置对应所述测试样本的位置；

计算所述爆炸火花与所述初始烟花之间的距离权值；

根据所述距离权值计算所述爆炸火花的适应度值；

将所述适应度值按照降序排序获得序列适应度值，选择前M个所述序列适应度值对应的所述爆炸火花与所述初始烟花之间的距离权值，获得最优距离权值；所述距离权值对应所述待预测样本与所述训练样本之间的特征权值，所述最优距离权值对应所述待预测样本与所述训练样本之间的最优特征权值。

可选的，所述根据所述最优特征权值计算所述待预测样本与所述训练节点之间的加权欧氏距离具体包括：

所述根据所述最优特征权值计算所述待预测样本X与所述训练节点A[j]之间的加权欧氏距离ωd(X,A[j])，其中j的取值为1,2,3，......，k；

其中，n表示所述训练样本节点A[j]的属性个数，l的取值为1,2，......n；

X_l表示所述待预测样本X的第l个属性。

可选的，所述根据所述加权欧氏距离，从多个所述训练节点中获得k个距离所述待预测样本最近的最邻近节点具体包括：

分别计算多个所述训练节点与所述待预测样本的加权欧氏距离，获得多个加权欧氏距离；

将多个所述加权欧氏距离按照升序排序，获得升序加权欧氏距离；

将前k个所述升序加权欧氏距离确定为距离所述待预测样本最近的k个最邻近节点。

可选的，所述根据k个所述最邻近节点的标签，获取所述待预测样本的标签的方法具体包括：

获取k个所述最邻近节点中每个标签出现的次数；

按照每个标签出现的次数从高到低排序，选出前L个标签即为所述待预测样本的标签。

一种基于烟花算法的多标签分类系统，所述多标签分类系统具体包括：

特征权值计算模块，用于采用烟花算法计算所述待预测样本与所述训练样本之间的最优特征权值；

加权欧氏距离计算模块与所述特征权值计算模块连接，所述加权欧氏距离计算模块用于根据所述最优特征权值计算所述待预测样本与所述训练节点之间的加权欧氏距离；

最邻近节点获取模块与所述加权欧氏距离计算模块连接，所述最邻近节点获取模块用于根据所述加权欧氏距离，从多个所述训练样本节点中获得k个距离所述待预测样本最近的最邻近节点；

标签获取模块与所述最邻近节点获取模块连接，所述标签获取模块用于根据k个所述最邻近节点的标签，获取所述待预测样本的标签。

可选的，所述特征权值计算模块具体包括：

建立坐标单元，用于在空间坐标系内随机设置N个初始烟花，所述初始烟花的位置对应所述待预测样本的位置；所述初始烟花爆炸产生爆炸火花，所述爆炸火花的位置对应所述测试样本的位置；

距离权值计算单元与所述建立坐标单元连接，所述距离权值计算单元用于计算所述爆炸火花与所述初始烟花之间的距离权值；

适应度值计算单元与所述距离权值计算单元连接，所述适应度值计算单元用于根据所述距离权值计算所述爆炸火花的适应度值；

最优距离权值获取单元与所述适应度值计算单元连接，所述最优距离权值获取单元用于将所述适应度值按照降序排序获得序列适应度值，选择前M个所述序列适应度值对应的所述爆炸火花与所述初始烟花之间的距离权值，获得最优距离权值；

最优特征权值获取单元分别与所述最优距离权值获取单元和所述加权欧氏距离计算模块连接，所述最优特征权值获取单元用于将所述最优距离权值确定为所述待预测样本与所述训练样本之间的最优特征权值。

可选的，所述加权欧氏距离计算模块具体包括：

加权欧氏距离计算单元分别与所述特征权值计算模块和所述最邻近节点获取模块连接，所述加权欧氏距离计算单元用于计算所述待预测样本X与所述训练节点A[j]之间的加权欧氏距离ωd(X,A[j])，其中j的取值为1,2,3，......，k；

X_l表示所述待预测样本X的第l个属性。

可选的，所述最邻近节点获取模块具体包括：

加权欧氏距离计算单元与所述加权欧氏距离计算模块连接，所述加权欧氏距离计算单元用于分别计算多个所述训练样本节点与所述待预测样本的加权欧氏距离，获得多个加权欧氏距离；

加权欧氏距离获取单元与所述加权欧氏距离计算单元连接，所述加权欧氏距离获取单元用于将多个所述加权欧氏距离按照升序排序，获得升序加权欧氏距离；

最邻近节点确定单元分别与所述加权欧氏距离获取单元和所述标签获取模块连接，所述最邻近节点获取单元用于将前k个所述升序加权欧氏距离确定为距离所述待预测样本最近的k个最邻近节点。

可选的，所述标签获取模块具体包括：

获取次数单元与所述最邻近节点获取模块连接，所述获取次数单元用于获取k个所述最邻近节点中每个标签出现的次数；

标签获取单元与所述获取次数单元连接，所述标签获取单元用于按照每个标签出现的次数从高到低排序，选出前L个标签即为所述待预测样本的标签。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明公开了一种基于烟花算法的多标签分类方法及系统，采用烟花算法计算所述待测样本与所述训练样本之间的最优特征权值，根据所述最优特征权值获得k个距离所述待预测样本最近的最邻近节点，再根据k个所述最邻近节点的标签，获取所述待预测样本的标签，采用烟花算法获得的最优特征值的精确度高，所以将最优特征值代入分类算法得到的分类结果的精度高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于烟花算法的多标签分类方法的流程图；

图2为本发明提供的基于烟花算法的多标签分类系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示的一种基于烟花算法的多标签分类方法的流程图，所述分类算法具体包括：

步骤100：已知训练样本的标签，所述训练样本有多个训练样本节点，根据所述训练样本的标签对待预测样本进行多标签分类，采用烟花算法计算所述待预测样本与所述训练样本之间的最优特征权值，所述最优特征值能够消除数据集中的特征的冗余或是不相关的内容，从而减小了距离偏差，提高了分类的准确度。

步骤200：根据所述最优特征权值计算所述待预测样本与所述训练样本节点之间的加权欧氏距离。

步骤300：根据所述加权欧氏距离，从多个所述训练样本节点中获得k个距离所述待预测样本最近的最邻近节点。

步骤400：根据k个所述最邻近节点的标签，获取所述待预测样本的标签，最后获得所述测试样本中的所有样本的标签。

所述步骤100：所述采用烟花算法计算所述待预测样本与所述训练样本之间的特征权值具体包括：

步骤101：在空间坐标系内随机设置N个初始烟花，所述初始烟花的位置对应所述待预测样本的位置；所述初始烟花爆炸产生爆炸火花，所述爆炸火花的位置对应所述测试样本的位置。

步骤102：计算所述爆炸火花与所述初始烟花之间的距离权值。

步骤103：根据所述距离权值计算所述爆炸火花的适应度值。

步骤104：将所述适应度值按照降序排序获得序列适应度值，选择前M个所述序列适应度值对应的所述爆炸火花与所述初始烟花之间的距离权值，获得最优距离权值。

步骤105：所述距离权值对应所述待预测样本与所述训练样本之间的特征权值，所述最优距离权值对应所述待预测样本与所述训练样本之间的最优特征权值。

根据所述烟花的适应度值计算第i个烟花爆炸产生的火花数目为：

其中，M为N个烟花所产生的火花数目总数；i的取值为1,2,3，......，N；y_max＝max(f(x_i))表示烟花适应度值的最大值；f(x_i)表示第i个烟花的适应度值；

修订所述第i个烟花爆炸产生的火花数目为：

计算第i个烟花的爆炸半径

其中，RC表示预设的最大爆炸半径，y_min＝min(f(x_i))表示烟花适应度值的最小值。

将所述烟花分别进行位移操作和高斯位移操作获得新位移。

随机选取部分烟花进行位移操作，位移公式：

其中，rand(-1,1)表示[-1,1]之间的随机数，a表示所述初始烟花个数，c表示火花的个数。

随机选取部分烟花进行高斯位移，位移公式：

其中，Gaussian(1,1)表示平均值为1，标准方差为1的高斯分布。

所述高斯位移和所述位移操作，如果产生的新的位置超出了搜索区间，需要将其映射到搜索空间内，映射公式为：

其中，表示超出边界的第a个火花在第c维上的位置，和分别表示第c维上的最大值和最小值。

在每一次迭代中，所有的个体采用轮盘赌的策略选出最优个体被选进入下一代，第a个烟花被选中的概率为P

d(x_a,x_b)表示任意两个烟花个体之间的距离，a的取值为1,2,3，......，N，所述距离为适应度值的差值。

判断迭代次数是否大于设定的最大迭代次数，如果是，则结束迭代，否则，继续执行位移操作。

当所述新位移超出搜索空间，将所述新位移映射到搜索空间内获得第一代火花。

所述第一代火花多次爆炸产生多个火花，计算多个所述火花的适应度值。

所述步骤200：所述根据所述最优特征权值计算所述待预测样本与所述训练样本集节点之间的加权欧氏距离具体包括：

X_l表示所述待预测样本X的第l个属性。

所述步骤300：所述根据所述加权欧氏距离，从多个所述训练样本节点中获得k个距离所述待预测样本最近的最邻近节点具体包括：

步骤301：分别计算多个所述训练样本节点与所述待预测样本的加权欧氏距离，获得多个加权欧氏距离。

步骤302：将多个所述加权欧氏距离按照升序排序，获得升序加权欧氏距离。

步骤303：将前k个所述升序加权欧氏距离设置为距离所述待预测样本最近的k个最邻近节点。

所述步骤400：所述根据k个所述最邻近节点的标签，获取所述待预测样本的标签的方法具体包括：

步骤401：获取k个所述最邻近节点中每个标签出现的次数。

步骤402：按照每个标签出现的次数从高到低排序，选出前L个标签即为所述待预测样本的标签。

为了实现上述目的，本发明还提供了如下方案：

如图2所示的一种基于烟花算法的多标签分类系统的结构图，所述分类系统具体包括：

特征权值计算模块1，用于采用烟花算法计算所述待预测样本与所述训练样本之间的最优特征权值。

加权欧氏距离计算模块2与所述特征权值计算模块1连接，所述加权欧氏距离计算模块2用于根据所述最优特征权值计算所述待预测样本与所述训练样本节点之间的加权欧氏距离。

最邻近节点获取模块3与所述加权欧氏距离计算模块2连接，最邻近节点获取模块3用于根据所述加权欧氏距离，从多个所述训练样本节点中获得k个距离所述待预测样本最近的最邻近节点。

标签获取模块4与所述最邻近节点获取模块3连接，所述标签获取模块4用于根据k个所述最邻近节点的标签，获取所述待预测样本的标签。

所述特征权值计算模块1具体包括：

建立坐标单元，用于在空间坐标系内随机设置N个初始烟花，所述初始烟花的位置对应所述待预测样本的位置；所述初始烟花爆炸产生爆炸火花，所述爆炸火花的位置对应所述测试样本的位置。

距离权值计算单元与所述建立坐标单元连接，所述距离权值计算单元用于计算所述爆炸火花与所述初始烟花之间的距离权值。

适应度值计算单元与所述距离权值计算单元连接，所述适应度值计算单元用于根据所述距离权值计算所述爆炸火花的适应度值。

最优距离权值获取单元与所述适应度值计算单元连接，所述最优距离权值获取单元用于将所述适应度值按照降序排序获得序列适应度值，选择前M个所述序列适应度值对应的所述爆炸火花与所述初始烟花之间的距离权值，获得最优距离权值。

最优特征权值获取单元分别与所述最优距离权值获取单元和所述加权欧氏距离计算模块2连接，所述最优特征权值获取单元用于将所述最优距离权值对应所述待预测样本与所述训练样本之间的最优特征权值。

所述加权欧氏距离计算模块2具体包括：

加权欧氏距离计算单元分别与所述特征权值计算模块和所述最邻近节点获取模块连接，所述加权欧氏距离计算单元用于计算所述待预测样本X与所述训练节点A[j]之间的加权欧氏距离ωd(X,A[j])，其中j的取值为1,2,3，......，k。

X_l表示所述待预测样本X的第l个属性。

所述最邻近节点获取模块3具体包括：

加权欧氏距离计算单元与所述加权欧氏距离计算模块2连接，所述加权欧氏距离计算单元用于分别计算多个所述训练样本节点与所述待预测样本的加权欧氏距离，获得多个加权欧氏距离。

加权欧氏距离获取单元与所述加权欧氏距离计算单元连接，所述加权欧氏距离获取单元用于将多个所述加权欧氏距离按照升序排序，获得升序加权欧氏距离。

最邻近节点获取单元分别与所述加权欧氏距离获取单元和所述标签获取模块4连接，所述最邻近节点获取单元用于将前k个所述升序加权欧氏距离设置为距离所述待预测样本最近的k个最邻近节点。

所述标签获取模块4具体包括：

获取次数单元与所述最邻近节点获取模块3连接，所述获取次数单元用于获取k个所述最邻近节点中每个标签出现的次数。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于烟花算法的多标签分类方法，其特征在于，所述分类方法具体包括：

2.根据权利要求1所述的一种基于烟花算法的多标签分类方法，其特征在于，所述采用烟花算法计算所述待预测样本与所述训练样本之间的最优特征权值具体包括：

计算所述爆炸火花与所述初始烟花之间的距离权值；

根据所述距离权值计算所述爆炸火花的适应度值；

3.根据权利要求1所述的一种基于烟花算法的多标签分类方法，其特征在于，所述根据所述最优特征权值计算所述待预测样本与所述训练节点之间的加权欧氏距离具体包括：

X_l表示所述待预测样本X的第l个属性。

4.根据权利要求1所述的一种基于烟花算法的多标签分类方法，其特征在于，所述根据所述加权欧氏距离，从多个所述训练节点中获得k个距离所述待预测样本最近的最邻近节点具体包括：

5.根据权利要求1所述的一种基于烟花算法的多标签分类方法，其特征在于，所述根据k个所述最邻近节点的标签，获取所述待预测样本的标签的方法具体包括：

获取k个所述最邻近节点中每个标签出现的次数；

6.一种基于烟花算法的多标签分类系统，其特征在于，所述多标签分类系统具体包括：

7.根据权利要求6所述的一种基于烟花算法的多标签分类系统，其特征在于，所述特征权值计算模块具体包括：

8.根据权利要求6所述的一种基于烟花算法的多标签分类系统，其特征在于，所述加权欧氏距离计算模块具体包括：

X_l表示所述待预测样本X的第l个属性。

9.根据权利要求6所述的一种基于烟花算法的多标签分类系统，其特征在于，所述最邻近节点获取模块具体包括：

10.根据权利要求6所述的一种基于烟花算法的多标签分类系统，其特征在于，所述标签获取模块具体包括：