CN116894169A

CN116894169A - 基于动态特征聚类和粒子群优化的在线流特征选择方法

Info

Publication number: CN116894169A
Application number: CN202310765773.8A
Authority: CN
Inventors: 宋贤芳; 张勇; 马昊; 彭超; 孙晓燕; 张振
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-10-17
Anticipated expiration: 2043-06-27
Also published as: CN116894169B

Abstract

本发明公开了基于动态特征聚类和粒子群优化的在线流特征选择方法，属于数据处理领域，包括以下步骤：S1、输入一个新的特征组G_T；S2、在线相关性分析；S3、增量式特征聚类：将经步骤S2处理后的特征划分到已有特征簇中或创建新簇；S4、判断是否满足启动条件，若满足则执行步骤S5，否则从每个特征簇中选取最重要的特征并作为输出特征子集S_T；S5、历史信息驱动的整型粒子群算法：在聚类的基础上，采用历史信息驱动的粒子群算法搜索最优特征子集，并输出特征子集S_T；S6、判断有无新的特征组到来，若有则返回步骤S1，否则结束。本发明采用上述基于动态特征聚类和粒子群优化的在线流特征选择方法，可在多数数据集中获得最佳的分类精度。

Description

基于动态特征聚类和粒子群优化的在线流特征选择方法

技术领域

本发明涉及数据处理技术领域，尤其涉及基于动态特征聚类和粒子群优化的在线流特征选择方法。

背景技术

特征选择是数据挖掘和机器学习领域中重要的数据预处理方法，并逐步成为上述领域的研究热点。具体来说，特征选择是从原始特征空间中选择出一个相关的子集来构建更加高效的预测模型。通过对原始数据集进行特征选择，可以移除大量与目标变量不相关或者冗余的特征，有效降低数据中特征的维数，从而提高对目标变量预测的准确度，降低对原始数据集的后续处理成本。且通过特征选择技术挑选出来的特征，更容易被研究人员理解和分析，从而能更好地揭示原始数据中隐藏的有用信息。

现有的特征选择方法大都处理的是静态数据，即数据的样本数和维度是固定的。然而，随着信息与通信技术的迅猛发展，全球的数据量呈爆炸式增长。在诸多应用领域中，如动态个性化推荐系统、图像分析、音乐软件中的自动音乐分类以及垃圾邮件过滤等，特征是源源不断产生的。它们形成了实时的、连续的、未知的特征流，从而使得特征空间呈现高维度和动态性的趋势。

在此情况下，假如要等到所有的特征信息都获取完成后再开始进行后续操作，将是非常耗时且不可实现。因此，基于特征流的在线特征选择方法应运而生。该方法是在样本数量固定，而特征在不同的时间戳不断到达的情况下，实时处理新流入的特征。由于特征是不断到达的，因此在线特征选择是一个动态的过程，其特点是每当一个新特征或一组特征到达时，就必须立即决定是保留还是丢弃，一旦被丢弃，将不能再次选择它。此外，在线特征选择只能依次获得流特征，无法直接获得整个特征空间的信息。故而，在线特征选择是一个非常具有挑战性的问题。

此时针对流特征的特征选择问题，样本数量被认为是恒定的，而候选特征随时间到达，任务的目标是从迄今为止所看到的特征中及时选择出当前最优特征子集。在线流特征选择的形式化定义为：假设一个数据集A_Data＝[data₁,data₂,…,data_M]^T∈R^M×D中包含M个样本和D维特征。类标签向量C＝[c₁,c₂,…c_r]∈R^r表示包含r种不同的类标签。在时间窗口T中，只有A_Data中的一个特征或一组特征的数据信息可以被获取。在线流特征选择就是在每一个时间窗口中，从所有已获取的特征集合F′中选择出一个特征子集使得给定的性能指标尽可能地好。

目前，在线特征选择方法根据特征是单个到达还是成组到达，主要分为在线单特征选择和在线组特征选择，并且已成功应用于流特征选择中。针对在线单特征选择，比较典型的在线特征选择方法(OFS)有Perkins等提出的Grafting算法，其采用梯度下降法处理流特征；Zhou等利用流回归模型，提出的alpha-investing算法；Wu等定义了在线流特征选择框架，并提出了OSFS和Fast-OSFS算法，这两个算法均由两部分组成：在线相关性分析和在线冗余性分析；Yu等提出了SAOLA算法，专门处理高维数据。

而近年来，对于流特征选择的探索仍未停止。Rahmaninia等提出一种基于互信息(MI)的在线流特征选择方法，该方法在相关性和冗余性分析中使用互信息来消除OFS中的不相关和冗余特征，已被成功应用于高维数据的离散和连续特征，并且在准确性，运行时间和稳定性方面均表现良好。Zhou等考虑到特征之间的交互特性，提出了一种新的流特征选择方法，该方法设计了一种交互增益度量来衡量新到达的特征与已经选择的子集之间的交互程度。Zhou等提出了首先基于信息论的动态决策系统，将每个新到达的特征识别为选择特征、丢弃特征或延迟特征；然后，将选择特征直接添加到候选特征子集中，忽略丢弃特征，并将延迟特征缓存到未确定的特征子集中。

可知，上述在线单特征选择方法为流特征选择问题提供了宝贵的经验，然而，由于该类方法只能单独评估一个特征，无法直接用于特征成组到达的流特征选择问题，将会破坏特征组中的结构并降低算法的性能。因此，许多学者对特征采用组的方式处理，即将组结构与在线特征选择相结合来优化在线特征选择问题，从而提出了在线组特征选择方法。典型的工作包括Li等提出的一种基于特征流的在线组特征选择方法GFSSF，该方法利用熵和互信息理论，能够同时在单特征和组特征级别进行在线流特征选择。Wang等利用组结构的先验知识，提出一种在线特征选择框架OGFS；Group-SAOLA是SAOLA算法的扩展，能够同时处理单特征和组特征级别的稀疏组特征选择问题。近些年，Liu等提出了在线多标签组特征选择方法，该方法分为两个阶段：在线组选择和在线组间选择，在第一个阶段中，基于信息论设计了一种新的特征相关性标准来确定组中特征是否相关；在第二个阶段中，通过特征交互和特征冗余分析来过滤冗余特征。虽然，该方法具有不错的动态选择特征的能力，但它的性能容易受到相关性阈值的影响。Zhou等考虑到组特征中的特征交互作用，提出了一种可以选择交互特征的在线组流特征选择方法。该方法包含两个阶段：在线组内选择和在线组间选择。Xu等针对流特征选择中出现的模糊和不确定环境的情况，提出一些基于模糊邻域熵的不确定性度量，并据此研究了一种新颖的在线组流特征选择方法。

上述方法均能有效地解决特征成组到达的流特征选择问题。然而，现在大多数在线流特征选择方法均存在反复计算特征间相关性或冗余性的不足。少数学者尝试将聚类技术用于在线特征选择问题，以降低特征间相关性计算的次数。(因其可以将相关特征放在同一个簇中，而将不相关的特征划分到不同的簇中。这样可以有效地缩小特征变量空间，降低算法的计算代价。)

例如，J.Xu等将特征分组技术应用到流特征选择中，提出了一种具有增量特征分组的在线流特征选择算法。该算法的主要思想是将相似的特征组合在一起。首先使用PGVNS将初始数据集中的特征划分为多个组；然后根据定义的准则将新到达的特征分配到已有组或用其创建一个新组；最后，选择每个特征组的质心构成最终的特征子集。

为了解决无监督在线特征选择问题，开发了流特征的无监督在线特征选择方法。该方法扩展了k-mean聚类，可以对未知的特征流进行聚类，以确定新到达的特征是否可以被选为代表性的流特征。该方法不需要任何有关类标签的或代表性特征的先验知识。

类似地，Yan等提出一种基于动态特征聚类的在线无监督特征选择算法。该算法首先通过基于密度的动态聚类方法对流特征进行聚类，然后使用聚类信息选择出具有低冗余和高相关性的特征子集。该算法尽管在分类精度上取得了较好的性能，但计算代价仍然较高。

上述算法虽然在解决特征流问题上取得了很好的效果，但在聚类过程中未适时在线调整特征聚类结果，难以保证高质量聚类特征。此外，同样在选择代表性特征时从每个簇中独立选择，没有考虑特征间的组合性能。

同时，进化优化算法已经在特征选择问题上取得了较好的效果。它们采用迭代进化思想逐渐逼近特征选择问题的最优特征子集，并能在搜索过程中充分考虑特征之间的交互特性。

其中，粒子群优化算法(PSO)具有操作简单和全局搜索能力强的特点，因而被广泛应用于解决特征选择问题。具体来说，粒子群优化算法是通过模拟鸟类群体觅食行为而设计的一种典型群智能优化算法。该算法在搜索空间中随机生成一组粒子，每个粒子代表一个候选解。不失一般性，以一个包含D维变量的优化问题为例，假设种群中所包含的粒子数为N，迭代次数为t，将第i个粒子的位置表示为速度表示为粒子位置的更新是由其个体最佳位置和种群中的全局最佳位置决定。

具体地，粒子的位置更新公式如下：

其中，ω为惯性权重，用来调整算法的搜索能力；c₁和c₂为加速度系数，用来调整种群的收敛速度；r₁和r₂是两个随机数，一般介于[0,1]之间。

为了从不同的特征类中搜索最优的特征组合，Song等提出了一种适用于整型特征选择问题的粒子群优化算法(IBPSO)。其以第i个粒子为例，粒子更新规则如下：

其中，pb_i,j为第i个粒子第j维的个体极值；Gb_i,j为第i个粒子第j维的全局极值；G(0,1)为标准高斯分布；为向下取整函数；rand为随机数。

然而，在离线方式下处理已知特征空间的进化特征选择方法无法直接应用于在线特征选择问题。因此，少数学者也尝试将进化优化算法用于在线特征选择问题中。

Paul等基于布谷鸟搜索算法提出了两种流特征选择方法：I-SFS，其中特征单独到达和G-SFS，其中特征以组的形式到达，该方法首先对每个到达的组使用布谷鸟搜索来选择出相关特征的子集，然后对于不同组中选择的特征进行冗余分析。同年，该作者提出了一种基于PSO的多标签分类在线特征选择方法，该方法在第一阶段对传入的特征组采用基于PSO的多目标技术选择最优的特征子集；在第二阶段采用组间特征过滤方法进一步丢弃与已选特征冗余的特征；并在添加新特征后，在第三阶段中已经选择的特征中删除不重要的特征。Eskandari等提出了一种新的基于二进制蝙蝠算法的在线特征选择方法，该方法使用了一种冗余特征列表以便重新考虑先前删除的冗余特征，并将冗余分析的过程构建为二进制优化问题。

上述方法将基于进化的特征选择向前推进了一步，以处理OSF场景。然而，该类方法每次在新特征到达时都会重新启动进化算法，没有考虑历史搜索信息对进化算法搜索过程的推动作用，在一定程度上浪费了种群的计算资源。

发明内容

为解决上述问题，本发明提供一种基于动态特征聚类和粒子群优化的在线流特征选择方法，主要有三个阶段：首先，在第一阶段中，计算G_T中每一个特征与类标签的相关性，根据事先设定的阈值删除不相关特征，剩下的特征构成特征子集G_T′；其次，在第二阶段中，根据特征与前一个时间窗口内保留的代表性特征间的相关性，对G_T′中的特征进行增量式聚类，即将新窗口下的剩余特征划分到相应的已有特征簇中或生成新的特征簇，其中第一个时间窗口下的特征组G₁′利用特征聚类技术进行初次聚类获得初始的特征簇；最后，在第三阶段中，如果满足设置的执行条件，则采用历史信息驱动的整型粒子群算法从第二阶段得到的特征簇中选出目前为止的最优特征子集S_T；反之，则从当前聚类结果中选取每个特征簇中最重要的特征组成特征子集S_T。直到无新的特征组到达时，算法将终止并返回当前最优特征子集S_T，从而在多数数据集中获得最佳的分类精度。

为实现上述目的，本发明提供了基于动态特征聚类和粒子群优化的在线流特征选择方法，包括以下步骤：

S1、输入一个新的特征组G_T；

S2、在线相关性分析：根据特征组G_T中的特征与类标签C间的相关性删除新到达的特征组G_T中的不相关特征；

S3、增量式特征聚类：将经步骤S2处理后的特征划分到已有特征簇中或创建新簇；

S4、判断是否满足启动条件，若满足则执行步骤S5，否则从每个特征簇中选取最重要的特征并作为输出特征子集S_T；

S5、历史信息驱动的整型粒子群算法：在聚类的基础上，采用历史信息驱动的粒子群算法搜索最优特征子集，并输出特征子集S_T；

S6、判断有无新的特征组到来，若有则返回步骤S1，否则结束。

本发明具有以下有益效果：

(1)提出一种代表性特征引导的动态特征聚类策略：通过分析新到达特征与已有特征簇中代表性特征之间的相关性完成特征的聚类。由于仅需要分析每个特征与代表性特征间的相关性，不需要利用历史时间窗口下所有特征重新聚类，该策略在降低存储压力的同时，减少了特征间相关性计算的次数。此外，由于代表性特征的选择考虑了特征间的组合性能，保证了聚类结果的质量。

(2)设计一种历史最优特征信息的存储和使用策略：该策略将历史时间窗口内获得的最优特征子集保存到储备集中，以便引导后续时间窗口内问题的求解。同时，定义储备集中每个特征子集的时效性、分类精度以及重要性。依据特征子集的特性来不断更新储备集，确定每个特征子集在后续种群初始化过程中被选择的可能性。

(3)提出一种融合历史信息的粒子群初始化策略：该策略利用储备集中的特征子集引导初始粒子的生成，进而产生高质量的初始种群，在节约计算资源的同时，可以加快种群的收敛速度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的基于动态特征聚类和粒子群优化的在线流特征选择方法流程图；

图2为本发明的实施例的增量式特征聚类对比图；

图3为本发明的实施例的粒子编码和解码示意图；

图4为本发明的实施例的储备集中的历史最优特征子集初始化粒子的过程图；

图5为本发明的实验例的当SVM分类器被用作基准分类器时，G值的变化曲线图；

图6为本发明的实验例的随着G值的增加，相应的运行时间变化曲线图；

图7为本发明的实验例的随着G值的增加，所选特征的平均数变化曲线图；

图8为本发明的实验例所述的在SVM中OGFS-CP和其他基准算法的统计分析图；

图9为本发明的实验例所述的在KNN中OGFS-CP和其他基准算法的统计分析图。

具体实施方式

为了使本发明实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明实施例，并不用于限定本发明实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1所示，基于动态特征聚类和粒子群优化的在线流特征选择方法(OGFS-CP)，包括以下步骤：

S1、输入一个新的特征组G_T；假设在时间窗口T内，新到达的特征组是其中|G_T|是特征组G_T的特征数目；

针对特征是成组到达的在线特征选择，虽然候选特征的全局信息是未知的，并且特征是动态到达的，但是特征相关性分析方法仍然能够高效地评估特征与标签之间的相关性以初步删除部分不相关或弱相关特征。

优选的，在步骤S2中使用C-relevant评估特征与类标签的相关性；

其具体包括以下步骤：

S21、定义特征与类标签C之间的相关性C-relevant，其由用于表示特征/>和类标签C之间的对称不确定性的/>表示，其中为特征/>的熵，用来度量/>值的不确定性；H(C)＝-Σp(C)log₂p(C)为类标签C的熵，用来度量C值的不确定性；/>为信息增益，表示得知类标签C信息后使得/>不确定性减少的程度；为条件熵，用来测量给定C值时/>值的不确定性；

S22、在时间窗口T，设定新到达的特征组为类标签为C，并令输出的相关特征组G_T′为空集；

S23、计算G_T中每个特征的C-relevant值，并确定阈值δ_T(在特征选择中，当一个特征被删除时，该特征不能再被重新利用，因此设置一个合适的阈值来评估特征的相关性，可以降低算法的不连续性和不稳定性的风险)：

式中，表示特征组G_T中第/>个特征的C-relevant值，其中/>为向下取整函数；

S24、判断特征

若特征的C-relevant值不小于阈值δ_T，则说明该特征带有类标签C的预测信息，那么将其添加到相关特征组所有G_T′中，否则删除；

S25、循环步骤S24，直至特征组G_T中的特征全部判断完毕，输出相关特征组G_T′。

优选的，在步骤S3中具体包括以下步骤：

S31、将特征和第l个特征簇的代表性特征f_{l_R}间的相关性称作FR-relevant，且由/>表示；

S32、对于时间窗口T下相关特征组G_T′中的特征使用公式计算其与所有特征簇的代表性特征间的FR-relevant值，，式中，为特征/>的熵，用来度量/>值的不确定性；H(f_{l_R})＝-∑p(f_{l_R})log₂p(f_{l_R})为特征f_{l_R}的熵，用来度量f_{l_R}值的不确定性；/>为信息增益，表示得知类标签C信息后使得/>不确定性减少的程度；为条件熵，用来测量给定C值时/>值的不确定性；

并假定特征与第l个特征簇的代表性特征f_{l_R}间的FR-relevant值最大，如果满足/>其中/>为最大的FR-relevant值，则特征与第l个特征簇的代表性特征f_{l_R}冗余，进一步与第l个特征簇冗余，称为Cluster-redundancy；

S33、特征划分：

当输入的是初始时间窗口内的相关特征组G₁′时，T＝1，首先根据C-relevant值将G₁′中的所有特征进行降序得到集合G₁″；而后使用FCFC聚类算法聚类为若干个初始特征簇；

当输入的是时间窗口T内的相关特征组G_T′时，首先，根据步骤S31计算集合G_T′中每一个特征与每一个特征簇中的代表性特征间的FR-relevant值，将最大值和相应的下标分别保存在value和index中；然后，根据步骤S32判断：若满足则将其添加到相应特征簇中；否则，新建特征簇，其中的代表性特征选取新簇中C-relevant值最大的特征；最后，循环执行，直至把G_T′中的所有特征都划分到相应特征簇中。

在本实施例中，如图2所示，假设已有3个特征簇Cluster¹、Cluster²和Cluster³且新到达的相关特征组GT′中有5个特征和/>以特征/>和/>为例，因特征/>与特征簇Cluster²的代表性特征间的FR-relevant值最大且满足Cluster-redundancy，所以将其添加到Cluster²中，同样的方式/>和/>分别划分到Cluster²、Cluster¹和Cluster³。而对于特征/>因其不满足Cluster-redundancy，所以自身构成特征簇Cluster⁴。

优选的，在步骤S3中随着对到来的特征组执行增量式特征聚类，求解问题的决策变量空间将发生变化，因此，问题的粒子编码的长度和取值范围将发生变化，故采用如下粒子编码策略：

假设第T个时间窗口内的聚类结果为且对于包含k个特征簇的优化问题，设定其对应粒子的编码长度为k；同时设定第i个粒子的编码为其中，/> 表示第T个时间窗口内第j个簇/>中的第a个特征被选择。

如图3所示，在本实施例中假定在T＝3时的聚类结果为和/>其中包含的特征为{f₁,f₃,f₄}和{f₂,f₅}。当特征簇/>中的第二个特征f₃被选中时，则粒子的第一维取值为2，同理，粒子的第二维取值为1。在下一个时间窗口T＝4中，由于特征组G₄′＝{f₆,f₇,f₈}的到来，聚类的结果变化为/> 和/>因此，粒子的编码长度由原来的2变为了3且取值范围也发生了变化，如粒子第二位的取值范围由0～2变为0～4。

优选的，针对步骤S3所获得的Q_T个特征簇，采用进化优化算法从上述特征簇中选择部分关键特征使目标函数H(·)最优，其表达式如下：

maxH(X_T)

式中，H(X_T)为所要求解的目标函数；Q_T为经步骤S3获得的特征簇个数；X_T为当前聚类结果所对应的特征子集；表示将第T个时间窗口内第i个簇/>中第a个特征选入特征子集X_T；当a＝0时，表示第T个时间窗口内第i个簇/>中没有一个特征被选中。

设置该条件的原因是在每个时间窗口都执行粒子群算法搜索最优特征子集是耗时的，且是非必要的。

优选的，步骤S4中所述的启动条件为：

式中，Q_T为当前时间窗口聚类后的簇数；Q_T-1为上一时间窗口聚类后的簇数。

可知如果满足上述条件，说明当前聚类生成了较多的新簇，则执行历史信息驱动的整型粒子群算法选出当前窗口的最优特征子集；反之，当前聚类生成较少的新簇，此时，认为上一窗口选择的特征子集依然可以作为当前窗口的最优特征子集。

优选的，步骤S5具体包括以下步骤：

S51、利用融合历史信息的初始化策略生成初始种群Pop₀；利用历史种群信息生成质量高的初始种群来加速算法的收敛；

优选的，步骤S51具体包括以下步骤：

S511、设定历史信息并设定当前时间窗口下聚类结果共有Q_T个特征簇，分别为/>

S512、根据对于特征子集的重要性的定义，计算储备集M_T-1中每个历史最优特征子集的重要性IV_i值；

S513、每个特征子集的IV_i值，采用轮盘赌的方式从储备集M_T-1中选择一个最优特征子集以引导种群中初始粒子的生成；

优选的，在步骤S513中：

若特征簇中包含特征子集/>中的一个特征，则将特征在特征簇/>中的位置作为粒子/>的第j维元素的取值；

若特征簇中包含特征子集/>中的两个及两个以上的特征，则将C-relevant值最大的特征在特征簇/>中的位置作为粒子/>的第j维元素的取值；

若特征簇中不包含特征子集/>中的任意一个特征，则利用相关性引导的初始化策略，确定粒子/>的第j维元素的取值。

S514、根据被选中的最优特征子集中包含的特征来确定初始粒子中的每一维元素的取值；

如图4所示，假定被选中的最优特征子集是当前特征聚类结果共有4个特征簇，分别为/>由于特征簇/>包含了/>中的特征f₁，且f₁处于特征簇/>中的第1个位置，因此粒子/>的第1维元素的取值为1，同理粒子/>的第3维元素的取值为2；由于特征簇/>包含了/>中的两个特征f₅和f₈，假如f₈的C-relevant值最大，且f₈处于特征簇/>的第3个位置，因此粒子/>的第2维元素的取值为3；由于特征簇/>未包含/>中任意一个特征，粒子/>的第4维元素取值根据相关性引导的初始化策略确定。

且在本实施例中，在种群初始化过程中，若最优特征子集被多次选中，那么由其引导产生的初始粒子的前3维元素的取值将始终为(1,3,2)。为了增加种群的多样性，在当前种群初始化过程中，若最优特征子集被第z(z≥2)次选中，那么在粒子/>初始过程中，首先设定一个概率阈值(通常为0.5)；接着，确定粒子中每一维元素的取值，具体地，若生成的0-1间的随机数rand大于该阈值，则该维元素的取值采用融合历史信息的初始化策略获得，否则采用随机初始化策略。

S515、输出N个粒子并组成初始种群P_op0。

S52、计算初始种群Pop0中每个粒子的适应度值，并评价每个粒子的适应值得到个体极值Pbest和全局极值Gbest；

其中，适应度函数为Fitness(X_i)＝Acc(F_i)，X_i和F_i分别是第i个粒子及其对应的特征子集；Acc(F_i)是F_i的分类精度，定义分类精度为正确预测样本的百分比：

S53、更新粒子位置；

S54、判断是否满足迭代次数，若满足则执行步骤S55，否则返回步骤S53；

S55、输出Gbest到特征子集S_T，并利用历史信息存储策略将特征子集S_T存入到储备集M_T-1中得到M_T。以便将其引入到后续的初始化种群中来加快算法的搜索速度。

在历史时间窗口获得的聚类结果中找到的当前最优特征子集代表了历史搜索经验，在新时间窗口内通常是有价值的。因此，将历史最优特征子集保存到储备集，并从中检索出合适的最优特征子集引导新形成的搜索空间的进化搜索是非常有意义的。如果当前窗口中的进化算法满足停止条件或新的特征组到达时，将进化算法找到的当前最优特征子集保存到储备集中。存储在储备集中的特征子集应该具有高于平均水平的适应能力，此外，两个相邻窗口的最优特征子集可能具有相似性。也就是说，上一窗口中的最优特征子集很可能在当前窗口中是有利的。所以，充分利用储备集中的特征子集是必要的。

所以，在步骤S55所述的历史信息存储策略中采用了双储备集，储备集M¹用于存储每个时间窗口的最优特征子集，储备集M²用于存储储备集M¹中特征的样本信息；

其具体包括以下步骤：

S551、给出储备集M¹中特征子集的时效性定义：对于储备集M¹中的特征子集其时效性描述为p_i，通过以下公式计算所得：

式中，T为当前时间窗口的序号；T_i为将特征子集存入储备集时的时间窗口序号；

S552、给出储备集M¹中特征子集的利用率的定义：对于储备集M¹中的特征子集将其分类精度定义为q_i，该值由分类器评估获得；

S553、定义特征子集的重要性：对于储备集M¹中的特征子集/>将其重要性定义为IV_i，通过以下公式计算所得：

IV_i＝α*p_i+(1-α)*q_i

式中，α为设置的超参数，α越大，则特征子集的时效性越重要，反之，α越小，特征子集/>的分类精度就越重要。本实施例中将α设置为0.5。

由于储备集允许算法重新利用有用的历史信息，所以会产生一个问题即随着越来越多解的涌入，它的规模会越来越大，这会导致对历史信息的搜索效率低下。为了解决这个问题，根据所计算的特征子集的重要性，将储备集的规模设置为20。因为在超过最大规模20之后，当初第一个添加的特征子集的重要性已经非常低，被选择的概率将微乎其微。在达到储备集M¹的最大规模后，之后所需要添加的特征子集将会替换储备集中重要性最小的特征子集。

实验分析

本实验所有实验均在Intel i5-9400 CPU，2.90GHz，8.00GB RAM的机器上进行。且在10个基准数据集(这些数据集由网上下载，且涵盖了不同的样本规模、特征维度和类别数目)上对本发明所提算法进行了性能验证。具体而言，数据集的实例数量从50到2600不等，特征数量从206到15154不等，类别数量从2到10不等。这些数据集的多样性可以充分展示本发明算法的有效性和适用性。

表1为数据集的基本信息表

为了评估本发明所提算法的性能，将本发明所提算法(OGFS-CP)与五种现有最先进的OSFS算法的性能进行了对比，五种现有最先进的OSFS算法包括Fast-OSFS，Group-SAOLA，OFS-Density，OGSFS-FI和OSFS-Bat。

为了消除算法在数据集中的随机性，将70％的数据集作为训练集，30％的数据集作为测试集，实验运行次数为10，并用结果的平均值作为最终的实验结果。并利用SVM和KNN(k＝3)两种分类器对上述算法选定的特征子集进行了评估。

表2为算法参数设置表

对比算法	参数设置
		Fast-OSFS	α＝0.01,k＝3
Group-SAOLA	α＝0.01
		OFS-Density	λ＝0.05
OGSFS-FI	γ＝0.01
		OSFS-Bat	K＝2,α＝0.8
OGFS-CP	储备集规模M＝20

参数分析实验

分析组规模G的不同取值对OGFS-CP算法性能的影响：G定义了每次有新的特征组流入时要处理的特征数。实验中组规模G的取值为50，100，150，200，250。不同G取值情况下独立运行OGFS-CP算法10次。由于空间限制，仅选择五个数据集：Colon，lung，leukemia，ALLAML和Ovarian来测试不同G值的性能。

如图5所示(需要说明的是，图5的横坐标单位个，纵坐标单位％)，当SVM分类器被用作基准分类器时，G值的变化并没有导致OGFS-CP方法在分类精度方面出现显著差异。根据这些观察结果，表明OGFS-CP方法的性能对组规模的变化并不敏感。

如图6所示(需要说明的是，图6的纵坐标单位秒)，显示了除了Ovarian数据集，随着G值的增加，相应的运行时间减少。这是因为较小的组规模将导致更多算法的调用。因此，将花费更多的运行时间。对于Ovarian数据集的不同结果，一个可能的解释是数据集中冗余特征较少，组规模的增加使得聚类数目变多，PSO搜索空间变大，从而导致运行时间的增加。

此外，如图7所示(需要说明的是，图7的纵坐标单位个)，当G＝50时，算法在大部分数据集上选择的特征较多；G＝100时，算法普遍选择的特征较少。

综上所述，在综合考虑运行代价、分类精度和所选特征数目后，本发明设置组规模为100。

消融实验

为了评估OGFS-CP算法中历史信息驱动的整型粒子群的贡献，执行消融实验，即将该整型粒子群算法从OGFS-CP中移除(并标记新算法为OGFS-C)，并比较其与完整算法的性能。该算法去掉了第三阶段，只使用第一和第二阶段进行在线流特征选择。表3描述了两种算法应用于6种不同类型的数据集，并在SVM分类器上得到的平均分类精度(Acc)和特征规模(d^*)。

表3为由OGFS-CP和OGFS-C得到的Acc和d^*记录表

从表3可以看出，对于10个数据集中的7个数据集，OGFS-CP在SVM分类器中的平均分类精度都高于OGFS-C；在所选特征规模方面，对于大部分数据集，OGFS-CP的第三阶段大大减少了前两阶段所选出特征的规模。在Colon，lung和leukemia数据集中，虽然OGFS-C在分类器中的平均分类精度略高于OGFS-CP，但所选特征规模远大于OGFS-CP。因此，本发明所提历史信息驱动的整型粒子群在改进算法性能方面具有重要作用。

对比实验分析

分类精度

表4为采用SVM分类器时OGFS-CP算法与其它五种对比算法在10个分类数据集上独立运行10次后得到的平均分类精度，进一步，为了更好地展现各种对比算法的分类性能，表中最后两行分别显示了所有数据集的平均值和Friedman测试。

表4为OGFS-CP和5种对比算法得到的Acc值(SVM)

从表4可以看出，本发明所提的在线流特征选择方法可以在10个数据集中的6个(SCADI、warpAR10P、warpPIE10P、lung、leukemia和Ovarian)上获得最佳的分类精度。对于剩下的数据集，OGFS-CP与其他在线流特征选择方法表现相当，获得了排名第2或者第3的结果。此外，OGFS-CP取得了1.6的最高平均排名。

此外在图8中，使用Nemenyi post-hoc检验获得了OGFS-CP和其他对比算法之间统计比较的CD图。从图8中可以看出，在SVM分类器上，OGFS-CP与其他算法具有显著性差异。总体而言，所提算法能够有效地找到质量较好的特征子集。

采用KNN代替SVM作为分类器

表5为OGFS-CP和5种对比算法得到的Acc值(KNN)

表5和图9展示了6种算法所得平均分类精度Acc值及其统计结果。可以看出，在10个数据集中的6个数据集上，本发明所提算法OGFS-CP获得了最佳的分类精度，分别为80％、84.21％、62.05％、97.46％、92.3％和86.36％。例如，在lung数据集上，OGFS-CP算法相比于其它对比算法，分类精度至少提高了7.05％。此外，OGFS-CP仍然取得了1.8的最高的平均排名。说明本发明提出的流特征选择算法能够有效提升所选特征子集的质量。对于剩下的4个数据集，Fast-OSFS、group-saola、OSFS-Density和OSFS-bat仅分别在ALLAML、Ovarian、DrivFace和madelon获得较好的分类精度。同样的，从图9的CD图中，可以看出，在KNN分类器上，OGFS-CP与其他算法仍具有显著性差异。总体而言，在同时使用KNN分类器的情况下，相对其它5种对比算法，本发明所提算法OGFS-CP同样展现出了很高的竞争力。

特征规模分析

表6为OGFS-CP算法与其它5种对比算法在10个数据集上所选特征数量的对比表(SVM)

从表6中可以看出，(1)对于大多数数据集，Fast-OSFS在所有这些对比算法中选择了最少的特征。但从表4可知，其分类精度并不高，这可能是遗漏一些重要信息所导致的。(2)在madelon、warpAR10P、warpPIE10P和Ovarian数据集上，OGFS-CP获得了最高的特征规模，但从表4可以看出，除madelon数据集外，其他数据集均获得最高的分类精度。而且分类精度分别至少提高了12.57％、7.15％和0.39％。

综上可见，即使本发明所提OGFS-CP算法在大多数数据集上获得较大的特征规模，但获得相对较高的分类精度。

运行时间分析

表7为独立运行10次，所提OGFS-CP方法与其它5种方法的平均运行时间对比表(单位：秒)(SVM)

由表7可以看出，在基于粒子群优化算法开发的特征选择方法中，最耗时的步骤是对所选特征子集进行质量评估，因为这一步骤涉及使用学习算法实现分类任务。可以看出，OGFS-CP运行时间明显高于Fast-OSFS、group-saola、OGSFS-FI和OSFS-Density，但要低于OSFS-bat。Fast-OSFS、group-saola、OGSFS-FI和OSFS-Density四种算法是过滤式方法，运行时间会明显低于OGFS-CP。而OSFS-bat和OGFS-CP是基于群优化算法开发的在线流特征选择方法，其中最耗时的步骤是对所选特征子集进行质量评估，因为这一步骤涉及使用学习算法实现分类任务。虽然OGFS-CP在运行时间上并不是最优，但在分类性能上具有非常大的提升。因此，OGFS-CP是一种具有较高的竞争力的算法。

因此，本发明采用上述基于动态特征聚类和粒子群优化的在线流特征选择方法，主要有三个阶段：在线相关性分析、动态特征聚类和历史信息驱动的整型粒子群算法。第一阶段根据特征与类标签间的相关性删除新到达的特征组中的不相关特征；第二阶段利用动态特征聚类将冗余特征聚到一起；在第三阶段，为了考虑特征间的组合性能，采用了整型粒子群算法对第二阶段的聚类结果进行搜索，从而在多数数据集中获得最佳的分类精度。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.基于动态特征聚类和粒子群优化的在线流特征选择方法，其特征在于：包括以下步骤：

S1、输入一个新的特征组G_T；

2.根据权利要求1所述的基于动态特征聚类和粒子群优化的在线流特征选择方法，其特征在于：在步骤S2中使用C-relevant评估特征与类标签的相关性；

其具体包括以下步骤：

S21、定义特征与类标签C之间的相关性为C-relevant，其由用于表示特征/>和类标签C之间的对称不确定性的/>表示，其中为特征/>的熵，用来度量/>值的不确定性；H(C)＝0∑p(C)log₂p(C)为类标签C的熵，用来度量C值的不确定性；/>为信息增益，表示得知类标签C信息后使得/>不确定性减少的程度；为条件熵，用来测量给定C值时/>值的不确定性；

S23、计算G_T中每个特征的C-relevant值，并确定阈值δ_T：

式中，表示特征组G_T中第/>个特征的C-relevant值，其中为向下取整函数；

S24、判断特征

3.根据权利要求2所述的基于动态特征聚类和粒子群优化的在线流特征选择方法，其特征在于：在步骤S3中具体包括以下步骤：

S32、对于时间窗口T下相关特征组G_T′中的特征使用公式计算其与所有特征簇的代表性特征间的FR-relevant值，式中，为特征/>的熵，用来度量/>值的不确定性；H(f_{l_R})＝-∑p(f_{l_R})log₂p(f_{l_R})为特征f_{l_R}的熵，用来度量f_{l_R}值的不确定性；/>为信息增益，表示得知类标签C信息后使得/>不确定性减少的程度；为条件熵，用来测量给定C值时/>值的不确定性；

并假定特征与第l个特征簇的代表性特征f_{l_R}间的FR-relevant值最大，如果满足其中/>为最大的FR-relevant值，则特征与第l个特征簇的代表性特征f_{l_R}冗余，进一步与第l个特征簇冗余，称为Cluster-redundancy；

S33、特征划分：

4.根据权利要求3所述的基于动态特征聚类和粒子群优化的在线流特征选择方法，其特征在于：在步骤S3中随着对到来的特征组执行增量式特征聚类，求解问题的决策变量空间将发生变化，因此，问题的粒子编码的长度和取值范围将发生变化，故采用如下粒子编码策略：

假设第T个时间窗口内的聚类结果为且对于包含k个特征簇的优化问题，设定其对应粒子的编码长度为k；同时设定第i个粒子的编码为其中，/>表示第T个时间窗口内第j个簇/>中的第a个特征被选择。

5.根据权利要求3所述的基于动态特征聚类和粒子群优化的在线流特征选择方法，其特征在于：针对步骤S3所获得的Q_T个特征簇，采用进化优化算法从上述特征簇中选择部分关键特征使目标函数H(·)最优，其表达式如下：

max H(X_T)

式中，H(X_T)为所要求解的目标函数；Q_T为经步骤S2获得的特征簇个数；X_T为当前聚类结果所对应的特征子集；表示将第T个时间窗口内第i个簇/>中第a个特征选入特征子集X_T；当a＝0时，表示第T个时间窗口内第i个簇/>中没有一个特征被选中。

6.根据权利要求1所述的基于动态特征聚类和粒子群优化的在线流特征选择方法，其特征在于：步骤S4中所述的启动条件为：

7.根据权利要求1所述的基于动态特征聚类和粒子群优化的在线流特征选择方法，其特征在于：步骤S5具体包括以下步骤：

S51、利用融合历史信息的初始化策略生成初始种群P_op0；

S52、计算初始种群P_op0中每个粒子的适应度值，并评价每个粒子的适应值得到个体极值Pbest和全局极值Gbest；

S53、更新粒子位置；

S55、输出Gbest到特征子集S_T，并利用历史信息存储策略将特征子集S_T存入到储备集M_T-1中得到M_T。

8.根据权利要求7所述的基于动态特征聚类和粒子群优化的在线流特征选择方法，其特征在于：步骤S51具体包括以下步骤：

S514、根据被选中的最优特征子集中包含的特征来确定初始粒子中每一维元素的取值；

S515、输出N个粒子并组成初始种群P_op0。

9.根据权利要求8所述的基于动态特征聚类和粒子群优化的在线流特征选择方法，其特征在于：在步骤S513中：

10.根据权利要求7所述的基于动态特征聚类和粒子群优化的在线流特征选择方法，其特征在于：在步骤S55所述的历史信息存储策略中采用了双储备集，储备集M¹用于存储每个时间窗口的最优特征子集，储备集M²用于存储储备集M¹中特征的样本信息；

其具体包括以下步骤：

IV_i＝α*p_i+(1-α)*q_i

式中，α为设置的超参数，α越大，则特征子集的时效性越重要，反之，α越小，特征子集的分类精度就越重要。