CN113688950B

CN113688950B - 用于图像分类的多目标特征选择方法、装置和存储介质

Info

Publication number: CN113688950B
Application number: CN202111237444.3A
Authority: CN
Inventors: 罗娟娟; 蒋玲玲; 吴子逸
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-02-18
Anticipated expiration: 2041-10-25
Also published as: CN113688950A

Abstract

本发明提供一种用于图像分类的多目标特征选择方法、装置和存储介质，方法包括：计算包含多维图像特征的训练样本中每维特征对应的条件熵，计算该维特征的被选中概率；利用粒子群优化算法初始化预设数量个粒子；计算所有粒子的目标函数值，并进行非支配排序，选择非支配解更新粒子个体最优位置和粒子群的全局最优位置；在当前的迭代次数达到预定条件，则基于交叉熵进行局部搜索，在局部搜索步骤中更新粒子的速度信息和位置信息，计算所有粒子的目标函数值，并进行非支配排序，选择非支配解更新粒子个体最优位置和粒子群的全局最优位置；在迭代次数达到预设迭代次数阈值的情况下，采用拐点选择法输出最终解。

Description

用于图像分类的多目标特征选择方法、装置和存储介质

技术领域

本发明涉及图像分类技术领域，尤其涉及一种用于图像分类的多目标特征选择方法、装置和存储介质。

背景技术

图像分类是根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。在图像分类的实现过程中，往往需要从图像的特征空间提取图像的深度图像特征，然后通过特征选择（FS，Featureselection）来去除冗余的图像特征从而降低计算复杂度。特征选择是指从已有的D个特征中选择多个特征使得特定指标最优化以达到降低数据集维数的目的，通过特定标准选择一组具有代表性的特征子集或属性，以去除冗余特征，根据目标函数的不同，常用的特征选择算法主要分为三类：过滤式、包裹式以及嵌入式方法。一般过滤式方法基于非监督策略采用信息论、模糊集等领域指标进行特征选择，方法简单但限制了特征子集质量。包裹式方法结合分类性能指标进行特征选择，特征子集质量较好。嵌入式方法将特征选择嵌入分类器训练过程中，具有包裹式方法的特性，但是所选择的特征质量取决于所训练的分类器优劣程度。

目前在特征选择过程中常用的特征选择搜索策略主要有：完全搜索算法、启发式搜索和随机搜索算法。完全搜索算法可以获得全局最优解但计算复杂度较高、效率低下。启发式搜索算法主要包括前向搜索、后向搜索和双向搜索策略，可在低时空复杂度下搜索到近似最优特征子集。随机搜索算法在整个搜索空间中通过随机迭代方式进行特征选择，包含常用的进化算法、粒子群算法（又称粒子群优化算法）和模拟退火算法等，复杂度较低且特征子集质量优于启发式方法。

粒子群优化算法是一种基于种群的随机优化算法，数据维数的增大使得特征选择的搜索空间呈指数级增加，增大了特征选择求解的难度。但是由于传统粒子群优化算法的随机搜索性，特征选择的维数越多，其收敛速度变慢，因此如何提升该类算法的收敛速度是其面临的重要问题之一。同时，增强特征选择的性能尽可能的降低特征数目是需要解决的另一问题。

现有的一种基于多目标粒子群优化的特征选择算法包括以下步骤：

步骤S11，随机初始化pop个粒子

，使得

，其中，i=1,…,pop，pop为粒子个数，X _i表示第i个粒子，

表示第i个粒子的第j个特征的编码，D为特征维度，每个粒子中的特征在本发明一实施例中为从图像中提取的图像特征。

在对图像特征进行编码时，采用实数编码方式，假设获得的数据集

，N表示样本数目，D表示特征维度，即数据集中含有N个样本D维特征，a _n表示数据集中的第n个样本，a _n(X)表示采用粒子X所选特征的样本a _n，每个粒子被编码为

，

。当x _j＞threshold表示该特征被选取，threshold为特征选取阈值，x _j≤threshold表示该特征未被选取。

步骤S12，进行粒子更新。

假设一个种群中第i 个粒子在第t 代的位置信息为

，速度

，个体最优解记为

，表示粒子i的个体历史最优位置；粒子群的全局最优解记为

，表示种群全局历史最优位置；粒子速度的更新公式为：

；

其中，V _i(t)为粒子i的第t 代速度，V _i(t+1) 为粒子i的第t+1代速度；

为惯性权重，其选取影响着初始运动速度的大小，若太大则可能出现无法逼近最优值的错误，若太小则会使搜索时间变得过长；

和

分别决定了局部收敛和全局收敛的速度，

和

为0到1之间的随机数。

在该粒子更新步骤中，需要计算目标函数，基于计算的目标函数进行非支配排序，并更新

和

。

首先计算目标函数，将特征选择问题建模为多目标优化的最小化问题，目标函数为特征选择比例和分类错误率。该现有特征选择算法中，目标函数为最小化特征选择的比例和分类错误率，针对每个粒子可分别计算其目标函数值。

在更新

和

的过程中，需要根据各个粒子的目标函数值进行非支配排序，确定他们的非支配关系。对于任意一个解，若不存在在所有目标上都比该解更优的解，则该解为非支配解。非支配排序为多目标进化算法中的经典的非支配解排序方法，在此不再赘述。

为第i个粒子的个体历史最优解，

更新规则为：若粒子X _i(t+1)支配

，则

，反之，保持不变。

为当前粒子群全局历史最优解，其更新规则为：对当前所有

进行非支配排序后，选择其中的非支配解作为

。

步骤S13，确定是否达到特征选择停止准则（停止条件），该停止准则可以是预设的代数，如果达到预设代数，则执行步骤S15，选择所有非支配解进行输出，获得最终解。如果没有达到预设的代数，则执行步骤S14继续进行迭代，更新

和

，直至完成预设的代数。

在如上现有的基于粒子群优化的特征选择算法中，决策变量的搜索空间随特征数量呈指数级上升，当粒子数量的远低于特征数目时，随机初始化策略导致初始解的质量不佳，基于全局的随机搜索策略搜索能力受限，限制了算法的收敛速度。

发明内容

本发明针对现有在大规模特征选择方面存在的问题，提供了一种用于图像分类的多目标特征选择方法和装置，通过利用训练样本各维度特征的信息熵设计初始化算子来提升初始解的质量，并通过设计基于交叉熵的局部搜索算子来提升算法的收敛速度和搜索效果。

本发明的一个方面提供了一种用于图像分类的多目标特征选择方法，该方法包括以下步骤：

计算包含多维图像特征的训练样本中每维特征对应的条件熵，基于计算的条件熵计算该维特征的被选中概率；

基于各维特征对应的被选择概率，利用粒子群优化算法初始化预设数量个粒子；

计算所有粒子的目标函数值，并进行非支配排序，选择非支配解更新粒子个体最优位置和粒子群的全局最优位置；

在当前的迭代次数达到预定条件，则基于交叉熵进行局部搜索，在所述局部搜索步骤中更新粒子的速度信息和位置信息，计算所有粒子的目标函数值，并进行非支配排序，选择非支配解更新粒子个体最优位置和粒子群的全局最优位置；

在迭代次数达到预设迭代次数阈值的情况下，采用拐点选择法输出最终解。

在本发明的一些实施例中，基于如下公式计算包含多维图像特征的训练样本中每维特征对应的条件熵：

；

基于如下公式计算每维特征的被选中概率：

；

其中，F _m表示第m维特征的集合，D表示作为决策变量的特征数目，L为数据集的类别集合，

为F _m的子事件，k为子事件的序号，l为类别L的子事件，

为联合概率，表示样本同时属于子事件

和 l类的概率，

为条件概率，表示在

子事件条件下样本属于l类的概率。

在本发明一些实施例中，所述利用粒子群优化算法初始化预设数量个粒子的步骤包括：

初始化pop个含D个决策变量的粒子

，粒子中的第j个决策变量x _j是第j维特征的编码，其取值规则如下：生成0-1之间的均匀分布的随机数r，当

，

设置为预定阈值到1之间的随机数，表示该特征被选择；否则，设置为0到预定阈值之间的随机数，表示该特征未被选择。

在本发明一些实施例中，基于如下公式执行交叉熵局部搜索：

；

其中，F _m和F _q表示第m和第q个特征集合，

为F _q的子事件，

表示使用F _m和F _q两个特征进行聚类时子事件

和

属于同一类的概率。

在本发明一些实施例中，目标函数为特征选择比例和分类错误率：

；

其中，

表示粒子X所选择的特征比例，当

时，

，反之，为0；X _j为粒子中的第j个特征的编码，threshold为所述预定阈值， D表示特征数目；

表示采用粒子X所选特征进行分类的分类错误率，其中，a _n表示训练样本，a _n (X)表示采用粒子X所选特征的样本a _n，l _n为a _n的真实类标，f(a _n(X))表示样本a _n经过分类后所得类标，n为样本序号，N为样本数目，当样本a _n分类后结果与真实分类结果相同，则

，否则

。

在本发明一些实施例中，所述选择非支配解更新粒子个体最优位置和粒子群的全局最优位置的步骤中，更新规则包括：

若粒子X _i(t+1)支配

，则

，反之，粒子个体最优位置保持不变，其中，X _i(t+1)表示第t+1代的第i个粒子，

表示第t代第i个粒子的个体最优位置，X _i(t+1)表示第t+1代的第i个粒子，

表示第t+1代第i个粒子的个体最优位置；

对当前所有粒子个体最优位置进行非支配排序后，选择其中的非支配解作为粒子群的全局最优位置。

在本发明一些实施例中，所述方法还包括基于如下公式进行粒子速度的更新：

；

为惯性权重，

和

为决定局部收敛和全局收敛的速度的因子，

和

为0到1之间的随机数。

在本发明一些实施例中，所述预定条件为预定值的倍数。

本发明的另一方面提供了一种用于图像分类的多目标特征选择装置，其包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

本发明另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前所述方法的步骤。

本发明的用于图像分类的多目标特征选择方法和装置，采用了基于熵的初始化方法和基于交叉熵的局部搜索方法，能够基于熵的初始化方法基于各个特征的不确定性信息进行初始化，充分利用了训练样本各个特征的先验信息，降低了盲目搜索的概率，提升了初始解的质量，该优势在高维特征选择中尤为明显；此外，基于交叉熵的局部搜索算子根据当前非支配解的特征间的相关性进行局部搜索，进一步剔除了相关特征，降低了特征子集的规模，提升搜索效率，加快收敛速度。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。附图中：

图1为现有基于多目标粒子群优化的特征选择算法的流程图。

图2为本发明一实施例中用于图像分类的多目标特征选择方法的流程示意图。

图3为本发明另一实施例中用于图像分类的多目标特征选择算法的流程示意图。

图4为本发明一实施例中基于交叉熵指标的局部搜索策略的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

本发明将特征选择建模为多目标优化问题，提出了一种基于粒子群优化的多目标特征选择方法。该方法在监督学习的模式下，以特征子集所占比例和数据分类性能为目标函数，结合信息熵设计初始化算子，同时设计了基于交叉熵的局部搜索算子。密母算法是一种基于种群的全局搜索和基于个体的局部启发式搜索，本发明实施例中，基于粒子群优化算法，提出了一种多目标特征选择方法，该特性大大提升了搜索性能和收敛速度。

图2所示为本发明一实施例中基于粒子群优化算法的多目标特征选择方法的流程示意图。该方法主要用于图像分类，图像特征的获取方式较多。在深度学习背景下，可采用深度卷积神经网络获取深度特征，然后给予本发明所提供的方法进行进一步的特征选择。本发明的特征选择过程发生于训练阶段，用于从所有的深度特征中选择具有判别特性的特征；在测试阶段，首先通过以上深度卷积神经网络获取深度特征，然后根据训练阶段的特征选择结果提取相应的特征进行后续图像分类。本发明中采用包裹式方法结合分类性能指标进行特征选择。如图2所示，该特征选择方法包括以下步骤：

步骤S110，计算包含多维图像特征的训练样本中每维特征对应的条件熵，基于计算的条件熵计算该维特征的被选中概率。

首先获得训练样本，训练样本集中包括多个样本，每个样本包括D维特征；本步骤中计算每维特征对应的条件熵，并基于计算的条件熵计算该维特征对应的被选择概率。

，含有N个样本D维特征，a _n表示数据集中的第n个样本，若以a _n(X)表示采用粒子X所选特征的样本a _n，则每个粒子被编码为

，

假设数据集A的类别集合为L，第m维特征集合为F _m，则

度量了已知特征F _m时数据集A能正确分类的不确定度，该值越大，从m维特征获取的判别性信息越少。因此，条件熵可作为衡量是否选择第m维特征的标准，其计算方法如下面公式（1）：

(1)

其中，

为F _m的子事件，k为子事件的序号，通过kmeans所得第k个子事件聚类结果，l为类别L的子事件，

为联合概率，表示样本同时属于子事件

和 l类的概率，

为条件概率，表示在子事件

条件下样本属于l类的概率。令

表征选择特征F _m的概率，其计算方法如公式（2）所示：

(2)

D表示作为决策变量的特征数目，

值越大，则选择特征F _m的概率越高，该指标给出了特征选择的度量准则，基于该指标，本发明设计了基于熵驱动的粒子群初始化算子，基于熵驱动的粒子群初始化算子计算各个特征的条件熵

及特征选择概率

，此步骤给出了初始化过程中各个特征的选择概率，减少了随机初始化过程中的盲目搜索。

步骤S120，基于各维特征对应的被选择概率，利用粒子群优化算法初始化预设数量个粒子。

更具体地，基于各维特征对应的被选择概率，利用粒子群优化算法初始化预设数量个（如pop个）含D个决策变量（判别特征）的粒子，

，i=1,…,pop。其中，

，

的取值规则如下：生成0-1之间的均匀分布的随机数r，当

，

设置为threshold到1之间的随机数，表示该特征被选择；否则，设置为0到threshold之间的随机数，表示该特征未被选择，threshold为特征选取阈值。

该初始化方法充分利用了训练样本各个特征的先验信息，

越大，选择F _m的概率越高，因此降低了盲目搜索的概率，提升了初始化质量。若该值大于预设特征阈值，第j维特征被选择，由此得到该粒子对应的一组被选择的特征子集。

步骤S130，计算所有粒子的目标函数值，并进行非支配排序，选择非支配解更新粒子个体最优位置

和粒子群的全局最优位置

。

本发明将特征选择问题建模为多目标优化的最小化问题，目标函数为特征选择比例和分类错误率：

(3)

上式（3）中，

表示粒子X所选择的特征比例，x _j为粒子中的第j个特征的编码，threshold为所述预定阈值，D表示特征数目；当

时，

，反之，为0；

，否则

。

在更新

和

的过程中，需要根据各个粒子的目标函数值进行非支配排序，确定他们的非支配关系。非支配排序为多目标进化算法中的经典的非支配解排序方法，在此不再赘述。

更新

和

:

为第i个粒子的个体历史最优解，其更新规则为：若粒子X _i(t+1)支配

，则

，反之，保持不变；其中，X _i(t+1)表示第t+1代的第i个粒子，

表示第t+1代第i个粒子的个体最优位置。

为当前粒子群全局历史最优解，其更新规则为：对当前所有

进行非支配排序后，选择其中的非支配解作为

。

可通过多次执行

和

的更新步骤S130实现多代更新，直至代数到达预定的代数条件。

步骤S140，在当前的代数达到预定代数条件时，则基于交叉熵进行局部搜索，在局部搜索步骤中更新粒子的速度信息和位置信息，计算所有粒子的目标函数值，并进行非支配排序，选择非支配解更新粒子个体最优位置和粒子群的全局最优位置。

更具体地，预定代数条件可以是预定数值的倍数，例如为10的倍数，也即如果当前代数为10的倍数，则首先进行局部搜索，然后更新粒子的速度信息和位置信息，计算所有粒子的目标函数值，进行非支配排序，进一步选择非支配解更新

和

；如果当前代数不是10的倍数，则不进行局部搜索而更新粒子的速度信息和位置信息，计算所有粒子的目标函数值，进行非支配排序，进一步选择非支配解更新

和

。在此，预定代数条件为预定代数为10的倍数仅为示例，本发明并不限于此。

本发明实施例中局部搜索为基于交叉熵的局部搜索策略：

(4)

交叉熵主要用于度量两个概率分布间的差异性信息，因此使用公式（4）度量两个特征之间的相关性，其中，F _m和F _q表示第m和第q个特征集合，

为F _m的子事件，

为F _q的子事件，

表示使用F _m和F _q两个特征进行聚类时子事件

和

属于同一类的概率。

粒子速度信息和位置信息更新方式可见如下公式：

。

步骤S150，在迭代次数达到预设迭代次数阈值的情况下，采用拐点选择法输出最终解。

更具体地，判断是否达到停止条件：若当前代数未达到预设代数（如10代、20代、或其他更多或更少的代数），则返回步骤S140；若达到预设迭代次数，采用拐点选择法输出最终解。拐点选择法步骤如下：

1）将当前非支配解采用B-spline插值方法进行平滑处理；

2）在处理后的曲线上进行均匀采样；

3）计算每一个采样点的曲度变化；

4）曲度变化最大的采样点最近的解即为拐点，将拐点对应的特征确定为目标特征。

图3所示为本发明另一实施例中用于图像分类的多目标特征选择算法的流程示意图。如图3所示，在步骤S31计算每维特征对应的条件熵和特征选择概率，并在步骤S32基于特征选择概率进行熵驱动优化。然后在步骤S33中通过计算目标函数，基于计算的目标函数进行非支配排序，来更新

和

。基于交叉熵的局部搜索策略每隔10代进行一次（参见图3中的步骤S34和S35）；然后依次进行粒子自适应更新、目标函数评价、基于交叉熵的局部搜索以及非支配排序并更新

和

（步骤S37）；直至达到停止准则后（步骤S38），输出选择拐点作为最终解。

图4给出了本发明实施例中基于交叉熵指标的局部搜索策略的流程示意图。该策略针对非支配解集NS中的所有非支配解进行，从非支配解集NS中第一个粒子的非支配解开始，对于每一个非支配解X _i对应的特征子集，随机选取非支配解X _i的特征子集中的一个特征F _m，计算该特征F _m与特征子集中其他特征F _q的交叉熵H(F _m,F _q)，删除非支配解X _i中交叉熵值最小的L个特征后得到新的解Y _i，其中

，

表示非支配解X_i对应的特征子集的规模。当前非支配解对应的特征子集数目较少时，删除的L个特征数目较少，反之其特征数目较多。遍历所有非支配解执行上述操作后，最终输出解集Y。该局部搜索策略在本发明初始化的基础上剔除了相关性较高的特征，进一步降低了特征子集的冗余性。

如上所述，本发明将训练样本作为输入，根据训练样本计算各个特征的条件熵和选择概率，评估所有特征的质量特性。其次，使用熵驱动的初始化算子进行粒子初始化，目的在于提升解的初始化质量，缩短收敛所需时间。在迭代阶段，基于多目标粒子群优化算法框架执行，依次进行粒子自适应更新、目标函数评价、基于交叉熵的局部搜索以及非支配排序并更新

和

。其中，基于交叉熵的局部搜索策略每隔10代进行一次，且针对当前的非支配解进行。在迭代过程结束时，得到一组最优解，此时采用拐点选择法选择最终解作为训练过程的输出，得到最终的特征选择的特征子集。

本发明实施例提供的特征选择方法，采用了基于熵的初始化方法和基于交叉熵的局部搜索方法，其优点如下：

（1）基于熵的初始化方法基于各个特征的不确定性信息进行初始化，充分利用了训练样本各个特征的先验信息，降低了盲目搜索的概率，提升了初始解的质量，该优势在高维特征选择中尤为明显；

（2）基于交叉熵的局部搜索算子根据当前非支配解的特征间的相关性进行局部搜索，进一步剔除了相关特征，降低了特征子集的规模，提升搜索效率，加快收敛速度。

与上述方法相应地，本发明还提供了一种用于图像分类的多目标特征选择方法装置，该装置包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。