CN113240007B

CN113240007B - 一种基于三支决策的目标特征选择方法

Info

Publication number: CN113240007B
Application number: CN202110524790.3A
Authority: CN
Inventors: 李波; 骆双双; 田琳宇; 万开方; 高晓光
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2024-05-14
Anticipated expiration: 2041-05-14
Also published as: CN113240007A

Abstract

本发明公开了一种基于三支决策的目标特征选择方法，基于三支决策理论的特征选择算法来解决高维度小样本下的识别问题；针对典型的过滤式算法ReliefF中仅有一个阈值作为特征取舍条件的局限性以及封装式算法需要大量执行时间的弊端，引用三支决策，将过滤式算法和封装式算法思想相结合，在传统ReliefF算法的基础上将一个阈值扩展为两个阈值，根据特征权重将特征划分为正域、负域、边界域；分别对三个域的特征进行选择，在一定程度上增加算法的容错率，并大幅提高识别性能。本发明使用学习模型的准确率作为选择标准，弥补了其他算法在识别准确率上的不足。

Description

一种基于三支决策的目标特征选择方法

技术领域

本发明属于目标识别技术领域，具体涉及一种目标特征选择方法。

背景技术

随着信息技术的迅猛发展，各个领域都迎来了大数据时代。大数据包括两个方面：一是数据集的样本数量大；二是数据包含的维度大。随着大数据时代的到来，数据挖掘迎来了研究浪潮，目标识别就是数据挖掘的一种。目前，针对海量复杂图像、文本等数据，产生了越来越多的研究成果。但是，在实际应用中并不一定会有大量的标记样本，例如，航空航天等军事领域的遥感图片。在数据高维度的情况下，现有传统算法大多适用于大量标记样本，因此，高维小样本下的目标识别问题成为新的挑战。

为解决小样本高维图像识别问题，通常使用特征提取和特征选择进行数据降维。特征提取是将图像中的某些具有实际意义或抽象的特征提取出来，用特征表示图像原有数据。特征选择则是在特征集上进一步约简，剔除多余无用的特征。对于复杂图像常进行特征提取后再进行特征选择。

特征选择是粗糙集理论在数据挖掘等领域中一种重要的应用，基于粗糙集的特征选择研究也较为丰富。然而，现有的经典粗糙集理论在处理不确定性数据和数值型数据方面存在缺陷，三支决策作为一种在粗糙集基础上产生的理论可以很好的解决上述问题。

发明内容

为了克服现有技术的不足，本发明提供了一种基于三支决策的目标特征选择方法，基于三支决策理论的特征选择算法来解决高维度小样本下的识别问题；针对典型的过滤式算法ReliefF中仅有一个阈值作为特征取舍条件的局限性以及封装式算法需要大量执行时间的弊端，引用三支决策，将过滤式算法和封装式算法思想相结合，在传统ReliefF算法的基础上将一个阈值扩展为两个阈值，根据特征权重将特征划分为正域、负域、边界域；分别对三个域的特征进行选择，在一定程度上增加算法的容错率，并大幅提高识别性能。本发明使用学习模型的准确率作为选择标准，弥补了其他算法在识别准确率上的不足。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：使用ReliefF算法得到目标所有n个特征的权重值W＝{W₁,W₂,…,W_n}；

假设一个多分类问题C＝{c₁,c₂,…,c_l}的样本集合S＝{s₁,s₂,…,s_m}，每个样本包含n个特征，即s_p＝{s_p(1),s_p(2),…,s_p(n)}，1≤p≤m，m为样本数；所有特征的值为数值型，则定义两个样本s_i、s_j在特征g上的距离为：

其中，s_i(g)和s_j(g)分别表示样本s_i和s_j的特征g的值，max(g)和min(g)分别表示特征g在样本集合中的最大特征值和最小特征值，g＝1,2,…,n；

步骤1-1：初始化所有的特征权重集合

步骤1-2：从样本集合S中随机取出一个样本s，假设与s同类的样本集为其中c_u表示s的类别，与s不同类的样本总集合为/>然后从/>中找出s的k个近邻样本，从每个/>中均找出k个近邻样本，/>表示与s不同类的样本集；

步骤1-3：更新每个特征的权重，如式(2)所示：

其中，r为迭代次数，c是除样本s所属类别之外的类别，p(c)为类别c的比例，p(Class(s))为样本s的类别比例，M_i(c)表示类别c的第i个近邻样本，H_i表示与样本s同类的第i个近邻样本，class(s)为样本s所属类别；

步骤1-4：重复步骤1-2至步骤1-3，直到满足迭代次数r，得到最终的W＝{W₁,W₂,…,W_n}；

步骤2：选择三支决策的阈值对(α,β)；

步骤3：将特征划分为三个域：正域、边界域和负域；

具体划分规则如下：如果W_g≥α，将特征g划分到正域；如果β<W_g<α，将特征g划分到边界域；如果W_g≤β，将特征g划分到负域；

步骤4：分别对三个域的特征进行选择，选择规则分别如下：

正域：予以保留；

负域：进行剔除；

边界域：边界域中的特征权重介于正域和负域特征权重之间，因此作为待选特征进行下一步选择，下一步选择的具体过程如下：

步骤4-1：用正域中的特征训练SVM分类器，得到初始识别准确率acc₀；

步骤4-2：按照权重值对边界域中的特征进行由大到小排序；

步骤4-3：从权重最大的特征开始选择，将该特征加入到正域特征中并在边界域中删除该特征，用刚更新过后的正域特征重新训练分类器得到识别准确率acc′；

步骤4-4：如果acc′>acc₀，则保留从边界域加入到正域的特征，令acc₀等于acc′；否则如果acc′≤acc₀，则将加入正域的特征从正域中剔除；

步骤4-5：遍历边界域中的特征，重复步骤4-3到步骤4-4，直至边界域中没有特征；

步骤4-6：输出最后正域中的特征即为最后选择的特征集。

优选地，所述阈值对(α,β)的取值范围为1≥α>β>0。

本发明的有益效果如下：

本发明方法在传统ReliefF算法仅有一个阈值的基础上采用三支决策增加了一个阈值判断，大大提高选择的容错率以及识别性能；并使用学习模型的准确率作为选择标准，弥补了其他算法在识别准确率上的不足，有效解决了高维度小样本条件下的目标识别问题。

附图说明

图1是本发明方法的特征选择流程图。

图2是本发明实施例的四个种类的遥感图像。

图3是本发明实施例不同特征选择方法的特征选择结果。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明为解决小样本高维图像下的识别问题，提出一种新的混合式特征选择算法：基于三支决策的特征选择算法(Three-way decision and ReliefF，TWReliefF)。TWReliefF算法是在ReliefF算法的基础上引入三支决策，根据三支决策阈值和ReliefF算法得到的特征权重，将特征划分为正域、负域、边界域；分别对三个域的特征进行选择，提高容错率，降低不确定性。

一种基于三支决策的目标特征选择方法，包括如下步骤：

步骤1-1：初始化所有的特征权重集合

步骤1-3：更新每个特征的权重，如式(2)所示：

步骤1-4：重复步骤1-2至步骤1-3，直到满足迭代次数W，得到最终的W＝{W₁,W₂,…,W_n}；

步骤2：选择三支决策的阈值对(α,β)，1≥α>β>0；

步骤3：将特征划分为三个域：正域、边界域和负域；

步骤4：分别对三个域的特征进行选择；

对特征划分的三个域分别执行不同的选择规则，选择规则分别如下：

正域：正域中的特征权重高，对分类影响较大，因此予以保留；

负域：负域中的特征权重低，对分类影响较小，因此进行剔除；

边界域：边界域中的特征权重介于正负域特征之间，影响程度中等，因此作为待选特征进行下一步选择，下一步选择的具体过程如下：

步骤4-2：按照权重值对边界域中的特征进行由大到小排序；

步骤4-6：输出最后正域中的特征即为最后选择的特征集。

具体实施例：

选用遥感图像集NWPU-RESISC45 Dataset中的海滩、森林、高速公路和岛屿四类样本，每类样本12个共48个，每个种类的遥感图像如图2所示。

对所有图片提取颜色特征和纹理特征共24个特征，对24个特征进行选择。

1、使用ReliefF算法得到所有特征(一共24个特征)的权重值W＝{W₁,W₂,…,W₂₄}。

一个四分类问题C＝{c₁,c₂,c₃,c₄}的样本集合S＝{s₁,s₂,…,s₄₈}，每个样本包含24个特征，即s_p＝{s_p(1),s_p(2),…,s_p(24)},1≤p≤48，所有特征的值为数值型，则定义两个样本s_i、s_j在特征g上的距离为：

1.1首先初始化所有的特征权重集合

1.2从训练样本集S中随机取出一个样本s，然后从和s同类的样本集中找出s的5个近邻样本(Near Hits)，从每个s不同类的样本集中均找出5个近邻样本(Near Misses)。

1.3更新每个特征的权重：

1.4重复1.2至1.3，直到满足迭代次数50次，得到最终的W＝{W₁,W₂,…,W_g,…,W₂₄}。

2、选择三支决策的阈值对为(0.1,0.04)，1≥α>β>0；

3、将特征划分为三个域：正域、边界域和负域；

具体划分规则如下：如果W_g≥0.1，将特征g划分到正域；如果0.04<W_g<0.1，将特征g划分到边界域；如果W_g≤0.04，将特征g划分到负域。

4、分别对三个域的特征进行选择；

边界域：边界域中的特征权重介于正负域特征之间，影响程度中等，因此作为待选特征进行下一步选择，下一步选择的具体过程按照步骤4-1到步骤4-6进行，输出最后正域中的特征即为最后选择的特征集。

Claims

1.一种基于三支决策的目标特征选择方法，其特征在于，包括以下步骤：

步骤1：使用ReliefF算法得到目标所有n个特征的权重值W＝{W₁，W₂，…，W_n}；

假设一个多分类问题C＝{c₁，c₂，…，c_l}的样本集合S＝{s₁，s₂，…，s_m}，每个样本包含n个特征，即s_p＝{s_p(1)，s_p(2)，…，s_p(n)}，1≤p≤m，m为样本数；所有特征的值为数值型，则定义两个样本s_i、s_j在特征g上的距离为：

其中，s_i(g)和s_j(g)分别表示样本s_i和s_j的特征g的值，max(g)和min(g)分别表示特征g在样本集合中的最大特征值和最小特征值，g＝1，2，...，n；

步骤1-1：初始化所有的特征权重集合

步骤1-2：从样本集合S中随机取出一个样本s，假设与s同类的样本集为其中cu表示s的类别，与s不同类的样本总集合为/>然后从/>中找出s的k个近邻样本，从每个/>中均找出k个近邻样本，/>表示与s不同类的样本集；

步骤1-3：更新每个特征的权重，如式(2)所示：

步骤1-4：重复步骤1-2至步骤1-3，直到满足迭代次数r，得到最终的W＝{W₁，W₂，…，W_n}；

步骤2：选择三支决策的阈值对(α，β)；

步骤3：将特征划分为三个域：正域、边界域和负域；

具体划分规则如下：如果W_g≥α，将特征g划分到正域；如果β＜W_g＜α，将特征g划分到边界域；如果W_g≤β，将特征g划分到负域；

步骤4：分别对三个域的特征进行选择，选择规则分别如下：

正域：予以保留；

负域：进行剔除；

步骤4-2：按照权重值对边界域中的特征进行由大到小排序；

步骤4-4：如果acc′＞acc₀，则保留从边界域加入到正域的特征，令acc₀等于acc′；否则如果acc′≤acc₀，则将加入正域的特征从正域中剔除；

步骤4-6：输出最后正域中的特征即为最后选择的特征集。

2.根据权利要求1所述的一种基于三支决策的目标特征选择方法，其特征在于，所述阈值对(α，β)的取值范围为1≥α＞β＞0。