CN113240007B - 一种基于三支决策的目标特征选择方法 - Google Patents
一种基于三支决策的目标特征选择方法 Download PDFInfo
- Publication number
- CN113240007B CN113240007B CN202110524790.3A CN202110524790A CN113240007B CN 113240007 B CN113240007 B CN 113240007B CN 202110524790 A CN202110524790 A CN 202110524790A CN 113240007 B CN113240007 B CN 113240007B
- Authority
- CN
- China
- Prior art keywords
- feature
- domain
- sample
- class
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 abstract description 5
- 238000001914 filtration Methods 0.000 abstract description 4
- 238000004806 packaging method and process Methods 0.000 abstract description 4
- 230000007812 deficiency Effects 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于三支决策的目标特征选择方法,基于三支决策理论的特征选择算法来解决高维度小样本下的识别问题;针对典型的过滤式算法ReliefF中仅有一个阈值作为特征取舍条件的局限性以及封装式算法需要大量执行时间的弊端,引用三支决策,将过滤式算法和封装式算法思想相结合,在传统ReliefF算法的基础上将一个阈值扩展为两个阈值,根据特征权重将特征划分为正域、负域、边界域;分别对三个域的特征进行选择,在一定程度上增加算法的容错率,并大幅提高识别性能。本发明使用学习模型的准确率作为选择标准,弥补了其他算法在识别准确率上的不足。
Description
技术领域
本发明属于目标识别技术领域,具体涉及一种目标特征选择方法。
背景技术
随着信息技术的迅猛发展,各个领域都迎来了大数据时代。大数据包括两个方面:一是数据集的样本数量大;二是数据包含的维度大。随着大数据时代的到来,数据挖掘迎来了研究浪潮,目标识别就是数据挖掘的一种。目前,针对海量复杂图像、文本等数据,产生了越来越多的研究成果。但是,在实际应用中并不一定会有大量的标记样本,例如,航空航天等军事领域的遥感图片。在数据高维度的情况下,现有传统算法大多适用于大量标记样本,因此,高维小样本下的目标识别问题成为新的挑战。
为解决小样本高维图像识别问题,通常使用特征提取和特征选择进行数据降维。特征提取是将图像中的某些具有实际意义或抽象的特征提取出来,用特征表示图像原有数据。特征选择则是在特征集上进一步约简,剔除多余无用的特征。对于复杂图像常进行特征提取后再进行特征选择。
特征选择是粗糙集理论在数据挖掘等领域中一种重要的应用,基于粗糙集的特征选择研究也较为丰富。然而,现有的经典粗糙集理论在处理不确定性数据和数值型数据方面存在缺陷,三支决策作为一种在粗糙集基础上产生的理论可以很好的解决上述问题。
发明内容
为了克服现有技术的不足,本发明提供了一种基于三支决策的目标特征选择方法,基于三支决策理论的特征选择算法来解决高维度小样本下的识别问题;针对典型的过滤式算法ReliefF中仅有一个阈值作为特征取舍条件的局限性以及封装式算法需要大量执行时间的弊端,引用三支决策,将过滤式算法和封装式算法思想相结合,在传统ReliefF算法的基础上将一个阈值扩展为两个阈值,根据特征权重将特征划分为正域、负域、边界域;分别对三个域的特征进行选择,在一定程度上增加算法的容错率,并大幅提高识别性能。本发明使用学习模型的准确率作为选择标准,弥补了其他算法在识别准确率上的不足。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:使用ReliefF算法得到目标所有n个特征的权重值W={W1,W2,…,Wn};
假设一个多分类问题C={c1,c2,…,cl}的样本集合S={s1,s2,…,sm},每个样本包含n个特征,即sp={sp(1),sp(2),…,sp(n)},1≤p≤m,m为样本数;所有特征的值为数值型,则定义两个样本si、sj在特征g上的距离为:
其中,si(g)和sj(g)分别表示样本si和sj的特征g的值,max(g)和min(g)分别表示特征g在样本集合中的最大特征值和最小特征值,g=1,2,…,n;
步骤1-1:初始化所有的特征权重集合
步骤1-2:从样本集合S中随机取出一个样本s,假设与s同类的样本集为其中cu表示s的类别,与s不同类的样本总集合为/>然后从/>中找出s的k个近邻样本,从每个/>中均找出k个近邻样本,/>表示与s不同类的样本集;
步骤1-3:更新每个特征的权重,如式(2)所示:
其中,r为迭代次数,c是除样本s所属类别之外的类别,p(c)为类别c的比例,p(Class(s))为样本s的类别比例,Mi(c)表示类别c的第i个近邻样本,Hi表示与样本s同类的第i个近邻样本,class(s)为样本s所属类别;
步骤1-4:重复步骤1-2至步骤1-3,直到满足迭代次数r,得到最终的W={W1,W2,…,Wn};
步骤2:选择三支决策的阈值对(α,β);
步骤3:将特征划分为三个域:正域、边界域和负域;
具体划分规则如下:如果Wg≥α,将特征g划分到正域;如果β<Wg<α,将特征g划分到边界域;如果Wg≤β,将特征g划分到负域;
步骤4:分别对三个域的特征进行选择,选择规则分别如下:
正域:予以保留;
负域:进行剔除;
边界域:边界域中的特征权重介于正域和负域特征权重之间,因此作为待选特征进行下一步选择,下一步选择的具体过程如下:
步骤4-1:用正域中的特征训练SVM分类器,得到初始识别准确率acc0;
步骤4-2:按照权重值对边界域中的特征进行由大到小排序;
步骤4-3:从权重最大的特征开始选择,将该特征加入到正域特征中并在边界域中删除该特征,用刚更新过后的正域特征重新训练分类器得到识别准确率acc′;
步骤4-4:如果acc′>acc0,则保留从边界域加入到正域的特征,令acc0等于acc′;否则如果acc′≤acc0,则将加入正域的特征从正域中剔除;
步骤4-5:遍历边界域中的特征,重复步骤4-3到步骤4-4,直至边界域中没有特征;
步骤4-6:输出最后正域中的特征即为最后选择的特征集。
优选地,所述阈值对(α,β)的取值范围为1≥α>β>0。
本发明的有益效果如下:
本发明方法在传统ReliefF算法仅有一个阈值的基础上采用三支决策增加了一个阈值判断,大大提高选择的容错率以及识别性能;并使用学习模型的准确率作为选择标准,弥补了其他算法在识别准确率上的不足,有效解决了高维度小样本条件下的目标识别问题。
附图说明
图1是本发明方法的特征选择流程图。
图2是本发明实施例的四个种类的遥感图像。
图3是本发明实施例不同特征选择方法的特征选择结果。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明为解决小样本高维图像下的识别问题,提出一种新的混合式特征选择算法:基于三支决策的特征选择算法(Three-way decision and ReliefF,TWReliefF)。TWReliefF算法是在ReliefF算法的基础上引入三支决策,根据三支决策阈值和ReliefF算法得到的特征权重,将特征划分为正域、负域、边界域;分别对三个域的特征进行选择,提高容错率,降低不确定性。
一种基于三支决策的目标特征选择方法,包括如下步骤:
步骤1:使用ReliefF算法得到目标所有n个特征的权重值W={W1,W2,…,Wn};
假设一个多分类问题C={c1,c2,…,cl}的样本集合S={s1,s2,…,sm},每个样本包含n个特征,即sp={sp(1),sp(2),…,sp(n)},1≤p≤m,m为样本数;所有特征的值为数值型,则定义两个样本si、sj在特征g上的距离为:
其中,si(g)和sj(g)分别表示样本si和sj的特征g的值,max(g)和min(g)分别表示特征g在样本集合中的最大特征值和最小特征值,g=1,2,…,n;
步骤1-1:初始化所有的特征权重集合
步骤1-2:从样本集合S中随机取出一个样本s,假设与s同类的样本集为其中cu表示s的类别,与s不同类的样本总集合为/>然后从/>中找出s的k个近邻样本,从每个/>中均找出k个近邻样本,/>表示与s不同类的样本集;
步骤1-3:更新每个特征的权重,如式(2)所示:
其中,r为迭代次数,c是除样本s所属类别之外的类别,p(c)为类别c的比例,p(Class(s))为样本s的类别比例,Mi(c)表示类别c的第i个近邻样本,Hi表示与样本s同类的第i个近邻样本,class(s)为样本s所属类别;
步骤1-4:重复步骤1-2至步骤1-3,直到满足迭代次数W,得到最终的W={W1,W2,…,Wn};
步骤2:选择三支决策的阈值对(α,β),1≥α>β>0;
步骤3:将特征划分为三个域:正域、边界域和负域;
具体划分规则如下:如果Wg≥α,将特征g划分到正域;如果β<Wg<α,将特征g划分到边界域;如果Wg≤β,将特征g划分到负域;
步骤4:分别对三个域的特征进行选择;
对特征划分的三个域分别执行不同的选择规则,选择规则分别如下:
正域:正域中的特征权重高,对分类影响较大,因此予以保留;
负域:负域中的特征权重低,对分类影响较小,因此进行剔除;
边界域:边界域中的特征权重介于正负域特征之间,影响程度中等,因此作为待选特征进行下一步选择,下一步选择的具体过程如下:
步骤4-1:用正域中的特征训练SVM分类器,得到初始识别准确率acc0;
步骤4-2:按照权重值对边界域中的特征进行由大到小排序;
步骤4-3:从权重最大的特征开始选择,将该特征加入到正域特征中并在边界域中删除该特征,用刚更新过后的正域特征重新训练分类器得到识别准确率acc′;
步骤4-4:如果acc′>acc0,则保留从边界域加入到正域的特征,令acc0等于acc′;否则如果acc′≤acc0,则将加入正域的特征从正域中剔除;
步骤4-5:遍历边界域中的特征,重复步骤4-3到步骤4-4,直至边界域中没有特征;
步骤4-6:输出最后正域中的特征即为最后选择的特征集。
具体实施例:
选用遥感图像集NWPU-RESISC45 Dataset中的海滩、森林、高速公路和岛屿四类样本,每类样本12个共48个,每个种类的遥感图像如图2所示。
对所有图片提取颜色特征和纹理特征共24个特征,对24个特征进行选择。
1、使用ReliefF算法得到所有特征(一共24个特征)的权重值W={W1,W2,…,W24}。
一个四分类问题C={c1,c2,c3,c4}的样本集合S={s1,s2,…,s48},每个样本包含24个特征,即sp={sp(1),sp(2),…,sp(24)},1≤p≤48,所有特征的值为数值型,则定义两个样本si、sj在特征g上的距离为:
1.1首先初始化所有的特征权重集合
1.2从训练样本集S中随机取出一个样本s,然后从和s同类的样本集中找出s的5个近邻样本(Near Hits),从每个s不同类的样本集中均找出5个近邻样本(Near Misses)。
1.3更新每个特征的权重:
1.4重复1.2至1.3,直到满足迭代次数50次,得到最终的W={W1,W2,…,Wg,…,W24}。
2、选择三支决策的阈值对为(0.1,0.04),1≥α>β>0;
3、将特征划分为三个域:正域、边界域和负域;
具体划分规则如下:如果Wg≥0.1,将特征g划分到正域;如果0.04<Wg<0.1,将特征g划分到边界域;如果Wg≤0.04,将特征g划分到负域。
4、分别对三个域的特征进行选择;
对特征划分的三个域分别执行不同的选择规则,选择规则分别如下:
正域:正域中的特征权重高,对分类影响较大,因此予以保留;
负域:负域中的特征权重低,对分类影响较小,因此进行剔除;
边界域:边界域中的特征权重介于正负域特征之间,影响程度中等,因此作为待选特征进行下一步选择,下一步选择的具体过程按照步骤4-1到步骤4-6进行,输出最后正域中的特征即为最后选择的特征集。
Claims (2)
1.一种基于三支决策的目标特征选择方法,其特征在于,包括以下步骤:
步骤1:使用ReliefF算法得到目标所有n个特征的权重值W={W1,W2,…,Wn};
假设一个多分类问题C={c1,c2,…,cl}的样本集合S={s1,s2,…,sm},每个样本包含n个特征,即sp={sp(1),sp(2),…,sp(n)},1≤p≤m,m为样本数;所有特征的值为数值型,则定义两个样本si、sj在特征g上的距离为:
其中,si(g)和sj(g)分别表示样本si和sj的特征g的值,max(g)和min(g)分别表示特征g在样本集合中的最大特征值和最小特征值,g=1,2,...,n;
步骤1-1:初始化所有的特征权重集合
步骤1-2:从样本集合S中随机取出一个样本s,假设与s同类的样本集为其中cu表示s的类别,与s不同类的样本总集合为/>然后从/>中找出s的k个近邻样本,从每个/>中均找出k个近邻样本,/>表示与s不同类的样本集;
步骤1-3:更新每个特征的权重,如式(2)所示:
其中,r为迭代次数,c是除样本s所属类别之外的类别,p(c)为类别c的比例,p(Class(s))为样本s的类别比例,Mi(c)表示类别c的第i个近邻样本,Hi表示与样本s同类的第i个近邻样本,class(s)为样本s所属类别;
步骤1-4:重复步骤1-2至步骤1-3,直到满足迭代次数r,得到最终的W={W1,W2,…,Wn};
步骤2:选择三支决策的阈值对(α,β);
步骤3:将特征划分为三个域:正域、边界域和负域;
具体划分规则如下:如果Wg≥α,将特征g划分到正域;如果β<Wg<α,将特征g划分到边界域;如果Wg≤β,将特征g划分到负域;
步骤4:分别对三个域的特征进行选择,选择规则分别如下:
正域:予以保留;
负域:进行剔除;
边界域:边界域中的特征权重介于正域和负域特征权重之间,因此作为待选特征进行下一步选择,下一步选择的具体过程如下:
步骤4-1:用正域中的特征训练SVM分类器,得到初始识别准确率acc0;
步骤4-2:按照权重值对边界域中的特征进行由大到小排序;
步骤4-3:从权重最大的特征开始选择,将该特征加入到正域特征中并在边界域中删除该特征,用刚更新过后的正域特征重新训练分类器得到识别准确率acc′;
步骤4-4:如果acc′>acc0,则保留从边界域加入到正域的特征,令acc0等于acc′;否则如果acc′≤acc0,则将加入正域的特征从正域中剔除;
步骤4-5:遍历边界域中的特征,重复步骤4-3到步骤4-4,直至边界域中没有特征;
步骤4-6:输出最后正域中的特征即为最后选择的特征集。
2.根据权利要求1所述的一种基于三支决策的目标特征选择方法,其特征在于,所述阈值对(α,β)的取值范围为1≥α>β>0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110524790.3A CN113240007B (zh) | 2021-05-14 | 2021-05-14 | 一种基于三支决策的目标特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110524790.3A CN113240007B (zh) | 2021-05-14 | 2021-05-14 | 一种基于三支决策的目标特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113240007A CN113240007A (zh) | 2021-08-10 |
CN113240007B true CN113240007B (zh) | 2024-05-14 |
Family
ID=77134214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110524790.3A Active CN113240007B (zh) | 2021-05-14 | 2021-05-14 | 一种基于三支决策的目标特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240007B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317908A (zh) * | 2014-10-28 | 2015-01-28 | 河南师范大学 | 基于三支决策和距离的离群点检测方法 |
CN106599935A (zh) * | 2016-12-29 | 2017-04-26 | 重庆邮电大学 | 基于Spark大数据平台的三支决策不平衡数据过采样方法 |
CN106599924A (zh) * | 2016-12-16 | 2017-04-26 | 北京灵众博通科技有限公司 | 一种基于三支决策的分类器构建方法 |
CN107273912A (zh) * | 2017-05-10 | 2017-10-20 | 重庆邮电大学 | 一种基于三支决策理论的主动学习方法 |
CN109543707A (zh) * | 2018-09-29 | 2019-03-29 | 南京航空航天大学 | 基于三支决策的半监督变更级软件缺陷预测方法 |
CN110232518A (zh) * | 2019-06-11 | 2019-09-13 | 西北工业大学 | 一种基于三支决策的威胁评估方法 |
-
2021
- 2021-05-14 CN CN202110524790.3A patent/CN113240007B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317908A (zh) * | 2014-10-28 | 2015-01-28 | 河南师范大学 | 基于三支决策和距离的离群点检测方法 |
CN106599924A (zh) * | 2016-12-16 | 2017-04-26 | 北京灵众博通科技有限公司 | 一种基于三支决策的分类器构建方法 |
CN106599935A (zh) * | 2016-12-29 | 2017-04-26 | 重庆邮电大学 | 基于Spark大数据平台的三支决策不平衡数据过采样方法 |
CN107273912A (zh) * | 2017-05-10 | 2017-10-20 | 重庆邮电大学 | 一种基于三支决策理论的主动学习方法 |
CN109543707A (zh) * | 2018-09-29 | 2019-03-29 | 南京航空航天大学 | 基于三支决策的半监督变更级软件缺陷预测方法 |
CN110232518A (zh) * | 2019-06-11 | 2019-09-13 | 西北工业大学 | 一种基于三支决策的威胁评估方法 |
Non-Patent Citations (2)
Title |
---|
三支决策朴素贝叶斯增量学习算法研究;韩素青;成慧雯;王宝丽;;计算机工程与应用(第18期);全文 * |
基于Fisher准则和多类相关矩阵分析的肿瘤基因特征选择方法;胡洋;李波;;计算机应用与软件;20160715(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113240007A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN109657584B (zh) | 辅助驾驶的改进LeNet-5融合网络交通标志识别方法 | |
CN107392241B (zh) | 一种基于加权列抽样XGBoost的图像目标分类方法 | |
CN109815801A (zh) | 基于深度学习的人脸识别方法及装置 | |
CN110321967B (zh) | 基于卷积神经网络的图像分类改进方法 | |
CN107392919B (zh) | 基于自适应遗传算法的灰度阈值获取方法、图像分割方法 | |
CN109002755B (zh) | 基于人脸图像的年龄估计模型构建方法及估计方法 | |
CN106022273A (zh) | 基于动态样本选择策略的bp神经网络手写体识别系统 | |
CN108345850A (zh) | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 | |
CN109740672B (zh) | 多流特征距离融合系统与融合方法 | |
CN114359632A (zh) | 一种基于改进PointNet++神经网络的点云目标分类方法 | |
CN110991554B (zh) | 一种基于改进pca的深度网络图像分类方法 | |
CN116433909A (zh) | 基于相似度加权多教师网络模型的半监督图像语义分割方法 | |
WO2020119624A1 (zh) | 一种基于深度学习的类别敏感型边缘检测方法 | |
CN110163206B (zh) | 车牌识别方法、系统、存储介质和装置 | |
CN113505120B (zh) | 一种大规模人脸数据集的双阶段噪声清洗方法 | |
CN113033345B (zh) | 基于公共特征子空间的v2v视频人脸识别方法 | |
Shen et al. | Stable pore detection for high-resolution fingerprint based on a CNN detector | |
CN111461135B (zh) | 利用卷积神经网络集成的数字图像局部滤波取证方法 | |
CN113240007B (zh) | 一种基于三支决策的目标特征选择方法 | |
CN111598116B (zh) | 数据分类方法、装置、电子设备及可读存储介质 | |
CN105844299B (zh) | 一种基于词袋模型的图像分类方法 | |
CN110956177A (zh) | 一种混合型验证码的识别方法及系统 | |
CN115131598A (zh) | 一种基于稀疏性和降维的玻尔兹曼图像识别分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |