CN110942149B - 一种基于信息变化率及条件互信息的特征变量选择方法 - Google Patents
一种基于信息变化率及条件互信息的特征变量选择方法 Download PDFInfo
- Publication number
- CN110942149B CN110942149B CN201911050233.1A CN201911050233A CN110942149B CN 110942149 B CN110942149 B CN 110942149B CN 201911050233 A CN201911050233 A CN 201911050233A CN 110942149 B CN110942149 B CN 110942149B
- Authority
- CN
- China
- Prior art keywords
- information
- factor
- factors
- mutual information
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/048—Fuzzy inferencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/043—Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于信息变化率和条件互信息的特征变量选择方法,利用互信息值最大原则选出第一个特征变量;进一步提出信息变化率概念,定量描述输入因子对输出因子的贡献率,并以其为关键的控制参数,结合条件互信息概念共同设计了变量选择既定规则,实现特征变量的高效选择;利用公共数据集验证方法的有效性。本发明提出的基于信息变化率和条件互信息的特征变量选择方法参数数学意义明确,能够定量描述输入输出变量间的线性和非线性关系,显著提高了特征变量筛选质量和筛选效率,为大数据时代机器学习技术的发展提供支撑。
Description
技术领域
本发明属于计算机领域,具体涉及一种基于信息变化率及条件互信息的特征变量选择方法。
背景技术
大数据时代的来临为当今社会发展带来了更加丰富的信息资源,然而,并非所有数据都具备相同的信息携带能力,数据量的增加不仅增加了有效信息的丰富度,也会同时增加不相关信息、冗余特征等无效数据,从而增加有效信息的提取难度。因此,对大数据库进行深入挖掘,提高有效信息的提取与利用能力,是大数据时代影响下计算机及机器学习领域发展的重要方向。
特征变量选择是机器学习领域常用的数据降维方法,能够有效地从海量数据中选择出与目标信息相关性强而特征之间冗余性最低的特征子集。利用特征变量选择筛选机器学习模型输入变量能够有效降低数据获取的成本,提高计算效率,降低建模的复杂性,提高模型的泛化能力,最终达到提高分析精度,优化算法计算结果的目的,从而推动计算机信息处理技术的发展,使大数据更加有效地服务于社会及经济发展需求。
最初的特征变量选择多基于线性关系,如相关关系法能够准确地判定变量间的线性关系;但实际应用中输出变量与输入变量间多为复杂的非线性关系,基于这一特性,来源于信息论,能够准确反映变量间非线性关系的互信息(Mutual information,MI)方法被广泛用于复杂关系下的特征变量筛选。
基于互信息的特征变量选择方法并未考虑特征子集间的相关性,易产生较多的特征冗余。针对这一问题,众多学者以能够同时评价线性与非线性关系的互信息为基础,提出了大量的因子识别方法。MIFS算法、MMIFS算法、NMIFS算法就是典型的代表,但以上算法中的关键参数无明确的数学或物理意义,只能采用试算或人为设定进行选取,主观性过强且剔除因子间重复信息能力欠佳;MPA-MMIFS算法能够综合评价待选因子对目标量的贡献度,但是其需要对大量原始数据进行随机采样,计算过程耗时较长;CMIFS算法更加精确的计算出了冗余信息量,但未能考虑入选顺序对输出量有效信息度的影响。目前构建合理、高效的特征变量选择方法仍然是机器学习领域的重要研究热点。
发明内容
发明目的:本发明提供一种基于信息变化率及条件互信息的特征变量选择方法,能够以少量的参数、简便的计算优化特征变量选择过程,有效提高数据的提取与利用能力,为现代信息技术的更广泛应用奠定基础。
技术方案:本发明所述的一种基于信息变化率及条件互信息的特征变量选择方法,包括以下步骤:
(1)初始化阶段:获取待选特征变量数据集、模型输出目标,令F为待选因子初始集,S是用于存放最终入选因子的空集,c是输出因子;
(2)依次计算待选因子fi与输出因子c之间的互信息值;
(3)根据互信息值最大原则确定第一个入选因子;
(4)基于信息论提出信息变化率的概念;
(5)根据条件互信息和信息变化率确定其他入选因子,完成特征变量选择;
(6)将所提取的特征变量输入自适应神经模糊推理系统进行住宅价值的预测。
进一步地,所述步骤(2)通过以下公式实现:
其中,MI为互信息值,fi(i=1,2,···,n)表示待选变量集F中的第i个待选因子。
进一步地,所述步骤(4)包括以下步骤:
(41)提出的信息变化率的概念:F为待选因子集合,fi为待选因子,有fi∈F(i=1,2,···,n),S为已选因子集合,si为入选因子,有si∈S,c为输出量,则:
其中,S等价于{f1,f2,···,fn};λ表示的是在入选因子已知的前提下,待选因子fi入选后对输出量c的信息量与所有入选因子对输出量的信息量的比值,定量评价待选因子fi对输出量c的重要性或者贡献率;
(42)当已选因子集S中包含有2个及以上因子时,MI(c;fi|S)采用如下公式计算:MI(c;fi|S)≈MI(c;fi|f1)+[MI(fn;fi|c)-MI(fn;fi|f1)],其中,f1为首个入选因子,fi为待选因子,fn为上一轮入选因子;对多个因子的联合互信息MI(c;fi;S)计算采用k-近邻互信息计算方法,其中n为输入样本数目。
进一步地,所述步骤(5)包括以下步骤:
(51)判定待选因子集F是否为空集,若F不为空集,则计算MI(fi;Sn;c)与MI(c;fi|Sn),Sn为入选因子集且等价于{f1,f2,…,fn},并将MI(c;fi|Sn)按降序排列;
(53)对每个待选因子计算信息变化率λ,如果满足max(MI(c;fi|S):λ)>δ,则将入选变量fi移出待选因子集,加入已选因子集;其中δ为设定参数,表征待选因子对输出变量的贡献率,取值范围为[0,1];选出所有满足要求的待选变量因子,组成特征子集。
有益效果:与现有技术相比,本发明的有益效果:1、能够准确描述输入变量与输出变量间的线性和非线性关系,定量评价待选因子对输出量的贡献度,剔除输入变量集中的冗余变量,提高模型输入因子质量;2、在大数据背景下能够有效提高数据的提取与利用能力,为现代信息技术的更广泛应用奠定基础。
附图说明
图1为本发明的流程图;
图2为以不同数据选择方法筛选结果为输入变量的ANFIS模型预测结果图。
具体实施方式
下面结合附图对本发明进行进一步详细描述,如图1所示,本发明具体包括以下步骤:
1、初始化阶段:获取待选特征变量数据集、模型输出目标,令F为待选因子初始集,S是用于存放最终入选因子的空集,c是输出因子。
针对UCI数据库的Boston Housing数据集展开特征变量选择,该数据集共有506组数据、14个属性,用于模拟住宅周边情况与住宅价值的关系。其中序号1~13的属性为每栋住宅周边的情况,包括序号为14为住宅的价值,可以应用1~13的属性值对住宅的价值(14)进行预测。将序号1~13的住宅周边属性值作为待选输入因子表示为X1,X2,……,X13,序号14住宅价格的属性值为输出因子,表示为c。
2、依次计算待选因子fi与输出因子c之间的互信息值。将步骤1中待选因子X1~X13记为fi(i=1~13),分别计算步骤1中输入变量fi(i=1~13)与输出变量c之间的互信息值。
采用选用k阶近邻方法计算变量间的互信息值,互信息值MI计算公式为:
其中,fi(i=1,2,···,n)表示待选变量集F中的第i个待选因子。
3、根据互信息值最大原则确定第一个入选因子。
计算待选因子与目标量之间的互信息值,并按降序排列。将与输出因子间互信息值最大的待选因子确定为第一个入选因子,即maxMI(fi;c),将入选变量fi移出待选因子集,加入已选因子集,即令F←F-fi,S←fi。
在13个待选因子中,f13与输出变量互信息值最大为0.7182,因此选定f13为第一个入选变量,即属性13入选。
4、基于信息论提出信息变化率的概念,并进一步根据条件互信息和信息变化率确定其他入选因子,完成特征变量选择。
信息变化率的概念定义为:F为待选因子集合,fi为待选因子,有fi∈F(i=1,2,···,n),S为已选因子集合,si为入选因子,有si∈S,c为输出量,则
其中S等价于{f1,f2,···,fn}。在信息变化率的概念中,λ表示的是在入选因子已知的前提下,待选因子fi入选后对输出量c的信息量与所有入选因子对输出量的信息量的比值,该值可以定量评价待选因子fi对输出量c的重要性或者贡献率,具有明确的数学意义。
当已选因子集S中包含有2个及以上因子时,MI(c;fi|S)可采用如下公式计算:
MI(c;fi|S)≈MI(c;fi|f1)+[MI(fn;fi|c)-MI(fn;fi|f1)]
基于信息变化率和条件互信息理论的进一步筛选步骤为:
(1)判定待选因子集F是否为空集,若F不为空集,则计算MI(fi;Sn;c)与MI(c;fi|Sn),Sn为入选因子集且等价于{f1,f2,…,fn},并将MI(c;fi|Sn)按降序排列;
(2)判断联合互信息值的变化情况:
设定某一阈值参数ε,由MI(c;fi|Sn)最大的待选变量开始计算,若则表明fi的入选大幅度增加了联合互信息值,即fi对输出量信息贡献度较大,如果按照信息变化率λ准则对其进行选择,会被提前剔除。因此,在此情况下,包含fi及之前的全部待选因子入选。其中参数ε取值的区间为[0.5,1],接下来从fi+1开始执行(3);否则,算法从第二个待选因子开始执行(3)。
(3)对每个待选因子计算信息变化率λ,如果满足max(MI(c;fi|S):λ)>δ,则将入选变量fi移出待选因子集,加入已选因子集。其中δ为设定参数,用于表征待选因子对输出变量的贡献率,取值范围为[0,1]。选出所有满足要求的待选变量因子,组成特征子集。
基于信息变化率和条件互信息的算法中参数ε设置为0.5,δ设置为0.1。根据信息变化率的定义公式,依次计算MI(c;fi|S),并采用k阶近邻方法计算联合互信息MI(c;fi;S),从而得到各待选变量的信息变化率,根据(3)中的判断准则判断该因子是否入选。算法不断迭代计算得到最终入选的特征变量f13,f6(其中f13为互信息最大的待选因子;f6为符合信息变化率贡献要求的待选因子,其信息变化率为0.3460)。经过本发明所述的特征变量选择方法,Boston Housing数据集最终筛选出的特征变量为属性13和属性6。
5、将所提取的特征变量输入自适应神经模糊推理系统(ANFIS)进行住宅价值的预测与对比分析,对所选子集进行有效性验证。
以所选出的X13和X6为输入变量,运用自适应神经模糊推理系统(ANFIS)对住宅的价值进行预测对比分析。采用genfis3函数生成ANFIS模型的初始结构,运算代数设置为300,选取前400组数据作为训练集,剩余106组数据作为测试集,选用均方根误差(RMSE)与相关系数(CORR)作为模型模拟结果的评标指标。同时采用基于标准化互信息的特征变量选择方法(NMIFS)、基于K-近邻互信息变化率的输入变量选择方法(KNN_MLVS)进行特征变量选择与模型输入,并与基于信息变化率及条件互信息输入变量选择方法(ICR-CMIFS)预测结果对比,对比结果见表1及附图2。
表1输入因子选择结果与预测精度对比表
由模型预测结果可知,ICR-CMIFS算法从13个属性当中选择了2个输入因子,且与NMIFS算法、kNN_MLVS算法选取的前两个因子一致,说明新提出的基于信息变化率和条件互信息的算法能够有效的对输入因子进行选择,并且该算法可以有效剔除对输出量贡献较小的待选因子。在相同的测试环境下,基于信息变化率和条件互信息的算法以较少的输入因子获得了较高的模型预测精度,同时大幅降低了模型的运算时间,表明本发明所提出的算法能够有效筛选对输出变量贡献较大的待选因子,为机器学习技术的发展提供技术支撑。
Claims (2)
1.一种基于信息变化率和条件互信息的特征变量选择方法,其特征在于:包括以下步骤:
(1)初始化阶段:获取待选特征变量数据集、模型输出目标,令F为待选因子初始集,S是用于存放最终入选因子的空集,c是输出因子;
(2)依次计算待选因子fi与输出因子c之间的互信息值;
(3)根据互信息值最大原则确定第一个入选因子;
(4)基于信息论提出信息变化率的概念;
(5)根据条件互信息和信息变化率确定其他入选因子,完成特征变量选择;
(6)将所提取的特征变量输入自适应神经模糊推理系统进行住宅价值的预测;
步骤(1)所述数据集共有506组数据、14个属性,用于模拟住宅周边情况与住宅价值的关系;其中,序号1~13的属性为每栋住宅周边的情况,序号14为住宅的价值,可以应用1~13的属性值对住宅的价值14进行预测;将序号1~13的住宅周边属性值作为待选输入因子表示为X1,X2,……,X13,将序号14住宅价值的属性值作为输出因子c;
所述步骤(4)包括以下步骤:
(41)提出的信息变化率的概念:F为待选因子集合,fi为待选因子,有fi∈F,i=1,2,···,n,S为入选因子集合,si为入选因子,有si∈S,c为输出量,则:
其中,λ表示的是在入选因子已知的前提下,待选因子fi入选后对输出量c的信息量与所有入选因子对输出量的信息量的比值,定量评价待选因子fi对输出量c的重要性或者贡献率;
(42)当入选因子集S中包含有2个及以上因子时,MI(c;fi|S)采用如下公式计算:MI(c;fi|S)≈MI(c;fi|f1)+[MI(fm;fi|c)-MI(fm;fi|f1)],其中,f1为首个入选因子,fi为当前待选因子,fm为上一轮入选因子;对多个因子的联合互信息MI(c;fi;S)计算采用k-近邻互信息计算方法,其中n为输入样本数目;
所述步骤(5)包括以下步骤:
(51)判定待选因子集F是否为空集,若F不为空集,则计算MI(fi;S;c)与MI(c;fi|S),S为入选因子集,并将MI(c;fi|S)按降序排列;其中,MI(c;fi|S)为待选因子fi入选后对输出量c的信息量;MI(fi;S;c)为待选因子、入选因子集合与输出量之间的互信息值;
(52)判断联合互信息值的变化情况:设定某一阈值参数ε,由MI(c;fi|S)最大的待选变量开始计算,若则表明fi的入选大幅度增加了联合互信息值,即fi对输出量信息贡献度较大;在此情况下,包含fi及之前的全部待选因子入选;其中参数ε取值的区间为[0.5,1],接下来从fi+1开始执行(53);否则,算法从第二个待选因子开始执行(53);
(53)对每个待选因子计算信息变化率λ,如果满足max(MI(c;fi|S),λ)>δ,则将入选变量fi移出待选因子集,加入已选因子集;其中δ为设定参数,表征待选因子对输出变量的贡献率,取值范围为[0,1];选出所有满足要求的待选变量因子,组成特征子集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911050233.1A CN110942149B (zh) | 2019-10-31 | 2019-10-31 | 一种基于信息变化率及条件互信息的特征变量选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911050233.1A CN110942149B (zh) | 2019-10-31 | 2019-10-31 | 一种基于信息变化率及条件互信息的特征变量选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110942149A CN110942149A (zh) | 2020-03-31 |
CN110942149B true CN110942149B (zh) | 2020-09-22 |
Family
ID=69906172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911050233.1A Active CN110942149B (zh) | 2019-10-31 | 2019-10-31 | 一种基于信息变化率及条件互信息的特征变量选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110942149B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731401A (zh) * | 2005-08-26 | 2006-02-08 | 清华大学 | 数据挖掘中一种基于混合互信息的特征选择方法 |
CN103500336A (zh) * | 2013-09-24 | 2014-01-08 | 华南理工大学 | 滤光片缺陷特征参数选择的熵方法 |
CN106169085A (zh) * | 2016-07-11 | 2016-11-30 | 天津大学 | 基于信息度量的特征选择方法 |
CN106503731A (zh) * | 2016-10-11 | 2017-03-15 | 南京信息工程大学 | 一种基于条件互信息和K‑means的无监督特征选择方法 |
CN108345567A (zh) * | 2018-01-31 | 2018-07-31 | 天津大学 | 基于条件互信息的特征选择方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10628836B2 (en) * | 2015-01-30 | 2020-04-21 | Adobe Inc. | Efficient computation of variable predictiveness |
CN105740388B (zh) * | 2016-01-27 | 2019-03-05 | 上海晶赞科技发展有限公司 | 一种基于分布漂移数据集的特征选择方法 |
-
2019
- 2019-10-31 CN CN201911050233.1A patent/CN110942149B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731401A (zh) * | 2005-08-26 | 2006-02-08 | 清华大学 | 数据挖掘中一种基于混合互信息的特征选择方法 |
CN103500336A (zh) * | 2013-09-24 | 2014-01-08 | 华南理工大学 | 滤光片缺陷特征参数选择的熵方法 |
CN106169085A (zh) * | 2016-07-11 | 2016-11-30 | 天津大学 | 基于信息度量的特征选择方法 |
CN106503731A (zh) * | 2016-10-11 | 2017-03-15 | 南京信息工程大学 | 一种基于条件互信息和K‑means的无监督特征选择方法 |
CN108345567A (zh) * | 2018-01-31 | 2018-07-31 | 天津大学 | 基于条件互信息的特征选择方法 |
Non-Patent Citations (3)
Title |
---|
An Improved Feature Selection Algorithm with Conditional Mutual Information for Classification Problems;Jaganathan Palanichamy;《2013 International Conference on Human Computer Interactions (ICHCI)》;20130824;全文 * |
一种基于k-近邻互信息变化率的输入变量选择方法;韩敏 等;《控制与决策》;20120630;第27卷(第6期);第949-952页 * |
垃圾图像特征提取与选择研究;程红蓉;《中国博士学位论文全文数据库(信息科技辑)》;20111215(第12期);正文第51-55页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110942149A (zh) | 2020-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104881706B (zh) | 一种基于大数据技术的电力系统短期负荷预测方法 | |
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
CN112052948B (zh) | 一种网络模型压缩方法、装置、存储介质和电子设备 | |
CN112733997B (zh) | 基于woa-lstm-mc的水文时间序列预测优化方法 | |
CN111461286B (zh) | 基于进化神经网络的Spark参数自动优化系统和方法 | |
CN112884236B (zh) | 一种基于vdm分解与lstm改进的短期负荷预测方法及系统 | |
US20070179917A1 (en) | Intelligent design optimization method and system | |
CN106779219A (zh) | 一种用电量预测方法及系统 | |
CN113032367A (zh) | 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统 | |
CN109754122A (zh) | 一种基于随机森林特征提取的bp神经网络的数值预测方法 | |
Pan et al. | Identifying protein complexes from protein-protein interaction networks based on fuzzy clustering and GO semantic information | |
CN113255873A (zh) | 一种聚类天牛群优化方法、系统、计算机设备和存储介质 | |
CN114706840A (zh) | 面向负载感知的多模数据库ArangoDB参数调优的方法 | |
CN116245019A (zh) | 一种基于Bagging抽样及改进随机森林算法的负荷预测方法、系统、装置及存储介质 | |
Wen et al. | MapReduce-based BP neural network classification of aquaculture water quality | |
CN117474173B (zh) | 一种用于平原河网地区多水源动态调配装置及系统 | |
CN113609763A (zh) | 基于不确定性的卫星组件布局温度场预测方法 | |
CN113449182A (zh) | 一种知识信息个性化推荐方法及系统 | |
CN113049259A (zh) | 台架控制系统的模糊控制方法、存储介质及设备 | |
JPH0736847A (ja) | 人工知能における学習・推論方法および装置 | |
CN110942149B (zh) | 一种基于信息变化率及条件互信息的特征变量选择方法 | |
CN111680846A (zh) | 一种基于l1和l2范数的简化宽度学习系统 | |
CN110263125B (zh) | 一种基于极限学习机的服务发现方法 | |
CN116613732A (zh) | 一种基于shap值选择策略的多元负荷预测方法及系统 | |
CN116108963A (zh) | 一种基于集成学习模块的电力碳排放预测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |