CN110942149B

CN110942149B - 一种基于信息变化率及条件互信息的特征变量选择方法

Info

Publication number: CN110942149B
Application number: CN201911050233.1A
Authority: CN
Inventors: 李琼芳; 韩幸烨; 刘振男; 陈启慧; 周正模; 和鹏飞; 曾天山
Original assignee: Hohai University HHU; Guizhou Institute of Technology
Current assignee: Hohai University HHU; Guizhou Institute of Technology
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-09-22
Anticipated expiration: 2039-10-31
Also published as: CN110942149A

Abstract

本发明公开了一种基于信息变化率和条件互信息的特征变量选择方法，利用互信息值最大原则选出第一个特征变量；进一步提出信息变化率概念，定量描述输入因子对输出因子的贡献率，并以其为关键的控制参数，结合条件互信息概念共同设计了变量选择既定规则，实现特征变量的高效选择；利用公共数据集验证方法的有效性。本发明提出的基于信息变化率和条件互信息的特征变量选择方法参数数学意义明确，能够定量描述输入输出变量间的线性和非线性关系，显著提高了特征变量筛选质量和筛选效率，为大数据时代机器学习技术的发展提供支撑。

Description

一种基于信息变化率及条件互信息的特征变量选择方法

技术领域

本发明属于计算机领域，具体涉及一种基于信息变化率及条件互信息的特征变量选择方法。

背景技术

大数据时代的来临为当今社会发展带来了更加丰富的信息资源，然而，并非所有数据都具备相同的信息携带能力，数据量的增加不仅增加了有效信息的丰富度，也会同时增加不相关信息、冗余特征等无效数据，从而增加有效信息的提取难度。因此，对大数据库进行深入挖掘，提高有效信息的提取与利用能力，是大数据时代影响下计算机及机器学习领域发展的重要方向。

特征变量选择是机器学习领域常用的数据降维方法，能够有效地从海量数据中选择出与目标信息相关性强而特征之间冗余性最低的特征子集。利用特征变量选择筛选机器学习模型输入变量能够有效降低数据获取的成本，提高计算效率，降低建模的复杂性，提高模型的泛化能力，最终达到提高分析精度，优化算法计算结果的目的，从而推动计算机信息处理技术的发展，使大数据更加有效地服务于社会及经济发展需求。

最初的特征变量选择多基于线性关系，如相关关系法能够准确地判定变量间的线性关系；但实际应用中输出变量与输入变量间多为复杂的非线性关系，基于这一特性，来源于信息论，能够准确反映变量间非线性关系的互信息(Mutual information,MI)方法被广泛用于复杂关系下的特征变量筛选。

基于互信息的特征变量选择方法并未考虑特征子集间的相关性，易产生较多的特征冗余。针对这一问题，众多学者以能够同时评价线性与非线性关系的互信息为基础，提出了大量的因子识别方法。MIFS算法、MMIFS算法、NMIFS算法就是典型的代表，但以上算法中的关键参数无明确的数学或物理意义，只能采用试算或人为设定进行选取，主观性过强且剔除因子间重复信息能力欠佳；MPA-MMIFS算法能够综合评价待选因子对目标量的贡献度，但是其需要对大量原始数据进行随机采样，计算过程耗时较长；CMIFS算法更加精确的计算出了冗余信息量，但未能考虑入选顺序对输出量有效信息度的影响。目前构建合理、高效的特征变量选择方法仍然是机器学习领域的重要研究热点。

发明内容

发明目的：本发明提供一种基于信息变化率及条件互信息的特征变量选择方法，能够以少量的参数、简便的计算优化特征变量选择过程，有效提高数据的提取与利用能力，为现代信息技术的更广泛应用奠定基础。

技术方案：本发明所述的一种基于信息变化率及条件互信息的特征变量选择方法，包括以下步骤：

(1)初始化阶段：获取待选特征变量数据集、模型输出目标，令F为待选因子初始集，S是用于存放最终入选因子的空集，c是输出因子；

(2)依次计算待选因子f_i与输出因子c之间的互信息值；

(3)根据互信息值最大原则确定第一个入选因子；

(4)基于信息论提出信息变化率的概念；

(5)根据条件互信息和信息变化率确定其他入选因子，完成特征变量选择；

(6)将所提取的特征变量输入自适应神经模糊推理系统进行住宅价值的预测。

进一步地，所述步骤(2)通过以下公式实现：

其中，MI为互信息值，f_i(i＝1,2,···,n)表示待选变量集F中的第i个待选因子。

进一步地，所述步骤(4)包括以下步骤：

(41)提出的信息变化率的概念：F为待选因子集合，f_i为待选因子，有f_i∈F(i＝1,2,···,n)，S为已选因子集合，s_i为入选因子，有s_i∈S，c为输出量，则：

其中，S等价于{f₁,f₂,···,f_n}；λ表示的是在入选因子已知的前提下，待选因子f_i入选后对输出量c的信息量与所有入选因子对输出量的信息量的比值，定量评价待选因子f_i对输出量c的重要性或者贡献率；

n为输入样本数目。

进一步地，所述步骤(5)包括以下步骤：

(51)判定待选因子集F是否为空集，若F不为空集，则计算MI(f_i；S_n；c)与MI(c；f_i|S_n)，S_n为入选因子集且等价于{f₁,f₂,…,f_n}，并将MI(c；f_i|S_n)按降序排列；

(52)判断联合互信息值的变化情况：设定某一阈值参数ε，由MI(c；f_i|S_n)最大的待选变量开始计算，若

则表明f_i的入选大幅度增加了联合互信息值，即f_i对输出量信息贡献度较大；

(53)对每个待选因子计算信息变化率λ，如果满足max(MI(c；f_i|S):λ)＞δ，则将入选变量f_i移出待选因子集，加入已选因子集；其中δ为设定参数，表征待选因子对输出变量的贡献率，取值范围为[0,1]；选出所有满足要求的待选变量因子，组成特征子集。

有益效果：与现有技术相比，本发明的有益效果：1、能够准确描述输入变量与输出变量间的线性和非线性关系，定量评价待选因子对输出量的贡献度，剔除输入变量集中的冗余变量，提高模型输入因子质量；2、在大数据背景下能够有效提高数据的提取与利用能力，为现代信息技术的更广泛应用奠定基础。

附图说明

图1为本发明的流程图；

图2为以不同数据选择方法筛选结果为输入变量的ANFIS模型预测结果图。

具体实施方式

下面结合附图对本发明进行进一步详细描述，如图1所示，本发明具体包括以下步骤：

1、初始化阶段：获取待选特征变量数据集、模型输出目标，令F为待选因子初始集，S是用于存放最终入选因子的空集，c是输出因子。

针对UCI数据库的Boston Housing数据集展开特征变量选择，该数据集共有506组数据、14个属性，用于模拟住宅周边情况与住宅价值的关系。其中序号1～13的属性为每栋住宅周边的情况，包括序号为14为住宅的价值，可以应用1～13的属性值对住宅的价值(14)进行预测。将序号1～13的住宅周边属性值作为待选输入因子表示为X₁，X₂，……，X₁₃，序号14住宅价格的属性值为输出因子，表示为c。

2、依次计算待选因子f_i与输出因子c之间的互信息值。将步骤1中待选因子X₁～X₁₃记为f_i(i＝1～13)，分别计算步骤1中输入变量f_i(i＝1～13)与输出变量c之间的互信息值。

采用选用k阶近邻方法计算变量间的互信息值，互信息值MI计算公式为：

其中，f_i(i＝1,2,···,n)表示待选变量集F中的第i个待选因子。

3、根据互信息值最大原则确定第一个入选因子。

计算待选因子与目标量之间的互信息值，并按降序排列。将与输出因子间互信息值最大的待选因子确定为第一个入选因子，即maxMI(f_i；c)，将入选变量f_i移出待选因子集，加入已选因子集，即令F←F-f_i，S←f_i。

在13个待选因子中，f₁₃与输出变量互信息值最大为0.7182，因此选定f₁₃为第一个入选变量，即属性13入选。

4、基于信息论提出信息变化率的概念，并进一步根据条件互信息和信息变化率确定其他入选因子，完成特征变量选择。

信息变化率的概念定义为：F为待选因子集合，f_i为待选因子，有f_i∈F(i＝1,2,···,n)，S为已选因子集合，s_i为入选因子，有s_i∈S，c为输出量，则

其中S等价于{f₁,f₂,···,f_n}。在信息变化率的概念中，λ表示的是在入选因子已知的前提下，待选因子f_i入选后对输出量c的信息量与所有入选因子对输出量的信息量的比值，该值可以定量评价待选因子f_i对输出量c的重要性或者贡献率，具有明确的数学意义。

当已选因子集S中包含有2个及以上因子时，MI(c；f_i|S)可采用如下公式计算：

MI(c；f_i|S)≈MI(c；f_i|f₁)+[MI(f_n；f_i|c)-MI(f_n；f_i|f₁)]

其中，f₁为首个入选因子，f_i为待选因子，f_n为上一轮入选因子。对多个因子的联合互信息MI(c；f_i；S)计算采用k-近邻互信息计算方法，其中

n为输入样本数目。

基于信息变化率和条件互信息理论的进一步筛选步骤为：

(1)判定待选因子集F是否为空集，若F不为空集，则计算MI(f_i；S_n；c)与MI(c；f_i|S_n)，S_n为入选因子集且等价于{f₁,f₂,…,f_n}，并将MI(c；f_i|S_n)按降序排列；

(2)判断联合互信息值的变化情况：

设定某一阈值参数ε，由MI(c；f_i|S_n)最大的待选变量开始计算，若

则表明f_i的入选大幅度增加了联合互信息值，即f_i对输出量信息贡献度较大，如果按照信息变化率λ准则对其进行选择，会被提前剔除。因此，在此情况下，包含f_i及之前的全部待选因子入选。其中参数ε取值的区间为[0.5,1]，接下来从f_i+1开始执行(3)；否则，算法从第二个待选因子开始执行(3)。

(3)对每个待选因子计算信息变化率λ，如果满足max(MI(c；f_i|S):λ)＞δ，则将入选变量f_i移出待选因子集，加入已选因子集。其中δ为设定参数，用于表征待选因子对输出变量的贡献率，取值范围为[0,1]。选出所有满足要求的待选变量因子，组成特征子集。

基于信息变化率和条件互信息的算法中参数ε设置为0.5，δ设置为0.1。根据信息变化率的定义公式，依次计算MI(c；f_i|S)，并采用k阶近邻方法计算联合互信息MI(c；f_i；S)，从而得到各待选变量的信息变化率，根据(3)中的判断准则判断该因子是否入选。算法不断迭代计算得到最终入选的特征变量f₁₃，f₆(其中f₁₃为互信息最大的待选因子；f₆为符合信息变化率贡献要求的待选因子，其信息变化率为0.3460)。经过本发明所述的特征变量选择方法，Boston Housing数据集最终筛选出的特征变量为属性13和属性6。

5、将所提取的特征变量输入自适应神经模糊推理系统(ANFIS)进行住宅价值的预测与对比分析，对所选子集进行有效性验证。

以所选出的X₁₃和X₆为输入变量，运用自适应神经模糊推理系统(ANFIS)对住宅的价值进行预测对比分析。采用genfis3函数生成ANFIS模型的初始结构，运算代数设置为300，选取前400组数据作为训练集，剩余106组数据作为测试集，选用均方根误差(RMSE)与相关系数(CORR)作为模型模拟结果的评标指标。同时采用基于标准化互信息的特征变量选择方法(NMIFS)、基于K-近邻互信息变化率的输入变量选择方法(KNN_MLVS)进行特征变量选择与模型输入，并与基于信息变化率及条件互信息输入变量选择方法(ICR-CMIFS)预测结果对比，对比结果见表1及附图2。

表1输入因子选择结果与预测精度对比表

由模型预测结果可知，ICR-CMIFS算法从13个属性当中选择了2个输入因子，且与NMIFS算法、kNN_MLVS算法选取的前两个因子一致，说明新提出的基于信息变化率和条件互信息的算法能够有效的对输入因子进行选择，并且该算法可以有效剔除对输出量贡献较小的待选因子。在相同的测试环境下，基于信息变化率和条件互信息的算法以较少的输入因子获得了较高的模型预测精度，同时大幅降低了模型的运算时间，表明本发明所提出的算法能够有效筛选对输出变量贡献较大的待选因子，为机器学习技术的发展提供技术支撑。

Claims

1.一种基于信息变化率和条件互信息的特征变量选择方法，其特征在于：包括以下步骤：

(2)依次计算待选因子f_i与输出因子c之间的互信息值；

(3)根据互信息值最大原则确定第一个入选因子；

(4)基于信息论提出信息变化率的概念；

(6)将所提取的特征变量输入自适应神经模糊推理系统进行住宅价值的预测；

步骤(1)所述数据集共有506组数据、14个属性，用于模拟住宅周边情况与住宅价值的关系；其中，序号1～13的属性为每栋住宅周边的情况，序号14为住宅的价值，可以应用1～13的属性值对住宅的价值14进行预测；将序号1～13的住宅周边属性值作为待选输入因子表示为X₁，X₂，……，X₁₃，将序号14住宅价值的属性值作为输出因子c；

所述步骤(4)包括以下步骤：

(41)提出的信息变化率的概念：F为待选因子集合，f_i为待选因子，有f_i∈F，i＝1,2,···,n，S为入选因子集合，s_i为入选因子，有s_i∈S，c为输出量，则：

其中，λ表示的是在入选因子已知的前提下，待选因子f_i入选后对输出量c的信息量与所有入选因子对输出量的信息量的比值，定量评价待选因子f_i对输出量c的重要性或者贡献率；

n为输入样本数目；

所述步骤(5)包括以下步骤：

(51)判定待选因子集F是否为空集，若F不为空集，则计算MI(f_i；S；c)与MI(c；f_i|S)，S为入选因子集，并将MI(c；f_i|S)按降序排列；其中，MI(c；f_i|S)为待选因子f_i入选后对输出量c的信息量；MI(f_i；S；c)为待选因子、入选因子集合与输出量之间的互信息值；

(52)判断联合互信息值的变化情况：设定某一阈值参数ε，由MI(c；f_i|S)最大的待选变量开始计算，若

则表明f_i的入选大幅度增加了联合互信息值，即f_i对输出量信息贡献度较大；在此情况下，包含f_i及之前的全部待选因子入选；其中参数ε取值的区间为[0.5,1]，接下来从f_i+1开始执行(53)；否则，算法从第二个待选因子开始执行(53)；

(53)对每个待选因子计算信息变化率λ，如果满足max(MI(c；f_i|S)，λ)＞δ，则将入选变量f_i移出待选因子集，加入已选因子集；其中δ为设定参数，表征待选因子对输出变量的贡献率，取值范围为[0,1]；选出所有满足要求的待选变量因子，组成特征子集。

2.根据权利要求1所述的一种基于信息变化率和条件互信息的特征变量选择方法，其特征在于，所述步骤(2)通过以下公式实现：