CN110009014A

CN110009014A - 一种融合相关系数与互信息的特征选择方法

Info

Publication number: CN110009014A
Application number: CN201910224789.1A
Authority: CN
Inventors: 乔俊飞; 郭子豪; 汤健
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-03-24
Filing date: 2019-03-24
Publication date: 2019-07-12

Abstract

本发明提供一种融合相关系数与互信息的特征选择方法，首先，计算每个输入特征与难以检测参数间的相关系数，结合先验知识自适应确定相关系数阈值，选择高于相关系数阈值的特征构建相关系数候选特征集合；然后，计算每个输入特征与难以检测参数的互信息值，结合先验知识自适应确定互信息阈值，选择高于互信息值阈值的特征构建互信息候选特征集合；最后，取相关系数候选特征集合和互信息候选特征集合的交集作为新的候选特征集合，计算这些新的候选特征的相关系数值与互信息值的可调加权和作为综合评价值，结合先验知识自适应确定综合评价值阈值，选择高于综合评价值阈值的新的候选特征为最终选择的输入特征。

Description

一种融合相关系数与互信息的特征选择方法

本发明由科学技术部国家重点研发计划(No:2018YFC1900801)和国家自然科学基金(No:61573364，61873009)资助。

技术领域

本发明属于工业控制技术领域，尤其涉及一种融合相关系数与互信息的特征选择方法。

背景技术

在复杂工业过程领域，受限于生产过程的机理复杂性和强耦合性，一些与产品的质量、效率和安全相关的关键过程参数，如磨矿过程中旋转磨机内部的钢球、物料和水的负荷大小，以及矿浆中矿石的粒度分布，通常被称为难以检测参数[1]。针对这些难以检测参数，某些可以依靠优秀的领域专家凭经验估计(如表征磨矿效率的磨机负荷)，某些需要先人工定时采样、再在实验室化验分析得到(如表征磨矿质量的磨矿粒度和表征城市固废焚烧过程污染排放指标的二噁英浓度)。这些难以检测参数的人工估计和离线化验方法难以对复杂工业过程的运行优化与控制提供有效支撑[2]。采用离线历史数据建立这些难以检测参数的软测量模型是解决该问题的有效方法[3]，即以控制系统实时采集的过程变量为输入特征和难以检测参数为预测输出。通常，工业过程数据存在强非线性和共线性，采用全部过程变量建模不仅增加了模型的复杂度，而且影响模型的建模精度和速度。通常，输入特征数量总是多于构建高效简洁模型、可物理阐释模型所需的数量。基于先验知识确定构建软测量模型所需输入特征的策略，对具有物理/化学等多学科综合复杂机理特性的工业过程难以奏效。特征选择算法能够有效地去除“无关特征”与“冗余特征”，并确保重要特征不丢失^[4]。

在消除“无关特征”方面，文献[5]对高维数据利用相关系数进行维数约简，缩短运算时间和建模复杂度；文献[6]提出基于相关系数的多目标半监督特征选择方法；文献[7]提出基于熵的相关系数的特征聚类方法对特征子集进行快速聚类；文献[8]基于单个特征与集合特征的特征值之差进行特征选择。研究表明，针对复杂的分类问题，类似于相关系数的线性方法难以描述模式和类别间的任意映射关系，互信息方法可有效克服这一缺点[9]。

文献[10]提出互信息对特征间的相关性具有良好的表征能力；文献[11]提出基于互信息的多标签方法进行特征变量的删减；文献[12]将基于互信息的特征选择用于脉冲分类；文献[13]提出基于个体最佳互信息的特征选择方法；文献[14]提出基于条件互信息的特征选择方法，能够有效地对上一步所选择的特征进行评价。

因此，相关系数与互信息都可以表征输入特征与难以检测参数(预测输出) 间的相关性，并常用于特征选择^[15,16]；但两种方法在输入特征和预测输出的关系的视角上具有差异性，前者着重在线性关系，后者着重在非线性关系^[17,18]。上述这些方法均未考虑如何进行自适应的特征选择。针对实际的复杂工业过程，高维输入特征与难以检测参数间的映射关系并不能采用单一的线性或非线性进行统一表征。

发明内容

附图说明

图1融合相关系数与互信息的特征选择策略；

图2 286个输入特征的相关系数的绝对值；

图3 286个输入特征的互信息值；

图4 86个输入特征的综合评价值。

具体实施方试

相关系数与互信息均可表示输入特征与预测输出间的相关性，但两者侧重点不同：前者侧重反映输入与输出之间的线性关系性，后者侧重反映输入与输出间的非线性关系。因此，针对具有综合复杂特征、机理未知的工业过程难以检测参数预测问题，提出了如图1所示的特征选择策略。

为便于后文描述，将原始输入数据X采用下式改写，

其中，N和P分别代表建模样本的数量和维数，即P为原始输入特征的数量，x^p表示第pth个输入特征。相应的，输出数据为

图1中，表示第pth个特征的相关系数值；f_corr表示依据经验确定的相关系数阈值的比例系数；θ_corr表示基于相关系数选择特征的阈值；表示基于相关系数的候选特征集合，其中：表示第个基于相关系数选择的候选特征，表示基于相关系数选择的候选特征数量；表示第pth个特征的互信息值；f_mi表示依据经验确定的互信息值阈值的比例系数；θ_mi表示基于互信息选择特征的阈值；表示基于互信息的候选特征集合，其中：表示第个基于互信息选择的候选特征，表示基于互信息选择的特征数量；表示候选特征集合，其中：表示第个基于相关系数和互信息选择的候选特征，表示基于相关系数和互信息选择的候选特征数量；k_corr和k_mi表示计算综合评价值时对应的相关系数和互信息的比例系数；f_{corr_mi}表示依据经验确定的综合评价值阈值的比例系数；θ_{corr_mi}表示基于综合评价值选择特征的阈值；表示最终选择的输入特征集合，其中：表示第p^selth个最终选择的输入特征，表示选择的最终输入特征数量。

本发明提供一种融合相关系数与互信息的特征选择方法，包括：

步骤1、基于相关系数的特征选择

首先，计算不同原始输入特征与难以检测参数间的相关系数。此处以第pth 个变量为例计算原始相关系数，如下所示，

其中，分别表示第pth个输入特征和难以检测参数的N个建模样本的平均值。

将上述计算得到的原始相关系数处理为正值，即

其中，|·|表示取绝对值。为表述方便，后文称为第pth个特征的相关系数值

重复上述过程，获得全部原始输入特征的相关系数并记为按照如下公式计算全部相关系数的均值

结合依据经验确定的比例系数f_corr(默认值为1)，基于相关系数选择输入特征的阈值自适应地计算为：

依据上述阈值，以第pth个输入特征为例，按如下规则进行选择，

选择其中α^p＝1的变量作为基于相关系数选择的候选特征。对全部的原始输入变量执行上述过程，并将其相关系数候选特征集合标记为

步骤2、基于互信息的特征选择

首先，计算不同原始输入特征与难以检测参数间的互信息值。此处以第pth 个变量为例，如下所示，

其中，表示联合概率密度，和p_rob(y_n)表示边际概率密度。

重复上述过程，获得全部原始输入特征的互信息值并记为按照如下公式计算全部原始输入特征互信息值的均值如下所示：

结合依据经验确定的比例系数f_mi(其默认值为1)，基于互信息值选择输入特征的阈值自适应地计算为，

依据上述阈值，第pth个输入特征为例，按如下规则进行选择，

选择其中β^p＝1的变量作为基于互信息选择的候选特征。对全部原始输入变量执行上述过程，并将互信息候选特征集合标记为，

步骤3、基于综合评价值的特征选择

考虑同时具有较佳相关系数和互信息贡献度的输入特征，在和中选择得到新的候选特征集合，选择机制为，

其中，∩表示取交集；表示第个新的候选特征，其对应的相关系数值和互信息值分别为和

为消除不同的新的候选特征的相关系数值和互信息值的绝对大小造成的差异性，按如下公式分别进行标准化处理，

其中，和分别表示第个新的候选特征标准化后的相关系数值和互信息值。

本文中，新定义候选特征的综合评价值如下所示，

其中，k_corr和k_mi表示比例系数，其满足k_corr+k_mi＝1，其默认取值均为0.5。

重复上述过程，获得全部新的候选特征的综合评价值，并将其记为

按照如下公式计算全部新的候选特征综合评价值的均值ξ^sel，

结合依据经验确定的比例系数f_{corr_mi}(其默认值为1)，基于综合评价值选择输入特征的阈值自适应地计算为：

θ^sel＝f_{corr_mi}·ξ^sel (18)

依据上述阈值，以第个新的候选特征为例，按如下规则进行选择，

对全部的新的候选特征执行上述过程，选择其中的变量作为基于综合评价值选择的最佳特征，并将其标记为

综上可知，本发明完成了同时考虑原始输入特征与预测输出间的线性和非线性映射的特征选择过程。该方法在本质上是融合相关系数法和互信息法的基于相关性的特征选择策略，并且基于相关性和基于互信息的特征选择方法都是本发明所提方法的一种特例。

仿真验证

数据描述与特征选择参数设定

本文数据源于国内某焚烧企业2012-2018年1#炉可用的34组二噁英排放浓度样本，其中：训练和测试样本各一半；数据维数为287维，即输入特征的数量为287。本文此处，将依据先验知识确定的系数均取为默认值，即f_corr、f_mi、f_{corr_mi}的值均取为1，k_corr和k_mi均取为0.5。

实验结果

基于相关系数特征选择结果

求取训练样本的相关系数，如图2所示。

由图2可知，相关系数的绝对值最大为0.6760、最小为8.848e-5、平均值为0.1916。设定f_mi为1，即均值为依据全部过程变量的相关系数确定的阈值，相应地选择的基于相关系数的候选特征数量为123个。

相关性较大的前10个输入特征的相关系数值和变量序号如表1所示。

表1相关性较大的前10个输入特征的相关系数值和变量序号

基于互信息特征选择结果

求取训练数据的互信息值，如图3所示。

由图3可知，互信息值最大为0.8665、最小为0.1928、平均值为0.6466。设定f_corr为1，即均值为依据全部过程变量的互信息值确定的阈值，相应地选择的基于互信息值的候选特征数量为180个。

互信息值较大的前10个过程变量的输入特征的互信息值和变量序号如表2 所示。

表2互信息值较大的前10个输入特征的互信息值和变量序号

基于综合评价值特征选择结果

对比上述结果可知，两种方法所选择的候选特征存在差异性，如相关性最大的前10个输入特征中并无相同。

按照的策略获得新的候选特征集合的维数为87，取k_corr和k_mi均为 0.5时，综合评价值如图4所示。

由图4可知，综合评价值最大为0.01756、最小为0.008641、平均值为 0.01149。设定f_corr为1，即均值为依据上述87个输入特征的综合评价值确定阈值，相应的选择的基于综合评价值的输入特征数量为39个。

综合评价值较大的前10个输入特征的综合评价值和变量序号如表3所示。

表3综合评价值较大的前10个输入特征的综合评价值和变量序号

基于不同输入特征的PLS模型的比较结果

由上文可知，所提方法能够均衡的考虑相关系数与互信息度量的贡献度。采用PLS算法建立基于上述不同输入特征的软测量模型，统计结果如表4所示。

表4基于不同输入特征的PLS模型统计结果表

从表4可知，所提方法在预测精度上与相关系数PLS方法相当，在维数约简，不仅从原始输入特征的287维降到42维，而且也远小于相关系数法的123维和互信息法的180维。

针对复杂工业过程难以选择合适的输入特征构建有效的难以检测参数软测量模型的问题，本文提出一种融合相关系数与互信息的特征选择方法。主要贡献是： (1)结合先验知识自适应确定基于相关系数、互信息的特征选择方法的阈值，进而使得以均值作为特征选择阈值的方法成为本发明的一种特殊情况；(2)新定义了综合评价值用于融合相关系数值和互信息值，并定义比例系数进行两者间的均衡；(3)结合先验知识自适应确定综合评价值的阈值，使得基于相关系数和互信息的特征选择方法成为本发明的特例。

参考文献

[1]柴天佑.复杂工业过程运行优化与反馈控制.自动化学报,39(11) (2013)1744-1757.

[2]汤健，田福庆，贾美英，李东.基于频谱数据驱动的旋转机械设备负荷软测量[M],国防工业出版社，2015年6月，北京

[3]Kadlec P,Gabrys B,Strand S.Data-driven soft-sensors in the processindustry[J]. Computers and Chemical Engineering,2009,33(4):795-814.

[4]汤健,乔俊飞,柴天佑,等.基于虚拟样本生成技术的多组分机械信号建模[J].自动化学报,2018,44(9):1569-1589.

[5]Hasnat A,Molla A U.Feature selection in cancer microarray datausing multi-objective genetic algorithm combined with correlation coefficient[C]//Emerging Technological Trends(ICETT),International Conference on.IEEE,2016:1-6.

[6]Coelho F,Braga A P,Verleysen M.Multi-Objective Semi-SupervisedFeature Selection and Model Selection Based on Pearson’s CorrelationCoefficient[C]// Iberoamerican Congress Conference on Progress in PatternRecognition. Springer-Verlag,2010.

[7]Malji P,Sakhare S.Significance of entropy correlation coefficientover symmetric uncertainty on FAST clustering feature selection algorithm[C]//Intelligent Systems and Control(ISCO),2017 11th International Conferenceon.IEEE,2017:457-463.

[8]Lee J,Lim H,Kim D W.Approximating mutual information for multi-label feature selection[J].Electronics Letters,2012,48(15):929.

[9]Battiti R.Using mutual information for selecting features insupervised neural net learning[J].Neural Networks IEEE Transactions on,1994,5(4):537-550.

[10]Vergara J R,Estévez P A.A review of feature selection methodsbased on mutual information[J].Neural computing and applications,2014,24(1):175-186.

[11]Doquire G,Verleysen M.Mutual information-based feature selectionfor multilabel classification[J].Neurocomputing,2013,122:148-155.

[12]Barrows G L,Sciortino J C.A mutual information measure forfeature selection with application to pulse classification[C]//Time-Frequencyand Time-Scale Analysis, 1996.,Proceedings of the IEEE-SP InternationalSymposium on.IEEE,1996: 249-252.

[13]Jain A K,Duin R P W,Mao J.Statistical pattern recognition:Areview[J].IEEE Transactions on pattern analysis and machine intelligence,2000,22(1):4-37.

[14]Fleuret F.Fast binary feature selection with conditional mutualinformation[J]. Journal of Machine Learning Research,2004,5(Nov):1531-1555.

[15]Coelho F,Braga A P,Verleysen M.Multi-Objective Semi-SupervisedFeature Selection and Model Selection Based on Pearson's CorrelationCoefficient.[J].Lecture Notes in Computer Science,2010,6419:509-516.

[16]Estévez P A,Tesmer M,Perez C A,et al.Normalized mutualinformation feature selection[J].IEEE Transactions on Neural Networks,2009,20(2):189-201.

[17]Fatemeh Amiri,Mohammad Mahdi Rezaei Yousefi,CaroLucas,AzadehShakery, NasserYazdani.Mutual information-based feature selection forintrusion detection systems[J].Journal of Network and Computer Applications34(2011)1184–1199.

[18]Mohammadi S,Mirvaziri H,Ghazizadehahsaee M.Multivariatecorrelation coefficient and mutual information-based feature selection inintrusion detection[J]. Information Security Journal A Global Perspective,2017,26(5):229-239.

Claims

1.一种融合相关系数与互信息的特征选择方法，其特征在于，包括：

步骤1、计算每个输入特征与难以检测参数间的相关系数，结合先验知识自适应确定相关系数阈值，选择高于相关系数阈值的特征构建相关系数候选特征集合；

步骤2、计算每个输入特征与难以检测参数的互信息值，结合先验知识自适应确定互信息阈值，选择高于互信息值阈值的特征构建互信息候选特征集合；

步骤3、取相关系数候选特征集合和互信息候选特征集合的交集作为新的候选特征集合，计算这些新的候选特征的相关系数值与互信息值的可调加权和作为综合评价值，结合先验知识自适应确定综合评价值阈值，选择高于综合评价值阈值的新的候选特征为最终选择的输入特征。

2.如权利要求1所述的融合相关系数与互信息的特征选择方法，其特征在于，步骤1具体为：

以第pth个变量为例，如下所示，

其中，分别表示第pth个输入特征和难以检测参数的N个建模样本的平均值，

将上述计算得到的原始相关系数处理为正值，即

其中，|·|表示取绝对值，

结合依据经验确定的比例系数f_corr，基于相关系数选择输入特征的阈值自适应地计算为：

3.如权利要求2所述的融合相关系数与互信息的特征选择方法，其特征在于，步骤2具体为：

以第pth个变量为例，如下所示，

其中，表示联合概率密度，和p_rob(y_n)表示边际概率密度，

结合依据经验确定的比例系数f_mi，基于互信息值选择输入特征的阈值自适应地计算为，

选择其中β^p＝1的变量作为基于互信息选择的候选特征。对全部的原始输入变量执行上述过程，并将互信息候选特征集合标记为，

4.如权利要求3所述的融合相关系数与互信息的特征选择方法，其特征在于，步骤3具体为：

考虑同时具有较佳的相关系数和互信息贡献度的输入特征，在和中选择得到新的候选特征集合，选择机制为，

为消除不同新的候选特征的相关系数值和互信息值的绝对大小造成的差异性，按如下公式分别进行标准化处理，

新定义候选特征的综合评价值如下所示，

其中，k_corr和k_mi表示比例系数，其满足k_corr+k_mi＝1，其默认取值均为0.5，

结合依据经验确定的比例系数f_{corr_mi}，基于综合评价值选择输入特征的阈值自适应地计算为：

θ^sel＝f_{corr_mi}·ξ^sel (18)

依据上述阈值，第个新的候选特征为例，按如下规则进行选择，