CN113743464B

CN113743464B - 一种连续特征离散化损失信息补偿方法及其应用

Info

Publication number: CN113743464B
Application number: CN202110879527.6A
Authority: CN
Inventors: 王彬; 王炜智; 李哲辉
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2023-09-05
Anticipated expiration: 2041-08-02
Also published as: CN113743464A

Abstract

本发明公开了一种连续特征离散化损失信息补偿方法，包括：对选取的连续特征和因变量特征进行预处理，并对预处理的连续特征和因变量特征进行切分；对因变量特征进行分类形成类标签；结合类标签采用Chimerge算法对训练集的i个连续特征进行离散化处理，得到离散训练集及切割点，根据切割点对测试集进行离散化操作，形成离散测试集；构建特征相关性权值系数，公开了连续特征离散化损失信息补偿方法在机器学习分类模型中的应用。本发明通过离散化算法对连续特征进行离散化处理得到离散型特征，通过建立连续特征与离散特征间的相关性对损失信息进行补偿，可以有效解决连续特征在离散化处理过程中发生的信息损失的问题，并提升了机器学习分类模型的精度。

Description

一种连续特征离散化损失信息补偿方法及其应用

技术领域

本发明涉及一种连续特征离散化损失信息补偿方法及其应用，属于数据挖掘领域。

背景技术

随着大数据和人工智能时代的到来，数据挖掘在各行中越来越受重视。通过挖掘数据中潜在的信息，提高数据的质量，为行业做决策时提供可靠的依据。其中，在涉及到分类模型时，由于此类模型要求特征类型为离散型。若采用连续特征作为模型的输入，因连续特征的分布空间过于分散，容易导致模型的训练不易收敛且预测精度不高等一系列问题。

在对连续特征进行离散化处理的过程中，无论是采用有监督的还是无监督的离散化算法对连续特征进行离散化的过程中都会产生信息的损失，通过分类模型进行实验时，实验结果往往不尽人意，因为对于离散化过程中产生的信息损失如何补偿并未充分考虑，这显然对分类模型的准确度会造成一定的影响。

发明内容

本发明提供了一种连续特征离散化损失信息补偿方法及其应用，可以用于对连续特征进行离散，并进一步可以对损失信息进行补偿。

本发明的技术方案是：一种连续特征离散化损失信息补偿方法，包括：

Step1、对选取的连续特征和因变量特征进行预处理，并对预处理的连续特征和因变量特征进行切分，分为训练集和测试集；

Step2、对因变量特征进行分类形成类标签；结合类标签采用Chimerge算法对训练集的i个连续特征进行离散化处理，得到离散训练集及切割点，根据切割点对测试集进行离散化操作，形成离散测试集；

Step3、构建特征相关性权值系数。

所述Step1具体如下：

Step1.1、收集数据集X＝{x₁,x₂,x₃,..,x_o,y}，数据集中每个样本有多个特征，选取自变量特征中的i个连续特征；其中，x₁,x₂…x_o为自变量特征，共计o个，y表示为因变量特征，i≤o；

Step1.2、判断i个连续特征及因变量特征对应的样本中是否存在缺失值，若存在缺失值采用拉格朗日插值法对缺失值进行填充；

Step1.3、判断i个连续特征是否都处于一个量纲中，若不在则对特征进行标准化处理；

Step1.4、判断连续特征是否为高维特征，若为高维特征则进行降维或者特征提取；

Step1.5、将预处理完毕的连续特征按照7：3的比例切分为训练集和测试集。

所述Step2具体如下：

Step2.1、对因变量特征y，进行分类形成类标签；

Step2.2、采用训练集，分别对i个连续特征的样本值进行排序，分别对每个连续特征排序后的样本值根据类标签进行去重复处理，最终形成新的训练数据集；

Step2.3、预先设定离散区间数；依次计算两个相邻区间的卡方值，将相邻区间的卡方值与设定阈值进行比较，若先前计算的相邻区间的卡方值小于等于该阈值则对该区间进行合并处理，否则不做处理；迭代合并处理过程直到达到设定的离散区间数为止；最终形成离散训练集，离散训练集中只含有离散特征；

Step2.4、返回各区间的切割点，并对采用Step1.5中切分好的测试集进行离散化操作，形成离散测试集。

所述相邻区间的卡方值χ²，计算方法如下：

其中，k为类标签的数量，A_ms表示为第m个区间的第s类样本的数量，E_ms为A_ms的期望值，R_m表示在第m区间样本数/>C_s表示相邻两个区间的第s类样本个数/>N表示总的样本数/>b是一个常数。

所述Step3为：分析离散化前各连续特征与因变量特征间的相关性，分析各离散特征与类标签间的信息增益，并对相关性指标、信息增益指标通过数乘的方式进行融合处理，构建特征的相关性权值系数；其中，对因变量特征进行分类形成类标签。

所述Step3具体如下：

Step3.1、分析训练集中的i个连续特征与因变量特征间的相关性，计算方法如下：

其中，λ_p表示第p个连续特征与因变量特征间的相关系数，Cov(f_p,y)表示第p个连续特征f_p与因变量特征的协方差，D(f_p)表示第p个连续特征f_p的标准差，D(y)表示因变量特征的标准差，p＝1,2,...i，i表示连续特征的总个数；

Step3.2、分析离散训练集中的i个离散特征和类标签的信息增益，计算方法如下：

IG(D,A_q)＝H(D)-H(D|A_q)

其中，

其中，IG(D,A_q)表示第q个离散特征A_q对离散训练集D的信息增益，经验熵H(D)表示为离散训练集D进行分类的不确定性，经验条件熵H(D|A_q)表示第q个离散特征A_q在给定条件下对离散训练集D进行分类的不确定性；C_k表示为第k个类标签，k＝1,2…,K，|C_k|表示属于C_k的样本个数，|D|表示离散训练集的样本容量，即样本个数；设离散特征A_q有n个不同的取值{a₁,a₂,..,a_n}，依据离散特征A_q的取值将离散训练集D划分为n个子集D₁,D₂……D_n,|D_j|为D_j的样本数；记子集D_j中属于类C_k的样本的集合为D_jk，|D_jk|表示子集D_jk的样本个数，q＝1,2,...i,i表示离散特征的总个数且与连续特征的总个数相同；

Step3.3、特征相关性融合，构建特征的相关性权值系数，计算方法如下；

ξ_r＝λ_pIG(D,A_q),p＝q＝r

其中，ξ_r表示第r个离散特征的相关性权值系数，r＝1,2,...i,i表示离散特征/连续特征的总个数；

Step3.4、构建特征的权重，计算方法如下；

其中，ω_r表示第r个离散特征的权重。

将连续特征离散化损失信息补偿方法在机器学习分类模型中进行应用。

将Step3中构建的特征相关性权值系数作为构建特征权重的依据，并将特征的权重值运用到机器学习分类模型中进行验证。

将构建的特征权重运用到分类模型KNN中；通过准确率、查准率、查全率、F1值对分类结果进行评价验证是否对损失的信息起到补偿的作用。

本发明的有益效果是：本发明通过离散化算法对连续特征进行离散化处理得到离散型特征，通过建立连续特征与离散特征间的相关性对损失信息进行补偿，可以有效解决连续特征在离散化处理过程中发生的信息损失的问题，并提升了机器学习分类模型的精度。

附图说明

图1是本发明的总流程图；

图2为图1中步骤Step1的具体流程；

图3为图1中步骤Step2的具体流程；

图4为图1中步骤Step3的具体流程；

图5为图1中步骤Step4的具体流程。

具体实施方式

下面结合附图和实施例，对发明作进一步的说明，但本发明的内容并不限于所述范围。

实施例1：一种连续特征离散化损失信息补偿方法，包括：

Step3、构建特征相关性权值系数。

如图2所示，进一步地，可以设置所述Step1具体如下：

所述高维特征表示的是连续特征的个数大于六个，若大于进行降维或者特征提取(如果选取降维方式，则利用降维方法对连续特征进行压缩，使连续特征的个数达到要求；如果选取特征提取方式，依据特征的重要性程度选择需要的连续特征，使连续特征的个数达到要求)。

Step1.5、将处理完毕的连续特征按照7：3的比例切分为训练集和测试集。

如图3所示，进一步地，可以设置所述Step2具体如下：

Step2.1、对因变量特征y，进行分类形成类标签；

Step2.2、采用Step1.5中切分好的训练集，分别对i个连续特征的样本值进行排序，分别对每个连续特征排序后的样本值根据类标签进行去重复处理，最终形成新的训练数据集(即对每个连续特征可以同时采用升序方式进行排序)；通过去重复处理既保证数据完整性，同时与后续步骤进行配合，可以提高运算速度；

Step2.3、预先设定离散区间数；依次计算两个相邻区间的卡方值，将相邻区间的卡方值与从中选出的最小的卡方值进行比较，若先前计算的相邻区间的卡方值小于等于则对该区间进行合并处理，否则不做处理；迭代合并处理过程直到达到设定的离散区间数为止；最终形成离散训练集，离散训练集中只含有离散特征；

其中相邻区间的卡方值χ²，计算方法如下：

其中，k为类标签的数量，A_ms表示为第m个区间的第s类样本的数量，E_ms为A_ms的期望值，R_m表示在第m区间样本数/>C_s表示相邻两个区间的第s类样本个数/>N表示总的样本数/>b是一个常数，取0.1；

如图4所示，进一步地，可以设置所述Step3为：分析离散化前各连续特征与因变量特征间的相关性，分析各离散特征与类标签间的信息增益，并对相关性指标、信息增益指标通过数乘的方式进行融合处理，构建特征的相关性权值系数；其中，对因变量特征进行分类形成类标签。

再进一步地，可以设置所述Step3具体如下：

Step3.1、分析Step1.5中切分的训练集中的i个连续特征与因变量特征间的相关性，计算方法如下：

Step3.2、分析Step2.3中获得的离散训练集中的i个离散特征和因变量特征的类标签的信息增益，计算方法如下：

IG(D,A_q)＝H(D)-H(D|A_q)

其中，

ξ_r＝λ_pIG(D,A_q),p＝q＝r

Step3.4、构建特征的权重，计算方法如下；

其中，ω_r表示第r个离散特征的权重。

通过缺失值填充可以确保数据的完整性和时序性，提升了数据的整体质量，通过量纲处理，可以让数据处于一个维度中，而数据整体质量的提升及标准化处理为最终获得更高精度的权重系数奠定基础；进一步地，通过降维处理，在保留数据重要程度的同时可以提高模型训练速度、降低运算资源；而通过特定比例切分训练集和测试集，既可以满足训练所需从而快速获得权重系数，同时在对测试集进行检测的时候，检测的结果更加快速，准确的拟合预测，提高了模型泛化能力；而Step2整个步骤中先确定分类标签，再结合Chimerge算法获得离散训练集及切割点，而Chimerge算法通过计算相邻区间的卡方值与设定的阈值(可以单独设定，也可从计算的相邻区间卡方值中选择最小的)来判别相邻区间的差异程度，通过该种方式可以确保参与合并处理的相邻区间差异足够小，从而使得获得的切割点位置更准确，可以让离散化特征更加合理，而通过合理的切割点对测试集进行离散化处理可以进一步提升离散效率及准确度；整个的离散处理相对于连续型特征提升了模型的表达能力，可在加大模型拟合度的同时降低模型过拟合的风险；有效的特征离散化能减小机器学习算法的时间和空间开销，在提高模型训练速度的同时降低了运算资源，提高了系统对样本的分类聚类能力和抗噪声能力；此外离散特征可以有效的克服数据中隐藏的缺陷，对异常数据有很强的鲁棒性，使模型结果更加稳定；再进一步的，本发明通过构建特征的相关性权值系数，对损失的信息进行补偿，该方法从从全局的角度出发，首先通过对连续特征和因变量进行相关性分析，确定连续特征与因变量间的紧密程度，接着分析离散特征和类标签间的相关性，确定离散特征对于类标签的重要性；最后将同一特征的两种不同相关性进行融合，得到特征的相关性权值系数，并作为对损失信息的补偿；整个补偿过程既考虑了离散前的关系，也考虑了离散化后的关系，使得对损失信息的补偿更加充分。而将该方法运用至分类模型中后，进一步对测试集中的数据进行测试，也表明本发明方法提高了后续分类预测处理的计算准确率。

进一步地，可以设置将连续特征离散化损失信息补偿方法应用在机器学习分类模型中。

具体的：将Step3中构建的特征相关性权值系数作为构建特征权重的依据，并将特征的权重值运用到机器学习分类模型中进行验证。

再进一步地，设置将构建的特征权重ω_r运用到分类模型KNN中；通过准确率、查准率、查全率、F1值对分类结果进行评价验证是否对损失的信息起到补偿的作用。

实施例2：如图1所示，一种连续特征离散化损失信息补偿方法，包括以下步骤：

Step3、构建特征相关性权值系数；

Step4、损失信息补偿及验证：将构建的特征相关性权值系数作为信息损失的一种补偿机制并运用到机器学习分类模型中进行验证。

本发明可以通过以下实验进一步说明：

为了验证本发明的有效性，选取北京市朝阳区奥体中心的环境空气质量监测数据作为实验对象。

进一步地，可以设置所述方法具体步骤如下：

Step1.数据预处理及特征提取：初始化收集到的数据集X＝{x₁,x₂,x₃,..,x_o,y}，其中x₁,x₂…x_o表示的为特征也就是自变量特征，y为因变量特征。数据集中共有特征19个，其中自变量有18个，因变量1个，如表1所示：

表1环境空气质量监测特征

选取PM2.5、PM10、SO₂、NO₂、O₃、CO这6个观测指标作为连续特征，见表2。对每个特征对应的样本中存在的缺失值采用拉格朗日插值法对缺失的值进行填充使每个连续特征的样本数都达到35064，由于连续特征不在同一个量纲内，故对其进行标准化处理，依据现有研究的结论，并对处理完毕的数据集按照7：3的比例进训练集和测试集的切分。训练集的长度为24545，测试集的长度为10519。

表2连续特征部分数据集

	PM2.5	PM10	SO₂	NO₂	CO	O₃	AQI
								1	4	4	4	7	3	77	24.0625
2	8	8	4	7	3	77	24.0625
								3	7	7	5	10	3	73	22.8125
4	6	6	11	11	3	72	22.5
								5	3	3	12	12	3	72	22.5
6	5	5	18	18	4	66	20.625
								7	3	3	18	32	5	50	16
8	3	6	19	41	5	43	20.5
								9	3	6	16	43	5	45	21.5
10	3	8	12	28	4	59	18.4375

所述连续特征离散化处理，Step2具体如下：

对Step1中处理完毕的数据，采用chimerge算法对其进行离散化处理，并对离散化处理的结果根据区间用区间标号表达，其中部分表达结果如表3所示：

表3离散化部分数据集

	PM2.5	PM10	SO₂	NO₂	CO	O₃	AQI
								1	1	1	4	3	4	4	0
2	1	1	4	3	4	4	0
								3	2	2	4	3	4	4	1
4	2	2	4	4	4	4	1
								5	2	3	6	4	4	4	1
6	2	3	6	4	4	3	1
								7	2	3	6	5	4	3	1
8	2	3	6	5	4	1	1
								9	2	3	6	5	4	1	1
10	3	3	6	5	5	1	2

各特征的切割点返回情况，如表4所示：

表4连续特征切割点

将切割点带入到测试集中，对测试集进行离散化处理。

所述构建特征相关性权值系数，Step3具体如下：

通过完成Step1和Step2中的相关操作后对连续特征进行相关性分析，得到各连续特征与因变量特征之间的相关系数，如表5所示：

表5连续特征相关性

PM2.5	PM10	SO₂	NO₂	CO	O₃
						0.96	0.92	0.47	0.63	0.70	0.094

对通过离散化后的离散型特征进行相关性分析，得到离散特征和因变量特征的类标签的信息增益，如表6所示：

表6离散特征相关性

PM2.5	PM10	SO₂	NO₂	CO	O₃
						1.83	1.26	0.19	0.34	0.46	0.15

将表5与表6中所得到的系数，采用Step3中的方法进行特征的相关系数融合，构建特征的相关系数权重，如表7所示：

表7离散特征相关性

PM2.5	PM10	SO₂	NO₂	CO	O₃
						0.495	0.326	0.025	0.06	0.09	0.004

所述损失信息补偿并通过分类模型验证，Step4具体如下：

为了验证本发明方法的有效性，选取朴素贝叶斯、随机森林、决策树、BP神经网络、支持向量机五个分类预测算法模型(有监督离散+无补偿)与本发明方法展开了对比实验，经实验结果比对，本发明方法的准确率、查全率、查准率及F1值都明显高于其它五个分类算法，如表8所示。

表8实验结果比对

本发明设计并实现数据挖掘领域对连续特征离散化损失信息补偿，并通过实验证明了本法的有效性，对连续特征因离散化造成的信息损失起到了弥补作用，有效提升了分类模型的准确率。

由表9可知，通过有监督和无监督的离散化算法对连续特征进行离散化处理(无监督指等宽区间法)，并将处理好的特征输入KNN分类模型中，验证是否对因离散化而造成的信息损失起到补偿，实验结果如表9。

表9实验结果比对

综上可知，通过本发明方法对连续特征进行离散的方式可以显著提高准确率、查全率、查准率及F1值；再者通过结合本发明方法对损失信息进行补偿，可以更进一步提高准确率、查全率、查准率及F1值，有效的补偿因连续特征离散化而造成的信息损失，并提升了机器学习分类模型的精度。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种环境空气质量连续特征离散化损失信息补偿方法，其特征在于：包括：

Step1、对选取的环境空气质量连续特征和因变量特征进行预处理，并对预处理的连续特征和因变量特征进行切分，分为训练集和测试集；

Step3、构建特征相关性权值系数，对损失的信息进行补偿；

所述Step1具体如下：

Step1.5、将预处理完毕的连续特征按照7：3的比例切分为训练集和测试集；

所述Step2具体如下：

Step2.1、对因变量特征y，进行分类形成类标签；

Step2.4、返回各区间的切割点，并对采用Step1.5中切分好的测试集进行离散化操作，形成离散测试集；

所述相邻区间的卡方值χ²，计算方法如下：

其中，k为类标签的数量，A_ms表示为第m个区间的第s类样本的数量，E_ms为A_ms的期望值，表示在第m区间样本数/>C_s表示相邻两个区间的第s类样本个数N表示总的样本数/>b是一个常数；

所述Step3为：分析离散化前各连续特征与因变量特征间的相关性，分析各离散特征与类标签间的信息增益，并对相关性指标、信息增益指标通过数乘的方式进行融合处理，构建特征的相关性权值系数；其中，对因变量特征进行分类形成类标签；

所述Step3具体如下：

IG(D,A_q)＝H(D)-H(D|A_q)

其中，

ξ_r＝λ_pIG(D,A_q),p＝q＝r

Step3.4、构建特征的权重，计算方法如下；

其中，ω_r表示第r个离散特征的权重。