CN113743464B - 一种连续特征离散化损失信息补偿方法及其应用 - Google Patents
一种连续特征离散化损失信息补偿方法及其应用 Download PDFInfo
- Publication number
- CN113743464B CN113743464B CN202110879527.6A CN202110879527A CN113743464B CN 113743464 B CN113743464 B CN 113743464B CN 202110879527 A CN202110879527 A CN 202110879527A CN 113743464 B CN113743464 B CN 113743464B
- Authority
- CN
- China
- Prior art keywords
- discrete
- features
- continuous
- feature
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 58
- 230000001419 dependent effect Effects 0.000 claims abstract description 45
- 238000012360 testing method Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 3
- 239000003570 air Substances 0.000 claims description 2
- 239000012080 ambient air Substances 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000013145 classification model Methods 0.000 abstract description 18
- 238000010801 machine learning Methods 0.000 abstract description 10
- 238000002474 experimental method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000010219 correlation analysis Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 241000251204 Chimaeridae Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种连续特征离散化损失信息补偿方法,包括:对选取的连续特征和因变量特征进行预处理,并对预处理的连续特征和因变量特征进行切分;对因变量特征进行分类形成类标签;结合类标签采用Chimerge算法对训练集的i个连续特征进行离散化处理,得到离散训练集及切割点,根据切割点对测试集进行离散化操作,形成离散测试集;构建特征相关性权值系数,公开了连续特征离散化损失信息补偿方法在机器学习分类模型中的应用。本发明通过离散化算法对连续特征进行离散化处理得到离散型特征,通过建立连续特征与离散特征间的相关性对损失信息进行补偿,可以有效解决连续特征在离散化处理过程中发生的信息损失的问题,并提升了机器学习分类模型的精度。
Description
技术领域
本发明涉及一种连续特征离散化损失信息补偿方法及其应用,属于数据挖掘领域。
背景技术
随着大数据和人工智能时代的到来,数据挖掘在各行中越来越受重视。通过挖掘数据中潜在的信息,提高数据的质量,为行业做决策时提供可靠的依据。其中,在涉及到分类模型时,由于此类模型要求特征类型为离散型。若采用连续特征作为模型的输入,因连续特征的分布空间过于分散,容易导致模型的训练不易收敛且预测精度不高等一系列问题。
在对连续特征进行离散化处理的过程中,无论是采用有监督的还是无监督的离散化算法对连续特征进行离散化的过程中都会产生信息的损失,通过分类模型进行实验时,实验结果往往不尽人意,因为对于离散化过程中产生的信息损失如何补偿并未充分考虑,这显然对分类模型的准确度会造成一定的影响。
发明内容
本发明提供了一种连续特征离散化损失信息补偿方法及其应用,可以用于对连续特征进行离散,并进一步可以对损失信息进行补偿。
本发明的技术方案是:一种连续特征离散化损失信息补偿方法,包括:
Step1、对选取的连续特征和因变量特征进行预处理,并对预处理的连续特征和因变量特征进行切分,分为训练集和测试集;
Step2、对因变量特征进行分类形成类标签;结合类标签采用Chimerge算法对训练集的i个连续特征进行离散化处理,得到离散训练集及切割点,根据切割点对测试集进行离散化操作,形成离散测试集;
Step3、构建特征相关性权值系数。
所述Step1具体如下:
Step1.1、收集数据集X={x1,x2,x3,..,xo,y},数据集中每个样本有多个特征,选取自变量特征中的i个连续特征;其中,x1,x2…xo为自变量特征,共计o个,y表示为因变量特征,i≤o;
Step1.2、判断i个连续特征及因变量特征对应的样本中是否存在缺失值,若存在缺失值采用拉格朗日插值法对缺失值进行填充;
Step1.3、判断i个连续特征是否都处于一个量纲中,若不在则对特征进行标准化处理;
Step1.4、判断连续特征是否为高维特征,若为高维特征则进行降维或者特征提取;
Step1.5、将预处理完毕的连续特征按照7:3的比例切分为训练集和测试集。
所述Step2具体如下:
Step2.1、对因变量特征y,进行分类形成类标签;
Step2.2、采用训练集,分别对i个连续特征的样本值进行排序,分别对每个连续特征排序后的样本值根据类标签进行去重复处理,最终形成新的训练数据集;
Step2.3、预先设定离散区间数;依次计算两个相邻区间的卡方值,将相邻区间的卡方值与设定阈值进行比较,若先前计算的相邻区间的卡方值小于等于该阈值则对该区间进行合并处理,否则不做处理;迭代合并处理过程直到达到设定的离散区间数为止;最终形成离散训练集,离散训练集中只含有离散特征;
Step2.4、返回各区间的切割点,并对采用Step1.5中切分好的测试集进行离散化操作,形成离散测试集。
所述相邻区间的卡方值χ2,计算方法如下:
其中,k为类标签的数量,Ams表示为第m个区间的第s类样本的数量,Ems为Ams的期望值,Rm表示在第m区间样本数/>Cs表示相邻两个区间的第s类样本个数/>N表示总的样本数/>b是一个常数。
所述Step3为:分析离散化前各连续特征与因变量特征间的相关性,分析各离散特征与类标签间的信息增益,并对相关性指标、信息增益指标通过数乘的方式进行融合处理,构建特征的相关性权值系数;其中,对因变量特征进行分类形成类标签。
所述Step3具体如下:
Step3.1、分析训练集中的i个连续特征与因变量特征间的相关性,计算方法如下:
其中,λp表示第p个连续特征与因变量特征间的相关系数,Cov(fp,y)表示第p个连续特征fp与因变量特征的协方差,D(fp)表示第p个连续特征fp的标准差,D(y)表示因变量特征的标准差,p=1,2,...i,i表示连续特征的总个数;
Step3.2、分析离散训练集中的i个离散特征和类标签的信息增益,计算方法如下:
IG(D,Aq)=H(D)-H(D|Aq)
其中,
其中,IG(D,Aq)表示第q个离散特征Aq对离散训练集D的信息增益,经验熵H(D)表示为离散训练集D进行分类的不确定性,经验条件熵H(D|Aq)表示第q个离散特征Aq在给定条件下对离散训练集D进行分类的不确定性;Ck表示为第k个类标签,k=1,2…,K,|Ck|表示属于Ck的样本个数,|D|表示离散训练集的样本容量,即样本个数;设离散特征Aq有n个不同的取值{a1,a2,..,an},依据离散特征Aq的取值将离散训练集D划分为n个子集D1,D2……Dn,|Dj|为Dj的样本数;记子集Dj中属于类Ck的样本的集合为Djk,|Djk|表示子集Djk的样本个数,q=1,2,...i,i表示离散特征的总个数且与连续特征的总个数相同;
Step3.3、特征相关性融合,构建特征的相关性权值系数,计算方法如下;
ξr=λpIG(D,Aq),p=q=r
其中,ξr表示第r个离散特征的相关性权值系数,r=1,2,...i,i表示离散特征/连续特征的总个数;
Step3.4、构建特征的权重,计算方法如下;
其中,ωr表示第r个离散特征的权重。
将连续特征离散化损失信息补偿方法在机器学习分类模型中进行应用。
将Step3中构建的特征相关性权值系数作为构建特征权重的依据,并将特征的权重值运用到机器学习分类模型中进行验证。
将构建的特征权重运用到分类模型KNN中;通过准确率、查准率、查全率、F1值对分类结果进行评价验证是否对损失的信息起到补偿的作用。
本发明的有益效果是:本发明通过离散化算法对连续特征进行离散化处理得到离散型特征,通过建立连续特征与离散特征间的相关性对损失信息进行补偿,可以有效解决连续特征在离散化处理过程中发生的信息损失的问题,并提升了机器学习分类模型的精度。
附图说明
图1是本发明的总流程图;
图2为图1中步骤Step1的具体流程;
图3为图1中步骤Step2的具体流程;
图4为图1中步骤Step3的具体流程;
图5为图1中步骤Step4的具体流程。
具体实施方式
下面结合附图和实施例,对发明作进一步的说明,但本发明的内容并不限于所述范围。
实施例1:一种连续特征离散化损失信息补偿方法,包括:
Step1、对选取的连续特征和因变量特征进行预处理,并对预处理的连续特征和因变量特征进行切分,分为训练集和测试集;
Step2、对因变量特征进行分类形成类标签;结合类标签采用Chimerge算法对训练集的i个连续特征进行离散化处理,得到离散训练集及切割点,根据切割点对测试集进行离散化操作,形成离散测试集;
Step3、构建特征相关性权值系数。
如图2所示,进一步地,可以设置所述Step1具体如下:
Step1.1、收集数据集X={x1,x2,x3,..,xo,y},数据集中每个样本有多个特征,选取自变量特征中的i个连续特征;其中,x1,x2…xo为自变量特征,共计o个,y表示为因变量特征,i≤o;
Step1.2、判断i个连续特征及因变量特征对应的样本中是否存在缺失值,若存在缺失值采用拉格朗日插值法对缺失值进行填充;
Step1.3、判断i个连续特征是否都处于一个量纲中,若不在则对特征进行标准化处理;
Step1.4、判断连续特征是否为高维特征,若为高维特征则进行降维或者特征提取;
所述高维特征表示的是连续特征的个数大于六个,若大于进行降维或者特征提取(如果选取降维方式,则利用降维方法对连续特征进行压缩,使连续特征的个数达到要求;如果选取特征提取方式,依据特征的重要性程度选择需要的连续特征,使连续特征的个数达到要求)。
Step1.5、将处理完毕的连续特征按照7:3的比例切分为训练集和测试集。
如图3所示,进一步地,可以设置所述Step2具体如下:
Step2.1、对因变量特征y,进行分类形成类标签;
Step2.2、采用Step1.5中切分好的训练集,分别对i个连续特征的样本值进行排序,分别对每个连续特征排序后的样本值根据类标签进行去重复处理,最终形成新的训练数据集(即对每个连续特征可以同时采用升序方式进行排序);通过去重复处理既保证数据完整性,同时与后续步骤进行配合,可以提高运算速度;
Step2.3、预先设定离散区间数;依次计算两个相邻区间的卡方值,将相邻区间的卡方值与从中选出的最小的卡方值进行比较,若先前计算的相邻区间的卡方值小于等于则对该区间进行合并处理,否则不做处理;迭代合并处理过程直到达到设定的离散区间数为止;最终形成离散训练集,离散训练集中只含有离散特征;
其中相邻区间的卡方值χ2,计算方法如下:
其中,k为类标签的数量,Ams表示为第m个区间的第s类样本的数量,Ems为Ams的期望值,Rm表示在第m区间样本数/>Cs表示相邻两个区间的第s类样本个数/>N表示总的样本数/>b是一个常数,取0.1;
Step2.4、返回各区间的切割点,并对采用Step1.5中切分好的测试集进行离散化操作,形成离散测试集。
如图4所示,进一步地,可以设置所述Step3为:分析离散化前各连续特征与因变量特征间的相关性,分析各离散特征与类标签间的信息增益,并对相关性指标、信息增益指标通过数乘的方式进行融合处理,构建特征的相关性权值系数;其中,对因变量特征进行分类形成类标签。
再进一步地,可以设置所述Step3具体如下:
Step3.1、分析Step1.5中切分的训练集中的i个连续特征与因变量特征间的相关性,计算方法如下:
其中,λp表示第p个连续特征与因变量特征间的相关系数,Cov(fp,y)表示第p个连续特征fp与因变量特征的协方差,D(fp)表示第p个连续特征fp的标准差,D(y)表示因变量特征的标准差,p=1,2,...i,i表示连续特征的总个数;
Step3.2、分析Step2.3中获得的离散训练集中的i个离散特征和因变量特征的类标签的信息增益,计算方法如下:
IG(D,Aq)=H(D)-H(D|Aq)
其中,
其中,IG(D,Aq)表示第q个离散特征Aq对离散训练集D的信息增益,经验熵H(D)表示为离散训练集D进行分类的不确定性,经验条件熵H(D|Aq)表示第q个离散特征Aq在给定条件下对离散训练集D进行分类的不确定性;Ck表示为第k个类标签,k=1,2…,K,|Ck|表示属于Ck的样本个数,|D|表示离散训练集的样本容量,即样本个数;设离散特征Aq有n个不同的取值{a1,a2,..,an},依据离散特征Aq的取值将离散训练集D划分为n个子集D1,D2……Dn,|Dj|为Dj的样本数;记子集Dj中属于类Ck的样本的集合为Djk,|Djk|表示子集Djk的样本个数,q=1,2,...i,i表示离散特征的总个数且与连续特征的总个数相同;
Step3.3、特征相关性融合,构建特征的相关性权值系数,计算方法如下;
ξr=λpIG(D,Aq),p=q=r
其中,ξr表示第r个离散特征的相关性权值系数,r=1,2,...i,i表示离散特征/连续特征的总个数;
Step3.4、构建特征的权重,计算方法如下;
其中,ωr表示第r个离散特征的权重。
通过缺失值填充可以确保数据的完整性和时序性,提升了数据的整体质量,通过量纲处理,可以让数据处于一个维度中,而数据整体质量的提升及标准化处理为最终获得更高精度的权重系数奠定基础;进一步地,通过降维处理,在保留数据重要程度的同时可以提高模型训练速度、降低运算资源;而通过特定比例切分训练集和测试集,既可以满足训练所需从而快速获得权重系数,同时在对测试集进行检测的时候,检测的结果更加快速,准确的拟合预测,提高了模型泛化能力;而Step2整个步骤中先确定分类标签,再结合Chimerge算法获得离散训练集及切割点,而Chimerge算法通过计算相邻区间的卡方值与设定的阈值(可以单独设定,也可从计算的相邻区间卡方值中选择最小的)来判别相邻区间的差异程度,通过该种方式可以确保参与合并处理的相邻区间差异足够小,从而使得获得的切割点位置更准确,可以让离散化特征更加合理,而通过合理的切割点对测试集进行离散化处理可以进一步提升离散效率及准确度;整个的离散处理相对于连续型特征提升了模型的表达能力,可在加大模型拟合度的同时降低模型过拟合的风险;有效的特征离散化能减小机器学习算法的时间和空间开销,在提高模型训练速度的同时降低了运算资源,提高了系统对样本的分类聚类能力和抗噪声能力;此外离散特征可以有效的克服数据中隐藏的缺陷,对异常数据有很强的鲁棒性,使模型结果更加稳定;再进一步的,本发明通过构建特征的相关性权值系数,对损失的信息进行补偿,该方法从从全局的角度出发,首先通过对连续特征和因变量进行相关性分析,确定连续特征与因变量间的紧密程度,接着分析离散特征和类标签间的相关性,确定离散特征对于类标签的重要性;最后将同一特征的两种不同相关性进行融合,得到特征的相关性权值系数,并作为对损失信息的补偿;整个补偿过程既考虑了离散前的关系,也考虑了离散化后的关系,使得对损失信息的补偿更加充分。而将该方法运用至分类模型中后,进一步对测试集中的数据进行测试,也表明本发明方法提高了后续分类预测处理的计算准确率。
进一步地,可以设置将连续特征离散化损失信息补偿方法应用在机器学习分类模型中。
具体的:将Step3中构建的特征相关性权值系数作为构建特征权重的依据,并将特征的权重值运用到机器学习分类模型中进行验证。
再进一步地,设置将构建的特征权重ωr运用到分类模型KNN中;通过准确率、查准率、查全率、F1值对分类结果进行评价验证是否对损失的信息起到补偿的作用。
实施例2:如图1所示,一种连续特征离散化损失信息补偿方法,包括以下步骤:
Step1、对选取的连续特征和因变量特征进行预处理,并对预处理的连续特征和因变量特征进行切分,分为训练集和测试集;
Step2、对因变量特征进行分类形成类标签;结合类标签采用Chimerge算法对训练集的i个连续特征进行离散化处理,得到离散训练集及切割点,根据切割点对测试集进行离散化操作,形成离散测试集;
Step3、构建特征相关性权值系数;
Step4、损失信息补偿及验证:将构建的特征相关性权值系数作为信息损失的一种补偿机制并运用到机器学习分类模型中进行验证。
本发明可以通过以下实验进一步说明:
为了验证本发明的有效性,选取北京市朝阳区奥体中心的环境空气质量监测数据作为实验对象。
进一步地,可以设置所述方法具体步骤如下:
Step1.数据预处理及特征提取:初始化收集到的数据集X={x1,x2,x3,..,xo,y},其中x1,x2…xo表示的为特征也就是自变量特征,y为因变量特征。数据集中共有特征19个,其中自变量有18个,因变量1个,如表1所示:
表1环境空气质量监测特征
选取PM2.5、PM10、SO2、NO2、O3、CO这6个观测指标作为连续特征,见表2。对每个特征对应的样本中存在的缺失值采用拉格朗日插值法对缺失的值进行填充使每个连续特征的样本数都达到35064,由于连续特征不在同一个量纲内,故对其进行标准化处理,依据现有研究的结论,并对处理完毕的数据集按照7:3的比例进训练集和测试集的切分。训练集的长度为24545,测试集的长度为10519。
表2连续特征部分数据集
PM2.5 | PM10 | SO2 | NO2 | CO | O3 | AQI | |
1 | 4 | 4 | 4 | 7 | 3 | 77 | 24.0625 |
2 | 8 | 8 | 4 | 7 | 3 | 77 | 24.0625 |
3 | 7 | 7 | 5 | 10 | 3 | 73 | 22.8125 |
4 | 6 | 6 | 11 | 11 | 3 | 72 | 22.5 |
5 | 3 | 3 | 12 | 12 | 3 | 72 | 22.5 |
6 | 5 | 5 | 18 | 18 | 4 | 66 | 20.625 |
7 | 3 | 3 | 18 | 32 | 5 | 50 | 16 |
8 | 3 | 6 | 19 | 41 | 5 | 43 | 20.5 |
9 | 3 | 6 | 16 | 43 | 5 | 45 | 21.5 |
10 | 3 | 8 | 12 | 28 | 4 | 59 | 18.4375 |
所述连续特征离散化处理,Step2具体如下:
对Step1中处理完毕的数据,采用chimerge算法对其进行离散化处理,并对离散化处理的结果根据区间用区间标号表达,其中部分表达结果如表3所示:
表3离散化部分数据集
PM2.5 | PM10 | SO2 | NO2 | CO | O3 | AQI | |
1 | 1 | 1 | 4 | 3 | 4 | 4 | 0 |
2 | 1 | 1 | 4 | 3 | 4 | 4 | 0 |
3 | 2 | 2 | 4 | 3 | 4 | 4 | 1 |
4 | 2 | 2 | 4 | 4 | 4 | 4 | 1 |
5 | 2 | 3 | 6 | 4 | 4 | 4 | 1 |
6 | 2 | 3 | 6 | 4 | 4 | 3 | 1 |
7 | 2 | 3 | 6 | 5 | 4 | 3 | 1 |
8 | 2 | 3 | 6 | 5 | 4 | 1 | 1 |
9 | 2 | 3 | 6 | 5 | 4 | 1 | 1 |
10 | 3 | 3 | 6 | 5 | 5 | 1 | 2 |
各特征的切割点返回情况,如表4所示:
表4连续特征切割点
将切割点带入到测试集中,对测试集进行离散化处理。
所述构建特征相关性权值系数,Step3具体如下:
通过完成Step1和Step2中的相关操作后对连续特征进行相关性分析,得到各连续特征与因变量特征之间的相关系数,如表5所示:
表5连续特征相关性
PM2.5 | PM10 | SO2 | NO2 | CO | O3 |
0.96 | 0.92 | 0.47 | 0.63 | 0.70 | 0.094 |
对通过离散化后的离散型特征进行相关性分析,得到离散特征和因变量特征的类标签的信息增益,如表6所示:
表6离散特征相关性
PM2.5 | PM10 | SO2 | NO2 | CO | O3 |
1.83 | 1.26 | 0.19 | 0.34 | 0.46 | 0.15 |
将表5与表6中所得到的系数,采用Step3中的方法进行特征的相关系数融合,构建特征的相关系数权重,如表7所示:
表7离散特征相关性
PM2.5 | PM10 | SO2 | NO2 | CO | O3 |
0.495 | 0.326 | 0.025 | 0.06 | 0.09 | 0.004 |
所述损失信息补偿并通过分类模型验证,Step4具体如下:
为了验证本发明方法的有效性,选取朴素贝叶斯、随机森林、决策树、BP神经网络、支持向量机五个分类预测算法模型(有监督离散+无补偿)与本发明方法展开了对比实验,经实验结果比对,本发明方法的准确率、查全率、查准率及F1值都明显高于其它五个分类算法,如表8所示。
表8实验结果比对
本发明设计并实现数据挖掘领域对连续特征离散化损失信息补偿,并通过实验证明了本法的有效性,对连续特征因离散化造成的信息损失起到了弥补作用,有效提升了分类模型的准确率。
由表9可知,通过有监督和无监督的离散化算法对连续特征进行离散化处理(无监督指等宽区间法),并将处理好的特征输入KNN分类模型中,验证是否对因离散化而造成的信息损失起到补偿,实验结果如表9。
表9实验结果比对
综上可知,通过本发明方法对连续特征进行离散的方式可以显著提高准确率、查全率、查准率及F1值;再者通过结合本发明方法对损失信息进行补偿,可以更进一步提高准确率、查全率、查准率及F1值,有效的补偿因连续特征离散化而造成的信息损失,并提升了机器学习分类模型的精度。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (1)
1.一种环境空气质量连续特征离散化损失信息补偿方法,其特征在于:包括:
Step1、对选取的环境空气质量连续特征和因变量特征进行预处理,并对预处理的连续特征和因变量特征进行切分,分为训练集和测试集;
Step2、对因变量特征进行分类形成类标签;结合类标签采用Chimerge算法对训练集的i个连续特征进行离散化处理,得到离散训练集及切割点,根据切割点对测试集进行离散化操作,形成离散测试集;
Step3、构建特征相关性权值系数,对损失的信息进行补偿;
所述Step1具体如下:
Step1.1、收集数据集X={x1,x2,x3,..,xo,y},数据集中每个样本有多个特征,选取自变量特征中的i个连续特征;其中,x1,x2…xo为自变量特征,共计o个,y表示为因变量特征,i≤o;
Step1.2、判断i个连续特征及因变量特征对应的样本中是否存在缺失值,若存在缺失值采用拉格朗日插值法对缺失值进行填充;
Step1.3、判断i个连续特征是否都处于一个量纲中,若不在则对特征进行标准化处理;
Step1.4、判断连续特征是否为高维特征,若为高维特征则进行降维或者特征提取;
Step1.5、将预处理完毕的连续特征按照7:3的比例切分为训练集和测试集;
所述Step2具体如下:
Step2.1、对因变量特征y,进行分类形成类标签;
Step2.2、采用训练集,分别对i个连续特征的样本值进行排序,分别对每个连续特征排序后的样本值根据类标签进行去重复处理,最终形成新的训练数据集;
Step2.3、预先设定离散区间数;依次计算两个相邻区间的卡方值,将相邻区间的卡方值与设定阈值进行比较,若先前计算的相邻区间的卡方值小于等于该阈值则对该区间进行合并处理,否则不做处理;迭代合并处理过程直到达到设定的离散区间数为止;最终形成离散训练集,离散训练集中只含有离散特征;
Step2.4、返回各区间的切割点,并对采用Step1.5中切分好的测试集进行离散化操作,形成离散测试集;
所述相邻区间的卡方值χ2,计算方法如下:
其中,k为类标签的数量,Ams表示为第m个区间的第s类样本的数量,Ems为Ams的期望值,表示在第m区间样本数/>Cs表示相邻两个区间的第s类样本个数N表示总的样本数/>b是一个常数;
所述Step3为:分析离散化前各连续特征与因变量特征间的相关性,分析各离散特征与类标签间的信息增益,并对相关性指标、信息增益指标通过数乘的方式进行融合处理,构建特征的相关性权值系数;其中,对因变量特征进行分类形成类标签;
所述Step3具体如下:
Step3.1、分析训练集中的i个连续特征与因变量特征间的相关性,计算方法如下:
其中,λp表示第p个连续特征与因变量特征间的相关系数,Cov(fp,y)表示第p个连续特征fp与因变量特征的协方差,D(fp)表示第p个连续特征fp的标准差,D(y)表示因变量特征的标准差,p=1,2,...i,i表示连续特征的总个数;
Step3.2、分析离散训练集中的i个离散特征和类标签的信息增益,计算方法如下:
IG(D,Aq)=H(D)-H(D|Aq)
其中,
其中,IG(D,Aq)表示第q个离散特征Aq对离散训练集D的信息增益,经验熵H(D)表示为离散训练集D进行分类的不确定性,经验条件熵H(D|Aq)表示第q个离散特征Aq在给定条件下对离散训练集D进行分类的不确定性;Ck表示为第k个类标签,k=1,2…,K,|Ck|表示属于Ck的样本个数,|D|表示离散训练集的样本容量,即样本个数;设离散特征Aq有n个不同的取值{a1,a2,..,an},依据离散特征Aq的取值将离散训练集D划分为n个子集D1,D2……Dn,|Dj|为Dj的样本数;记子集Dj中属于类Ck的样本的集合为Djk,|Djk|表示子集Djk的样本个数,q=1,2,...i,i表示离散特征的总个数且与连续特征的总个数相同;
Step3.3、特征相关性融合,构建特征的相关性权值系数,计算方法如下;
ξr=λpIG(D,Aq),p=q=r
其中,ξr表示第r个离散特征的相关性权值系数,r=1,2,...i,i表示离散特征/连续特征的总个数;
Step3.4、构建特征的权重,计算方法如下;
其中,ωr表示第r个离散特征的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110879527.6A CN113743464B (zh) | 2021-08-02 | 2021-08-02 | 一种连续特征离散化损失信息补偿方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110879527.6A CN113743464B (zh) | 2021-08-02 | 2021-08-02 | 一种连续特征离散化损失信息补偿方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743464A CN113743464A (zh) | 2021-12-03 |
CN113743464B true CN113743464B (zh) | 2023-09-05 |
Family
ID=78729891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110879527.6A Active CN113743464B (zh) | 2021-08-02 | 2021-08-02 | 一种连续特征离散化损失信息补偿方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743464B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005252360A (ja) * | 2004-03-01 | 2005-09-15 | Sony Corp | 動きベクトル検出装置、および動きベクトル検出方法、並びにコンピュータ・プログラム |
CN107909062A (zh) * | 2017-12-11 | 2018-04-13 | 海南大学 | 一种基于信息熵的遥感影像特征离散化方法及系统 |
CN108509935A (zh) * | 2018-04-12 | 2018-09-07 | 电子科技大学 | 一种基于随机森林算法的雷达工作模式识别方法 |
CN111259916A (zh) * | 2020-02-12 | 2020-06-09 | 东华大学 | 一种标签缺失情况下的低秩投影特征提取方法 |
WO2021042556A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | 分类模型训练方法、装置、设备及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7899253B2 (en) * | 2006-09-08 | 2011-03-01 | Mitsubishi Electric Research Laboratories, Inc. | Detecting moving objects in video by classifying on riemannian manifolds |
US8135667B2 (en) * | 2009-12-31 | 2012-03-13 | Teradata Us, Inc. | System, method, and computer-readable medium that facilitate in-database analytics with supervised data discretization |
-
2021
- 2021-08-02 CN CN202110879527.6A patent/CN113743464B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005252360A (ja) * | 2004-03-01 | 2005-09-15 | Sony Corp | 動きベクトル検出装置、および動きベクトル検出方法、並びにコンピュータ・プログラム |
CN107909062A (zh) * | 2017-12-11 | 2018-04-13 | 海南大学 | 一种基于信息熵的遥感影像特征离散化方法及系统 |
CN108509935A (zh) * | 2018-04-12 | 2018-09-07 | 电子科技大学 | 一种基于随机森林算法的雷达工作模式识别方法 |
WO2021042556A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | 分类模型训练方法、装置、设备及计算机可读存储介质 |
CN111259916A (zh) * | 2020-02-12 | 2020-06-09 | 东华大学 | 一种标签缺失情况下的低秩投影特征提取方法 |
Non-Patent Citations (1)
Title |
---|
连续属性离散化的Imp-Chi2算法;桑雨;闫德勤;刘磊;梁宏霞;;计算机工程(第17期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113743464A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199343B (zh) | 一种多模型融合的烟草市场监管异常数据挖掘方法 | |
CN103020978B (zh) | 结合多阈值分割与模糊聚类的sar图像变化检测方法 | |
Yaacob et al. | Predicting student drop-out in higher institution using data mining techniques | |
CN109117883B (zh) | 基于长短时记忆网络的sar影像海冰分类方法及系统 | |
CN110738247B (zh) | 一种基于选择性稀疏采样的细粒度图像分类方法 | |
CN103617435B (zh) | 一种主动学习图像分类方法和系统 | |
CN103473540B (zh) | 智能交通系统车辆轨迹增量式建模与在线异常检测方法 | |
CN111507370A (zh) | 获得自动标注图像中检查标签的样本图像的方法和装置 | |
CN107463993B (zh) | 基于互信息-核主成分分析-Elman网络的中长期径流预报方法 | |
CN112085947A (zh) | 一种基于深度学习和模糊聚类的交通拥堵预测方法 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN110880369A (zh) | 基于径向基函数神经网络的气体标志物检测方法及应用 | |
CN106156805A (zh) | 一种样本标签缺失数据的分类器训练方法 | |
CN107016416B (zh) | 基于邻域粗糙集和pca融合的数据分类预测方法 | |
CN114202671A (zh) | 一种图像预测优化处理方法及装置 | |
CN111105041A (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN104537383A (zh) | 一种基于粒子群的海量组织机构数据分类方法及系统 | |
CN112348750B (zh) | 基于阈值融合和邻域投票的sar图像变化检测方法 | |
CN117372144A (zh) | 应用于小样本场景的风控策略智能化方法及系统 | |
CN113743464B (zh) | 一种连续特征离散化损失信息补偿方法及其应用 | |
ZUBEDI et al. | Implementation of Winsorizing and random oversampling on data containing outliers and unbalanced data with the random forest classification method | |
CN117034110A (zh) | 一种基于深度学习的干细胞外泌体检测方法 | |
CN111026075A (zh) | 一种基于误差匹配的中低压燃气调压器故障检测方法 | |
CN115712777A (zh) | 一种基于逻辑回归的文献推荐系统的排序方法 | |
CN115130599A (zh) | 时间序列gan数据增强下露天矿卡状态识别的半监督方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |