CN108564009A - 一种基于互信息量的改进特征评价方法 - Google Patents

一种基于互信息量的改进特征评价方法 Download PDF

Info

Publication number
CN108564009A
CN108564009A CN201810265014.4A CN201810265014A CN108564009A CN 108564009 A CN108564009 A CN 108564009A CN 201810265014 A CN201810265014 A CN 201810265014A CN 108564009 A CN108564009 A CN 108564009A
Authority
CN
China
Prior art keywords
character subset
feature
mutual information
correlation
redundancy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810265014.4A
Other languages
English (en)
Inventor
张涛
丁碧云
赵鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810265014.4A priority Critical patent/CN108564009A/zh
Publication of CN108564009A publication Critical patent/CN108564009A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Abstract

一种基于互信息量的改进特征评价方法:输入一个特征子集维度为m的数据,每个特征包含有若干个样本;计算特征子集的相关性,即特征子集中所有特征与目标类别标签的互信息量之和;计算特征子集中特征之间的冗余性,即特征子集中所有特征之间的互信息量的平均值;计算特征子集的评估值,即是特征子集的评估值。本发明的一种基于互信息量的改进特征评价方法,针对复杂信号的特征有效性评估问题,结合实际应用,既考虑冗余性又考虑相关性,有效解决了目前已有特征选择评估准则中存在的难以有效衡量特征有效性问题,更高效的完成特征选择任务,最终提高数据挖掘与模式识别的效率。

Description

一种基于互信息量的改进特征评价方法
技术领域
本发明涉及一种特征评价方法。特别是涉及一种针对特征选择中无法高效评估复杂信号特征有效性的基于互信息量的改进特征评价方法。
背景技术
1、特征选择的概念
随着数据采集与存储技术的发展,高维数据广泛存在于自然界,金融学,工业,生物医学等诸多领域,其中在多个特征之间包含复杂的非线性关系。从高维数据中找到潜在的有用信息和建立预测模型已经成为数据挖掘和知识发现的最重要的方面之一。虽然高维数据可以提供丰富的信息,但随着数据集的维数和规模的不断增大,建立精确的预测模型越来越困难。同时,不相关冗余特征的存在很容易掩盖重要特征的影响,对建模有负面影响。因此,针对这些问题,包括特征提取和特征选择在内的降维方法备受关注。
特征选择是从原始数据集中选择一个最优的特征子集的过程。它是模式识别领域的一个关键问题,被广泛应用于处理高维数据集。一个典型的特征选择方法包括四个基本步骤,它的过程被分为:生成过程,评估函数,停止准则和验证过程。生成过程是一个搜索过程,评估函数是评估正在检查的子集,停止准则是决定特征选择何时停止,验证过程是检查子集是否有效。目前对特征选择方法的研究主要集中于搜索策略和评价准则。
2、评价准则
评价准则是定义一个适当的评估函数来为一组特征进行评分,用于衡量特征区分不同类别标签的识别能力。根据评估标准,所有特征选择方法可以分为两大类:过滤式(Filter)和封装式(Wrapper)。过滤式利用独立的评价准则在给定分类器的学习过程被执行之前选择特征的适当子集。过滤式的评价准则可以分为四类:距离,信息,依赖性和一致性。封装式使用给定分类器(即分类器错误率度量)的性能作为评估指标。过滤式选择算法在计算上比封装式更有效率,因为它们使用可快速测试的评价准则来衡量所选特征的有效性。此外,一个有效的过滤式可以获得适合不同学习算法的特征子集。然而,这也可能导致非最佳的特征子集,特别是当特征依赖于分类器时。封装式虽然可以获得较好的性能,但是算法本身效率较低,并容易出现过拟合现象。因此在需要处理大数据集的实际应用中,常用过滤式特征选择来选取合适的特征子集。在过滤式特征选择中,由于互信息量能在没有先验知识情况下测量特征间的线性和非线性依赖关系,其在特征选择问题中得到了广泛的应用。因此互信息量常作为特征子集好坏的评价准则。
互信息(Mutual Information,MI)是信息论中的一个基本概念,它表示了两个离散变量之间拥有共同信息的含量,可以用于评估这两个变量之间的相似程度和依赖关系。对于两个离散变量X和Y,假设它们的边缘概率分布为p(x)和p(y),则可以通过下面的公式计算它们之间的互信息I(X;Y):
其中,p(x,y)是x和y的联合概率分布。通常情况下,都是通过信息熵来计算两个变量之间的互信息,计算公式如下:
I(X;Y)=H(X)-H(X|Y)
其中,H(X)表示变量X的信息熵,它的计算公式如下:
H(X|Y)表示X关于Y的条件熵,它的计算公式如下:
互信息可以用于表示两个变量之间的依赖程度,当X和Y完全独立时,它们之间的互信息值为0,当X和Y之间的相似程度越大,互信息的值就越大。
数据一般存在强相关、弱相关和无关三种特征,除此之外特征之间也存在相关性,这些特征称为冗余特征。特征选择的目的就是要搜索出具有强相关性和具有弱相关性但是无冗余的特征。因此实现最大相关性和最小冗余的特征选择是一种有效的方法,此处的相关性和冗余性分别用特征与目标类别标签相关性和特征间相关性表示。由于互信息可以表示两个变量之间的相似程度,所以可以用于衡量相关性和冗余性的标准。目前基于互信息量的特征选择算法包括BIF、MIFS、MIFSU和mRMR等。
3、最小冗余最大相关性(mRMR)
最小冗余最大相关性(mRMR)是基于互信息量的标准,通过消除不相关和冗余的特征来选择所有的特征。最小冗余最大相关度(mRMR)评估准则,如下所示:
φ=D(S;L)-R
此处D(S,L)表示特征子集S与目标类别标签相关性,R表示特征子集S中特征间的冗余性,|S|是特征子集S的维度,Si和Sj分别表示第i和第j个特征,L表示目标类别标签,I(Si|L)表示该第i个特征和目标类别标签的互信息量,I(Si|Sj)表示第i个特征和第j个特征之间的互信息量。φ的值越大,说明这个特征子集中的特征与目标类别标签相似度高且内部之间的相似度低,φ就是特征选择中其中一种评价准则。
目前已有的基于互信息量的评价准则在实际应用中存在无法高效评估复杂信号特征有效性。
发明内容
本发明所要解决的技术问题是,提供一种能够有效提升特征选择效率的基于互信息量的改进特征评价方法。
本发明所采用的技术方案是:一种基于互信息量的改进特征评价方法,包括如下步骤:
1)输入一个特征子集维度为m的数据,每个特征包含有若干个样本;
2)计算特征子集的相关性,即特征子集中所有特征与目标类别标签的互信息量之和,用D(S,L)表示,公式如下:
D(S,L)=∑I(Si;L)
Si表示特征子集中第i个特征,L表示目标类别标签,I(Si;L)表示特征子集中的第i个特征和目标类别标签的互信息量;
3)计算特征子集中特征之间的冗余性,即特征子集中所有特征之间的互信息量的平均值,用R表示,公式如下:
Si和Sj分别表示特征子集中的第i和第j个特征,I(Si;Sj)表示特征子集中的第i个特征和第j个特征之间的互信息量;
4)计算特征子集的评估值Eva
Eva=D(S,L)-R
其中,Eva是特征子集的相关性与冗余性的差值,这个值越大,说明对应的特征子集中的特征与目标类别标签相关性高,且特征子集中特征之间的相关性低,这个评估准则能够同时排除无关特征和冗余特征,最终计算的Eva的值就是特征子集的评估值。
本发明的一种基于互信息量的改进特征评价方法,针对复杂信号的特征有效性评估问题,结合实际应用,既考虑冗余性又考虑相关性,有效解决了目前已有特征选择评估准则中存在的难以有效衡量特征有效性问题,更高效的完成特征选择任务,最终提高数据挖掘与模式识别的效率。
具体实施方式
下面结合实施例对本发明的一种基于互信息量的改进特征评价方法做出详细说明。
本发明的一种基于互信息量的改进特征评价方法,包括如下步骤:
1)输入一个特征子集维度为m的数据,每个特征包含有若干个样本;
2)计算特征子集的相关性,即特征子集中所有特征与目标类别标签的互信息量之和,用D(S,L)表示,公式如下:
D(S,L)=∑I(Si;L)
Si表示特征子集中第i个特征,L表示目标类别标签,I(Si;L)表示特征子集中的第i个特征和目标类别标签的互信息量;
3)计算特征子集中特征之间的冗余性,即特征子集中所有特征之间的互信息量的平均值,用R表示,公式如下:
Si和Sj分别表示特征子集中的第i和第j个特征,I(Si;Sj)表示特征子集中的第i个特征和第j个特征之间的互信息量;
4)计算特征子集的评估值Eva
Eva=D(S,L)-R
其中,Eva是特征子集的相关性与冗余性的差值,这个值越大,说明对应的特征子集中的特征与目标类别标签相关性高,且特征子集中特征之间的相关性低,这个评估准则能够同时排除无关特征和冗余特征,最终计算的Eva的值就是特征子集的评估值。
下面给出具体实例:
1)若给定一个维度为5的特征子集,其中每个特征包含10样本,此时特征子集S={S1,S2,S3,S4,S5},数据如下:
特征子集的数据为:
若数据的类别标签L=[1 1 1 1 1 0 0 0 0 0]';
2)计算特征子集的相关性D(S,L)为:
D(S,L)=I(S1;L)+I(S2;L)+I(S3;L)+I(S4;L)+I(S5;L)
≈0.3377+0.5+0.3377+0.1979+0.3195
=1.6929
3)计算特征子集中特征之间的冗余性R为:
4)计算特征子集的评估值Eva为:
Eva=D(S,L)-R=1.2437
由上计算可得特征子集S={S1,S2,S3,S4,S5}的评估值为1.2437。

Claims (1)

1.一种基于互信息量的改进特征评价方法,其特征在于,包括如下步骤:
1)输入一个特征子集维度为m的数据,每个特征包含有若干个样本;
2)计算特征子集的相关性,即特征子集中所有特征与目标类别标签的互信息量之和,用D(S,L)表示,公式如下:
D(S,L)=∑I(Si;L)
Si表示特征子集中第i个特征,L表示目标类别标签,I(Si;L)表示特征子集中的第i个特征和目标类别标签的互信息量;
3)计算特征子集中特征之间的冗余性,即特征子集中所有特征之间的互信息量的平均值,用R表示,公式如下:
Si和Sj分别表示特征子集中的第i和第j个特征,I(Si;Sj)表示特征子集中的第i个特征和第j个特征之间的互信息量;
4)计算特征子集的评估值Eva
Eva=D(S,L)-R
其中,Eva是特征子集的相关性与冗余性的差值,这个值越大,说明对应的特征子集中的特征与目标类别标签相关性高,且特征子集中特征之间的相关性低,这个评估准则能够同时排除无关特征和冗余特征,最终计算的Eva的值就是特征子集的评估值。
CN201810265014.4A 2018-03-28 2018-03-28 一种基于互信息量的改进特征评价方法 Pending CN108564009A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810265014.4A CN108564009A (zh) 2018-03-28 2018-03-28 一种基于互信息量的改进特征评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810265014.4A CN108564009A (zh) 2018-03-28 2018-03-28 一种基于互信息量的改进特征评价方法

Publications (1)

Publication Number Publication Date
CN108564009A true CN108564009A (zh) 2018-09-21

Family

ID=63533129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810265014.4A Pending CN108564009A (zh) 2018-03-28 2018-03-28 一种基于互信息量的改进特征评价方法

Country Status (1)

Country Link
CN (1) CN108564009A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522830A (zh) * 2018-11-06 2019-03-26 哈尔滨工程大学 一种面向海底底质分类的声纳图像特征选择的方法
CN110378229A (zh) * 2019-06-19 2019-10-25 浙江大学 一种基于filter–wrapper框架的电子鼻数据特征选择方法
CN111860894A (zh) * 2020-07-29 2020-10-30 宁波大学 斜拉桥病害属性选择方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522830A (zh) * 2018-11-06 2019-03-26 哈尔滨工程大学 一种面向海底底质分类的声纳图像特征选择的方法
CN110378229A (zh) * 2019-06-19 2019-10-25 浙江大学 一种基于filter–wrapper框架的电子鼻数据特征选择方法
CN110378229B (zh) * 2019-06-19 2021-07-13 浙江大学 一种基于filter–wrapper框架的电子鼻数据特征选择方法
CN111860894A (zh) * 2020-07-29 2020-10-30 宁波大学 斜拉桥病害属性选择方法
CN111860894B (zh) * 2020-07-29 2024-01-09 宁波大学 斜拉桥病害属性选择方法

Similar Documents

Publication Publication Date Title
CN112766379B (zh) 一种基于深度学习多权重损失函数的数据均衡方法
CN109977780A (zh) 一种基于深度学习算法的硅藻的检测与识别方法
Ananey-Obiri et al. Predicting the presence of heart diseases using comparative data mining and machine learning algorithms
Jiang et al. A machine vision-based realtime anomaly detection method for industrial products using deep learning
CN109919934A (zh) 一种基于多源域深度迁移学习的液晶面板缺陷检测方法
CN108564009A (zh) 一种基于互信息量的改进特征评价方法
CN110334594A (zh) 一种基于批再规范化处理的yolo算法的目标检测方法
CN105938523A (zh) 一种基于特征辨识度和独立性的特征选择方法及应用
CN108877947A (zh) 基于迭代均值聚类的深度样本学习方法
CN109145971A (zh) 基于改进匹配网络模型的单样本学习方法
CN113191359B (zh) 基于支持与查询样本的小样本目标检测方法与系统
CN105205349B (zh) 马尔科夫毯嵌入式的基于封装的基因选择方法
CN109948675A (zh) 基于前哨多种群机制果蝇优化算法来构建预测模型的方法
Hajiagha et al. Fuzzy C-means based data envelopment analysis for mitigating the impact of units’ heterogeneity
Rethik et al. Attention Based Mapping for Plants Leaf to Classify Diseases using Vision Transformer
CN109191452B (zh) 一种基于主动学习的腹腔ct图像腹膜转移自动标记方法
CN117058534A (zh) 基于元知识适应迁移网络的少样本遥感图像目标检测方法
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
CN109886288A (zh) 一种用于电力变压器的状态评价方法及装置
CN115310606A (zh) 基于数据集敏感属性重构的深度学习模型去偏方法及装置
CN109271902A (zh) 复杂背景下基于时域经验模态分解的红外弱小目标检测方法
CN115424000A (zh) 一种指针式仪表识别方法、系统、设备及存储介质
Li et al. A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection
Chan et al. An automatic indirect immunofluorescence cell segmentation system
Yang et al. Efficient pattern unmixing of multiplex proteins based on variable weighting of texture descriptors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921

RJ01 Rejection of invention patent application after publication