CN112463894A - 一种基于条件互信息和交互信息的多标签特征选择方法 - Google Patents
一种基于条件互信息和交互信息的多标签特征选择方法 Download PDFInfo
- Publication number
- CN112463894A CN112463894A CN202011352442.4A CN202011352442A CN112463894A CN 112463894 A CN112463894 A CN 112463894A CN 202011352442 A CN202011352442 A CN 202011352442A CN 112463894 A CN112463894 A CN 112463894A
- Authority
- CN
- China
- Prior art keywords
- feature
- label
- mlknn
- features
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于条件互信息和交互信息的多标签特征选择方法。本发明基于条件互信息重新定义特征相关项将已选特征的条件互信息纳入进来。又从特征交互的角度定义标签之间的冗余,将其纳入冗余项,定义了一个多标签特征选择算法,有效地选择特征子集,提高多标签分类模型的性能。其中,所述发明包括:对多标签数据集进行预处理,其中包括缺失值填充,数据离散化等;利用多标签特征选择算法MCIMII对处理过的数据集进行特征筛选,得到筛选后的特征集。将得到的特征数据集输入到MLKNN模型中,得到数据集优化后的MLKNN模型。
Description
技术领域
本发明属于机器学习与模式识别领域,具体涉及一种基于条件互信息和交互信息的多标签特征选择方法。
背景技术
在传统的监督学习任务中,每个样本被默认为只包含一种分类标签。然而,这样的假设往往与现实世界的真实情况不符,例如,在图片分类任务中,一张风景图片往往同时包含“花”“鸟”“树”等景物,由此可见,使用单一标签无法充分表达其信息,同样使用传统的单标签分类方法将很难对这种情况进行准确的分类,多标签分类应运而生,并在文本分类、音乐分类以及基因功能预测等领域取得了出色的成果。
随着多标签算法的广泛应用,多标签特征选择算法也激发人们的热情,使其被发展用于降维和提高分类性能。因为和传统的监督学习一样,多标签学习也存在着高维的数据,数据中存在着大量无关特征和冗余特征,降低多标签模型的准确性,浪费了模型的时间和空间。于是多标签特征选择就显得十分重要。
国内外现在有关多标签特征选择主要分成两个策略。一个是问题转化,将多标签数据集转化成单标签数据集,然后使用传统的单标签特征选择算法,选择一个特征子集。这个方面往往没有考虑到标签和标签之间的分类信息,所以效果不是很好。另一个策略就是算法适应,提出一个符合多标签数据集特征选择算法,直接进行选出特征子集。
发明内容
本发明针对现有技术的不足,提出一种基于条件互信息和交互信息的多标签特征选择方法。
本发明包括以下步骤:
步骤1:给定多标签数据样本的集合M和指定特征子集维度K,其中集合M含有p个特征,q个标签。
步骤2:对所给的集合M进行预处理,包括缺失值填充和连续特征的离散化。然后按照训练集Train与测试集Test为3:1的比例,将集合M划分成两个部分。此时,已选特征集合S为空,候选特征集合J的元素为训练集Train中p个特征。
步骤3:给出多标签特征选择算法J(xk);
其中xk表示候选特征,xj表示已选特征,yi表示标签,S是已选特征的集合,Y是标签的集合,J(xk)表示候选特征在此算法下的得分,I(xk;yi|xj)表示在给定xj条件下,xk和yi的相关性,I(xj;yi|xk)表示在给定xk条件下,xj和yi的相关性,I(xk;yi;yj)表示xk、yj和yi的相关性。
步骤4:对候选特征集合J中所有的特征使用多标签特征选择算法进行评价。候选特征集合J中的每个候选特征都有属于自己的一个分数,选择得分最高的特征,将其索引加入到已选特征集合S中,同时在候选集合J中移除该特征,更新多标签特征选择算法。
步骤5:如果已选特征集合中元素个数等于最开始指定特征子集的维度K,则停止。否则不断重复步骤4。
步骤6:已选特征集合中的元素就是集合J中特征的索引,然后根据这些索引构建一个特征子集MM。
步骤7:将构造好的特征子集输入到MLKNN模型中,由特征子集训练得到MLKNN模型MLKNN_mm。
本发明的有益效果:本发明基于条件互信息重新定义特征相关项,将已选特征的条件互信息纳入进来;又从特征交互的角度定义标签之间的冗余,将其纳入冗余项,定义了一个名为多标签特征选择算法,有效地选择特征子集,提高多标签分类模型的性能。
附图说明
图1为发明整体流程图;
图2为多标签特征选择方法进行多标签特征选择过程图。
具体实施方式
本发明所采用的技术方案步骤如下:
步骤1:给定多标签数据样本的集合M和指定特征子集维度K,其中集合M含有p个特征,q个标签。
步骤2:对所给的集合M进行预处理,包括缺失值填充和连续特征的离散化。然后按照训练集Train与测试集Test为3:1的比例,将集合M划分成两个部分。此时,已选特征集合S为空,候选特征集合J的元素为训练集Train中p个特征。
步骤3:给出多标签特征选择算法J(xk)—Maximum Conditional InteractionMinimum Information Interaction(MCIMII);
在这里xk表示候选特征,xj表示已选特征,yi表示标签,S是已选特征的集合,Y是标签的集合,J(xk)表示候选特征在此算法下的得分,I(xk;yi|xj)表示在给定xj条件下,xk和yi的相关性,I(xj;yi|xk)表示在给定xk条件下,xj和yi的相关性,I(xk;yi;yj)表示xk、yj和yi的相关性。
步骤4:对候选特征集合J中所有的特征使用多标签特征选择算法进行评价。候选特征集合J中的每个候选特征都有属于自己的一个分数,选择得分最高的特征,将其索引加入到已选特征集合S中,同时在候选集合J中移除该特征,更新多标签特征选择算法。
步骤5:如果已选特征集合中元素个数等于最开始指定特征子集的维度K,则停止。否则不断重复步骤4。
步骤6:已选特征集合中的元素就是集合J中特征的索引,然后根据这些索引构建一个特征子集MM。
步骤7:将构造好的特征子集输入到Multi-Label k-Nearest Neighbor(MLKNN)模型中,由特征子集训练得到MLKNN模型MLKNN_mm。
步骤2中,缺失值填充和特征离散化具体是:
所述缺失值填充是对每一列的缺失值,填充当列的众数。
所述特征离散化是将特征的取值范围等间隔分割,从最小值到最大值之间,均分N等份。
当存在某列缺失值过多,众数为nan的情况时,采取的策略是每列删除掉nan值后的众数。
步骤3中,给出多标签特征选择算法的步骤包括:
信息熵是表示集合中的混乱程度,其中log是对数函数,一般以2为底
条件熵表示已知集合y,求x的混乱程度,其中p(xi,yi)表示联合概率,p(xi|yi)表示条件概率。
互信息:I(x;y)=H(x)-H(x|y)
互信息表示两个随机变量之间的相关程度。
条件互信息:I(x;y|z)=H(x|z)+H(y|z)-H(x,y|z)
条件互信息表示在给定z条件下,随机变量x和y的相关性。
特征交互:I(x;y;z)=I(x;z)-I(x;z|y)
特征交互表示三个随机变量之间的相关性。
给出多标签特征选择算法J(xk);
步骤7中,训练MLKNN分类器的步骤包括:
新产生的特征子集MM输入MLKNN模型中,此时MLKNN模型的参数k的个数为10,其他参数保持默认,最终的得到优化的MLKNN模型。
实施例:
首先观察数据集,Emotions数据集是一个比较典型的多标签数据集。其根据Tellegen-Watson-Clark的情绪模型,将音乐唤起的情绪进行分类:惊讶-惊奇、高兴-愉悦、放松-平静、安静-静止、悲伤-孤独和愤怒-怨恨。它由593首歌曲组成,共有6个等级。即Emotions数据集有593个实例,标签有6个。且Emotions数据集特征数目是72个。
根据图1发明整体流程图和图2MCIMII算法进行多标签特征选择过程图的步骤。可知此时输入的集合M为Emotions,输入的特征子集维度K为35。之后,通过MCIMII算法得到的特征集合为:{4,28,49,3,17,58,26,39,23,57,0,71,1,25,40,22,53,38,46,5,16,60,56,24,36,52,30,61,55,35,44,21,70,51},然后根据已选特征集合创建特征子集mm,最后由特征子集mm来训练MLKNN分类器模型,得到模型MLKNN_mm。
使用Hamming Loss、Ranking Loss、Coverage Error和Average Precision等作为评判多标签分类模型的标准。接下来做对比实验,用训练集Train直接来训练MLKNN模型,不经过MCIMII特征选择,得到模型MKLNN_Train。代入测试集Test,得到MLKNN_Train模型的四个指标。将以上数据汇聚成表格如下:
表1特征子集mm与全部特征数据集Emotions四种指标对比
表1中Average Precision指标是越大越好,而Coverage Error、Hamming Loss和Ranking Loss这三者的指标是越小越好。实验结果表明MLKNN_mm分类器在多种指标上均比MLKNN_Train分类器要好。这表明了MCIMII多标签特征选择算法,可以有效地提高多标签分类模型的性能。
Claims (4)
1.一种基于条件互信息和交互信息的多标签特征选择方法,其特征在于该方法包括以下步骤:
步骤1:给定多标签数据样本的集合M和指定特征子集维度K,其中集合M含有p个特征,q个标签;
步骤2:对所给的集合M进行预处理,包括缺失值填充和连续特征的离散化;然后按照训练集Train与测试集Test为3:1的比例,将集合M划分成两个部分;此时,已选特征集合S为空,候选特征集合J的元素为训练集Train中p个特征;
步骤3:给出多标签特征选择算法J(xk);
其中xk表示候选特征,xj表示已选特征,yi表示标签,S是已选特征的集合,Y是标签的集合,J(xk)表示候选特征在此算法下的得分,I(xk;yi|xj)表示在给定xj条件下,xk和yi的相关性,I(xj;yi|xk)表示在给定xk条件下,xj和yi的相关性,Ixk;yi;yj)表示xk、yj和yi的相关性;
步骤4:对候选特征集合J中所有的特征使用多标签特征选择算法进行评价;候选特征集合J中的每个候选特征都有属于自己的一个分数,选择得分最高的特征,将其索引加入到已选特征集合S中,同时在候选集合J中移除该特征,更新多标签特征选择算法;
步骤5:如果已选特征集合中元素个数等于最开始指定特征子集的维度K,则停止;否则不断重复步骤4;
步骤6:已选特征集合中的元素就是集合J中特征的索引,然后根据这些索引构建一个特征子集MM;
步骤7:将构造好的特征子集输入到MLKNN模型中,由特征子集训练得到MLKNN模型MLKNN_mm。
2.根据权利要求1所述的一种基于条件互信息和交互信息的多标签特征选择方法,其特征在于,步骤2中,缺失值填充和特征离散化具体是:
所述缺失值填充是对每一列的缺失值,填充当列的众数;
所述特征离散化是将特征的取值范围等间隔分割,从最小值到最大值之间,均分N等份。
3.根据权利要求2所述的一种基于条件互信息和交互信息的多标签特征选择方法,其特征在于,当存在某列缺失值过多,众数为nan的情况时,采取的策略是每列删除掉nan值后的众数。
4.根据权利要求1所述的一种基于条件互信息和交互信息的多标签特征选择方法,其特征在于,步骤7中,训练MLKNN分类器的步骤包括:
新产生的特征子集MM输入MLKNN模型中,此时MLKNN模型的参数k的个数为10,其他参数保持默认,最终的得到优化的MLKNN模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011352442.4A CN112463894B (zh) | 2020-11-26 | 2020-11-26 | 一种基于条件互信息和交互信息的多标签特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011352442.4A CN112463894B (zh) | 2020-11-26 | 2020-11-26 | 一种基于条件互信息和交互信息的多标签特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112463894A true CN112463894A (zh) | 2021-03-09 |
CN112463894B CN112463894B (zh) | 2022-05-31 |
Family
ID=74808712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011352442.4A Active CN112463894B (zh) | 2020-11-26 | 2020-11-26 | 一种基于条件互信息和交互信息的多标签特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463894B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091607A (zh) * | 2021-11-24 | 2022-02-25 | 燕山大学 | 一种基于邻域粗糙集的半监督多标签在线流特征选择算法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
CN110009014A (zh) * | 2019-03-24 | 2019-07-12 | 北京工业大学 | 一种融合相关系数与互信息的特征选择方法 |
CN110781295A (zh) * | 2019-09-09 | 2020-02-11 | 河南师范大学 | 一种多标记数据的特征选择方法及装置 |
CN111275127A (zh) * | 2020-02-13 | 2020-06-12 | 西安理工大学 | 基于条件互信息的动态特征选择方法 |
CN111553127A (zh) * | 2020-04-03 | 2020-08-18 | 河南师范大学 | 一种多标记的文本类数据特征选择方法及装置 |
-
2020
- 2020-11-26 CN CN202011352442.4A patent/CN112463894B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
CN110009014A (zh) * | 2019-03-24 | 2019-07-12 | 北京工业大学 | 一种融合相关系数与互信息的特征选择方法 |
CN110781295A (zh) * | 2019-09-09 | 2020-02-11 | 河南师范大学 | 一种多标记数据的特征选择方法及装置 |
CN111275127A (zh) * | 2020-02-13 | 2020-06-12 | 西安理工大学 | 基于条件互信息的动态特征选择方法 |
CN111553127A (zh) * | 2020-04-03 | 2020-08-18 | 河南师范大学 | 一种多标记的文本类数据特征选择方法及装置 |
Non-Patent Citations (2)
Title |
---|
HYUNKI LIM等: "MFC Initialization method for multi-label feature selection based on conditional mutual information", 《NEUROCOMPUTING》 * |
程玉胜等: "基于专家特征的条件互信息多标记特征选择算法", 《计算机应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091607A (zh) * | 2021-11-24 | 2022-02-25 | 燕山大学 | 一种基于邻域粗糙集的半监督多标签在线流特征选择算法 |
CN114091607B (zh) * | 2021-11-24 | 2024-05-03 | 燕山大学 | 一种基于邻域粗糙集的半监督多标签在线流特征选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112463894B (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103649905B (zh) | 用于统一信息表示的方法和系统及其应用 | |
Yu et al. | Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop | |
Moosmann et al. | Randomized clustering forests for image classification | |
He et al. | Learning a semantic space from user's relevance feedback for image retrieval | |
Xiang et al. | Fabric image retrieval system using hierarchical search based on deep convolutional neural network | |
CN108984642B (zh) | 一种基于哈希编码的印花织物图像检索方法 | |
Arevalillo-Herráez et al. | Distance-based relevance feedback using a hybrid interactive genetic algorithm for image retrieval | |
CN113971209B (zh) | 一种基于注意力机制增强的无监督跨模态检索方法 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN110647907A (zh) | 利用多层分类和字典学习的多标签图像分类算法 | |
CN111080551B (zh) | 基于深度卷积特征和语义近邻的多标签图像补全方法 | |
Nunthanid et al. | Parameter-free motif discovery for time series data | |
CN110909785B (zh) | 基于语义层级的多任务Triplet损失函数学习方法 | |
CN111797267A (zh) | 一种医学图像检索方法及系统、电子设备、存储介质 | |
Zeng et al. | Pyramid hybrid pooling quantization for efficient fine-grained image retrieval | |
CN110347821B (zh) | 一种文本类别标注的方法、电子设备和可读存储介质 | |
CN112463894B (zh) | 一种基于条件互信息和交互信息的多标签特征选择方法 | |
Hamreras et al. | Content based image retrieval by convolutional neural networks | |
Li et al. | Bi-CMR: Bidirectional reinforcement guided hashing for effective cross-modal retrieval | |
Zheng et al. | Improving the performance of feature selection methods with low-sample-size data | |
CN113076490A (zh) | 一种基于混合节点图的涉案微博对象级情感分类方法 | |
Zhang et al. | Sequential learning for ingredient recognition from images | |
Prasomphan | Toward Fine-grained Image Retrieval with Adaptive Deep Learning for Cultural Heritage Image. | |
Pourhabibi et al. | Feature selection on Persian fonts: a comparative analysis on GAA, GESA and GA | |
Budnik et al. | Learned features versus engineered features for semantic video indexing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |