CN112766383A - 一种基于特征聚类和标签相似性的标签增强方法 - Google Patents
一种基于特征聚类和标签相似性的标签增强方法 Download PDFInfo
- Publication number
- CN112766383A CN112766383A CN202110088305.2A CN202110088305A CN112766383A CN 112766383 A CN112766383 A CN 112766383A CN 202110088305 A CN202110088305 A CN 202110088305A CN 112766383 A CN112766383 A CN 112766383A
- Authority
- CN
- China
- Prior art keywords
- label
- sample
- similarity
- method based
- feature clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000009826 distribution Methods 0.000 claims abstract description 23
- 238000010606 normalization Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于特征聚类和标签相似性的新型标签增强方法。本发明采用的方法如下:给定多标签样本的集合M,将集合M分成两部分,一部分是表示特征的集合F,另一部分表示标签的集合L;先对集合M进行预处理,主要包括数据缺失值处理、数据归一化;通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S;确定邻近样本集合S之后,通过标签权重的方法将样本a的标签从多标签数据状态,转化成标签分布的标签描述度;需要对所有的样本基于特征聚类和标签相似性的方法和标签权重的方法,得到标签分布的集合D。本发明简单高效,结合特征信息和标签信息,能有效地将多标签数据集转成标签分布数据集。
Description
技术领域
本发明属于机器学习与模式识别领域,涉及多标签分类学习和标签分布学习,具体涉及一种基于特征聚类和标签相似性的标签增强方法。
背景技术
对比于单标签学习和多标签学习,标签分布学习则更加精确。单标签学习往往只有一个标签,只能将一个实例简单地映射到一个单一的逻辑标签,在实践中存在局限性。而多标签学习解决了这个问题,在多标签学习中,每个样本由一个标签向量描述,其中的元素为1或0,以证明该实例是否属于相应的标签。尽管多标签学习在许多地方上取得了成功,但是在一些复杂的场景中,例如面部表情识别和图片美学评估等,原始多标签学习的性能受到阻碍,因为模型精确地将实例映射到具有定量描述度的实值标签向量,即标签分布,在这些任务中是必需的。并且在多标签学习中标签对实例的描述具有不同的重要性,而且多标签学习中标签之间的重要性不完全相等。于是乎,标签分布学习就应运而生。标签分布学习是多标签学习的自然延伸。不同于传统的多标签学习来决定简单的0/1标签归属,标签分布学习输出一个软标签归属。此外,每个标签描述实例的程度由一个标签分布的相应值表示,称为描述度,且一个样本的所有描述度加起来的和等于1。
然而,标签分布数据集由于手工标注的原因,而极为稀少。于此相对的,多标签数据集较为丰富。因此我们考虑一种基于特征聚类和标签相似性的方法将多标签数据集转成标签分布数据集。
发明内容
本发明针对现有技术的不足,提出了一种基于特征聚类和标签相似性的新型标签增强方法。
本发明解决其技术问题所采用的技术方案具体步骤如下:
步骤1:给定多标签样本的集合M,将集合M分成两部分,一部分是表示特征的集合F,另一部分表示标签的集合L。
步骤2:对集合M进行预处理,主要包括数据缺失值处理、数据归一化。
步骤3:通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S。
步骤4:确定邻近样本集合S之后,通过标签权重的方法将样本a的标签从多标签数据状态,转化成标签分布的标签描述度。
步骤5:对所有的样本重复步骤3和4,得到标签分布的集合D。
本发明的有益效果:本发明简单高效,结合特征信息和标签信息,能有效地将多标签数据集转成标签分布数据集。
附图说明
图1为本发明方法流程图。
具体实施方式
以下结合附图1对本发明做一步说明。
如图1所示,本发明包括以下步骤:
步骤1:给定多标签样本的集合M,将集合M分成两个部分,一个是表示特征的集合F,另一个表示标签的集合L。对于每个实例来说有p个特征,q个标签。
步骤2:对集合M进行预处理操作,主要包括数据缺失值处理、数据归一化等。
步骤3:通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S。
步骤4:确定邻近样本集合S之后,通过名为标签权重(LabelWeight)的方法将样本a的标签从多标签数据状态,转化成标签分布的标签描述度。
步骤5:对所有的样本重复步骤3和4,得到标签分布的集合D,任务完成。
进一步的,步骤2中,数据缺失值处理和数据归一化的具体做法是:
所述缺失值填充是对每一列的缺失值,填充当列的众数。
所述数据归一化是将数据映射到指定的范围,如:把数据映射到[0-1]的范围之内处理。作用是把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。经过归一化后,将有量纲的数据,还可以达到简化计算的作用。这里的方法是:采用min-max标准化(Min-Max Normalization)对原始数据进行线性变换,使结果值映射到[0-1]之间。转换函数如下:
进一步的,步骤3中,所述基于特征聚类和标签相似性的方法找到样本a的邻近样本的具体做法是:
通过计算特征聚类得到集合S1,通过计算标签相似性得到集合S2;将在集合S1和集合S2都出现的样本添加到邻近样本集合S中。
所述的特征聚类是指计算样本a的特征与其它样本的特征之间的距离,如果某个样本b的特征与样本a的特征之间的距离小于阈值,将样本b的序号加入到集合S1中。
距离公式如下:
其中取k=2,即欧式距离,ai、bi表示样本a、样本b的特征,p表示特征的个数。
所述的标签相似性是指样本a的标签与其它样本的标签之间的相似性,如果某个样本b的标签与样本a的标签之间的距离大于阈值,将样本b的序号加入到集合S2中。
这里样本标签之间的相似性采用杰卡德系数,其值越大相似性越高。其含义为:样本a的标签A和样板b的标签B交集元素的个数在标签A、B的并集中所占的比例,用符号J(A,B)表示。具体公式如下:
进一步的,步骤4中,标签权重(LabelWeight)方法具体做法是:
根据邻近样本集合S中所有样本的标签来构建矩阵;
统计矩阵中所有标签为1的个数,记为X;
统计矩阵每一列标签为1的个数,使用向量表示为:Y={y1,y2,…,yq};
对标签A进行权重化,得到Z:
采用以下方法对Z进行归一化:
其中,q表示标签的个数,得到的LD就是样本a的标签分布的标签描述度。
实施例:
步骤1:给定一个多标签数据集合R。
步骤2:集合R经过数据预处理后,有10个样本,10个特征和6个标签。具体如表1所示。
表1多标签数据集
步骤3:求样本1的邻近样本集合,设置特征聚类的阈值是1.6,标签相似度的阈值是0.3。
根据特征聚类之间的距离公式:
可以计算出与样本1特征距离小于1.6的样本集合S1={1,9,5,2,6,10,8}。
根据标签相似性公式:
可以计算出与样本1标签相似性大于0.3的样本集合S2={1,10,4,5,6}。
根据S1和S2,可以算出既在集合S1出现又在集合S2中出现的邻近样本的集合S={1,5,6,10}。
步骤4:根据邻近样本集合S的标签,可以构建一个相似标签矩阵如表2所示。
表2相似标签矩阵
L1 | L2 | L3 | L4 | L5 | L6 | |
1 | 0 | 1 | 1 | 0 | 1 | 1 |
5 | 0 | 0 | 1 | 1 | 1 | 1 |
6 | 0 | 0 | 0 | 0 | 1 | 0 |
10 | 0 | 0 | 1 | 0 | 0 | 1 |
由此,可以计算出所有标签为1的个数X=11,而Y={0,1,3,1,3,3}。由此可以计算出:
结合样本1的标签A={0,1,1,0,1,1},最终可以计算得到样本1的标签分布的标签描述度LD={0,0.1,0.3,0,0.3,0.3}。
步骤5:重复步骤3和步骤4,直到遍历完所有的样本。表3就是得到的所有样本标签分布的标签描述度。
表3最终结果
0 | 1 | 2 | 3 | 4 | 5 | |
1 | 0.000 | 0.100 | 0.300 | 0.000 | 0.300 | 0.300 |
2 | 0.267 | 0.200 | 0.200 | 0.200 | 0.000 | 0.133 |
3 | 0.200 | 0.200 | 0.000 | 0.200 | 0.200 | 0.200 |
4 | 0.000 | 0.250 | 0.250 | 0.250 | 0.250 | 0.000 |
5 | 0.000 | 0.000 | 0.300 | 0.100 | 0.300 | 0.300 |
6 | 0.000 | 0.000 | 0.000 | 0.000 | 1.000 | 0.000 |
7 | 0.222 | 0.222 | 0.222 | 0.222 | 0.111 | 0.000 |
8 | 0.154 | 0.231 | 0.231 | 0.231 | 0.154 | 0.000 |
9 | 0.400 | 0.000 | 0.000 | 0.000 | 0.000 | 0.600 |
10 | 0.000 | 0.000 | 0.429 | 0.000 | 0.000 | 0.571 |
Claims (6)
1.一种基于特征聚类和标签相似性的标签增强方法,其特征在于该方法包括以下步骤:
步骤1:给定多标签样本的集合M,将集合M分成两部分,一部分是表示特征的集合F,另一部分表示标签的集合L;
步骤2:对集合M进行预处理,主要包括数据缺失值处理、数据归一化;
步骤3:通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S;
步骤4:确定邻近样本集合S之后,通过标签权重的方法将样本a的标签从多标签数据状态,转化成标签分布的标签描述度;
步骤5:对所有的样本重复步骤3和4,得到标签分布的集合D。
2.根据权利要求1所述的一种基于特征聚类和标签相似性的标签增强方法,其特征在于:步骤2中,数据缺失值处理和数据归一化具体是:
所述数据缺失值处理采用缺失值填充,所述缺失值填充是对每一列的缺失值填充当列的众数;
所述数据归一化是将数据映射到指定的范围,具体是对原始数据线性变换,使结果值映射到[0-1]之间。
3.根据权利要求1所述的一种基于特征聚类和标签相似性的标签增强方法,其特征在于:步骤3中所述的基于特征聚类和标签相似性的方法具体是:
通过计算特征聚类得到集合S1,通过计算标签相似性得到集合S2;将在集合S1和集合S2都出现的样本添加到邻近样本集合S中;
所述的特征聚类是指计算样本a的特征与其它样本的特征之间的距离,如果某个样本b的特征与样本a的特征之间的距离小于阈值,将样本b的序号加入到集合S1中;
所述的标签相似性是指样本a的标签与其它样本的标签之间的相似性,如果某个样本b的标签与样本a的标签之间的距离大于阈值,将样本b的序号加入到集合S2中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110088305.2A CN112766383B (zh) | 2021-01-22 | 2021-01-22 | 一种基于特征聚类和标签相似性的标签增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110088305.2A CN112766383B (zh) | 2021-01-22 | 2021-01-22 | 一种基于特征聚类和标签相似性的标签增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112766383A true CN112766383A (zh) | 2021-05-07 |
CN112766383B CN112766383B (zh) | 2024-06-28 |
Family
ID=75705645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110088305.2A Active CN112766383B (zh) | 2021-01-22 | 2021-01-22 | 一种基于特征聚类和标签相似性的标签增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766383B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576012A (zh) * | 2023-11-10 | 2024-02-20 | 中国矿业大学 | 一种基于不平衡眼底图像数据的疾病预测方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100172555A1 (en) * | 2007-04-18 | 2010-07-08 | The University Of Tokyo | Feature quantity selection method, feature quantity selection apparatus, image classification method, image classification apparatus, computer program, and recording medium |
US20120057775A1 (en) * | 2010-04-09 | 2012-03-08 | Hirotaka Suzuki | Information processing device, information processing method, and program |
US8429173B1 (en) * | 2009-04-20 | 2013-04-23 | Google Inc. | Method, system, and computer readable medium for identifying result images based on an image query |
CN104463202A (zh) * | 2014-11-28 | 2015-03-25 | 苏州大学 | 一种多类图像半监督分类方法及系统 |
US20150269421A1 (en) * | 2014-03-19 | 2015-09-24 | Hulu, LLC | Face Track Recognition with Multi-sample Multi-view Weighting |
CN106599913A (zh) * | 2016-12-07 | 2017-04-26 | 重庆邮电大学 | 一种基于聚类的多标签不平衡生物医学数据分类方法 |
CN107133293A (zh) * | 2017-04-25 | 2017-09-05 | 中国科学院计算技术研究所 | 一种适用于多标签分类的ML‑kNN改进方法和系统 |
CN109086453A (zh) * | 2018-08-29 | 2018-12-25 | 华中科技大学 | 一种从邻居实例中提取标签相关性的方法及系统 |
WO2019100723A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
US20190295302A1 (en) * | 2018-03-22 | 2019-09-26 | Northeastern University | Segmentation Guided Image Generation With Adversarial Networks |
CN110955775A (zh) * | 2019-11-11 | 2020-04-03 | 南通大学 | 一种基于隐式问询的绘本推荐方法 |
CN111667015A (zh) * | 2020-06-11 | 2020-09-15 | 王跃 | 物联网设备状态检测方法、装置及检测设备 |
US20200351234A1 (en) * | 2017-10-30 | 2020-11-05 | Wisdo Ltd. | Systems and methods for user matching |
US20200401851A1 (en) * | 2016-02-01 | 2020-12-24 | See-Out Pty Ltd. | Image Classification and Labeling |
-
2021
- 2021-01-22 CN CN202110088305.2A patent/CN112766383B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100172555A1 (en) * | 2007-04-18 | 2010-07-08 | The University Of Tokyo | Feature quantity selection method, feature quantity selection apparatus, image classification method, image classification apparatus, computer program, and recording medium |
US8429173B1 (en) * | 2009-04-20 | 2013-04-23 | Google Inc. | Method, system, and computer readable medium for identifying result images based on an image query |
US20120057775A1 (en) * | 2010-04-09 | 2012-03-08 | Hirotaka Suzuki | Information processing device, information processing method, and program |
US20150269421A1 (en) * | 2014-03-19 | 2015-09-24 | Hulu, LLC | Face Track Recognition with Multi-sample Multi-view Weighting |
CN104463202A (zh) * | 2014-11-28 | 2015-03-25 | 苏州大学 | 一种多类图像半监督分类方法及系统 |
US20200401851A1 (en) * | 2016-02-01 | 2020-12-24 | See-Out Pty Ltd. | Image Classification and Labeling |
CN106599913A (zh) * | 2016-12-07 | 2017-04-26 | 重庆邮电大学 | 一种基于聚类的多标签不平衡生物医学数据分类方法 |
CN107133293A (zh) * | 2017-04-25 | 2017-09-05 | 中国科学院计算技术研究所 | 一种适用于多标签分类的ML‑kNN改进方法和系统 |
US20200351234A1 (en) * | 2017-10-30 | 2020-11-05 | Wisdo Ltd. | Systems and methods for user matching |
WO2019100723A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
US20190295302A1 (en) * | 2018-03-22 | 2019-09-26 | Northeastern University | Segmentation Guided Image Generation With Adversarial Networks |
CN109086453A (zh) * | 2018-08-29 | 2018-12-25 | 华中科技大学 | 一种从邻居实例中提取标签相关性的方法及系统 |
CN110955775A (zh) * | 2019-11-11 | 2020-04-03 | 南通大学 | 一种基于隐式问询的绘本推荐方法 |
CN111667015A (zh) * | 2020-06-11 | 2020-09-15 | 王跃 | 物联网设备状态检测方法、装置及检测设备 |
Non-Patent Citations (2)
Title |
---|
JIANPING FAN等: "Structured Max-Margin Learning for Inter-Related Classifier Training and Multilabel Image Annotation", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 20, no. 3, 31 March 2011 (2011-03-31), pages 837 - 853, XP011374180, DOI: 10.1109/TIP.2010.2073476 * |
马艳春等: "自动图像标注技术综述", 《计算机研究与发展》, vol. 57, no. 11, 31 December 2020 (2020-12-31), pages 2348 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576012A (zh) * | 2023-11-10 | 2024-02-20 | 中国矿业大学 | 一种基于不平衡眼底图像数据的疾病预测方法 |
CN117576012B (zh) * | 2023-11-10 | 2024-05-07 | 中国矿业大学 | 一种基于不平衡眼底图像数据的疾病预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112766383B (zh) | 2024-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528928B (zh) | 一种基于自注意力深度网络的商品识别方法 | |
CN111125411B (zh) | 一种深度强相关哈希学习的大规模图像检索方法 | |
CN111444342B (zh) | 一种基于多重弱监督集成的短文本分类方法 | |
CN101140623A (zh) | 一种基于支持向量机的视频对象识别方法及系统 | |
CN113672718B (zh) | 基于特征匹配和领域自适应的对话意图识别方法及系统 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN116701725B (zh) | 基于深度学习的工程师人员数据画像处理方法 | |
Escalera et al. | Boosted Landmarks of Contextual Descriptors and Forest-ECOC: A novel framework to detect and classify objects in cluttered scenes | |
CN105631416A (zh) | 采用新型密度聚类进行人脸识别的方法 | |
CN114444600A (zh) | 基于记忆增强原型网络的小样本图像分类方法 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN107330448A (zh) | 一种基于标记协方差和多标记分类的联合学习方法 | |
CN115170868A (zh) | 一种基于聚类的小样本图像分类两阶段元学习方法 | |
Tan et al. | L1-norm latent SVM for compact features in object detection | |
Ju et al. | Research on OMR recognition based on convolutional neural network tensorflow platform | |
CN112766383B (zh) | 一种基于特征聚类和标签相似性的标签增强方法 | |
Zhang | Content-based e-commerce image classification research | |
CN115457349A (zh) | 医疗影像分类模型的训练方法和装置、预测方法和装置 | |
CN106250818B (zh) | 一种全序保持投影的人脸年龄估计方法 | |
CN104933733A (zh) | 一种基于稀疏特征选择的目标跟踪方法 | |
Gao et al. | Handwritten text recognition with convolutional prototype network and most aligned frame based CTC training | |
CN108536772B (zh) | 一种基于多特征融合和扩散过程重排序的图像检索方法 | |
CN109284375A (zh) | 一种基于原始数据信息保留的域自适应降维方法 | |
CN115272688A (zh) | 一种基于元特征的小样本学习图像分类方法 | |
CN112231473A (zh) | 一种基于多模态深度神经网络模型的商品分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |