CN112766383A - 一种基于特征聚类和标签相似性的标签增强方法 - Google Patents

一种基于特征聚类和标签相似性的标签增强方法 Download PDF

Info

Publication number
CN112766383A
CN112766383A CN202110088305.2A CN202110088305A CN112766383A CN 112766383 A CN112766383 A CN 112766383A CN 202110088305 A CN202110088305 A CN 202110088305A CN 112766383 A CN112766383 A CN 112766383A
Authority
CN
China
Prior art keywords
label
sample
similarity
method based
feature clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110088305.2A
Other languages
English (en)
Other versions
CN112766383B (zh
Inventor
蒋文田
杨柏林
马希骜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202110088305.2A priority Critical patent/CN112766383B/zh
Publication of CN112766383A publication Critical patent/CN112766383A/zh
Application granted granted Critical
Publication of CN112766383B publication Critical patent/CN112766383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于特征聚类和标签相似性的新型标签增强方法。本发明采用的方法如下:给定多标签样本的集合M,将集合M分成两部分,一部分是表示特征的集合F,另一部分表示标签的集合L;先对集合M进行预处理,主要包括数据缺失值处理、数据归一化;通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S;确定邻近样本集合S之后,通过标签权重的方法将样本a的标签从多标签数据状态,转化成标签分布的标签描述度;需要对所有的样本基于特征聚类和标签相似性的方法和标签权重的方法,得到标签分布的集合D。本发明简单高效,结合特征信息和标签信息,能有效地将多标签数据集转成标签分布数据集。

Description

一种基于特征聚类和标签相似性的标签增强方法
技术领域
本发明属于机器学习与模式识别领域,涉及多标签分类学习和标签分布学习,具体涉及一种基于特征聚类和标签相似性的标签增强方法。
背景技术
对比于单标签学习和多标签学习,标签分布学习则更加精确。单标签学习往往只有一个标签,只能将一个实例简单地映射到一个单一的逻辑标签,在实践中存在局限性。而多标签学习解决了这个问题,在多标签学习中,每个样本由一个标签向量描述,其中的元素为1或0,以证明该实例是否属于相应的标签。尽管多标签学习在许多地方上取得了成功,但是在一些复杂的场景中,例如面部表情识别和图片美学评估等,原始多标签学习的性能受到阻碍,因为模型精确地将实例映射到具有定量描述度的实值标签向量,即标签分布,在这些任务中是必需的。并且在多标签学习中标签对实例的描述具有不同的重要性,而且多标签学习中标签之间的重要性不完全相等。于是乎,标签分布学习就应运而生。标签分布学习是多标签学习的自然延伸。不同于传统的多标签学习来决定简单的0/1标签归属,标签分布学习输出一个软标签归属。此外,每个标签描述实例的程度由一个标签分布的相应值表示,称为描述度,且一个样本的所有描述度加起来的和等于1。
然而,标签分布数据集由于手工标注的原因,而极为稀少。于此相对的,多标签数据集较为丰富。因此我们考虑一种基于特征聚类和标签相似性的方法将多标签数据集转成标签分布数据集。
发明内容
本发明针对现有技术的不足,提出了一种基于特征聚类和标签相似性的新型标签增强方法。
本发明解决其技术问题所采用的技术方案具体步骤如下:
步骤1:给定多标签样本的集合M,将集合M分成两部分,一部分是表示特征的集合F,另一部分表示标签的集合L。
步骤2:对集合M进行预处理,主要包括数据缺失值处理、数据归一化。
步骤3:通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S。
步骤4:确定邻近样本集合S之后,通过标签权重的方法将样本a的标签从多标签数据状态,转化成标签分布的标签描述度。
步骤5:对所有的样本重复步骤3和4,得到标签分布的集合D。
本发明的有益效果:本发明简单高效,结合特征信息和标签信息,能有效地将多标签数据集转成标签分布数据集。
附图说明
图1为本发明方法流程图。
具体实施方式
以下结合附图1对本发明做一步说明。
如图1所示,本发明包括以下步骤:
步骤1:给定多标签样本的集合M,将集合M分成两个部分,一个是表示特征的集合F,另一个表示标签的集合L。对于每个实例来说有p个特征,q个标签。
步骤2:对集合M进行预处理操作,主要包括数据缺失值处理、数据归一化等。
步骤3:通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S。
步骤4:确定邻近样本集合S之后,通过名为标签权重(LabelWeight)的方法将样本a的标签从多标签数据状态,转化成标签分布的标签描述度。
步骤5:对所有的样本重复步骤3和4,得到标签分布的集合D,任务完成。
进一步的,步骤2中,数据缺失值处理和数据归一化的具体做法是:
所述缺失值填充是对每一列的缺失值,填充当列的众数。
所述数据归一化是将数据映射到指定的范围,如:把数据映射到[0-1]的范围之内处理。作用是把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。经过归一化后,将有量纲的数据,还可以达到简化计算的作用。这里的方法是:采用min-max标准化(Min-Max Normalization)对原始数据进行线性变换,使结果值映射到[0-1]之间。转换函数如下:
Figure BDA0002911759960000031
进一步的,步骤3中,所述基于特征聚类和标签相似性的方法找到样本a的邻近样本的具体做法是:
通过计算特征聚类得到集合S1,通过计算标签相似性得到集合S2;将在集合S1和集合S2都出现的样本添加到邻近样本集合S中。
所述的特征聚类是指计算样本a的特征与其它样本的特征之间的距离,如果某个样本b的特征与样本a的特征之间的距离小于阈值,将样本b的序号加入到集合S1中。
距离公式如下:
Figure BDA0002911759960000041
其中取k=2,即欧式距离,ai、bi表示样本a、样本b的特征,p表示特征的个数。
所述的标签相似性是指样本a的标签与其它样本的标签之间的相似性,如果某个样本b的标签与样本a的标签之间的距离大于阈值,将样本b的序号加入到集合S2中。
这里样本标签之间的相似性采用杰卡德系数,其值越大相似性越高。其含义为:样本a的标签A和样板b的标签B交集元素的个数在标签A、B的并集中所占的比例,用符号J(A,B)表示。具体公式如下:
Figure BDA0002911759960000042
进一步的,步骤4中,标签权重(LabelWeight)方法具体做法是:
根据邻近样本集合S中所有样本的标签来构建矩阵;
统计矩阵中所有标签为1的个数,记为X;
统计矩阵每一列标签为1的个数,使用向量表示为:Y={y1,y2,…,yq};
则标签权重LW表示为:
Figure BDA0002911759960000043
对标签A进行权重化,得到Z:
Figure BDA0002911759960000044
采用以下方法对Z进行归一化:
Figure BDA0002911759960000051
其中,q表示标签的个数,得到的LD就是样本a的标签分布的标签描述度。
实施例:
步骤1:给定一个多标签数据集合R。
步骤2:集合R经过数据预处理后,有10个样本,10个特征和6个标签。具体如表1所示。
表1多标签数据集
Figure BDA0002911759960000052
步骤3:求样本1的邻近样本集合,设置特征聚类的阈值是1.6,标签相似度的阈值是0.3。
根据特征聚类之间的距离公式:
Figure BDA0002911759960000061
可以计算出与样本1特征距离小于1.6的样本集合S1={1,9,5,2,6,10,8}。
根据标签相似性公式:
Figure BDA0002911759960000062
可以计算出与样本1标签相似性大于0.3的样本集合S2={1,10,4,5,6}。
根据S1和S2,可以算出既在集合S1出现又在集合S2中出现的邻近样本的集合S={1,5,6,10}。
步骤4:根据邻近样本集合S的标签,可以构建一个相似标签矩阵如表2所示。
表2相似标签矩阵
L1 L2 L3 L4 L5 L6
1 0 1 1 0 1 1
5 0 0 1 1 1 1
6 0 0 0 0 1 0
10 0 0 1 0 0 1
由此,可以计算出所有标签为1的个数X=11,而Y={0,1,3,1,3,3}。由此可以计算出:
Figure BDA0002911759960000063
结合样本1的标签A={0,1,1,0,1,1},最终可以计算得到样本1的标签分布的标签描述度LD={0,0.1,0.3,0,0.3,0.3}。
步骤5:重复步骤3和步骤4,直到遍历完所有的样本。表3就是得到的所有样本标签分布的标签描述度。
表3最终结果
0 1 2 3 4 5
1 0.000 0.100 0.300 0.000 0.300 0.300
2 0.267 0.200 0.200 0.200 0.000 0.133
3 0.200 0.200 0.000 0.200 0.200 0.200
4 0.000 0.250 0.250 0.250 0.250 0.000
5 0.000 0.000 0.300 0.100 0.300 0.300
6 0.000 0.000 0.000 0.000 1.000 0.000
7 0.222 0.222 0.222 0.222 0.111 0.000
8 0.154 0.231 0.231 0.231 0.154 0.000
9 0.400 0.000 0.000 0.000 0.000 0.600
10 0.000 0.000 0.429 0.000 0.000 0.571

Claims (6)

1.一种基于特征聚类和标签相似性的标签增强方法,其特征在于该方法包括以下步骤:
步骤1:给定多标签样本的集合M,将集合M分成两部分,一部分是表示特征的集合F,另一部分表示标签的集合L;
步骤2:对集合M进行预处理,主要包括数据缺失值处理、数据归一化;
步骤3:通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S;
步骤4:确定邻近样本集合S之后,通过标签权重的方法将样本a的标签从多标签数据状态,转化成标签分布的标签描述度;
步骤5:对所有的样本重复步骤3和4,得到标签分布的集合D。
2.根据权利要求1所述的一种基于特征聚类和标签相似性的标签增强方法,其特征在于:步骤2中,数据缺失值处理和数据归一化具体是:
所述数据缺失值处理采用缺失值填充,所述缺失值填充是对每一列的缺失值填充当列的众数;
所述数据归一化是将数据映射到指定的范围,具体是对原始数据线性变换,使结果值映射到[0-1]之间。
3.根据权利要求1所述的一种基于特征聚类和标签相似性的标签增强方法,其特征在于:步骤3中所述的基于特征聚类和标签相似性的方法具体是:
通过计算特征聚类得到集合S1,通过计算标签相似性得到集合S2;将在集合S1和集合S2都出现的样本添加到邻近样本集合S中;
所述的特征聚类是指计算样本a的特征与其它样本的特征之间的距离,如果某个样本b的特征与样本a的特征之间的距离小于阈值,将样本b的序号加入到集合S1中;
所述的标签相似性是指样本a的标签与其它样本的标签之间的相似性,如果某个样本b的标签与样本a的标签之间的距离大于阈值,将样本b的序号加入到集合S2中。
4.根据权利要求3所述的一种基于特征聚类和标签相似性的标签增强方法,其特征在于:所述距离采用以下公式计算:
Figure FDA0002911759950000021
其中k=2,即欧式距离,ai,bi表示样本a,b的特征,p表示特征的个数。
5.根据权利要求3所述的一种基于特征聚类和标签相似性的标签增强方法,其特征在于:所述的标签相似性采用杰卡德系数,采用以下公式计算:
Figure FDA0002911759950000022
其中A表示样本a的标签,B表示样本b的标签。
6.根据权利要求1所述的一种基于特征聚类和标签相似性的标签增强方法,其特征在于:步骤4中标签权重的方法具体是:
根据邻近样本集合S中所有样本的标签来构建矩阵;
统计矩阵中所有标签为1的个数,记为X;
统计矩阵每一列标签为1的个数,使用向量表示为:Y={y1,y2,…,yq};
则标签权重LW表示为:
Figure FDA0002911759950000023
对标签A进行权重化,得到Z:
Figure FDA0002911759950000031
对Z进行归一化操作,得到LD作为样本a的标签分布的标签描述度,q表示标签的个数。
CN202110088305.2A 2021-01-22 2021-01-22 一种基于特征聚类和标签相似性的标签增强方法 Active CN112766383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110088305.2A CN112766383B (zh) 2021-01-22 2021-01-22 一种基于特征聚类和标签相似性的标签增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110088305.2A CN112766383B (zh) 2021-01-22 2021-01-22 一种基于特征聚类和标签相似性的标签增强方法

Publications (2)

Publication Number Publication Date
CN112766383A true CN112766383A (zh) 2021-05-07
CN112766383B CN112766383B (zh) 2024-06-28

Family

ID=75705645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110088305.2A Active CN112766383B (zh) 2021-01-22 2021-01-22 一种基于特征聚类和标签相似性的标签增强方法

Country Status (1)

Country Link
CN (1) CN112766383B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576012A (zh) * 2023-11-10 2024-02-20 中国矿业大学 一种基于不平衡眼底图像数据的疾病预测方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100172555A1 (en) * 2007-04-18 2010-07-08 The University Of Tokyo Feature quantity selection method, feature quantity selection apparatus, image classification method, image classification apparatus, computer program, and recording medium
US20120057775A1 (en) * 2010-04-09 2012-03-08 Hirotaka Suzuki Information processing device, information processing method, and program
US8429173B1 (en) * 2009-04-20 2013-04-23 Google Inc. Method, system, and computer readable medium for identifying result images based on an image query
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及系统
US20150269421A1 (en) * 2014-03-19 2015-09-24 Hulu, LLC Face Track Recognition with Multi-sample Multi-view Weighting
CN106599913A (zh) * 2016-12-07 2017-04-26 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
CN107133293A (zh) * 2017-04-25 2017-09-05 中国科学院计算技术研究所 一种适用于多标签分类的ML‑kNN改进方法和系统
CN109086453A (zh) * 2018-08-29 2018-12-25 华中科技大学 一种从邻居实例中提取标签相关性的方法及系统
WO2019100723A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
US20190295302A1 (en) * 2018-03-22 2019-09-26 Northeastern University Segmentation Guided Image Generation With Adversarial Networks
CN110955775A (zh) * 2019-11-11 2020-04-03 南通大学 一种基于隐式问询的绘本推荐方法
CN111667015A (zh) * 2020-06-11 2020-09-15 王跃 物联网设备状态检测方法、装置及检测设备
US20200351234A1 (en) * 2017-10-30 2020-11-05 Wisdo Ltd. Systems and methods for user matching
US20200401851A1 (en) * 2016-02-01 2020-12-24 See-Out Pty Ltd. Image Classification and Labeling

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100172555A1 (en) * 2007-04-18 2010-07-08 The University Of Tokyo Feature quantity selection method, feature quantity selection apparatus, image classification method, image classification apparatus, computer program, and recording medium
US8429173B1 (en) * 2009-04-20 2013-04-23 Google Inc. Method, system, and computer readable medium for identifying result images based on an image query
US20120057775A1 (en) * 2010-04-09 2012-03-08 Hirotaka Suzuki Information processing device, information processing method, and program
US20150269421A1 (en) * 2014-03-19 2015-09-24 Hulu, LLC Face Track Recognition with Multi-sample Multi-view Weighting
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及系统
US20200401851A1 (en) * 2016-02-01 2020-12-24 See-Out Pty Ltd. Image Classification and Labeling
CN106599913A (zh) * 2016-12-07 2017-04-26 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
CN107133293A (zh) * 2017-04-25 2017-09-05 中国科学院计算技术研究所 一种适用于多标签分类的ML‑kNN改进方法和系统
US20200351234A1 (en) * 2017-10-30 2020-11-05 Wisdo Ltd. Systems and methods for user matching
WO2019100723A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
US20190295302A1 (en) * 2018-03-22 2019-09-26 Northeastern University Segmentation Guided Image Generation With Adversarial Networks
CN109086453A (zh) * 2018-08-29 2018-12-25 华中科技大学 一种从邻居实例中提取标签相关性的方法及系统
CN110955775A (zh) * 2019-11-11 2020-04-03 南通大学 一种基于隐式问询的绘本推荐方法
CN111667015A (zh) * 2020-06-11 2020-09-15 王跃 物联网设备状态检测方法、装置及检测设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANPING FAN等: "Structured Max-Margin Learning for Inter-Related Classifier Training and Multilabel Image Annotation", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 20, no. 3, 31 March 2011 (2011-03-31), pages 837 - 853, XP011374180, DOI: 10.1109/TIP.2010.2073476 *
马艳春等: "自动图像标注技术综述", 《计算机研究与发展》, vol. 57, no. 11, 31 December 2020 (2020-12-31), pages 2348 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576012A (zh) * 2023-11-10 2024-02-20 中国矿业大学 一种基于不平衡眼底图像数据的疾病预测方法
CN117576012B (zh) * 2023-11-10 2024-05-07 中国矿业大学 一种基于不平衡眼底图像数据的疾病预测方法

Also Published As

Publication number Publication date
CN112766383B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN112528928B (zh) 一种基于自注意力深度网络的商品识别方法
CN111125411B (zh) 一种深度强相关哈希学习的大规模图像检索方法
CN111444342B (zh) 一种基于多重弱监督集成的短文本分类方法
CN101140623A (zh) 一种基于支持向量机的视频对象识别方法及系统
CN113672718B (zh) 基于特征匹配和领域自适应的对话意图识别方法及系统
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN116701725B (zh) 基于深度学习的工程师人员数据画像处理方法
Escalera et al. Boosted Landmarks of Contextual Descriptors and Forest-ECOC: A novel framework to detect and classify objects in cluttered scenes
CN105631416A (zh) 采用新型密度聚类进行人脸识别的方法
CN114444600A (zh) 基于记忆增强原型网络的小样本图像分类方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN107330448A (zh) 一种基于标记协方差和多标记分类的联合学习方法
CN115170868A (zh) 一种基于聚类的小样本图像分类两阶段元学习方法
Tan et al. L1-norm latent SVM for compact features in object detection
Ju et al. Research on OMR recognition based on convolutional neural network tensorflow platform
CN112766383B (zh) 一种基于特征聚类和标签相似性的标签增强方法
Zhang Content-based e-commerce image classification research
CN115457349A (zh) 医疗影像分类模型的训练方法和装置、预测方法和装置
CN106250818B (zh) 一种全序保持投影的人脸年龄估计方法
CN104933733A (zh) 一种基于稀疏特征选择的目标跟踪方法
Gao et al. Handwritten text recognition with convolutional prototype network and most aligned frame based CTC training
CN108536772B (zh) 一种基于多特征融合和扩散过程重排序的图像检索方法
CN109284375A (zh) 一种基于原始数据信息保留的域自适应降维方法
CN115272688A (zh) 一种基于元特征的小样本学习图像分类方法
CN112231473A (zh) 一种基于多模态深度神经网络模型的商品分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant