CN111783788B - 一种面向标记噪声的多标记分类方法 - Google Patents

一种面向标记噪声的多标记分类方法 Download PDF

Info

Publication number
CN111783788B
CN111783788B CN202010583875.4A CN202010583875A CN111783788B CN 111783788 B CN111783788 B CN 111783788B CN 202010583875 A CN202010583875 A CN 202010583875A CN 111783788 B CN111783788 B CN 111783788B
Authority
CN
China
Prior art keywords
mark
label
coding matrix
data
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010583875.4A
Other languages
English (en)
Other versions
CN111783788A (zh
Inventor
张敏灵
方军鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010583875.4A priority Critical patent/CN111783788B/zh
Publication of CN111783788A publication Critical patent/CN111783788A/zh
Application granted granted Critical
Publication of CN111783788B publication Critical patent/CN111783788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向标记噪声的多标记分类方法,该方法适用于标记空间含有噪声的多标记数据分类场景,具体包括以下步骤:(1)用户在保证完全获得真实标记的前提下收集多标记数据;(2)利用ECOC编码对原始标记进行embedding,按照ECOC编码重新为每个码字选择正负训练样本;(3)基于每个码字重构的二类分类集训练二类分类模型;(4)根据训练所得分类模型对未见示例进行预测,得到每个码字上的分类结果;(5)根据欧式距离计算原始空间每个标记的ECOC编码和未见示例的预测编码之间的距离,将满足筛选条件的标记视为未见示例的真实标记;(6)如果用户对预测结果满意,则结束,否则转到步骤(2),对原始标记重新进行ECOC编码。

Description

一种面向标记噪声的多标记分类方法
技术领域
本发明涉及一种面向标记噪声的多标记分类方法,属于弱监督分类技术领域。
背景技术
在传统的监督学习中,每一个示例都有单一和明确的标记,基于此前提的诸多监督学习方法都已经取得了巨大的成功。但是在实际应用中,我们获得的标记信息往往是多个而且可能是不准确的。所以研究者们提出了半监督学习、多标记学习、偏标记学习和多示例学习等框架用于解决此类困难。
含噪多标记学习是一种新型的学习框架,它可以看作是多标记学习和偏标记学习的结合。在多标记学习中,一个示例对应多个真实标记;在偏标记学习中,一个示例对应一个候选标记的集合,但是集合中只包含一个真实标记。而在含噪多标记学习中,一个示例对应一个候选标记的集合,集合中有一个或多个真实标记。含噪多标记学习的目标就是利用含有噪声的数据集训练一个多标记预测器,它能够预测出未见示例的所有真实标记。目前主流的方法是利用标记置信度等手段对数据集进行降噪,然后加以训练,但是这样的方法不能保证降噪的效果,因此在训练的过程中仍然会受到噪声标记的影响。
发明内容
本发明针对含噪多标记数据的数据特性以及降噪的预处理步骤的不确定性加以改进,通过ECOC编码直接利用含噪数据,免去降噪步骤,充分利用原始数据来提升分类的性能。
技术方案:一种面向标记噪声的多标记分类方法,包括以下步骤:
步骤1:获取具有真实标记的多标记样本数据D={(xi,Yi)|1≤i≤m},其中xi表示第i个样本数据,Yi表示xi对应的候选标记集合,m表示收集的多标记样本数量;
步骤2:构建编码矩阵,其中,编码矩阵的每一行表示类别标记的编码,其每一列表示对标记的一个划分;通过构建的编码矩阵的第一列对步骤1获取到的多标记样本数据的标记进行划分得到第一列对应的子训练集,以此类推直至得到编码矩阵最后一列对应的子训练集;
步骤3:采用编码矩阵的第一列对应的子训练集对二类分类器进行训练,得到其对应可用的二类分类器;以此类推直至完成编码矩阵最后一列对应的二类分类器的训练;
步骤4:将待分类数据输入至步骤3训练好的所有二类分类器中进行分类,得到与编码矩阵每一列对应的预测标记;
步骤5:根据欧式距离,计算待分类数据的预测标记的编码码字与编码矩阵的每行码字之间的距离,将满足距离阈值的预测标记视为待分类数据的真实标记;
步骤6:判断步骤5得到的待分类数据的真实标记是否满足用户要求,若满足,则结束,否则转到步骤2,对编码矩阵进行调整。
进一步的,所述步骤2具体为:
步骤2.1:定义一个q×L的ECOC编码矩阵M∈{+1,-1}q×L,用于对多标记样本数据的标记空间进行表示,其中,M的每一行M(j,:)的长度为L,其表示类别标记yj的编码,M的每一列M(:,l)表示对标记的一个划分,初始阶段,该编码矩阵为空矩阵;
步骤2.2:引入q维向量v={v1,v2,...,vq}T∈{+1,-1}q,其各个元素的取值随机决定,向量v将样本数据的标记空间划分为两类
Figure BDA0002553912630000021
Figure BDA0002553912630000022
其中:
Figure BDA0002553912630000023
Figure BDA0002553912630000024
若样本数据对应的候选标记集合能完全落入
Figure BDA0002553912630000025
则将该样本数据划分为正例;若样本数据对应的候选标记集合能完全落入
Figure BDA0002553912630000026
则将该样本数据划分为反例;
将基于当前向量v进行划分得到的正例与反例组成子训练集
Figure BDA0002553912630000027
步骤2.3:判断步骤2.2得到的子训练集
Figure BDA0002553912630000028
的元素个数
Figure BDA0002553912630000029
是否大于等于最小值τ_all,正例个数
Figure BDA00025539126300000210
是否同时满足大于等于设定阈值τ_pos,反例个数
Figure BDA00025539126300000211
是否同时满足大于等于设定阈值τ_neg,若三者同时满足,则将当前向量v作为编码矩阵M的一列,并执行步骤2.4;否则:重新随机产生向量v,执行步骤2.2;
步骤2.4:判断当前编码矩阵M的列数是否达到预设的码长L,若超过,则得到可用的编码矩阵,否则重新随机产生向量v,执行步骤2.2。
进一步的,所述步骤3具体包括以下步骤:
采用线性支持向量机生成二类分类器hl(1≤l≤L);
采用编码矩阵的第一列对应的子训练集对二类分类器进行训练,得到其对应可用的二类分类器;
以此类推直至完成编码矩阵最后一列对应的二类分类器的训练。
进一步的,所述步骤4包括:
待分类数据表示为
Figure BDA00025539126300000212
将待分类数据输入至步骤4训练好的所有二类分类器中进行分类,得到长度为L的预测标记:
h(x*)=[sign(h1(x*)),sign(h2(x*)),...,sign(hL(x*))]
其中,hl(x*)(1≤l≤L)表示待分类数据x*在二类分类器上的预测置信度,sign(x)为符号函数,当x>0时,sign(x)返回+1,当x<0时,sign(x)返回-1,当x=0时,sign(x)返回0。
有益效果:现有的含噪多标记分类方法都在利用标记对置信度来进行一定程度的降噪,然而这种降噪过程具有不确定性,很可能会损失大量真实标记信息,造成模型效果下降,本方法通过ECOC编码矩阵来处理原始数据,对噪声数据有一定鲁棒性,可以在一定程度上避免降噪造成的真实标记信息损失。
附图说明
图1是面向噪声标记的多标记分类的工作流程图;
图2是本发明方法的流程图;
图3是ECOC编码矩阵以及重新划分训练集的示意图。
具体实施方式
现结合附图和实施例进一步阐述本发明的技术方案。
本实施例的一种面向标记噪声的多标记分类方法,在模型的训练阶段利用ECOC编码对原始标记空间进行embedding,并给编码的每个码字筛选正负训练样本。并由此为每个码字训练二类分类器,根据训练好的二类分类器对未见示例进行预测,得到预测编码和原始空间每个标记对应编码之间的距离度量并根据此给出真实标记。如果用户对所得结果不满意,可以对ECOC编码进行新的设置以期得到更好的效果。具体包括以下步骤:
步骤1:用户需在保证完全获得真实标记的前提下收集多标记数据,该多标记数据包括样本特征以及带噪声的候选标记集合对于多标记数据而言,用户想要完整准确的获得全部的标记数据是很困难的,而且极其耗费人力物力,因此在满足前提:样本的真实标记应该完全的被用户收集的情况下,允许用户收集带噪声的多标记数据。
记用户采集的多标记数据对应集合为D={(xi,Yi)|1≤i≤m},其中xi∈X表示d维特征向量,即为样本,
Figure BDA0002553912630000031
是与样本xi对应的候选标记集合,m表示收集的样本数量,X=Rd代表d维特征空间,γ={y1,y2,…,yq}表示q个可能的标记,本实施例的面向标记噪声的多标记分类的关键在于样本xi的真实标记
Figure BDA0002553912630000032
是隐藏于候选标记集合中的。
步骤2:利用ECOC编码对原始标记进行embedding,按照ECOC编码重新为每个码字选择正负训练样本;具体为:
步骤2.1:引入q×L的ECOC编码矩阵M∈{+1,-1}q×L对步骤1中的标记空间进行表示,其中,M的每一行M(j,:)表示属于类别yj(1≤j≤q)的长度为L的编码,M的每一列M(:,l)表示对标记空间的一个划分。初始阶段,该编码矩阵M为空矩阵;
步骤2.2:引入q维向量v={v1,v2,...,vq}T∈{+1,-1}q,其各个元素的取值随机决定,向量v将标记空间划分为两类
Figure BDA0002553912630000033
Figure BDA0002553912630000034
其中:
Figure BDA0002553912630000035
Figure BDA0002553912630000036
步骤2.3:根据向量v从步骤1的多标记数据中筛选出子训练集
Figure BDA0002553912630000037
Figure BDA0002553912630000038
即多标记数据中,对应候选标记集合Yi完全落入
Figure BDA0002553912630000041
的样本xi划分为正例,对应候选标记集合Yi完全落入
Figure BDA0002553912630000042
的样本xi划分为反例,候选标记集合Yi不能完全落入
Figure BDA0002553912630000043
Figure BDA0002553912630000044
的样本xi则不包含在子训练集
Figure BDA0002553912630000045
中。
由正例与反例组成子训练集
Figure BDA0002553912630000046
Figure BDA0002553912630000047
的元素个数
Figure BDA0002553912630000048
大于等于某个最小值τ_all,同时其正例个数
Figure BDA0002553912630000049
大于等于设定阈值τ_pos,反例个数
Figure BDA00025539126300000410
大于等于设定阈值τ_neg时,向量v被接受,作为编码矩阵M新的一列,即M=(M,v),并使用子训练集
Figure BDA00025539126300000411
训练对应的二类分类器hv
步骤2.4:判断编码矩阵M的列数是否达到预设的码长L,若超过,则得到可使用的编码矩阵M和编码矩阵每列所对应的训练集,否则随机产生向量v,执行步骤2.2;
图3-1为编码矩阵M,图3-2为步骤1得到的多标记数据对应集合
Figure BDA00025539126300000412
图3-3为二类训练子集
Figure BDA00025539126300000413
以M(:3)为例,Y7={y1,y2}完全落入
Figure BDA00025539126300000414
中,所以x7划分为反例;Y8={y3,y5}完全落入
Figure BDA00025539126300000415
中,所以x8划分为正例;Y10={y4,y5}完全落入
Figure BDA00025539126300000416
中,所以x10划分为正例。
步骤3:因多标记数据的标记空间是含有噪声的,使用线性支持向量机(linearsupport vector machine)生成二类分类器hl(1≤l≤L),采用编码矩阵每列所对应的训练集分别对二类分类器进行训练,得到各自对应的可用的二类分类器;
步骤4:将待分类数据输入至所有训练好的二类分类器中进行预测,得到与编码矩阵列对应的预测标记;具体过程如下:
设待分类数据
Figure BDA00025539126300000417
生成其对应的长度为L的预测码字:
h(x*)=[sign(h1(x*)),sign(h2(x*)),...,sign(hL(x*))]
其中,hl(x*)(1≤l≤L)表示待分类数据x*在二类分类器上的预测置信度,sign(x)为符号函数,当x>0时,sign(x)返回+1,当x<0时,sign(x)返回-1,当x=0时,sign(x)返回0。
步骤5:含噪多标记学习的最终目标是生成一个多标记预测器
Figure BDA00025539126300000418
所以,引入下列公式:
f(x*)={yj|dist(h(x*),M(j,:))<thr,1≤j≤q}
其中,dist(a,b)表示向量a和向量b的距离度量,thr是人为设置的阈值,即f(x*)是由编码矩阵的类别码字与预测码字的距离小于固定阈值的类别组成,即对于未见示例的最终预测结果。
所以,根据欧式距离计算所有其类别码字与预测码字的距离,将满足筛选条件的标记视为未见示例的真实标记。
步骤6:若用户对预测结果满意,则结束,否则转到步骤2,对原始标记重新进行ECOC编码以期得到更好的效果。
本实施例在训练过程中可以允许用户收集含噪声的标记数据进行训练,不需要用户标记数据具有完整准确无误的标记空间,因此可以减少大量的人力成本。

Claims (4)

1.一种面向标记噪声的多标记分类方法,其特征在于:包括以下步骤:
步骤1:获取具有真实标记的多标记样本数据D={(xi,Yi)|1≤i≤m},其中xi表示第i个样本数据,Yi表示xi对应的候选标记集合,m表示收集的多标记样本数量;
步骤2:构建编码矩阵,其中,编码矩阵的每一行表示类别标记的编码,其每一列表示对标记的一个划分;通过构建的编码矩阵的第一列对步骤1获取到的多标记样本数据的标记进行划分得到第一列对应的子训练集,以此类推直至得到编码矩阵最后一列对应的子训练集;
步骤3:采用编码矩阵的第一列对应的子训练集对二类分类器进行训练,得到其对应可用的二类分类器;以此类推直至完成编码矩阵最后一列对应的二类分类器的训练;
步骤4:将待分类数据输入至步骤3训练好的所有二类分类器中进行分类,得到与编码矩阵每一列对应的预测标记;
步骤5:根据欧式距离,计算待分类数据的预测标记的编码码字与编码矩阵的每行码字之间的距离,将满足距离阈值的预测标记视为待分类数据的真实标记;
步骤6:判断步骤5得到的待分类数据的真实标记是否满足用户要求,若满足,则结束,否则转到步骤2,对编码矩阵进行调整。
2.根据权利要求1所述的一种面向标记噪声的多标记分类方法,其特征在于:所述步骤2具体为:
步骤2.1:定义一个q×L的ECOC编码矩阵M∈{+1,-1}q×L,用于对多标记样本数据的标记空间进行表示,其中,M的每一行M(j,:)的长度为L,其表示类别标记yj的编码,M的每一列M(:,l)表示对标记的一个划分,初始阶段,该编码矩阵为空矩阵;
步骤2.2:引入q维向量v={v1,v2,...,vq}T∈{+1,-1}q,其各个元素的取值随机决定,向量v将样本数据的标记空间划分为两类
Figure FDA0002553912620000011
Figure FDA0002553912620000012
其中:
Figure FDA0002553912620000013
Figure FDA0002553912620000014
若样本数据对应的候选标记集合能完全落入
Figure FDA0002553912620000015
则将该样本数据划分为正例;若样本数据对应的候选标记集合能完全落入
Figure FDA0002553912620000016
则将该样本数据划分为反例;
将基于当前向量v进行划分得到的正例与反例组成子训练集
Figure FDA0002553912620000017
步骤2.3:判断步骤2.2得到的子训练集
Figure FDA0002553912620000018
的元素个数
Figure FDA0002553912620000019
是否大于等于最小值τ_all,正例个数
Figure FDA00025539126200000110
是否同时满足大于等于设定阈值τ_pos,反例个数
Figure FDA00025539126200000111
是否同时满足大于等于设定阈值τ_neg,若三者同时满足,则将当前向量v作为编码矩阵M的一列,并执行步骤2.4;否则:重新随机产生向量v,执行步骤2.2;
步骤2.4:判断当前编码矩阵M的列数是否达到预设的码长L,若超过,则得到可用的编码矩阵,否则重新随机产生向量v,执行步骤2.2。
3.根据权利要求2所述的一种面向标记噪声的多标记分类方法,其特征在于:所述步骤3具体包括以下步骤:
采用线性支持向量机生成二类分类器hl(1≤l≤L);
采用编码矩阵的第一列对应的子训练集对二类分类器进行训练,得到其对应可用的二类分类器;
以此类推直至完成编码矩阵最后一列对应的二类分类器的训练。
4.根据权利要求3所述的一种面向标记噪声的多标记分类方法,其特征在于:所述步骤4包括:
待分类数据表示为
Figure FDA0002553912620000021
将待分类数据输入至步骤4训练好的所有二类分类器中进行分类,得到长度为L的预测标记:
h(x*)=[sign(h1(x*)),sign(h2(x*)),...,sign(hL(x*))]
其中,hl(x*)(1≤l≤L)表示待分类数据x*在二类分类器上的预测置信度,sign(x)为符号函数,当x>0时,sign(x)返回+1,当x<0时,sign(x)返回-1,当x=0时,sign(x)返回0。
CN202010583875.4A 2020-06-24 2020-06-24 一种面向标记噪声的多标记分类方法 Active CN111783788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010583875.4A CN111783788B (zh) 2020-06-24 2020-06-24 一种面向标记噪声的多标记分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010583875.4A CN111783788B (zh) 2020-06-24 2020-06-24 一种面向标记噪声的多标记分类方法

Publications (2)

Publication Number Publication Date
CN111783788A CN111783788A (zh) 2020-10-16
CN111783788B true CN111783788B (zh) 2022-11-08

Family

ID=72757047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010583875.4A Active CN111783788B (zh) 2020-06-24 2020-06-24 一种面向标记噪声的多标记分类方法

Country Status (1)

Country Link
CN (1) CN111783788B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283467B (zh) * 2021-04-14 2022-10-18 南京大学 一种基于平均损失和逐类选择的弱监督图片分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491865A (zh) * 2018-03-05 2018-09-04 南京邮电大学 一种基于度量学习的多示例多标记分类方法
CN109685103A (zh) * 2018-11-13 2019-04-26 成都四方伟业软件股份有限公司 一种基于广义k均值算法的文本多标记学习方法
CN110598733A (zh) * 2019-08-05 2019-12-20 南京智谷人工智能研究院有限公司 一种基于交互建模的多标记距离度量学习方法

Also Published As

Publication number Publication date
CN111783788A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN112765358B (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN101937513B (zh) 信息处理设备、信息处理方法
CN109086770B (zh) 一种基于精准尺度预测的图像语义分割方法及模型
CN108537119B (zh) 一种小样本视频识别方法
CN112541355B (zh) 一种实体边界类别解耦的少样本命名实体识别方法与系统
CN107943856A (zh) 一种基于扩充标记样本的文本分类方法及系统
CN113610173A (zh) 一种基于知识蒸馏的多跨域少样本分类方法
CN109948735B (zh) 一种多标签分类方法、系统、装置及存储介质
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN114676777A (zh) 一种基于孪生网络的自监督学习细粒度图像分类方法
CN114255371A (zh) 一种基于组件监督网络的小样本图像分类方法
CN111783788B (zh) 一种面向标记噪声的多标记分类方法
CN117153268A (zh) 一种细胞类别确定方法及系统
CN116663540A (zh) 基于小样本的金融事件抽取方法
CN111144466B (zh) 一种图像样本自适应的深度度量学习方法
CN111652265A (zh) 一种基于自调整图的鲁棒半监督稀疏特征选择方法
CN117197568A (zh) 一种基于clip的零样本图像识别方法
CN110909645A (zh) 一种基于半监督流形嵌入的人群计数方法
CN113379037B (zh) 一种基于补标记协同训练的偏多标记学习方法
CN115273100A (zh) 一种基于语义引导鉴别器的半监督汉字图像生成方法
CN113344031B (zh) 一种文本分类方法
CN114202671A (zh) 一种图像预测优化处理方法及装置
CN112990210A (zh) 一种基于二维空间注意力的车牌识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant