CN111783788B - 一种面向标记噪声的多标记分类方法 - Google Patents
一种面向标记噪声的多标记分类方法 Download PDFInfo
- Publication number
- CN111783788B CN111783788B CN202010583875.4A CN202010583875A CN111783788B CN 111783788 B CN111783788 B CN 111783788B CN 202010583875 A CN202010583875 A CN 202010583875A CN 111783788 B CN111783788 B CN 111783788B
- Authority
- CN
- China
- Prior art keywords
- mark
- label
- coding matrix
- data
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向标记噪声的多标记分类方法,该方法适用于标记空间含有噪声的多标记数据分类场景,具体包括以下步骤:(1)用户在保证完全获得真实标记的前提下收集多标记数据;(2)利用ECOC编码对原始标记进行embedding,按照ECOC编码重新为每个码字选择正负训练样本;(3)基于每个码字重构的二类分类集训练二类分类模型;(4)根据训练所得分类模型对未见示例进行预测,得到每个码字上的分类结果;(5)根据欧式距离计算原始空间每个标记的ECOC编码和未见示例的预测编码之间的距离,将满足筛选条件的标记视为未见示例的真实标记;(6)如果用户对预测结果满意,则结束,否则转到步骤(2),对原始标记重新进行ECOC编码。
Description
技术领域
本发明涉及一种面向标记噪声的多标记分类方法,属于弱监督分类技术领域。
背景技术
在传统的监督学习中,每一个示例都有单一和明确的标记,基于此前提的诸多监督学习方法都已经取得了巨大的成功。但是在实际应用中,我们获得的标记信息往往是多个而且可能是不准确的。所以研究者们提出了半监督学习、多标记学习、偏标记学习和多示例学习等框架用于解决此类困难。
含噪多标记学习是一种新型的学习框架,它可以看作是多标记学习和偏标记学习的结合。在多标记学习中,一个示例对应多个真实标记;在偏标记学习中,一个示例对应一个候选标记的集合,但是集合中只包含一个真实标记。而在含噪多标记学习中,一个示例对应一个候选标记的集合,集合中有一个或多个真实标记。含噪多标记学习的目标就是利用含有噪声的数据集训练一个多标记预测器,它能够预测出未见示例的所有真实标记。目前主流的方法是利用标记置信度等手段对数据集进行降噪,然后加以训练,但是这样的方法不能保证降噪的效果,因此在训练的过程中仍然会受到噪声标记的影响。
发明内容
本发明针对含噪多标记数据的数据特性以及降噪的预处理步骤的不确定性加以改进,通过ECOC编码直接利用含噪数据,免去降噪步骤,充分利用原始数据来提升分类的性能。
技术方案:一种面向标记噪声的多标记分类方法,包括以下步骤:
步骤1:获取具有真实标记的多标记样本数据D={(xi,Yi)|1≤i≤m},其中xi表示第i个样本数据,Yi表示xi对应的候选标记集合,m表示收集的多标记样本数量;
步骤2:构建编码矩阵,其中,编码矩阵的每一行表示类别标记的编码,其每一列表示对标记的一个划分;通过构建的编码矩阵的第一列对步骤1获取到的多标记样本数据的标记进行划分得到第一列对应的子训练集,以此类推直至得到编码矩阵最后一列对应的子训练集;
步骤3:采用编码矩阵的第一列对应的子训练集对二类分类器进行训练,得到其对应可用的二类分类器;以此类推直至完成编码矩阵最后一列对应的二类分类器的训练;
步骤4:将待分类数据输入至步骤3训练好的所有二类分类器中进行分类,得到与编码矩阵每一列对应的预测标记;
步骤5:根据欧式距离,计算待分类数据的预测标记的编码码字与编码矩阵的每行码字之间的距离,将满足距离阈值的预测标记视为待分类数据的真实标记;
步骤6:判断步骤5得到的待分类数据的真实标记是否满足用户要求,若满足,则结束,否则转到步骤2,对编码矩阵进行调整。
进一步的,所述步骤2具体为:
步骤2.1:定义一个q×L的ECOC编码矩阵M∈{+1,-1}q×L,用于对多标记样本数据的标记空间进行表示,其中,M的每一行M(j,:)的长度为L,其表示类别标记yj的编码,M的每一列M(:,l)表示对标记的一个划分,初始阶段,该编码矩阵为空矩阵;
步骤2.3:判断步骤2.2得到的子训练集的元素个数是否大于等于最小值τ_all,正例个数是否同时满足大于等于设定阈值τ_pos,反例个数是否同时满足大于等于设定阈值τ_neg,若三者同时满足,则将当前向量v作为编码矩阵M的一列,并执行步骤2.4;否则:重新随机产生向量v,执行步骤2.2;
步骤2.4:判断当前编码矩阵M的列数是否达到预设的码长L,若超过,则得到可用的编码矩阵,否则重新随机产生向量v,执行步骤2.2。
进一步的,所述步骤3具体包括以下步骤:
采用线性支持向量机生成二类分类器hl(1≤l≤L);
采用编码矩阵的第一列对应的子训练集对二类分类器进行训练,得到其对应可用的二类分类器;
以此类推直至完成编码矩阵最后一列对应的二类分类器的训练。
进一步的,所述步骤4包括:
h(x*)=[sign(h1(x*)),sign(h2(x*)),...,sign(hL(x*))]
其中,hl(x*)(1≤l≤L)表示待分类数据x*在二类分类器上的预测置信度,sign(x)为符号函数,当x>0时,sign(x)返回+1,当x<0时,sign(x)返回-1,当x=0时,sign(x)返回0。
有益效果:现有的含噪多标记分类方法都在利用标记对置信度来进行一定程度的降噪,然而这种降噪过程具有不确定性,很可能会损失大量真实标记信息,造成模型效果下降,本方法通过ECOC编码矩阵来处理原始数据,对噪声数据有一定鲁棒性,可以在一定程度上避免降噪造成的真实标记信息损失。
附图说明
图1是面向噪声标记的多标记分类的工作流程图;
图2是本发明方法的流程图;
图3是ECOC编码矩阵以及重新划分训练集的示意图。
具体实施方式
现结合附图和实施例进一步阐述本发明的技术方案。
本实施例的一种面向标记噪声的多标记分类方法,在模型的训练阶段利用ECOC编码对原始标记空间进行embedding,并给编码的每个码字筛选正负训练样本。并由此为每个码字训练二类分类器,根据训练好的二类分类器对未见示例进行预测,得到预测编码和原始空间每个标记对应编码之间的距离度量并根据此给出真实标记。如果用户对所得结果不满意,可以对ECOC编码进行新的设置以期得到更好的效果。具体包括以下步骤:
步骤1:用户需在保证完全获得真实标记的前提下收集多标记数据,该多标记数据包括样本特征以及带噪声的候选标记集合对于多标记数据而言,用户想要完整准确的获得全部的标记数据是很困难的,而且极其耗费人力物力,因此在满足前提:样本的真实标记应该完全的被用户收集的情况下,允许用户收集带噪声的多标记数据。
记用户采集的多标记数据对应集合为D={(xi,Yi)|1≤i≤m},其中xi∈X表示d维特征向量,即为样本,是与样本xi对应的候选标记集合,m表示收集的样本数量,X=Rd代表d维特征空间,γ={y1,y2,…,yq}表示q个可能的标记,本实施例的面向标记噪声的多标记分类的关键在于样本xi的真实标记是隐藏于候选标记集合中的。
步骤2:利用ECOC编码对原始标记进行embedding,按照ECOC编码重新为每个码字选择正负训练样本;具体为:
步骤2.1:引入q×L的ECOC编码矩阵M∈{+1,-1}q×L对步骤1中的标记空间进行表示,其中,M的每一行M(j,:)表示属于类别yj(1≤j≤q)的长度为L的编码,M的每一列M(:,l)表示对标记空间的一个划分。初始阶段,该编码矩阵M为空矩阵;
由正例与反例组成子训练集当的元素个数大于等于某个最小值τ_all,同时其正例个数大于等于设定阈值τ_pos,反例个数大于等于设定阈值τ_neg时,向量v被接受,作为编码矩阵M新的一列,即M=(M,v),并使用子训练集训练对应的二类分类器hv。
步骤2.4:判断编码矩阵M的列数是否达到预设的码长L,若超过,则得到可使用的编码矩阵M和编码矩阵每列所对应的训练集,否则随机产生向量v,执行步骤2.2;
图3-1为编码矩阵M,图3-2为步骤1得到的多标记数据对应集合图3-3为二类训练子集以M(:3)为例,Y7={y1,y2}完全落入中,所以x7划分为反例;Y8={y3,y5}完全落入中,所以x8划分为正例;Y10={y4,y5}完全落入中,所以x10划分为正例。
步骤3:因多标记数据的标记空间是含有噪声的,使用线性支持向量机(linearsupport vector machine)生成二类分类器hl(1≤l≤L),采用编码矩阵每列所对应的训练集分别对二类分类器进行训练,得到各自对应的可用的二类分类器;
步骤4:将待分类数据输入至所有训练好的二类分类器中进行预测,得到与编码矩阵列对应的预测标记;具体过程如下:
h(x*)=[sign(h1(x*)),sign(h2(x*)),...,sign(hL(x*))]
其中,hl(x*)(1≤l≤L)表示待分类数据x*在二类分类器上的预测置信度,sign(x)为符号函数,当x>0时,sign(x)返回+1,当x<0时,sign(x)返回-1,当x=0时,sign(x)返回0。
f(x*)={yj|dist(h(x*),M(j,:))<thr,1≤j≤q}
其中,dist(a,b)表示向量a和向量b的距离度量,thr是人为设置的阈值,即f(x*)是由编码矩阵的类别码字与预测码字的距离小于固定阈值的类别组成,即对于未见示例的最终预测结果。
所以,根据欧式距离计算所有其类别码字与预测码字的距离,将满足筛选条件的标记视为未见示例的真实标记。
步骤6:若用户对预测结果满意,则结束,否则转到步骤2,对原始标记重新进行ECOC编码以期得到更好的效果。
本实施例在训练过程中可以允许用户收集含噪声的标记数据进行训练,不需要用户标记数据具有完整准确无误的标记空间,因此可以减少大量的人力成本。
Claims (4)
1.一种面向标记噪声的多标记分类方法,其特征在于:包括以下步骤:
步骤1:获取具有真实标记的多标记样本数据D={(xi,Yi)|1≤i≤m},其中xi表示第i个样本数据,Yi表示xi对应的候选标记集合,m表示收集的多标记样本数量;
步骤2:构建编码矩阵,其中,编码矩阵的每一行表示类别标记的编码,其每一列表示对标记的一个划分;通过构建的编码矩阵的第一列对步骤1获取到的多标记样本数据的标记进行划分得到第一列对应的子训练集,以此类推直至得到编码矩阵最后一列对应的子训练集;
步骤3:采用编码矩阵的第一列对应的子训练集对二类分类器进行训练,得到其对应可用的二类分类器;以此类推直至完成编码矩阵最后一列对应的二类分类器的训练;
步骤4:将待分类数据输入至步骤3训练好的所有二类分类器中进行分类,得到与编码矩阵每一列对应的预测标记;
步骤5:根据欧式距离,计算待分类数据的预测标记的编码码字与编码矩阵的每行码字之间的距离,将满足距离阈值的预测标记视为待分类数据的真实标记;
步骤6:判断步骤5得到的待分类数据的真实标记是否满足用户要求,若满足,则结束,否则转到步骤2,对编码矩阵进行调整。
2.根据权利要求1所述的一种面向标记噪声的多标记分类方法,其特征在于:所述步骤2具体为:
步骤2.1:定义一个q×L的ECOC编码矩阵M∈{+1,-1}q×L,用于对多标记样本数据的标记空间进行表示,其中,M的每一行M(j,:)的长度为L,其表示类别标记yj的编码,M的每一列M(:,l)表示对标记的一个划分,初始阶段,该编码矩阵为空矩阵;
步骤2.3:判断步骤2.2得到的子训练集的元素个数是否大于等于最小值τ_all,正例个数是否同时满足大于等于设定阈值τ_pos,反例个数是否同时满足大于等于设定阈值τ_neg,若三者同时满足,则将当前向量v作为编码矩阵M的一列,并执行步骤2.4;否则:重新随机产生向量v,执行步骤2.2;
步骤2.4:判断当前编码矩阵M的列数是否达到预设的码长L,若超过,则得到可用的编码矩阵,否则重新随机产生向量v,执行步骤2.2。
3.根据权利要求2所述的一种面向标记噪声的多标记分类方法,其特征在于:所述步骤3具体包括以下步骤:
采用线性支持向量机生成二类分类器hl(1≤l≤L);
采用编码矩阵的第一列对应的子训练集对二类分类器进行训练,得到其对应可用的二类分类器;
以此类推直至完成编码矩阵最后一列对应的二类分类器的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583875.4A CN111783788B (zh) | 2020-06-24 | 2020-06-24 | 一种面向标记噪声的多标记分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583875.4A CN111783788B (zh) | 2020-06-24 | 2020-06-24 | 一种面向标记噪声的多标记分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783788A CN111783788A (zh) | 2020-10-16 |
CN111783788B true CN111783788B (zh) | 2022-11-08 |
Family
ID=72757047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010583875.4A Active CN111783788B (zh) | 2020-06-24 | 2020-06-24 | 一种面向标记噪声的多标记分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783788B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283467B (zh) * | 2021-04-14 | 2022-10-18 | 南京大学 | 一种基于平均损失和逐类选择的弱监督图片分类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491865A (zh) * | 2018-03-05 | 2018-09-04 | 南京邮电大学 | 一种基于度量学习的多示例多标记分类方法 |
CN109685103A (zh) * | 2018-11-13 | 2019-04-26 | 成都四方伟业软件股份有限公司 | 一种基于广义k均值算法的文本多标记学习方法 |
CN110598733A (zh) * | 2019-08-05 | 2019-12-20 | 南京智谷人工智能研究院有限公司 | 一种基于交互建模的多标记距离度量学习方法 |
-
2020
- 2020-06-24 CN CN202010583875.4A patent/CN111783788B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111783788A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN112765358B (zh) | 一种基于噪声标签学习的纳税人行业分类方法 | |
CN101937513B (zh) | 信息处理设备、信息处理方法 | |
CN109086770B (zh) | 一种基于精准尺度预测的图像语义分割方法及模型 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
CN112541355B (zh) | 一种实体边界类别解耦的少样本命名实体识别方法与系统 | |
CN107943856A (zh) | 一种基于扩充标记样本的文本分类方法及系统 | |
CN113610173A (zh) | 一种基于知识蒸馏的多跨域少样本分类方法 | |
CN109948735B (zh) | 一种多标签分类方法、系统、装置及存储介质 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN114863091A (zh) | 一种基于伪标签的目标检测训练方法 | |
CN114676777A (zh) | 一种基于孪生网络的自监督学习细粒度图像分类方法 | |
CN114255371A (zh) | 一种基于组件监督网络的小样本图像分类方法 | |
CN111783788B (zh) | 一种面向标记噪声的多标记分类方法 | |
CN117153268A (zh) | 一种细胞类别确定方法及系统 | |
CN116663540A (zh) | 基于小样本的金融事件抽取方法 | |
CN111144466B (zh) | 一种图像样本自适应的深度度量学习方法 | |
CN111652265A (zh) | 一种基于自调整图的鲁棒半监督稀疏特征选择方法 | |
CN117197568A (zh) | 一种基于clip的零样本图像识别方法 | |
CN110909645A (zh) | 一种基于半监督流形嵌入的人群计数方法 | |
CN113379037B (zh) | 一种基于补标记协同训练的偏多标记学习方法 | |
CN115273100A (zh) | 一种基于语义引导鉴别器的半监督汉字图像生成方法 | |
CN113344031B (zh) | 一种文本分类方法 | |
CN114202671A (zh) | 一种图像预测优化处理方法及装置 | |
CN112990210A (zh) | 一种基于二维空间注意力的车牌识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |