CN111581466B - 特征信息存在噪声的偏多标记学习方法 - Google Patents
特征信息存在噪声的偏多标记学习方法 Download PDFInfo
- Publication number
- CN111581466B CN111581466B CN202010411580.9A CN202010411580A CN111581466B CN 111581466 B CN111581466 B CN 111581466B CN 202010411580 A CN202010411580 A CN 202010411580A CN 111581466 B CN111581466 B CN 111581466B
- Authority
- CN
- China
- Prior art keywords
- matrix
- label
- characteristic information
- model
- confidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 239000011159 matrix material Substances 0.000 claims abstract description 141
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 21
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims description 4
- 230000008602 contraction Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- UGTJLJZQQFGTJD-UHFFFAOYSA-N Carbonylcyanide-3-chlorophenylhydrazone Chemical compound ClC1=CC=CC(NN=C(C#N)C#N)=C1 UGTJLJZQQFGTJD-UHFFFAOYSA-N 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 101001030591 Homo sapiens Mitochondrial ubiquitin ligase activator of NFKB 1 Proteins 0.000 description 1
- 102100038531 Mitochondrial ubiquitin ligase activator of NFKB 1 Human genes 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种特征信息存在噪声的偏多标记学习方法。该方法包括:构建包含噪声的观测的特征信息矩阵,构建标签置信度矩阵;利用低秩稀疏表示模型将特征信息矩阵分解为稀疏噪声矩阵和正确的特征信息矩阵,利用稀疏噪声矩阵、正确的特征信息矩阵和观测的特征信息矩阵构建多标记预测模型;利用标签置信度矩阵对多标记预测模型进行优化,得到构建嵌入了特征信息和标签置信度的混合模型,对混合模型进行训练得到偏多标签学习模型;利用偏多标签学习模型对未见示例预测出未见示例对应的标签。本发明的方法利用低秩和稀疏分解模型准确地恢复正确的特征信息,有效地减少噪声特征信息的影响;将样本相似性和标签置信度结合,进一步提升标签置信度的准确性。
Description
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种特征信息存在噪声的偏多标记学习方法。
背景技术
随着互联网技术的发展,数据量急剧增大,需要标注的数据也在快速增长。本身标注多标签数据非常耗时,数据量的进一步增大,导致标注者只能粗略的标注数据,致使数据的候选标签集中除了相关标签外还包含少量不相关标签,利用这类不精确标注的数据构建有效的学习模型被定义为偏多标签学习,该问题是目前机器学习的研究热点。
虽然偏多标签学习刚出现不久,但已有不少方法被提出来解决这一问题,其中一些工作试图通过嵌入特征信息来处理偏多标签学习问题。有方案提出将标签冗余问题定义为偏多标签学习问题,利用特征信息来学习标签置信度,通过标签置信度完成标签排序,从而得到正确的标签。另一种方案提出了一种基于特征诱导的偏多标签学习算法,该算法利用标签与特征之间的潜在依赖关系识别噪声标签,并训练预测模型。利用标签与特征之间的依赖关系得到标签置信度,然后基于得到的标签置信度,提出了梯度增强算法来学习预测模型。另外,还有方案利用标签关系来处理偏多标签学习问题。提出了一种两阶段的偏多标签学习方法,该方法在第一阶段通过迭代标签传播估计每个训练示例的候选标签的标签置信度,第二阶段利用具有高标签置信度的可信标签,通过虚拟标签分裂或最大后验推理对标签进行两两排序,得到标签预测器。还有方案利用低秩稀疏分解模型将观测的候选标签矩阵分解为低秩的真实标签矩阵和稀疏的噪声标签矩阵,引入最小二乘损失函数学习特征映射矩阵。
上述现有技术中的偏多标签学习方案的缺点包括:有方案只是单纯地利用标签关系来学习偏多标签学习分类器。还有方案虽然引入特征信息这类辅助信息来完成分类器的学习,但却忽视了特征信息存在噪声的情况。由于遮挡,镜面反射及图像噪声等情况造成的特征信息存在噪声的问题普遍存在于现实应用中,并且噪声的存在会导致标签信息出错,最终会影响偏多标签学习方法的性能。如何有效的去除特征信息中的噪声并充分利用特征信息完成偏多标签学习模型的训练是目前的研究难点。
发明内容
本发明的实施例提供了一种特征信息存在噪声的偏多标记学习方法,以克服现有技术的缺点。
为了实现上述目的,本发明采取了如下技术方案。
一种特征信息存在噪声的偏多标记学习方法,包括:
构建包含噪声的观测的特征信息矩阵,构建标签置信度矩阵;
利用低秩稀疏表示模型将所述特征信息矩阵分解为稀疏噪声矩阵和正确的特征信息矩阵,利用所述稀疏噪声矩阵、正确的特征信息矩阵和观测的特征信息矩阵构建多标记预测模型;
利用所述标签置信度矩阵对所述多标记预测模型进行优化,得到构建嵌入了特征信息和标签置信度的混合模型,对所述混合模型进行训练得到偏多标签学习模型;
利用训练好的偏多标签学习模型对未见示例进行预测,预测出所述未见示例对应的标签。
优选地,所述的构建包含噪声的观测的特征信息矩阵,构建标签置信度矩阵,包括:
构建包含噪声的观测的特征信息矩阵其中m表示样本数目,n表示特征向量的维数,对特征信息矩阵X中的特征数据进行归一化处理,构建包含冗余标签的标签矩阵Y∈{0,1}m×l,其中m表示样本数目,l表示标签数目,其中yij=1表示示例xi标注了标签yj;yij=0,表示示例xi没有标注标签yj;
构建标签置信度矩阵P∈[0,1]m×l,其中pik代表标签yk是样本xi的真实标签的置信度。
优选地,所述的利用低秩稀疏表示模型将所述特征信息矩阵分解为稀疏噪声矩阵和正确的特征信息矩阵,利用所述稀疏噪声矩阵、正确的特征信息矩阵和观测的特征信息矩阵构建多标记预测模型,包括:
利用低秩和稀疏分解方法将观测的特征信息矩阵X分解为低秩无噪声的正确的特征信息矩阵D和稀疏噪声矩阵Τ,X=D+T,其中是一个正确的特征信息矩阵,是稀疏噪声矩阵,包含特征信息中的异常值;
设多标记预测函数f=[f1,,f2,…fl]由l个函数组成,每个函数对应一个标签,每个预测函数为线性函数,定义为fi(X)=Xwi,将多标记预测模型的参数定义为:引入损失函数/>来学习得到预测模型W,遵循传统的机器学习规则,通过解决以下问题来训练预测模型W:
s.t.X=D+T
引入核范数来约束预测模型W。
优选地,所述的利用所述标签置信度矩阵对所述多标记预测模型进行优化,得到构建嵌入了特征信息和标签置信度的混合模型,包括:
S2-2:引入标签置信度矩阵P取代原本的标签矩阵Y来训练预测模型W,约束标签置信度矩阵标签置信度矩阵P需要满足以下条件:
4.每个候选标签都有成为相关标签的概率,每个候选标签的置信度位于[0,1]之间;
5.每个非候选标签的置信度为0,标签置信度矩阵P小于观测的标签矩阵Y;
6.利用约束来保证每个候选标签集中的相关标签数量至少为一个;
S2-3:标签置信度矩阵P与训练数据的特征信息保持一致,即若两个样本相似,相应的两个样本的标签也一致,定义相似性矩阵S,其中Sij为训练示例di与dj之间的相似度,如果/>或者/>表示当/>是d的k个近邻元素之一,里k和σ根据经验分别设置为0.01和1,得到了关于标签置信度矩阵P的以下正则项:
其中是图拉普拉斯矩阵,E是对角矩阵且/>
通过将损失函数项中的Y替换为P,将特征信息和标签置信度矩阵正则项联合建模,构建嵌入特征信息和标签置信度的混合模型,该混合模型的公式定义如下:
其中α、β、γ和η是保持模型平衡的调节参数。
优选地,所述的对所述混合模型进行训练得到偏多标签学习模型,包括:
S3-1:在固定P的情况下,其余的参数项用增广拉格朗日乘子法来求解,当固定W、D和T时,用二次规划优化P,模型初始化,按以下规则初始化参数模型:
W=zeros(n,l)
D=X
T=zeros(m,l)
P=Y
S3-2:固定P,采用拉格朗日乘子法法求解D、T和W优化问题表示为:
s.t.X=D+T
上述优化问题是凸的,引入等价替换变量,把上述优化问题转换成下面的等价问题:
s.t.X=D+T;W=J;D=K
将上述等价问题用ALM方法来解决,最小化以下的增广拉格朗日函数:
其中和/>是拉格朗日乘子矩阵,μ1、μ2和μ3是惩罚参数,根据LADMAP方法该公式进一步改写为:
上述公式通过以下子问题迭代求解:
第一步:固定D、T、J和K,更新W的优化问题为:
这是一个最小二乘回归问题,直接求导得W的解:
W=(KTK+μ2Im)-1(μ2J+KTP-Y2)
第二步:固定D、T、K和W,更新J的优化问题等价于如下公式:
通过计算W+Y2/μ2的奇异值分解(SVD),得到J的最优解;
第三步:固定T、J、K和W,更新D的优化问题等价于如下公式:
通过计算μ2(X-T)+Y2+μ3K-Y3的奇异值分解,对奇异值进行一些软阈值化处理,得到D的解;
第四步:固定D、J、K和W,更新T的优化问题如下:
其中是收缩算子;
第五步:固定D、T、J和W,更新K的优化问题是最小二乘问题,与W的求解一样,求导得K的解;
第六步:根据LADM方法对拉格朗日乘子矩阵和惩罚参数进行更新:
S3-3:固定D、T、J、K和W,更新P的优化问题为:
该公式是一个有约束的凹凸问题,约束是线性的,使用CCCP准则来更新P,得到局部最优的通过将/>改为/>得到最终更新的标签置信度矩阵P;
S3-4:重复S3-2到S3-3,不断交替更新参数W、D、T和P,直到满足迭代停止条件,混合模型收敛,得到训练好的偏多标签学习模型
优选地,所述的迭代停止条件为目标函数值小于某个预设定阈值,或者W、D、T和P的每一位都不再发生变化;或者达到迭代的最大次数。
优选地,所述的利用训练好的偏多标签学习模型对未见示例进行预测,预测出所述未见示例对应的标签,包括:
利用训练好的偏多标签学习模型W'对未见示例xi进行预测,将未见示例xi输入到训练好的偏多标签学习模型W*,计算出预测值y=xiW',y包含有l个值,分别对应l个标记,将预测值y中的l个数值由高到低进行排序,选择排在前设定名称的数值,确定这些前设定名称的数值对应的标记为未见示例xi对应的标记。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例公开了一种特征信息存在噪声的偏多标签学习方法,该方法可以去除训练示例特征信息中的噪声和异常值,同时训练出鲁棒的偏多标签分类器用于未标注示例的预测。在来自不同领域的十个数据集上进行的大量实验证明了本发明的有效性。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种特征信息存在噪声的偏多标签学习方法的处理流程图;
图2为本发明实施例提供的一种嵌入特征信息和标签置信度的混合模型的训练工作流程图;
图3为本发明实施例方法与现有多标签学习及偏多标签学习方法的对比实验结果。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
偏多标签学习是一种监督信息不精确的新型多标签学习框架。在这种学习框架中,每个示例都被分配了多个候选标签,而这些标签中只有部分是正确的。
噪声特征信息由于遮挡、镜面反射或图像噪声等原因导致训练样本的特征中包含异常值,异常值的存在导致标注者错误标注数据,影响算法的性能。
本发明实施例提出了一种特征信息存在噪声的偏多标签学习方法,该方法通过低秩和稀疏分解模型能够准确地恢复正确的特征信息,成功地减少噪声特征信息的影响;另一方面,该算法通过引入标签自信度矩阵修复正确标签,避免冗余标签的消极影响,使我们的方法比之前的偏多标签学习算法更加鲁棒。
本发明实施例提出的一种特征信息存在噪声的偏多标签学习方法的处理流程如图1所述,具体包括以下步骤:
步骤S1、构建包含噪声的观测的特征信息矩阵其中m表示样本数目,n表示特征向量的维数,对特征数据进行归一化处理,构建包含冗余标签的标签矩阵Y∈{0,1}m×l,其中m表示样本数目,l表示标签数目,表示对应的已标注示例的标签分配情况,其中yij=1表示示例xi标注了标签yj;yij=0,表示示例xi没有标注标签yj。
构建标签置信度矩阵P∈[0,1]m×l,其中pik代表标签yk是样本xi的真实标签的置信度。
步骤S2、利用低秩稀疏分解模型从观测的特征信息矩阵X中去除噪声特征,得到;将所述特征信息矩阵分解为稀疏噪声矩阵Τ和正确的特征信息矩阵利用所述稀疏噪声矩阵Τ、正确的特征信息矩阵D和观测的特征信息矩阵X构建多标记预测模型。
步骤S3、利用所述标签置信度矩阵P对所述多标记预测模型进行优化,得到构建嵌入了特征信息和标签置信度的混合模型,对所述混合模型进行训练得到得到鲁棒的训练好的偏多标签学习模型
步骤S4、利用训练好的偏多标签学习模型W'对未见示例xi进行预测,将未见示例xi输入到训练好的偏多标签学习模型W*,计算出预测值y=xiW'。因为观测的标记矩阵包含有l个标记,y包含有l个值,分别对应l个标记,将预测值y中的l个数值由高到低进行排序,选择排在前设定名称(比如5)的数值,确定这些前设定名称的数值对应的标记为未见示例xi对应的标记。
步骤S2中的构建正确的特征矩阵D和标签置信度矩阵P具体包括如下步骤:
S2-1:为观测的特征信息矩阵,其中可能包含异常值。形式上,定义X=D+T,其中/>是一个正确的特征信息矩阵,/>是稀疏噪声矩阵,包含特征信息中的异常值。在实际应用中,观测到的特征矩阵中的异常值通常是稀疏的,而无噪声的特征信息通常共存于一个低维空间中。因此,本发明利用低秩和稀疏分解方法将观测的特征信息矩阵X分解为低秩无噪声的正确的特征信息矩阵D和稀疏噪声矩阵Τ。
我们期望学习的多标记预测函数f=[f1,,f2,…fl]由l个函数组成,每个函数对应一个标签。我们规定每个预测函数为线性函数,定义为fi(X)=Xwi,在此我们将预测模型定义为/>引入损失函数/>即可学得预测模型W。这样遵循传统的机器学习规则,可以通过解决以下问题来训练预测模型W:
s.t.X=D+T
在此,考虑标签相关性本发明引入核范数来约束预测模型W。
S2-2:目前,本发明已解决了特征信息存在噪声的多标记学习问题,并学习了多标记预测模型W。但是当前的预测模型W并不适用于存在标记冗余问题的偏多标记学习问题,因此我们提出了嵌入特征信息和标签置信度的混合模型来改进当前的多标记预测模型W,学习更鲁棒的偏多标记预测模型。
引入标签置信度矩阵P修复正确的特征信息矩阵D中的真实标签,考虑特征相似性和标签置信度一致性,即如果两个样本相似,相应的两个样本的标签也应该趋于一致,定义特征相似性矩阵同时引入图拉普拉斯正则项进一步约束标签置信度矩阵P,从而提高偏多标签学习算法的性能。
在偏多标签学习中,观察到的标签矩阵Y总是包含不相关的标签。为了解决这个问题,引入标签置信度矩阵P取代原本的标签矩阵来训练模型。
同时,为了缩小学习的标签置信度矩阵P和真实标签信息的差值,我们约束P需要满足以下条件:
7.由于每个候选标签都有成为相关标签的概率,所以每个候选标签的置信度应该位于
[0,1]之间;
8.由于每个非候选标签的置信度应该严格为0,所以标签置信度矩阵P应该小于观测的标签矩阵Y,在此使用约束0m×l≤P≤Y来满足这种逻辑关系。
9.我们利用约束来保证每个候选标签集中的相关标签数量至少为一个。
S2-3:标签置信度矩阵P应该与训练数据的特征信息保持一致,即若两个样本相似,相应的两个样本的标签也应该趋于一致。首先定义相似性矩阵S,其中Sij为训练示例di与dj之间的相似度,如果/>或者/>表示当是d的k个近邻元素之一。这里k和σ根据经验分别设置为0.01和1。如果理想的标签置信度矩阵P反映了示例的内容,那么期望Sij‖pi-pj‖2的值很小。结合上述准则,得到了关于标签置信度矩阵P的以下正则项:
其中是图拉普拉斯矩阵,E是对角矩阵且/>
通过将损失函数项中的Y替换为P,然后将特征信息和标签置信度矩阵正则项联合建模,构建嵌入特征信息和标签置信度的混合模型,该混合模型的公式定义如下:
其中α、β、γ和η是保持模型平衡的调节参数。
图2为本发明实施例提供的一种嵌入特征信息和标签置信度的混合模型的训练工作流程图,步骤S3中的训练嵌入特征信息和标签置信度的混合模型的具体步骤如下:
S3-1:将混合模型的四个变量一起优化比较困难,本发明采用交替优化方法求解目标函数。具体来说,在固定P的情况下,其余的参数项可以用增广拉格朗日乘子法(ALM)来求解。当固定W、D和T时,用二次规划优化P。模型初始化,按以下规则初始化参数模型:
W=zeros(n,l)
D=X
T=zeros(m,l)
P=Y
S3-2:固定P,采用拉格朗日乘子法法求解D、T和W优化问题可以写成:
s.t.X=D+T
该问题是凸的,可以有效地优化。首先引入等价替换变量,把它转换成下面的等价问题:
s.t.X=D+T;W=J;D=K
这个优化问题可以用ALM方法来解决,最小化了以下的增广拉格朗日函数:
其中和/>是拉格朗日乘子矩阵,μ1、μ2和μ3是惩罚参数。根据LADMAP方法该公式可进一步改写为:
上述公式可以通过以下子问题迭代求解:
第一步:固定D、T、J和K,更新W的优化问题为:
这是一个普通的最小二乘回归问题,可直接求导得W的解:
W=(KTK+μ2Im)-1(μ2J+KTP-Y2)
第二步:固定D、T、K和W,更新J的优化问题等价于如下公式:
结果表明,通过计算W+Y2/μ2的奇异值分解(SVD),可以得到J的最优解。
第三步:固定T、J、K和W,更新D的优化问题等价于如下公式:
通过计算μ2(X-T)+Y2+μ3K-Y3的奇异值分解,然后对奇异值进行一些软阈值化处理,可以得到D的解。
第四步:固定D、J、K和W,更新T的优化问题如下:
其中是收缩算子。
第五步:固定D、T、J和W,更新K的优化问题也是普通最小二乘问题,与W的求解一样,可直接求导得K的解。
第六步:根据LADM方法对拉格朗日乘子矩阵和惩罚参数进行更新:
S3-3:固定D、T、J、K和W,更新P的优化问题为:
该公式是一个有约束的凹凸问题。由于约束是线性的,可以直接使用Convex-ConCave Procedure(CCCP)准则来更新P。
第一步:将上述公式分解为两个凸函数:和/>在每个迭代中,/>被它的一阶泰勒逼近/>代替,原始问题可以被/>逼近,这就变成了一个凸问题。
第二步:对于我们的问题,用P(i)来表示在第i次迭代时更新的值,并对在P(i)进行泰勒近似线性化:
第三步:合并两项可得松弛近似公式并求解:
该优化问题可以重新表述为标准二次规划问题。将向量化为/>等式约束同样使用/>向量,我们通过定义一个集合/>来获取/>的索引,如下所示:
因此,P的优化问题等价于:
在此H=Iml×ml、其中/>是Kronecker积。通过这种方式可以解决该二次规划问题,最终得到局部最优的/>最后,通过将/>改为得到最终更新的置信矩阵P。
S3-4:重复S3-2到S3-3,不断交替更新参数W、D、T和P,直到满足迭代停止条件,混合模型收敛,得到鲁棒的训练好的偏多标签学习模型上述迭代停止条件可以为目标函数值小于某个预设定阈值,或者W、D、T和P的每一位都不再发生变化;或者达到迭代的最大次数。
本发明公开一种特征信息存在噪声的偏多标签学习方法,重在保护嵌入特征信息和标签置信度的的偏多标签学习方法模型和训练方法;在实施中,采用了核范数控制预测模型的复杂度,熟悉本领域技术的人员显然可以容易地针对上述实施例做出各种修改,例如将核范数替换为其他变体模型,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。故凡依本发明申请专利范围所做出的改进和修改,均应包括于本发明专利的申请范围内。
本发明在Cal500、Emotions、Genbase、Medical、Scene、Corel5k、Bibtex、Delicious、Eurlex_dc、Eurlex_sm十个多标签学习数据集上进行了实验,并将本发明所述方法(Partial Multi-label Learning withNoisy Side Information,简称PML-NSI))与目前八种主流的方法进行了对比实验分析,包括三种多标签学习算法和五种偏多标签学习方法。
三个多标签学习方法包括最传统的支持向量机方法(Binary Reference Modelbased on RBF Kernel,简称BSVM),该方法未考虑标签的相关性,将多标签学习问题分解成独立的二分类问题。利用特征信息的矩阵补全多标签学习方法(Matrix completion usingside information,简称Maxide),该方法将多标签学习问题转换为矩阵填充问题,并利用特征信息完成分类模型的训练,发表于人工智能领域顶级会议NIPS2013;基于标签特定特征的多标签学习方法(LIFT:multi-label learning with label-specific features,简称LIFT),与现有的基于标签相关性的多标签学习方法不同,该方法试图利用标签的特征进行多标签学习。该方法利用每个标签特定的特征信息解决了多标签学习问题,发表于人工智能领域顶级期刊TPAMI。
五个偏多标签学习方法包括偏多标签学习方法(Partial Multi-labelLearning,简称PML-lc和PML-fp),该方法利用标签相关性和特征信息矩阵学习标签置信度矩阵衡量每个候选标签是正确标签的概率,通过同时优化分类模型和标签置信值来解决偏多标签学习问题,发表于人工智能领域的顶级会议AAAI2018;通过可信标签启发的偏多标签学习方法(Partial Multi-Label Learning via Credible Label Elicitation简称P-VLS和P-MAP),这是最近提出的两阶段偏多标签学习方法,该方法首先从候选标签集中提取可信标签,再利用具有高置信度的可信标签,通过虚拟标签分裂或最大后验推理对标签进行排序,进而得到预测模型,根据标签排序方式不同,该方法提供过了两种偏多标签学习方法,发表于人工智能领域的顶级会议AAAI2019;基于低秩稀疏分解的偏多标签学习方法(Partial Multi-Label Learning by Low-Rank and Sparse Decomposition,简称PML-LRS),该方法通过低秩稀疏分解方法获取了正确标签矩阵同时学习了预测模型,发表于人工智能领域的顶级会议AAAI2019。
本发明使用的十个合成数据集来源于多标签数据集网站MULAN,其中Corel5k和Scene数据集是图像标注数据集,CAL500和Emotion数据集是音乐分类数据集,Genbase是蛋白质分类数据集,Medical、Bibtex、Delicious、Eurlex_dc和Eurlex_sm数据集是文本分类数据集。
本发明采用了5个广泛使用的偏多标签学习评价指标对实验结果进行评估,包括Ranking Loss,Hamming Loss,One Error,Coverage和Average Precision。它们从不同的角度评价偏多标签学习算法的预测性能,多个评价指标一起共同使用以便做出综合的评价。
图3展示了BSVM、Maxide、LIFT、PML-lc、PML-fp、P-VLS、P-MAP、PML-LRS、PML-NSI方法在Corel5k、Delicious、Bibtex、Eurlex-dc、Eurlex-sm数据集上的对比实验结果,评价指标为Ranking Loss、Hamming Loss和One Error,其中加粗项表示最优值。
本发明采用Friedman检测和Bonferroni-Dunn检测作为统计检验方法,分析对比方法之间的性能差异。上述实验结果表明:与其他方法相比,本发明的实验结果具有明显的提升。
综上所述,本发明实施例公开了一种特征信息存在噪声的偏多标签学习方法,该方法可以去除训练示例特征信息中的噪声和异常值,同时训练出鲁棒的偏多标签分类器用于未标注示例的预测。在来自不同领域的十个数据集上进行的大量实验证明了本发明的有效性。
本发明实施例的特征信息存在噪声的偏多标签学习方法利用低秩和稀疏分解模型准确地恢复正确的特征信息,有效地减少噪声特征信息的影响;该方法引入标签自信度矩阵修复正确标签,移除冗余标签的消极影响,并将样本相似性和标签置信度结合,进一步提升标签置信度的准确性,使本发明比之前的偏多标签学习算法更鲁棒。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (3)
1.一种特征信息存在噪声的偏多标记学习方法,其特征在于,包括:
构建包含噪声的观测的特征信息矩阵,构建标签置信度矩阵;
利用低秩稀疏表示模型将所述特征信息矩阵分解为稀疏噪声矩阵和正确的特征信息矩阵,利用所述稀疏噪声矩阵、正确的特征信息矩阵和观测的特征信息矩阵构建多标记预测模型;
利用所述标签置信度矩阵对所述多标记预测模型进行优化,得到构建嵌入了特征信息和标签置信度的混合模型,对所述混合模型进行训练得到偏多标记学习模型;
利用训练好的偏多标记学习模型对未见示例进行预测,预测出所述未见示例对应的标签,
所述的构建包含噪声的观测的特征信息矩阵,构建标签置信度矩阵,包括:
构建包含噪声的观测的特征信息矩阵其中m表示样本数目,n表示特征向量的维数,对特征信息矩阵X中的特征数据进行归一化处理,构建包含冗余标签的标签矩阵Y∈{0,1}m×l,其中m表示样本数目,l表示标签数目,其中yij=1表示示例xi标注了标签yj;yij=0,表示示例xi没有标注标签yj;
构建标签置信度矩阵P∈[0,1]m×l,其中pik代表标签yk是样本xi的真实标签的置信度,
所述的利用低秩稀疏表示模型将所述特征信息矩阵分解为稀疏噪声矩阵和正确的特征信息矩阵,利用所述稀疏噪声矩阵、正确的特征信息矩阵和观测的特征信息矩阵构建多标记预测模型,包括:
利用低秩和稀疏分解方法将观测的特征信息矩阵X分解为低秩无噪声的正确的特征信息矩阵D和稀疏噪声矩阵T,其中X=D+T,其中是一个正确的特征信息矩阵,是稀疏噪声矩阵,包含特征信息中的异常值;
设多标记预测函数f=[f1,f2,…f1]由1个函数组成,每个函数对应一个标签,每个预测函数为线性函数,定义为fi(X)=Xwi,
将多标记预测模型的参数定义为:
引入损失函数/>遵循传统的机器学习规则,通过解决以下问题来训练预测模型W:
s.t.X=D+T,
引入核范数来约束预测模型,
所述的利用所述标签置信度矩阵对所述多标记预测模型进行优化,得到构建嵌入了特征信息和标签置信度的混合模型,包括:
S2-2:引入标签置信度矩阵P取代原本的标签矩阵Y来训练预测模型W,约束标签置信度矩阵标签置信度矩阵P需要满足以下条件:
条件1.每个候选标签都有成为相关标签的概率,每个候选标签的置信度位于[0,1]之间;
条件2.每个非候选标签的置信度为0,标签置信度矩阵P小于观测的标签矩阵Y;
条件3.利用约束来保证每个候选标签集中的相关标签数量至少为一个;
S2-3:标签置信度矩阵P与训练数据的特征信息保持一致,即若两个样本相似,相应的两个样本的标签也一致,定义相似性矩阵S,其中Sij为训练示例di与dj之间的相似度如果/>或者/>表示当/>是d的k个近邻元素之一,里k和σ根据经验分别设置为0.01和1,得到了关于标签置信度矩阵P的以下正则项:
s.t.0m×l≤P≤Y;
其中是图拉普拉斯矩阵,E是对角矩阵且/>
通过将损失函数项中的Y替换为P,将特征信息和标签置信度矩阵正则项联合建模,构建嵌入特征信息和标签置信度的混合模型,该混合模型的公式定义如下:
s.t.X=D+T;0m×l≤P≤Y;
其中α、β、γ和η是保持模型平衡的调节参数,
所述的对所述混合模型进行训练得到偏多标记学习模型,包括:
S3-1:在固定P的情况下,其余的参数项用增广拉格朗日乘子法来求解,当固定W、D和T时,用二次规划优化P,模型初始化,按以下规则初始化参数模型:
W=zeros(n,1)
D=X
T=zeros(m,l)
P=Y
S3-2:固定P,采用拉格朗日乘子法求解D、T和W优化问题表示为:
s.t.X=D+T,
上述优化问题是凸的,引入等价替换变量,把上述优化问题转换成下面的等价问题:
s.t.X=D+T;W=J;D=K,
以下的增广拉格朗日函数:
其中和/>是拉格朗日乘子矩阵,μ1、μ2和μ3是惩罚参数,根据LADMAP方法该公式进一步改写为:
上述公式通过以下子问题迭代求解:
第一步:固定D、T、J和K,更新W的优化问题为:
这是一个最小二乘回归问题,直接求导得W的解:
W=(KTK+μ2Im)-1(μ2J+KTP-Y2),
第二步:固定D、T、K和W,更新J的优化问题等价于如下公式:
通过计算W+Y2/μ2的奇异值分解(SVD),得到J的最优解;
第三步:固定T、J、K和W,更新D的优化问题等价于如下公式:
通过计算μ2(X-T)+Y2+μ3K-Y3|的奇异值分解,对奇异值进行一些软阈值化处理,得到D的解;
第四步:固定D、J、K和W,更新T的优化问题如下:
其中是收缩算子;
第五步:固定D、T、J和W,更新K的优化问题是最小二乘问题,与W的求解一样,求导得K的解;
第六步:根据LADM方法对拉格朗日乘子矩阵和惩罚参数进行更新:
S3-3:固定D、T、J、K和W,更新P的优化问题为:
s.t.0m×l≤P≤Y;
该公式是一个有约束的凹凸问题,约束是线性的,使用CCCP准则来更新P,得到局部最优的通过将/>改为/>得到最终更新的标签置信度矩阵P;
S3-4:重复S3-2到S3-3,不断交替更新参数W、D、T和P,直到满足迭代停止条件,混合模型收敛,得到训练好的偏多标记学习模型
2.根据权利要求1所述的方法,其特征在于,所述的迭代停止条件为目标函数值小于某个预设定阈值,或者W、D、T和P的每一位都不再发生变化;或者达到迭代的最大次数。
3.根据权利要求1至2任一项所述的方法,其特征在于,所述的利用训练好的偏多标记学习模型对未见示例进行预测,预测出所述未见示例对应的标签,包括:
利用训练好的偏多标记学习模型W′对未见示例xi进行预测,将未见示例xi输入到训练好的偏多标记学习模型W,计算出预测值y=xiW’,y包含有1个值,分别对应1个标记,将预测值y中的1个数值由高到低进行排序,选择排在前设定名称的数值,确定这些前设定名称的数值对应的标记为未见示例xi对应的标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010411580.9A CN111581466B (zh) | 2020-05-15 | 2020-05-15 | 特征信息存在噪声的偏多标记学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010411580.9A CN111581466B (zh) | 2020-05-15 | 2020-05-15 | 特征信息存在噪声的偏多标记学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581466A CN111581466A (zh) | 2020-08-25 |
CN111581466B true CN111581466B (zh) | 2024-02-27 |
Family
ID=72126671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010411580.9A Active CN111581466B (zh) | 2020-05-15 | 2020-05-15 | 特征信息存在噪声的偏多标记学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581466B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884161B (zh) * | 2021-02-02 | 2021-11-02 | 山东省计算中心(国家超级计算济南中心) | 一种抗标签翻转攻击的协同学习方法、装置、设备及介质 |
CN113379037B (zh) * | 2021-06-28 | 2023-11-10 | 东南大学 | 一种基于补标记协同训练的偏多标记学习方法 |
CN117454154A (zh) * | 2023-12-22 | 2024-01-26 | 江西农业大学 | 一种面向偏标记数据的鲁棒特征选择方法 |
CN117992765A (zh) * | 2024-04-03 | 2024-05-07 | 华侨大学 | 基于动态新兴标记的偏标签学习方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715021A (zh) * | 2015-02-27 | 2015-06-17 | 南京邮电大学 | 一种基于哈希方法的多标记学习的设计方法 |
CN110060102A (zh) * | 2019-04-18 | 2019-07-26 | 重庆邮电大学 | 基于偏标记学习的用户所在商铺定位大数据预测方法 |
WO2020004867A1 (ko) * | 2018-06-29 | 2020-01-02 | 주식회사 디플리 | 자동 레이블링이 가능한 머신 러닝 방법 및 장치 |
-
2020
- 2020-05-15 CN CN202010411580.9A patent/CN111581466B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715021A (zh) * | 2015-02-27 | 2015-06-17 | 南京邮电大学 | 一种基于哈希方法的多标记学习的设计方法 |
WO2020004867A1 (ko) * | 2018-06-29 | 2020-01-02 | 주식회사 디플리 | 자동 레이블링이 가능한 머신 러닝 방법 및 장치 |
CN110060102A (zh) * | 2019-04-18 | 2019-07-26 | 重庆邮电大学 | 基于偏标记学习的用户所在商铺定位大数据预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111581466A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581466B (zh) | 特征信息存在噪声的偏多标记学习方法 | |
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
JP2019091443A (ja) | オープンセット認識方法と装置及びコンピュータ可読記憶媒体 | |
CN112364174A (zh) | 基于知识图谱的病人病历相似度评估方法及系统 | |
Li | MILD: Multiple-instance learning via disambiguation | |
JP2023549579A (ja) | ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ | |
CN110188827B (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN109447096B (zh) | 一种基于机器学习的扫视路径预测方法和装置 | |
CN111667027B (zh) | 多模态图像的分割模型训练方法、图像处理方法及装置 | |
CN110263804B (zh) | 一种基于安全半监督聚类的医学影像分割方法 | |
CN111667483A (zh) | 多模态图像的分割模型的训练方法、图像处理方法和装置 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Wang et al. | Boosting active learning via improving test performance | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
Zhao et al. | Deeply supervised active learning for finger bones segmentation | |
CN114093445B (zh) | 一种基于偏多标记学习的患者筛选标记方法 | |
WO2014130287A1 (en) | Method and system for propagating labels to patient encounter data | |
JP2019086979A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN117393098A (zh) | 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法 | |
Xin et al. | Interpretation on deep multimodal fusion for diagnostic classification | |
US20220083878A1 (en) | Label inference system | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
Arjaria et al. | Performances of Machine Learning Models for Diagnosis of Alzheimer’s Disease | |
JP5623344B2 (ja) | 縮約素性生成装置、方法、プログラム、モデル構築装置及び方法 | |
Kim et al. | AggMatch: Aggregating Pseudo Labels for Semi-Supervised Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |