CN111582506A - 基于全局和局部标记关系的偏多标记学习方法 - Google Patents

基于全局和局部标记关系的偏多标记学习方法 Download PDF

Info

Publication number
CN111582506A
CN111582506A CN202010411579.6A CN202010411579A CN111582506A CN 111582506 A CN111582506 A CN 111582506A CN 202010411579 A CN202010411579 A CN 202010411579A CN 111582506 A CN111582506 A CN 111582506A
Authority
CN
China
Prior art keywords
matrix
label
model
correct
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010411579.6A
Other languages
English (en)
Inventor
冯松鹤
李浥东
孙利娟
金�一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202010411579.6A priority Critical patent/CN111582506A/zh
Publication of CN111582506A publication Critical patent/CN111582506A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明提供了一种基于全局和局部标记关系的偏多标记学习方法。该方法包括:构建特征信息矩阵,利用特征信息矩阵构建不精确标记矩阵;利用低秩稀疏表示模型将不精确标记矩阵分解为噪声标记矩阵和正确标记系数矩阵,利用噪声标记矩阵、正确标记系数矩阵和特征信息矩阵构建所有标记的预测模型;基于正确标记系数矩阵、噪声矩阵和预测模型构建偏多标记学习模型,采用块坐标下降法迭代更新方法训练偏多标记学习模型,得到训练好的预测模型;将未见示例输入到训练好的预测模型,得到未见示例对应的标记。本发明的方法充分利用了全局和局部标签的相关性,去除有噪声的标签,通过低秩表示来训练分类器,从而提高算法的性能。

Description

基于全局和局部标记关系的偏多标记学习方法
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种基于全局和局部标记关系的偏多标记学习方法。
背景技术
多标记学习研究的是一个样本关联多个标记的问题,即样本的候选标记集中含有两个及以上的标记。随着传统行业的数字化、互联网技术的发展,产生的数据越来越多,需要标注的数据也在急剧增加。本身标注多标记数据就很费时费力,数据量急剧增大,导致标注者只能粗略的标注数据。因此在实际应用中,人们拿到的标注数据对应的候选标记集中除了相关标记外,还包含了多余的不相关标记,这类标记冗余问题被定义为偏多标记学习问题。如何利用这些不精确标注的数据构建有效的学习模型,是目前机器学习的研究热点。
虽然偏多标记学习刚成为最新的研究热点,但已经有一些工作开始尝试处理这类问题。例如,2018年黄圣君等人首次将标记冗余的问题定义为偏多标记学习问题,并提出PML-lc和PML-fp学习算法,通过标记相关性或者特征信息来学习标记置信度,利用标记置信度来度量每个候选标记成为真实标记的概率,并根据标记的排名得到正确的标签。张敏灵等人提出了一种的两阶段的偏多标记学习方法PML-VLS和PML-MAP,该方法通过利用启发式的可信标记从候选标签集中提取可信的标签来工作。为了进一步提高偏多标记学习方法的去噪能力,PML-LRS将观测的候选标记矩阵分解为一个真实标记矩阵和一个不相关的标签矩阵,前者被约束为低秩,后者被假设为稀疏的。然后利用特征映射矩阵来探索标签的相关性,同时将特征映射矩阵约束为低秩,以防止过拟合。
另外,一些工作试图通过嵌入特征信息来处理偏多标记学习问题。例如,余国先等人提出了一种基于特征诱导的偏多标记学习算法,该算法利用标记与特征之间的潜在依赖关系识别噪声标签,并训练预测模型。不同于前面的做法,DRAMA利用标记与特征之间的依赖关系得到标记置信度,然后基于得到的标记置信度,提出了梯度增强算法来学习预测模型。PML-NI是一种新的PML方法,它假设噪声标签通常是由示例中某些模糊内容引起的,并通过将预测模型矩阵分解为基真标签预测和噪声标签识别来解决偏多标记学习问题。
上述现有技术中的偏多标记学习方法的缺点为:现有技术中的偏多标记学习方法没有充分利用标记相关性。只是简单地使用两个标签的共现率作为局部标记相关性来学习置信值。由于噪声标签的存在,这种方法获得的标记置信值是不可靠的,甚至会影响偏多标记学习方法的性能。
现有技术中的偏多标记学习方法直观地利用全局标签的相关性,将低秩的基本真值标签矩阵分解为两个较小的矩阵。但是实际应用中很难确定两个较小的矩阵的最佳大小,没有考虑特征信息可能是有噪声的,这可能会影响学习标记的相关性。
发明内容
本发明的实施例提供了一种基于全局和局部标记关系的偏多标记学习方法,以克服现有技术的问题。
为了实现上述目的,本发明采取了如下技术方案。
一种基于全局和局部标记关系的偏多标记学习方法,包括:
构建特征信息矩阵,对所述特征信息矩阵中的特征数据进行归一化处理,构建不精确标记矩阵;
利用低秩稀疏表示模型将所述不精确标记矩阵分解为噪声标记矩阵和正确标记系数矩阵,利用所述噪声标记矩阵、正确标记系数矩阵和特征信息矩阵构建所有标记的预测模型;
基于正确标记系数矩阵、噪声矩阵和预测模型构建偏多标记学习模型,采用块坐标下降法迭代更新方法训练所述偏多标记学习模型,得到训练好的预测模型;
将未见示例输入到所述训练好的预测模型,根据所述训练好的预测模型输出的预测值确定所述未见示例对应的标记。
优选地,所述的构建特征信息矩阵和不精确标记矩阵,包括:
构建特征信息矩阵
Figure BDA0002493460270000021
其中m表示样本数目,d表示特征向量的维数,对特征信息矩阵X中的特征数据进行归一化处理,构建不精确标记矩阵Y∈{0,1}m×l,其中m表示样本数目,l表示标记数目,表示对应的已标注示例的标签分配情况,其中yij=1表示示例xi标注了标记yj;否则,yij=0表示示例xi没有标注标记yj
优选地,所述的利用低秩稀疏表示模型将所述不精确标记矩阵分解为噪声标记矩阵和正确标记系数矩阵,利用所述噪声标记矩阵、正确标记系数矩阵和特征信息矩阵构建所有标记的预测模型,包括:
利用低秩稀疏表示模型将观测的不精确标记矩阵Y分解为噪声标记矩阵Q和正确标记矩阵P,Y=P+Q,引入
Figure BDA0002493460270000039
范数来约束噪声标记矩阵Q的稀疏性,约束正确标记矩阵P为低秩,利用低秩表示构建正确标记系数矩阵
Figure BDA0002493460270000031
P=YZ,Y表示线性跨越数据空间的字典,将P=YZ代入上面的Y=P+Q,得到Y=YZ+Q;
设偏多标记预测函数f=[f1,,f2,…fl]由l个函数组成,每个函数对应一个标签,每个预测函数
Figure BDA0002493460270000032
为线性函数,定义为fi(X)=Xwi,将所有标签的预测模型W的参数定义为:
Figure BDA0002493460270000033
遵循机器学习规则,引入损失函数
Figure BDA0002493460270000034
来学习得到所述预测模型W。
优选地,所述的方法还包括:
所述噪声标记矩阵Q为稀疏矩阵,所述正确标记矩阵P为低秩矩阵,表示为:
Figure BDA0002493460270000035
利用低秩表示来获取标记之间的全局关系,将秩最小化问题定义如下:
Figure BDA0002493460270000036
其中Y是一个线性跨越YZ数据空间的字典,
Figure BDA0002493460270000037
是正确标记系数矩阵,其中z:,i表示标签yi与l个标签之间的关系系数向量,zji看作是标记yj对标记yi重构的贡献;
设正确标记系数矩阵Z是线性相关的,引入了一个迹范数来约束正确标记系数矩阵Z是低秩的,通过对低秩的正确标签系数矩阵Z的学习,获得了全局标签相关性,通过解决以下问题来训练所有标签的预测模型W:
Figure BDA0002493460270000038
s.t.Y=YZ+Q,Z≥0
引入F范数来约束所有标签的预测模型W。
优选地,所述的方法还包括:
如果第i个和第j个标签的相关性越强,则wi,:与wj,:更相似;反之亦然,将标签流形正则项定义为:
Figure BDA0002493460270000041
利用所述标签流形正则项学习标签系数矩阵Z与预测模型W之间的一致性,得到了局部标签相关性,利用局部标记相关性提升预测模型W的性能。
优选地,所述的基于正确标记系数矩阵、噪声矩阵和预测模型构建偏多标记学习模型,采用块坐标下降法迭代更新方法训练所述偏多标记学习模型,得到训练好的预测模型,包括:
S4-1:将所述正确标记系数矩阵Z和所述正确标记系数矩阵Z与预测模型W的一致性关系组合,得到基于全局和局部标记关系的偏多标记学习模型的目标函数为:
Figure BDA0002493460270000042
s.t.Y=YZ+Q,Z≥0
α,β,γ和η是权衡参数,用来保持模型平衡;
采用块坐标下降法迭代更新W,Z,Q,得到连续空间下的最优解(W*,Z*,Q*),包括如下的处理过程;
S4-2:模型初始化,然后按以下规则初始化参数模型:
W=zeros(d,l)
Z=eye(l)
Q=zeros(m,l)
S4-3:固定Z和Q,采用梯度下降法求解W,优化问题表示为:
Figure BDA0002493460270000043
交替算法的更新规则如下:
Figure BDA0002493460270000044
其中ξt是步长,使用Armijo规则自适应地确定每个迭代中的步长;
S4-4:固定W,优化Z和Q的问题表示为:
Figure BDA0002493460270000051
s.t.Y=YZ+Q,Z=J,J≥0
其中,定义矩阵
Figure BDA0002493460270000052
表示
Figure BDA0002493460270000053
根据LADMAP方法,该公式等价于:
Figure BDA0002493460270000054
其中
Figure BDA0002493460270000055
Figure BDA0002493460270000056
是拉格朗日乘子矩阵,μ1和μ2是惩罚参数。
上述公式通过以下子问题迭代求解:
第一步:固定Z和Q,更新J:当固定Z和Q时,关于J的优化问题如下:
Figure BDA0002493460270000057
这是一个最小二乘回归问题,直接求导得J的解:
Figure BDA0002493460270000058
第二步:固定J,更新Z和Q:当J固定时,关于Z和Q的子问题等价于下面的问题:
Figure BDA0002493460270000059
这是一种变形的低秩表示问题,利用奇异值分解法求得Z和Q的解是:
Figure BDA00024934602700000510
Figure BDA00024934602700000511
其中
Figure BDA00024934602700000512
是奇异值阈值,
Figure BDA00024934602700000513
是收缩操作符,αZ=(μ12Z/2,τZ>ρ(YTY)是近端参数,ρ(YTY)表示YTY的谱半径,FZ k是上述公式中第二项和第三项Zk的导数:
FZ k=μ1(YZ-Y+Q)+μ2(Z-J)+Y2-Y1
第三步:根据LADM方法对拉格朗日乘子矩阵和惩罚参数进行更新:
Figure BDA00024934602700000514
Figure BDA00024934602700000515
Figure BDA0002493460270000061
Figure BDA0002493460270000062
S4-5:重复S4-3到S4-4,不断交替更新参数W,Z,Q,直到满足迭代停止条件,偏多标记学习模型收敛,最后输出偏多标记学习模型的最优解(W*,Z*,Q*),得到训练好的偏多标记学习模型。
优选地,所述迭代停止条件为目标函数值小于某个预设定阈值,或者W、Z和Q的每一位都不再发生变化;或者达到迭代的最大次数。
优选地,所述的将未见示例输入到所述训练好的预测模型,根据所述训练好的预测模型输出的预测值确定所述未见示例对应的标记,包括:
利用训练好的预测模型W*对未见示例xi进行预测,将未见示例xi输入到训练好的预测模型W*,计算y=xiW*,得到预测模型W*的输出值y,y包含有l个值,分别对应l个标记,将y中的l个数值由高到低进行排序,选取排在前设定名次的数值对应的标记为未见示例xi对应的标记。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例提出的基于全局和局部标记关系的偏多标记学习方法充分利用了全局和局部标签的相关性,去除有噪声的标签,同时通过低秩表示来训练分类器。在来自不同领域的合成和真实数据集上进行的大量实验证明了本发明方法的有效性。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于全局和局部标记关系的偏多标记学习方法的处理流程图;
图2为本发明实施例提供的一种偏多标记学习模型的训练工作流程图;
图3为本发明方法与现有多标记学习及偏多标记学习方法的对比实验结果。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
全局标记关系是指适用于整个样本空间或标记空间的标记相关性
局部标记关系是指只适用于局部的一小部分样本或标签的标记相关性
偏多标记学习研究的是一种监督不准确的特定学习框架,在这种学习框架中,每个训练示例都被分配了多个候选标签,而这些标签中只有部分是正确的。
为了解决上述问题,本发明提出了一种基于全局和局部标记关系的偏多标记学习方法,充分利用了全局和局部标记的相关性。一方面,该方法通过引入一个正确标记系数矩阵来探索全局标记相关性,进而移除不相关标记,恢复正确标记信息;另一方面,该方法提出了一个标记流形正则化项来捕获局部标记相关性,保持标记关系和预测模型输出一致,从而提高算法的性能。
本发明实施例提供了一种基于全局和局部标记关系的偏多标记学习方法,该方法的处理流程如图1所示,具体包括以下步骤:
步骤S1、构建特征信息矩阵
Figure BDA0002493460270000081
其中m表示样本数目,d表示特征向量的维数,对特征信息矩阵X中的特征数据进行归一化处理,构建不精确标记矩阵Y∈{0,1}m×l,其中m表示样本数目,l表示标记数目,表示对应的已标注示例的标签分配情况,其中yij=1表示示例xi标注了标记yj;否则,yij=0表示示例xi没有标注标记yj
步骤S2、利用全局标记相关性获取正确标记信息,利用低秩稀疏表示模型将上述不精确标记矩阵Y分解为噪声标记矩阵Q和正确标记系数矩阵Z。利用噪声标记矩阵Q、正确标记系数矩阵和特征信息矩阵Z构建所有标记的预测模型W。
首先,我们粗略地将观测的不精确标记矩阵Y分解为噪声标记矩阵Q和正确标记矩阵P,即Y=P+Q。考虑在实际应用中,候选标记集中不相关的噪声标记总是少数,定义噪声标记矩阵为Q,并引入一个
Figure BDA0002493460270000086
范数来约束Q的稀疏性。简单地约束正确标记矩阵P为低秩,仅能获取单个子空间的标记相关性。实际应用中数据总是来源于多个子空间,而低秩表示可以跨越多个子空间来捕获正确标记之间至关重要的全局信息。因此,本发明利用低秩表示构建正确标记系数矩阵
Figure BDA0002493460270000082
来进一步完善正确标记矩阵P,得到P=YZ,此处Y表示线性跨越数据空间的字典。将P=YZ代入上面的Y=P+Q,最终可以得到Y=YZ+Q。
我们期望学习的偏多标记预测函数f=[f1,,f2,…fl]由l个函数组成,每个函数对应一个标签。我们规定每个预测函数
Figure BDA0002493460270000083
为线性函数,定义为fi(X)=Xwi,在此我们将预测模型定义为
Figure BDA0002493460270000084
遵循传统的机器学习规则,引入损失函数
Figure BDA0002493460270000085
即可学得预测模型W。
步骤S3、利用局部标记相关性提升预测模型W的性能。正相关标记会促使对应的预测模型参数相似,而负相关标记会使对应的预测模型参数不同。通过学习正确标记系数矩阵Z与预测模型W之间的一致性,获取局部标记相关性。本发明在学习正确标记系数矩阵Z和预测模型W的同时也学习了两者的一致性关系,在训练过程中三者的学习会迭代地优化正确标记系数矩阵Z和预测模型W,从而极大地提高预测模型的性能。
算法会依据学习的一致性关系改进预测模型W,直到达到最优结果。本发明中学习预测模型W和学习正确标记系数矩阵Z与预测模型W一致性关系是同时学习,相互约束的。学习预测模型W,学习正确标记系数矩阵Z,和学习正确标记系数矩阵Z与预测模型W一致性关系三个子问题是同时进行的。在学习过程中,算法会依据每个子问题的求解来自动学习更新各自的结果,直到达到最优值为止。
步骤S4、将S2学得的正确标记系数矩阵Z和S3学得的正确标记系数矩阵Z与预测模型W的一致性关系组合,构建基于全局和局部标记关系的偏多标记学习模型。采用块坐标下降法迭代更新方法训练上述基于全局和局部标记关系的偏多标记学习模型,得到训练好的预测模型W*
步骤S5、利用训练好的预测模型W*对未见示例xi进行预测,将未见示例xi输入到训练好的预测模型W*,计算y=xiW*,得到预测模型W*的输出值y。因为观测的标记矩阵包含有l个标记,因此y包含有l个值,分别对应l个标记。我们将输出值y中的l个数值由高到低进行排序,选取排在前3名的数值,确定它们对应的标记,最后为示例xi的标注相应的标记。
步骤S2中的利用全局标记相关性获取正确标记信息具体包括如下步骤:
S2-1:假设不相关的标签是稀疏的,并引入一个
Figure BDA0002493460270000092
范数正则项来约束它考虑到真实标签的相关性,假设真实标签矩阵是低秩的,并引入迹范数对其进行约束。将观测到的标签矩阵Y分解为噪声标记矩阵Q和正确标记矩阵P,噪声标记矩阵Q为稀疏矩阵,正确标记矩阵P为低秩矩阵,可以表示为:
Figure BDA0002493460270000091
S2-2:然而,这个公式假设正确标记来源于一个低秩子空间。当从多个子空间的并集中提取数据时,低秩假设却没有很好地考虑各个子空间之间的结构问题,这可能会导致不能准确的恢复正确标记。幸运的是,低秩表示可以捕获正确标记之间至关重要的全局信息。因此,我们利用低秩表示来获取标记之间的全局关系。这一鲁棒的秩最小化问题定义如下:
Figure BDA0002493460270000101
其中Y是一个线性跨越YZ数据空间的字典。
Figure BDA0002493460270000102
是正确标记系数矩阵,其中z:,i表示标签yi与l个标签之间的关系系数向量。zji可以看作是标记yj对标记yi重构的贡献。
意识到不同标签之间存在广泛的语义关联和依赖关系,并将这些关联运用到分类模型中,可以提高分类器的性能。本发明实施例假设正确标记系数矩阵Z是线性相关的,引入了一个迹范数来约束它是低秩的。
通过对低秩的正确标签系数矩阵Z的学习,获得了全局标签相关性,这有助于更好地识别基真标签,消除了噪声标签对算法性能的影响。这样,可以通过解决以下问题来训练所有标签的预测模型W:
Figure BDA0002493460270000103
s.t.Y=YZ+Q,Z≥0
其中
Figure BDA0002493460270000104
是所有标签的预测模型参数。为了避免过拟合问题,本发明实施例引入了F范数来约束预测模型W。
步骤S3所述的利用局部标记相关性提升预测模型W性能的具体步骤如下:
正相关标签会促使对应的分类器输出相似,而负相关标签会将对应的输出推向相反的方向。换句话说,如果第i个和第j个标签的相关性越强,wi,:应该与wj,:更相似;:,反之亦然。标签流形正则项可以定义为:
Figure BDA0002493460270000105
在上述分析的基础上,通过学习标签系数矩阵Z与预测模型W之间的一致性,得到了局部标签相关性,极大地提高了预测模型的性能。
步骤S4中的合并各项得最终模型并完成模型训练具体包括如下步骤:
S4-1:将S2和S3结合起来,可以得到本发明实施例提出的偏多标记学习模型的最终目标函数为:
Figure BDA0002493460270000111
s.t.Y=YZ+Q,Z≥0
α,β,γ和η是权衡参数,用来保持模型平衡。
图2为本发明实施例提供的一种偏多标记学习模型的训练工作流程图,采用块坐标下降法迭代更新W,Z,Q,得到连续空间下的最优解(W*,Z*,Q*),包括如下的处理过程;
S4-2:模型初始化,然后按以下规则初始化参数模型:
W=zeros(d,l)
Z=eye(l)
Q=zeros(m,l)
S4-3:固定Z和Q,采用梯度下降法求解W,优化问题可以写成:
Figure BDA0002493460270000112
交替算法的更新规则如下:
Figure BDA0002493460270000113
其中ξt是步长,此处使用Armijo规则自适应地确定每个迭代中的步长。
S4-4:固定W,优化Z和Q的问题可以写成:
Figure BDA0002493460270000114
s.t.Y=YZ+Q,Z=J,J≥0
其中,定义矩阵
Figure BDA0002493460270000115
表示
Figure BDA0002493460270000116
根据LADMAP方法,该公式等价于:
Figure BDA0002493460270000117
其中
Figure BDA0002493460270000118
Figure BDA0002493460270000119
是拉格朗日乘子矩阵,μ1和μ2是惩罚参数。
上述公式可以通过以下子问题迭代求解:
第一步:固定Z和Q,更新J:当固定Z和Q时,关于J的优化问题如下:
Figure BDA00024934602700001110
这是一个普通的最小二乘回归问题,可直接求导得J的解:
Figure BDA0002493460270000121
第二步:固定J,更新Z和Q:当J固定时,关于Z和Q的子问题等价于下面的问题:
Figure BDA0002493460270000122
这是一种变形的低秩表示问题,利用奇异值分解法求得Z和Q的解是:
Figure BDA0002493460270000123
Figure BDA0002493460270000124
其中
Figure BDA0002493460270000125
是奇异值阈值,
Figure BDA0002493460270000126
是收缩操作符,αZ=(μ12Z/2,τZ>ρ(YTY)是近端参数,ρ(YTY)表示YTY的谱半径,FZ k是上述公式中第二项和第三项Zk的导数:
FZ k=μ1(YZ-Y+Q)+μ2(Z-J)+Y2-Y1
第三步:根据LADM方法对拉格朗日乘子矩阵和惩罚参数进行更新:
Figure BDA0002493460270000127
Figure BDA0002493460270000128
Figure BDA0002493460270000129
Figure BDA00024934602700001210
S4-5:重复S4-3到S4-4,不断交替更新参数W,Z,Q,直到满足迭代停止条件,偏多标记学习模型收敛,上述迭代停止条件可以为目标函数值小于某个预设定阈值,或者W、Z和Q的每一位都不再发生变化;或者达到迭代的最大次数,最后输出偏多标记学习模型的最优解(W*,Z*,Q*),得到训练好的偏多标记学习模型。
本发明实施例公开了一种基于全局和局部标记关系的偏多标记学习方法,重在保护全局和局部标记关系组合的偏多标记学习方法模型和训练方法;在实施例中,采用了F-范数控制预测模型的复杂度,熟悉本领域技术的人员显然可以容易地针对上述实施例做出各种修改,例如将F范数替换为其他变体模型,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。故凡依本发明申请专利范围所做出的改进和修改,均应包括于本发明专利的申请范围内。
本发明在Genbase、Medical、Scene、Delicious、Eurlex_dc、Eurlex_sm、Nuswide七个合成数据集和Music_emotion、Music_style、Mirflickr三个真实的偏多标记学习数据集上进行了实验,并将本发明所述方法(Partial Multi-label Learning with Global andLocal label Correlation,简称PML-GLC))与目前七种主流的方法进行了对比实验分析,包括两种多标记学习算法和五种偏多标记学习方法。
两个多标记学习方法包括利用特征信息的矩阵补全多标记学习方法(Matrixcompletion using side information,简称Maxide),该方法将多标记学习问题转换为矩阵填充问题,并利用特征信息完成分类模型的训练,发表于人工智能领域顶级会议NIPS2013;基于标记特定特征的多标记学习方法(LIFT:multi-label learning withlabel-specific features,简称LIFT),该方法利用每个标记特定的特征信息解决了多标记学习问题,发表于人工智能领域顶级期刊TPAMI。
五个偏多标记学习方法包括偏多标记学习方法(Partial Multi-labelLearning,简称PML-lc),该方法利用标记相关性学习标记置信度矩阵衡量每个候选标记是正确标记的概率,通过同时优化分类模型和标记置信值来解决偏多标记学习问题,发表于人工智能领域的顶级会议AAAI2018;通过可信标签启发的偏多标记学习方法(PartialMulti-Label Learning via Credible Label Elicitation简称PML-VLS和PML-MAP),该方法首先从候选标记集中提取可信标签,再利用具有高置信度的可信标签,通过虚拟标签分裂或最大后验推理对标签进行排序,进而得到预测模型,根据标签排序方式不同,该方法提供过了两种偏多标记学习方法,发表于人工智能领域的顶级会议AAAI2019;基于低秩稀疏分解的偏多标记学习方法(Partial Multi-Label Learning by Low-Rank and SparseDecomposition,简称PML-LRS),该方法通过低秩稀疏分解方法获取了正确标记矩阵同时学习了预测模型,发表于人工智能领域的顶级会议AAAI2019;基于噪声标记识别的偏多标记学习方法(Partial Multi-Label Learning with Noisy Label Identification,简称PML-NI),该方法通过组合标记关系和特征诱导噪声模型,学习得到了真实标记矩阵和噪声标记矩阵,发表于人工智能领域的顶级会议AAAI2020。
本发明使用的七个合成数据集来源于多标记数据集网站MULAN,其中Corel5k和Scene数据集是图像标注数据集,CAL500和Emotion数据集是音乐分类数据集,Genbase是蛋白质分类数据集,Medical、Bibtex、Delicious、Eurlex_dc和Eurlex_sm数据集是文本分类数据集。此外,本文还使用了三个真实的偏多标记数据集包括Music_emotion、Music_style、Mirflickr。三个数据集来源是给定未标注的样本,从多个网络用户收集候选标签,然后由人工标记人员进一步检查这些标签,以指定其中的正确标签。
本发明采用了5个广泛使用的偏多标记学习评价指标对实验结果进行评估,包括Ranking Loss,Hamming Loss,One Error,Coverage和Average Precision。它们从不同的角度评价偏多标记学习算法的预测性能,多个评价指标一起共同使用以便做出综合的评价。
图3展示了Maxide、LIFT、PML-LC、PML-VLS、PML-MAP、PML-LRS、PML-NI、PML-GLC方法在Music_style、Music_emotion、Medical、Genbase、Scene数据集上的对比实验结果,评价指标为Ranking Loss和Hamming Loss,其中加粗项表示最优值。
本发明采用Friedman检测和Bonferroni-Dunn检测作为统计检验方法,分析对比方法之间的性能差异。上述实验结果表明:与其他方法相比,本发明的实验结果具有明显的提升。
综上所述,本发明实施例提出的基于全局和局部标记关系的偏多标记学习方法首次提出研究全局和局部标记关系同时存在的偏多标记学习情况,并充分利用两类标记关系,移除噪声标签,训练预测模型。利用低秩表示引入正确标记系数矩阵来捕获全局标记相关性,移除不相关标记恢复正确标记信息,同时提出标记流形正则化项来捕获局部标记相关性,从而提高算法的性能。
本发明实施例提出的基于全局和局部标记关系的偏多标记学习方法充分利用了全局和局部标签的相关性,去除有噪声的标签,同时通过低秩表示来训练分类器。在来自不同领域的合成和真实数据集上进行的大量实验证明了本发明方法的有效性。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种基于全局和局部标记关系的偏多标记学习方法,其特征在于,包括:
构建特征信息矩阵,对所述特征信息矩阵中的特征数据进行归一化处理,构建不精确标记矩阵;
利用低秩稀疏表示模型将所述不精确标记矩阵分解为噪声标记矩阵和正确标记系数矩阵,利用所述噪声标记矩阵、正确标记系数矩阵和特征信息矩阵构建所有标记的预测模型;
基于正确标记系数矩阵、噪声矩阵和预测模型构建偏多标记学习模型,采用块坐标下降法迭代更新方法训练所述偏多标记学习模型,得到训练好的预测模型;
将未见示例输入到所述训练好的预测模型,根据所述训练好的预测模型输出的预测值确定所述未见示例对应的标记。
2.根据权利要求1所述的方法,其特征在于,所述的构建特征信息矩阵和不精确标记矩阵,包括:
构建特征信息矩阵
Figure FDA0002493460260000011
其中m表示样本数目,d表示特征向量的维数,对特征信息矩阵X中的特征数据进行归一化处理,构建不精确标记矩阵Y∈{0,1}m×l,其中m表示样本数目,l表示标记数目,表示对应的已标注示例的标签分配情况,其中yij=1表示示例xi标注了标记yj;否则,yij=0表示示例xi没有标注标记yj
3.根据权利要求2所述的方法,其特征在于,所述的利用低秩稀疏表示模型将所述不精确标记矩阵分解为噪声标记矩阵和正确标记系数矩阵,利用所述噪声标记矩阵、正确标记系数矩阵和特征信息矩阵构建所有标记的预测模型,包括:
利用低秩稀疏表示模型将观测的不精确标记矩阵Y分解为噪声标记矩阵Q和正确标记矩阵P,Y=P+Q,引入l1范数来约束噪声标记矩阵Q的稀疏性,约束正确标记矩阵P为低秩,利用低秩表示构建正确标记系数矩阵
Figure FDA0002493460260000012
P=YZ,Y表示线性跨越数据空间的字典,将P=YZ代入上面的Y=P+Q,得到Y=YZ+Q;
设偏多标记预测函数f=[f1,,f2,…fl]由l个函数组成,每个函数对应一个标签,每个预测函数
Figure FDA0002493460260000013
为线性函数,定义为fi(X)=Xwi,将所有标签的预测模型W的参数定义为:
Figure FDA0002493460260000021
遵循机器学习规则,引入损失函数
Figure FDA0002493460260000022
来学习得到所述预测模型W。
4.根据权利要求3所述的方法,其特征在于,所述的方法还包括:
所述噪声标记矩阵Q为稀疏矩阵,所述正确标记矩阵P为低秩矩阵,表示为:
Figure FDA0002493460260000023
利用低秩表示来获取标记之间的全局关系,将秩最小化问题定义如下:
Figure FDA0002493460260000024
其中Y是一个线性跨越YZ数据空间的字典,
Figure FDA0002493460260000025
是正确标记系数矩阵,其中z:,i表示标签yi与l个标签之间的关系系数向量,zji看作是标记yj对标记yi重构的贡献;
设正确标记系数矩阵Z是线性相关的,引入了一个迹范数来约束正确标记系数矩阵Z是低秩的,通过对低秩的正确标签系数矩阵Z的学习,获得了全局标签相关性,通过解决以下问题来训练所有标签的预测模型W:
Figure FDA0002493460260000026
s.t.Y=YZ+Q,Z≥0
引入F范数来约束所有标签的预测模型W。
5.根据权利要求4所述的方法,其特征在于,所述的方法还包括:
如果第i个和第j个标签的相关性越强,则wi,:与wj,:更相似;反之亦然,将标签流形正则项定义为:
Figure FDA0002493460260000027
利用所述标签流形正则项学习标签系数矩阵Z与预测模型W之间的一致性,得到了局部标签相关性,利用局部标记相关性提升预测模型W的性能。
6.根据权利要求4或5或6所述的方法,其特征在于,所述的基于正确标记系数矩阵、噪声矩阵和预测模型构建偏多标记学习模型,采用块坐标下降法迭代更新方法训练所述偏多标记学习模型,得到训练好的预测模型,包括:
S4-1:将所述正确标记系数矩阵Z和所述正确标记系数矩阵Z与预测模型W的一致性关系组合,得到基于全局和局部标记关系的偏多标记学习模型的目标函数为:
Figure FDA0002493460260000031
s.t.Y=YZ+Q,Z≥0
α,β,γ和η是权衡参数,用来保持模型平衡;
采用块坐标下降法迭代更新W,Z,Q,得到连续空间下的最优解(W*,Z*,Q*),包括如下的处理过程;
S4-2:模型初始化,然后按以下规则初始化参数模型:
W=zeros(d,l)
Z=eye(l)
Q=zeros(m,l)
S4-3:固定Z和Q,采用梯度下降法求解W,优化问题表示为:
Figure FDA0002493460260000032
交替算法的更新规则如下:
Wt=Wt-1t▽f(Wt-1)
其中ξt是步长,使用Armijo规则自适应地确定每个迭代中的步长;
S4-4:固定W,优化Z和Q的问题表示为:
Figure FDA0002493460260000033
s.t.Y=YZ+Q,Z=J,J≥0
其中,定义矩阵
Figure FDA0002493460260000034
表示
Figure FDA0002493460260000035
根据LADMAP方法,该公式等价于:
Figure FDA0002493460260000036
其中
Figure FDA0002493460260000037
Figure FDA0002493460260000038
是拉格朗日乘子矩阵,μ1和μ2是惩罚参数。
上述公式通过以下子问题迭代求解:
第一步:固定Z和Q,更新J:当固定Z和Q时,关于J的优化问题如下:
Figure FDA0002493460260000039
这是一个最小二乘回归问题,直接求导得J的解:
Figure FDA0002493460260000041
第二步:固定J,更新Z和Q:当J固定时,关于Z和Q的子问题等价于下面的问题:
Figure FDA0002493460260000042
这是一种变形的低秩表示问题,利用奇异值分解法求得Z和Q的解是:
Figure FDA0002493460260000043
Figure FDA0002493460260000044
其中
Figure FDA0002493460260000045
是奇异值阈值,
Figure FDA0002493460260000046
是收缩操作符,αZ=(μ12Z/2,τZ>ρ(YTY)是近端参数,ρ(YTY)表示YTY的谱半径,FZ k是上述公式中第二项和第三项Zk的导数:
FZ k=μ1(YZ-Y+Q)+μ2(Z-J)+Y2-Y1
第三步:根据LADM方法对拉格朗日乘子矩阵和惩罚参数进行更新:
Figure FDA0002493460260000047
Figure FDA0002493460260000048
Figure FDA0002493460260000049
Figure FDA00024934602600000410
S4-5:重复S4-3到S4-4,不断交替更新参数W,Z,Q,直到满足迭代停止条件,偏多标记学习模型收敛,最后输出偏多标记学习模型的最优解(W*,Z*,Q*),得到训练好的偏多标记学习模型。
7.根据权利要求6所述的方法,其特征在于,所述迭代停止条件为目标函数值小于某个预设定阈值,或者W、Z和Q的每一位都不再发生变化;或者达到迭代的最大次数。
8.根据权利要求6所述的方法,其特征在于,所述的将未见示例输入到所述训练好的预测模型,根据所述训练好的预测模型输出的预测值确定所述未见示例对应的标记,包括:
利用训练好的预测模型W*对未见示例xi进行预测,将未见示例xi输入到训练好的预测模型W*,计算y=xiW*,得到预测模型W*的输出值y,y包含有l个值,分别对应l个标记,将y中的l个数值由高到低进行排序,选取排在前设定名次的数值对应的标记为未见示例xi对应的标记。
CN202010411579.6A 2020-05-15 2020-05-15 基于全局和局部标记关系的偏多标记学习方法 Pending CN111582506A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010411579.6A CN111582506A (zh) 2020-05-15 2020-05-15 基于全局和局部标记关系的偏多标记学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010411579.6A CN111582506A (zh) 2020-05-15 2020-05-15 基于全局和局部标记关系的偏多标记学习方法

Publications (1)

Publication Number Publication Date
CN111582506A true CN111582506A (zh) 2020-08-25

Family

ID=72110885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010411579.6A Pending CN111582506A (zh) 2020-05-15 2020-05-15 基于全局和局部标记关系的偏多标记学习方法

Country Status (1)

Country Link
CN (1) CN111582506A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379037A (zh) * 2021-06-28 2021-09-10 东南大学 一种基于补标记协同训练的偏多标记学习方法
CN115392474A (zh) * 2022-06-14 2022-11-25 南京理工大学 一种基于迭代优化的局部感知图表示学习方法
CN115758223A (zh) * 2022-12-05 2023-03-07 重庆邮电大学 一种智能数据噪声筛选方法
CN117454154A (zh) * 2023-12-22 2024-01-26 江西农业大学 一种面向偏标记数据的鲁棒特征选择方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379037A (zh) * 2021-06-28 2021-09-10 东南大学 一种基于补标记协同训练的偏多标记学习方法
CN113379037B (zh) * 2021-06-28 2023-11-10 东南大学 一种基于补标记协同训练的偏多标记学习方法
CN115392474A (zh) * 2022-06-14 2022-11-25 南京理工大学 一种基于迭代优化的局部感知图表示学习方法
CN115392474B (zh) * 2022-06-14 2023-08-22 南京理工大学 一种基于迭代优化的局部感知图表示学习方法
CN115758223A (zh) * 2022-12-05 2023-03-07 重庆邮电大学 一种智能数据噪声筛选方法
CN115758223B (zh) * 2022-12-05 2023-10-27 千一禾盛(北京)科技有限公司 一种智能数据噪声筛选方法
CN117454154A (zh) * 2023-12-22 2024-01-26 江西农业大学 一种面向偏标记数据的鲁棒特征选择方法

Similar Documents

Publication Publication Date Title
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Varma et al. Snuba: Automating weak supervision to label training data
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN110192203A (zh) 用于多个自然语言处理(nlp)任务的联合多任务神经网络模型
CN111209738A (zh) 一种联合文本分类的多任务命名实体识别方法
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
JPH07295989A (ja) データを解析するためのインタプリタを形成する装置
CN111291188B (zh) 一种智能信息抽取方法及系统
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN111881671B (zh) 一种属性词提取方法
CN111897954A (zh) 一种用户评论方面挖掘系统、方法、及存储介质
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
Taesiri et al. Visual correspondence-based explanations improve AI robustness and human-AI team accuracy
CN111581466A (zh) 特征信息存在噪声的偏多标记学习方法
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
He et al. Syntax-aware entity representations for neural relation extraction
Sun et al. Partial multi-label learning with noisy side information
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN117393098A (zh) 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法
CN116956228A (zh) 一种技术交易平台的文本挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination