CN111626344B

CN111626344B - 一种融合组稀疏约束和图趋势过滤的噪声容错多标签分类方法

Info

Publication number: CN111626344B
Application number: CN202010411275.XA
Authority: CN
Inventors: 许磊; 陈蕾; 李伟泽; 宋传承; 林腾涛
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2022-08-26
Anticipated expiration: 2040-05-15
Also published as: CN111626344A

Abstract

本发明公开了一种融合组稀疏约束和图趋势过滤的噪声容错多标签分类方法，首先，抽取训练集样本数据的特征表示，训练集中的每个样本都带有事先标注好的语义标签，并基于特征数据以及标签数据建立融合组稀疏约束和图趋势过滤的噪声容错多标签分类数学模型；其次，通过ADMM算法求解提出的数学模型，得到分类器；最后，基于学得的分类器预测未知样本的标签向量。本发明融合组稀疏约束和图趋势过滤技术解决了训练数据中同时含有特征噪声和样本噪声的情况；并通过嵌入特征选择机制同时学习标签共有特征以及标签特有特征，进一步提高了分类性能。

Description

一种融合组稀疏约束和图趋势过滤的噪声容错多标签分类方法

技术领域

本发明属于机器学习和模式识别领域，具体涉及一种融合组稀疏约束和图趋势过滤的噪声容错多标签分类方法。

背景技术

在传统监督学习中，对于真实世界的每一个对象，在输入空间用一个属性向量作为一个示例去刻画其性质，并在输出空间用类别标签去反映该对象的语义信息。将一个示例与其对应的类别标签相关联，就得到了一个样本。在真实世界中，一个样本可能需要利用多个类标签去描述。例如，一张关于网球比赛选手的照片中可能会包含“球拍”、“人”、“球”等多个标签；一首乐曲可能包含“流行”、“电子”、“欢快”等标签等等。类似的情况在生活中十分常见，这使得多标签学习成为机器学习领域一个重要的研究热点。然而，在实际应用中，多标签学习往往会遇到训练数据含有噪声的问题，例如一些训练样本的特征数据可能损坏，或是一些样本的标签被标错，或是两者兼而有之。

现有的大多数多标签学习方法或是仅考虑到特征噪声的问题，或是仅解决标签噪声的问题，却少有方法考虑到混合噪声的情况。忽略上述任意一种噪声都可能导致训练出不合理的模型并影响多标签学习的预测精度。

发明内容

发明目的：为解决多标签学习中训练数据含有混合噪声的问题，本发明提出了一种融合组稀疏约束和图趋势过滤的噪声容错多标签分类方法，从而有效地利用组稀疏约束来容忍特定样本所带有的特征噪声和标签噪声，并融合特征选择机制进一步提升分类效果。

发明内容：本发明提出一种融合组稀疏约束和图趋势过滤的噪声容错多标签分类方法，包括以下步骤：

(1)抽取训练集样本数据的特征表示，训练集中的每个样本都带有事先标注好的语义标签，并基于特征数据以及标签数据建立融合组稀疏约束和图趋势过滤的噪声容错多标签分类数学模型；

(2)通过ADMM算法求解提出的数学模型，得到分类器；

(3)基于步骤(2)中学得的分类器，预测未知样本的标签向量。

进一步地，所述步骤(1)包括以下步骤：

(11)定义

与Y＝[y₁；y₂；...；y_i；...；y_n]∈{0，1}^n×c分别为输入的多标签特征数据以及标签数据，其中x_i为维度为d的第i个样本的特征向量，y_i表示维度为c的第i个样本的标签向量；如果样本带有某个标签，则其标签向量中的对应元素为1，反之为0；对于任意矩阵

定义其L₁范数，L₂范数以及L_2，1范数如下：

(12)建立融合组稀疏约束和图趋势过滤的噪声容错多标签分类模型如下：

其中，

为基于组稀疏约束的线性回归损失函数，

和

为特征选择项，

为图趋势过滤正则化项，λ、η和μ为正则化项参数，

和

为权重矩阵，且Q作为分类器被用于预测样本标签。

进一步地，步骤(12)所述的

的构造过程如下：

定义相似度矩阵

利用高斯核函数计算两个样本特征之间的关联性，则A中第i行第j个元素a_i，j的计算方法定义如下：

其中，a_i，j代表x_i和x_j之间的相似度，ξ为高斯核宽度；

对于A中的第i行a_i＝[a_i，1，a_i，2，...，a_i，n]，定义前k个最大的值所对应的样本的特征向量与x_i相似，并用关联矩阵S∈{-1，0，1}^ε×n记录所有样本之间特征的相关性信息，其中，ε为关联对的数量；若x_i与x_j相似，则在S中增加一行记录，令该行的第i个元素为-1，第j个元素为1，行内其他元素为0；

基于关联矩阵S定义基于组稀疏约束的图趋势过滤正则化项如下：

和

用于学习标签共有特征以及标签特有特征，且

进一步地，所述步骤(2)包括以下步骤：

(21)将各正则化项代入公式(4)，并将其转化成如下增广拉格朗日函数形式：

其中，ρ为惩罚因子，

为拉格朗日乘子；

(22)利用随机数初始化M、Q、W、U，对多标签数据进行归一化处理；

(23)设定最大迭代次数T，迭代求解M、Q、W、U，直至达到最大迭代次数T，或是目标函数收敛，即第t次迭代所对应的目标函数的值与第t-1次迭代所对应的目标函数的值之差小于10^-3时，迭代完成；此时所得到的M、Q、W即为公式(12)的解。

进一步地，所述步骤(23)具体包括以下步骤：

(231)固定W、Q和U，求解M转为求解如下子问题：

求解得：

其中，m_i、q_i、w_i、u_i分别为M、Q、W、U的第i行，∈为一个很小的正数，用于避免除零；

(232)固定M、Q和U，求解W可转为求解如下子问题：

求解得：

其中，sgn(·)为符号函数，⊙为Hadamard乘积，max(·，·)为最大值函数，将返回两数之中的大者；

(233)固定M、W和U，求解Q的子问题可以改写成如下形式：

其中，tr(·)表示矩阵的迹，(·)T表示矩阵的转置，

均为对角矩阵，其对角线元素

定义如下：

通过对公式(17)求导，可解得：

Q＝(X^TD₁X+μ(SX)^TD₂(SX)+ρI)^-1(X^TD₁Y+ρ(M+W+U)) (20)

其中，

为单位矩阵，(·)^-1表示矩阵的逆；通过不断更新公式(18)、(19)和(20)直至公式(17)的值收敛，可求解得到Q；

(234)固定M、Q和W，可以通过如下公式求解U：

U＝M+W-Q+U_old (21)

其中，U_old表示上一次迭代求解所得到的U；

(235)更新ρ：ρ＝1.2ρ_old，其中ρ_old为上一次迭代所得的ρ。

进一步地，所述步骤(3)的实现过程如下：

对于未知样本

可通过如下公式预测其标签向量

其中，t(·)为阈值函数，定义如下：

有益效果：与现有技术相比，本发明的有益效果：1、本发明通过设计基于组稀疏约束的线性回归函数以及图趋势过滤正则化项，使得模型在训练数据同时含有特征噪声和标签噪声时，同样能达到优越的分类效果；2、本发明引入了一种联合的特征选择与分类机制，能够同时学习标签共有特征以及标签特有特征，从而为标签筛选出关键信息，提升分类性能。

附图说明

图1为本发明流程图；

图2为多标签分类数学模型的求解步骤流程图。

具体实施方式

下面结合附图对本发明作进一步详细描述，如图1所示，本发明提供一种融合组稀疏约束和图趋势过滤的噪声容错多标签分类方法，具体包括以下步骤：

1、输入多标签特征数据，以及每个样本的标签信息，建立融合组稀疏约束和图趋势过滤的噪声容错多标签分类数学模型。

(1)定义

与Y＝[y₁；y₂；...；y_i；...；y_n]∈{0，1}^n×c分别为输入的多标签特征数据以及标签数据。其中x_i为维度为d的第i个样本的特征向量，y_i表示维度为c的第i个样本的标签向量。如果样本带有某个标签，则其标签向量中的对应元素为1，反之为0。

除此之外，对于任意矩阵

定义其L₁范数，L₂范数以及L_2，1范数如下：

由于L_2，1范数具有行稀疏的特点，因此本发明也称其为组稀疏。

(2)建立融合组稀疏约束和图趋势过滤的噪声容错多标签分类模型如下：

其中，

为基于组稀疏约束的线性回归损失函数，

和

为特征选择项，

为图趋势过滤正则化项。λ、η和μ为正则化项参数，

和

为权重矩阵，且Q作为分类器被用于预测样本标签。

的定义如下：

在所述公式(5)中，1为全1列向量，b为偏置。为方便书写，可将1和b分别合并入X和Q中。则X的维度更新为n行(d+1)列，Q、W和M的维度更新为(d+1)行c列，所述公式(5)可被重写为：

为图趋势过滤正则化项，其构造过程如下：

1)定义相似度矩阵

利用高斯核函数计算两个样本特征之间的关联性。则A中第i行第j个元素a_i，j的计算方法定义如下：

在所述公式(7)中，a_i，j代表x_i和x_j之间的相似度，ξ为高斯核宽度。

2)对于A中的第i行a_i＝[a_i，1，a_i，2，...，a_i，n]，定义前k个最大的值所对应的样本的特征向量与x_i相似，并用关联矩阵S∈{-1，0，1}^ε×n记录所有样本之间特征的相关性信息，其中ε为关联对的数量。若x_i与x_j相似，则在S中增加一行记录，令该行的第i个元素为-1，第j个元素为1，行内其他元素为0。

3)基于关联矩阵S定义基于组稀疏约束的图趋势过滤正则化项如下：

需要注意的是，前述构建过程是建立在“所有的样本特征与标签关联均一致”的假设的基础上，然而对于含有特征噪声的样本来说，这种特征与标签的关联的一致性则不一定成立。为了避免受到噪声样本的干扰，本发明将图趋势过滤正则化项与组稀疏约束相结合，构建基于组稀疏约束的图趋势过滤正则化项如下：

图趋势过滤正则化项拟合了样本间特征与预测标签的关联一致性，从而基于样本特征的相似性依赖XQ进行标签的间接传播。与此同时，由于组稀疏约束行稀疏的特点，它能够容忍野值样本造成的干扰，因此达到容忍特征噪声的效果。

和

为特征选择项，用于学习标签共有特征以及标签特有特征。实际应用中，一个样本会由诸多特征来描述，但一个标签的判断往往仅依靠其中的部分特征。例如衡量一个人的知识水平，可以根据他的学历、谈吐、阅读量等特征判断，而身高、性别、体重这些特征对于判断知识水平是无关紧要的。通过特征选择能够为各个标签筛选出最关键信息，从而降低学习难度，提升分类效果。

不同标签之间可能依赖于一些相同的特征来判断，也会需要一些标签特有的特征来进一步细分。例如，从外形轮廓特征上可以判断出目标是不是属于鸟类，但具体是哪一种鸟则需要通过羽毛颜色，爪喙，体型等特征去区分。因此本发明将Q成W和M两部分，利用

来选取标签特有特征，利用

来选取标签共有特征。两正则化项定义如下：

2、如图2所示，通过ADMM算法求解提出的数学模型，得到分类器。

通过ADMM算法求解公式(4)。首先将各正则化项代入公式(4)，并将其转化成如下增广拉格朗日函数形式：

在所述公式(12)中，ρ为惩罚因子，

为拉格朗日乘子。

利用随机数初始化M、Q、W、U，对多标签数据进行归一化处理。

设定最大迭代次数T。迭代求解M、Q、W、U，直至达到最大迭代次数T，或是目标函数收敛，即第t次迭代所对应的目标函数的值与第t-1次迭代所对应的目标函数的值之差小于10^-3时，迭代完成。此时所得到的M、Q、W即为公式(12)的解。具体来说，每次迭代的计算过程如下：

1)固定W、Q和U，求解M转为求解如下子问题：

求解得：

在所述公式(14)中，m_i、q_i、w_i、u_i分别为M、Q、W、U的第i行，∈为一个很小的正数，用于避免除零。

2)固定M、Q和U，求解W可转为求解如下子问题：

求解得：

在所述公式(16)中，sgn(·)为符号函数，⊙为Hadamard乘积，max(·，·)为最大值函数，将返回两数之中的大者。

3)固定M、W和U，求解Q的子问题可以改写成如下形式：

在所述公式(17)中，tr(·)表示矩阵的迹，(·)^T表示矩阵的转置，

均为对角矩阵，其对角线元素

定义如下：

通过对公式(17)求导，可解得：

Q＝(X^TD₁X+μ(SX)^TD₂(SX)+ρI)^-1(X^TD₁Y+ρ(M+W+U)) (20)

在所述公式(20)中，

为单位矩阵，(·)^-1表示矩阵的逆。通过不断更新公式(18)、(19)和(20)直至公式(17)的值收敛，可求解得到Q。

4)固定M、Q和W，可以通过如下公式求解U：

U＝M+W-Q+U_old (21)

在公式(21)中，U_old表示上一次迭代求解所得到的U。

5)更新ρ：ρ＝1.2ρ_old，其中ρ_old为上一次迭代所得的ρ。

3、基于步骤2中学得的分类器，预测未知样本的标签向量。

基于求解得到的分类器Q，对于未知样本

可通过如下公式预测其标签向量

在公式(22)中，t(·)为阈值函数，定义如下：