CN105608468A

CN105608468A - 一种基于流型矩阵补全的多标签分类方法

Info

Publication number: CN105608468A
Application number: CN201510953772.1A
Authority: CN
Inventors: 徐增林; 刘斌
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2016-05-25
Anticipated expiration: 2035-12-18
Also published as: CN105608468B

Abstract

本发明公开了一种基于流型矩阵补全的多标签分类方法，通过在利用矩阵补全进行的多标签学习的过程中增加对特征间流型性假设的考虑，可以较为明显地提高多标签分类算法识别的效率。本发明提供的多标签分类方法从海明损失、平均精度以及覆盖率三个多标签学习的指标上来看，与现有技术相比都有较大的提升。

Description

一种基于流型矩阵补全的多标签分类方法

技术领域

本发明属于标签分类技术领域，具体涉及一种基于流型矩阵补全的多标签分类方法的设计。

背景技术

多标签分类问题普遍存在，它较之普通的二类分类问题在实际应用中更为实用。比如，对internet上的图片进行分类标注时，由于图片上的目标往往有多个(同一张图片可能会同时属于多个类别)，很难用普通的二类分类方法将其归类成两类，而归类成多标签更为合适，比如图片集合中的目标共有5类，那么某一张有3个目标的图片的标注可能是(0,1,0,1,1)，表示这张图片属于第二、四和五类。

矩阵补全是一种有效的多标签学习的技术，它利用样本和标签之间的线性相关性，对无标记的样本的标签进行预测。其主要原理是构造一个“特征+标签”的组合向量作为矩阵的行矩阵或者列矩阵，其中将要预测的特征的标签置为0，以此利用矩阵补全运算来计算出要预测特征的真实标签(+1和-1)。这种多标签学习方案合理地利用了特征之间的线性相关性来进行未知标签的预测，但是忽略了特征之间的平滑性假设的性质(特征的流型假设)，即相似的特征应对应同样的分类标签，而差异较大的特征应赋予不同的标签。而这种性质在标签预测中具有重要的作用。

发明内容

本发明的目的是为了解决现有技术中矩阵补全技术忽略了特征之间的平滑性假设的性质的问题，提出了一种基于流型矩阵补全的多标签分类方法。

本发明的技术方案为：一种基于流型矩阵补全的多标签分类方法，包括以下步骤：

S1、初始化多标签学习矩阵M；

S2、初始化矩阵Z，使得Z与M的秩为1近似；

S3、对Z进行梯度下降更新，得到矩阵

S4、对进行SVD分解操作，得到矩阵Z′；

S5、判断Z′是否满足设定的收敛条件，若是则分类计算结束，否则返回S3。

进一步地，S1中

M = [\begin{matrix} Y_{L} & Y_{U} \\ X_{L} & X_{U} \end{matrix}],

其中X_L为被标记的特征矩阵，Y_L为被标记的特征对应的标签矩阵，X_U为未被标记的特征矩阵，Y_U为待求的未被标记的特征对应的标签矩阵。

进一步地，Y_U的初始值为0。

进一步地，S2具体为：

构造与M同阶的矩阵

Z = [\begin{matrix} \begin{matrix} Z_{y L} & Z_{y U} \end{matrix} \\ Z_{x} \end{matrix}],

其中Z_yL与Y_L同阶，Z_yU与Y_U同阶Z_x与M_x＝[X_L,X_U]同阶；同时满足：Z_yL与Y_L之间的损失以及Z_x与M_x之间的损失最小，Z_yU与M_x流型相似，即：

\begin{matrix} \min_{Z} & μ | | Z | |^{*} + L o s s (Z) + γ R (Z_{y}) \\ s . t . & z_{m} = 1^{T}, m = t + d + 1 \end{matrix};

其中μ依次取μ₁,μ₂,...,μ_k中的一个值，k为常数，且μ₁＞μ₂＞...＞μ_k，||Z||^*为Z的核范数，γ为正则惩罚因子，z_m为矩阵Z的最后一行，t为M中标签向量的维度，d为M中特征向量的维度；

Loss(Z)为Z的损失且

L o s s (Z) = \frac{1}{| Ω_{X} |} \underset{(i, j) &Element; Ω_{X}}{Σ} c_{x} (z_{t + i, j}, x_{i j}) + \frac{λ}{| Ω_{Y} |} \underset{(i, j) &Element; Ω_{Y}}{Σ} c_{y} (z_{i j}, y_{i j}),

其中i＝1,2,…N，j＝1,2,…N，N为常数，c_x和c_y分别为针对特征矩阵X和标签矩阵Y的两种不同的损失函数，Ω_X为M中各特征向量对应的下标集合，Ω_Y为M中各标签向量对应的下标集合，x为M中的特征向量，y为M中的标签向量，z为Z中的向量，λ为常数参数；

R(Z_y)为Z_y的流型正则化且其中Tr(·)为求矩阵的迹的运算，L为关于特征矩阵X的拉普拉斯矩阵，Z_y＝[Z_yL,Z_yU]。

进一步地，矩阵Z的最后一行设置为全1向量。

进一步地，S3中其中：

τ为梯度下降速率，分别为的模，为未被标记的特征对应的标签矩阵Y_U的下标集合，l为L的列向量，λ、α为常数参数。

进一步地，S4具体为：

联立以下两个公式得到矩阵Z′：

\tilde{Z} = {UΣV}^{T},

Z′＝US_ρ(Σ)V^T；

其中Σ为奇异值矩阵，U、V为已知的非奇异矩阵，S_ρ(Σ)＝Diag[max(σ_Σ-ρ,0)]，Diag(·)是对向量进行对角化矩阵操作，σ_Σ是Diag(·)反操作，即将Σ的对角元素进行向量化，ρ为阈值且ρ＝τμ。

本发明的有益效果是：本发明通过在利用矩阵补全进行的多标签学习的过程中增加对特征间流型性假设的考虑，可以较为明显地提高多标签分类算法识别的效率。从海明损失(Hammingloss)，平均精度(Averageprecision)以及覆盖率(Coverage)三个多标签学习的指标上来看，本发明提供的算法(MCLA)较改进前都有了较大的提升。

附图说明

图1为本发明提供的一种基于流型矩阵补全的多标签分类方法流程图。

图2为MIML数据集上海明损失的测试结果。

图3为MIML数据集上平均精度的测试结果。

图4为MIML数据集上覆盖率的测试结果。

图5为Bird数据集上海明损失的测试结果。

图6为Bird数据集上平均精度的测试结果。

图7为Bird数据集上覆盖率的测试结果。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

本发明提供了一种基于流型矩阵补全的多标签分类方法，如图1所示，包括以下步骤：

S1、初始化多标签学习矩阵M。

M = [\begin{matrix} Y_{L} & Y_{U} \\ X_{L} & X_{U} \end{matrix}],

其中X_L为被标记的特征矩阵，Y_L为被标记的特征对应的标签矩阵，X_U为未被标记的特征矩阵。

Y_U为未被标记的特征对应的标签矩阵，Y_U是未知待求解的变量，假设其初始值为0，即Y_U＝0。

S2、初始化矩阵Z，使得Z与M的秩为1近似。

根据数据本身的特性，我们知道M矩阵是一个低秩矩阵(lowrank)。为了求解Y_U，我们同样构造一个低秩矩阵

Z = [\begin{matrix} \begin{matrix} Z_{y L} & Z_{y U} \end{matrix} \\ Z_{x} \end{matrix}],

其中Z_yL与Y_L同阶，Z_yU与Y_U同阶Z_x与M_x＝[X_L,X_U]同阶。同时满足：Z_yL与Y_L之间的损失以及Z_x与M_x之间的损失最小，Z_yU与M_x流型相似，即：

\begin{matrix} \min_{Z} & μ | | Z | |^{*} + L o s s (Z) + γ R (Z_{y}) \\ s . t . & z_{m} = 1^{T}, m = t + d + 1 \end{matrix} .

其中μ依次取μ₁,μ₂,...,μ_k中的一个值，k为常数，且μ₁＞μ₂＞...＞μ_k，||Z||^*为Z的核范数，γ为正则惩罚因子，z_m为矩阵Z的最后一行，t为M中标签向量的维度，d为M中特征向量的维度。

Loss(Z)为Z的损失且

L o s s (Z) = \frac{1}{| Ω_{X} |} \underset{(i, j) &Element; Ω_{X}}{Σ} c_{x} (z_{t + i, j}, x_{i j}) + \frac{λ}{| Ω_{Y} |} \underset{(i, j) &Element; Ω_{Y}}{Σ} c_{y} (z_{i j}, y_{i j}),

其中i＝1,2,…N，j＝1,2,…N，N为常数，c_x和c_y分别为针对特征矩阵X和标签矩阵Y的两种不同的损失函数，其中特征矩阵X包括X_L和X_U，标签矩阵Y包括Y_L和Y_U。Ω_X为M中各特征向量对应的下标集合，Ω_Y为M中各标签向量对应的下标集合，x为M中的特征向量，y为M中的标签向量，z为Z中的向量，λ为常数参数。

为了更好的体现低秩性，矩阵Z的最后一行强制设置为全1向量。

S3、对Z进行梯度下降更新，得到矩阵

其中：

求解矩阵Z是通过梯度下降迭代更新进行。由于矩阵Z由数据矩阵和标签矩阵组成，所以对Z的更新是分块采用不同的梯度下降策略。

S4、对进行SVD分解操作，得到矩阵Z′。

经过梯度下降更新之后的矩阵将进行一次截断的SVD分解。截断操作将进行SVD分解后得到的奇异值矩阵按照设定的阀值进行截断，其中大于或等于阀值的奇异值保留，小于阀值的奇异值置为0。然后用截断后的奇异值矩阵与SVD分解得到的矩阵还原得到更细的矩阵Z′，即联立以下两个公式得到矩阵Z′：

\tilde{Z} = {UΣV}^{T},

Z′＝US_ρ(Σ)V^T；

本发明实施例中，收敛条件为判定Z-Z′的F范数是否小于设定的阈值η，若是则判定为收敛，否则判定为不收敛。

如图2-图7所示，无论是在MIML图像多标签数据集还是在Bird声音多标签数据集上进行测试，本发明提供的MCLA算法与现有技术中的各算法相比，海明损失(Hammingloss)更小，平均精度(Averageprecision)更高，覆盖率(Coverage)更大，较之现有技术都有较大的提升。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于流型矩阵补全的多标签分类方法，其特征在于，包括以下步骤：

S1、初始化多标签学习矩阵M；

S2、初始化矩阵Z，使得Z与M的秩为1近似；

S3、对Z进行梯度下降更新，得到矩阵Z～；

S4、对Z～进行SVD分解操作，得到矩阵Z′；

2.根据权利要求1所述的基于流型矩阵补全的多标签分类方法，其特征在于，所述S1中

M = [\begin{matrix} Y_{L} & Y_{U} \\ X_{L} & X_{U} \end{matrix}],

3.根据权利要求2所述的基于流型矩阵补全的多标签分类方法，其特征在于，所述Y_U的初始值为0。

4.根据权利要求2所述的基于流型矩阵补全的多标签分类方法，其特征在于，所述S2具体为：

构造与M同阶的矩阵

Z = [\begin{matrix} \begin{matrix} Z_{y L} & Z_{y U} \end{matrix} \\ Z_{x} \end{matrix}],

\begin{matrix} \min_{Z} & μ | | Z | |^{*} L o s s (Z) γ R (Z_{y}) \\ s . t . & z_{m} = 1^{T}, m = t + d + 1 \end{matrix};

Loss(Z)为Z的损失且

L o s s (Z) = \frac{1}{| Ω_{X} |} \underset{(i, j) &Element; Ω_{X}}{Σ} c_{x} (z_{t + i, j}, x_{i j}) + \frac{λ}{| Ω_{Y} |} \underset{(i, j) &Element; Ω_{Y}}{Σ} c_{y} (z_{i j}, y_{i j}),

5.根据权利要求4所述的基于流型矩阵补全的多标签分类方法，其特征在于，所述矩阵Z的最后一行设置为全1向量。

6.根据权利要求4所述的基于流型矩阵补全的多标签分类方法，其特征在于，所述S3中其中：

τ为梯度下降速率，|Ω_Y|、|Ω_X|分别为Ω_Y、Ω_X的模，为未被标记的特征对应的标签矩阵Y_U的下标集合，l为L的列向量，λ、α为常数参数。

7.根据权利要求6所述的基于流型矩阵补全的多标签分类方法，其特征在于，所述S4具体为：

联立以下两个公式得到矩阵Z′：

\tilde{Z} = {UΣV}^{T},

Z^{'} = {US}_{ρ} (Σ) V^{T};