CN106022351A

CN106022351A - 一种基于非负字典对学习的鲁棒多视角聚类方法

Info

Publication number: CN106022351A
Application number: CN201610270303.4A
Authority: CN
Inventors: 谭铁牛; 曹冬; 赫然; 孙哲南; 李志航
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co Ltd
Current assignee: Tianjin Zhongke Intelligent Identification Co ltd
Priority date: 2016-04-27
Filing date: 2016-04-27
Publication date: 2016-10-12
Anticipated expiration: 2036-04-27
Also published as: CN106022351B

Abstract

本发明公开一种基于非负字典对学习的鲁棒多视角聚类方法,通过提取包含若干子空间的数据集不同视角下的特征；然后将特征学习嵌入字典学习，联合学习语义投影矩阵和非负特征投影；加入一致性约束和局部几何保持约束学习多视角所共享的公共聚类标签，在多个约束下学习各视角的语义投影矩阵、参数表示矩阵及多视角共享的语义投影矩阵，完成多视角聚类。该方法可以挖掘出多视角所共享的公共语义标签，并且加入一致性约束，减少单独的聚类标签与公共语义标签之间的差异性，同时加入局部几何保持约束，使得具有相似结构的数据更大概率分到相同的类。

Description

一种基于非负字典对学习的鲁棒多视角聚类方法

技术领域

本发明涉及模式识别技术领域，尤其是一种基于非负字典对学习的鲁棒多视角聚类方法。

背景技术

在现实中，很多数据都有多个模态，例如，文章可以被翻译成多种语言、新闻可以从多个视角报道、图片可以由多种描述子描述。一般而言，多视角数据可以提供互补和兼容的信息。多视角聚类是一种无监督的多视角学习方法，已经引起了人们的关注。过去的工作主要分为两类：基于回归的方法和基于子空间的方法。虽然这些方法都取得了显著的提高，但是它们是有局限性的。因为这些方法都假设所给的特征是无噪声的，这些数据可以揭示潜在的聚类结构。但不幸的是，现实生活中的特征常常是冗余的且含有噪声，这极大地降低了上述方法的性能。因此亟需一种高效鲁棒的多视角聚类方法。

发明内容

鉴于以往方法不能有效的满足鲁棒多视角聚类的需要，本发明提出了一种基于非负字典对学习的鲁棒多视角聚类方法。该方法用特征投影学习聚类标签，使用语义投影探索潜在语义信息，同时加入一致性约束和局部几何保持约束以生成一个多视角共享的公共聚类标签，从而实现多视角聚类。

本发明是这样实现的，一种基于非负字典对学习的鲁棒多视角聚类方法，包括以下步骤：

S1，提取多模态数据库中的多模态特征；

S2，基于所述多模态数据库中的特征向量，通过字典学习得到语义投影矩阵和参数表示矩阵；

S3，向所述多模态数据库嵌入非负特征投影以处理噪声特征；

S4，根据所述参数表示矩阵，创建一致性约束，用于描述多视角下各个样本聚类标签与多视角所共享的公共标签之间的一致性；

S5，根据所述多模态数据库中各个模态的特征，创建局部几何保持约束，用于描述每个视角下样本间结构的相似性；

S6，根据所述语义投影矩阵、非负特征投影、一致性约束和局部几何保持约束，得到统一的目标函数；

S7，求解所述目标函数得到公共语义标签，根据所述公共语义标签，得到公共的聚类结果，完成多视角聚类。

本发明方法假设数据是冗余的且有噪声，通过学习非负特征投影处理噪声特征，利用一致性约束最小化单独聚类标签与共享标签之间的差异，利用局部几何保持约束保持数据的局部一致性，使得相似数据具有较大概率，具有相同的语义标签；同时考虑特征投影、一致性约束和局部几何保持约束，将其纳入到统一的子空间聚类框架，采用近端交替线性最小化算法优化目标函数，得到公共语义标签，完成多视角聚类。

根据本发明的方法，可挖掘出多视角所共享的公共语义标签，并且加入一致性约束，减少单独的聚类标签与公共语义标签之间的差异性，同时加入局部几何保持约束，使得具有相似结构的数据更大概率分到相同的类。

附图说明

图1是基于非负字典对学习的鲁棒多视角聚类方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1所示，本发明的基于非负字典对学习的鲁棒多视角聚类方法包括以下步骤：

步骤S1，提取包含若干子空间的多模态数据库中的多模态特征；

多模态数据即同一数据有不同的表现形式，如视频数据可由音频和图像流组成，图片数据可由图像本身视觉信息和标记单词信息组成。对不同模态的数据分别提取特征，如提取图片视觉信息的GIST特征，标记单词的词频特征等。

多模态特征是包括含有图片和标记单词一一对应的图像标记对。

步骤S2，基于所述多模态数据库中的特征向量，通过字典学习得到语义投影矩阵和参数表示矩阵；

在该步骤中，采用字典学习方法来学习多模态数据库中的特征向量的语义投影矩阵和参数表示矩阵。语义投影矩阵是探索模态特征的语义信息，在字典学习中是字典；参数表示矩阵是模态特征在所学字典上的表达。

所述字典学习的目标函数为：

\min_{U, V} {|| X - U V ||}_{F}^{2} + Ω {U, V},

其中，为d维的非负训练数据,n为样本数目，为语义投影矩阵，r为聚类标签个数，为参数表示矩阵，||·||_F为求取F-范数操作，Ω{U,V}代表约束项。

步骤S3，向所述多模态数据库嵌入非负特征投影；

所述的非负特征投影是原始噪声数据到所述参数表达的线性投影V＝W^TX，W为线性投影矩阵，W^T为矩阵W的转置，可有效处理含有噪声的数据。

步骤S4，根据所述参数表示矩阵，创建一致性约束，用于描述多视角下各个样本聚类标签与多视角所共享的公共标签之间的一致性；

该步骤中，一致性约束是描述多视角下各个样本聚类标签与多视角所共享的公共标签之间的一致性，因为多个视角隐含地表达相同的对象。所述一致性约束公式如下：

D (W_{c}^{T} X_{c}, V^{*}) = {|| W_{c}^{T} X_{c} - V^{*} ||}_{F}^{2}

其中，c为模态序号，W_c为第c个模态的特征投影矩阵，W_c ^T为矩阵W_c的转置，X_c为第c个模态的特征，V^*为公共语义标签。

步骤S5，根据所述多模态数据库中各个模态的特征，创建局部几何保持约束，用于描述每个视角下样本间结构的相似性。

在该步骤中，局部几何保持约束描述每个视角下样本间结构的相似性，假设具有相似结构的样本具有相似的语义，因此，具有相似结构的样本更大概率属于同一聚类标签。

Σ_{c = 1}^{m} Σ_{i, j = 1}^{n} λ_{c} S_{c} (i, j) {(V^{*} (:, i) - V^{*} (:, j))}^{2} = Σ_{c = 1}^{m} λ_{c} V^{*} L_{c} V^{* T}

其中m是模态数目，i,j为样本序号，n为样本数目，λ_c为第c个模态的权重系数，V^*(:,i)表示矩阵V^*的第i列，V^*T是矩阵V^*的转置，L_c＝D_c-S_c是亲和矩阵S_c的拉普拉斯矩阵，D_c为第c个模态的对角矩阵，D_c(i_,i)＝∑_jS_c(i,j)，第c个模态的亲和矩阵S_c如下定义：

S_{c} (i, j) = \{\begin{matrix} \exp (- \frac{{|| x_{i} - x_{j} ||}^{2}}{σ^{2}}) & x_{i} &Element; N_{k} (x_{j}) o r x_{j} &Element; N_{k} (x_{i}) \\ 0 & o t h e r w i s e \end{matrix},

其中，N_k(x)为样本x的k近邻。

步骤S6，根据所述语义投影矩阵、非负特征投影、一致性约束和局部几何保持约束，得到统一的目标函数。

所述目标函数为：

\begin{matrix} \min_{U_{c}, W_{c}, V^{*}} Σ_{c = 1}^{m} {|| X_{c} - U_{c} W_{c}^{T} X_{c} ||}_{F}^{2} + α {|| W_{c}^{T} X_{c} - V^{*} ||}_{F}^{2} + β {|| W_{c} ||}_{2, 1} + t r (V^{*} {LV}^{* T}) \\ \begin{matrix} s . t . & U_{c}, W_{c}^{T} X_{c}, V^{*} &GreaterEqual; 0, V^{* T} V^{*} = I, L = Σ_{c = 1}^{m} λ_{c} L_{c} \end{matrix} \end{matrix},

其中，U_c为第c个模态的语义投影矩阵，W_c是第c个模态特征的线性投影矩阵，α,β为权重参数，α,β∈[10^-4,10⁴]，X_c为第c个模态的特征，V^*为公共语义标签，||·||_2,1为求取矩阵的2，1范数操作，L是每个模态拉普拉斯矩阵的加权和，I为单位矩阵。

所述统一的目标函数放缩处理后如下：

\begin{matrix} \min_{U_{c}, V_{c}, W_{c}, V^{*}} J = Σ_{c = 1}^{m} {|| X_{c} - U_{c} V_{c} ||}_{F}^{2} + α {|| W_{c}^{T} X_{c} - V_{c} ||}_{F}^{2} + β {|| W_{c} ||}_{2, 1} + γ {|| V_{c} - V^{*} ||}_{F}^{2} + t r (V^{*} {LV}^{* T}) \\ \begin{matrix} s . t . & V_{c}, V^{*} &GreaterEqual; 0, V^{*} V^{* T} = I, L = Σ_{c = 1}^{m} λ_{c} L_{c}; \end{matrix} \end{matrix},

其中，J为目标函数，V_c为第c个模态的辅助变量。

步骤S7，求解所述目标函数得到公共语义标签，根据所述公共语义标签，得到公共的聚类结果，完成多视角聚类。

该步骤中，求解所述统一的目标函数方法可以是采用近端交替线性最小化算法，具体步骤如下：

S71，初始化和迭代次数N，上标0表示第0次迭代；

S72，求解第t+1次迭代第c个模态的投影矩阵

U_{c}^{t + 1} = U_{c}^{t} - \frac{1}{α_{u} L_{u_{c}}} {&dtri;}_{u_{c}} J,

其中，α_u＞1是常数，是目标函数J关于U_c的偏导数，是矩阵的转置，为第t次迭代的第c个模态的投影矩阵，是第t次迭代的第c个模态的辅助变量，利普席茨模量

S73，求解

W_{c}^{t + 1} = W_{c}^{t} - \frac{1}{α_{w} L_{w_{c}}} {&dtri;}_{w_{c}} J,

其中，为第t+1次迭代的第c个模态的投影矩阵，α_w是常数，取值范围是α_w＞1，目标函数J关于W_c的偏导数J和利普席茨模量计算如下：

{&dtri;}_{w_{c}} J = {αX}_{c} {(W_{c}^{t T} X_{c} - V_{c}^{t})}^{T} + {βD}_{c}^{t} W_{c}^{t}

L_{w_{c}} = {αX}_{c} X_{c}^{T} + {βD}_{c}^{t},

其中，α,β为权重参数，X_c为第c个模态的特征向量，为对角矩阵其中为矩阵的第j行，||·||₂为求取矩阵的2范数，为第t次迭代的第c个模态的投影矩阵。

S74，求解

{\tilde{V}}_{c}^{t + 1} = V_{c}^{t} - \frac{1}{α_{v} L_{V_{c}}} {&dtri;}_{V_{c}} J

V_{c}^{t + 1} = \{\begin{matrix} 0 & \begin{matrix} i f & {\tilde{V}}_{c}^{t + 1} < 0 \end{matrix} \\ {\tilde{V}}_{c}^{t + 1} & o t h e r w i s e \end{matrix},

其中，α_v＞1是常数，是V_c的利普席茨模量，J是目标函数相对于V_c的偏导数，是第t+1次迭代的第c个模态的中间变量，是第t+1次迭代的第c个模态的辅助变量。

S75，求解(V^*)^t+1：

{\overset{&OverBar;}{(V^{*})}}^{t + 1} = {(V^{*})}^{t} - \frac{1}{α_{v *} L_{(v^{*})}} {&dtri;}_{v^{*}} J

{(V^{*})}^{t + 1} = \{\begin{matrix} 0 & \begin{matrix} i f & {\overset{&OverBar;}{(V^{*})}}^{t + 1} < 0 \end{matrix} \\ {\overset{&OverBar;}{(V^{*})}}^{t + 1} & o t h e n v i s e \end{matrix},

其中，(V^*)^t+1是第t+1次迭代的公共语义标签，是常数，取值范围是公共语义标签V^*的利普席茨模量，J是目标函数J相对于公共语义标签V^*的偏导数。

S76，转S72，直至t＝N，N为迭代次数，N＝30。

通过以上目标函数的求解得到公共语义标签后，根据所述公共语义标签，得到公共的聚类结果，即可完成多视角聚类。

为了验证本发明的实施效果，接下来以Pascal VOC2007数据库为例说明。该数据库包含9963个图像-文本对，共计20类，即对应20个语义标签。具体步骤如下：

S1，将训练集中多类别的图片以及没有标记词对应的图片去除，得到5649图像和标记词对。提取图片的GIST特征以及标记词的词频特征。

S2，给定参数α，β，γ，λ_c以及聚类数目m，(c＝1,...,m)。

S3，初始化和迭代次数N＝30。

S4，迭代执行步骤S72-S75，得出公共语义标签。

S5，根据公共语义标签完成多视角聚类。

以上所述的具体实施例，对本发明的目的、技术方案和效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非负字典对学习的鲁棒多视角聚类方法，包括步骤：

S1，提取多模态数据库中的多模态特征；

S7，采用近端交替线性最小化算法求解优化所述目标函数，得到公共语义标签，根据所述公共语义标签，得到公共的聚类结果，完成多视角聚类。

2.根据权利要求1所述方法，其特征在于，所述字典学习的目标函数为：

\min_{U, V} | | X - U V | |_{F}^{2} + Ω {U, V},

3.根据权利要求2所述的方法，其特征在于，步骤S3中所述非负特征投影是非负线性投影V＝W^TX，W为线性投影矩阵,W^T为矩阵W的转置。

4.根据权利要求3所述的方法，其特征在于，步骤S4中，所述一致性约束公式如下：

D (W_{c}^{T} X_{c}, V^{*}) = | | W_{c}^{T} X_{c} - V^{*} | |_{F}^{2},

5.根据权利要求4所述方法，其特征在于，步骤S5中所述局部几何保持约束如下：

Σ_{c = 1}^{m} Σ_{i, j = 1}^{n} λ_{c} S_{c} (i, j) {(V^{*} (:, i) - V^{*} (:, j))}^{2} = Σ_{c = 1}^{m} λ_{c} V^{*} L_{c} V^{* T},

其中m是模态数目，i,j为样本序号，n为样本数目，λ_c为第c个模态的权重系数，V^*(:,i)表示矩阵V^*的第i列，V^*T是矩阵V^*的转置，L_c＝D_c-S_c是亲和矩阵S_c的拉普拉斯矩阵，D_c为第c个模态的对角矩阵，D_c(i,i)＝∑_jS_c(i,j)，第c个模态的亲和矩阵S_c如下定义：

S_{c} (i, j) = \{\begin{matrix} \exp (- \frac{{|| x_{i} - x_{j} ||}^{2}}{σ^{2}}) & x_{i} &Element; N_{k} (x_{j}) o r x_{j} &Element; N_{k} (x_{i}) \\ 0 & o t h e r w i s e \end{matrix},

其中，N_k(x)为样本x的k近邻。

6.根据权利要求5所述方法，其特征在于，步骤S6中，所述统一的目标函数如下表示：

\begin{matrix} \min_{U_{c}, W_{c}, V^{*}} Σ_{c = 1}^{m} {|| X_{c} - U_{c} W_{c}^{T} X_{c} ||}_{F}^{2} + α {|| W_{c}^{T} X_{c} - V^{*} ||}_{F}^{2} + β {|| W_{c} ||}_{2, 1} + t r (V^{*} {LV}^{* T}) \\ \begin{matrix} s . t . & U_{c}, W_{c}^{T} X_{c}, V^{*} &GreaterEqual; 0, V^{* T} V^{*} = I, L = Σ_{c = 1}^{m} λ_{c} L_{c} \end{matrix} \end{matrix},

其中，U_c为第c个模态的语义投影矩阵，W_c是第c个模态特征的线性投影矩阵，α,β为权重参数，α,β∈[10^-4,10⁴]，X_c为第c个模态的特征，V^*为公共语义标签，||·||_2,1为求取矩阵的2,1范数操作，L是每个模态拉普拉斯矩阵的加权和，I为单位矩阵；

所述统一的目标函数放缩处理后如下：

\begin{matrix} \min_{U_{c}, V_{c}, W_{c}, V^{*}} J = Σ_{c = 1}^{m} {|| X_{c} - U_{c} V_{c} ||}_{F}^{2} + α {|| W_{c}^{T} X_{c} - V_{c} ||}_{F}^{2} + β {|| W_{c} ||}_{2, 1} + γ {|| V_{c} - V^{*} ||}_{F}^{2} + t r (V^{*} {LV}^{* T}) \\ \begin{matrix} s . t . & V_{c}, V^{*} &GreaterEqual; 0, V^{*} V^{* T} = I, L = Σ_{c = 1}^{m} λ_{c} L_{c}; \end{matrix} \end{matrix},

其中，J为目标函数，V_c为第c个模态的辅助变量。

7.根据权利要求6所述方法，其特征在于，所述近端交替线性最小化算法采用如下求解：

S71，初始化c＝1,...,m，和迭代次数N，上标0表示第0次迭代；

S72，求解第t+1次迭代第c个模态的投影矩阵

U_{c}^{t + 1} = U_{c}^{t} - \frac{1}{α_{u} L_{u_{c}}} {&dtri;}_{u_{c}} J,

S73，求解

W_{c}^{t + 1} = W_{c}^{t} - \frac{1}{α_{w} L_{w_{c}}} {&dtri;}_{w_{c}} J,

其中，为第t+1次迭代的第c个模态的投影矩阵，α_w是常数，取值范围是α_w＞1，目标函数J关于W_c的偏导数和利普席茨模量计算如下：

\begin{matrix} {&dtri;}_{w_{c}} J = {αX}_{c} {(W_{c}^{t T} X_{c} - V_{c}^{t})}^{T} + {βD}_{c}^{t} W_{c}^{t} \\ L_{w_{c}} = {αX}_{c} X_{c}^{T} + {βD}_{c}^{t} \end{matrix},

其中，α,β为权重参数，X_c为第c个模态的特征向量，为对角矩阵其中为矩阵的第j行，||·||₂为求取矩阵的2范数，为第t次迭代的第c个模态的投影矩阵；

S74，求解

\begin{matrix} {\tilde{V}}_{c}^{t + 1} = V_{c}^{t} - \frac{1}{α_{v} L_{V_{c}}} {&dtri;}_{V_{c}} J \\ V_{c}^{t + 1} = \{\begin{matrix} 0 & \begin{matrix} i f & {\tilde{V}}_{c}^{t + 1} < 0 \end{matrix} \\ {\tilde{V}}_{c}^{t + 1} & o t h e r w i s e \end{matrix} \end{matrix},

其中，α_v＞1是常数，是V_c的利普席茨模量，是目标函数相对于V_c的偏导数，是第t+1次迭代的第c个模态的中间变量，是第t+1次迭代的第c个模态的辅助变量；

S75，求解(V^*)^t+1：

\begin{matrix} {\overset{&OverBar;}{(V^{*})}}^{t + 1} = {(V^{*})}^{t} - \frac{1}{α_{v *} L_{(v^{*})}} {&dtri;}_{v^{*}} J \\ {(V^{*})}^{t + 1} = \{\begin{matrix} 0 & \begin{matrix} i f & {\overset{&OverBar;}{(V^{*})}}^{t + 1} < 0 \end{matrix} \\ {\overset{&OverBar;}{(V^{*})}}^{t + 1} & o t h e r w i s e \end{matrix} \end{matrix},

其中，(V^*)^t+1是第t+1次迭代的公共语义标签，是常数，取值范围是公共语义标签V^*的利普席茨模量，是目标函数J相对于语义标签V^*的偏导数。

S76，转S72，直至t＝N，N为迭代次数，N＝30。