CN114399649A

CN114399649A - 一种基于学习图的快速多视图半监督学习方法及系统

Info

Publication number: CN114399649A
Application number: CN202111447155.6A
Authority: CN
Inventors: 张斌; 强倩瑶; 王飞
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-26
Anticipated expiration: 2041-11-30
Also published as: CN114399649B

Abstract

本发明公开了一种基于学习图的快速多视图半监督学习方法及系统，属于多视图图像分类领域。本发明的基于学习图的快速多视图半监督学习方法，可以在减小基于图的多视图图像分类方法计算复杂度的前提下，有效地完成多视图图像分类任务。与当前已有的大多数方法构建大小为n×n的传统相似度图不同，本发明为n幅图像选择m(m＜＜n)幅具有代表性的锚点图像，并构建n×m锚点图以加速多视图图像分类工作。为不同图像特征的锚点图自动分配权重，利用原始图像特征和预测标签共同学习得到了一个最优的多视图一致性锚点图。

Description

一种基于学习图的快速多视图半监督学习方法及系统

技术领域

本发明属于多视图图像分类领域，尤其是一种基于学习图的快速多视图半监督学习方法及系统。

背景技术

在计算机视觉领域，每幅图像都可以用多种不同的特征描述。例如，颜色特征、纹理特征、形状特征等。使用多种特征描述的图像是一种典型的多视图数据，不同的特征构成多个视图。不同视图描述独立或互补异构特征空间的特定方面。如果多个视图中包含的特征信息得到合理的融合，多视图图像分类的性能可以得到显著提升。随着图像采集技术的蓬勃发展，标记图像稀缺，未标记图像充裕。人工标记图像耗时、费力、成本高昂。半监督学习(Semi-Supervised Learning，SSL)可以从少量标记图像和大量未标记图像中学习有用信息。因此，多视图SSL的研究对于多视图图像分类意义重大。基于图的方法在SSL中应用广泛。图中的节点代表标记和未标记样本，边反映样本之间的相似性关系。给定一个部分标记的数据集，通过学习和分析图中样本对之间的相似性，可以预测未标记样本的标签。在基于图的多视图学习方面，图像分类、网页分类、目标检测等应用都取得了良好的效果。构建信息丰富且准确的相似度图在基于图的方法中至关重要。

许多现有的基于图的多视图SSL使用基于核的邻居分配策略构建相似度图。例如，高斯核策略。高斯核策略引入了一个需要被调节的带宽参数，虽然带宽参数的调节是经验性的，但非常耗时。因此，研究者们提出了无参且有效的邻居分配策略来避免这个问题。传统的基于图的方法通常采用k-最近邻(k-Nearest Neighbors,k-NN)来构建几乎满秩的相似度图。然而，样本数量为n的数据集构建一个大小为n×n的k-NN图，时间复杂度是O(n²d)，其中d代表数据特征的维度。对于包含数十万个样本的数据集来说，这样的时间开销是无法接受的，并且一个n×n的相似度图也会使得后续的计算操作非常耗时。面对大规模数据，需要一个高效的构图策略来降低时间成本。锚点图，即原始样本和锚点之间的相似度图，已被用于基于图的方法，以降低计算成本并增强计算性能。在锚点图中，锚点的数量m明显小于原始样本的数量n，并且构建一个n×m的锚点图只需要计算O(nm)的距离。需要注意的是，锚点质量直接影响学习性能，锚点的生成方法很关键。最常用的生成锚点的方法有：(1)随机选择；(2)k-means方法。随机选择方法随机地从n个样本中选择m个作为锚点，虽然其效率很高，但无法保证锚点的质量和稳定性。k-means方法将n个样本聚为m类，选择m个类中心作为锚点。这种方法可以生成具有代表性的锚点，但时间开销较大并且可能会生成数量不均衡的聚类簇。尽管可以提前终止迭代或进行下采样以加快k-means方法，然而，这两种做法都不能保证锚点的质量。

使用基于图的多视图方法解决多视图图像分类问题时，合理地融合来自多个不同特征的信息，学习一个比在任何单一特征上构建的相似度图信息量都大且准确的多视图一致性图是一个挑战。解码不同图像特征之间的关系和一致性是主要难题。最常用的两种多视图融合方法是：最优线性组合和协同正则化。具体做法是，最优线性组合方法将在不同图像特征上构建的相似度图以最佳权重线性叠加；协同正则化方法利用协同正则化技术对两个不同图像特征上谱学习的差异进行惩罚。尽管这些方法在多视图图像分类问题中显示出不同的优势，但它们仅使用原始特征信息构建相似度图。图像标签传递过程中学习到的预测标签，也是多视图融合过程中非常重要的因素。有必要使用原始图像特征和学习到的标签信息，共同构建最优的一致性图，以提升多视图图像分类的性能。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种基于学习图的快速多视图半监督学习方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于学习图的快速多视图半监督学习方法，包括以下步骤：

步骤1：为n幅图像生成m幅锚点图像，m＜＜n，具体为：

获取三视图图像数据集{X¹,X²,X³}，对三种特征数据的拼接数据[X¹；X²；X³]使用基于平衡k-means的层次k-means方法生成锚点拼接特征数据[U¹；U²；U³]；

所述三视图图像数据集{X¹,X²,X³}包含n幅图像，其中，l幅图像有标签信息，l幅已标记图像位于u幅未标记图像之前，u＝n-l；

表示Gabor特征，

表示第i幅图像的Gabor特征，i∈1,…,n，d¹表示Gabor特征的维度；

表示HOG特征，

表示第i幅图像的HOG特征，i∈1,…,n，d²表示HOG特征的维度；

表示GIST特征，

表示第i幅图像的GIST特征，d³表示GIST特征的维度；

使用k-means首先将所有图像特征分成两个数量平衡的子类，然后对子类继续分层执行平衡k-means，直到最终得到与锚点数相同的叶子聚类，最后将所有叶子聚类的类中心作为锚点；

根据三个不同特征的维度d¹、d²、d³切割[U¹；U²；U³]，得到锚点图像集{U¹,U²,U³}；

其中，

表示Gabor特征的锚点，

表示的第j幅锚点图像的Gabor特征；

表示HOG特征的锚点，

表示的第j幅锚点图像的HOG特征；

表示GIST特征的锚点，

表示的第j幅锚点图像的GIST特征；

步骤2：构建原始图像与锚点图像之间的锚点图；

步骤3：为在三种不同特征上构建的锚点图分配权重系数，加权相加得到线性锚点图组合；基于三种特征共享的一致性锚点图和线性锚点图组合构建回归残差；

步骤4：计算图拉普拉斯矩阵；

步骤5：以所述回归残差项的值最小、拉普拉斯矩阵谱分解的值最小、图像预测标签和已知标签最接近为优化目标，构建FMSSL的目标函数；

步骤6：利用迭代交替优化方法求解所述目标函数，直至的目标函数收敛，输出三视图图像的预测标签矩阵，将类标签分配给未标记图像。

进一步的，步骤2具体为：

通过最小化下式分别构建第v个特征的锚点图

式中，

||·||₂代表l-2范数，

衡量了第v个特征中第i幅图像和第j幅锚点图像之间的相似度，

代表第v个特征中的第i幅图像与所有m幅锚点图像的相似度向量；γ是正则参数，设置为

式(1)中问题的解为：

锚点图B^v是k近邻的，即

含有k个非零元素。

进一步的，步骤3具体为：

通过为在三种不同特征上构建的锚点图B¹、B²、B³分配权重系数d₁、d₂、d₃，得到线性组合B¹、B²、B³得到

基于三种特征共享的一致性锚点图和线性锚点图组合构建回归残差：

式中，||·||_F代表l-F范数，

代表权重向量，

代表Gabor、HOG、GIST三种特征共享的一致性锚点图；P满足约束P1＝1和P≥0。

进一步的，步骤4具体为：

计算图拉普拉斯矩阵L_P＝D_P-S；

其中，

代表二部图，D_P∈R^(n+m)×(n+m)是第i个对角元素为

的对角度矩阵。

进一步的，步骤5中构建的FMSSL的目标函数为：

式中，

代表所有原始图像{X¹,X²,X³}和所有锚点图像{U¹,U²,U³}的已知标签矩阵，其中c表示样本类别数，

是所有原始图像的已知标签矩阵；令

表示所有锚点图像的已知标签矩阵；由于l个已标记图像位于u个未标记图像之前，则Y_n＝[Y_l；Y_u]，

是已标记图像的标签矩阵，令

是未标记图像的标签矩阵；

表示所有原始图像的预测标签矩阵，

表示所有锚点图像的预测标签矩阵；α是平衡参数，

是一个对角矩阵；

当第i幅图像已标记时，u_ii＝∞，否则u_ii＝0，因此

在式(3)的目标函数中，第二项是惩罚项，测量了三种特征共享的一致性锚点图P在预测标签矩阵

上的平滑程度；第三项是软误差项，用以松弛预测标签F_l严格等于已知标签Y_l的限制。

进一步的，步骤6中求解FMSSL的目标函数的具体过程为：

(601)固定F、G和d，更新P；

当F，G和d固定时，求解P的子问题为：

令

式(4)写为：

式(5)中的问题在不同的i之间是相互独立的，通过解决以下问题求解：

式中，e_i是第j个元素为

的一个向量，式(6)用拉格朗日乘子法求解；

(602)固定d和P，更新F和G；

当d和P固定时，求解F和G的子问题为：

令式(7)关于F和G的倒数为零，得：

式中，

是D_P的左上块对角矩阵，

是D_P的右下块对角矩阵，

是U的左上块对角矩阵；

使用分块矩阵求逆的技巧：

求解得：

(603)固定P、F和G，更新d；

当P、F和G固定时，求解d的子问题为：

将P和B^v写成大向量的形式，令

则有：

式(13)用增广拉格朗日乘子法求解；

(604)循环(601)至(603)交替优化P、F、G和d，直到目标函数收敛，输出三视图图像的预测标签矩阵F。

进一步的，步骤6中根据式(14)将具体的类标签分配给未标记图像：

一种基于学习图的快速多视图半监督学习系统，包括锚点图像生成模块、锚点图构建模块、回归残差构建模块、图拉普拉斯矩阵计算模块、FMSSL目标函数构建模块和FMSSL目标函数优化模块；

所述锚点图像生成模块，用于为n幅图像生成m幅锚点图像，具体为：

表示Gabor特征，

表示HOG特征，

表示第i幅图像的HOG特征，i∈1,…,n，d²表示HOG特征的维度；

表示GIST特征，

表示第i幅图像的GIST特征，d³表示GIST特征的维度；

其中，

表示Gabor特征的锚点，

表示的第j幅锚点图像的Gabor特征；

表示HOG特征的锚点，

表示的第j幅锚点图像的HOG特征；

表示GIST特征的锚点，

表示的第j幅锚点图像的GIST特征；

所述锚点图构建模块，用于构建原始图像与锚点图像之间的锚点图；

所述回归残差构建模块，为在三种不同特征上构建的锚点图分配权重系数，加权相加得到线性锚点图组合；基于三种特征共享的一致性锚点图和线性锚点图组合构建回归残差；

所述图拉普拉斯矩阵计算模块，用于计算图拉普拉斯矩阵；

FMSSL目标函数构建模块，用于以所述回归残差项的值最小、拉普拉斯矩阵谱分解的值最小、图像预测标签和已知标签最接近为优化目标，构建FMSSL的目标函数；

FMSSL目标函数优化模块，用于利用迭代交替优化方法求解所述目标函数，直至的目标函数收敛，输出三视图图像的预测标签矩阵，将类标签分配给未标记图像。

与现有技术相比，本发明具有以下有益效果：

本发明的基于学习图的快速多视图半监督学习方法，可以在减小基于图的多视图图像分类方法计算复杂度的前提下，有效地完成多视图图像分类任务。与当前已有的大多数方法构建大小为n×n的传统相似度图不同，本发明为n幅图像选择m(m＜＜n)幅具有代表性的锚点图像，并构建n×m锚点图以加速多视图图像分类工作。为不同图像特征的锚点图自动分配权重，利用原始图像特征和预测标签共同学习得到了一个最优的多视图一致性锚点图。

进一步的，本发明提出了原始图像和锚点图像联合分类，指出了二者之间的二元性，将学习到的一致性锚点图作为二部图的权重矩阵被引入到SSL模型中，根据二部图的结构，提高多视图图像的分类效率。

进一步的，本发明设计了一种高效的交替迭代算法来优化最终的目标函数，多个变量联合更新，保证了在时间上和分类精度上的优越性。

附图说明

图1为本发明的FMSSL的模型图；

图2为实施例1的基于学习图的快速多视图半监督学习方法的流程图；

图3为实施例1的基于学习图的快速多视图半监督学习系统的原理框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

本发明所述的FMSSL方法，将矩阵形式的三视图图像数据集{X¹,X²,X³}作为输入，通过构建锚点图建立SSL模型，指导标签信息从有标记图像传播给未标记图像。基于锚点图进行半监督学习，能够在降低计算复杂度和空间复杂度的同时保证标签传播的性能，实现快速的多视图图像分类。

参见图1，图1为本发明的FMSSL的模型图。该模型由两部分组成。第一部分构建锚点图{B¹,B²,B³}，第二部分迭代优化所有变量：一致性锚点图P、预测标签[F；G]和权重向量d。本发明FMSSL，包括如下步骤：

步骤1：加载多视图图像数据集{X¹,X²,X³}和已知标签矩阵Y，设置类别数c、锚点数m和参数α；

步骤2：使用BKHK方法生成三个视图的锚点图像{U¹,U²,U³}；

步骤3：根据式(1)构建三个视图的锚点图{B¹,B²,B³}；

步骤4：初始化权重d_v＝1/3(v∈1,2,3)，随机初始化预测标签F和G；

步骤5：采用拉格朗日乘子法求解式(6)中的问题，更新P；

步骤6：根据L_P＝D_P-S计算图拉普拉斯矩阵，其中

是二部图，D_P是对角度矩阵；步骤7：令目标函数关于F和G的倒数为零，使用分块矩阵求逆的技巧，通过式(10)和式(11)更新F和G；

步骤8：采用增广拉格朗日乘子法求解式(13)，更新权重向量d；

步骤9：循环步骤5到步骤8，直到目标函数收敛到最小值；

步骤10：通过式(14)将具体的类标签分配给所有未标记图像；

步骤11：根据分类结果计算分类准确率。

实施例1

参见图2，图2为实施例1的基于学习图的快速多视图半监督学习方法的流程图；本发明包括：

首先定义表示多视图图像数据集的数学符号。定义一个使用Gabor、HOG、GIST三种特征表示的三视图图像数据集{X¹,X²,X³}，该数据集共包含n幅图像，其中l幅图像有标签信息，并且l幅已标记图像位于u(u＝n-l)幅未标记图像之前。

表示Gabor特征，

表示第i幅图像的Gabor特征，d¹表示Gabor特征的维度；

表示HOG特征，

表示第i幅图像的HOG特征，d²表示HOG特征的维度；

表示GIST特征，

表示第i幅图像的GIST特征，d³表示GIST特征的维度。

步骤1：为n幅图像生成m幅锚点图像(m＜＜n)。为保证三种不同特征之间锚点图像的一致性，对三种特征数据的拼接数据[X¹；X²；X³]使用基于平衡k-means的层次k-means方法(Balanced k-means-based Hierarchical k-means，BKHK)方法生成锚点拼接特征数据[U¹；U²；U³]。BKHK使用k-means首先将所有图像特征分成两个数量平衡的子类，然后对子类继续分层执行平衡k-means，直到最终得到与锚点数相同的叶子聚类，最后将所有叶子聚类的类中心作为锚点。然后根据三个不同特征的维度d¹、d²、d³切割[U¹；U²；U³]，得到锚点图像集{U¹,U²,U³}。其中

表示Gabor特征的锚点，

表示的第j幅锚点图像的Gabor特征；

表示HOG特征的锚点，

表示的第j幅锚点图像的HOG特征；

表示GIST特征的锚点，

表示的第j幅锚点图像的GIST特征。

步骤2：构建原始图像与锚点图像之间的锚点图。通过最小化下式分别构建第v(v∈1,2,3)个特征的锚点图

式中，

·||₂代表l-2范数，

代表第v个特征中的第i幅图像与所有m幅锚点图像的相似度向量。γ是正则参数，可以被设置为

式(1)中问题的解为：

锚点图B^v是k近邻的，即

含有k个非零元素。

步骤3：特征融合。通过为在三种不同特征上构建的锚点图B¹、B²、B³自动分配权重系数d₁、d₂、d₃，可以线性组合B¹、B²、B³得到

考虑到这种直接的线性锚点图组合对图像数据的要求过于苛刻，FMSSL引入一个灵活的回归残差：

式中，||·||_F代表l-F范数，

代表权重向量，

代表Gabor、HOG、GIST三种特征共享的一致性锚点图。P应满足约束P1＝1和P≥0，以为每幅图像分配理想的邻域。

步骤4：计算图拉普拉斯矩阵L_P＝D_P-S，其中

代表二部图，D_P∈R⁽ⁿ ^+m)×(n+m)是第i个对角元素为

的对角度矩阵。

步骤5：以式(3)中的灵活回归残差项的值最小、拉普拉斯矩阵谱分解的值最小、图像预测标签和已知标签最接近为优化目标，构建FMSSL的目标函数：

式中，

是所有原始图像的已知标签矩阵，令

表示所有锚点图像的已知标签矩阵。由于l个已标记图像位于u个未标记图像之前，则Y_n＝[Y_l；Y_u]，

是已标记图像的标签矩阵，令

是未标记图像的标签矩阵。

表示所有原始图像的预测标签矩阵，

表示所有锚点图像的预测标签矩阵。α是平衡参数，

是一个对角矩阵。通常情况下，当第i幅图像已标记时，u_ii＝∞，否则u_ii＝0。因此

式(3)中的P不仅和{B¹,B²,B³}有关，也和F有关。这表明多视图一致性锚点图利用原始图像特征和预测标签共同学习得到。

步骤6：设计优化方法求解FMSSL的目标函数：

本发明设计了一个迭代交替优化方法求解式(3)中目标函数的最小值，具体内容如下：

(601)固定F、G和d，更新P。

当F，G和d固定时，求解P的子问题为：

令

式(4)可以被重写为：

式(5)中的问题在不同的i之间是相互独立的，因此，可以通过解决以下问题求解：

式中，e_i是第j个元素为

的一个向量。此问题可直接用拉格朗日乘子法求解。

(602)固定d和P，更新F和G。

当d和P固定时，求解F和G的子问题为：

令式(7)关于F和G的倒数为零，可得：

式中，

是D_P的左上块对角矩阵，

是D_P的右下块对角矩阵，

是U的左上块对角矩阵。使用分块矩阵求逆的技巧：

可求解得：

(603)固定P、F和G，更新d。

当P、F和G固定时，求解d的子问题为：

将P和B^v写成大向量的形式，令

则有：

上式中的问题是一个标准的二次规划问题，可直接用增广拉格朗日乘子法求解。

(604)循环(601)至(603)交替优化P、F、G和d，直到目标函数收敛。求解得到F之后，根据下式将具体的类标签分配给未标记图像：

步骤7：输出三视图图像{X¹,X²,X³}的预测标签矩阵F，计算分类准确。

利用本发明的基于学习图的快速多视图半监督学习方法进行仿真实验。

本实例中使用NUS-WIDE数据集，对来自10类的15883幅图像进行分类。每幅图像都是用五种低级特征表示：64维的颜色直方图(color histograms)、144维的颜色相关图(color correlograms)、73维的边缘方向直方图(edge direction histograms)和128维的小波纹理(wavelet textures)。

本实例对上述图像分别采用MLHR(Multi-feature learning via hierarchicalregression),SMGI(Sparse Multiple Graph Integration)，AMGL(Auto-weightedMultiple Graph Learning)，MLAN(Multi-view Learning with Adaptive Neighbors)以及FMSSL-K(使用k-means方法选则锚点的FMSSL),FMSSL-R(使用随机策略选则锚点的FMSSL)和FMSSL进行分类。从上述图像的每类样本中随机分别选择10％、15％、20％、25％和30％的样本作为标记样本，其余样本全部当作未标记样本，并采用ACC(准确率)和运行时间对分类性能进行评价，其对比结果如下表1和表2所示。其中，OM表示实验时遇到内存溢出问题。

表1ACC对比结果

表2运行时间对比结果(单位：秒，标记样本比例为20％)

方法	运行时间
		MLHR	1286.8472
SMGI	2645.5313
		AMGL	12841.0334
MLAN	OM
		FMSSL-K	432.7475
FMSSL-R	409.6573
		FMSSL	417.7870

从表1和表2可见，本发明的分类性能和运行时间优于其他对比方法。通过以上仿真实验可以验证本发明的有效性。

实施例2

提供一种基于学习图的快速多视图半监督学习系统，应用于基于学习图的快速多视图半监督学习方法中，参见图3，图3为实施例2的原理框图，基于学习图的快速多视图半监督学习系统包括锚点图像生成模块、锚点图构建模块、回归残差构建模块、图拉普拉斯矩阵计算模块、FMSSL目标函数构建模块和FMSSL目标函数优化模块；

表示Gabor特征，

表示HOG特征，

表示第i幅图像的HOG特征，i∈1,…,n，d²表示HOG特征的维度；

表示GIST特征，

表示第i幅图像的GIST特征，d³表示GIST特征的维度；

其中，

表示Gabor特征的锚点，

表示的第j幅锚点图像的Gabor特征；

表示HOG特征的锚点，

表示的第j幅锚点图像的HOG特征；

表示GIST特征的锚点，

表示的第j幅锚点图像的GIST特征；

所述图拉普拉斯矩阵计算模块，用于计算图拉普拉斯矩阵；

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。