CN111275125A

CN111275125A - 一种面向低秩图像特征分析的类别标签恢复方法

Info

Publication number: CN111275125A
Application number: CN202010085541.4A
Authority: CN
Inventors: 时庭庭; 刘浩; 应晓清; 王凯巡; 沈港; 黄震; 廖荣生; 魏国林; 魏冬; 周健; 田伟
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-12

Abstract

本发明涉及一种面向图像可靠分类的类别标签恢复方法，属于机器视觉技术领域。本发明将标签传播过程、PCA降维和LDA分类结合起来，公开了一种面向低秩图像特征分析的类别标签恢复方法。所提方法通过引入标签传播过程，获得标签恢复后的数据集，随后执行PCA可靠降维，以降低可靠数据集的维度，同时保持可靠数据集中对方差贡献最大的信息，最后提取LDA特征，得到鉴别分析的低秩特征。所提方法通过对含有缺失标签的数据集进行预处理，还原缺失的类别标签，并通过可靠降维提取出最具判别性的特征，使得后续的最近邻分类器更加精确可靠；提高了样本标签数据的鲁棒性，使得分类模型更加有效。

Description

一种面向低秩图像特征分析的类别标签恢复方法

技术领域

本发明涉及一种面向低秩图像特征分析的类别标签恢复方法，属于机器视觉技术领域。

背景技术

线性鉴别分析(LDA)可以利用样本图像已知的类别标签，寻找最有助于图像分类的投影子空间，属于一种有监督的机器学习方法。LDA从高维数据中提取出最具判别性的低秩特征，这些特征有助于将同一类别的所有样本聚集在一起、不同类别的样本尽量分开，即选取使样本类间散度与样本类内散度比值最大的特征。图像数据集的高效预处理是相当困难的，一般采取的有效方法是尽量保持数据集中所包含的主要信息，并对其维度进行削减。典型地，主成分分析(PCA)能够在最大限度地保留原始数据信息量的基础上，对数据集进行有效的降维分析。PCA降维可以快速地确定图像数据集各个成分的权重，减少噪声数据对LDA分类的负面影响。

标签信息在基于LDA的图像分类中起着至关重要的作用，但是实际获得的数据集往往存在标签缺失问题。如果忽视这个问题，那么训练出来的分类模型可能会出现各种问题，若舍去不含标签的样本图像，则会导致模型欠拟合或低识别率。因此，需要在分类前对数据集进行预处理，确保尽可能多的样本都有正确无误的类别标签。

发明内容

本发明的目的是为解决在图像分类前对数据集进行预处理，确保尽可能多的样本都有正确无误的类别标签的技术问题，提供一种对缺失标签的数据集进行恢复的方法，以便鲁棒地执行基于LDA的图像最近邻分类。

为达到解决上述问题的目的，本发明所采取的技术方案是提供一种面向低秩图像特征分析的类别标签恢复方法，包括以下步骤：

步骤1：待处理的原始样本集A中含有n幅样本图像，共有C个类别，第c类中有N_c个样本，c∈{1，2，...，C}。每幅图像的尺寸均为S×S像素，将这S×S维的图像矩阵拉成一个S²维的向量，n幅图像组成一个S²×n维的样本矩阵X＝[x₁，x₂，...，x_n]，每幅图像对应的类别标签y₁，...，y_n∈{1，2，...，C}，原始标签矩阵Y＝[y₁，y₂，...，y_n]；对原始标签矩阵进行随机丢失操作；产生u个无重复的随机数，并在原始标签矩阵Y＝[y₁，y₂，...，y_n]中将u个随机数对应序号处的标签值丢弃，进而将原始样本集A划分为有标签样本和无标签样本；设丢失的标签数为u，保留的标签数为l，则l+u＝n。

步骤2：通过标签传播算法预测出丢失的类别标签。(x₁ ^*，y₁ ^*)，...，(x_l ^*，y_l ^*)是有标签样本，Y_L＝{y₁ ^*，...，y_l ^*}是可观测的类别标签，(x^* _l+1，y^* _l+1)，...，(x^* _l+u，y^* _l+u)是无标签样本，Y_U＝{y^* _l+1，...，y^* _l+u}是不可观测的类别标签；将每幅样本图像看作是一个节点，计算出各个节点间的权重w_ij，根据权重w_ij计算出节点i到节点j的传播概率T_ij；构建一个(l+u)×C维的标签概率矩阵F，其中的元素f_ic表示节点i的标签为c的概率；每个节点累计它周围节点的传播概率，然后更新该节点的概率分布；把有标签样本的概率分布重新赋值为初始值，迭代地执行标签传播过程并重置标记概率矩阵，直至F收敛；经过上述操作之后，无标签样本的标签信息全部恢复完毕，获得完整的恢复标签矩阵Y′＝[y′₁，y′₂，...，y′_n]。

步骤3：计算样本矩阵X中每一维度的平均值，每维特征减去各自维度的平均值，进行去中心化操作；计算协方差矩阵

用特征值分解方法求协方差矩阵

的特征值与特征向量；将特征值从大到小排序，选出前k个特征值对应的特征向量分别作为行向量，组成特征向量矩阵P；将样本图像变换到k维特征向量构建的特征空间V＝PX。

步骤4：经过PCA可靠降维后的特征空间V＝[v₁，v₂，...，v_n]，特征向量的维度为k，k＜S²，共有C类，第c类中有N_c个样本，m_c为类均值向量，m为总均值向量，类内散度矩阵

类间散度矩阵

最优投影方向矩阵应满足如下准则：

矩阵S_w非奇异，通过求解拉格朗日函数可得特征方程：S_bw＝λS_ww，计算S_w ^-1S_b的特征值和特征向量，选取最大的d个特征值所对应的特征向量构成投影矩阵Q＝[q₁，q₂，...，q_d]，V再一次变换到新特征空间Z中：Z＝Q^TV。

步骤5：获得训练集投影后的低秩表示、测试集投影后的低秩表示及训练集的标签，输入到最近邻分类模型中，计算出识别率。

图像数据集的类别标签往往容易缺失，这会影响有监督的分类模型训练，导致模型参数的欠拟合以及较低的识别率。为了提高样本标签数据的鲁棒性，使得分类模型更加有效，本发明将标签传播过程、PCA降维和LDA分类结合起来，公开了一种面向低秩图像特征分析的类别标签恢复方法。所提方法通过引入标签传播过程，获得标签恢复后的数据集，随后执行PCA可靠降维，以降低可靠数据集的维度，同时保持可靠数据集中对方差贡献最大的信息，最后提取LDA特征，得到鉴别分析的低秩特征。所提方法通过对含有缺失标签的数据集进行预处理，还原缺失的类别标签，并通过可靠降维提取出最具判别性的特征，使得后续的最近邻分类器更加精确可靠。

相比现有技术，本发明具有如下有益效果：

通过本发明的方法对标签缺失的数据集进行预处理，利用无标签样本的分布规律和邻近有标签样本的标签，预测并传播无标签样本的标签，然后迭代地合并到有标签样本的数据集中。标签传播算法通过相近数据之间标签的传递来学习分类信息，不受数据分布形态的局限，只要同一类的数据在空间分布上具有相似性，都能通过标签传播将它们分到同一个类里。面向低秩图像特征分析的类别标签恢复方法不仅有助于提取最具区别的低秩特征，还可以保持原始数据在投影空间的主要能量，使得最近邻分类器更加准确可靠。

附图说明

图1为本发明提供的主要步骤图；

图2为获得完整的恢复标签矩阵的流程图；

图3为PCA可靠降维的原理图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下：

如图1所示，首先获取原始样本集A的所有样本，共有n幅样本图像，共有C个类别，第c类中有N_e个样本，c∈{1，2，...，C}。每幅图像的尺寸均为S×S像素，将S×S维的图像矩阵拉成一个S²维的列向量，n幅图像组成一个S²×n维的样本矩阵x＝[x₁，x₂，...，x_n]，每幅图像对应的标签y₁，...y_n∈{1，2，...，C}，对应于原始标签矩阵Y＝[y₁，y₂，...，y_n]。对于上述原始样本集A，本发明提供了一种面向低秩图像特征分析的类别标签恢复方法，包括以下步骤：

步骤1：产生u个无重复的随机数，并在原始标签矩阵Y＝[y₁，y₂，...，y_n]中将u个随机数对应处的标签值丢弃，进而将原始样本集A划分为有标签样本和无标签样本。设丢失的标签数为u，保留的标签数为l，令(x₁ ^*，y₁ ^*)，...，(x_l ^*，y_l ^*)是有标签样本，Y_L＝{y₁ ^*，…，y_l ^*}是可观测的类别标签；(x^* _l+1，y^* _l+1)，...，(x^* _l+u，y^* _l+u)是无标签样本，l+u＝n，Y_U＝{y^* _l+1，...，y^* _l+u}是不可观测的类别标签。

步骤2：如图2所示，将每幅样本图像看作是一个节点，计算各个节点间的权重

||x_i ^*-x_j ^*||表示两个节点之间的欧氏距离，σ是可调的带宽参数。所有权重w_ij构成权重矩阵W，T_ij是节点i到节点j的传播概率：

所有传播概率T_ij构成概率传递矩阵T。计算(l+u)×C维的标记概率矩阵F：f_ij表示第i个样本标签为C_i的概率，所有的有标签样本构成F_L，所有的无标签样本构成F_U。在迭代过程中，第t次的标签传播

表示第t-1次传播前的标记概率，

表示第t次传播后的标记概率。对于标签概率矩阵

根据有标签样本和无标签样本可以把概率传递矩阵T划分为4个矩阵块

每个节点累计它周围节点的传播概率，然后更新该节点的概率分布。在标签传播算法中，将上一步获得的标记概率矩阵F中的F_L部分进行重置，与Y_L中的初始值一致。迭代地执行标签传播过程，并重置标记概率矩阵，直到矩阵F收敛为止。经过上述步骤，无标签样本的标签信息全部恢复完毕，获得完整的恢复标签矩阵Y′＝[y′₁，y′₂，...，y′_n]。

步骤3：计算样本矩阵X中每一维度的平均值，每维特征减去各自维度的平均值，进行去中心化操作。如图3所示，计算协方差矩阵

用特征值分解方法求协方差矩阵

的特征值与特征向量；将特征值从大到小排序，选出前k个最大的特征值对应的特征向量分别作为行向量，组成特征向量矩阵P；将X变换到k维特征向量构建的特征空间V＝PX。

步骤4：经过PCA可靠降维后的特征空间V＝[v₁，v₂，...，v_n]，特征向量的维度为k，k<S²，共有C类，第c类中有N_c个样本，m_c为类均值向量，m为总均值向量，类内散度矩阵

类间散度矩阵

最优投影方向矩阵应满足如下准则：

在通常情况下，PCA操作的样本个数大于样本的维数，矩阵S_w非奇异，通过拉格朗日函数求解可得特征方程：S_bw＝λS_ww。计算S_w ^-1S_b的特征值和特征向量，取最大的d个特征值所对应的特征向量，构成投影矩阵Q＝[q₁，q₂，...，q_d]，样本图像再一次变换到新特征空间Z中：Z＝Q^TV。

步骤5：将训练集投影后的低秩表示、测试集投影后的低秩表示及训练集的标签输入到最近邻分类模型中，得出正确识别的样本数，用正确识别的测试样本数除以测试样本总数，统计识别率，所得的最近邻分类器更加准确可靠。

以上所述，仅为本发明的较佳实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员，在不脱离本发明的精神和范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

Claims

1.一种面向低秩图像特征分析的类别标签恢复方法，其特征在于，包括以下步骤：

步骤1：待处理的原始样本集A中含有n幅样本图像，共有C个类别，第c类中有N_c个样本，c∈{1，2，...，C}；每幅图像的尺寸均为S×S像素，将这S×S维的图像矩阵拉成一个S²维的向量，n幅图像组成一个S²×n维的一个矩阵X＝[x₁，x₂，...，x_n]，每幅图像对应的类别标签y₁，...，y_n∈{1，2，...，C}，原始标签矩阵Y＝[y₁，y₂，...，y_n]；对原始标签矩阵进行随机丢失操作；产生u个无重复的随机数，并在原始标签矩阵Y＝[y₁，y₂，...，y_n]中将u个随机数对应序号处的标签值丢弃，进而将原始样本集A划分为有标签样本和无标签样本；设丢失的标签数为u，保留的标签数为l，则l+u＝n；

步骤2：通过标签传播算法预测出丢失的类别标签；(x₁ ^*，y₁ ^*)，...，(x_l ^*，y_l ^*)是有标签样本，Y_L＝{y₁ ^*，...，y_l ^*}是可观测的类别标签，(x^* _l+1，y^* _l+1)，...，(x^* _l+u，y^* _l+u)是无标签样本，Y_U＝{y^* _l+1，...，y^* _l+u}是不可观测的类别标签；将每幅样本图像看作是一个节点，计算出各个节点间的权重w_ij，根据权重w_ij计算出节点i到节点j的传播概率T_ij；构建一个(l+u)×C维的标签概率矩阵F，其中的元素f_ic表示节点i的标签为c的概率；每个节点累计它周围节点的传播概率，然后更新该节点的概率分布；把有标签样本的概率分布重新赋值为初始值，迭代地执行标签传播过程并重置标记概率矩阵，直至F收敛；经过上述操作之后，无标签样本的标签信息全部恢复完毕，获得完整的恢复标签矩阵Y′＝[y′₁，y′₂，...，y′_n]；

用特征值分解方法求协方差矩阵

的特征值与特征向量；将特征值从大到小排序，选出前k个特征值对应的特征向量分别作为行向量，组成特征向量矩阵P；将样本图像变换到k维特征向量构建的特征空间V＝PX；

步骤4：经过PCA可靠降维后的特征空间V＝[v₁，v₂，...，v_n]，特征向量的维度为k，k＜S²，共有C类，第c类中有N_c个样本，m_i为类均值向量，m为总均值向量，类内散度矩阵

类间散度矩阵

最优投影方向矩阵应满足如下准则：

矩阵S_w非奇异，通过求解拉格朗日函数可得特征方程：S_bw＝λS_ww，计算S_w ^-1S_b的特征值和特征向量，选取最大的d个特征值所对应的特征向量构成投影矩阵Q＝[q₁，q₂，...，q_d]，V再一次变换到新特征空间Z中：Z＝Q^TV；