CN111275100A

CN111275100A - 一种基于训练集样本低秩筛选的图像特征鉴别方法

Info

Publication number: CN111275100A
Application number: CN202010057887.3A
Authority: CN
Inventors: 刘浩; 沈港; 应晓清; 时庭庭; 王凯巡; 魏国林; 黄震; 廖荣生; 周健; 魏冬; 田伟
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-12
Anticipated expiration: 2040-01-16
Also published as: CN111275100B

Abstract

本发明公开了一种基于训练集样本低秩筛选的图像特征鉴别方法，基于2D LDA特征提取的最近邻分类器对噪声比较敏感，为此本发明将2D PCA低秩技术和2D LDA方法结合起来，所提方法通过进行训练集样本图像的有效信息择决操作，在一定置信度下获取不同类别的可靠样本，从而找到一个能够体现原始样本信息的容错训练子集。在图像特征鉴别中引入2D PCA预处理，可使筛选后的容错训练子集对噪声不敏感，使得后续的最近邻分类模型更加精确可靠，从而提高图像特征鉴别的鲁棒性和分类正确率，是大规模图像信息归类的一种有效方式。

Description

一种基于训练集样本低秩筛选的图像特征鉴别方法

技术领域

本发明涉及一种基于训练集样本低秩筛选的图像特征鉴别方法，属于模式识别与机器视觉领域。

背景技术

基于子空间的模式识别方法是从训练数据中学习投影以进行低维特征提取，目前已有多种数据特征抽取方法，如主元分析(Principal Component Analysis,PCA)、线性鉴别分析(Linear Discriminant Analysis,LDA)等，但是这些方法通常使用了对噪声和异常数据非常敏感的Frobenius范数来构建目标函数，使得这些方法都存在对噪声敏感、不够鲁棒的问题。针对图像大数据，近年来出现的二维主元分析(2D PCA)和二维线性鉴别分析(2DLDA)方法均基于二维矩阵，样本图像不需要事先转化成一个向量，图像的协方差矩阵直接使用样本图像矩阵构造，更适合图像数据分析。2D PCA方法无需样本的类别标签信息，通过寻找原始数据最大方差的投影方向，将图像数据投影到由主成分向量跨越的线性子空间上，在减少数据维度的同时，保持数据集中于对方差贡献最大的特征，这样产生的低秩表示可以最好地保留数据的主要信息。2D LDA方法是一种有监督的特征抽取方法，核心思想是找到这样一组投影向量，使得不同类别的样本在经过投影之后尽可能的远离，而同一类的样本在经过投影之后尽可能的接近，由此找到一个既扩大类间距离又减少类内距离的子空间。

图像数据通常存在二维低秩结构，低秩表示可以找出隐含在图像数据中的低维子空间结构。对于一组有噪的图像数据而言，利用低秩表示方法可以在学得数据的低维子空间结构的同时，将数据中的噪声分离出来。2D LDA方法常使用最近邻分类器对区别投影后的低秩表示进行分类处理，用被识别出的测试样本数除以总测试样本数，就可以计算出方法识别率。在图像特征鉴别中，如何综合发挥2D PCA、2D LDA、最近邻分类各自的优势，是值得深入研究的问题。已有方法利用2D PCA方法先求出原始样本图像的低秩表示，然后利用2D LDA方法对该低秩表示进一步进行特征抽取，所得的二阶特征向量具有一定模糊性，不如原始样本图像的解释性强，特征维度的选择缺乏准则。目前基于2D LDA的最近邻分类器存在对噪声比较敏感、识别率不够稳定等问题，引入鲁棒的预处理机制有助于解决这一问题。

发明内容

本发明要解决的技术问题是目前基于2D LDA的图像特征鉴别方法对噪声敏感、识别率不够稳定。

为了解决上述技术问题，本发明的技术方案是提供了一种基于训练集样本低秩筛选的图像特征鉴别方法，针对样本容量为M的原始训练集A，样本图像的类别数为I，每幅图像尺寸均为a×b像素，a×b二维矩阵x_i，j代表在原始训练集A中第i类(1≤i≤I)的第j幅图像，第i类样本的所有图像记为

M_i是第i类样本的图像总数，

其特征在于，步骤包括：

步骤一、在原始训练集A中逐类样本进行预处理，对每一类样本图像分别进行2DPCA，依次对第i类所有样本图像执行2D PCA操作，生成第i类样本的协方差矩阵，求出协方差矩阵的特征值及对应的正交投影向量Φ_i，1、Φ_i，2、…，并从大到小排列特征值，在第i类所有样本β％能量阈值的约束下，选取前d_i个最大特征值所对应的正交投影向量，生成最优投影矩阵

每幅样本图像均得到一个图像特征，对于给定的样本图像x_i，j，在经过2D PCA的特征提取之后，其主成分向量构成一个降维后的a×d_i图像特征y_i，j＝x_i，j·Φ_i。

步骤二、在第i类样本中，总共产生了M_i个图像特征，所有图像特征生成一个同维度的第i类均值特征

进一步求得第i类样本的每个图像特征所对应的相关系数，图像特征y_i，j的相关系数

步骤三：在一定置信度下筛选数据，求出第i类所有相关系数的平均值

并求出相应的标准差

根据具体应用的需求设置参数λ_i，将该参数带入公式：ε_i＝λ_i·S_i，求出置信度f_i，得到置信区间[U_i-ε_i，U_i+ε_i]，使用该置信区间筛选第i类样本对应的全部γ_i，j值，在置信区间之外的γ_i，i被视为可忽略误差，将其舍弃，在置信区间内的γ_i，j被视为有效测试数据，保留第i类样本中位于置信区间内相关系数γ_i，j所对应的样本图像x_i，j，从M_i幅原始样本图像中选出m_i幅图像作为有效测试数据，m_i≤M_i，即完成对第i类样本的预处理操作，生成第i类的可靠样本，如果每一类样本图像均已预处理，转到步骤四，否则，转到步骤一，继续执行上述步骤。

步骤四、所有I种类别的可靠样本共同组成容错训练子集B，将容错训练子集B中的所有原始图像作为训练样本，执行基于2D LDA的样本分类预测，基于类内离散度矩阵和类间离散度矩阵对样本图像的低秩表示进行特征抽取，获取最佳投影特征，最后，利用最近邻分类器进行归类，统计识别率。

本发明针对基于2D LDA的最近邻分类器提出了一种训练集的预处理方法，有效进行可靠样本的筛选，具有如下优点：对于有噪的训练集而言，2D PCA低秩表示可将原始数据中的噪声分离出来，提升样本图像的鉴别力。通过引入能量阈值约束下的特征值分解，所提方法解决了特征维度选择的敏感问题，能够从有噪数据中提取最有鉴别力的样本图像。在2D LDA特征鉴别之前引入2D PCA预处理操作，本发明在一定置信区间内筛选原始样本图像，选取对噪声不敏感的可靠样本，自适应地生成容错训练子集，保留原始样本特征解释性强的特点，提高了识别率的鲁棒性。

附图说明

图1为本发明主要处理流程图；

图2为本发明所用的2D PCA方法流程图；

图3为置信筛选每类样本的原理图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

实施例

如图1～3，本发明提供了一种基于训练集样本低秩筛选的图像特征鉴别方法。在本实例中，首先获取原始训练集A的所有样本图像，每幅图像尺寸均为a×b像素，该原始训练集A的样本容量为M，样本的类别数为I，逐一把第i类(1≤i≤I)样本的第j幅图像变为一个a×b二维矩阵x_i，j；第i类样本的所有图像记为

M_i是第i类样本的图像总数，

对于上述原始训练集A，所提方法包括以下步骤：

步骤一、逐类别地进行样本图像的预处理，对每一类图像分别进行二维主元分析(2D PCA)。2D PCA仅需以方差衡量信息量，不受同类数据集以外的因素影响，各个投影向量之间两两正交，可以消除原始数据成分之间相互影响的因素。如图2所示，本发明依次对第i类(1≤i≤I)样本的所有图像执行2D PCA操作，首先生成第i类样本的协方差矩阵，在第i类所有样本中找到能产生最大散射度的投影方向，由此求出协方差矩阵的特征值及对应的正交投影向量Φ_i，1、Φ_i，2、…，从大到小排列这些特征值，计算每幅样本图像的投影特征向量。在本实施例中，能量阈值β％一般取98％，以此选择第i类样本的特征维度。在保留第i类所有样本98％能量的约束下，选取前d_i个最大特征值所对应的正交投影向量，2D PCA的正交投影向量

用于第i类样本的特征提取，构成最优投影矩阵

第i类样本的每幅图像分别得到一个图像特征：对于给定的样本图像x_i，j，在经过2D PCA的特征提取之后，其主成分向量构成一个降维后的a×d_i图像特征y_i，j＝x_i，j·Φ_i。

步骤二、第i类样本图像总共产生了M_i个图像特征，第i类样本的所有图像特征生成一个同维度的第i类均值特征

进一步求得第i类样本的每个图像特征所对应的相关系数：图像特征y_i，j的相关系数

步骤三：设置参数，在一定置信度下筛选第i类样本的图像数据。结合图3，求出第i类所有相关系数的平均值

并求出相应的标准差

方差小的非主成分也可能含有对样本差异的重要信息，降维丢弃后可能对后续数据处理有影响，所提方法采用了删选原始样本图像的策略来避免这一问题，根据平均值与标准差计算置信区间，依据置信区间对原始样本图像进行筛选，取得的有效数据更具有统计价值。具体而言，先根据具体应用的需求设置参数λ_i，求出置信度ε_i＝λ_i·S_i，得到置信区间[U_i-ε_i，U_i+ε_i]，使用该置信区间筛选第i类样本的全部γ_i，j值，相关性弱的样本在后续模型训练中容易引入图像噪声，因此在置信区间之外的γ_i，j被视为可忽略误差，将其舍弃，在置信区间内的γ_i，j被视为有效测试数据。在本实施例中，λ_i一般取1.96就能够较好地去除有噪样本。当λ_i＝1.96时，[U_i-ε_i，U_i+ε_i]约为95％的置信区间。保留第i类样本中位于置信区间内相关系数γ_ij所对应的样本图像x_i，j，从M_i幅原始样本图像中选出m_i幅图像作为有效测试数据，m_i≤M_i，即完成对第i类样本的预处理操作，形成第i类的可靠样本。如果每一类样本图像均已预处理，转到步骤四；否则，转到步骤一，继续执行上述步骤。

步骤四、所有I种类别的可靠样本共同组成容错训练子集B。在容错训练子集B中，将所有的原始图像及其类别标签信息作为训练样本数据，进行基于二维线性鉴别分析(2DLDA)的样本分类预测，投影后在低维子空间的样本类间离散度越大越好，而样本类内离散度则越小越好。基于类间离散度矩阵和类内离散度矩阵，2D LDA对样本图像进行两种互补低秩特征的抽取，寻找B中所有样本图像的最佳投影特征，特征参数的选择要按照使得分类正确率达到最高的方式进行，中间可能用到样本的归一化，如果分类效果不明显，可以将改变归一化的范围或者不进行归一化操作，此操作以具体的数据样本进行处理。最后，对最佳投影特征进行模型建立与鉴别处理，利用最近邻分类器进行归类判别，统计识别率。在2DLDA特征鉴别之前引入2D PCA预处理操作，在一定置信区间内逐类地筛选出对噪声不敏感的可靠样本，综合地发挥了2D PCA、2D LDA、最近邻分类器各自的优势，所生成的容错训练子集有助于提升图像识别率的鲁棒性。

Claims

1.一种基于训练集样本低秩筛选的图像特征鉴别方法，针对样本容量为M的原始训练集A，样本图像的类别数为I，每幅图像尺寸均为a×b像素，a×b二维矩阵x_i,j代表在原始训练集A中第i类(1≤i≤I)的第j幅图像，第i类样本的所有图像记为

M_i是第i类样本的图像总数，

其特征在于，步骤为，

步骤一、在原始训练集A中逐类样本进行预处理，对每一类样本图像分别进行2D PCA，依次对第i类所有样本图像执行2D PCA操作，生成第i类样本的协方差矩阵，求出协方差矩阵的特征值及对应的正交投影向量Φ_i,1、Φ_i,2、...，并从大到小排列特征值，在第i类所有样本β％能量阈值的约束下，选取前d_i个最大特征值所对应的正交投影向量，生成最优投影矩阵

每幅样本图像均得到一个图像特征，对于给定的样本图像x_i,j，在经过2D PCA的特征提取之后，其主成分向量构成一个降维后的a×d_i图像特征y_i,j＝x_i,j·Φ_i。

进一步求得第i类样本的每个图像特征所对应的相关系数，图像特征y_i,j的相关系数

并求出相应的标准差

根据具体应用的需求设置参数λ_i，将该参数带入公式：ε_i＝λ_i·S_i，求出置信度ε_i，得到置信区间[U_i-ε_i,U_i+ε_i]，使用该置信区间筛选第i类样本对应的全部γ_i,j值，在置信区间之外的γ_i,j被视为可忽略误差，将其舍弃，在置信区间内的γ_i,j被视为有效测试数据，保留第i类样本中位于置信区间内相关系数γ_i,j所对应的样本图像x_i,j，从M_i幅原始样本图像中选出m_i幅图像作为有效测试数据，m_i≤M_i，即完成对第i类样本的预处理操作，生成第i类的可靠样本，如果每一类样本图像均已预处理，转到步骤四，否则，转到步骤一，继续执行上述步骤。