CN111275100A - 一种基于训练集样本低秩筛选的图像特征鉴别方法 - Google Patents

一种基于训练集样本低秩筛选的图像特征鉴别方法 Download PDF

Info

Publication number
CN111275100A
CN111275100A CN202010057887.3A CN202010057887A CN111275100A CN 111275100 A CN111275100 A CN 111275100A CN 202010057887 A CN202010057887 A CN 202010057887A CN 111275100 A CN111275100 A CN 111275100A
Authority
CN
China
Prior art keywords
sample
image
class
ith
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010057887.3A
Other languages
English (en)
Other versions
CN111275100B (zh
Inventor
刘浩
沈港
应晓清
时庭庭
王凯巡
魏国林
黄震
廖荣生
周健
魏冬
田伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN202010057887.3A priority Critical patent/CN111275100B/zh
Publication of CN111275100A publication Critical patent/CN111275100A/zh
Application granted granted Critical
Publication of CN111275100B publication Critical patent/CN111275100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于训练集样本低秩筛选的图像特征鉴别方法,基于2D LDA特征提取的最近邻分类器对噪声比较敏感,为此本发明将2D PCA低秩技术和2D LDA方法结合起来,所提方法通过进行训练集样本图像的有效信息择决操作,在一定置信度下获取不同类别的可靠样本,从而找到一个能够体现原始样本信息的容错训练子集。在图像特征鉴别中引入2D PCA预处理,可使筛选后的容错训练子集对噪声不敏感,使得后续的最近邻分类模型更加精确可靠,从而提高图像特征鉴别的鲁棒性和分类正确率,是大规模图像信息归类的一种有效方式。

Description

一种基于训练集样本低秩筛选的图像特征鉴别方法
技术领域
本发明涉及一种基于训练集样本低秩筛选的图像特征鉴别方法,属于模式识别与机器视觉领域。
背景技术
基于子空间的模式识别方法是从训练数据中学习投影以进行低维特征提取,目前已有多种数据特征抽取方法,如主元分析(Principal Component Analysis,PCA)、线性鉴别分析(Linear Discriminant Analysis,LDA)等,但是这些方法通常使用了对噪声和异常数据非常敏感的Frobenius范数来构建目标函数,使得这些方法都存在对噪声敏感、不够鲁棒的问题。针对图像大数据,近年来出现的二维主元分析(2D PCA)和二维线性鉴别分析(2DLDA)方法均基于二维矩阵,样本图像不需要事先转化成一个向量,图像的协方差矩阵直接使用样本图像矩阵构造,更适合图像数据分析。2D PCA方法无需样本的类别标签信息,通过寻找原始数据最大方差的投影方向,将图像数据投影到由主成分向量跨越的线性子空间上,在减少数据维度的同时,保持数据集中于对方差贡献最大的特征,这样产生的低秩表示可以最好地保留数据的主要信息。2D LDA方法是一种有监督的特征抽取方法,核心思想是找到这样一组投影向量,使得不同类别的样本在经过投影之后尽可能的远离,而同一类的样本在经过投影之后尽可能的接近,由此找到一个既扩大类间距离又减少类内距离的子空间。
图像数据通常存在二维低秩结构,低秩表示可以找出隐含在图像数据中的低维子空间结构。对于一组有噪的图像数据而言,利用低秩表示方法可以在学得数据的低维子空间结构的同时,将数据中的噪声分离出来。2D LDA方法常使用最近邻分类器对区别投影后的低秩表示进行分类处理,用被识别出的测试样本数除以总测试样本数,就可以计算出方法识别率。在图像特征鉴别中,如何综合发挥2D PCA、2D LDA、最近邻分类各自的优势,是值得深入研究的问题。已有方法利用2D PCA方法先求出原始样本图像的低秩表示,然后利用2D LDA方法对该低秩表示进一步进行特征抽取,所得的二阶特征向量具有一定模糊性,不如原始样本图像的解释性强,特征维度的选择缺乏准则。目前基于2D LDA的最近邻分类器存在对噪声比较敏感、识别率不够稳定等问题,引入鲁棒的预处理机制有助于解决这一问题。
发明内容
本发明要解决的技术问题是目前基于2D LDA的图像特征鉴别方法对噪声敏感、识别率不够稳定。
为了解决上述技术问题,本发明的技术方案是提供了一种基于训练集样本低秩筛选的图像特征鉴别方法,针对样本容量为M的原始训练集A,样本图像的类别数为I,每幅图像尺寸均为a×b像素,a×b二维矩阵xi,j代表在原始训练集A中第i类(1≤i≤I)的第j幅图像,第i类样本的所有图像记为
Figure BDA0002369425820000021
Figure BDA0002369425820000022
Mi是第i类样本的图像总数,
Figure BDA0002369425820000023
其特征在于,步骤包括:
步骤一、在原始训练集A中逐类样本进行预处理,对每一类样本图像分别进行2DPCA,依次对第i类所有样本图像执行2D PCA操作,生成第i类样本的协方差矩阵,求出协方差矩阵的特征值及对应的正交投影向量Φi,1、Φi,2、…,并从大到小排列特征值,在第i类所有样本β%能量阈值的约束下,选取前di个最大特征值所对应的正交投影向量,生成最优投影矩阵
Figure BDA0002369425820000024
每幅样本图像均得到一个图像特征,对于给定的样本图像xi,j,在经过2D PCA的特征提取之后,其主成分向量构成一个降维后的a×di图像特征yi,j=xi,j·Φi
步骤二、在第i类样本中,总共产生了Mi个图像特征,所有图像特征生成一个同维度的第i类均值特征
Figure BDA0002369425820000025
进一步求得第i类样本的每个图像特征所对应的相关系数,图像特征yi,j的相关系数
Figure BDA0002369425820000026
步骤三:在一定置信度下筛选数据,求出第i类所有相关系数的平均值
Figure BDA0002369425820000027
并求出相应的标准差
Figure BDA0002369425820000028
根据具体应用的需求设置参数λi,将该参数带入公式:εi=λi·Si,求出置信度fi,得到置信区间[Uii,Uii],使用该置信区间筛选第i类样本对应的全部γi,j值,在置信区间之外的γi,i被视为可忽略误差,将其舍弃,在置信区间内的γi,j被视为有效测试数据,保留第i类样本中位于置信区间内相关系数γi,j所对应的样本图像xi,j,从Mi幅原始样本图像中选出mi幅图像作为有效测试数据,mi≤Mi,即完成对第i类样本的预处理操作,生成第i类的可靠样本,如果每一类样本图像均已预处理,转到步骤四,否则,转到步骤一,继续执行上述步骤。
步骤四、所有I种类别的可靠样本共同组成容错训练子集B,将容错训练子集B中的所有原始图像作为训练样本,执行基于2D LDA的样本分类预测,基于类内离散度矩阵和类间离散度矩阵对样本图像的低秩表示进行特征抽取,获取最佳投影特征,最后,利用最近邻分类器进行归类,统计识别率。
本发明针对基于2D LDA的最近邻分类器提出了一种训练集的预处理方法,有效进行可靠样本的筛选,具有如下优点:对于有噪的训练集而言,2D PCA低秩表示可将原始数据中的噪声分离出来,提升样本图像的鉴别力。通过引入能量阈值约束下的特征值分解,所提方法解决了特征维度选择的敏感问题,能够从有噪数据中提取最有鉴别力的样本图像。在2D LDA特征鉴别之前引入2D PCA预处理操作,本发明在一定置信区间内筛选原始样本图像,选取对噪声不敏感的可靠样本,自适应地生成容错训练子集,保留原始样本特征解释性强的特点,提高了识别率的鲁棒性。
附图说明
图1为本发明主要处理流程图;
图2为本发明所用的2D PCA方法流程图;
图3为置信筛选每类样本的原理图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
实施例
如图1~3,本发明提供了一种基于训练集样本低秩筛选的图像特征鉴别方法。在本实例中,首先获取原始训练集A的所有样本图像,每幅图像尺寸均为a×b像素,该原始训练集A的样本容量为M,样本的类别数为I,逐一把第i类(1≤i≤I)样本的第j幅图像变为一个a×b二维矩阵xi,j;第i类样本的所有图像记为
Figure BDA0002369425820000031
Figure BDA0002369425820000032
Mi是第i类样本的图像总数,
Figure BDA0002369425820000033
对于上述原始训练集A,所提方法包括以下步骤:
步骤一、逐类别地进行样本图像的预处理,对每一类图像分别进行二维主元分析(2D PCA)。2D PCA仅需以方差衡量信息量,不受同类数据集以外的因素影响,各个投影向量之间两两正交,可以消除原始数据成分之间相互影响的因素。如图2所示,本发明依次对第i类(1≤i≤I)样本的所有图像执行2D PCA操作,首先生成第i类样本的协方差矩阵,在第i类所有样本中找到能产生最大散射度的投影方向,由此求出协方差矩阵的特征值及对应的正交投影向量Φi,1、Φi,2、…,从大到小排列这些特征值,计算每幅样本图像的投影特征向量。在本实施例中,能量阈值β%一般取98%,以此选择第i类样本的特征维度。在保留第i类所有样本98%能量的约束下,选取前di个最大特征值所对应的正交投影向量,2D PCA的正交投影向量
Figure BDA0002369425820000041
用于第i类样本的特征提取,构成最优投影矩阵
Figure BDA0002369425820000042
第i类样本的每幅图像分别得到一个图像特征:对于给定的样本图像xi,j,在经过2D PCA的特征提取之后,其主成分向量构成一个降维后的a×di图像特征yi,j=xi,j·Φi
步骤二、第i类样本图像总共产生了Mi个图像特征,第i类样本的所有图像特征生成一个同维度的第i类均值特征
Figure BDA0002369425820000043
进一步求得第i类样本的每个图像特征所对应的相关系数:图像特征yi,j的相关系数
Figure BDA0002369425820000044
步骤三:设置参数,在一定置信度下筛选第i类样本的图像数据。结合图3,求出第i类所有相关系数的平均值
Figure BDA0002369425820000045
并求出相应的标准差
Figure BDA0002369425820000046
方差小的非主成分也可能含有对样本差异的重要信息,降维丢弃后可能对后续数据处理有影响,所提方法采用了删选原始样本图像的策略来避免这一问题,根据平均值与标准差计算置信区间,依据置信区间对原始样本图像进行筛选,取得的有效数据更具有统计价值。具体而言,先根据具体应用的需求设置参数λi,求出置信度εi=λi·Si,得到置信区间[Uii,Uii],使用该置信区间筛选第i类样本的全部γi,j值,相关性弱的样本在后续模型训练中容易引入图像噪声,因此在置信区间之外的γi,j被视为可忽略误差,将其舍弃,在置信区间内的γi,j被视为有效测试数据。在本实施例中,λi一般取1.96就能够较好地去除有噪样本。当λi=1.96时,[Uii,Uii]约为95%的置信区间。保留第i类样本中位于置信区间内相关系数γij所对应的样本图像xi,j,从Mi幅原始样本图像中选出mi幅图像作为有效测试数据,mi≤Mi,即完成对第i类样本的预处理操作,形成第i类的可靠样本。如果每一类样本图像均已预处理,转到步骤四;否则,转到步骤一,继续执行上述步骤。
步骤四、所有I种类别的可靠样本共同组成容错训练子集B。在容错训练子集B中,将所有的原始图像及其类别标签信息作为训练样本数据,进行基于二维线性鉴别分析(2DLDA)的样本分类预测,投影后在低维子空间的样本类间离散度越大越好,而样本类内离散度则越小越好。基于类间离散度矩阵和类内离散度矩阵,2D LDA对样本图像进行两种互补低秩特征的抽取,寻找B中所有样本图像的最佳投影特征,特征参数的选择要按照使得分类正确率达到最高的方式进行,中间可能用到样本的归一化,如果分类效果不明显,可以将改变归一化的范围或者不进行归一化操作,此操作以具体的数据样本进行处理。最后,对最佳投影特征进行模型建立与鉴别处理,利用最近邻分类器进行归类判别,统计识别率。在2DLDA特征鉴别之前引入2D PCA预处理操作,在一定置信区间内逐类地筛选出对噪声不敏感的可靠样本,综合地发挥了2D PCA、2D LDA、最近邻分类器各自的优势,所生成的容错训练子集有助于提升图像识别率的鲁棒性。

Claims (1)

1.一种基于训练集样本低秩筛选的图像特征鉴别方法,针对样本容量为M的原始训练集A,样本图像的类别数为I,每幅图像尺寸均为a×b像素,a×b二维矩阵xi,j代表在原始训练集A中第i类(1≤i≤I)的第j幅图像,第i类样本的所有图像记为
Figure FDA0002369425810000011
Mi是第i类样本的图像总数,
Figure FDA0002369425810000012
其特征在于,步骤为,
步骤一、在原始训练集A中逐类样本进行预处理,对每一类样本图像分别进行2D PCA,依次对第i类所有样本图像执行2D PCA操作,生成第i类样本的协方差矩阵,求出协方差矩阵的特征值及对应的正交投影向量Φi,1、Φi,2、...,并从大到小排列特征值,在第i类所有样本β%能量阈值的约束下,选取前di个最大特征值所对应的正交投影向量,生成最优投影矩阵
Figure FDA0002369425810000013
每幅样本图像均得到一个图像特征,对于给定的样本图像xi,j,在经过2D PCA的特征提取之后,其主成分向量构成一个降维后的a×di图像特征yi,j=xi,j·Φi
步骤二、在第i类样本中,总共产生了Mi个图像特征,所有图像特征生成一个同维度的第i类均值特征
Figure FDA0002369425810000014
进一步求得第i类样本的每个图像特征所对应的相关系数,图像特征yi,j的相关系数
Figure FDA0002369425810000015
步骤三:在一定置信度下筛选数据,求出第i类所有相关系数的平均值
Figure FDA0002369425810000016
并求出相应的标准差
Figure FDA0002369425810000017
根据具体应用的需求设置参数λi,将该参数带入公式:εi=λi·Si,求出置信度εi,得到置信区间[Uii,Uii],使用该置信区间筛选第i类样本对应的全部γi,j值,在置信区间之外的γi,j被视为可忽略误差,将其舍弃,在置信区间内的γi,j被视为有效测试数据,保留第i类样本中位于置信区间内相关系数γi,j所对应的样本图像xi,j,从Mi幅原始样本图像中选出mi幅图像作为有效测试数据,mi≤Mi,即完成对第i类样本的预处理操作,生成第i类的可靠样本,如果每一类样本图像均已预处理,转到步骤四,否则,转到步骤一,继续执行上述步骤。
步骤四、所有I种类别的可靠样本共同组成容错训练子集B,将容错训练子集B中的所有原始图像作为训练样本,执行基于2D LDA的样本分类预测,基于类内离散度矩阵和类间离散度矩阵对样本图像的低秩表示进行特征抽取,获取最佳投影特征,最后,利用最近邻分类器进行归类,统计识别率。
CN202010057887.3A 2020-01-16 2020-01-16 一种基于训练集样本低秩筛选的图像特征鉴别方法 Active CN111275100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010057887.3A CN111275100B (zh) 2020-01-16 2020-01-16 一种基于训练集样本低秩筛选的图像特征鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010057887.3A CN111275100B (zh) 2020-01-16 2020-01-16 一种基于训练集样本低秩筛选的图像特征鉴别方法

Publications (2)

Publication Number Publication Date
CN111275100A true CN111275100A (zh) 2020-06-12
CN111275100B CN111275100B (zh) 2022-12-09

Family

ID=70997377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010057887.3A Active CN111275100B (zh) 2020-01-16 2020-01-16 一种基于训练集样本低秩筛选的图像特征鉴别方法

Country Status (1)

Country Link
CN (1) CN111275100B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115989A (zh) * 2020-09-04 2020-12-22 西安外事学院 一种蠕虫时间序列分类典型样本确认方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902979A (zh) * 2014-04-01 2014-07-02 浙江大学 一种人脸特征提取及分类方法
CN105046189A (zh) * 2015-04-17 2015-11-11 江苏大学 一种双向二维迭代非相关判别分析的人脸识别方法
CN108550140A (zh) * 2018-03-28 2018-09-18 东华大学 一种面向图像集的置信度一致性增强质量评价方法
CN110287973A (zh) * 2019-06-19 2019-09-27 安徽工程大学 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902979A (zh) * 2014-04-01 2014-07-02 浙江大学 一种人脸特征提取及分类方法
CN105046189A (zh) * 2015-04-17 2015-11-11 江苏大学 一种双向二维迭代非相关判别分析的人脸识别方法
CN108550140A (zh) * 2018-03-28 2018-09-18 东华大学 一种面向图像集的置信度一致性增强质量评价方法
CN110287973A (zh) * 2019-06-19 2019-09-27 安徽工程大学 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAO LIU等: "Subset-Guided Consistency Enhancement Assessment Criterion for an Imageset Without Reference", 《IEEE》 *
WEN-SHIUNG CHEN等: "Iris Recognition Using 2D LDA and 2D PCA", 《IEEE》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115989A (zh) * 2020-09-04 2020-12-22 西安外事学院 一种蠕虫时间序列分类典型样本确认方法

Also Published As

Publication number Publication date
CN111275100B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
Wu et al. Coupled deep learning for heterogeneous face recognition
CN109522956B (zh) 一种低秩判别特征子空间学习方法
CN108133232B (zh) 一种基于统计字典学习的雷达高分辨距离像目标识别方法
CN109961093B (zh) 一种基于众智集成学习的图像分类方法
CN108122008B (zh) 基于稀疏表示和多特征决策级融合的sar图像识别方法
CN108647690B (zh) 基于判别稀疏保持投影的非约束人脸图像降维方法
Li et al. Overview of principal component analysis algorithm
US20130156300A1 (en) Multi-Class Classification Method
CN109241813B (zh) 基于判别稀疏保持嵌入的非约束人脸图像降维方法
CN107220627B (zh) 基于协作模糊均值鉴别分析的多姿态人脸识别方法
WO2022178978A1 (zh) 一种基于最大化比率和线性判别分析的数据降维方法
Rozza et al. Novel Fisher discriminant classifiers
CN111325275B (zh) 基于低秩二维局部鉴别图嵌入的鲁棒图像分类方法及装置
Wang et al. MQDF discriminative learning based offline handwritten Chinese character recognition
Jena et al. Implementation of linear discriminant analysis for Odia numeral recognition
CN111275100B (zh) 一种基于训练集样本低秩筛选的图像特征鉴别方法
CN110287973B (zh) 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法
CN110852304B (zh) 基于深度学习方法的高光谱数据处理方法
CN111275125A (zh) 一种面向低秩图像特征分析的类别标签恢复方法
Kader et al. Effective workflow for high-performance recognition of fruits using machine learning approaches
WO2009047561A1 (en) Value determination
CN114610884A (zh) 一种基于pca组合特征提取和近似支持向量机的分类方法
Häcker et al. Robust manufacturing inspection and classification with machine vision
Filisbino et al. Multi-class nonlinear discriminant feature analysis
CN114529975B (zh) 一种应用于人脸识别的自适应快速无监督特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant