CN111259916A - 一种标签缺失情况下的低秩投影特征提取方法 - Google Patents

一种标签缺失情况下的低秩投影特征提取方法 Download PDF

Info

Publication number
CN111259916A
CN111259916A CN202010089419.4A CN202010089419A CN111259916A CN 111259916 A CN111259916 A CN 111259916A CN 202010089419 A CN202010089419 A CN 202010089419A CN 111259916 A CN111259916 A CN 111259916A
Authority
CN
China
Prior art keywords
sample
label
data
matrix
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010089419.4A
Other languages
English (en)
Inventor
沈港
刘浩
王凯巡
时庭庭
应晓清
魏国林
黄震
廖荣生
周健
魏冬
田伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
National Dong Hwa University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN202010089419.4A priority Critical patent/CN111259916A/zh
Publication of CN111259916A publication Critical patent/CN111259916A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明公开了一种标签缺失情况下的低秩投影特征提取方法,所提方法逐一对样本数据和标签进行检测,获得当前样本和对应的标签。若当前样本标签属于正常范围,则继续检测下一个样本,若当前样本标签为缺失时,则计算每个样本在原始空间中距离该样本的欧氏距离,通过k近邻原则求得可能性最大的标签,并把对应于该样本的标签写入原始数据集中。在标签补偿后,构造最近邻图矩阵,通过PCA算法学习投影矩阵,并将投影矩阵应用到测试集上,用分类器执行归类。所提方法能够自适应地为各种归类模型提供更准确合理的训练数据,以帮助分类器生成更好的归类模型,提高图像分类的准确度和鲁棒性。

Description

一种标签缺失情况下的低秩投影特征提取方法
技术领域
本发明涉及一种标签缺失情况下的低秩投影特征提取方法,特别是通过恢复标签来确保低秩投影特征提取的方法,属于机器视觉与模式识别领域。
背景技术
图像分类常常需要对高维数据进行降维和特征提取以满足归类器的需要,而降维会引起信息丢失和能量降低的问题,典型的主元分析(Principal Component Analysis,PCA)算法是一种无监督分类投影学习算法,旨在从训练数据中学习一个最优的低秩投影矩阵,把学到的投影矩阵作用到训练集和测试集上,可以同时对训练集和测试集起到降维和提取特征的目的。利用PCA算法获得的投影矩阵可以在有效降维的同时保留绝大部分的能量,以提高特征提取的计算速度。而在学习投影矩阵中保持全局和局部结构对特征提取非常重要。低秩表示可以获取数据的全局结构性信息,能纠正误差并将所有样本分配到对应的子空间中,除此之外,低秩表示对噪声干扰更加鲁棒,可以区分噪声和有用信息。
投影学习的最近邻图正则化因其在揭示数据的局部几何结构的优越性,被广泛应用于模式识别和机器视觉领域,使用该方法可以揭示样本数据的局部结构信息。k近邻准则通过某种距离度量找到样本周围最近的k个邻居,根据类别标签的多数原则,作为预测结果来确定样本所属标签。在图像分类领域,为了学习一个分类模型,往往需要对一个数据集分成训练集和测试集,分别用来学得模型和判断模型的优劣。因此除了样本本身的实际值数据以外,样本标签数据在产生归类模型的时候也是十分重要的。对于数据集而言,难免会出现少数样本标签缺失的情况。PCA算法在学习投影矩阵时,训练集是随机选择的,如果训练集中选取的样本出现标签缺失的情况,则会影响学习到的投影矩阵效果,并进而影响分类的准确性。
发明内容
本发明要解决的技术问题是如何为标签缺失的样本找到准确的标签,提高分类准确度。
为了解决上述技术问题,本发明的技术方案是提供了一种标签缺失情况下的低秩投影特征提取方法,对于样本容量为M、样本类别数为N的原始数据集,i表示当前第i个样本(0<i≤M)的序号,xi∈Rm×n表示第i个图像样本的数据矩阵,原始数据集X={x1,…,xi,…,xM},初始化i=1,所提方法包括以下六个步骤:
步骤一、预处理缺失的标签,读取第i个样本数据和标签,判断第i个样本的标签:若标签是正常值,则i=i+1,此时当i>M,跳到步骤四,否则继续步骤一;若标签缺失,则跳转步骤二;
步骤二、第i样本在原始空间中的点为xi,计算出xi点与其它样本点的欧氏距离
Figure BDA0002383225970000021
Figure BDA0002383225970000022
表示xi中第l个m维向量;将求得的欧氏距离按从小到大的顺序进行排序,选取前k个欧氏距离,记为:Di,1、Di,2、…、Di,j、…、Di,k,(1≤j≤k);
步骤三、利用获得的欧氏距离Di,j,分别求出前k个距离权重
Figure BDA0002383225970000023
根据前k个距离权重所对应样本点的可用原始标签,将标签相同的样本对应的距离权重相加,得到每一类标签的权值和,找到最大权值和对应的标签,将该标签数据写入第i个样本的标签位置,令i=i+1,若i≤M,则跳转到步骤一继续执行;否则执行步骤四;
步骤四、在N类样本中每类样本随机选取β%作为训练样本,其余作为测试样本,并对数据进行归一化操作;
步骤五、利用PCA算法求出训练集归一化后各个数据矩阵的特征向量矩阵,降维维度设置为d;之后再对训练集的所有数据矩阵施加邻图约束,获得最近邻图矩阵W,并生成低秩投影矩阵Q;
步骤六、对测试集利用Q进行低秩投影,获得各个样本的特征数据,利用分类器进行归类。
本发明优点在于本发明针对缺失标签的训练数据,为训练集中标签缺失的样本设计了一种恢复标签的方法,可提高获得的低秩投影矩阵的有效性。所提方法引入k近邻的思想,利用距离权重最大选取合适标签来恢复数据集中个别样本所缺失的标签,从而在执行PCA算法时,通过确保训练集样本数据的准确可靠,帮助分类器获得更优的归类模型。
附图说明
图1为本发明所提方法的主流程图;
图2为样本标签恢复的步骤图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
实施例
对于样本容量为M、样本类别数为N的原始数据集,i表示当前第i个样本(0<i≤M)的序号,初始化i=1,xi∈Rm×n表示第i个图像样本的数据矩阵,原始数据集X={x1,…,xi,…,xM};对于原始数据集X,图1给出了标签缺失情况下的低秩投影特征提取方法的总体流程。所提方法先检测所有样本标签是否存在,若标签缺失则利用如图2所示的步骤进行标签恢复;所提方法利用k近邻原则为标签缺失的样本寻找合适的标签,通过寻找与该样本最接近的k个样本,利用欧氏距离作为中间变量,求取距离权重最大的标签,以此来恢复样本所缺失的标签。之后再随机对每一类样本选取β%作为训练集,其余样本作为测试集,将两个数据集的数据归一化以减小计算量。对归一化后的训练数据执行PCA操作,获取各个样本的特征向量矩阵Pi;对数据矩阵xi施加近邻图约束,获取最近邻图矩阵W,最后把xi、Pi、W作为输入,求出训练集的低秩投影矩阵Q。具体可分为以下六个步骤:
步骤一、预处理缺失的标签。图2是样本标签恢复的步骤图,读取第i个样本的数据和标签,检查对应的标签是否正常。若标签是正常值,则i=i+1,此时当i>M,跳到步骤四,否则继续步骤一;若标签缺失,则跳转步骤二。
步骤二、第i个样本在原始空间中的点为xi,计算出xi点与其它样本点的欧氏距离,将求得的距离按从小到大的顺序进行排序,选取前k个数据,记为:Di,1、Di,2、…、Di,j、…、Di,k
Figure BDA0002383225970000031
表示xi中第l个m维向量(1≤j≤k),其中欧氏距离的求取公式为:
Figure BDA0002383225970000032
步骤三、利用获得的距离Di,j,分别求出前k个距离权重ωi,j,由于距离的远近程度代表了样本的相似度,欧氏距离越近,对应的标签信息就越接近,因此距离权重ωi,j的计算原则是欧氏距离越小则权重越大,具体的距离权重计算公式为:
Figure BDA0002383225970000041
根据前k个距离权重所对应样本点的可用原始标签,将标签相同的样本对应的权值相加。参数k一般选取较小的值,可用交叉验证法来选取最优的k,本实例中k=5。将属于同类标签的距离权重相加,得到每一类标签的权值和,比较所得的权值和,找到最大的权值和所对应的标签,将该标签数据写入第i个样本的标签位置。令i=i+1,若i≤M,则跳转到步骤一继续执行,若i>M,则执行步骤四。
步骤四、随机选取训练集和测试集,并归一化数据。在N类样本中每类样本随机选取β%作为训练样本,其余作为测试样本,并对数据进行归一化操作。
步骤五、对训练集执行PCA操作,获取各个样本的特征向量矩阵。PCA算法是一种无监督分类投影学习方法,在保持数据结构的时候无需引入额外的正则化参数。所提方法利用PCA算法求出归一化后的训练集各个样本的特征向量矩阵,本实例的降维维度设置为d=140,从而获得140维的特征向量矩阵。之后,再对训练集施加邻图约束,获得最近邻图矩阵W。利用训练集的特征向量矩阵、最近邻图矩阵W,生成低秩投影矩阵Q。
步骤六、对测试集利用低秩投影矩阵Q进行投影,获得测试集各个样本的特征数据,将归一化后的特征数据利用分类器进行归类,并统计分类准确度。所提方法引入k近邻的思想,利用距离权重来恢复数据集中个别样本所缺失的标签,可以为PCA算法提供更准确可靠的训练数据,以此获得了更优的归类模型与投影矩阵。

Claims (1)

1.一种标签缺失情况下的低秩投影特征提取方法,对于样本容量为M、样本类别数为N的原始数据集,i表示当前第i个样本(0<i≤M)的序号,xi∈Rm×n表示第i个图像样本的数据矩阵,原始数据集X={x1,...,xi,...,xM},初始化i=1,所提方法包括以下六个步骤:
步骤一、预处理缺失的标签,读取第i个样本数据和标签,判断第i个样本的标签:若标签是正常值,则i=i+1,此时当i>M,跳到步骤四,否则继续步骤一;若标签缺失,则跳转步骤二;
步骤二、第i样本在原始空间中的点为xi,计算出xi点与其它样本点的欧氏距离
Figure FDA0002383225960000011
Figure FDA0002383225960000012
表示xi中第l个m维向量;将求得的欧氏距离按从小到大的顺序进行排序,选取前k个欧氏距离,记为:Di,1、Di,2、…、Di,j、…、Di,k,(1≤j≤k);
步骤三、利用获得的欧氏距离Di,j,分别求出前k个距离权重
Figure FDA0002383225960000013
根据前k个距离权重所对应样本点的可用原始标签,将标签相同的样本对应的距离权重相加,得到每一类标签的权值和,找到最大权值和对应的标签,将该标签数据写入第i个样本的标签位置,令i=i+1,若i≤M,则跳转到步骤一继续执行;否则执行步骤四;
步骤四、在N类样本中每类样本随机选取B%作为训练样本,其余作为测试样本,并对数据进行归一化操作;
步骤五、利用PCA算法求出训练集归一化后各个数据矩阵的特征向量矩阵,降维维度设置为d;之后再对训练集的所有数据矩阵施加邻图约束,获得最近邻图矩阵W,并生成低秩投影矩阵Q;
步骤六、对测试集利用Q进行低秩投影,获得各个样本的特征数据,利用分类器进行归类。
CN202010089419.4A 2020-02-12 2020-02-12 一种标签缺失情况下的低秩投影特征提取方法 Pending CN111259916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010089419.4A CN111259916A (zh) 2020-02-12 2020-02-12 一种标签缺失情况下的低秩投影特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010089419.4A CN111259916A (zh) 2020-02-12 2020-02-12 一种标签缺失情况下的低秩投影特征提取方法

Publications (1)

Publication Number Publication Date
CN111259916A true CN111259916A (zh) 2020-06-09

Family

ID=70949516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010089419.4A Pending CN111259916A (zh) 2020-02-12 2020-02-12 一种标签缺失情况下的低秩投影特征提取方法

Country Status (1)

Country Link
CN (1) CN111259916A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598630A (zh) * 2020-06-30 2020-08-28 成都新潮传媒集团有限公司 小区画像构建方法、装置及存储介质
CN113743464A (zh) * 2021-08-02 2021-12-03 昆明理工大学 一种连续特征离散化损失信息补偿方法及其应用
CN113762353A (zh) * 2021-08-13 2021-12-07 江苏大学 一种基于多输出残差编码的多标签分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN108256538A (zh) * 2016-12-28 2018-07-06 北京酷我科技有限公司 一种用户资料预测方法和系统
CN108667523A (zh) * 2018-03-06 2018-10-16 苏州大学 基于无数据辅助的knn算法的光纤非线性均衡方法
CN109165664A (zh) * 2018-07-04 2019-01-08 华南理工大学 一种基于生成对抗网络的属性缺失数据集补全与预测方法
CN109325442A (zh) * 2018-09-19 2019-02-12 福州大学 一种图像像素缺失的人脸识别方法
CN110046639A (zh) * 2019-01-10 2019-07-23 湖南理工学院 一种基于超像素权重密度的高光谱影像噪声标签检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256538A (zh) * 2016-12-28 2018-07-06 北京酷我科技有限公司 一种用户资料预测方法和系统
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN108667523A (zh) * 2018-03-06 2018-10-16 苏州大学 基于无数据辅助的knn算法的光纤非线性均衡方法
CN109165664A (zh) * 2018-07-04 2019-01-08 华南理工大学 一种基于生成对抗网络的属性缺失数据集补全与预测方法
CN109325442A (zh) * 2018-09-19 2019-02-12 福州大学 一种图像像素缺失的人脸识别方法
CN110046639A (zh) * 2019-01-10 2019-07-23 湖南理工学院 一种基于超像素权重密度的高光谱影像噪声标签检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIE WEN等: ""Low-Rank Preserving Projection Via Graph"", 《IEEE TRANSACTIONS ON CYBERNETICS》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598630A (zh) * 2020-06-30 2020-08-28 成都新潮传媒集团有限公司 小区画像构建方法、装置及存储介质
CN113743464A (zh) * 2021-08-02 2021-12-03 昆明理工大学 一种连续特征离散化损失信息补偿方法及其应用
CN113743464B (zh) * 2021-08-02 2023-09-05 昆明理工大学 一种连续特征离散化损失信息补偿方法及其应用
CN113762353A (zh) * 2021-08-13 2021-12-07 江苏大学 一种基于多输出残差编码的多标签分类方法

Similar Documents

Publication Publication Date Title
CN110132598B (zh) 旋转设备滚动轴承故障噪声诊断算法
Opelt et al. Incremental learning of object detectors using a visual shape alphabet
US11507785B2 (en) Anomaly detection system using multi-layer support vector machines and method thereof
CN111259916A (zh) 一种标签缺失情况下的低秩投影特征提取方法
CN111814584A (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
CN110940523B (zh) 一种无监督域适应故障诊断方法
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
US20210319215A1 (en) Method and system for person re-identification
JP5772442B2 (ja) 画像処理装置及び画像処理プログラム
Tarawneh et al. Invoice classification using deep features and machine learning techniques
CN111598004B (zh) 一种渐进增强自学习的无监督跨领域行人再识别方法
CN111353373A (zh) 一种相关对齐域适应故障诊断方法
CN113887661B (zh) 一种基于表示学习重构残差分析的图像集分类方法及系统
CN108877947B (zh) 基于迭代均值聚类的深度样本学习方法
JP2005505866A (ja) 文字認識
WO2021084623A1 (ja) 劣化抑制プログラム、劣化抑制方法および情報処理装置
CN114444600A (zh) 基于记忆增强原型网络的小样本图像分类方法
CN115221947A (zh) 一种基于预训练语言模型的鲁棒的多模态主动学习方法
CN110717602B (zh) 一种基于噪音数据的机器学习模型鲁棒性评估方法
CN116383747A (zh) 基于多时间尺度深度卷积生成对抗网络的异常检测方法
Barnes et al. STRICR-FB, A novel size-translation-rotation-invariant character recognition method
Wang Improving SVM classification by feature weight learning
US20080320014A1 (en) Discriminative Feature Selection System Using Active Mining Technique
She et al. Fast Hierarchical Learning for Few-Shot Object Detection
Fitsum et al. Optical Character Recogniation for Tigrigna Printed Documents Using HOG and SVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200609