CN111275125A - 一种面向低秩图像特征分析的类别标签恢复方法 - Google Patents

一种面向低秩图像特征分析的类别标签恢复方法 Download PDF

Info

Publication number
CN111275125A
CN111275125A CN202010085541.4A CN202010085541A CN111275125A CN 111275125 A CN111275125 A CN 111275125A CN 202010085541 A CN202010085541 A CN 202010085541A CN 111275125 A CN111275125 A CN 111275125A
Authority
CN
China
Prior art keywords
label
matrix
sample
class
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010085541.4A
Other languages
English (en)
Inventor
时庭庭
刘浩
应晓清
王凯巡
沈港
黄震
廖荣生
魏国林
魏冬
周健
田伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
National Dong Hwa University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN202010085541.4A priority Critical patent/CN111275125A/zh
Publication of CN111275125A publication Critical patent/CN111275125A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种面向图像可靠分类的类别标签恢复方法,属于机器视觉技术领域。本发明将标签传播过程、PCA降维和LDA分类结合起来,公开了一种面向低秩图像特征分析的类别标签恢复方法。所提方法通过引入标签传播过程,获得标签恢复后的数据集,随后执行PCA可靠降维,以降低可靠数据集的维度,同时保持可靠数据集中对方差贡献最大的信息,最后提取LDA特征,得到鉴别分析的低秩特征。所提方法通过对含有缺失标签的数据集进行预处理,还原缺失的类别标签,并通过可靠降维提取出最具判别性的特征,使得后续的最近邻分类器更加精确可靠;提高了样本标签数据的鲁棒性,使得分类模型更加有效。

Description

一种面向低秩图像特征分析的类别标签恢复方法
技术领域
本发明涉及一种面向低秩图像特征分析的类别标签恢复方法,属于机器视觉技术领域。
背景技术
线性鉴别分析(LDA)可以利用样本图像已知的类别标签,寻找最有助于图像分类的投影子空间,属于一种有监督的机器学习方法。LDA从高维数据中提取出最具判别性的低秩特征,这些特征有助于将同一类别的所有样本聚集在一起、不同类别的样本尽量分开,即选取使样本类间散度与样本类内散度比值最大的特征。图像数据集的高效预处理是相当困难的,一般采取的有效方法是尽量保持数据集中所包含的主要信息,并对其维度进行削减。典型地,主成分分析(PCA)能够在最大限度地保留原始数据信息量的基础上,对数据集进行有效的降维分析。PCA降维可以快速地确定图像数据集各个成分的权重,减少噪声数据对LDA分类的负面影响。
标签信息在基于LDA的图像分类中起着至关重要的作用,但是实际获得的数据集往往存在标签缺失问题。如果忽视这个问题,那么训练出来的分类模型可能会出现各种问题,若舍去不含标签的样本图像,则会导致模型欠拟合或低识别率。因此,需要在分类前对数据集进行预处理,确保尽可能多的样本都有正确无误的类别标签。
发明内容
本发明的目的是为解决在图像分类前对数据集进行预处理,确保尽可能多的样本都有正确无误的类别标签的技术问题,提供一种对缺失标签的数据集进行恢复的方法,以便鲁棒地执行基于LDA的图像最近邻分类。
为达到解决上述问题的目的,本发明所采取的技术方案是提供一种面向低秩图像特征分析的类别标签恢复方法,包括以下步骤:
步骤1:待处理的原始样本集A中含有n幅样本图像,共有C个类别,第c类中有Nc个样本,c∈{1,2,...,C}。每幅图像的尺寸均为S×S像素,将这S×S维的图像矩阵拉成一个S2维的向量,n幅图像组成一个S2×n维的样本矩阵X=[x1,x2,...,xn],每幅图像对应的类别标签y1,...,yn∈{1,2,...,C},原始标签矩阵Y=[y1,y2,...,yn];对原始标签矩阵进行随机丢失操作;产生u个无重复的随机数,并在原始标签矩阵Y=[y1,y2,...,yn]中将u个随机数对应序号处的标签值丢弃,进而将原始样本集A划分为有标签样本和无标签样本;设丢失的标签数为u,保留的标签数为l,则l+u=n。
步骤2:通过标签传播算法预测出丢失的类别标签。(x1 *,y1 *),...,(xl *,yl *)是有标签样本,YL={y1 *,...,yl *}是可观测的类别标签,(x* l+1,y* l+1),...,(x* l+u,y* l+u)是无标签样本,YU={y* l+1,...,y* l+u}是不可观测的类别标签;将每幅样本图像看作是一个节点,计算出各个节点间的权重wij,根据权重wij计算出节点i到节点j的传播概率Tij;构建一个(l+u)×C维的标签概率矩阵F,其中的元素fic表示节点i的标签为c的概率;每个节点累计它周围节点的传播概率,然后更新该节点的概率分布;把有标签样本的概率分布重新赋值为初始值,迭代地执行标签传播过程并重置标记概率矩阵,直至F收敛;经过上述操作之后,无标签样本的标签信息全部恢复完毕,获得完整的恢复标签矩阵Y′=[y′1,y′2,...,y′n]。
步骤3:计算样本矩阵X中每一维度的平均值,每维特征减去各自维度的平均值,进行去中心化操作;计算协方差矩阵
Figure BDA0002381887720000021
用特征值分解方法求协方差矩阵
Figure BDA0002381887720000022
的特征值与特征向量;将特征值从大到小排序,选出前k个特征值对应的特征向量分别作为行向量,组成特征向量矩阵P;将样本图像变换到k维特征向量构建的特征空间V=PX。
步骤4:经过PCA可靠降维后的特征空间V=[v1,v2,...,vn],特征向量的维度为k,k<S2,共有C类,第c类中有Nc个样本,mc为类均值向量,m为总均值向量,类内散度矩阵
Figure BDA0002381887720000031
类间散度矩阵
Figure BDA0002381887720000032
最优投影方向矩阵应满足如下准则:
Figure BDA0002381887720000033
矩阵Sw非奇异,通过求解拉格朗日函数可得特征方程:Sbw=λSww,计算Sw -1Sb的特征值和特征向量,选取最大的d个特征值所对应的特征向量构成投影矩阵Q=[q1,q2,...,qd],V再一次变换到新特征空间Z中:Z=QTV。
步骤5:获得训练集投影后的低秩表示、测试集投影后的低秩表示及训练集的标签,输入到最近邻分类模型中,计算出识别率。
图像数据集的类别标签往往容易缺失,这会影响有监督的分类模型训练,导致模型参数的欠拟合以及较低的识别率。为了提高样本标签数据的鲁棒性,使得分类模型更加有效,本发明将标签传播过程、PCA降维和LDA分类结合起来,公开了一种面向低秩图像特征分析的类别标签恢复方法。所提方法通过引入标签传播过程,获得标签恢复后的数据集,随后执行PCA可靠降维,以降低可靠数据集的维度,同时保持可靠数据集中对方差贡献最大的信息,最后提取LDA特征,得到鉴别分析的低秩特征。所提方法通过对含有缺失标签的数据集进行预处理,还原缺失的类别标签,并通过可靠降维提取出最具判别性的特征,使得后续的最近邻分类器更加精确可靠。
相比现有技术,本发明具有如下有益效果:
通过本发明的方法对标签缺失的数据集进行预处理,利用无标签样本的分布规律和邻近有标签样本的标签,预测并传播无标签样本的标签,然后迭代地合并到有标签样本的数据集中。标签传播算法通过相近数据之间标签的传递来学习分类信息,不受数据分布形态的局限,只要同一类的数据在空间分布上具有相似性,都能通过标签传播将它们分到同一个类里。面向低秩图像特征分析的类别标签恢复方法不仅有助于提取最具区别的低秩特征,还可以保持原始数据在投影空间的主要能量,使得最近邻分类器更加准确可靠。
附图说明
图1为本发明提供的主要步骤图;
图2为获得完整的恢复标签矩阵的流程图;
图3为PCA可靠降维的原理图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下:
如图1所示,首先获取原始样本集A的所有样本,共有n幅样本图像,共有C个类别,第c类中有Ne个样本,c∈{1,2,...,C}。每幅图像的尺寸均为S×S像素,将S×S维的图像矩阵拉成一个S2维的列向量,n幅图像组成一个S2×n维的样本矩阵x=[x1,x2,...,xn],每幅图像对应的标签y1,...yn∈{1,2,...,C},对应于原始标签矩阵Y=[y1,y2,...,yn]。对于上述原始样本集A,本发明提供了一种面向低秩图像特征分析的类别标签恢复方法,包括以下步骤:
步骤1:产生u个无重复的随机数,并在原始标签矩阵Y=[y1,y2,...,yn]中将u个随机数对应处的标签值丢弃,进而将原始样本集A划分为有标签样本和无标签样本。设丢失的标签数为u,保留的标签数为l,令(x1 *,y1 *),...,(xl *,yl *)是有标签样本,YL={y1 *,…,yl *}是可观测的类别标签;(x* l+1,y* l+1),...,(x* l+u,y* l+u)是无标签样本,l+u=n,YU={y* l+1,...,y* l+u}是不可观测的类别标签。
步骤2:如图2所示,将每幅样本图像看作是一个节点,计算各个节点间的权重
Figure BDA0002381887720000041
||xi *-xj *||表示两个节点之间的欧氏距离,σ是可调的带宽参数。所有权重wij构成权重矩阵W,Tij是节点i到节点j的传播概率:
Figure BDA0002381887720000042
所有传播概率Tij构成概率传递矩阵T。计算(l+u)×C维的标记概率矩阵F:fij表示第i个样本标签为Ci的概率,所有的有标签样本构成FL,所有的无标签样本构成FU。在迭代过程中,第t次的标签传播
Figure BDA0002381887720000043
表示第t-1次传播前的标记概率,
Figure BDA0002381887720000044
表示第t次传播后的标记概率。对于标签概率矩阵
Figure BDA0002381887720000045
根据有标签样本和无标签样本可以把概率传递矩阵T划分为4个矩阵块
Figure BDA0002381887720000046
每个节点累计它周围节点的传播概率,然后更新该节点的概率分布。在标签传播算法中,将上一步获得的标记概率矩阵F中的FL部分进行重置,与YL中的初始值一致。迭代地执行标签传播过程,并重置标记概率矩阵,直到矩阵F收敛为止。经过上述步骤,无标签样本的标签信息全部恢复完毕,获得完整的恢复标签矩阵Y′=[y′1,y′2,...,y′n]。
步骤3:计算样本矩阵X中每一维度的平均值,每维特征减去各自维度的平均值,进行去中心化操作。如图3所示,计算协方差矩阵
Figure BDA0002381887720000051
用特征值分解方法求协方差矩阵
Figure BDA0002381887720000052
的特征值与特征向量;将特征值从大到小排序,选出前k个最大的特征值对应的特征向量分别作为行向量,组成特征向量矩阵P;将X变换到k维特征向量构建的特征空间V=PX。
步骤4:经过PCA可靠降维后的特征空间V=[v1,v2,...,vn],特征向量的维度为k,k<S2,共有C类,第c类中有Nc个样本,mc为类均值向量,m为总均值向量,类内散度矩阵
Figure BDA0002381887720000053
类间散度矩阵
Figure BDA0002381887720000054
最优投影方向矩阵应满足如下准则:
Figure BDA0002381887720000055
在通常情况下,PCA操作的样本个数大于样本的维数,矩阵Sw非奇异,通过拉格朗日函数求解可得特征方程:Sbw=λSww。计算Sw -1Sb的特征值和特征向量,取最大的d个特征值所对应的特征向量,构成投影矩阵Q=[q1,q2,...,qd],样本图像再一次变换到新特征空间Z中:Z=QTV。
步骤5:将训练集投影后的低秩表示、测试集投影后的低秩表示及训练集的标签输入到最近邻分类模型中,得出正确识别的样本数,用正确识别的测试样本数除以测试样本总数,统计识别率,所得的最近邻分类器更加准确可靠。
以上所述,仅为本发明的较佳实施例,并非对本发明任何形式上和实质上的限制,应当指出,对于本技术领域的普通技术人员,在不脱离本发明的前提下,还将可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员,在不脱离本发明的精神和范围的情况下,当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变,均仍属于本发明的技术方案的范围内。

Claims (1)

1.一种面向低秩图像特征分析的类别标签恢复方法,其特征在于,包括以下步骤:
步骤1:待处理的原始样本集A中含有n幅样本图像,共有C个类别,第c类中有Nc个样本,c∈{1,2,...,C};每幅图像的尺寸均为S×S像素,将这S×S维的图像矩阵拉成一个S2维的向量,n幅图像组成一个S2×n维的一个矩阵X=[x1,x2,...,xn],每幅图像对应的类别标签y1,...,yn∈{1,2,...,C},原始标签矩阵Y=[y1,y2,...,yn];对原始标签矩阵进行随机丢失操作;产生u个无重复的随机数,并在原始标签矩阵Y=[y1,y2,...,yn]中将u个随机数对应序号处的标签值丢弃,进而将原始样本集A划分为有标签样本和无标签样本;设丢失的标签数为u,保留的标签数为l,则l+u=n;
步骤2:通过标签传播算法预测出丢失的类别标签;(x1 *,y1 *),...,(xl *,yl *)是有标签样本,YL={y1 *,...,yl *}是可观测的类别标签,(x* l+1,y* l+1),...,(x* l+u,y* l+u)是无标签样本,YU={y* l+1,...,y* l+u}是不可观测的类别标签;将每幅样本图像看作是一个节点,计算出各个节点间的权重wij,根据权重wij计算出节点i到节点j的传播概率Tij;构建一个(l+u)×C维的标签概率矩阵F,其中的元素fic表示节点i的标签为c的概率;每个节点累计它周围节点的传播概率,然后更新该节点的概率分布;把有标签样本的概率分布重新赋值为初始值,迭代地执行标签传播过程并重置标记概率矩阵,直至F收敛;经过上述操作之后,无标签样本的标签信息全部恢复完毕,获得完整的恢复标签矩阵Y′=[y′1,y′2,...,y′n];
步骤3:计算样本矩阵X中每一维度的平均值,每维特征减去各自维度的平均值,进行去中心化操作;计算协方差矩阵
Figure FDA0002381887710000011
用特征值分解方法求协方差矩阵
Figure FDA0002381887710000012
的特征值与特征向量;将特征值从大到小排序,选出前k个特征值对应的特征向量分别作为行向量,组成特征向量矩阵P;将样本图像变换到k维特征向量构建的特征空间V=PX;
步骤4:经过PCA可靠降维后的特征空间V=[v1,v2,...,vn],特征向量的维度为k,k<S2,共有C类,第c类中有Nc个样本,mi为类均值向量,m为总均值向量,类内散度矩阵
Figure FDA0002381887710000021
类间散度矩阵
Figure FDA0002381887710000022
最优投影方向矩阵应满足如下准则:
Figure FDA0002381887710000023
矩阵Sw非奇异,通过求解拉格朗日函数可得特征方程:Sbw=λSww,计算Sw -1Sb的特征值和特征向量,选取最大的d个特征值所对应的特征向量构成投影矩阵Q=[q1,q2,...,qd],V再一次变换到新特征空间Z中:Z=QTV;
步骤5:获得训练集投影后的低秩表示、测试集投影后的低秩表示及训练集的标签,输入到最近邻分类模型中,计算出识别率。
CN202010085541.4A 2020-02-10 2020-02-10 一种面向低秩图像特征分析的类别标签恢复方法 Pending CN111275125A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010085541.4A CN111275125A (zh) 2020-02-10 2020-02-10 一种面向低秩图像特征分析的类别标签恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010085541.4A CN111275125A (zh) 2020-02-10 2020-02-10 一种面向低秩图像特征分析的类别标签恢复方法

Publications (1)

Publication Number Publication Date
CN111275125A true CN111275125A (zh) 2020-06-12

Family

ID=71003735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010085541.4A Pending CN111275125A (zh) 2020-02-10 2020-02-10 一种面向低秩图像特征分析的类别标签恢复方法

Country Status (1)

Country Link
CN (1) CN111275125A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298149A (zh) * 2021-05-25 2021-08-24 广东云曌医疗科技有限公司 图像聚类方法及系统
CN113849101A (zh) * 2021-11-26 2021-12-28 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110144914A1 (en) * 2009-12-09 2011-06-16 Doug Harrington Biomarker assay for diagnosis and classification of cardiovascular disease
CN107615089A (zh) * 2014-01-03 2018-01-19 朱宇东 压缩感知和mri的建模和验证方法
CN109446510A (zh) * 2018-09-10 2019-03-08 哈尔滨理工大学 一种改进的重叠社区发现block场采样算法
CN110138849A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于随机森林的协议加密算法类型识别方法
CN110263822A (zh) * 2019-05-29 2019-09-20 广东工业大学 一种基于多任务学习方式的图像情感分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110144914A1 (en) * 2009-12-09 2011-06-16 Doug Harrington Biomarker assay for diagnosis and classification of cardiovascular disease
CN107615089A (zh) * 2014-01-03 2018-01-19 朱宇东 压缩感知和mri的建模和验证方法
CN109446510A (zh) * 2018-09-10 2019-03-08 哈尔滨理工大学 一种改进的重叠社区发现block场采样算法
CN110138849A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于随机森林的协议加密算法类型识别方法
CN110263822A (zh) * 2019-05-29 2019-09-20 广东工业大学 一种基于多任务学习方式的图像情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张俊丽 等: "标签传播算法理论及其应用研究综述", 《计算机应用研究》 *
马帅旗 等: "改进PCA-LDA的人脸识别算法研究", 《陕西理工大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298149A (zh) * 2021-05-25 2021-08-24 广东云曌医疗科技有限公司 图像聚类方法及系统
CN113849101A (zh) * 2021-11-26 2021-12-28 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备和计算机可读存储介质
CN113849101B (zh) * 2021-11-26 2022-03-11 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111814584B (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
Mansanet et al. Local deep neural networks for gender recognition
Wang et al. Transferring rich feature hierarchies for robust visual tracking
Feng et al. Adaptive unsupervised multi-view feature selection for visual concept recognition
Chong et al. Simultaneous image classification and annotation
CN107330397B (zh) 一种基于大间隔相对距离度量学习的行人重识别方法
CN113657425B (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
Li et al. Robust subspace discovery through supervised low-rank constraints
Zhao et al. Unified face analysis by iterative multi-output random forests
Gao et al. High accuracy handwritten Chinese character recognition using LDA-based compound distances
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
Guillamet et al. Classifying faces with nonnegative matrix factorization
CN104951781B (zh) 字符辨识装置以及识别函数生成方法
Elguebaly et al. Simultaneous high-dimensional clustering and feature selection using asymmetric Gaussian mixture models
Littwin et al. The multiverse loss for robust transfer learning
CN109241816B (zh) 一种基于标签优化的图像再识别系统及损失函数确定方法
WO2010062268A1 (en) A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine
Zhang et al. Automatic discrimination of text and non-text natural images
Tropea et al. Classifiers comparison for convolutional neural networks (CNNs) in image classification
CN111275125A (zh) 一种面向低秩图像特征分析的类别标签恢复方法
CN111931562A (zh) 一种基于软标签回归的无监督特征选择方法和系统
CN113222072A (zh) 基于K-means聚类和GAN的肺部X光图像分类方法
CN113052017A (zh) 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法
Yakhnenko et al. Multi-Instance Multi-Label Learning for Image Classification with Large Vocabularies.
Jena et al. Implementation of linear discriminant analysis for Odia numeral recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200612

RJ01 Rejection of invention patent application after publication