CN112308097A - 样本识别方法和装置 - Google Patents

样本识别方法和装置 Download PDF

Info

Publication number
CN112308097A
CN112308097A CN201910665996.0A CN201910665996A CN112308097A CN 112308097 A CN112308097 A CN 112308097A CN 201910665996 A CN201910665996 A CN 201910665996A CN 112308097 A CN112308097 A CN 112308097A
Authority
CN
China
Prior art keywords
matrix
sample
class
class divergence
dimension space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910665996.0A
Other languages
English (en)
Inventor
祖辰
罗尚勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910665996.0A priority Critical patent/CN112308097A/zh
Publication of CN112308097A publication Critical patent/CN112308097A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开提出一种样本识别方法和装置,涉及数据挖掘领域。本公开,一方面,基于类间散度矩阵与类内散度矩阵的差值关系构建目标函数,使得投影矩阵求解过程中避免类内散度矩阵的逆矩阵的运算,当样本特征维度大于样本数目时,依然可以求得投影矩阵的最优解;另一方面,通过类间散度矩阵和类内散度矩阵的加权自适应机制,自动寻找类间散度矩阵和类内散度矩阵的最优加权系数,以使得总体协方差矩阵估计得更准确,进而使得求解得到的投影矩阵更准确。

Description

样本识别方法和装置
技术领域
本公开涉及数据挖掘领域,特别涉及一种样本识别方法和装置。
背景技术
随着信息技术的发展,产生了高维度数据,例如基因数据、图像数据等。
特征抽取方法是对高维度数据进行挖掘的其中一种方法。特征抽取方法通过投影矩阵将原始高维特征向低维空间进行投影,从而降低原始特征的维度。
线性判别分析(Linear Discriminant Analysis,LDA)是一种有监督的特征抽取方法,其目标是求得一个线性投影矩阵W∈RD×d使得基于类间散度矩阵Sb与类内散度矩阵Sw的比值关系所构建的目标函数tr()的值最大,公式表示为:
Figure BDA0002140143550000011
其中,max表示计算最大值,tr()表示计算矩阵的迹。
发明内容
发明人发现:当样本特征维度大于样本数目时(即小样本问题时),类内散度矩阵Sw不可逆,导致
Figure BDA0002140143550000012
不存在,无法求得线性投影矩阵W的最优解。此外,当样本数量少时,使用样本协方差矩阵估计总体协方差矩阵不准确,类内散度矩阵偏大,类间散度矩阵偏小,进而使得求解得到的投影矩阵不准确。
为了解决上述的至少一个问题,提出本公开。一方面,本公开基于类间散度矩阵与类内散度矩阵的差值关系构建目标函数,使得投影矩阵求解过程中避免类内散度矩阵的逆矩阵的运算,当样本特征维度大于样本数目时,依然可以求得投影矩阵的最优解。另一方面,通过类间散度矩阵和类内散度矩阵的加权自适应机制,自动寻找类间散度矩阵和类内散度矩阵的最优加权系数,以使得总体协方差矩阵估计得更准确,进而使得求解得到的投影矩阵更准确。
根据本公开的一个方面,提出一种样本识别方法,包括:
计算包含多个训练样本的训练集的类内散度矩阵和类间散度矩阵,其中,训练样本用训练样本在第一维度空间的特征信息和训练样本的类别标签信息进行描述;
基于类间散度矩阵与类内散度矩阵的差值关系,构建目标函数;
根据所述目标函数,确定从第一维度空间转换到第二维度空间的投影矩阵,其中,第一维度空间的维度数量大于第二维度空间的维度数量,以便利用所述投影矩阵对待测样本在第一维度空间的特征信息进行降维得到待测样本在第二维度空间的特征信息,并基于待测样本在第二维度空间的特征信息对待测样本进行识别。
在一些实施例中,在所述目标函数中,类间散度矩阵与类内散度矩阵加权后再相减,并且类间散度矩阵的加权系数与类内散度矩阵的加权系数的指数不同。
在一些实施例中,所述目标函数为:
Figure BDA0002140143550000021
其中,WTW=I,W表示投影矩阵,I表示单位矩阵,Sb表示类间散度矩阵,Sw表示类内散度矩阵,α表示类间散度矩阵的加权系数,α2表示类内散度矩阵的加权系数,max表示计算最大值,tr()表示计算矩阵的迹。
在一些实施例中,确定从第一维度空间转换到第二维度空间的投影矩阵包括:
固定所述目标函数中的类间散度矩阵和类内散度矩阵的加权系数,计算所述目标函数中的投影矩阵;
固定所述目标函数中的投影矩阵,计算所述目标函数中的类间散度矩阵和类内散度矩阵的加权系数;
基于计算出的投影矩阵以及类间散度矩阵和类内散度矩阵的加权系数,计算目标函数的值;
重复上述过程,直至计算出目标函数的最大值,并将最大值对应的投影矩阵确定为从第一维度空间转换到第二维度空间的投影矩阵。
在一些实施例中,基于待测样本在第二维度空间的特征信息对待测样本进行识别包括:
基于待测样本在第二维度空间的特征信息,采用分类方法对待测样本的定性业务指标进行识别;
或者,基于待测样本在第二维度空间的特征信息,采用回归方法对待测样本的定量业务指标进行识别。
在一些实施例中,训练样本和待测样本均为图像样本,类别标签信息为图像样本对应的业务类别,以便对待测图像样本进行业务类别的识别。
在一些实施例中,图像样本包括人脸图像,类别标签信息为身份信息或年龄信息,以便对人脸图像进行身份识别或年龄识别。
本公开的一些实施例提出一种样本识别装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执如任一个实施例的样本识别方法。
本公开的一些实施例提出一种样本识别装置,包括:
训练单元,被配置为计算包含多个训练样本的训练集的类内散度矩阵和类间散度矩阵,其中,训练样本用训练样本在第一维度空间的特征信息和训练样本的类别标签信息进行描述;基于类间散度矩阵与类内散度矩阵的差值关系,构建目标函数;根据所述目标函数,确定从第一维度空间转换到第二维度空间的投影矩阵,其中,第一维度空间的维度数量大于第二维度空间的维度数量;
识别单元,被配置为利用所述投影矩阵对待测样本在第一维度空间的特征信息进行降维得到待测样本在第二维度空间的特征信息,并基于待测样本在第二维度空间的特征信息对待测样本进行识别。
在一些实施例中,在所述目标函数中,类间散度矩阵与类内散度矩阵加权后再相减,并且类间散度矩阵的加权系数与类内散度矩阵的加权系数的指数不同。
本公开的一些实施例提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一个实施例中的样本识别方法。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开样本识别方法一些实施例的流程示意图。
图2为本公开样本识别装置一些实施例的结构示意图。
图3为本公开样本识别装置一些实施例的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
本公开基于训练集确定从高维的第一维度空间(或称“原始维度空间”,设为RD,D表示其维度数量)转换到低维的第二维度空间(或称“新维度空间”,设为Rd,d表示其维度数量,d<D,通常d<<D,“<<”表示“远小于”)的投影矩阵,然后利用投影矩阵对待测样本的特征信息进行降维,最后基于降维后的特征信息对待测样本进行识别。其中,本公开主要对投影矩阵的确定方法进行了改进。下面具体描述本公开的方案。
图1为本公开样本识别方法一些实施例的流程示意图。如图1所示,该实施例的方法包括:
在步骤11,计算训练集的类内散度矩阵和类间散度矩阵。
其中,训练集包含多个训练样本,训练样本用训练样本在第一维度空间RD的特征信息xi和训练样本的类别标签信息yi进行描述。
训练集表示为:
(x1,y1),...,(xn,yn)
其中训练样本xi∈RD特征维度为D,yi为相应训练样本的类别标签,假设yi∈{C1,...,Cc},Ci表示类别标签。
样本识别方法的目标为:对未知类别标签的待测样本x预测其类别标签y∈{C1,...,Cc}。为此,待测样本x在某种度量下和相同类别的训练样本相似,待测样本x从第一维度空间RD转换到第二维度空间Rd时,尽可能保持其样本之间的相似性。鉴于此,本公开使用样本协方差矩阵对数据的分布进行刻画,其中类别内部的样本分布情况用类内散度矩阵表示,不同类别之间的样本分布情况用类间散度矩阵表示。
Figure BDA0002140143550000051
由此得到:
Figure BDA0002140143550000052
其中,Sw表示类内散度矩阵,刻画了类别内部的样本分布情况,tr()表示矩阵的迹,同一类别内部样本聚合越紧密,矩阵Sw的迹tr(Sw)的值越小,
Figure BDA0002140143550000053
为第i个类的先验类别概率,Ni为第i个类的样本数,N为各个类的总样本数,Si为第i个类的协方差矩阵。
Figure BDA0002140143550000054
其中,mi为第i个类的均值。
Figure BDA0002140143550000061
由此得到:
Figure BDA0002140143550000062
其中,Sb表示类间散度矩阵,刻画了各个类的均值mi与总体样本均值
Figure BDA0002140143550000063
的散度情况,即不同类别之间的样本分布情况,tr(Sb)越大说明不同类别的样本之间间隔也就越大。
在步骤12,基于类间散度矩阵与类内散度矩阵的差值关系,构建目标函数。
基于类间散度矩阵与类内散度矩阵的差值关系,可以利用类间散度信息和类内散度信息同时刻画样本数据分布。例如:
J=tr(Sb-Sw)
若J值较大,则当两个样本来自同一类别时,该两个样本之间越相似,从而可以用来对样本数据的不同类别的可分性进行描述。
由此,目标函数例如为:
Figure BDA0002140143550000064
表示求取使迹tr()最大的投影矩阵W。
在一些实施例中,在目标函数中,类间散度矩阵与类内散度矩阵还可以加权后再相减,并且类间散度矩阵的加权系数与类内散度矩阵的加权系数的指数不同,使得加权系数也是一个可优化的变量。通过类间散度矩阵和类内散度矩阵的加权自适应机制,自动寻找类间散度矩阵和类内散度矩阵的最优加权系数,以使得总体协方差矩阵估计得更准确,进而使得求解得到的投影矩阵更准确。
目标函数例如为:
Figure BDA0002140143550000065
其中,WTW=I,W表示投影矩阵,若第一维度空间为RD和第二维度空间为Rd,则W为d个D维向量组成的矩阵W=[w1,w2,...,wd]∈RD×d,I表示单位矩阵,Sb表示类间散度矩阵,Sw表示类内散度矩阵,α表示类间散度矩阵的加权系数,α2表示类内散度矩阵的加权系数,max表示计算最大值,tr()表示计算矩阵的迹。
在步骤13,根据目标函数,确定从第一维度空间转换到第二维度空间的投影矩阵。
在一些实施例中,确定投影矩阵的方法包括:固定目标函数中的类间散度矩阵和类内散度矩阵的加权系数,计算目标函数中的投影矩阵;固定目标函数中的投影矩阵,计算目标函数中的类间散度矩阵和类内散度矩阵的加权系数;基于计算出的投影矩阵以及类间散度矩阵和类内散度矩阵的加权系数,计算目标函数的值;重复上述过程,直至计算出目标函数的最大值,并将最大值对应的投影矩阵确定为从第一维度空间转换到第二维度空间的投影矩阵。
下面结合公式具体描述上述确定投影矩阵的方法。
(1)由于投影矩阵W的列向量wk是单位正交的,则目标函数maxW,αtr(WT(αSb2Sw)W)可以改写为:
Figure BDA0002140143550000071
其中,
Figure BDA0002140143550000072
(2)固定α求解W:
引入拉格朗日(Lagrangian)乘子λk,将有约束的目标函数转换为无约束优化函数:
Figure BDA0002140143550000073
对上式中的wk进行求导得到:
Figure BDA0002140143550000074
整理后得到:
(αSb2Sw)wk=λkwk
由上式可知,λk是αSb2Sw的特征值,wk为特征值λk对应的特征向量,因此步骤(1)中的公式可以改写为:
Figure BDA0002140143550000081
当W为αSb2Sw的从大到小排列的前d个特征向量时,J(W)取得最大值。并且,可以看出:在求解W时,不需要求解类内散度矩阵Sw的逆矩阵,适用于小样本场景。
(3)固定W求解α
当得到最优的W后,对步骤(1)目标函数中的α进行求导,得到:
Figure BDA0002140143550000082
化简得到:
Figure BDA0002140143550000083
(4)基于步骤(2-3)计算的W和α,计算目标函数的值。
(5)重复上述步骤(2-4),直至计算出目标函数的最大值,并将最大值对应的投影矩阵确定为从第一维度空间转换到第二维度空间的投影矩阵。
在步骤14,利用投影矩阵对待测样本在第一维度空间的特征信息进行降维得到待测样本在第二维度空间的特征信息。
例如,待测样本在第一维度空间的特征信息x乘以投影矩阵W得到待测样本在第二维度空间的特征信息x’,公式表示为:
xW=x’,
其中,x∈RD,W∈RD×d,x’∈Rd
在步骤15,基于待测样本在第二维度空间的特征信息对待测样本进行识别。
在一些实施例中,基于待测样本在第二维度空间的特征信息,采用分类方法对待测样本的定性业务指标进行识别。分类方法例如可以选用现有的分类模型实现。定性业务指标通常是离散变量的业务指标,例如,天气的阴、晴、下雨等,图像的身份识别等。
在一些实施例中,基于待测样本在第二维度空间的特征信息,采用回归方法对待测样本的定量业务指标进行识别。回归方法例如可以选用现有的回归模型实现。定量业务指标通常是连续变量的业务指标,例如,预测的温度,图像的年龄识别等。
其中,分类模型是将回归模型的输出离散化。回归模型例如为Linear Regression(线性回归)、Support Vector Regression(支持向量回归)等。分类模型例如为LogisticRegression(逻辑回归)、Support Vector Machine(支持向量机)等。神经网络模型可以用于分类和回归,区别在于,用于分类的神经网络模型比用于回归的神经网络模型多归一化层,如softmax层。本公开并不限定具体的回归模型和分类模型。
如前所述,本实施例基于类间散度矩阵与类内散度矩阵的差值关系构建目标函数,使得投影矩阵求解过程中避免类内散度矩阵的逆矩阵的运算,当样本特征维度大于样本数目时,依然可以求得投影矩阵的最优解,即可以适用于小样本场景;此外,通过类间散度矩阵和类内散度矩阵的加权自适应机制,自动寻找类间散度矩阵和类内散度矩阵的最优加权系数,以使得总体协方差矩阵估计得更准确,进而使得求解得到的投影矩阵更准确。此外,由于投影矩阵更准确,进而在基于投影后的样本特征进行分类或回归时,使得分类性能或回归性能得到提高。例如可以参考下面的实验数据。
在三个不同的图像数据集(ORL、Yale和Extended Yale)进行分类验证,使用最近邻分类器进行分类,实验中将50%样本作为训练集用于寻找最优投影方向,使用剩余的50%样本作为测试集进行分类验证。其中,ORL包含40个不同人的人脸图像,每个人有10个不同的图像,并且每一个人的照片均在不同的时间、光照情况、人脸表情和人脸细节(是否带有眼镜)的情况下获取的。Yale人脸数据集总共拥有15个人的165张人脸灰度图像,每个人有11张图片。Extended Yale人脸图像数据集是Yale图像数据集的扩展版本,一共包含在9种不同姿势和64种不同照明条件下的38个人的16128张人脸图像。本公开降维方法与PCA、LDA等降维方法的分类结果进行对比,如表1所示。从表1可以看出,本公开在所有的人脸数据集上均取得最好的分类性能。
表1
降维方法 ORL Yale Extended Yale
PCA 0.8840±0.0170 0.5879±0.0420 0.6026±0.0059
LDA 0.8915±0.0420 0.6228±0.0351 0.5119±0.0074
本公开 0.9050±0.0177 0.6590±0.0420 0.7231±0.0074
本公开的样本识别方法例如可以应用于图像样本的定性业务指标或定量业务指标的识别、文本样本的定性业务指标或定量业务指标的识别等各种场景。下面列举一些示例,显然,本公开并不局限于这些示例。
例如,训练样本和待测样本均为图像样本,图像样本例如为人脸图像,类别标签信息为图像样本对应的业务类别,类别标签信息例如为身份信息或年龄信息,以便对待测图像样本进行身份或年龄等业务类别的识别。
又例如,训练样本和待测样本均为基因样本,类别标签信息为基因样本对应的身份信息或生物类别,以便对基因样本进行身份识别或生物类别识别。
图2为本公开样本识别装置一些实施例的结构示意图。
如图2所示,该实施例的装置20包括:
训练单元21,被配置为计算包含多个训练样本的训练集的类内散度矩阵和类间散度矩阵,其中,训练样本用训练样本在第一维度空间的特征信息和训练样本的类别标签信息进行描述;基于类间散度矩阵与类内散度矩阵的差值关系,构建目标函数,在目标函数中,类间散度矩阵与类内散度矩阵加权后再相减,并且类间散度矩阵的加权系数与类内散度矩阵的加权系数的指数不同;根据目标函数,确定从第一维度空间转换到第二维度空间的投影矩阵,其中,第一维度空间的维度数量大于第二维度空间的维度数量。
识别单元22,被配置为利用投影矩阵对待测样本在第一维度空间的特征信息进行降维得到待测样本在第二维度空间的特征信息,并基于待测样本在第二维度空间的特征信息对待测样本进行识别。例如,采用分类方法对待测样本的定性业务指标进行识别;采用回归方法对待测样本的定量业务指标进行识别等。
图3为本公开样本识别装置一些实施例的结构示意图。
如图3所示,该实施例的装置30包括:
存储器31;以及
耦接至存储器的处理器32,处理器被配置为基于存储在所述存储器中的指令,执如前述任一个实施例样本识别方法。
其中,存储器31例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (11)

1.一种样本识别方法,包括:
计算包含多个训练样本的训练集的类内散度矩阵和类间散度矩阵,其中,训练样本用训练样本在第一维度空间的特征信息和训练样本的类别标签信息进行描述;
基于类间散度矩阵与类内散度矩阵的差值关系,构建目标函数;
根据所述目标函数,确定从第一维度空间转换到第二维度空间的投影矩阵,其中,第一维度空间的维度数量大于第二维度空间的维度数量,以便利用所述投影矩阵对待测样本在第一维度空间的特征信息进行降维得到待测样本在第二维度空间的特征信息,并基于待测样本在第二维度空间的特征信息对待测样本进行识别。
2.根据权利要求1所述的方法,其中,
在所述目标函数中,类间散度矩阵与类内散度矩阵加权后再相减,并且类间散度矩阵的加权系数与类内散度矩阵的加权系数的指数不同。
3.根据权利要求2所述的方法,其中,所述目标函数为:
Figure FDA0002140143540000011
其中,WTW=I,W表示投影矩阵,I表示单位矩阵,Sb表示类间散度矩阵,Sw表示类内散度矩阵,α表示类间散度矩阵的加权系数,α2表示类内散度矩阵的加权系数,max表示计算最大值,tr()表示计算矩阵的迹。
4.根据权利要求2所述的方法,其中,确定从第一维度空间转换到第二维度空间的投影矩阵包括:
固定所述目标函数中的类间散度矩阵和类内散度矩阵的加权系数,计算所述目标函数中的投影矩阵;
固定所述目标函数中的投影矩阵,计算所述目标函数中的类间散度矩阵和类内散度矩阵的加权系数;
基于计算出的投影矩阵以及类间散度矩阵和类内散度矩阵的加权系数,计算目标函数的值;
重复上述过程,直至计算出目标函数的最大值,并将最大值对应的投影矩阵确定为从第一维度空间转换到第二维度空间的投影矩阵。
5.根据权利要求1所述的方法,其中,基于待测样本在第二维度空间的特征信息对待测样本进行识别包括:
基于待测样本在第二维度空间的特征信息,采用分类方法对待测样本的定性业务指标进行识别;
或者,基于待测样本在第二维度空间的特征信息,采用回归方法对待测样本的定量业务指标进行识别。
6.根据权利要求1-5任一项所述的方法,其中,
训练样本和待测样本均为图像样本,类别标签信息为图像样本对应的业务类别,以便对待测图像样本进行业务类别的识别。
7.根据权利要求6所述的方法,其中,图像样本包括人脸图像,类别标签信息为身份信息或年龄信息,以便对人脸图像进行身份识别或年龄识别。
8.一种样本识别装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执如权利要求1-7中任一项所述的样本识别方法。
9.一种样本识别装置,包括:
训练单元,被配置为计算包含多个训练样本的训练集的类内散度矩阵和类间散度矩阵,其中,训练样本用训练样本在第一维度空间的特征信息和训练样本的类别标签信息进行描述;基于类间散度矩阵与类内散度矩阵的差值关系,构建目标函数;根据所述目标函数,确定从第一维度空间转换到第二维度空间的投影矩阵,其中,第一维度空间的维度数量大于第二维度空间的维度数量;
识别单元,被配置为利用所述投影矩阵对待测样本在第一维度空间的特征信息进行降维得到待测样本在第二维度空间的特征信息,并基于待测样本在第二维度空间的特征信息对待测样本进行识别。
10.根据权利要求9所述的装置,其中,
在所述目标函数中,类间散度矩阵与类内散度矩阵加权后再相减,并且类间散度矩阵的加权系数与类内散度矩阵的加权系数的指数不同。
11.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-7中任一项所述的样本识别方法。
CN201910665996.0A 2019-07-23 2019-07-23 样本识别方法和装置 Pending CN112308097A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910665996.0A CN112308097A (zh) 2019-07-23 2019-07-23 样本识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910665996.0A CN112308097A (zh) 2019-07-23 2019-07-23 样本识别方法和装置

Publications (1)

Publication Number Publication Date
CN112308097A true CN112308097A (zh) 2021-02-02

Family

ID=74329594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910665996.0A Pending CN112308097A (zh) 2019-07-23 2019-07-23 样本识别方法和装置

Country Status (1)

Country Link
CN (1) CN112308097A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610877A (zh) * 2022-02-23 2022-06-10 苏州大学 基于判别方差准则的影评情感分析预处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610877A (zh) * 2022-02-23 2022-06-10 苏州大学 基于判别方差准则的影评情感分析预处理方法及系统
CN114610877B (zh) * 2022-02-23 2023-04-25 苏州大学 基于判别方差准则的影评情感分析预处理方法及系统

Similar Documents

Publication Publication Date Title
US20200250465A1 (en) Accurate tag relevance prediction for image search
US20170236055A1 (en) Accurate tag relevance prediction for image search
US10936868B2 (en) Method and system for classifying an input data set within a data category using multiple data recognition tools
US6912527B2 (en) Data classifying apparatus and material recognizing apparatus
US20150117766A1 (en) Class discriminative feature transformation
TWI525574B (zh) 協作性人臉標註方法以及協作性人臉標註系統
CN111027636B (zh) 基于多标签学习的无监督特征选择方法及系统
CN111931562A (zh) 一种基于软标签回归的无监督特征选择方法和系统
Yang et al. Fast and robust key frame extraction method for gesture video based on high-level feature representation
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
CN114255381B (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
CN110020638B (zh) 人脸表情识别方法、装置、设备和介质
Sun et al. Perceptual multi-channel visual feature fusion for scene categorization
Galla et al. Support vector machine based feature extraction for gender recognition from objects using lasso classifier
US7991223B2 (en) Method for training of supervised prototype neural gas networks and their use in mass spectrometry
Thiruthuvanathan et al. Multimodal emotional analysis through hierarchical video summarization and face tracking
CN112308097A (zh) 样本识别方法和装置
CN114422450B (zh) 基于多源网络流量数据的网络流量分析方法和装置
Wang et al. Trade-off background joint learning for unsupervised vehicle re-identification
Eliades et al. Automatic face recognition with well-calibrated confidence measures
Peng et al. Semi-supervised least squares nonnegative matrix factorization and graph-based extension
CN112446428A (zh) 一种图像数据处理方法及装置
CN112651996A (zh) 目标检测跟踪方法、装置、电子设备和存储介质
Malik et al. Matrix factorization-based improved classification of gene expression data
Gao et al. A Novel Semi‐Supervised Learning Method Based on Fast Search and Density Peaks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination