CN117093855A - 一种特征提取方法、装置、终端设备及介质 - Google Patents

一种特征提取方法、装置、终端设备及介质 Download PDF

Info

Publication number
CN117093855A
CN117093855A CN202311356289.6A CN202311356289A CN117093855A CN 117093855 A CN117093855 A CN 117093855A CN 202311356289 A CN202311356289 A CN 202311356289A CN 117093855 A CN117093855 A CN 117093855A
Authority
CN
China
Prior art keywords
sample
initial
target
samples
sparse representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311356289.6A
Other languages
English (en)
Other versions
CN117093855B (zh
Inventor
袁明冬
刘博�
阮威健
胡金晖
张力元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart City Research Institute Of China Electronics Technology Group Corp
Original Assignee
Smart City Research Institute Of China Electronics Technology Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart City Research Institute Of China Electronics Technology Group Corp filed Critical Smart City Research Institute Of China Electronics Technology Group Corp
Priority to CN202311356289.6A priority Critical patent/CN117093855B/zh
Publication of CN117093855A publication Critical patent/CN117093855A/zh
Application granted granted Critical
Publication of CN117093855B publication Critical patent/CN117093855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请适用于数据处理技术领域,提供了一种特征提取方法、装置、终端设备及介质,该方法包括:获取初始样本集,初始样本集中的每一初始样本对应有稀疏表示系数向量;基于每一初始样本被其他初始样本进行稀疏表示时存在的稀疏表示误差,确定稀疏表示系数向量的目标向量值;基于目标向量值对初始样本进行稀疏表示得到目标样本,生成目标样本集,初始样本和目标样本被特征提取矩阵提取特征时具有样本特征;基于每一初始样本的样本特征和每一目标样本的样本特征之间的样本特征差异,确定特征提取矩阵的目标矩阵值;基于目标矩阵值对初始样本进行特征提取。本申请无需对初始样本集进行数据标注即可实现在无监督的情况下获取特征提取矩阵进行特征提取。

Description

一种特征提取方法、装置、终端设备及介质
技术领域
本申请属于数据处理技术领域,尤其涉及一种特征提取方法、装置、终端设备及介质。
背景技术
数据广泛存在于城市实际生产和日常生活中,例如随处可见的图像数据、生物医药领域的基因表达数据、城市地下管网各类传感器数据等。数据的不断增加给数据的存储、计算分析和应用都带来了巨大的困难,且数据中存在大量的冗余、噪声等不利因素,使得分类、识别和聚类等任务的难度急剧增加。
此外,在有监督的情况下获取特征提取矩阵对数据进行特征提取的过程中需要获取标注数据,而大量标注数据的获取需要投入大量人财物力,且标注质量的好坏也对特征提取的精度有较大影响。因此,如何在无监督的情况下对数据进行特征提取是亟需解决的技术问题。
发明内容
本申请实施例提供了一种特征提取方法、装置、终端设备及介质,可以在无监督的情况下获取特征提取矩阵,对数据进行特征提取。
第一方面,本申请实施例提供了一种特征提取方法,该方法包括:
获取初始样本集,所述初始样本集中包含N个初始样本,每一所述初始样本对应有一个稀疏表示系数向量,所述稀疏表示系数向量用于使每一所述初始样本被所述初始样本集中的其他N-1个初始样本进行稀疏表示;其中,每一所述初始样本被所述初始样本集中的其他N-1个初始样本进行稀疏表示时存在稀疏表示误差,每一所述初始样本被特征提取矩阵提取特征时具有样本特征;
基于所述稀疏表示误差,确定每一所述稀疏表示系数向量的目标向量值;
基于所述目标向量值,将每一所述初始样本以所述初始样本集中的其他N-1个初始样本进行稀疏表示得到目标样本,生成包含所述目标样本的目标样本集,每一所述目标样本被所述特征提取矩阵提取特征时具有样本特征;
基于所述初始样本集中每一所述初始样本的样本特征和所述目标样本集中每一所述目标样本的样本特征之间的样本特征差异,确定所述特征提取矩阵的目标矩阵值;
基于所述目标矩阵值,对所述初始样本进行特征提取。
第二方面,本申请实施例提供了一种特征提取装置,该装置包括:
样本集获取模块,用于获取初始样本集,所述初始样本集中包含N个初始样本,每一所述初始样本对应有一个稀疏表示系数向量,所述稀疏表示系数向量用于使每一所述初始样本被所述初始样本集中的其他N-1个初始样本进行稀疏表示;其中,每一所述初始样本被所述初始样本集中的其他N-1个初始样本进行稀疏表示时存在稀疏表示误差,每一所述初始样本被特征提取矩阵提取特征时具有样本特征;
向量确定模块,用于基于所述稀疏表示误差,确定每一所述稀疏表示系数向量的目标向量值;
样本生成模块,用于基于所述目标向量值,将每一所述初始样本以所述初始样本集中的其他N-1个初始样本进行稀疏表示得到目标样本,生成包含所述目标样本的目标样本集,每一所述目标样本被所述特征提取矩阵提取特征时具有样本特征;
矩阵确定模块,用于基于所述初始样本集中每一所述初始样本的样本特征和所述目标样本集中每一所述目标样本的样本特征之间的样本特征差异,确定所述特征提取矩阵的目标矩阵值;
特征提取模块,用于基于所述目标矩阵值,对所述初始样本进行特征提取。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中所述的一种特征提取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中所述的一种特征提取方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中所述的一种特征提取方法。
本申请实施例与现有技术相比存在的有益效果是:本申请获取初始样本集,初始样本集中包含N个初始样本,每一初始样本对应有一个稀疏表示系数向量,稀疏表示系数向量用于使每一初始样本被初始样本集中的其他N-1个初始样本进行稀疏表示;其中,每一初始样本被初始样本集中的其他N-1个初始样本进行稀疏表示时存在稀疏表示误差,每一初始样本被特征提取矩阵提取特征时具有样本特征;基于稀疏表示误差,确定每一稀疏表示系数向量的目标向量值;基于目标向量值,将每一初始样本以初始样本集中的其他N-1个初始样本进行稀疏表示得到目标样本,生成包含目标样本的目标样本集,每一目标样本被特征提取矩阵提取特征时具有样本特征;基于初始样本集中每一初始样本的样本特征和目标样本集中每一目标样本的样本特征之间的样本特征差异,确定特征提取矩阵的目标矩阵值;基于目标矩阵值,对初始样本进行特征提取。本申请无需对初始样本集进行数据标注即可实现在无监督的情况下获取特征提取矩阵,对初始样本进行特征提取。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种特征提取方法的流程示意图;
图2是本申请另一实施例提供的一种特征提取方法的流程示意图;
图3是本申请一实施例提供的一种特征提取装置的示意性结构框图;
图4是本申请一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
实施例一:
请参阅图1,图1示出了本申请提供的一种特征提取方法的示意性流程。
步骤101,获取初始样本集,初始样本集中包含N个初始样本。
可选地,每一初始样本对应有一个稀疏表示系数向量,稀疏表示系数向量用于使每一初始样本被初始样本集中的其他N-1个初始样本进行稀疏表示;其中,每一初始样本被初始样本集中的其他N-1个初始样本进行稀疏表示时存在稀疏表示误差,每一初始样本被特征提取矩阵提取特征时具有样本特征。
可选地,初始样本集中包含的初始样本可以包括图像的向量表示、传感器数据以及基因表达数据等类型的数据。
图像的数据格式与传感器数据和基因表达数据的数据格式不同,为了便于后续处理,可以预先对图像进行预处理,得到图像的向量表示。可选地,可以将图像按固定的行或列顺序进行堆叠,形成向量表式形式。其中,为了消除图像中的噪声,可以在堆叠之前,先对图像进行去噪处理,例如,通过局部二值模式(Local Binary Patterns,LBP)算法,或Gabor小波滤波算法,或图像二维白化变换算法对图像进行去噪处理。
作为示例,初始样本集可以表示为/>,/>表示初始样本集中的第i个样本,i的取值范围为[1,N],M表示初始样本的维度。/>构成一个行/>列的矩阵,/>表示实数空间中大小为/>行/>列的矩阵。
为了消除量纲影响,在进行后续处理之前,可以先对初始样本进行归一化处理。作为示例而非限定,可以通过下式对初始样本进行归一化处理:
其中,表示对/>进行归一化处理后得到的归一化样本,/>表示/>的欧几里得范数,又称为L2范数,/>表示1*/>。其中,进行归一化处理后可以得到包括N个归一化样本的归一化样本集/>,/>
可选地,初始样本集中的每一初始样本对应有一个稀疏表示系数向量,对于初始样本集中的第i个初始样本,基于第i个初始样本对应的稀疏表示系数向量,可以通过初始样本集中除第i个初始样本以外的N-1个初始样本对其进行稀疏表示。
本申请可以基于初始样本获取特征提取矩阵,也可以基于归一化样本获取特征提取矩阵。为了便于理解以及减小计算量,后续将以归一化样本为例说明特征提取矩阵的获取过程。
归一化样本集中的第i个归一化样本/>对应的稀疏表示系数向量为/>=[],向量元素/>表示第j个归一化样本对第i个归一化样本的贡献价值,或者可以表示第j个归一化样本和第i个归一化样本的样本类别的关联程度,j的取值范围为[1,N],则/>的稀疏表示样本为/>=/>。需要说明的是,此时,稀疏表示系数向量/>中向量元素的值是未知的。
在通过除第i个归一化样本以外的N-1个归一化样本对第i个归一化样本进行稀疏表示时,得到的稀疏表示样本和第i个归一化样本之间难免会存在稀疏表示误差,稀疏表示误差表示稀疏表示样本和第i个归一化样本之间的样本差异。作为示例而非限定,可以通过计算稀疏表示误差。
可选地,可以设置特征提取矩阵为P,P为M行D列的矩阵,D为所提取的样本特征的维度,特征提取矩阵P用于提取初始样本集中每一初始样本的样本特征和目标样本集中每一目标样本的样本特征,以降低样本维度。需要说明的是,此时,特征提取矩阵的矩阵值是未知的。
可选地,对于第i个归一化样本,通过特征提取矩阵所提取的样本特征可以表示为,通过特征提取矩阵所提取的第i个目标样本的样本特征可以表示为/>。其中,为/>的转置。
步骤102,基于稀疏表示误差,确定每一稀疏表示系数向量的目标向量值。
对于第i个归一化样本,为了使稀疏表示样本和第i个归一化样本之间的样本差异最小,使稀疏表示样本无限接近第i个归一化样本,可以将求解稀疏表示系数向量的问题转换为以下最优化问题:
为目标函数,/>为约束条件,/>表示/>的转置,为全1向量。需要说明的是,由于是通过除第i个归一化样本以外的N-1个归一化样本对第i个归一化样本进行稀疏表示,所以j等于i时,对应的向量元素即/>的值要为0。
在约束条件下求解目标函数的最小值,即可得到稀疏表示系数向量的目标向量值。
按照上述方法可以得到每一稀疏表示系数向量的目标向量值。
步骤103,基于目标向量值,将每一初始样本以初始样本集中的其他N-1个初始样本进行稀疏表示得到目标样本,生成包含目标样本的目标样本集,每一目标样本被特征提取矩阵提取特征时具有样本特征。
在得到每一稀疏表示系数向量的目标向量值后,可以按照公式,计算得到每一归一化样本对应的稀疏表示样本,也即目标样本,得到目标样本集。
可选地,目标样本的样本特征的表示方法和初始样本相同,对于第i个目标样本,通过特征提取矩阵所提取的样本特征可以表示为
步骤104,基于初始样本集中每一初始样本的样本特征和目标样本集中每一目标样本的样本特征之间的样本特征差异,确定特征提取矩阵的目标矩阵值。
在通过特征提取矩阵提取样本特征时,理想情况下,对于同一样本类别下的样本,所提取的样本特征要尽可能的相似;对于不同样本类别下的样本,所提取的样本特征要尽可能的不相似。
可选地,基于初始样本集中每一初始样本的样本特征和目标样本集中每一目标样本的样本特征之间的样本特征差异,确定特征提取矩阵的目标矩阵值,包括:基于每一稀疏表示系数向量中的每一元素,确定任意两个初始样本之间的样本类别关联系数;计算多个第一样本组对应的样本特征差异和的样本类别关联系数的第一加权和,第一样本组中包括的初始样本和目标样本之间的样本类别关联系数小于设定系数阈值;计算多个第二样本组对应的样本特征差异和的样本类别关联系数的第二加权和,第二样本组中包括的初始样本和目标样本之间的样本类别关联系数大于或等于设定系数阈值;基于第一加权和与第二加权和的差值,确定特征提取矩阵的目标矩阵值。
可选地,基于每一稀疏表示系数向量中的每一元素,确定任意两个初始样本之间的样本类别关联系数,包括:若元素对应的两个初始样本为同一样本,则将设定数值确定为样本类别关联系数;否则,将元素的值确定为样本类别关联系数。作为示例而非限定,设定数值的值可以为1。
对于第i个归一化样本对应的稀疏表示系数向量/>中的向量元素/>,若i等于j,则对应的样本类别关联系数为设定数值;若i不等于j,则第i个归一化样本和第j个归一化样本之间的样本类别关联系数为/>,不同样本的样本类别之间的关联关系是固定的,因此,第i个归一化样本和第j个目标样本之间的样本类别关联系数也为/>
可选地,可以基于样本类别关联系数和设定系数阈值,将归一化样本集和目标样本集划分为多个样本组,每一样本组中包括一个归一化样本和一个目标样本。
若样本类别关联系数小于设定系数阈值,说明对应的一个归一化样本和一个目标样本极大可能属于不同样本类别,则将样本类别关联系数对应的一个归一化样本和一个目标样本确定为第一样本组,否则,说明对应的一个归一化样本和一个目标样本极大可能属于同一样本类别,将样本类别关联系数对应的一个归一化样本和一个目标样本确定为第二样本组。其中,设定系数阈值可以是预先通过交叉验证得到,也可以是人为设定。
可选地,在第一加权和与第二加权和的差值最大时,不同样本类别样本的样本特征差异最大,同一样本类别样本的样本特征差异最小,此时求解得到的矩阵值为目标矩阵值。其中,在求解矩阵值时,要满足,/>为单位矩阵。
在一可选实施例中,上述求解矩阵值的问题可以转化为以下最优化问题:
和/>用于对样本组进行第一样本组和第二样本组的划分,表示第一加权和,/>表示第二加权和,表示第j个目标样本。
可选地,获取和/>包括:
其中,为设定系数阈值,且/>,/>可以称为局部邻近关系权值,/>可以称为非局部邻近关系权值。
通过最大化非局部几何结构信息和最小化局部几何结构信息/>,能够使得特征提取矩阵/>具有较强的无监督判别能力;同时,通过稀疏表示系数向量/>,可以在低维投影空间中保留高维空间中样本的非负稀疏表示关系,进一步增强了算法的判别能力。此外,本申请采用非平方L2范数度量样本特征差异提高了算法对样本噪声的鲁棒性。
在另一可选实施例中,上述求解矩阵值的问题还可以转化为以下最优化问题:
该式相较于上式,增加了优化参数,通过优化参数/>能够自适应地同时最大化非局部几何结构信息/>和最小化局部几何结构信息。作为示例,优化参数/>的初始值可以为1。
下面以该式为例,对矩阵值的求解过程进行说明:
对上式进行化简,得到:
其中,,/>和/>分别为矩阵/>的列和与行和形成的对角阵,/>矩阵为/>中的元素,/>,/>,/>和/>与上同理。
基于化简后的式子最优化目标函数,求取特征提取矩阵和优化参数:
1)固定优化/>:根据化简后的式子,/>的解为/>的前/>个最大特征值对应的特征向量,即/>,其中/>为对角矩阵,其对角线上为特征值。
2)固定优化/>:对化简后的式子中的/>求导,可得/>
按照上述过程可求解得到特征提取矩阵的目标矩阵值。
步骤105,基于目标矩阵值,对初始样本进行特征提取。
特征提取又可以称为低维投影,基于目标矩阵值,对初始样本进行特征提取后,可以得到初始样本的样本特征。其中,样本特征的维度低于初始样本的维度。
可选地,在基于目标矩阵值,对初始样本进行特征提取之后,该方法还包括:基于所提取的样本特征对初始样本进行分类或聚类。
可选地,对于特征提取后得到的样本特征,可以通过分类器对初始样本进行分类,或者使用聚类算法例如K均值(K-means)聚类算法对初始样本进行聚类,或者通过t分布随机邻居嵌入(t-DistributedStochasticNeighborEmbedding,t-SNE)算法对初始样本进行可视化。
本申请获取初始样本集,初始样本集中包含N个初始样本,每一初始样本对应有一个稀疏表示系数向量,稀疏表示系数向量用于使每一初始样本被初始样本集中的其他N-1个初始样本进行稀疏表示;其中,每一初始样本被初始样本集中的其他N-1个初始样本进行稀疏表示时存在稀疏表示误差,每一初始样本被特征提取矩阵提取特征时具有样本特征;基于稀疏表示误差,确定每一稀疏表示系数向量的目标向量值;基于目标向量值,将每一初始样本以初始样本集中的其他N-1个初始样本进行稀疏表示得到目标样本,生成包含目标样本的目标样本集,每一目标样本被特征提取矩阵提取特征时具有样本特征;基于初始样本集中每一初始样本的样本特征和目标样本集中每一目标样本的样本特征之间的样本特征差异,确定特征提取矩阵的目标矩阵值;基于目标矩阵值,对初始样本进行特征提取。本申请无需对初始样本集进行数据标注即可实现在无监督的情况下获取特征提取矩阵。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例二:
请参阅图2,图2示出了本申请提供的一种特征提取方法的示意性流程。
步骤201,获取初始样本集。
步骤201中的相关内容可以参见步骤101中的相关描述,此处不再赘述。
步骤202,基于特征提取矩阵的初始矩阵值,对初始样本集中的每一初始样本进行重构得到对应的重构样本,生成包含重构样本的重构样本集;对于重构样本集中的每一重构样本,基于对应的稀疏表示系数向量,确定每一重构样本对应的稀疏表示样本;基于重构样本和对应的稀疏表示样本,确定稀疏表示误差。
可选地,可以先初始化特征提取矩阵为M行D列的随机列正交矩阵,使之满足,得到初始矩阵值,将包括初始矩阵值的特征提取矩阵记为/>
可选地,对初始样本集中的每一初始样本进行重构得到对应的重构样本,生成包含重构样本的重构样本集,包括:
为第i个归一化样本/>的重构样本,/>为/>的转置,每一归一化样本的重构样本构成重构样本集Y=/>。其中,重构样本和归一化样本的样本维度相同。
对归一化样本进行重构可以在一定程度上消除归一化样本中的噪声,避免噪声对特征提取矩阵的获取过程造成影响。
可选地,对于重构样本,/>的稀疏表示样本为/>=
可选地,对于重构样本,可以通过/>计算重构样本和对应的稀疏表示样本之间的稀疏表示误差。
步骤203,基于稀疏表示误差,确定每一稀疏表示系数向量的目标向量值。
可选地,样本之间的距离信息可以侧面反映样本类别之间的关联关系,因此,本申请还将样本之间的距离信息作为辅助信息用来确定目标向量值。
可选地,基于稀疏表示误差,确定每一稀疏表示系数向量的目标向量值,包括:基于每一初始样本分别与初始样本集中的其他N-1个初始样本之间的融合距离,获取每一初始样本对应的距离向量,融合距离是基于初始样本之间的距离和重构样本之间的距离得到;将每一初始样本对应的稀疏表示系数向量和距离向量进行点乘,得到加权距离和;基于稀疏表示误差和加权距离和,确定每一稀疏表示系数向量的目标向量值。
可选地,计算归一化样本之间的距离,包括:
为第i个归一化样本和第j个归一化样本之间的归一化距离,可以表示第i个归一化样本和其它各个归一化样本之间的距离的和。
可选地,计算重构样本之间的距离,包括:
为第i个重构样本和第j个重构样本之间的归一化距离,/>可以表示第i个重构样本和其它各个重构样本之间的距离的和。
可选地,计算融合距离,包括:
表示第i个初始样本和第j个初始样本之间的融合距离,η为权重,用于平衡重构空间和原始空间中样本距离的重要程度。
基于第i个初始样本和其它各个初始样本之间的融合距离,可以得到第i个初始样本对应的距离向量
可选地,基于稀疏表示误差和加权距离和,确定每一稀疏表示系数向量的目标向量值,包括:
(式1)
其中,为正则化系数,且/>;/>为点乘符号,表示对应位置元素相乘;
本申请基于重构样本计算稀疏表示误差,以及融合初始空间和重构空间中的样本间距离信息,同时利用了多种空间中的信息进行数据关系的构建,可以提高特征提取判别能力。
下面对上式的求解过程进行说明:
对每个归一化样本,其稀疏表示系数向量/>的优化方法如下:
1)设内部迭代次数,初始化/>
为了便于求解,对式1进行变换,具体地,将L2范数变换为L2范数的平方,即上式中加号左右两项分别除以,得到式2:
(式2)
其中,。需要说明的是,式1中加号左右两项同时除以了/>,相当于式1乘以一个系数,不会对求解过程造成影响。
为了缓解求解过程的计算复杂度和运算时间,本申请按照以下方法对式2进行求解。
2)首先不考虑约束条件,基于,计算/>,得到/>,其中/>为对角矩阵。
3)对进行归一化,/>,/>表示/>中各个元素的和。
4)再次添加约束,采用投影单纯形方法解析地计算稀疏表示系数向量,,其中/>为稀疏控制参数,/>,/>表示内积。
5)令,更新/>,并返回执行步骤2),直到达到最大迭代次数或满足收敛条件,得到目标向量值。
上述求解过程首先不考虑约束条件对稀疏表示系数向量进行初步计算,得到初始值,再在初始值附近寻找满足约束条件的优化值,极大了降低了计算复杂度,缩短了运算时间。
步骤204,基于目标向量值,将每一初始样本以初始样本集中的其他N-1个初始样本进行稀疏表示得到目标样本,生成包含目标样本的目标样本集。
步骤205,基于初始样本集中每一初始样本的样本特征和目标样本集中每一目标样本的样本特征之间的样本特征差异,确定特征提取矩阵的目标矩阵值。
步骤204-步骤205中的相关内容可以参见步骤103-步骤104中的相关描述,此处不再赘述。
可选地,在确定特征提取矩阵的目标矩阵值之后,该方法还包括:判断当前的迭代数据是否满足设定的迭代条件;若当前的迭代数据不满足设定的迭代条件,则通过目标矩阵值,对特征提取矩阵的初始矩阵值进行更新,并迭代执行基于初始矩阵值,对初始样本集中的每一初始样本进行重构得到对应的重构样本,生成包含重构样本的重构样本集的步骤。
在得到特征提取矩阵的目标矩阵值之后,可以判断当前迭代次数是否等于设定迭代次数,或者判断当前目标函数的值是否满足设定收敛条件。若等于设定迭代次数或者满足设定收敛条件,则停止迭代,得到的目标矩阵值即为最终的矩阵值;否则,可以将特征提取矩阵的初始矩阵值更新为目标矩阵值,并返回执行基于初始矩阵值,对初始样本集中的每一初始样本进行重构得到对应的重构样本,生成包含重构样本的重构样本集的步骤,直至当前的迭代数据满足设定的迭代条件。
步骤206,基于目标矩阵值,对初始样本进行特征提取。
可选地,可以在当前的迭代数据满足设定的迭代条件时,基于计算得到的目标矩阵指,对初始样本进行特征提取。
本申请基于特征提取矩阵的初始矩阵值,对初始样本集中的每一初始样本进行重构得到对应的重构样本,基于重构样本和对应的稀疏表示样本,确定稀疏表示误差,可以避免初始样本中的噪声对稀疏表示误差产生影响;此外,本申请还基于稀疏表示误差和多空间中的样本间距离,确定稀疏表示系数向量的目标向量值,同时利用了多种空间中的信息进行数据关系的构建,可以提高本申请特征提取方法的判别能力。
实施例三:
请参阅图3,图3示出了本申请提供的一种特征提取装置的示意性结构。为了便于说明,图中仅示出了与本申请实施例相关的部分。
参照图3,该装置包括样本集获取模块31、向量确定模块32、样本生成模块33、矩阵确定模块34和特征提取模块35;其中,各模块的具体功能如下:
样本集获取模块31,用于获取初始样本集,初始样本集中包含N个初始样本,每一初始样本对应有一个稀疏表示系数向量,稀疏表示系数向量用于使每一初始样本被初始样本集中的其他N-1个初始样本进行稀疏表示;其中,每一初始样本被初始样本集中的其他N-1个初始样本进行稀疏表示时存在稀疏表示误差,每一初始样本被特征提取矩阵提取特征时具有样本特征;
向量确定模块32,用于基于稀疏表示误差,确定每一稀疏表示系数向量的目标向量值;
样本生成模块33,用于基于目标向量值,将每一初始样本以初始样本集中的其他N-1个初始样本进行稀疏表示得到目标样本,生成包含目标样本的目标样本集,每一目标样本被特征提取矩阵提取特征时具有样本特征;
矩阵确定模块34,用于基于初始样本集中每一初始样本的样本特征和目标样本集中每一目标样本的样本特征之间的样本特征差异,确定特征提取矩阵的目标矩阵值。
特征提取模块35,用于基于目标矩阵值,对初始样本进行特征提取。
可选地,特征提取矩阵对应有初始矩阵值,该装置还包括误差计算模块,用于:基于初始矩阵值,对初始样本集中的每一初始样本进行重构得到对应的重构样本,生成包含重构样本的重构样本集;对于重构样本集中的每一重构样本,基于对应的稀疏表示系数向量,确定每一重构样本对应的稀疏表示样本;基于重构样本和对应的稀疏表示样本,确定稀疏表示误差。
可选地,该装置还包括迭代判断模块,用于在确定特征提取矩阵的目标矩阵值之后,判断当前的迭代数据是否满足设定的迭代条件;若当前的迭代数据不满足设定的迭代条件,则通过目标矩阵值,对特征提取矩阵的初始矩阵值进行更新,并迭代执行基于初始矩阵值,对初始样本集中的每一初始样本进行重构得到对应的重构样本,生成包含重构样本的重构样本集的步骤。
可选地,向量确定模块32具体用于:基于每一初始样本分别与初始样本集中的其他N-1个初始样本之间的融合距离,获取每一初始样本对应的距离向量,融合距离是基于初始样本之间的距离和重构样本之间的距离得到;将每一初始样本对应的稀疏表示系数向量和距离向量进行点乘,得到加权距离和;基于稀疏表示误差和加权距离和,确定每一稀疏表示系数向量的目标向量值。
可选地,矩阵确定模块34具体用于:基于每一稀疏表示系数向量中的每一元素,确定任意两个初始样本之间的样本类别关联系数;计算多个第一样本组对应的样本特征差异和的样本类别关联系数的第一加权和,第一样本组中包括的初始样本和目标样本之间的样本类别关联系数小于设定系数阈值;计算多个第二样本组对应的样本特征差异和的样本类别关联系数的第二加权和,第二样本组中包括的初始样本和目标样本之间的样本类别关联系数大于或等于设定系数阈值;基于第一加权和与第二加权和的差值,确定特征提取矩阵的目标矩阵值。
可选地,矩阵确定模块34具体用于:在所述元素对应的两个初始样本为同一样本的情况下,将设定数值确定为样本类别关联系数;否则,将元素的值确定为样本类别关联系数。
可选地,该装置还包括分类聚类模块,用于在基于目标矩阵值,对初始样本进行特征提取之后,基于所提取的样本特征对初始样本进行分类或聚类。
本申请实施例提供的上述一种特征提取装置可以应用在前述方法实施例一和实施例二中,详情参见上述方法实施例一和实施例二的描述,在此不再赘述。
实施例四:
请参阅图4,图4示出了本申请一实施例提供的终端设备的示意性结构。该实施例的终端设备4包括:至少一个处理器40(图4中仅示出一个)、存储器41以及存储在所述存储器41中并可在所述至少一个处理器40上运行的计算机程序42,所述处理器40执行所述计算机程序42时实现上述实施例一和实施例二中一种特征提取方法的步骤。
所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备4可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的举例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),该处理器40还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41在一些实施例中可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41在另一些实施例中也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种特征提取方法,其特征在于,所述方法包括:
获取初始样本集,所述初始样本集中包含N个初始样本,每一所述初始样本对应有一个稀疏表示系数向量,所述稀疏表示系数向量用于使每一所述初始样本被所述初始样本集中的其他N-1个初始样本进行稀疏表示;其中,每一所述初始样本被所述初始样本集中的其他N-1个初始样本进行稀疏表示时存在稀疏表示误差,每一所述初始样本被特征提取矩阵提取特征时具有样本特征;
基于所述稀疏表示误差,确定每一所述稀疏表示系数向量的目标向量值;
基于所述目标向量值,将每一所述初始样本以所述初始样本集中的其他N-1个初始样本进行稀疏表示得到目标样本,生成包含所述目标样本的目标样本集,每一所述目标样本被所述特征提取矩阵提取特征时具有样本特征;
基于所述初始样本集中每一所述初始样本的样本特征和所述目标样本集中每一所述目标样本的样本特征之间的样本特征差异,确定所述特征提取矩阵的目标矩阵值;
基于所述目标矩阵值,对所述初始样本进行特征提取。
2.如权利要求1所述的方法,其特征在于,所述特征提取矩阵对应有初始矩阵值,在所述基于所述稀疏表示误差,确定每一所述稀疏表示系数向量的目标向量值之前,所述方法还包括:
基于所述初始矩阵值,对所述初始样本集中的每一所述初始样本进行重构得到对应的重构样本,生成包含所述重构样本的重构样本集;
对于所述重构样本集中的每一所述重构样本,基于对应的所述稀疏表示系数向量,确定每一所述重构样本对应的稀疏表示样本;
基于所述重构样本和对应的所述稀疏表示样本,确定所述稀疏表示误差。
3.如权利要求2所述的方法,其特征在于,在所述确定所述特征提取矩阵的目标矩阵值之后,所述方法还包括:
判断当前的迭代数据是否满足设定的迭代条件;
若所述当前的迭代数据不满足所述设定的迭代条件,则通过所述目标矩阵值,对所述特征提取矩阵的初始矩阵值进行更新,并迭代执行所述基于所述初始矩阵值,对所述初始样本集中的每一所述初始样本进行重构得到对应的重构样本,生成包含所述重构样本的重构样本集的步骤。
4.如权利要求2所述的方法,其特征在于,所述基于所述稀疏表示误差,确定每一所述稀疏表示系数向量的目标向量值,包括:
基于每一所述初始样本分别与所述初始样本集中的其他N-1个初始样本之间的融合距离,获取每一所述初始样本对应的距离向量,所述融合距离是基于初始样本之间的距离和重构样本之间的距离得到;
将每一所述初始样本对应的所述稀疏表示系数向量和所述距离向量进行点乘,得到加权距离和;基于所述稀疏表示误差和所述加权距离和,确定每一所述稀疏表示系数向量的目标向量值。
5.如权利要求1所述的方法,其特征在于,所述基于所述初始样本集中每一所述初始样本的样本特征和所述目标样本集中每一所述目标样本的样本特征之间的样本特征差异,确定所述特征提取矩阵的目标矩阵值,包括:
基于每一所述稀疏表示系数向量中的每一元素,确定任意两个初始样本之间的样本类别关联系数;
计算多个第一样本组对应的样本特征差异和所述的样本类别关联系数的第一加权和,所述第一样本组中包括的所述初始样本和所述目标样本之间的所述样本类别关联系数小于设定系数阈值;
计算多个第二样本组对应的样本特征差异和所述的样本类别关联系数的第二加权和,所述第二样本组中包括的所述初始样本和所述目标样本之间的所述样本类别关联系数大于或等于所述设定系数阈值;
基于所述第一加权和与所述第二加权和的差值,确定所述特征提取矩阵的目标矩阵值。
6.如权利要求5所述的方法,其特征在于,所述基于每一所述稀疏表示系数向量中的每一元素,确定任意两个初始样本之间的样本类别关联系数,包括:
若所述元素对应的两个初始样本为同一样本,则将设定数值确定为所述样本类别关联系数;否则,将所述元素的值确定为所述样本类别关联系数。
7.如权利要求1-6任一项所述的方法,其特征在于,在所述基于所述目标矩阵值,对所述初始样本进行特征提取之后,所述方法还包括:
基于所提取的样本特征对所述初始样本进行分类或聚类。
8.一种特征提取装置,其特征在于,所述装置包括:
样本集获取模块,用于获取初始样本集,所述初始样本集中包含N个初始样本,每一所述初始样本对应有一个稀疏表示系数向量,所述稀疏表示系数向量用于使每一所述初始样本被所述初始样本集中的其他N-1个初始样本进行稀疏表示;其中,每一所述初始样本被所述初始样本集中的其他N-1个初始样本进行稀疏表示时存在稀疏表示误差,每一所述初始样本被特征提取矩阵提取特征时具有样本特征;
向量确定模块,用于基于所述稀疏表示误差,确定每一所述稀疏表示系数向量的目标向量值;
样本生成模块,用于基于所述目标向量值,将每一所述初始样本以所述初始样本集中的其他N-1个初始样本进行稀疏表示得到目标样本,生成包含所述目标样本的目标样本集,每一所述目标样本被所述特征提取矩阵提取特征时具有样本特征;
矩阵确定模块,用于基于所述初始样本集中每一所述初始样本的样本特征和所述目标样本集中每一所述目标样本的样本特征之间的样本特征差异,确定所述特征提取矩阵的目标矩阵值;
特征提取模块,用于基于所述目标矩阵值,对所述初始样本进行特征提取。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202311356289.6A 2023-10-19 2023-10-19 一种特征提取方法、装置、终端设备及介质 Active CN117093855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311356289.6A CN117093855B (zh) 2023-10-19 2023-10-19 一种特征提取方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311356289.6A CN117093855B (zh) 2023-10-19 2023-10-19 一种特征提取方法、装置、终端设备及介质

Publications (2)

Publication Number Publication Date
CN117093855A true CN117093855A (zh) 2023-11-21
CN117093855B CN117093855B (zh) 2024-06-07

Family

ID=88777248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311356289.6A Active CN117093855B (zh) 2023-10-19 2023-10-19 一种特征提取方法、装置、终端设备及介质

Country Status (1)

Country Link
CN (1) CN117093855B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016091017A1 (zh) * 2014-12-09 2016-06-16 山东大学 一种高光谱图像分类中光谱向量互相关特征的抽取方法
CN106127225A (zh) * 2016-06-13 2016-11-16 西安电子科技大学 基于稀疏表示的半监督高光谱图像分类方法
CN110717480A (zh) * 2019-10-25 2020-01-21 中国人民解放军国防科技大学 基于随机擦除图像融合的合成孔径雷达遮挡目标识别方法
CN111309850A (zh) * 2020-02-10 2020-06-19 深圳云天励飞技术有限公司 一种数据特征提取方法、装置、终端设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016091017A1 (zh) * 2014-12-09 2016-06-16 山东大学 一种高光谱图像分类中光谱向量互相关特征的抽取方法
CN106127225A (zh) * 2016-06-13 2016-11-16 西安电子科技大学 基于稀疏表示的半监督高光谱图像分类方法
CN110717480A (zh) * 2019-10-25 2020-01-21 中国人民解放军国防科技大学 基于随机擦除图像融合的合成孔径雷达遮挡目标识别方法
CN111309850A (zh) * 2020-02-10 2020-06-19 深圳云天励飞技术有限公司 一种数据特征提取方法、装置、终端设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈韬;李克清;夏瑜;: "一种鲁棒稀疏表示的单样本人脸识别算法", 计算机应用研究, no. 11, 12 December 2017 (2017-12-12), pages 297 - 302 *

Also Published As

Publication number Publication date
CN117093855B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
Tharwat et al. Linear discriminant analysis: A detailed tutorial
Tang et al. Deepchart: Combining deep convolutional networks and deep belief networks in chart classification
Saegusa et al. Joint estimation of precision matrices in heterogeneous populations
Chen et al. Low-rank tensor based proximity learning for multi-view clustering
Zhang et al. Simplifying mixture models through function approximation
CN111639535A (zh) 基于深度学习的人脸识别方法及装置
Singh et al. A study of moment based features on handwritten digit recognition
Chakraborty et al. Simultaneous variable weighting and determining the number of clusters—A weighted Gaussian means algorithm
CN105608478B (zh) 一种图像的特征提取与分类联合方法及系统
Soni et al. Hybrid meta-heuristic algorithm based deep neural network for face recognition
Praveena et al. [Retracted] Effective CBMIR System Using Hybrid Features‐Based Independent Condensed Nearest Neighbor Model
Madakannu et al. DIGI-Net: a deep convolutional neural network for multi-format digit recognition
JP2011248879A (ja) テスト画像内のオブジェクトを分類するための方法
Hao et al. Multi-view spectral clustering via common structure maximization of local and global representations
Li et al. A novel visual codebook model based on fuzzy geometry for large-scale image classification
Wang et al. A SAR Image Target Recognition Approach via Novel SSF‐Net Models
Zhang et al. Combining MLC and SVM classifiers for learning based decision making: Analysis and evaluations
Zhang Deep generative model for multi-class imbalanced learning
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
Somase et al. Develop and implement unsupervised learning through hybrid FFPA clustering in large-scale datasets
Zhang et al. Fast local representation learning via adaptive anchor graph for image retrieval
CN115034315A (zh) 基于人工智能的业务处理方法、装置、计算机设备及介质
Wang et al. High-dimensional Data Clustering Using K-means Subspace Feature Selection.
CN114898167A (zh) 基于视图间差异性检测的多视图子空间聚类方法及系统
Wang et al. Retargeted multi-view classification via structured sparse learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant