CN112001410A - 一种振动光谱维数约简方法及系统 - Google Patents

一种振动光谱维数约简方法及系统 Download PDF

Info

Publication number
CN112001410A
CN112001410A CN202010643124.7A CN202010643124A CN112001410A CN 112001410 A CN112001410 A CN 112001410A CN 202010643124 A CN202010643124 A CN 202010643124A CN 112001410 A CN112001410 A CN 112001410A
Authority
CN
China
Prior art keywords
dimension reduction
dataset
sample
reduction
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010643124.7A
Other languages
English (en)
Inventor
罗娜
孙传恒
邢斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Research Center for Information Technology in Agriculture
Original Assignee
Beijing Research Center for Information Technology in Agriculture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Research Center for Information Technology in Agriculture filed Critical Beijing Research Center for Information Technology in Agriculture
Priority to CN202010643124.7A priority Critical patent/CN112001410A/zh
Publication of CN112001410A publication Critical patent/CN112001410A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明实施例提供一种振动光谱维数约简方法及系统,该方法包括获取待测样本的原始振动光谱数据;基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;基于T‑SNE降维方法,对一次降维数据集进行二次特征维数约简处理,获取目标降维数据集。本发明实施例提供的振动光谱维数约简方法及系统,将非线性降维方法与线性降维方法进行结合,应用于农产品振动光谱数据的维数约简,在降维过程中最大程度保留了原始数据内在结构,使得降维后性质相近的样本数据相互聚集,性质不同的样本数据彼此远离,有效提高了光谱数据的可视化分离效果,同时也为后续建立分类模型提高分类检测精度提供有力支撑。

Description

一种振动光谱维数约简方法及系统
技术领域
本发明涉及数据识别技术领域,尤其涉及一种振动光谱维数约简方法及系统。
背景技术
由于检测物样品内部性质不同,其内部分子结构存在差异,使得在近红外、拉曼等振动光谱辐射下视为分光谱响应产生差异,因此光谱响应可作为样品指纹,以作为对检测样品内部性质的判定目标。光谱识别技术具有操作简单、快速、无损、前处理简单等优点,在农产品品质检测、防伪鉴别、农产品加工等农业领域应用广泛。由于获取的光谱数据通常维数在成百上千,无法直接观察高维特征空间中的目标物体特点,因此,采用维数约简方法,将原始数据从高维空间经过数学变换转换到低维空间,以方便提取关键信息、去掉冗余信息,使得样品的内在性质能够在低维空间中能够被直观观测。
在光谱分析领域最常见的维数约简方法为主成分分析法,主成分分析法是基于线性变换原理,将检测样本的原始光谱数据经过线性变换得到的投影作为新的样本光谱数表示。因而主成分分析法最关键的步骤是如何计算线性变换矩阵,已出版采取的是通过最大化变换后原始样本投影的方差,从而求得线性变换矩阵。
主成分分析法是基于线性变换,因而对于非线性的数据往往不能有效提取关键信息,从而使得降维后不能直观展示数据性质,不能达到可视化业务的精度要求。
发明内容
本发明实施例提供一种振动光谱维数约简方法及系统,用以解决现有技术中仅利用基于线性变换的主成分分析法进行高位光谱数据降维操作所存在的缺陷,有效的提高维数约简的精度,为实现了对农产品振动光谱数据维数约简与可视化展示提供基础。
第一方面,本发明实施例提供一种振动光谱维数约简方法,包括:获取待测样本的原始振动光谱数据;基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;基于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集。
作为可选地,在获取目标降维数据集之后,还可以包括:将目标降维数据集中的所有样本点在二维坐标系或三维坐标空间中进行可视化展示。
作为可选地,基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,包括:根据原始振动光谱数据构建原始光谱矩阵,原始光谱矩阵的列数为待测样本的数量,原始光谱矩阵的行数为光谱仪器的通道数量;获取原始光谱矩阵的协方差矩阵;确定协方差矩阵的变换矩阵;根据协方差矩阵的变换矩阵对原始光谱矩阵进行特征维数约简处理。
作为可选地,上述确定所述协方差矩阵的变换矩阵,主要包括:获取协方差矩阵的所有特征值;将特征值按照从大到小的顺序依次排列;选取靠前的预设数量的特征值,作为目标特征值;将与每个目标特征值对应的特征向量逐行排列,构建变换矩阵。
作为可选地,上述根据协方差矩阵的变换矩阵对原始光谱矩阵进行特征维数约简处理,具体可以为:
PCA_X=W×Raw_X
其中,PCA_X为一次降维数据集,W为变换矩阵,Raw_X为原始光谱矩阵。
作为可选地,上述基于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集,主要包括:获取一次降维数据集中各样本点两两之间的第一相似度;设一次降维数据集中各样本点经T-SNE特征维数约简处理后的获取的数据集为中间降维数据集,计算中间降维数据集中各样本点两两之间的第二相似度;基于KL散度最小化方法,确定第一相似度和第二相似度的损失函数;基于梯度下降法,获取与损失函数最小化时所对应的中间降维数据集为目标降维数据集。
作为可选地,获取一次降维数据集中各样本点两两之间的第一相似度,具体可以为:
Figure BDA0002572039250000031
Figure BDA0002572039250000032
Figure BDA0002572039250000033
上述计算中间降维数据集中各样本点两两之间的第二相似度,具体可以为:
Figure BDA0002572039250000034
上述确定第一相似度和所述第二相似度的损失函数,具体可以为:
Figure BDA0002572039250000035
其中,xi为一次降维数据集中第i个样本点,xj为一次降维数据集中第j个样本点,σi为一次降维后的特征空间中第i个样本点所对应的高斯分布的方差,S(xi,xj)为样本点xi和样本点xj的第一相似度,S′(zi,zj)为中间降维数据集中样本点zi和样本点zj的第二相似度,pj|i表示样本点xi选取xj为相邻点的概率分布,pij表示样本点xj选取xi为相邻点的概率分布,xk为一次降维数据集对应的第k个低维样本点,zk为中间降维数据集对应的第k个低维样本点,C为损失函数,KL为散度函数,n为数据集样本点的数量,l为中间参数,Sij为T-SNE执行前第i个样本点和第j个样本点的相似度S(xi,xj);S′ij为T-SNE执行后第i个样本点和第j个样本点的相似度S′(zi,zj)。
作为可选地,所述基于梯度下降法,获取与所述损失函数最小化时所对应的中间降维数据集为所述目标降维数据集,包括:
计算所述损失函数的梯度向量,其公式为:
Figure BDA0002572039250000041
将z的坐标沿梯度方向迭代移动,直至达到预设的迭代次数或者所述损失函数的阈值,终止迭代;样本点在迭代移动时的坐标函数为:
Figure BDA0002572039250000042
将迭代终止时的中间降维数据集设为所述目标降维数据集;
其中z(t)表示第t轮迭代时样本的坐标,z(t-1)表示第t-1轮迭代时样本的坐标,z(t-2)表示第t-2轮迭代时样本的坐标,η表示学习率,α(t)表示第t轮迭代时的推动力量参数,
Figure BDA0002572039250000043
为梯度向量
Figure BDA0002572039250000044
中对数据集中第i个样本点的偏微分。。
第二方面,本发明实施例提供一种振动光谱维数约简系统,包括:数据获取单元、第一降维单元和第二降维单元;数据获取单元主要用于获取待测样本的原始振动光谱数据;第一降维单元主要用于基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;第二降维单元主要用于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如第一方面任一所述的振动光谱维数约简方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面任一所述的振动光谱维数约简方法的步骤。
本发明实施例提供的振动光谱维数约简方法及系统,通过将非线性降维方法与线性降维方法进行结合,应用于农产品振动光谱数据的维数约简,在降维过程中最大程度保留了原始数据在结构,使得降维后性质相近的样本数据距离更近,性质不同的样本数据距离更远,有效的提高了检测的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种振动光谱维数约简方法的流程示意图;
图2为产自希腊的橄榄油样品的可见-近红外光谱数据示意图;
图3为产自意大利的橄榄油样品的可见-近红外光谱数据示意图;
图4为产自波多黎各的橄榄油样品的可见-近红外光谱数据示意图;
图5为产自西班牙的橄榄油样品的可见-近红外光谱数据示意图;
图6为本发明实施例提供的利用振动光谱维数约简方法进行可视化的效果示意图;
图7为本发明实施例提供的一种振动光谱维数约简系统的结构示意图;
图8为本发明振动光谱维数约简系统实施例结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种振动光谱维数约简方法的流程示意图,如图1所示,该方法主要包括但不限于以下步骤
S1:获取待测样本的原始振动光谱数据;
S2:基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;
S3:基于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集。
具体地,在本发明实施例中,首先收集特定数量的待测样本作为分析对象;根据实际检测需要,设置作为数据采集装置的光谱仪的各参数,以采集待测样本的光谱数据作为原始振动光谱数据,记为:Raw_X。
进一步地,利用主成分分析法对构建的原始振动光谱数据Raw_X进行特征降维处理,得到降维处理后的数据集,简称一次降维数据集,记为:PCA_X。
其中,变量之间是有一定的相关关系,当两个变量之间有一定相关关系时,可以解释为这两个变量所反映的信息具有一定的重叠。主成分分析法(Principal ComponentAnalysis,简称PCA)是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原多维坐标系变换成新的正交坐标系,使之指向样本点散布最开的多个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,
其中,由于PCA是一种线性降维算法,不能解释特征之间的复杂多项式关系。如果特征与特征之间的关系是非线性的话,用PCA可能会导致欠拟合的情形发生。而T-SNE降维方法则是基于在邻域图上随机游走的概率分布(非线性),可以在数据中找到其结构关系。T-SNE通过在高维空间中采用的高斯核心函数定义数据的局部和全局结构之间的软边界,可以同时保留数据的局部和全局结构。局部方法寻求将流型上的附近点映射到低维表示中的附近点;全局方法则试图保留所有尺度的几何形状,即将附近的点映射到附近的点,将远处的点映射到远处的点。
需要说明的是,T-SNE降维方法为数据的降维与可视化提供了基础,通过将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示,嵌入空间的相似度则由“学生t分布”表示。其中,主成分分析法和T-SNE降维方法均可以借助Python来实现。
进一步地,可以通过原始空间和嵌入空间的联合概率的Kullback-Leibler(KL)散度来评估可视化效果的好坏,即通过KL散度函数作为loss函数,然后通过梯度下降最小化loss函数,最终获得收敛结果。
本发明实施例提供的振动光谱维数约简方法,通过将主成分分析法和T-SNE降维方法进行结合,应用于农产品振动光谱数据的维数约简,在降维过程中最大程度保留了原始数据在结构,使得降维后性质相近的样本数据距离更近,性质不同的样本数据距离更远,有效的提高了检测的精度,并且为振动光谱数据的低维度可视化提供了基础。
基于上述实施例的内容,作为一种可选实施例,在获取目标降维数据集之后,还包括:将目标降维数据集中的所有样本点在二维坐标系或三维坐标空间中进行可视化展示。
图2、图3、图4、图5分别为对产自希腊、意大利、波多黎各以及西班牙等四个国家的橄榄油样品,进行光谱分析后获取的可见-近红外光谱数据示意图,图中的横纵标为波数(Wavenumbers)、纵坐标为吸光度单位(Absorbance Units);图6为利用本发明实施例提供的振动光谱维数约简方法,对图2-图5中所示的可见-近红外光谱数据进行降维后,再通过二维空间进行可视化展示的效果示意图,,图中的横、坐标表示维度1(Dimension 1)和维度2(Dimension 2)。
通过上述实施例中的实验结果,可以获知:采用本发明实施例提供的振动光谱维数约简方法后,可以在二维空间直观区分不同产地的橄榄油样本,本发明实施例能够实现简单、直观有效的将降维处理所获取的目标降维数据集中的所有样本点在二维坐标系或三维坐标空间中进行可视化展示,达到了应用的要求。
基于上述实施例的内容,作为一种可选实施例,在步骤S2中所述的基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,主要包括但不限于以下步骤:
根据原始振动光谱数据构建原始光谱矩阵,原始光谱矩阵的列数为待测样本的数量,原始光谱矩阵的行数为光谱仪器的通道数量;获取原始光谱矩阵的协方差矩阵;确定协方差矩阵的变换矩阵;根据协方差矩阵的变换矩阵对原始光谱矩阵进行特征维数约简处理。
作为可选地,其中确定协方差矩阵的变换矩阵,可以包括以下步骤:获取所述协方差矩阵的所有特征值;将特征值按照从大到小的顺序依次排列;选取靠前的预设数量的特征值,作为目标特征值;将与每个目标特征值对应的特征向量逐行排列,构建变换矩阵。
作为可选地,其中根据协方差矩阵的变换矩阵对原始光谱矩阵进行特征维数约简处理,其计算公式可以是:
PCA_X=W×Raw_X
其中,PCA_X为一次降维数据集,W为变换矩阵,Raw_X为原始光谱矩阵。
具体地,本发明实施例提供一种基于主成分分析法,对原始振动光谱数据进行特征维数约简处理的方法,包括但不限于以下步骤:
步骤21:由原始光谱数据构成的原始光谱矩阵为Raw_X,矩阵的列数为样本数量m,矩阵的行数为光谱仪器的通道数量n;
步骤22:计算Raw_X的协方差矩阵C;
步骤23:求解协方差矩阵C的多个特征值与特征向量,并按照特征值从大到小的顺序排列,取前v个特征值,将这v个特征值对应的特征向量逐行排列得到变换矩阵W;
步骤24:计算得主成分分析法降维后的数据集PCA_X,计算公式为:PCA_X=W×Raw_X。
基于上述实施例的内容,作为可选的,在步骤S3中所述的基于T-SNE降维方法,所述一次降维数据集进行特征维数约简处理,获取目标降维数据集,包括但不限于以下步骤:
获取一次降维数据集中各样本点两两之间的第一相似度;设一次降维数据集中各样本点经T-SNE特征维数约简处理后的获取的数据集为中间降维数据集,计算中间降维数据集中各样本点两两之间的第二相似度;由于降维前后样本点前后的相似性要尽量保持,因而S(xi,xj)与S′(zi,zj)要尽量接近,故基于KL散度最小化方法,确定第一相似度和第二相似度的损失函数;基于梯度下降法,获取与损失函数最小化时所对应的中间降维数据集为目标降维数据集。
其中,获取一次降维数据集中各样本点两两之间的第一相似度,具体计算公式为:
Figure BDA0002572039250000091
Figure BDA0002572039250000092
Figure BDA0002572039250000093
其中,计算中间降维数据集中各样本点两两之间的第二相似度的公式可以为:
Figure BDA0002572039250000094
其中,确定第一相似度和第二相似度的损失函数可以为:
Figure BDA0002572039250000095
其中,xi为一次降维数据集中第i个样本点,xj为一次降维数据集中第j个样本点,σi为一次降维后的特征空间中第i个样本点所对应的高斯分布的方差,S(xi,xj)为样本点xi和样本点xj的第一相似度,S′(zi,zj)为中间降维数据集中样本点zi和样本点zj的第二相似度,pji表示样本点xi选取xj为相邻点的概率分布,pij表示样本点xj选取xi为相邻点的概率分布,xk为一次降维数据集对应的第k个低维样本点,zk为中间降维数据集对应的第k个低维样本点,C为损失函数,KL为散度函数,n为数据集样本点的数量,l为中间参数,Sij为T-SNE执行前第i个样本点和第j个样本点的相似度,即第一相似度S(xi,xj);S′ij为T-SNE执行后第i个样本点和第j个样本点的相似度,即第二相似度S′(zi,zj)。
其中,σi为高维空间中第i个样本点所对应的高斯分布的方差,这个高斯分布pj|i是以xi为中心,以σi为方差,表示的是第i个样本点xi选取xj为相邻点的概率分布;同理,pi|j则是以xj为中心,以σi为方差,表示的是第j个样本点xj选取xi为相邻点的概率分布。
进一步地,其中获取与损失函数最小化时所对应的中间降维数据集为所述目标降维数据集,具体包括以下步骤:
计算损失函数的梯度向量,其公式为:
Figure BDA0002572039250000101
将z的坐标沿梯度方向迭代移动,直至达到预设的迭代次数或者所述损失函数的阈值,终止迭代;样本点在迭代移动时的坐标函数为:
Figure BDA0002572039250000102
将迭代终止时的中间降维数据集设为所述目标降维数据集;
其中z(t)表示第t轮迭代时样本的坐标,z(t-1)表示第t-1轮迭代时样本的坐标,z(t-2)表示第t-2轮迭代时样本的坐标,η表示学习率,α(t)表示第t轮迭代时的推动力量参数,
Figure BDA0002572039250000103
为梯度向量
Figure BDA0002572039250000104
中对数据集中第i个样本点的偏微分。
本发明实施例提供的振动光谱维数约简方法,是利用梯度下降法最小化损失函数C,通过多次迭代并求解样本数据降维后的新坐标z,其具体地实施步骤为:
首先给定z的初始坐标;然后求解损失函数C的梯度向量,即各方向的偏导数;利用迭代的方式,按预设步长使Z的坐标沿梯度方向移动/改变,直至迭代指定的轮数T后,运算终止,从而将获取到的z(T),即为最终输出结果。
本发明实施例提供一种振动光谱维数约简系统,如图7所示,主要包括:数据获取单元1、第一降维单元2和第二降维单元3。其中,数据获取单元1主要用于获取待测样本的原始振动光谱数据;第一降维单元2主要用于基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;第二降维单元3主要用于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集。
具体地,在本发明实施例中,首先利用数据获取单元1收集特定数量的待测样本作为分析对象;根据实际检测需要,设置作为数据采集装置的光谱仪的各参数,以采集待测样本的光谱数据作为原始振动光谱数据,记为:Raw_X。
进一步地,利用第一降维单元2基于线性的主成分分析法,对构建的原始振动光谱数据Raw_X进行特征降维处理,得到降维处理后的数据集,简称一次降维数据集,记为:PCA_X。
最后,利用第二降维单元3基于非线性的T-SNE降维方法,对上一所获取的一次降维数据集PCA_X,再次进行非线性降维处理,获取到目标降维数据集。
作为可选地,本发明实施例提供的振动光谱维数约简系统,还可以包括可视化展示单元,用于在获取到目标降维数据集后,将该数据集在二维坐标系或三维坐标空间中进行可视化展示。
本发明实施例提供的振动光谱维数约简系统,将非线性降维方法与线性降维方法进行结合,应用于农产品振动光谱数据的维数约简,在降维过程中最大程度保留了原始数据在结构,使得降维后性质相近的样本数据距离更近,性质不同的样本数据距离更远,有效的提高了检测的精度。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行如下方法:获取待测样本的原始振动光谱数据;基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;基于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络系统等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取待测样本的原始振动光谱数据;基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;基于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络系统等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种振动光谱维数约简方法,其特征在于,包括:
获取待测样本的原始振动光谱数据;
基于主成分分析法,对所述原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;
基于T-SNE降维方法,对所述一次降维数据集进行特征维数约简处理,获取目标降维数据集。
2.根据权利要求1所述的振动光谱维数约简方法,其特征在于,在获取目标降维数据集之后,还包括:
将所述目标降维数据集中的所有样本点在二维坐标系或三维坐标空间中进行可视化展示。
3.根据权利要求1所述的振动光谱维数约简方法,其特征在于,所述基于主成分分析法,对所述原始振动光谱数据进行特征维数约简处理,包括:
根据所述原始振动光谱数据构建原始光谱矩阵,所述原始光谱矩阵的列数为待测样本的数量,所述原始光谱矩阵的行数为光谱仪器的通道数量;
获取所述原始光谱矩阵的协方差矩阵;
确定所述协方差矩阵的变换矩阵;
根据所述协方差矩阵的变换矩阵对所述原始光谱矩阵进行特征维数约简处理。
4.根据权利要求3所述的振动光谱维数约简方法,其特征在于,所述确定所述协方差矩阵的变换矩阵,包括:
获取所述协方差矩阵的所有特征值;
将所述特征值按照从大到小的顺序依次排列;
选取靠前的预设数量的特征值,作为目标特征值;
将与每个目标特征值对应的特征向量逐行排列,构建所述变换矩阵。
5.根据权利要求3所述的振动光谱维数约简方法,其特征在于,所述根据所述协方差矩阵的变换矩阵对所述原始光谱矩阵进行特征维数约简处理,具体为:
PCA_X=W×Raw_X
其中,PCA_X为一次降维数据集,W为变换矩阵,Raw_X为原始光谱矩阵。
6.根据权利要求1所述的振动光谱维数约简方法,其特征在于,所述基于T-SNE降维方法,对所述一次降维数据集进行特征维数约简处理,获取目标降维数据集,包括:
获取所述一次降维数据集中各样本点两两之间的第一相似度;
设所述一次降维数据集中各样本点经T-SNE特征维数约简处理后的获取的数据集为中间降维数据集,计算所述中间降维数据集中各样本点两两之间的第二相似度;
基于KL散度最小化方法,确定所述第一相似度和所述第二相似度的损失函数;
基于梯度下降法,获取与所述损失函数最小化时所对应的中间降维数据集为所述目标降维数据集。
7.根据权利要求6所述的振动光谱维数约简方法,其特征在于,
所述获取所述一次降维数据集中各样本点两两之间的第一相似度,具体为:
Figure FDA0002572039240000021
Figure FDA0002572039240000022
Figure FDA0002572039240000023
所述计算所述中间降维数据集中各样本点两两之间的第二相似度,具体为:
Figure FDA0002572039240000024
所述确定所述第一相似度和所述第二相似度的损失函数,具体为:
Figure FDA0002572039240000031
其中,xi为一次降维数据集中第i个样本点,xj为一次降维数据集中第j个样本点,σi为一次降维后的特征空间中第i个样本点所对应的高斯分布的方差,S(xi,xj)为样本点xi和样本点xj的第一相似度,S′(zi,zj)为中间降维数据集中样本点zi和样本点zj的第二相似度,pji表示样本点xi选取xj为相邻点的概率分布,pij表示样本点xj选取xi为相邻点的概率分布,xk为一次降维数据集对应的第k个低维样本点,zk为中间降维数据集对应的第k个低维样本点,C为损失函数,KL为散度函数,n为数据集样本点的数量,l为中间参数,Sij为T-SNE执行前第i个样本点和第j个样本点的相似度S(xi,xj);S′ij为T-SNE执行后第i个样本点和第j个样本点的相似度S′(zi,zj)。
8.根据权利要求7所述的振动光谱维数约简方法,其特征在于,所述基于梯度下降法,获取与所述损失函数最小化时所对应的中间降维数据集为所述目标降维数据集,包括:
计算所述损失函数的梯度向量,其公式为:
Figure FDA0002572039240000032
将z的坐标沿梯度方向迭代移动,直至达到预设的迭代次数或者所述损失函数的阈值,终止迭代;样本点在迭代移动时的坐标函数为:
Figure FDA0002572039240000033
将迭代终止时的中间降维数据集设为所述目标降维数据集;
其中z(t)表示第t轮迭代时样本的坐标,z(t-1)表示第t-1轮迭代时样本的坐标,z(t-2)表示第t-2轮迭代时样本的坐标,η表示学习率,α(t)表示第t轮迭代时的推动力量参数,
Figure FDA0002572039240000034
为梯度向量
Figure FDA0002572039240000035
中对数据集中第i个样本点的偏微分。
9.一种振动光谱维数约简系统,其特征在于,包括:数据获取单元、第一降维单元和第二降维单元;
所述数据获取单元,用于获取待测样本的原始振动光谱数据;
所述第一降维单元,用于基于主成分分析法,对所述原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;
所述第二降维单元,用于T-SNE降维方法,对所述一次降维数据集进行特征维数约简处理,获取目标降维数据集。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述振动光谱维数约简方法的步骤。
CN202010643124.7A 2020-07-06 2020-07-06 一种振动光谱维数约简方法及系统 Pending CN112001410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010643124.7A CN112001410A (zh) 2020-07-06 2020-07-06 一种振动光谱维数约简方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010643124.7A CN112001410A (zh) 2020-07-06 2020-07-06 一种振动光谱维数约简方法及系统

Publications (1)

Publication Number Publication Date
CN112001410A true CN112001410A (zh) 2020-11-27

Family

ID=73466880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010643124.7A Pending CN112001410A (zh) 2020-07-06 2020-07-06 一种振动光谱维数约简方法及系统

Country Status (1)

Country Link
CN (1) CN112001410A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793040A (zh) * 2021-09-17 2021-12-14 云南电网有限责任公司保山供电局 基于多随机变量最优约简模型的输电系统调度约简方法
CN115795225A (zh) * 2022-12-09 2023-03-14 四川威斯派克科技有限公司 一种近红外光谱校正集的筛选方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682089A (zh) * 2012-04-24 2012-09-19 浙江工业大学 一种利用鉴别随机邻域嵌入分析的数据降维方法
CA3018334A1 (en) * 2017-09-21 2019-03-21 Royal Bank Of Canada Device and method for assessing quality of visualizations of multidimensional data
CN109522859A (zh) * 2018-11-27 2019-03-26 南京林业大学 基于高光谱遥感影像多特征输入的城市不透水层提取方法
CN110462372A (zh) * 2017-05-25 2019-11-15 佛罗乔有限责任公司 大型多参数数据集的可视化、比较分析和自动差异检测

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682089A (zh) * 2012-04-24 2012-09-19 浙江工业大学 一种利用鉴别随机邻域嵌入分析的数据降维方法
CN110462372A (zh) * 2017-05-25 2019-11-15 佛罗乔有限责任公司 大型多参数数据集的可视化、比较分析和自动差异检测
CA3018334A1 (en) * 2017-09-21 2019-03-21 Royal Bank Of Canada Device and method for assessing quality of visualizations of multidimensional data
CN109522859A (zh) * 2018-11-27 2019-03-26 南京林业大学 基于高光谱遥感影像多特征输入的城市不透水层提取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BINU MELIT DEVASSY 等: "Dimensionality reduction and visualisation of hyperspectral ink data using t-SNE", 《FORENSIC SCIENCE INTERNATIONAL》, pages 1 - 9 *
LAURENS VAN DER MAATEN 等: "Visualizing Data using t-SNE", 《JOURNAL OF MACHINE LEARNING RESEARCH》, pages 2579 - 2605 *
于慧伶 等: "基于 PCA 与 t-SNE 特征降维的城市植被SVM 识别方法", 《实验室研究与探索》, vol. 38, no. 12, pages 135 - 140 *
杨桄 等: "基于选择性分段行-列二维主成分分析的高光谱图像异常检测", 《激光与光电子学进展》, pages 081002 - 1 *
王彬 等: "基于可见- 近红外光谱 及随机森林的鸡蛋产地溯源", 《食品工业科技》, vol. 38, no. 24, pages 243 - 247 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793040A (zh) * 2021-09-17 2021-12-14 云南电网有限责任公司保山供电局 基于多随机变量最优约简模型的输电系统调度约简方法
CN115795225A (zh) * 2022-12-09 2023-03-14 四川威斯派克科技有限公司 一种近红外光谱校正集的筛选方法及装置
CN115795225B (zh) * 2022-12-09 2024-01-23 四川威斯派克科技有限公司 一种近红外光谱校正集的筛选方法及装置

Similar Documents

Publication Publication Date Title
Kang et al. Dual-path network-based hyperspectral image classification
Falco et al. Spectral and spatial classification of hyperspectral images based on ICA and reduced morphological attribute profiles
WO2022041678A1 (zh) 张量协作图判别分析遥感图像特征提取方法
Merkurjev et al. An MBO scheme on graphs for classification and image processing
US7233700B2 (en) System and method for signal matching and characterization
US11769316B2 (en) Facial image recognition using pseudo-images
Rodriguez-Aragon et al. Singular spectrum analysis for image processing
CN109657567B (zh) 一种基于3d指纹图像的弱监督的特征分析方法及系统
CN112699899A (zh) 一种基于生成对抗网络的高光谱图像特征提取方法
CN112001410A (zh) 一种振动光谱维数约简方法及系统
Vasiliev et al. Synthesis and analysis of doubly stochastic models of images
CN113344103B (zh) 基于超图卷积神经网络的高光谱遥感图像地物分类方法
CN111242228B (zh) 高光谱图像分类方法、装置、设备及存储介质
Bryner et al. Affine-invariant, elastic shape analysis of planar contours
Atienza Martínez et al. Persistent entropy: a scale-invariant topological statistic for analyzing cell arrangements
CN116994117A (zh) 目标光谱分析模型的训练方法、装置、设备及存储介质
Essa et al. Volumetric directional pattern for spatial feature extraction in hyperspectral imagery
CN111062888B (zh) 一种基于多目标低秩稀疏及空谱全变分的高光谱影像去噪方法
Fursov et al. Thematic classification with support subspaces in hyperspectral images
Srivatsa et al. Application of least square denoising to improve admm based hyperspectral image classification
JP2023063768A (ja) グラフ構造を用いた画像記述子更新モデル及び方法、並びに画像マッチング装置及びプログラム
CN113591969A (zh) 面部相似度评测方法、装置、设备以及存储介质
CN113780095A (zh) 人脸识别模型的训练数据扩充方法、终端设备及介质
Su et al. A new spectral–spatial jointed hyperspectral image classification approach based on fractal dimension analysis
CN111126452A (zh) 一种基于主成分分析的地物光谱曲线扩展方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination