CN112001410A - 一种振动光谱维数约简方法及系统 - Google Patents
一种振动光谱维数约简方法及系统 Download PDFInfo
- Publication number
- CN112001410A CN112001410A CN202010643124.7A CN202010643124A CN112001410A CN 112001410 A CN112001410 A CN 112001410A CN 202010643124 A CN202010643124 A CN 202010643124A CN 112001410 A CN112001410 A CN 112001410A
- Authority
- CN
- China
- Prior art keywords
- dimension reduction
- dataset
- sample
- reduction
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明实施例提供一种振动光谱维数约简方法及系统,该方法包括获取待测样本的原始振动光谱数据;基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;基于T‑SNE降维方法,对一次降维数据集进行二次特征维数约简处理,获取目标降维数据集。本发明实施例提供的振动光谱维数约简方法及系统,将非线性降维方法与线性降维方法进行结合,应用于农产品振动光谱数据的维数约简,在降维过程中最大程度保留了原始数据内在结构,使得降维后性质相近的样本数据相互聚集,性质不同的样本数据彼此远离,有效提高了光谱数据的可视化分离效果,同时也为后续建立分类模型提高分类检测精度提供有力支撑。
Description
技术领域
本发明涉及数据识别技术领域,尤其涉及一种振动光谱维数约简方法及系统。
背景技术
由于检测物样品内部性质不同,其内部分子结构存在差异,使得在近红外、拉曼等振动光谱辐射下视为分光谱响应产生差异,因此光谱响应可作为样品指纹,以作为对检测样品内部性质的判定目标。光谱识别技术具有操作简单、快速、无损、前处理简单等优点,在农产品品质检测、防伪鉴别、农产品加工等农业领域应用广泛。由于获取的光谱数据通常维数在成百上千,无法直接观察高维特征空间中的目标物体特点,因此,采用维数约简方法,将原始数据从高维空间经过数学变换转换到低维空间,以方便提取关键信息、去掉冗余信息,使得样品的内在性质能够在低维空间中能够被直观观测。
在光谱分析领域最常见的维数约简方法为主成分分析法,主成分分析法是基于线性变换原理,将检测样本的原始光谱数据经过线性变换得到的投影作为新的样本光谱数表示。因而主成分分析法最关键的步骤是如何计算线性变换矩阵,已出版采取的是通过最大化变换后原始样本投影的方差,从而求得线性变换矩阵。
主成分分析法是基于线性变换,因而对于非线性的数据往往不能有效提取关键信息,从而使得降维后不能直观展示数据性质,不能达到可视化业务的精度要求。
发明内容
本发明实施例提供一种振动光谱维数约简方法及系统,用以解决现有技术中仅利用基于线性变换的主成分分析法进行高位光谱数据降维操作所存在的缺陷,有效的提高维数约简的精度,为实现了对农产品振动光谱数据维数约简与可视化展示提供基础。
第一方面,本发明实施例提供一种振动光谱维数约简方法,包括:获取待测样本的原始振动光谱数据;基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;基于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集。
作为可选地,在获取目标降维数据集之后,还可以包括:将目标降维数据集中的所有样本点在二维坐标系或三维坐标空间中进行可视化展示。
作为可选地,基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,包括:根据原始振动光谱数据构建原始光谱矩阵,原始光谱矩阵的列数为待测样本的数量,原始光谱矩阵的行数为光谱仪器的通道数量;获取原始光谱矩阵的协方差矩阵;确定协方差矩阵的变换矩阵;根据协方差矩阵的变换矩阵对原始光谱矩阵进行特征维数约简处理。
作为可选地,上述确定所述协方差矩阵的变换矩阵,主要包括:获取协方差矩阵的所有特征值;将特征值按照从大到小的顺序依次排列;选取靠前的预设数量的特征值,作为目标特征值;将与每个目标特征值对应的特征向量逐行排列,构建变换矩阵。
作为可选地,上述根据协方差矩阵的变换矩阵对原始光谱矩阵进行特征维数约简处理,具体可以为:
PCA_X=W×Raw_X
其中,PCA_X为一次降维数据集,W为变换矩阵,Raw_X为原始光谱矩阵。
作为可选地,上述基于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集,主要包括:获取一次降维数据集中各样本点两两之间的第一相似度;设一次降维数据集中各样本点经T-SNE特征维数约简处理后的获取的数据集为中间降维数据集,计算中间降维数据集中各样本点两两之间的第二相似度;基于KL散度最小化方法,确定第一相似度和第二相似度的损失函数;基于梯度下降法,获取与损失函数最小化时所对应的中间降维数据集为目标降维数据集。
作为可选地,获取一次降维数据集中各样本点两两之间的第一相似度,具体可以为:
上述计算中间降维数据集中各样本点两两之间的第二相似度,具体可以为:
上述确定第一相似度和所述第二相似度的损失函数,具体可以为:
其中,xi为一次降维数据集中第i个样本点,xj为一次降维数据集中第j个样本点,σi为一次降维后的特征空间中第i个样本点所对应的高斯分布的方差,S(xi,xj)为样本点xi和样本点xj的第一相似度,S′(zi,zj)为中间降维数据集中样本点zi和样本点zj的第二相似度,pj|i表示样本点xi选取xj为相邻点的概率分布,pij表示样本点xj选取xi为相邻点的概率分布,xk为一次降维数据集对应的第k个低维样本点,zk为中间降维数据集对应的第k个低维样本点,C为损失函数,KL为散度函数,n为数据集样本点的数量,l为中间参数,Sij为T-SNE执行前第i个样本点和第j个样本点的相似度S(xi,xj);S′ij为T-SNE执行后第i个样本点和第j个样本点的相似度S′(zi,zj)。
作为可选地,所述基于梯度下降法,获取与所述损失函数最小化时所对应的中间降维数据集为所述目标降维数据集,包括:
计算所述损失函数的梯度向量,其公式为:
将z的坐标沿梯度方向迭代移动,直至达到预设的迭代次数或者所述损失函数的阈值,终止迭代;样本点在迭代移动时的坐标函数为:
将迭代终止时的中间降维数据集设为所述目标降维数据集;
其中z(t)表示第t轮迭代时样本的坐标,z(t-1)表示第t-1轮迭代时样本的坐标,z(t-2)表示第t-2轮迭代时样本的坐标,η表示学习率,α(t)表示第t轮迭代时的推动力量参数,为梯度向量中对数据集中第i个样本点的偏微分。。
第二方面,本发明实施例提供一种振动光谱维数约简系统,包括:数据获取单元、第一降维单元和第二降维单元;数据获取单元主要用于获取待测样本的原始振动光谱数据;第一降维单元主要用于基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;第二降维单元主要用于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如第一方面任一所述的振动光谱维数约简方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面任一所述的振动光谱维数约简方法的步骤。
本发明实施例提供的振动光谱维数约简方法及系统,通过将非线性降维方法与线性降维方法进行结合,应用于农产品振动光谱数据的维数约简,在降维过程中最大程度保留了原始数据在结构,使得降维后性质相近的样本数据距离更近,性质不同的样本数据距离更远,有效的提高了检测的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种振动光谱维数约简方法的流程示意图;
图2为产自希腊的橄榄油样品的可见-近红外光谱数据示意图;
图3为产自意大利的橄榄油样品的可见-近红外光谱数据示意图;
图4为产自波多黎各的橄榄油样品的可见-近红外光谱数据示意图;
图5为产自西班牙的橄榄油样品的可见-近红外光谱数据示意图;
图6为本发明实施例提供的利用振动光谱维数约简方法进行可视化的效果示意图;
图7为本发明实施例提供的一种振动光谱维数约简系统的结构示意图;
图8为本发明振动光谱维数约简系统实施例结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种振动光谱维数约简方法的流程示意图,如图1所示,该方法主要包括但不限于以下步骤
S1:获取待测样本的原始振动光谱数据;
S2:基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;
S3:基于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集。
具体地,在本发明实施例中,首先收集特定数量的待测样本作为分析对象;根据实际检测需要,设置作为数据采集装置的光谱仪的各参数,以采集待测样本的光谱数据作为原始振动光谱数据,记为:Raw_X。
进一步地,利用主成分分析法对构建的原始振动光谱数据Raw_X进行特征降维处理,得到降维处理后的数据集,简称一次降维数据集,记为:PCA_X。
其中,变量之间是有一定的相关关系,当两个变量之间有一定相关关系时,可以解释为这两个变量所反映的信息具有一定的重叠。主成分分析法(Principal ComponentAnalysis,简称PCA)是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原多维坐标系变换成新的正交坐标系,使之指向样本点散布最开的多个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,
其中,由于PCA是一种线性降维算法,不能解释特征之间的复杂多项式关系。如果特征与特征之间的关系是非线性的话,用PCA可能会导致欠拟合的情形发生。而T-SNE降维方法则是基于在邻域图上随机游走的概率分布(非线性),可以在数据中找到其结构关系。T-SNE通过在高维空间中采用的高斯核心函数定义数据的局部和全局结构之间的软边界,可以同时保留数据的局部和全局结构。局部方法寻求将流型上的附近点映射到低维表示中的附近点;全局方法则试图保留所有尺度的几何形状,即将附近的点映射到附近的点,将远处的点映射到远处的点。
需要说明的是,T-SNE降维方法为数据的降维与可视化提供了基础,通过将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示,嵌入空间的相似度则由“学生t分布”表示。其中,主成分分析法和T-SNE降维方法均可以借助Python来实现。
进一步地,可以通过原始空间和嵌入空间的联合概率的Kullback-Leibler(KL)散度来评估可视化效果的好坏,即通过KL散度函数作为loss函数,然后通过梯度下降最小化loss函数,最终获得收敛结果。
本发明实施例提供的振动光谱维数约简方法,通过将主成分分析法和T-SNE降维方法进行结合,应用于农产品振动光谱数据的维数约简,在降维过程中最大程度保留了原始数据在结构,使得降维后性质相近的样本数据距离更近,性质不同的样本数据距离更远,有效的提高了检测的精度,并且为振动光谱数据的低维度可视化提供了基础。
基于上述实施例的内容,作为一种可选实施例,在获取目标降维数据集之后,还包括:将目标降维数据集中的所有样本点在二维坐标系或三维坐标空间中进行可视化展示。
图2、图3、图4、图5分别为对产自希腊、意大利、波多黎各以及西班牙等四个国家的橄榄油样品,进行光谱分析后获取的可见-近红外光谱数据示意图,图中的横纵标为波数(Wavenumbers)、纵坐标为吸光度单位(Absorbance Units);图6为利用本发明实施例提供的振动光谱维数约简方法,对图2-图5中所示的可见-近红外光谱数据进行降维后,再通过二维空间进行可视化展示的效果示意图,,图中的横、坐标表示维度1(Dimension 1)和维度2(Dimension 2)。
通过上述实施例中的实验结果,可以获知:采用本发明实施例提供的振动光谱维数约简方法后,可以在二维空间直观区分不同产地的橄榄油样本,本发明实施例能够实现简单、直观有效的将降维处理所获取的目标降维数据集中的所有样本点在二维坐标系或三维坐标空间中进行可视化展示,达到了应用的要求。
基于上述实施例的内容,作为一种可选实施例,在步骤S2中所述的基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,主要包括但不限于以下步骤:
根据原始振动光谱数据构建原始光谱矩阵,原始光谱矩阵的列数为待测样本的数量,原始光谱矩阵的行数为光谱仪器的通道数量;获取原始光谱矩阵的协方差矩阵;确定协方差矩阵的变换矩阵;根据协方差矩阵的变换矩阵对原始光谱矩阵进行特征维数约简处理。
作为可选地,其中确定协方差矩阵的变换矩阵,可以包括以下步骤:获取所述协方差矩阵的所有特征值;将特征值按照从大到小的顺序依次排列;选取靠前的预设数量的特征值,作为目标特征值;将与每个目标特征值对应的特征向量逐行排列,构建变换矩阵。
作为可选地,其中根据协方差矩阵的变换矩阵对原始光谱矩阵进行特征维数约简处理,其计算公式可以是:
PCA_X=W×Raw_X
其中,PCA_X为一次降维数据集,W为变换矩阵,Raw_X为原始光谱矩阵。
具体地,本发明实施例提供一种基于主成分分析法,对原始振动光谱数据进行特征维数约简处理的方法,包括但不限于以下步骤:
步骤21:由原始光谱数据构成的原始光谱矩阵为Raw_X,矩阵的列数为样本数量m,矩阵的行数为光谱仪器的通道数量n;
步骤22:计算Raw_X的协方差矩阵C;
步骤23:求解协方差矩阵C的多个特征值与特征向量,并按照特征值从大到小的顺序排列,取前v个特征值,将这v个特征值对应的特征向量逐行排列得到变换矩阵W;
步骤24:计算得主成分分析法降维后的数据集PCA_X,计算公式为:PCA_X=W×Raw_X。
基于上述实施例的内容,作为可选的,在步骤S3中所述的基于T-SNE降维方法,所述一次降维数据集进行特征维数约简处理,获取目标降维数据集,包括但不限于以下步骤:
获取一次降维数据集中各样本点两两之间的第一相似度;设一次降维数据集中各样本点经T-SNE特征维数约简处理后的获取的数据集为中间降维数据集,计算中间降维数据集中各样本点两两之间的第二相似度;由于降维前后样本点前后的相似性要尽量保持,因而S(xi,xj)与S′(zi,zj)要尽量接近,故基于KL散度最小化方法,确定第一相似度和第二相似度的损失函数;基于梯度下降法,获取与损失函数最小化时所对应的中间降维数据集为目标降维数据集。
其中,获取一次降维数据集中各样本点两两之间的第一相似度,具体计算公式为:
其中,计算中间降维数据集中各样本点两两之间的第二相似度的公式可以为:
其中,确定第一相似度和第二相似度的损失函数可以为:
其中,xi为一次降维数据集中第i个样本点,xj为一次降维数据集中第j个样本点,σi为一次降维后的特征空间中第i个样本点所对应的高斯分布的方差,S(xi,xj)为样本点xi和样本点xj的第一相似度,S′(zi,zj)为中间降维数据集中样本点zi和样本点zj的第二相似度,pji表示样本点xi选取xj为相邻点的概率分布,pij表示样本点xj选取xi为相邻点的概率分布,xk为一次降维数据集对应的第k个低维样本点,zk为中间降维数据集对应的第k个低维样本点,C为损失函数,KL为散度函数,n为数据集样本点的数量,l为中间参数,Sij为T-SNE执行前第i个样本点和第j个样本点的相似度,即第一相似度S(xi,xj);S′ij为T-SNE执行后第i个样本点和第j个样本点的相似度,即第二相似度S′(zi,zj)。
其中,σi为高维空间中第i个样本点所对应的高斯分布的方差,这个高斯分布pj|i是以xi为中心,以σi为方差,表示的是第i个样本点xi选取xj为相邻点的概率分布;同理,pi|j则是以xj为中心,以σi为方差,表示的是第j个样本点xj选取xi为相邻点的概率分布。
进一步地,其中获取与损失函数最小化时所对应的中间降维数据集为所述目标降维数据集,具体包括以下步骤:
计算损失函数的梯度向量,其公式为:
将z的坐标沿梯度方向迭代移动,直至达到预设的迭代次数或者所述损失函数的阈值,终止迭代;样本点在迭代移动时的坐标函数为:
将迭代终止时的中间降维数据集设为所述目标降维数据集;
其中z(t)表示第t轮迭代时样本的坐标,z(t-1)表示第t-1轮迭代时样本的坐标,z(t-2)表示第t-2轮迭代时样本的坐标,η表示学习率,α(t)表示第t轮迭代时的推动力量参数,为梯度向量中对数据集中第i个样本点的偏微分。
本发明实施例提供的振动光谱维数约简方法,是利用梯度下降法最小化损失函数C,通过多次迭代并求解样本数据降维后的新坐标z,其具体地实施步骤为:
首先给定z的初始坐标;然后求解损失函数C的梯度向量,即各方向的偏导数;利用迭代的方式,按预设步长使Z的坐标沿梯度方向移动/改变,直至迭代指定的轮数T后,运算终止,从而将获取到的z(T),即为最终输出结果。
本发明实施例提供一种振动光谱维数约简系统,如图7所示,主要包括:数据获取单元1、第一降维单元2和第二降维单元3。其中,数据获取单元1主要用于获取待测样本的原始振动光谱数据;第一降维单元2主要用于基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;第二降维单元3主要用于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集。
具体地,在本发明实施例中,首先利用数据获取单元1收集特定数量的待测样本作为分析对象;根据实际检测需要,设置作为数据采集装置的光谱仪的各参数,以采集待测样本的光谱数据作为原始振动光谱数据,记为:Raw_X。
进一步地,利用第一降维单元2基于线性的主成分分析法,对构建的原始振动光谱数据Raw_X进行特征降维处理,得到降维处理后的数据集,简称一次降维数据集,记为:PCA_X。
最后,利用第二降维单元3基于非线性的T-SNE降维方法,对上一所获取的一次降维数据集PCA_X,再次进行非线性降维处理,获取到目标降维数据集。
作为可选地,本发明实施例提供的振动光谱维数约简系统,还可以包括可视化展示单元,用于在获取到目标降维数据集后,将该数据集在二维坐标系或三维坐标空间中进行可视化展示。
本发明实施例提供的振动光谱维数约简系统,将非线性降维方法与线性降维方法进行结合,应用于农产品振动光谱数据的维数约简,在降维过程中最大程度保留了原始数据在结构,使得降维后性质相近的样本数据距离更近,性质不同的样本数据距离更远,有效的提高了检测的精度。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行如下方法:获取待测样本的原始振动光谱数据;基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;基于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络系统等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取待测样本的原始振动光谱数据;基于主成分分析法,对原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;基于T-SNE降维方法,对一次降维数据集进行特征维数约简处理,获取目标降维数据集
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络系统等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种振动光谱维数约简方法,其特征在于,包括:
获取待测样本的原始振动光谱数据;
基于主成分分析法,对所述原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;
基于T-SNE降维方法,对所述一次降维数据集进行特征维数约简处理,获取目标降维数据集。
2.根据权利要求1所述的振动光谱维数约简方法,其特征在于,在获取目标降维数据集之后,还包括:
将所述目标降维数据集中的所有样本点在二维坐标系或三维坐标空间中进行可视化展示。
3.根据权利要求1所述的振动光谱维数约简方法,其特征在于,所述基于主成分分析法,对所述原始振动光谱数据进行特征维数约简处理,包括:
根据所述原始振动光谱数据构建原始光谱矩阵,所述原始光谱矩阵的列数为待测样本的数量,所述原始光谱矩阵的行数为光谱仪器的通道数量;
获取所述原始光谱矩阵的协方差矩阵;
确定所述协方差矩阵的变换矩阵;
根据所述协方差矩阵的变换矩阵对所述原始光谱矩阵进行特征维数约简处理。
4.根据权利要求3所述的振动光谱维数约简方法,其特征在于,所述确定所述协方差矩阵的变换矩阵,包括:
获取所述协方差矩阵的所有特征值;
将所述特征值按照从大到小的顺序依次排列;
选取靠前的预设数量的特征值,作为目标特征值;
将与每个目标特征值对应的特征向量逐行排列,构建所述变换矩阵。
5.根据权利要求3所述的振动光谱维数约简方法,其特征在于,所述根据所述协方差矩阵的变换矩阵对所述原始光谱矩阵进行特征维数约简处理,具体为:
PCA_X=W×Raw_X
其中,PCA_X为一次降维数据集,W为变换矩阵,Raw_X为原始光谱矩阵。
6.根据权利要求1所述的振动光谱维数约简方法,其特征在于,所述基于T-SNE降维方法,对所述一次降维数据集进行特征维数约简处理,获取目标降维数据集,包括:
获取所述一次降维数据集中各样本点两两之间的第一相似度;
设所述一次降维数据集中各样本点经T-SNE特征维数约简处理后的获取的数据集为中间降维数据集,计算所述中间降维数据集中各样本点两两之间的第二相似度;
基于KL散度最小化方法,确定所述第一相似度和所述第二相似度的损失函数;
基于梯度下降法,获取与所述损失函数最小化时所对应的中间降维数据集为所述目标降维数据集。
7.根据权利要求6所述的振动光谱维数约简方法,其特征在于,
所述获取所述一次降维数据集中各样本点两两之间的第一相似度,具体为:
所述计算所述中间降维数据集中各样本点两两之间的第二相似度,具体为:
所述确定所述第一相似度和所述第二相似度的损失函数,具体为:
其中,xi为一次降维数据集中第i个样本点,xj为一次降维数据集中第j个样本点,σi为一次降维后的特征空间中第i个样本点所对应的高斯分布的方差,S(xi,xj)为样本点xi和样本点xj的第一相似度,S′(zi,zj)为中间降维数据集中样本点zi和样本点zj的第二相似度,pji表示样本点xi选取xj为相邻点的概率分布,pij表示样本点xj选取xi为相邻点的概率分布,xk为一次降维数据集对应的第k个低维样本点,zk为中间降维数据集对应的第k个低维样本点,C为损失函数,KL为散度函数,n为数据集样本点的数量,l为中间参数,Sij为T-SNE执行前第i个样本点和第j个样本点的相似度S(xi,xj);S′ij为T-SNE执行后第i个样本点和第j个样本点的相似度S′(zi,zj)。
9.一种振动光谱维数约简系统,其特征在于,包括:数据获取单元、第一降维单元和第二降维单元;
所述数据获取单元,用于获取待测样本的原始振动光谱数据;
所述第一降维单元,用于基于主成分分析法,对所述原始振动光谱数据进行特征维数约简处理,获取一次降维数据集;
所述第二降维单元,用于T-SNE降维方法,对所述一次降维数据集进行特征维数约简处理,获取目标降维数据集。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述振动光谱维数约简方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010643124.7A CN112001410A (zh) | 2020-07-06 | 2020-07-06 | 一种振动光谱维数约简方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010643124.7A CN112001410A (zh) | 2020-07-06 | 2020-07-06 | 一种振动光谱维数约简方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112001410A true CN112001410A (zh) | 2020-11-27 |
Family
ID=73466880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010643124.7A Pending CN112001410A (zh) | 2020-07-06 | 2020-07-06 | 一种振动光谱维数约简方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001410A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793040A (zh) * | 2021-09-17 | 2021-12-14 | 云南电网有限责任公司保山供电局 | 基于多随机变量最优约简模型的输电系统调度约简方法 |
CN115795225A (zh) * | 2022-12-09 | 2023-03-14 | 四川威斯派克科技有限公司 | 一种近红外光谱校正集的筛选方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682089A (zh) * | 2012-04-24 | 2012-09-19 | 浙江工业大学 | 一种利用鉴别随机邻域嵌入分析的数据降维方法 |
CA3018334A1 (en) * | 2017-09-21 | 2019-03-21 | Royal Bank Of Canada | Device and method for assessing quality of visualizations of multidimensional data |
CN109522859A (zh) * | 2018-11-27 | 2019-03-26 | 南京林业大学 | 基于高光谱遥感影像多特征输入的城市不透水层提取方法 |
CN110462372A (zh) * | 2017-05-25 | 2019-11-15 | 佛罗乔有限责任公司 | 大型多参数数据集的可视化、比较分析和自动差异检测 |
-
2020
- 2020-07-06 CN CN202010643124.7A patent/CN112001410A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682089A (zh) * | 2012-04-24 | 2012-09-19 | 浙江工业大学 | 一种利用鉴别随机邻域嵌入分析的数据降维方法 |
CN110462372A (zh) * | 2017-05-25 | 2019-11-15 | 佛罗乔有限责任公司 | 大型多参数数据集的可视化、比较分析和自动差异检测 |
CA3018334A1 (en) * | 2017-09-21 | 2019-03-21 | Royal Bank Of Canada | Device and method for assessing quality of visualizations of multidimensional data |
CN109522859A (zh) * | 2018-11-27 | 2019-03-26 | 南京林业大学 | 基于高光谱遥感影像多特征输入的城市不透水层提取方法 |
Non-Patent Citations (5)
Title |
---|
BINU MELIT DEVASSY 等: "Dimensionality reduction and visualisation of hyperspectral ink data using t-SNE", 《FORENSIC SCIENCE INTERNATIONAL》, pages 1 - 9 * |
LAURENS VAN DER MAATEN 等: "Visualizing Data using t-SNE", 《JOURNAL OF MACHINE LEARNING RESEARCH》, pages 2579 - 2605 * |
于慧伶 等: "基于 PCA 与 t-SNE 特征降维的城市植被SVM 识别方法", 《实验室研究与探索》, vol. 38, no. 12, pages 135 - 140 * |
杨桄 等: "基于选择性分段行-列二维主成分分析的高光谱图像异常检测", 《激光与光电子学进展》, pages 081002 - 1 * |
王彬 等: "基于可见- 近红外光谱 及随机森林的鸡蛋产地溯源", 《食品工业科技》, vol. 38, no. 24, pages 243 - 247 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793040A (zh) * | 2021-09-17 | 2021-12-14 | 云南电网有限责任公司保山供电局 | 基于多随机变量最优约简模型的输电系统调度约简方法 |
CN115795225A (zh) * | 2022-12-09 | 2023-03-14 | 四川威斯派克科技有限公司 | 一种近红外光谱校正集的筛选方法及装置 |
CN115795225B (zh) * | 2022-12-09 | 2024-01-23 | 四川威斯派克科技有限公司 | 一种近红外光谱校正集的筛选方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kang et al. | Dual-path network-based hyperspectral image classification | |
Falco et al. | Spectral and spatial classification of hyperspectral images based on ICA and reduced morphological attribute profiles | |
WO2022041678A1 (zh) | 张量协作图判别分析遥感图像特征提取方法 | |
Merkurjev et al. | An MBO scheme on graphs for classification and image processing | |
US7233700B2 (en) | System and method for signal matching and characterization | |
US11769316B2 (en) | Facial image recognition using pseudo-images | |
Rodriguez-Aragon et al. | Singular spectrum analysis for image processing | |
CN109657567B (zh) | 一种基于3d指纹图像的弱监督的特征分析方法及系统 | |
CN112699899A (zh) | 一种基于生成对抗网络的高光谱图像特征提取方法 | |
CN112001410A (zh) | 一种振动光谱维数约简方法及系统 | |
Vasiliev et al. | Synthesis and analysis of doubly stochastic models of images | |
CN113344103B (zh) | 基于超图卷积神经网络的高光谱遥感图像地物分类方法 | |
CN111242228B (zh) | 高光谱图像分类方法、装置、设备及存储介质 | |
Bryner et al. | Affine-invariant, elastic shape analysis of planar contours | |
Atienza Martínez et al. | Persistent entropy: a scale-invariant topological statistic for analyzing cell arrangements | |
CN116994117A (zh) | 目标光谱分析模型的训练方法、装置、设备及存储介质 | |
Essa et al. | Volumetric directional pattern for spatial feature extraction in hyperspectral imagery | |
CN111062888B (zh) | 一种基于多目标低秩稀疏及空谱全变分的高光谱影像去噪方法 | |
Fursov et al. | Thematic classification with support subspaces in hyperspectral images | |
Srivatsa et al. | Application of least square denoising to improve admm based hyperspectral image classification | |
JP2023063768A (ja) | グラフ構造を用いた画像記述子更新モデル及び方法、並びに画像マッチング装置及びプログラム | |
CN113591969A (zh) | 面部相似度评测方法、装置、设备以及存储介质 | |
CN113780095A (zh) | 人脸识别模型的训练数据扩充方法、终端设备及介质 | |
Su et al. | A new spectral–spatial jointed hyperspectral image classification approach based on fractal dimension analysis | |
CN111126452A (zh) | 一种基于主成分分析的地物光谱曲线扩展方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |