CN105279379A - 基于凸组合核函数主成分分析的太赫兹光谱特征提取方法 - Google Patents

基于凸组合核函数主成分分析的太赫兹光谱特征提取方法 Download PDF

Info

Publication number
CN105279379A
CN105279379A CN201510708560.7A CN201510708560A CN105279379A CN 105279379 A CN105279379 A CN 105279379A CN 201510708560 A CN201510708560 A CN 201510708560A CN 105279379 A CN105279379 A CN 105279379A
Authority
CN
China
Prior art keywords
matrix
sample
kernel function
convex combination
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510708560.7A
Other languages
English (en)
Other versions
CN105279379B (zh
Inventor
沈韬
钟毅伟
王瑞琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201510708560.7A priority Critical patent/CN105279379B/zh
Publication of CN105279379A publication Critical patent/CN105279379A/zh
Application granted granted Critical
Publication of CN105279379B publication Critical patent/CN105279379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开基于凸组合核函数主成分分析的太赫兹光谱特征提取方法,属光谱分析及物质种类检测技术领域。本发明所述方法首先获取时域观测信号,经过离散傅立叶变换得到的太赫兹频谱曲线,将噪声信息滤除,然后对频谱曲线进行三次样条差值,截取可比的相同频率范围内数据进行重采样,完成数据归一化处理;对预处理完成的样本进行凸组合核函数映射,对映射后的基函数矩阵进行降维,最终实现太赫兹光谱特征提取,并对降维后数据的簇内、簇间关系进行分析。本发明所述方法不要求光谱样本的数量和高分辨率,并可以充分降低干扰信号对特征提取的影响,在物质种类和数量未知的情况下,实现太赫兹频域光谱的特征提取和低维表示,具有明显的聚类效果。

Description

基于凸组合核函数主成分分析的太赫兹光谱特征提取方法
技术领域
本发明涉及基于凸组合核函数主成分分析的太赫兹光谱特征提取方法,属光谱分析及物质种类检测技术领域。
背景技术
在光谱物质检测领域,从19世纪末即开始有学者从事红外和拉曼光谱的研究工作,经过几十年发展历程,使得基于红外吸收和散射谱及其峰值特征的物质鉴别技术发展较为完备。然而,红外频段的常用光区,中红外频段,对应着分子中小基团的振动和转动跃迁,如三原子、二原子基团,且此类小基团在此频段的振动频率与大分子中其他的次级结构没有明显相关性。在振动过程中,红外吸收对应着偶极矩变化,拉曼散射对应着极化率变化,两者在信息上的互补性使得他们在有机功能团的研究方面成为最广泛使用的方法。
相对的,在更低频率区域的“远红外频段”,在红外与微波之间的频率,则被称为“太赫兹空隙”,此频段长时间未得到充分的研究和利用。随着超快激光技术的发展,太赫兹波发射源技术瓶颈得以突破,太赫兹波与物质相互作用的独特性质渐渐成为了近十年来的研究热点。在红外振动频率以下的非局域振动模型,如分子内振动、骨架震动、分子间弱相互作用等都对应于太赫兹频段。且由于太赫兹波的能量相较于X射线和红外光都低几个数量级,且对于非极性物质具有良好的穿透性,所以该技术在安全检测、生物医学、物质识别方面都有着重要的应用。
由于太赫兹时域光谱技术相对于红外光谱及X射线技术具有更高的信噪比(最高可达1010),并且太赫兹时域光谱经过FFT变换后,频域波形具有“指纹性”特征,所以特定物质的波形特征可作为物质识别的可靠依据。然而使用传统方法对频域光谱进行特征提取时,通常采用人工峰值标定和初级特征匹配算法,没有对光谱曲线上的各数据点进行有效性判断。人工判断时大多简单地利用吸收峰对光谱进行标注,而初级特征提取算法没有考虑不同光谱样本与算法的结合度。这些缺点都会带来特征区分度不明显、特征向量维数过低的问题,所以传统方法对光谱数据的特征提取存在不确定性,会大大提高物质光谱分类的误差。
发明内容
针对以上存在问题,提出了一种基于凸组合核函数主成分分析的太赫兹光谱特征提取方法;该方法不要求光谱样本的数量和高分辨率,并可以充分降低干扰信号对特征提取的影响,在物质种类和数量未知的情况下,实现太赫兹频域光谱的特征提取和低维表示,具有明显的聚类效果。
本发明基于凸组合核函数主成分分析的太赫兹光谱特征提取方法是这样实现的:首先搭建太赫兹时域光谱透射式探测平台,通过光电取样晶体和光电采样电路获得太赫兹时域波形;通过离散傅里叶变换将时域波形转换到频域,并利用Savitzky-Golay滤波器去除高频噪声,平滑原数据序列;对不同的数据样本进行等分辨率处理,统一进行三次样条差值并重采样;构造归一化的样本矩阵并设计凸组合核函数进行特征空间映射;利用主成分分析法对映射后样本降维,提取其中三个维度作为每个样本光谱的特征,在3维空间表示各个样本之间的关系,最终实现各物质所对应光谱的特征提取及分类。
所述基于凸组合核函数主成分分析的太赫兹光谱特征提取方法的,具体步骤如下:
(1)首先通过太赫兹时域光谱系统测得物质样本的时域光谱数据,检测的物质种类不少于两类,统一谱线纵坐标为透射率,横坐标为频率,获取数据序列,数据不少于两组,每个样本的时域光谱数据序列通过离散傅里叶变换,得到信号
其中,i表示第i个样本,m表示转换后频谱数据序列的维数;
(2)对每个样本的太赫兹频域光谱数据做Savitzky-Golay滤波,得到滤波后光谱
(3)将步骤(2)中得到的滤波数据进行三次样条插值,使每组光谱数据序列的维数m增加到5000以上;
(4)统一截取各组光谱数据中太赫兹吸收特征较为明显且可比的频段,并进行等分辨率重采样,使每组光谱数据序列的维数m达到500以上,至此得到统一分辨率、频段的多组太赫兹频谱数据;
(5)所有样本除去横坐标,将纵坐标处理为列向量并合并为一个矩阵S,m为样本维数,n为样本数,然后使用极大似然估计法对矩阵的本征维数a进行估计;
(6)利用凸组合核函数,其中称为凸组合系数,为这里采用的3种核函数,分别为:
线性核函数,
多项式核函数,
高斯核函数;
利用核差异评价方法,在归一化后的样本矩阵S上构造最优凸组合函数的非线性规划问题:
其中为最优凸组合核差异,为单一核函数核差异, 为样本所属物质类别的标签组成的向量;约束条件为:
其中,矩阵分别对应于核函数的核矩阵,核矩阵的内积表示为:
对此非线性规划问题求解,得到最优组合的,解出最优凸组合核函数CCK;
(7)通过凸核函数将归一化的光谱样本矩阵映射至特征空间,k为此特征空间的维数,n为样本个数,
(8)使用主成分分析法将每个样本的a个主要特征提取出来,并根据需要取其中三个维度数据于三维空间中表示出来。
优选的,本发明步骤(8)中所述主成分分析法,具体包括以下步骤:
①构造最优凸组合函数的非线性规划方程,其中为这里采用的3种核函数。对三个系数进行迭代寻优,迭代过程可选择粒子群算法或人工蜂群算法执行;
②当迭代结束,求得的近似全局最优值时,在样本集S上得到最优凸组合核矩阵B,同时也是样本矩阵经过最优核函数映射后得到的特征空间向量组成的矩阵,其中
③矩阵B特征中心化处理:每个元素分别减去其所在行、列的均值并加上矩阵均值;
④求解B矩阵的特征值和对应的特征向量;
⑤按计算得到的特征值大小,选出特征值最大的a个特征向量及其对应的特征值,其中a是步骤(5)中估计出的样本矩阵本征维数;
⑥利用以上特征值对角逆矩阵和特征向量矩阵做线性变换,得到核矩阵B、的a个嵌入主维度和数据拓扑结构,达到降维和特征提取目的。
本发明的有益效果是:
(1)本发明提出的特征提取算法相比传统的特征提取算法具有更高的特征区分度,且自动提取的特征有效性更高,不受噪声影响,在核函数确定后速度更快;
(2)本发明所述方法在无需得知源光谱样本个数和种类的情况下,能够提取每个样本最关键的a个主要特征;
(3)本发明所述方法不要求信号充分满足分辨率要求,可以自动插值并重采样,并实现在三维或2为空间中的点簇表示,便于聚类分析。
附图说明
图1为本发明中太赫兹时域光谱系统实验台及传感器位置图;
图2为本发明所述方法的流程图;
图3为本发明实施例1太赫兹时域光谱传感器拾取信号的频域变换波形图;
图4为本发明实施例1采用最大似然估计法提取样本本征维度后进行特征提取的结果;
图5为本发明实施例1采用测地最小生成树法提取2个本征维度后进行特征提取的结果。
具体实施方式
下面结合具体实施例对本发明作进一步详细说明,但本发明的保护范围并不限于所述内容。
实施例1
如图1所示,基于凸组合核函数主成分分析的太赫兹光谱特征提取方法,首先启动太赫兹小型时域光谱透射式探测平台(zomega公司的小型频域光谱探测平台),获取各类物质相同分辨率的频域吸收谱,或者以现有的太赫兹频谱数据为基础,分别获取氧化亚铜、硫化镉、咔唑、扑虱灵、联苯菊酯、蒽(一种炭氢化合物)、乙酰胆碱溴化物、ATP共8种物质的频谱吸收数据,每种样本120组数据,共960组光谱数据;利用Savitzky-Golay滤波算法去除高频噪声,平滑数据序列;对各频谱样本进行三次样条差值并重采样,构造归一化的样本矩阵并设计凸组合核函数进行特征空间映射;此处利用测地最小生成树算法估计出其中的本征维数为2维,利用主成分分析法对映射后样本降维,提取其中两个维度作为每个样本光谱的特征,在平面上表示各个样本之间的关系,最终实现各物质所对应光谱的特征提取及分类。具体的提取方法包括以下步骤:
A、对每个样本的太赫兹频域光谱数据做Savitzky-Golay滤波,滤波器阶数为3,窗口大小为11,得到滤波后光谱
B、将步骤B中得到的滤波数据进行三次样条插值,使每组光谱数据序列的维数m增加到5000。
C、统一截取各组光谱数据中太赫兹吸收特征较为明显且可比的频段,并进行等分辨率重采样,使每组光谱数据序列的维数m达到577维,至此得到统一分辨率、频段的多组太赫兹频谱数据;如图3所示,得到了8种样本的波形,图中为第一组样本,分别为:氧化亚铜、硫化镉、咔唑、扑虱灵、联苯菊酯、蒽(一种炭氢化合物)、乙酰胆碱溴化物、ATP,每种样本120组,共960组光谱数据。
D、所有样本除去横坐标,将纵坐标处理为列向量并合并为一个矩阵S,m为样本维数,n为样本数960,然后使用测地最小生成树法或者使用极大似然估计法对矩阵的本征维数进行估计,得到的结果为2维。
E、利用凸组合核函数,其中称为凸组合系数,为这里采用的2种核函数,分别为:
多项式核函数,
高斯核函数;
利用核差异评价方法,在样本集S,即归一化后的样本矩阵S上构造最优凸组合函数的非线性规划问题:
其中为最优凸组合核差异,为单一核函数核差异, 为样本所属物质类别的标签组成的向量。
约束条件为:
对此非线性规划问题求解,得到最优组合的,解出最优凸组合核函数CCK;
G、通过凸核函数将归一化的光谱样本矩阵映射至特征空间,k为此特征空间的维数,n为样本个数,此处
H、使用主成分分析法将每个样本的a个主要特征提取出来,其具体步骤如下:
H1、构造最优凸组合函数的非线性规划方程,对三个参数进行迭代寻优,迭代过程可选择粒子群算法或人工蜂群算法执行。
H2、迭代结束满足收敛条件时,在样本集S上得到最优凸组合核矩阵B,同时也是样本矩阵经过最优核函数映射后得到的特征空间向量组成的矩阵,其中
H3、矩阵B特征中心化处理。每个元素分别减去其所在行、列的均值并加上矩阵均值;
H4、求解B矩阵的特征值和对应的特征向量;
H5、按计算得到的特征值大小,选出特征值最大的a个特征向量及其对应的特征值,其中a是步骤E中估计出的样本矩阵本征维数;
H6、利用以上特征值对角逆矩阵和特征向量矩阵做线性变换,得到核矩阵B、的a个嵌入主维度和数据拓扑结构。
I、得到提取出的特征维度表征到3维或2维空间的结果如图4和图5所示。图4为使用最大似然估计法提取14个本征向量进行计算的结果,其中,大图为8类物质的降维特征中选取最重要的3个维度在欧式空间中的表征,小图为其中两个样本的点簇;图5为使用测地最小生成树法提取2个本征向量进行计算的结果,其中,大图为8类物质的降维特征中选取最重要的2个维度在平面上的表征,小图为其中两个样本的点簇;
至此,从各光谱样本中提取出的三个维度特征已经表征于三维空间,以便直观地进行各物质样本的太赫兹光谱簇内和簇间关系分析,可供后续的聚类分类研究。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (2)

1.基于凸组合核函数主成分分析的太赫兹光谱特征提取方法,其特征在于,具体包括以下步骤:
(1)首先通过太赫兹时域光谱系统测得物质样本的时域光谱数据,检测的物质种类不少于两类,统一谱线纵坐标为透射率,横坐标为频率,获取数据序列,数据不少于两组,每个样本的时域光谱数据序列通过离散傅里叶变换,得到信号
其中,i表示第i个样本,m表示转换后频谱数据序列的维数;
(2)对每个样本的太赫兹频域光谱数据做Savitzky-Golay滤波,得到滤波后光谱
(3)将步骤(2)中得到的滤波数据进行三次样条插值,使每组光谱数据序列的维数m增加到5000以上;
(4)统一截取各组光谱数据中太赫兹吸收特征较为明显且可比的频段,并进行等分辨率重采样,使每组光谱数据序列的维数m达到500以上,至此得到统一分辨率、频段的多组太赫兹频谱数据;
(5)所有样本除去横坐标,将纵坐标处理为列向量并合并为一个矩阵S,m为样本维数,n为样本数,然后使用极大似然估计法对矩阵的本征维数a进行估计;
(6)利用凸组合核函数,其中称为凸组合系数,为这里采用的3种核函数,分别为:
线性核函数,
多项式核函数,
高斯核函数;
利用核差异评价方法,在归一化后的样本矩阵S上构造最优凸组合函数的非线性规划问题:
其中为最优凸组合核差异,为单一核函数核差异, 为样本所属物质类别的标签组成的向量;约束条件为:
其中,矩阵分别对应于核函数的核矩阵,核矩阵的内积表示为:
对此非线性规划问题求解,得到最优组合的,解出最优凸组合核函数CCK;
(7)通过凸核函数将归一化的光谱样本矩阵映射至特征空间,k为此特征空间的维数,n为样本个数,
(8)使用主成分分析法将每个样本的a个主要特征提取出来,并根据需要取其中三个维度数据于三维空间中表示出来。
2.根据权利要求1所述的基于凸组合核函数主成分分析的太赫兹光谱特征提取方法,其特征在于,步骤(8)中所述主成分分析法,具体包括以下步骤:
①构造最优凸组合函数的非线性规划方程,其中为这里采用的3种核函数;对三个系数进行迭代寻优,迭代过程可选择粒子群算法或人工蜂群算法执行;
②当迭代结束,求得的近似全局最优值时,在样本集S上得到最优凸组合核矩阵B,同时也是样本矩阵经过最优核函数映射后得到的特征空间向量组成的矩阵,其中
③矩阵B特征中心化处理:每个元素分别减去其所在行、列的均值并加上矩阵均值;
④求解B矩阵的特征值和对应的特征向量;
⑤按计算得到的特征值大小,选出特征值最大的a个特征向量及其对应的特征值,其中a是步骤(5)中估计出的样本矩阵本征维数;
⑥利用以上特征值对角逆矩阵和特征向量矩阵做线性变换,得到核矩阵B、的a个嵌入主维度和数据拓扑结构,达到降维和特征提取目的。
CN201510708560.7A 2015-10-28 2015-10-28 基于凸组合核函数主成分分析的太赫兹光谱特征提取方法 Active CN105279379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510708560.7A CN105279379B (zh) 2015-10-28 2015-10-28 基于凸组合核函数主成分分析的太赫兹光谱特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510708560.7A CN105279379B (zh) 2015-10-28 2015-10-28 基于凸组合核函数主成分分析的太赫兹光谱特征提取方法

Publications (2)

Publication Number Publication Date
CN105279379A true CN105279379A (zh) 2016-01-27
CN105279379B CN105279379B (zh) 2018-05-25

Family

ID=55148382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510708560.7A Active CN105279379B (zh) 2015-10-28 2015-10-28 基于凸组合核函数主成分分析的太赫兹光谱特征提取方法

Country Status (1)

Country Link
CN (1) CN105279379B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250578A (zh) * 2016-06-05 2016-12-21 乌鲁木齐职业大学 煤矿瓦斯检测方法
CN107576631A (zh) * 2017-08-30 2018-01-12 浙江大学 基于太赫兹透射率光谱检测油菜叶片水分状态的方法
CN108279217A (zh) * 2018-04-28 2018-07-13 江苏建筑职业技术学院 一种基于太赫兹时域光谱的煤岩判别方法
CN108458989A (zh) * 2018-04-28 2018-08-28 江苏建筑职业技术学院 一种基于太赫兹多参数谱的煤岩识别方法
CN108680500A (zh) * 2018-03-30 2018-10-19 莆田学院 一种小型化的太赫兹时域光谱仪装置及分析方法
CN108827904A (zh) * 2018-06-19 2018-11-16 广东工业大学 基于太赫兹光谱的物质识别方法、装置、设备及存储介质
CN109325551A (zh) * 2018-11-21 2019-02-12 广东工业大学 结合径向基函数和核主成分分析的太赫兹光谱识别方法
CN109459611A (zh) * 2018-12-16 2019-03-12 华中科技大学 基于干涉仪的太赫兹短脉冲信号的抗干扰频谱测量方法
CN112378881A (zh) * 2020-10-21 2021-02-19 山东省科学院自动化研究所 一种基于太赫兹光谱的药物辨识方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李武,等: "基于主成分分析和支持向量机的太赫兹光谱冰片鉴别", 《光谱学与光谱分析》 *
王瑞琦,等: "基于凸组合核函数的化合物太赫兹透射光谱分类", 《光谱学与光谱分析》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250578A (zh) * 2016-06-05 2016-12-21 乌鲁木齐职业大学 煤矿瓦斯检测方法
CN107576631A (zh) * 2017-08-30 2018-01-12 浙江大学 基于太赫兹透射率光谱检测油菜叶片水分状态的方法
CN108680500A (zh) * 2018-03-30 2018-10-19 莆田学院 一种小型化的太赫兹时域光谱仪装置及分析方法
CN108279217A (zh) * 2018-04-28 2018-07-13 江苏建筑职业技术学院 一种基于太赫兹时域光谱的煤岩判别方法
CN108458989A (zh) * 2018-04-28 2018-08-28 江苏建筑职业技术学院 一种基于太赫兹多参数谱的煤岩识别方法
CN108458989B (zh) * 2018-04-28 2020-10-09 江苏建筑职业技术学院 一种基于太赫兹多参数谱的煤岩识别方法
CN108279217B (zh) * 2018-04-28 2020-12-22 江苏建筑职业技术学院 一种基于太赫兹时域光谱的煤岩判别方法
CN108827904A (zh) * 2018-06-19 2018-11-16 广东工业大学 基于太赫兹光谱的物质识别方法、装置、设备及存储介质
CN108827904B (zh) * 2018-06-19 2021-01-26 广东工业大学 基于太赫兹光谱的物质识别方法、装置、设备及存储介质
CN109325551A (zh) * 2018-11-21 2019-02-12 广东工业大学 结合径向基函数和核主成分分析的太赫兹光谱识别方法
CN109459611A (zh) * 2018-12-16 2019-03-12 华中科技大学 基于干涉仪的太赫兹短脉冲信号的抗干扰频谱测量方法
CN112378881A (zh) * 2020-10-21 2021-02-19 山东省科学院自动化研究所 一种基于太赫兹光谱的药物辨识方法

Also Published As

Publication number Publication date
CN105279379B (zh) 2018-05-25

Similar Documents

Publication Publication Date Title
CN105279379A (zh) 基于凸组合核函数主成分分析的太赫兹光谱特征提取方法
Vaiphasa Consideration of smoothing techniques for hyperspectral remote sensing
Zhao et al. Road surface state recognition based on SVM optimization and image segmentation processing
Kale et al. A research review on hyperspectral data processing and analysis algorithms
CN103134765A (zh) 一种基于太赫兹时域光谱的中药样品真伪初筛方法
CN107871132B (zh) 一种空间特征自适应寻优的高光谱图像分类方法
CN114998109A (zh) 基于双rgb图像融合的高光谱成像方法、系统及介质
CN109472287A (zh) 基于二维Gabor小波的三维荧光光谱特征提取方法
CN111523587B (zh) 一种基于机器学习的木本植物物种光谱识别方法
CN111398233A (zh) 一种红酒品质的激光光谱检测方法
Li et al. Multi-manufacturer drug identification based on near infrared spectroscopy and deep transfer learning
Diakite et al. Hyperspectral image classification using 3D 2D CNN
Lu et al. Fluorescence hyperspectral image technique coupled with HSI method to predict solanine content of potatoes
CN113159189A (zh) 基于双分支多注意力卷积神经网络的高光谱图像分类方法及系统
Quan et al. Tree species classification in a typical natural secondary forest using UAV-borne LiDAR and hyperspectral data
Upadhyay et al. Hyperspectral remote sensing of forests: technological advancements, opportunities and challenges
CN106842348A (zh) 油气微渗漏高光谱遥感识别方法
CN113128388B (zh) 一种基于时空谱特征的光学遥感图像变化检测方法
Li et al. The prediction model of nitrogen nutrition in cotton canopy leaves based on hyperspectral visible‐near infrared band feature fusion
Di Frischia et al. Enhanced data augmentation using gans for Raman spectra classification
CN113935367A (zh) 基于ResNet和LSTM融合的太赫兹时域光谱隐匿危险品分类方法
Liu et al. Incremental Support Vector Machine Combined with Ultraviolet‐Visible Spectroscopy for Rapid Discriminant Analysis of Red Wine
CN113640244B (zh) 一种基于可见近红外光谱的果树品种鉴别方法
Wan et al. Research of Recognition Method of Discrete Wavelet Feature Extraction and PNN Classification of Rats FT‐IR Pancreatic Cancer Data
Niu et al. Construction of a hyperspectral estimation model for total nitrogen content in Shajiang black soil

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant