CN110672582B - 一种基于改进主成分分析的拉曼特征谱峰提取方法 - Google Patents

一种基于改进主成分分析的拉曼特征谱峰提取方法 Download PDF

Info

Publication number
CN110672582B
CN110672582B CN201910949963.9A CN201910949963A CN110672582B CN 110672582 B CN110672582 B CN 110672582B CN 201910949963 A CN201910949963 A CN 201910949963A CN 110672582 B CN110672582 B CN 110672582B
Authority
CN
China
Prior art keywords
raman
principal component
scatter
component analysis
load
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910949963.9A
Other languages
English (en)
Other versions
CN110672582A (zh
Inventor
饶秀勤
张延宁
高迎旺
张小敏
王怡田
林洋洋
应义斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910949963.9A priority Critical patent/CN110672582B/zh
Publication of CN110672582A publication Critical patent/CN110672582A/zh
Priority to US17/765,846 priority patent/US20220390374A1/en
Priority to PCT/CN2020/095775 priority patent/WO2021068545A1/zh
Application granted granted Critical
Publication of CN110672582B publication Critical patent/CN110672582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/02Food
    • G01N33/12Meat; Fish
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2201/00Features of devices classified in G01N21/00
    • G01N2201/12Circuits of general importance; Signal processing
    • G01N2201/129Using chemometrical methods
    • G01N2201/1293Using chemometrical methods resolving multicomponent spectra

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Engineering & Computer Science (AREA)
  • Food Science & Technology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Medicinal Chemistry (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明公开了一种基于改进主成分分析的拉曼特征谱峰提取方法。通过共聚焦显微拉曼光谱仪器采集猪肉和牛肉样本表面的拉曼光谱数据;对拉曼光谱数据进行预处理操作,再进行主成分分析,之后建立主成分载荷散点图,然后分析提取主成分载荷散点图的散点特征,根据散点特征筛选出拉曼特征谱峰。本发明方法提取牛肉和猪肉的拉曼特征谱峰代入分类器进行分类,达到了较高的准确率,分类速度快。

Description

一种基于改进主成分分析的拉曼特征谱峰提取方法
技术领域
本发明涉及了一种生物组织的光谱特征提取方法,尤其是涉及一种基于改进主成分分析的拉曼特征谱峰提取方法。
背景技术
拉曼光谱技术是基于拉曼散射效应的一种光谱分析技术,具有光谱解释性强、信息丰富、前处理简单等优点,在材料、生物、食品安全等方面有着广泛地运用。拉曼光谱中每一个特定的官能团或者基团由于其振动结构的不同,会产生不同的特征谱峰。对于一个有着复杂化合物组成的物质,其拉曼光谱信号由多个谱峰组成。对光谱进行定量和定性分析时,准确地提取出样品的拉曼特征谱峰能够降低模型的复杂度,提升模型的泛化性能。
Reich G等人(Reich G.Recognizing chromatographic peaks with patternrecognition methods Part 1.Development of a k-nearest-neighbour technique[J].Analytica Chimica Acta,1987,201:153-170.)提出借助KNN方法来提取特征谱峰,采用滑动平均窗口依次将样品拉曼光谱信号与标准信号比较以此来识别谱峰。Zhang等(ZhangP,Li H,Zhou X,et al.Peak detection using peak tree approach for massspectrometry data[J].International Journal of Hybrid Intelligent Systems,2008,5(4):197-208.)采用了基于峰值树的特征峰检测方法,对定为稀疏光谱峰位置有着良好的效果。涂斌等(涂斌[1],陈志[1],彭博[1],et al.基于多源光谱特征融合技术的花生油掺伪检测[J].食品与发酵工业,2016,42(4):169-173.)采用了基于后向间隔偏最小二乘法的特征峰提取方法对掺伪花生油进行检测,一共提取出了416个特征波长。
组分复杂的肉样品含有较多种类的基团,且谱峰相互重叠,因此Reich G和Zhang等人提出方法在肉分类中往往难以识别出样品的特征谱峰。而诸如后向间隔偏最小二乘法筛选出的特征向量多过,提高了模型的复杂度。因此需要选取合适的拉曼特征谱峰提取方法,以实现模型鲁棒性和处理速度的提升。
发明内容
针对之前特征提取方法存在的鲁棒性不高或者特征数目过多、模型复杂的缺点,本发明提出了一种基于改进主成分分析的拉曼特征谱峰提取方法。
如图1所示,本发明解决其技术问题所采用的技术方案是:
1)通过共聚焦显微拉曼光谱仪器采集猪肉和牛肉样本表面的拉曼光谱数据;
2)对拉曼光谱数据进行预处理操作,再进行主成分分析,之后建立主成分载荷散点图,然后分析提取主成分载荷散点图的散点特征,根据散点特征筛选出拉曼特征谱峰。
所述的散点特征为散点的极径和极度。
所述的预处理操作包括依次进行的平滑和基线校正处理。
本发明的重点处理在于创建主成分载荷散点图,并根据散点特征提取拉曼特征谱峰。以下利用主成分载荷散点图对主成分分析的结果进行进一步优化,提取拉曼特征谱峰并进行分类。
所述步骤2)具体为:
2.1)对经过预处理后获得的n个样本、m条波段的拉曼光谱数据集B(B1,B2,...,Bn),即每一条光谱Bi均包含m个波段,采用随机取样方法从数据集B中提取出
Figure BDA0002225456000000021
的光谱组成训练集C(C1,C2,…,C2n/3),然后对训练集C进行主成分分析,提取前两个主成分PC1、PC2,表示为:
Figure BDA0002225456000000022
Figure BDA0002225456000000023
其中,βk为第k波段,α1k表示第一主成分下第k波段对应的载荷系数,α2k表示第二主成分下第k波段对应的载荷系数;
2.2)绘制极坐标形式的载荷分布图
以载荷系数α1k为横轴、以载荷系数α2k为纵轴建立二维坐标图,将两个主成分中的同一波段的拉曼位移点βk对应的载荷系数α1k和载荷系数α2k作为散点坐标(α1k、α2k),在二维坐标图上绘制,形成主成分载荷散点图即绘制出各拉曼位移点βk的载荷系数αjk的散点图,j=1or2;接着将散点由笛卡尔坐标(α1k、α2k)转换成极坐标(dk,θk),依据极坐标的角度将所有散点占据的波长范围划分为八个区域Di(i=1,2,...,8),分别是:
Figure BDA0002225456000000031
2.3)特征峰位置的确定
对于每一个区域Di,计算其中每一个散点(α1k、α2k)距离坐标中心的加权距离dik
Figure BDA0002225456000000032
其中,λ1、λ2分别表示第一主成分和第二主成分的权重,dik表示第i个区域Di的第k波段对应散点的加权距离;
计算每个区域内所有散点的加权距离dik的方差vi和均值ei,以最大的加权距离dik作为最大极径ri,然后进行以下判断:
对于每一个最大极径ri,若满足
Figure BDA0002225456000000033
则将最大极径ri所对应的拉曼位移点βk作为一个拉曼特征谱峰。
依据极坐标的角度将所有散点占据的波长范围划分为八个区域具体是将主成分载荷散点图以图的坐标中心为原点按照角度划分为八个扇形区域。
具体实施中,可进一步采用拉曼特征谱峰输入到k近邻值分类模型中训练的方法对肉样本进行分类,实现了肉样本的鉴别,可用于实现掺加有猪肉的牛肉样本的鉴别,也可用于识别到肉样本为牛肉样本还是猪肉样本。
本发明利用显微共聚焦拉曼光谱仪分别采集牛肉和猪肉样品表面的原始数据,并且可借助化学计量学方法对光谱数据进行去噪和基线校正的预处理。接着对矫正后的光谱进行主成分分析,创建了主成分载荷散点图,分析获得了散点图的分布特征,提取得到拉曼特征谱峰。
本发明具有的有益效果是:
针对猪肉和牛肉拉曼谱峰的特点,本发明改进了一种基于主成分分析的拉曼特征谱峰提取方法,提取的拉曼特征谱峰用于分类准确率高,分类速度快。可利用本发明方法提取牛肉和猪肉的拉曼特征谱峰代入分类器进行分类,达到了较高的准确率。
附图说明
图1是本发明的拉曼光谱数据处理流程图;
图2是本发明猪肉和牛肉的原始谱峰图;
图3是本发明的主成分载荷散点图
图4是本发明的基于极坐标的主成分载荷散点图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1所示,本发明的实施例及其实施过程如下:
在本例中,主要区分三种类型的样品。分别是等质量混合的掺假肉糜样品以及纯牛肉和纯猪肉的肉糜样品。肉来源均是同一批次宰杀的真空包装的新鲜猪、牛里脊肉(按标准屠宰加工并经卫生检疫部门检验合格,24h排酸后)。实验前从冷冻室中取出肉,放置在常温水中解冻后风干并去除样品中明显的脂肪和结缔组织。将猪肉和牛肉等质量混杂,放入绞肉机内搅拌两次,每次30s,得到掺假肉糜样品。再将纯牛肉和纯猪肉分别放入绞肉机内搅拌两次,每次30s,得到纯牛肉肉糜样品和纯猪肉肉糜样品。
下面是猪肉和牛肉拉曼光谱采集、特征谱峰提取以及基于此的模型建立的方法。
A)样品拉曼光谱采集。本例选用633nm为激发光源的拉曼光谱仪(RamanSpectrometer-LabRAM HR Evolution)为采集仪器。CCD相机冷却温度为-65℃,曝光时间为3s。线激光光源的有效功率为25%。三类样品数据采集完成后,导出为txt格式并传输给PC机。在本实施例中采集牛肉肉糜、猪肉肉糜和掺假肉糜样品光谱各30条,每条牛肉、猪肉和掺假肉糜样品的拉曼光谱分别记为Bi、Pi、Mi(i=1,2,…,30)。
B)拉曼光谱平滑和去噪。对每条光谱指定建立平滑数据的窗口大小m=21。对于窗口中心点,利用五次多项式对窗口内的数据点进行拟合,形成21个六元线性方程所构成的方程组。求该方程组的最小二乘解,得到拟合参数aj(j=0,1,…,5)。将拟合参数aj代入五次多项式,计算得到平滑后三类样品的光谱B′i、P′i、M′i
C)拉曼光谱基线校正。对每一条平滑后的光谱信号采用自适应迭代重加权惩罚最小二乘法进行基线校正。设定曲线粗糙度惩罚系数λ=100,得到基线校正后的光谱B″i、P″i、M″i
D)拉曼光谱特征谱峰范围确定。从B″i、P″i、M″i中各提取20条光谱组成训练集Ci1(i1=1,2,…,60)。对Ci1进行主成分分析,提取前2个主成分PC1、PC2
以载荷系数α1k为横轴、以载荷系数α2k为纵轴建立二维坐标图,将两个主成分中的同一波段βk对应的载荷系数α1k和载荷系数α2k组成散点坐标(α1k、α2k),在二维坐标图上绘制,形成主成分载荷散点图,如图3所示。
将散点由笛卡尔坐标(α1k、α2k)转换成极坐标(dk,θk),即将主成分载荷散点图以图的坐标中心为原点按照角度划分为八个扇形区域。结果如图4所示。
E)拉曼特征谱峰提取。
对于每一个区域Di,计算其中每一个散点(α1k、α2k)距离坐标中心的加权距离dik,再根据每个区域内所有散点的加权距离dik计算方差vi和均值ei,以最大的加权距离dik作为最大极径ri,然后判断:对于每一个最大极径ri,若满足
Figure BDA0002225456000000051
则将最大极径ri所对应的拉曼位移点βk作为一个拉曼特征谱峰。
本例中筛选的5个特征谱峰是1605cm-1、1646cm-1、1416cm-1、1708cm-1、和2952cm-1
F)基于拉曼光谱的猪肉牛肉分类模型的建立。采取10次10折交叉验证的方法划分训练集和测试集。
采取10次10折交叉验证的方法划分训练集和测试集,采用分层取样的方式使得每个互斥子集中各有3个牛肉和猪肉样本。
将上述步骤中已提取的五个拉曼特征谱峰对应的峰强并结合类别标签输入到分类器中进行训练。分类器采用k近邻分类器,分类器中最近邻实例数目k的取值范围是4~10,对于k近邻分类器的不同k值建立模型,取分离加权结果F1 score最大的模型作为最终的分类模型,用最终的分类模型对待测肉样本进行分类识别。
本实例中选取的模型中k=5,分类结果如表1所示。
表1分类结果
Figure BDA0002225456000000052
由上表可见,采用本方法所提取出的五个特征拉曼谱峰作为输入参数的分类模型可以准确地区分牛肉、猪肉以及掺假肉样品。说明该特征提取方法准确率高,且提取特征数目少,有效地简化了模型,加快了分类算法的速度。

Claims (4)

1.一种基于改进主成分分析的拉曼特征谱峰提取方法,其特征在于该方法的步骤如下:
1)通过共聚焦显微拉曼光谱仪器采集猪肉和牛肉样本表面的拉曼光谱数据;
2)对拉曼光谱数据进行预处理操作,再进行主成分分析,之后建立主成分载荷散点图,然后分析提取主成分载荷散点图的散点特征,根据散点特征筛选出拉曼特征谱峰;
所述步骤2)具体为:
2.1)对经过预处理后获得的n个样本、m条波段的拉曼光谱数据集B(B1,B2,…,Bn),即每一条光谱Bi均包含m个波段,采用随机取样方法从数据集B中提取出
Figure FDA0002582472180000011
的光谱组成训练集C(C1,C2,…,C2n/3),然后对训练集C进行主成分分析,提取前两个主成分PC1、PC2,表示为:
Figure FDA0002582472180000012
Figure FDA0002582472180000013
其中,βk为第k波段,α1k表示第一主成分下第k波段对应的载荷系数,α2k表示第二主成分下第k波段对应的载荷系数;
2.2)绘制极坐标形式的载荷分布图
以载荷系数α1k为横轴、以载荷系数α2k为纵轴建立二维坐标图,将两个主成分中的同一波段的拉曼位移点βk对应的载荷系数α1k和载荷系数α2k作为散点坐标(α1k、α2k),在二维坐标图上绘制,形成主成分载荷散点图;接着将散点由笛卡尔坐标(α1k、α2k)转换成极坐标(dk,θk),依据极坐标的角度将所有散点占据的波长范围划分为八个区域Di(i=1,2,…,8),分别是:
Figure FDA0002582472180000014
2.3)特征峰位置的确定
对于每一个区域Di,计算其中每一个散点(α1k、α2k)距离坐标中心的加权距离dik
Figure FDA0002582472180000021
其中,λ1、λ2分别表示第一主成分和第二主成分的权重,dik表示第i个区域Di的第k波段对应散点的加权距离;
然后再计算每个区域内所有散点的加权距离dik的方差vi和均值ei,以最大的加权距离dik作为最大极径ri,然后进行以下判断:对于每一个最大极径ri,若满足
Figure FDA0002582472180000022
则将最大极径ri所对应的拉曼位移点βk作为一个拉曼特征谱峰。
2.根据权利要求1所述的一种基于改进主成分分析的拉曼特征谱峰提取方法,其特征在于:所述的散点特征为散点的极径和极度。
3.根据权利要求1所述的一种基于改进主成分分析的拉曼特征谱峰提取方法,其特征在于:所述的预处理操作包括依次进行的平滑和基线校正处理。
4.根据权利要求1所述的一种基于改进主成分分析的拉曼特征谱峰提取方法,其特征在于:依据极坐标的角度将所有散点占据的波长范围划分为八个区域具体是将主成分载荷散点图以图的坐标中心为原点按照角度划分为八个扇形区域。
CN201910949963.9A 2019-10-08 2019-10-08 一种基于改进主成分分析的拉曼特征谱峰提取方法 Active CN110672582B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910949963.9A CN110672582B (zh) 2019-10-08 2019-10-08 一种基于改进主成分分析的拉曼特征谱峰提取方法
US17/765,846 US20220390374A1 (en) 2019-10-08 2020-06-12 Method for extracting raman characteristic peaks employing improved principal component analysis
PCT/CN2020/095775 WO2021068545A1 (zh) 2019-10-08 2020-06-12 一种基于改进主成分分析的拉曼特征谱峰提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910949963.9A CN110672582B (zh) 2019-10-08 2019-10-08 一种基于改进主成分分析的拉曼特征谱峰提取方法

Publications (2)

Publication Number Publication Date
CN110672582A CN110672582A (zh) 2020-01-10
CN110672582B true CN110672582B (zh) 2020-09-15

Family

ID=69080904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910949963.9A Active CN110672582B (zh) 2019-10-08 2019-10-08 一种基于改进主成分分析的拉曼特征谱峰提取方法

Country Status (3)

Country Link
US (1) US20220390374A1 (zh)
CN (1) CN110672582B (zh)
WO (1) WO2021068545A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110672582B (zh) * 2019-10-08 2020-09-15 浙江大学 一种基于改进主成分分析的拉曼特征谱峰提取方法
CN113655050B (zh) * 2021-08-17 2024-04-26 南京富岛信息工程有限公司 一种改进轻质油中痕量原油拉曼光谱检测限的方法
CN114113035B (zh) * 2021-11-18 2024-02-02 北京理工大学 转基因大豆油鉴别方法
CN113989578B (zh) * 2021-12-27 2022-04-26 季华实验室 拉曼光谱的峰位分析方法、系统、终端设备及介质
CN115711873B (zh) * 2022-11-09 2024-05-28 清华大学 一种利用sers文件卡片进行定量分析的方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006119566A1 (en) * 2005-05-13 2006-11-16 Bri Australia Limited Assessment of weather damage in cereal grains
CN103487558B (zh) * 2013-07-30 2016-10-12 中国标准化研究院 一种应用智能感官信号进行茶叶品质的模式识别分析过程中检测异常样本的方法
CN105424675A (zh) * 2015-11-05 2016-03-23 中国农业大学 基于脂质拉曼光谱的反刍动物源性饲料原料鉴别方法
EP3479102A1 (en) * 2016-07-04 2019-05-08 CellTool GmbH Device and method for the determination of transfection
CN107044967B (zh) * 2017-04-18 2021-08-03 江苏大学 一种马铃薯生全粉近红外光谱快速鉴别的方法
CN108896527A (zh) * 2018-06-08 2018-11-27 华中科技大学 一种拉曼光谱-主成分分析快速鉴别白酒真伪的方法
CN109060709A (zh) * 2018-07-03 2018-12-21 东北农业大学 一种基于红外光谱技术检测牛乳热处理程度的方法
CN110132938B (zh) * 2019-05-29 2021-08-31 南京财经大学 一种拉曼光谱法鉴别大米种类的特征数据提取方法
CN110672582B (zh) * 2019-10-08 2020-09-15 浙江大学 一种基于改进主成分分析的拉曼特征谱峰提取方法

Also Published As

Publication number Publication date
US20220390374A1 (en) 2022-12-08
CN110672582A (zh) 2020-01-10
WO2021068545A1 (zh) 2021-04-15

Similar Documents

Publication Publication Date Title
CN110672582B (zh) 一种基于改进主成分分析的拉曼特征谱峰提取方法
Velioglu et al. Identification of offal adulteration in beef by laser induced breakdown spectroscopy (LIBS)
CN110715917B (zh) 一种基于拉曼光谱的猪肉和牛肉分类方法
CN108169213A (zh) 一种激光诱导击穿光谱谱峰元素自动识别方法
CN116701845B (zh) 基于数据处理的水产品品质评价方法及系统
CN103745239A (zh) 一种基于卫星遥感技术的森林资源测量方法
JP2013036973A (ja) 検量線作成方法およびその装置、並びに目的成分検量装置
Zhang et al. Rapid identification of lamb freshness grades using visible and near-infrared spectroscopy (Vis-NIR)
CN110032988A (zh) 紫外拉曼光谱系统实时降噪增强方法
CN111832477A (zh) 一种新型冠状病毒的检测方法及系统
CN103528967A (zh) 基于高光谱图像的过熟蓝靛果果实识别方法
CN115115940A (zh) 一种蓝藻水华监测方法及该方法的监测预警系统
CN105223140A (zh) 同源物质的快速识别方法
CN106338488A (zh) 一种转基因豆奶粉的快速无损鉴别方法
CN106770152A (zh) 一种基于特征峰及算法参数选取的奶粉品牌快速鉴别方法
CN109164069B (zh) 一种果树叶面病害级别的鉴定方法
CN108169204B (zh) 一种基于数据库的拉曼光谱预处理方法
CN113049526B (zh) 一种基于太赫兹衰减全反射的玉米种子水分含量测定方法
CN113866122A (zh) 一种鸡品种快速鉴别方法及其应用
CN113324967A (zh) 一种快速鉴定dfd牛肉的方法
CN111595805A (zh) 一种可能性聚类的白菜农药残留定性分析方法
CN109211830A (zh) 一种主成分分析和多类判别联用鉴别易混毛皮的方法
CN110956605A (zh) 基于蛋白抗体试剂的宫颈癌细胞学检测算法
CN110118753B (zh) 一种基于散射高光谱光学特性的肉品脂肪含量检测方法
Jørgensen et al. Detecting gallbladders in chicken livers using spectral analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant