CN109781706A - 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法 - Google Patents

基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法 Download PDF

Info

Publication number
CN109781706A
CN109781706A CN201910111235.0A CN201910111235A CN109781706A CN 109781706 A CN109781706 A CN 109781706A CN 201910111235 A CN201910111235 A CN 201910111235A CN 109781706 A CN109781706 A CN 109781706A
Authority
CN
China
Prior art keywords
raman spectrum
stacking
pca
borne pathogens
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910111235.0A
Other languages
English (en)
Inventor
史如晋
夏钒曾
夏志平
曾万聃
曲晗
李乾学
杨瑞君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technology
Original Assignee
Shanghai Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technology filed Critical Shanghai Institute of Technology
Priority to CN201910111235.0A priority Critical patent/CN109781706A/zh
Publication of CN109781706A publication Critical patent/CN109781706A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供了一种基于PCA‑Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法。本发明针对拉曼峰相似的两种食源性致病菌——大肠杆菌0157:H7以及布鲁氏菌S2株识别精度不足的问题,提出一种基于PCA‑Stacking的拉曼集成分类算法,找到了鲁棒性更好的数学统计模型和计算方法。针对拉曼光谱中存在的毛刺,基线漂移问题,使用Savitzky‑Golay滤波器和非对称最小二乘实现光谱的预处理。通过网格搜索模型参数,证明了Stacking集成算法相比于K近邻、逻辑回归、支持向量机单一算法模型有更高的分类准确率。

Description

基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的 训练方法
技术领域
本发明涉及一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法。
背景技术
目前,用于检测食源性致病菌的方法有:形态学鉴定、免疫学检测及聚合酶链式反应等。但是,这些方法操作步骤复杂,周期长,不能有效地起到监测、预防作用。
拉曼光谱是基于光和材料内化学键的相互作用而产生的,通过对食源性致病菌拉曼光谱信号的分析,可快速实现对致病菌的辨识。由于原始拉曼光谱存在许多噪声,并且不同物质可能在相同波长处有类似的峰形,这些因素降低了目前人工识峰的准确度,导致食源性致病菌的错误判别。
发明内容
本发明的目的在于提供一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法。
为解决上述问题,本发明提供一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,包括:
对原始大肠杆菌O157:H7、布鲁氏菌S2株的拉曼光谱进行归一化处理,对所述拉曼光谱去噪并扣除荧光背景;
对去噪并扣除荧光背景后的拉曼光谱提取主成分;
对提取主成分后的数据集进行X∶Y比例的划分,其中,X+Y=100,X%作为测试集,Y%作为训练集;
基于所述训练集训练多个基础层次模型,基于每个基础层次模型的输出训练各个对应的元模型,将各个元模型聚合为Stacking模型;
采所述测试集验证所述Stacking模型的准确率。
进一步的,在上述方法中,使用Savitzky-Golay滤波器和非对称最小二乘对所述拉曼光谱去噪。
进一步的,在上述方法中,对去噪并扣除荧光背景后的拉曼光谱提取主成分,包括:
对去噪并扣除荧光背景后的拉曼光谱进行PCA降维处理,计算特征贡献率,根据所述特征贡献率提取所述拉曼光谱的主成分。
进一步的,在上述方法中,根据所述特征贡献率提取所述拉曼光谱的主成分,包括:
根据所述特征贡献率得到对应的帕累托图,根据所述帕累托图提取所述拉曼光谱的主成分。
进一步的,在上述方法中,所述基础层次模型包括有K近邻、逻辑回归和支持向量机中的任两种以上单一分类器。
进一步的,在上述方法中,所述的X=30,Y=70。
与现有技术相比,本发明针对拉曼峰相似的两种食源性致病菌——大肠杆菌0157:H7以及布鲁氏菌S2株识别精度不足的问题,提出一种基于PCA-Stacking的拉曼集成分类算法,找到了鲁棒性更好的数学统计模型和计算方法。针对拉曼光谱中存在的毛刺,基线漂移问题,使用Savitzky-Golay滤波器和非对称最小二乘实现光谱的预处理。通过网格搜索模型参数,证明了Stacking集成算法相比于K近邻、逻辑回归、支持向量机单一算法模型有更高的分类准确率。
附图说明
图1是本发明一实施例的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法的流程图;
图2是本发明一实施例的归一化后的原始光谱数据图;
图3是本发明一实施例的经过Savitzky-Golay平滑后的光谱图;
图4是本发明一实施例的去除荧光后的光谱图;
图5是本发明一实施例的帕累托图;
图6是本发明一实施例的架构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,包括:
步骤S1,对原始大肠杆菌O157:H7(Escherichia coliO157:H7)、布鲁氏菌S2株(Brucella)的拉曼光谱进行归一化处理,对所述拉曼光谱去噪并扣除荧光背景;
步骤S2,对去噪并扣除荧光背景后的拉曼光谱提取主成分;
步骤S3,对提取主成分后的数据集进行X∶Y比例的划分,其中,X+Y=100,X%作为测试集,Y%作为训练集(train set);
步骤S4,基于所述训练集训练多个基础层次模型(Level models),基于每个基础层次模型的输出训练各个对应的元模型(Meta models),将各个元模型聚合为Stacking模型;
在此,本步骤是Stacking集成学习多个模型的步骤;
步骤S5,采所述测试集验证所述Stacking模型的准确率。
在此,本发明针对拉曼峰相似的两种食源性致病菌——大肠杆菌O157:H7以及布鲁氏菌S2株,提出一种基于PCA-Stacking的分类算法,能缓解目前人工识峰出现的误判问题;与单一分类模型相比,PCA-Stacking模型鲁棒性更好。
本发明的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中,步骤S1,对所述拉曼光谱去噪,包括:
使用Savitzky-Golay滤波器和非对称最小二乘对所述拉曼光谱去噪。
本发明的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中,步骤S2,对去噪并扣除荧光背景后的拉曼光谱提取主成分,包括:
对去噪并扣除荧光背景后的拉曼光谱进行PCA降维处理,计算特征贡献率,根据所述特征贡献率提取所述拉曼光谱的主成分。
本发明的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中,根据所述特征贡献率提取所述拉曼光谱的主成分,包括:
根据所述特征贡献率得到对应的帕累托图,根据所述帕累托图提取所述拉曼光谱的主成分。
本发明的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中,所述基础层次模型包括有K近邻、逻辑回归和支持向量机中的任两种以上单一分类器。
本发明的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中,X=30,Y=70。
如图1所示,本发明一具体的实施例中的方法可以包括:
S1:对原始光谱进行归一化处理,并使用Savitzky-Golay滤波器和非对称最小二乘对原始大肠杆菌0157:H7、布鲁氏菌S2株光谱去噪并扣除荧光背景。如图2所示,为归一化后的原始光谱数据,光谱图上存在许多噪声;如图3所示,为经过Sayitzky-Golay平滑后的光谱,毛刺现象几乎得以消除;如图4所示,为去除荧光后的光谱图。
S2:对降噪后的拉曼光谱进行PCA降维处理,计算特征贡献率,根据帕累托图提取主成分。
光谱在高维度下会出现数据样本稀疏、距离计算困难等问题。为缓解维数灾问题,使用主成分分析(PCA)实现对光谱特征的抽取,并画出它们的帕累托图(Pareto Chart)。
如图5所示,其中横坐标代表主成分个数,纵坐标代表主成分的贡献率。从图中我们可以发现,保留三个主成分后它们的贡献率达到95.41%,也就是说保留三个主成分几乎包含了所有的拉曼光谱信息。
S3:对提取主成分后的数据集进行3:7划分,其中30%作为测试集,70%作为训练集,用于后续的模型训练及评估。本发明中采用的单一分类器有K近邻、逻辑回归和支持向量机。
在K为2,以曼哈顿距离(Manhattan distance)作为度量标准时,K近邻模型最优分类准确率为91.85%;逻辑回归在性能上有一定的改善,它的分精确率达93.21%;在错误项惩罚参数C=0.1,内核为线性核时,支持向量机的分类精确率为94.14%。
S4:Stacking集成学习多个模型。
Stacking算法可以描述为:通过元分类器(Meta-Classifier)聚合多个分类模型。基础层次模型(Level models)基于完整的训练集进行训练,元模型(Meta models)基于基础层次模型(Level models)的输出进行训练,其架构如图6所示。
本发明中,Stacking模型的基础层次模型(Level models)由K近邻和支持向量机组成,将逻辑回归作为元分类器(Meta-Classifier)。
S5:训练并测试Stacking模型分类准确率。
将预处理好的数据随机划分30%作为测试集,70%作为训练集,并作十折交叉验证,得到分类精确率达96.43%。
与表现性能最差的KNN模型相比,Stacking模型的分类准确度提高了4.58%。究其根本原因---Stacking算法是一种集成模型,它是从单一模型出发,反复学习,然后组合这些弱分类器的输出,构成一个强分类器,因此它具有更高的可靠性。
综上所述,本发明针对拉曼峰相似的两种食源性致病菌——大肠杆菌0157:H7以及布鲁氏菌S2株识别精度不足的问题,提出一种基于PCA-Stacking的拉曼集成分类算法,找到了鲁棒性更好的数学统计模型和计算方法。针对拉曼光谱中存在的毛刺,基线漂移问题,使用Savitzky-Golay滤波器和非对称最小二乘实现光谱的预处理。通过网格搜索模型参数,证明了Stacking集成算法相比于K近邻、逻辑回归、支持向量机单一算法模型有更高的分类准确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (6)

1.一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,其特征在于,包括:
对原始大肠杆菌O157:H7、布鲁氏菌S2株的拉曼光谱进行归一化处理,对所述拉曼光谱去噪并扣除荧光背景;
对去噪并扣除荧光背景后的拉曼光谱提取主成分;
对提取主成分后的数据集进行X:Y比例的划分,其中,x+Y=100,X%作为测试集,Y%作为训练集;
基于所述训练集训练多个基础层次模型,基于每个基础层次模型的输出训练各个对应的元模型,将各个元模型聚合为Stacking模型;
采所述测试集验证所述Stacking模型的准确率。
2.如权利要求1所述的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,其特征在于,使用Savitzky-Golay滤波器和非对称最小二乘对所述拉曼光谱去噪。
3.如权利要求1所述的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,其特征在于,对去噪并扣除荧光背景后的拉曼光谱提取主成分,包括:
对去噪并扣除荧光背景后的拉曼光谱进行PCA降维处理,计算特征贡献率,根据所述特征贡献率提取所述拉曼光谱的主成分。
4.如权利要求3所述的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,其特征在于,根据所述特征贡献率提取所述拉曼光谱的主成分,包括:
根据所述特征贡献率得到对应的帕累托图,根据所述帕累托图提取所述拉曼光谱的主成分。
5.如权利要求1所述的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,其特征在于,所述基础层次模型包括有K近邻、逻辑回归和支持向量机中的任两种以上单一分类器。
6.如权利要求1所述的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,其特征在于,所述的X=30,Y=70。
CN201910111235.0A 2019-02-11 2019-02-11 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法 Pending CN109781706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910111235.0A CN109781706A (zh) 2019-02-11 2019-02-11 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910111235.0A CN109781706A (zh) 2019-02-11 2019-02-11 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法

Publications (1)

Publication Number Publication Date
CN109781706A true CN109781706A (zh) 2019-05-21

Family

ID=66504207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910111235.0A Pending CN109781706A (zh) 2019-02-11 2019-02-11 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法

Country Status (1)

Country Link
CN (1) CN109781706A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427974A (zh) * 2019-07-09 2019-11-08 华中科技大学 一种基于广义支持向量机的液压部件健康状态检测方法
CN110715917A (zh) * 2019-10-08 2020-01-21 浙江大学 一种基于拉曼光谱的猪肉和牛肉分类方法
CN110763660A (zh) * 2019-10-22 2020-02-07 华南理工大学 基于集成学习的libs定量分析方法
CN111259929A (zh) * 2020-01-08 2020-06-09 上海应用技术大学 基于随机森林的食源性致病菌的分类模型训练方法
CN111274874A (zh) * 2020-01-08 2020-06-12 上海应用技术大学 基于adaboost的食源性致病菌拉曼光谱分类模型训练方法
CN113654957A (zh) * 2021-07-28 2021-11-16 中国科学院合肥物质科学研究院 一种基于基线扣除的背景干扰消除方法
CN113702349A (zh) * 2021-07-12 2021-11-26 四川大学 一种基于拉曼光谱的涎腺肿瘤的诊断模型构建方法
CN114638291A (zh) * 2022-03-08 2022-06-17 上海应用技术大学 一种基于多层前馈神经网络算法的食源性致病菌分类方法
CN114663722A (zh) * 2022-03-08 2022-06-24 上海应用技术大学 一种基于LightGBM算法的食源性致病菌分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1892593A (zh) * 2005-06-21 2007-01-10 阿尔卡特公司 与对象建模形式体系兼容的数据处理方法
CN108088834A (zh) * 2017-09-13 2018-05-29 新疆大学 基于优化反向传播神经网络的包虫病血清拉曼光谱诊断仪

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1892593A (zh) * 2005-06-21 2007-01-10 阿尔卡特公司 与对象建模形式体系兼容的数据处理方法
CN108088834A (zh) * 2017-09-13 2018-05-29 新疆大学 基于优化反向传播神经网络的包虫病血清拉曼光谱诊断仪

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LITTLEMICHELLE: ""【机器学习】集成学习stacking"", 《CSDN HTTPS://BLOG.CSDN.NET/WEIXIN_31866177/ARTICLE/DETAILS/86746408》 *
史如晋 等: ""基于PCA-Stacking模型的食源性致病菌拉曼光谱识别"", 《试验技术专业知识服务系统,HTTP://TEST.CKCEST.CN/ARTICLES/DETAILS/137413》 *
郭科 等: "《多元统计方法及其应用》", 30 September 2003, 电子科技大学出版社 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427974A (zh) * 2019-07-09 2019-11-08 华中科技大学 一种基于广义支持向量机的液压部件健康状态检测方法
CN110715917A (zh) * 2019-10-08 2020-01-21 浙江大学 一种基于拉曼光谱的猪肉和牛肉分类方法
CN110763660A (zh) * 2019-10-22 2020-02-07 华南理工大学 基于集成学习的libs定量分析方法
CN110763660B (zh) * 2019-10-22 2021-07-30 中国科学院广州地球化学研究所 基于集成学习的libs定量分析方法
CN111259929A (zh) * 2020-01-08 2020-06-09 上海应用技术大学 基于随机森林的食源性致病菌的分类模型训练方法
CN111274874A (zh) * 2020-01-08 2020-06-12 上海应用技术大学 基于adaboost的食源性致病菌拉曼光谱分类模型训练方法
CN113702349A (zh) * 2021-07-12 2021-11-26 四川大学 一种基于拉曼光谱的涎腺肿瘤的诊断模型构建方法
CN113654957A (zh) * 2021-07-28 2021-11-16 中国科学院合肥物质科学研究院 一种基于基线扣除的背景干扰消除方法
CN114638291A (zh) * 2022-03-08 2022-06-17 上海应用技术大学 一种基于多层前馈神经网络算法的食源性致病菌分类方法
CN114663722A (zh) * 2022-03-08 2022-06-24 上海应用技术大学 一种基于LightGBM算法的食源性致病菌分类方法

Similar Documents

Publication Publication Date Title
CN109781706A (zh) 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法
Han et al. Deep learning models for electrocardiograms are susceptible to adversarial attack
Singh et al. COVIDScreen: explainable deep learning framework for differential diagnosis of COVID-19 using chest X-rays
Wilf et al. Computer vision cracks the leaf code
Silva et al. Evaluation of features for leaf discrimination
Murugan et al. E-DiCoNet: Extreme learning machine based classifier for diagnosis of COVID-19 using deep convolutional network
Raghavendra et al. Contlensnet: Robust iris contact lens detection using deep convolutional neural networks
CN108254351B (zh) 用于物品查验的拉曼光谱检测方法
CN108616491A (zh) 一种恶意用户的识别方法和系统
CN105989330A (zh) 一种图片检测方法及设备
CN107818298A (zh) 用于机器学习物质识别算法的通用拉曼光谱特征提取方法
WO2017088537A1 (zh) 一种元件分类方法及装置
CN110222087B (zh) 特征提取方法、装置及计算机可读存储介质
EP3798924A1 (en) System and method for classifying manufactured products
CN106709318A (zh) 一种用户设备唯一性的识别方法、装置和计算设备
CN110516593A (zh) 一种情绪预测装置、情绪预测方法及显示装置
CN106708729B (zh) 代码缺陷的预测方法及装置
JP2019121376A (ja) 機械学習タスクを容易にするための最適なマザーウェーブレットを得るためのシステムおよび方法
Wodecki et al. Separation of multiple local-damage-related components from vibration data using Nonnegative Matrix Factorization and multichannel data fusion
AU2015363041B2 (en) Batch authentication of materials for automated anti counterfeiting
CN108021941A (zh) 药物肝毒性预测方法及装置
CN107729844A (zh) 人脸属性识别方法及装置
Zarembo et al. CNN based analysis of the Luria’s alternating series test for Parkinson’s disease diagnostics
CN105488061B (zh) 一种验证数据有效性的方法及装置
CN116109977A (zh) 基于生产环境的食品卫生检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521

RJ01 Rejection of invention patent application after publication