CN109781706A

CN109781706A - 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法

Info

Publication number: CN109781706A
Application number: CN201910111235.0A
Authority: CN
Inventors: 史如晋; 夏钒曾; 夏志平; 曾万聃; 曲晗; 李乾学; 杨瑞君
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2019-02-11
Filing date: 2019-02-11
Publication date: 2019-05-21

Abstract

本发明提供了一种基于PCA‑Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法。本发明针对拉曼峰相似的两种食源性致病菌——大肠杆菌0157:H7以及布鲁氏菌S2株识别精度不足的问题，提出一种基于PCA‑Stacking的拉曼集成分类算法，找到了鲁棒性更好的数学统计模型和计算方法。针对拉曼光谱中存在的毛刺，基线漂移问题，使用Savitzky‑Golay滤波器和非对称最小二乘实现光谱的预处理。通过网格搜索模型参数，证明了Stacking集成算法相比于K近邻、逻辑回归、支持向量机单一算法模型有更高的分类准确率。

Description

基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法

技术领域

本发明涉及一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法。

背景技术

目前，用于检测食源性致病菌的方法有：形态学鉴定、免疫学检测及聚合酶链式反应等。但是，这些方法操作步骤复杂，周期长，不能有效地起到监测、预防作用。

拉曼光谱是基于光和材料内化学键的相互作用而产生的，通过对食源性致病菌拉曼光谱信号的分析，可快速实现对致病菌的辨识。由于原始拉曼光谱存在许多噪声，并且不同物质可能在相同波长处有类似的峰形，这些因素降低了目前人工识峰的准确度，导致食源性致病菌的错误判别。

发明内容

本发明的目的在于提供一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法。

为解决上述问题，本发明提供一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法，包括：

对原始大肠杆菌O157：H7、布鲁氏菌S2株的拉曼光谱进行归一化处理，对所述拉曼光谱去噪并扣除荧光背景；

对去噪并扣除荧光背景后的拉曼光谱提取主成分；

对提取主成分后的数据集进行X∶Y比例的划分，其中，X+Y＝100，X％作为测试集，Y％作为训练集；

基于所述训练集训练多个基础层次模型，基于每个基础层次模型的输出训练各个对应的元模型，将各个元模型聚合为Stacking模型；

采所述测试集验证所述Stacking模型的准确率。

进一步的，在上述方法中，使用Savitzky-Golay滤波器和非对称最小二乘对所述拉曼光谱去噪。

进一步的，在上述方法中，对去噪并扣除荧光背景后的拉曼光谱提取主成分，包括：

对去噪并扣除荧光背景后的拉曼光谱进行PCA降维处理，计算特征贡献率，根据所述特征贡献率提取所述拉曼光谱的主成分。

进一步的，在上述方法中，根据所述特征贡献率提取所述拉曼光谱的主成分，包括：

根据所述特征贡献率得到对应的帕累托图，根据所述帕累托图提取所述拉曼光谱的主成分。

进一步的，在上述方法中，所述基础层次模型包括有K近邻、逻辑回归和支持向量机中的任两种以上单一分类器。

进一步的，在上述方法中，所述的X＝30，Y＝70。

与现有技术相比，本发明针对拉曼峰相似的两种食源性致病菌——大肠杆菌0157：H7以及布鲁氏菌S2株识别精度不足的问题，提出一种基于PCA-Stacking的拉曼集成分类算法，找到了鲁棒性更好的数学统计模型和计算方法。针对拉曼光谱中存在的毛刺，基线漂移问题，使用Savitzky-Golay滤波器和非对称最小二乘实现光谱的预处理。通过网格搜索模型参数，证明了Stacking集成算法相比于K近邻、逻辑回归、支持向量机单一算法模型有更高的分类准确率。

附图说明

图1是本发明一实施例的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法的流程图；

图2是本发明一实施例的归一化后的原始光谱数据图；

图3是本发明一实施例的经过Savitzky-Golay平滑后的光谱图；

图4是本发明一实施例的去除荧光后的光谱图；

图5是本发明一实施例的帕累托图；

图6是本发明一实施例的架构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法，包括：

步骤S1，对原始大肠杆菌O157：H7(Escherichia coliO157：H7)、布鲁氏菌S2株(Brucella)的拉曼光谱进行归一化处理，对所述拉曼光谱去噪并扣除荧光背景；

步骤S2，对去噪并扣除荧光背景后的拉曼光谱提取主成分；

步骤S3，对提取主成分后的数据集进行X∶Y比例的划分，其中，X+Y＝100，X％作为测试集，Y％作为训练集(train set)；

步骤S4，基于所述训练集训练多个基础层次模型(Level models)，基于每个基础层次模型的输出训练各个对应的元模型(Meta models)，将各个元模型聚合为Stacking模型；

在此，本步骤是Stacking集成学习多个模型的步骤；

步骤S5，采所述测试集验证所述Stacking模型的准确率。

在此，本发明针对拉曼峰相似的两种食源性致病菌——大肠杆菌O157：H7以及布鲁氏菌S2株，提出一种基于PCA-Stacking的分类算法，能缓解目前人工识峰出现的误判问题；与单一分类模型相比，PCA-Stacking模型鲁棒性更好。

本发明的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中，步骤S1，对所述拉曼光谱去噪，包括：

使用Savitzky-Golay滤波器和非对称最小二乘对所述拉曼光谱去噪。

本发明的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中，步骤S2，对去噪并扣除荧光背景后的拉曼光谱提取主成分，包括：

本发明的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中，根据所述特征贡献率提取所述拉曼光谱的主成分，包括：

本发明的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中，所述基础层次模型包括有K近邻、逻辑回归和支持向量机中的任两种以上单一分类器。

本发明的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中，X＝30，Y＝70。

如图1所示，本发明一具体的实施例中的方法可以包括：

S1：对原始光谱进行归一化处理，并使用Savitzky-Golay滤波器和非对称最小二乘对原始大肠杆菌0157：H7、布鲁氏菌S2株光谱去噪并扣除荧光背景。如图2所示，为归一化后的原始光谱数据，光谱图上存在许多噪声；如图3所示，为经过Sayitzky-Golay平滑后的光谱，毛刺现象几乎得以消除；如图4所示，为去除荧光后的光谱图。

S2：对降噪后的拉曼光谱进行PCA降维处理，计算特征贡献率，根据帕累托图提取主成分。

光谱在高维度下会出现数据样本稀疏、距离计算困难等问题。为缓解维数灾问题，使用主成分分析(PCA)实现对光谱特征的抽取，并画出它们的帕累托图(Pareto Chart)。

如图5所示，其中横坐标代表主成分个数，纵坐标代表主成分的贡献率。从图中我们可以发现，保留三个主成分后它们的贡献率达到95.41％，也就是说保留三个主成分几乎包含了所有的拉曼光谱信息。

S3：对提取主成分后的数据集进行3：7划分，其中30％作为测试集，70％作为训练集，用于后续的模型训练及评估。本发明中采用的单一分类器有K近邻、逻辑回归和支持向量机。

在K为2，以曼哈顿距离(Manhattan distance)作为度量标准时，K近邻模型最优分类准确率为91.85％；逻辑回归在性能上有一定的改善，它的分精确率达93.21％；在错误项惩罚参数C＝0.1，内核为线性核时，支持向量机的分类精确率为94.14％。

S4：Stacking集成学习多个模型。

Stacking算法可以描述为：通过元分类器(Meta-Classifier)聚合多个分类模型。基础层次模型(Level models)基于完整的训练集进行训练，元模型(Meta models)基于基础层次模型(Level models)的输出进行训练，其架构如图6所示。

本发明中，Stacking模型的基础层次模型(Level models)由K近邻和支持向量机组成，将逻辑回归作为元分类器(Meta-Classifier)。

S5：训练并测试Stacking模型分类准确率。

将预处理好的数据随机划分30％作为测试集，70％作为训练集，并作十折交叉验证，得到分类精确率达96.43％。

与表现性能最差的KNN模型相比，Stacking模型的分类准确度提高了4.58％。究其根本原因---Stacking算法是一种集成模型，它是从单一模型出发，反复学习，然后组合这些弱分类器的输出，构成一个强分类器，因此它具有更高的可靠性。

综上所述，本发明针对拉曼峰相似的两种食源性致病菌——大肠杆菌0157：H7以及布鲁氏菌S2株识别精度不足的问题，提出一种基于PCA-Stacking的拉曼集成分类算法，找到了鲁棒性更好的数学统计模型和计算方法。针对拉曼光谱中存在的毛刺，基线漂移问题，使用Savitzky-Golay滤波器和非对称最小二乘实现光谱的预处理。通过网格搜索模型参数，证明了Stacking集成算法相比于K近邻、逻辑回归、支持向量机单一算法模型有更高的分类准确率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法，其特征在于，包括：

对去噪并扣除荧光背景后的拉曼光谱提取主成分；

对提取主成分后的数据集进行X：Y比例的划分，其中，x+Y＝100，X％作为测试集，Y％作为训练集；

采所述测试集验证所述Stacking模型的准确率。

2.如权利要求1所述的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法，其特征在于，使用Savitzky-Golay滤波器和非对称最小二乘对所述拉曼光谱去噪。

3.如权利要求1所述的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法，其特征在于，对去噪并扣除荧光背景后的拉曼光谱提取主成分，包括：

4.如权利要求3所述的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法，其特征在于，根据所述特征贡献率提取所述拉曼光谱的主成分，包括：

5.如权利要求1所述的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法，其特征在于，所述基础层次模型包括有K近邻、逻辑回归和支持向量机中的任两种以上单一分类器。

6.如权利要求1所述的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法，其特征在于，所述的X＝30，Y＝70。