CN111274874A - 基于adaboost的食源性致病菌拉曼光谱分类模型训练方法 - Google Patents

基于adaboost的食源性致病菌拉曼光谱分类模型训练方法 Download PDF

Info

Publication number
CN111274874A
CN111274874A CN202010020498.3A CN202010020498A CN111274874A CN 111274874 A CN111274874 A CN 111274874A CN 202010020498 A CN202010020498 A CN 202010020498A CN 111274874 A CN111274874 A CN 111274874A
Authority
CN
China
Prior art keywords
food
raman spectrum
pathogenic bacteria
adaboost
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010020498.3A
Other languages
English (en)
Inventor
曾万聃
黄杰伦
夏志平
王其
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technology
Original Assignee
Shanghai Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technology filed Critical Shanghai Institute of Technology
Priority to CN202010020498.3A priority Critical patent/CN111274874A/zh
Publication of CN111274874A publication Critical patent/CN111274874A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明提供了一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,本发明针对大肠杆菌以及布鲁氏菌,提出一种基于adaboost集成算法的拉曼光谱分类法方法。对于两种不同病菌的拉曼光谱先进行数据预处理,包括去毛刺,降噪(Savitzky‑Golay滤波器),然后采样成数值型数据,之后对数据采用PCA降维,之后用基于元分类器为决策树的adaboost算法调用网格搜索模型找到最合适的参数,经验证,集成算法adaboost比单一类算法例如KNN、SVM等有更高的分类准确率。

Description

基于adaboost的食源性致病菌拉曼光谱分类模型训练方法
技术领域
本发明涉及一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法。
背景技术
目前,用于食源性致病菌检测的方法主要有:传统的生物学方法,显色培养基方法以及聚合酶链式反应等。但这些方法往往操作周期长,过程复杂,时效性较差。
发明内容
本发明的目的在于提供一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法。
为解决上述问题,本发明提供一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,包括:
对食源性致病菌拉曼光谱数据流进行平滑降噪,同时保持平滑降噪后的食源性致病菌拉曼光谱数据流中信号的形状和宽度不变;
对平滑降噪后的食源性致病菌拉曼光谱数据流进行采样,归一化处理,然后进行PCA降维,并计算食源性致病菌拉曼光谱数据流中各特征相关系数,保留食源性致病菌拉曼光谱数据流的主要特征,以得到PCA降维后的食源性致病菌拉曼光谱数据流;
对PCA降维后的食源性致病菌拉曼光谱数据流等比划分为三份数据,分三次划分不同的训练集和测试集,其中,每次按照2∶1的比例划分训练集和测试集;
三次中每次用其中的两份的训练集训练基于adaboost算法的分类模型,剩余的一份测试集作为所述分类模型的最终检测,循环三次分别得到每次的分类模型的准确率,若三次的准确率的平均值大于预设阈值,则调整所述分类模型的参数后重新执行本步骤;若三次的准确率的平均值大于预设阈值,则所述分类模型训练完成。
进一步的,在上述方法中,对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:
采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪。
进一步的,在上述方法中,采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:
Savitzky-Golay滤波器里面基于局域多项式最小二乘法拟合的滤波方法,对食源性致病菌拉曼光谱数据流进行平滑降噪。
进一步的,在上述方法中,所述adaboost算法为基于元分类器为决策树的adaboost算法。
进一步的,在上述方法中,所述元分类器的个数为200,学习率为0.05。
进一步的,在上述方法中,调整所述分类模型的参数后重新执行本步骤,包括:
通过调用网格搜索模型,以调整所述分类模型的参数后重新执行本步骤。
与现有技术相比,本发明具有如下有益效果:
本发明利用机器学习方法,在一定程度上提升了识别两种食源性病菌拉曼光谱的准确率以及时效性,大大减轻了人工负担。
附图说明
图1是本发明一实施例的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法的流程图;
图2是本发明一实施例的adaboost算法的数学原理图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1和2所示,本发明提供一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,包括:
步骤S1,对食源性致病菌拉曼光谱数据流进行平滑降噪,同时保持平滑降噪后的食源性致病菌拉曼光谱数据流中信号的形状和宽度不变;
步骤S2,对平滑降噪后的食源性致病菌拉曼光谱数据流进行采样,归一化处理,然后进行PCA降维,并计算食源性致病菌拉曼光谱数据流中各特征相关系数,保留食源性致病菌拉曼光谱数据流的主要特征,以得到PCA降维后的食源性致病菌拉曼光谱数据流;
步骤S3,对PCA降维后的食源性致病菌拉曼光谱数据流等比划分为三份数据,分三次划分不同的训练集和测试集,其中,每次按照2∶1的比例划分训练集和测试集;
步骤S4,三次中每次用其中的两份的训练集训练基于adaboost算法的分类模型,剩余的一份测试集作为所述分类模型的最终检测,循环三次分别得到每次的分类模型的准确率,若三次的准确率的平均值大于预设阈值,则调整所述分类模型的参数后重新执行本步骤;若三次的准确率的平均值大于预设阈值,则所述分类模型训练完成。
在此,模型选择以及参数调优方法方面,采用单一算法svm,knn等,以及集成算法adaboost测试数据,利用python的sklearn库设计机器学习流水线,查找各个算法最佳的拟合参数,对比结果,最后发现adaboost的效果最佳。这里主要因为adaboost是一个加法模型,它在每一轮训练当中,会给当前的弱分类器一个权重,如果分类器准确率高,则权重也相对较高,分类器的权重更新公式为
Figure BDA0002359899020000041
α为分类器的权重,ε为误差率,m表示第几个分类器。同时它的损失函数也是利用样本权重计算的,一旦样本被错误分类,该样本的权重会相应提升,在下个分类器分类时会优先它的分类,样本权重更新公式为
Figure BDA0002359899020000042
w表示样本权重,m表示更新轮次,该算法显示了更强大的泛化能力。
分类准确率的度量指标时,对数据按照2∶1的比例划分训练集和测试集,共三份数据,每次用两份数据训练模型,一份数据作为最终检测,进而获得准确率,循环三次取三个准确率的平均值作为最终的度量指标,即交叉验证衡量最终的结果,保证算法的能力。
本发明通过拉曼光谱对病菌的检测可以有效的现有的问题,而且使用模型识别的准确率比人工识别高得多。另外,本发明基于adaboost的集成分类算法,能够提升传统单一分类器分类以及人工分类准确率不高的问题。
本发明的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,步骤S1,对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:
采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪。
本发明的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:
Savitzky-Golay滤波器里面基于局域多项式最小二乘法拟合的滤波方法,对食源性致病菌拉曼光谱数据流进行平滑降噪。
在此,降噪以及去除荧光背景时,这里主要使用Savitzky-Golay滤波器里面基于局域多项式最小二乘法拟合的滤波方法。这种滤波方法最大特点是滤除噪音的同时可以保证信号形状以及宽度不变,这里实际上是拟合了信号中的低频部分,而将高频成分平滑出去,然后对数据进行采样。
本发明的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,所述adaboost算法为基于元分类器为决策树的adaboost算法。
本发明的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,所述元分类器的个数为200,学习率为0.05。
在此,模型调优时,采取了基于逻辑回归,感知机以及决策树的adaboost模型,经用数据集测试之后发现,当元分类器为决策树时准确率最高,此时adaboost采用的元分类器的个数为200,学习率为0.05。
本发明的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,调整所述分类模型的参数后重新执行本步骤,包括:
通过调用网格搜索模型,以调整所述分类模型的参数后重新执行本步骤。
具体的,对得到的数据进行训练,先用决策树、svm以及adaboost测试数据,发现集成算法adaboost无论元分类器用决策树、感知机还是逻辑回归,结果都比单一算法好。然后用网格结构调优adaboost模型,测试之后发现元分类器选决策树的效果更佳,此时模型选择的元分类器个数为200,单个决策树的深度为5左右,
下面是几种算法的对比拟合结果,已经是网格调优之后的结果,首先是感知机,当效果达到最佳时,参数最大迭代次数为200,惩罚函数选择11范数,pea主成分选取前面10个,它的准确率大概是92%。
Svm效果方面,核函数选择高斯核函数,软间隔惩罚参数C为3,方差选择0.4,选择pca降维得到的前三个主成分,得到最佳结果89%
KNN效果方面,近邻数量选择4,主成分选择前面10个得到最佳准确率89%
Adaboost效果方面,adaboost的准确率是最高的,它选择的pca主成分是20个,基选择器为200,学习率为0.05。
综上所述,本发明针对大肠杆菌以及布鲁氏菌,提出一种基于adaboost集成算法的拉曼光谱分类法方法。对于两种不同病菌的拉曼光谱先进行数据预处理,包括去毛刺,降噪(Savitzky-Golay滤波器),然后采样成数值型数据,之后对数据采用PCA降维,之后用基于元分类器为决策树的adaboost算法调用网格搜索模型找到最合适的参数,经验证,集成算法adaboost比单一类算法例如KNN、SVM等有更高的分类准确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (6)

1.一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,包括:
对食源性致病菌拉曼光谱数据流进行平滑降噪,同时保持平滑降噪后的食源性致病菌拉曼光谱数据流中信号的形状和宽度不变;
对平滑降噪后的食源性致病菌拉曼光谱数据流进行采样,归一化处理,然后进行PCA降维,并计算食源性致病菌拉曼光谱数据流中各特征相关系数,保留食源性致病菌拉曼光谱数据流的主要特征,以得到PCA降维后的食源性致病菌拉曼光谱数据流;
对PCA降维后的食源性致病菌拉曼光谱数据流等比划分为三份数据,分三次划分不同的训练集和测试集,其中,每次按照2∶1的比例划分训练集和测试集;
三次中每次用其中的两份的训练集训练基于adaboost算法的分类模型,剩余的一份测试集作为所述分类模型的最终检测,循环三次分别得到每次的分类模型的准确率,若三次的准确率的平均值大于预设阈值,则调整所述分类模型的参数后重新执行本步骤;若三次的准确率的平均值大于预设阈值,则所述分类模型训练完成。
2.如权利要求1所述的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:
采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪。
3.如权利要求2所述的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:
Savitzky-Golay滤波器里面基于局域多项式最小二乘法拟合的滤波方法,对食源性致病菌拉曼光谱数据流进行平滑降噪。
4.如权利要求1所述的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,所述adaboost算法为基于元分类器为决策树的adaboost算法。
5.如权利要求4所述的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,所述元分类器的个数为200,学习率为0.05。
6.如权利要求1所述的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,调整所述分类模型的参数后重新执行本步骤,包括:
通过调用网格搜索模型,以调整所述分类模型的参数后重新执行本步骤。
CN202010020498.3A 2020-01-08 2020-01-08 基于adaboost的食源性致病菌拉曼光谱分类模型训练方法 Pending CN111274874A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010020498.3A CN111274874A (zh) 2020-01-08 2020-01-08 基于adaboost的食源性致病菌拉曼光谱分类模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010020498.3A CN111274874A (zh) 2020-01-08 2020-01-08 基于adaboost的食源性致病菌拉曼光谱分类模型训练方法

Publications (1)

Publication Number Publication Date
CN111274874A true CN111274874A (zh) 2020-06-12

Family

ID=71001624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010020498.3A Pending CN111274874A (zh) 2020-01-08 2020-01-08 基于adaboost的食源性致病菌拉曼光谱分类模型训练方法

Country Status (1)

Country Link
CN (1) CN111274874A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112161965A (zh) * 2020-09-22 2021-01-01 复旦大学附属妇产科医院 检测中药药性的方法、装置、计算机设备和存储介质
CN112651428A (zh) * 2020-12-03 2021-04-13 北京信息科技大学 一种用于远程拉曼矿物识别的深度学习模型多分类方法
CN112730373A (zh) * 2020-12-03 2021-04-30 北京信息科技大学 一种用于深度学习训练的拉曼光谱数据集分析方法
CN113702349A (zh) * 2021-07-12 2021-11-26 四川大学 一种基于拉曼光谱的涎腺肿瘤的诊断模型构建方法
CN114300116A (zh) * 2021-11-10 2022-04-08 安徽大学 一种基于在线分类算法的鲁棒性病症检测方法
CN114638291A (zh) * 2022-03-08 2022-06-17 上海应用技术大学 一种基于多层前馈神经网络算法的食源性致病菌分类方法
CN114663722A (zh) * 2022-03-08 2022-06-24 上海应用技术大学 一种基于LightGBM算法的食源性致病菌分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109781706A (zh) * 2019-02-11 2019-05-21 上海应用技术大学 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法
CN110245713A (zh) * 2019-06-19 2019-09-17 上海应用技术大学 一种食源性致病菌分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109781706A (zh) * 2019-02-11 2019-05-21 上海应用技术大学 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法
CN110245713A (zh) * 2019-06-19 2019-09-17 上海应用技术大学 一种食源性致病菌分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
史如晋等: "基于PCA-Stacking模型的食源性致病菌拉曼光谱识别", 《激光与光电子学进展》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112161965A (zh) * 2020-09-22 2021-01-01 复旦大学附属妇产科医院 检测中药药性的方法、装置、计算机设备和存储介质
CN112651428A (zh) * 2020-12-03 2021-04-13 北京信息科技大学 一种用于远程拉曼矿物识别的深度学习模型多分类方法
CN112730373A (zh) * 2020-12-03 2021-04-30 北京信息科技大学 一种用于深度学习训练的拉曼光谱数据集分析方法
CN113702349A (zh) * 2021-07-12 2021-11-26 四川大学 一种基于拉曼光谱的涎腺肿瘤的诊断模型构建方法
CN114300116A (zh) * 2021-11-10 2022-04-08 安徽大学 一种基于在线分类算法的鲁棒性病症检测方法
CN114300116B (zh) * 2021-11-10 2023-11-28 安徽大学 一种基于在线分类算法的鲁棒性病症检测方法
CN114638291A (zh) * 2022-03-08 2022-06-17 上海应用技术大学 一种基于多层前馈神经网络算法的食源性致病菌分类方法
CN114663722A (zh) * 2022-03-08 2022-06-24 上海应用技术大学 一种基于LightGBM算法的食源性致病菌分类方法

Similar Documents

Publication Publication Date Title
CN111274874A (zh) 基于adaboost的食源性致病菌拉曼光谱分类模型训练方法
CN109799269B (zh) 基于动态特征重要度的电子鼻气体传感器阵列优化方法
CN109493287B (zh) 一种基于深度学习的定量光谱数据分析处理方法
US7899625B2 (en) Method and system for robust classification strategy for cancer detection from mass spectrometry data
CN107179310B (zh) 基于鲁棒噪声方差估计的拉曼光谱特征峰识别方法
CN109034127B (zh) 一种频谱异常检测方法、装置和电子设备
WO2017143919A1 (zh) 一种建立数据识别模型的方法及装置
CN110243806B (zh) 拉曼光谱下基于相似度的混合物组分识别方法
CN109543763B (zh) 一种基于卷积神经网络的拉曼光谱分析方法
CN107818298B (zh) 用于机器学习物质识别算法的通用拉曼光谱特征提取方法
EP1720115A1 (en) Automatic detection of quality spectra
CN112557034B (zh) 一种基于pca_cnns的轴承故障诊断方法
CN108197647B (zh) 一种汽车起动机耐久测试数据的快速聚类方法
CN113012766B (zh) 一种基于在线选择性集成的自适应软测量建模方法
CN111089856B (zh) 一种拉曼光谱弱信号提取的后处理方法
CN111338950A (zh) 一种基于谱聚类的软件缺陷特征选择方法
CN114112400A (zh) 一种基于多角度信息融合的机械轴承故障诊断方法
CN111079788A (zh) 一种基于密度Canopy的K-means聚类方法
CN111444963A (zh) 一种基于ssa-svr模型的高炉铁水硅含量预测方法
CN114186596B (zh) 一种谱图峰的多窗口识别方法、装置以及电子设备
US7230235B2 (en) Automatic detection of quality spectra
CN109283169A (zh) 一种鲁棒的拉曼光谱峰识别方法
CN111259929A (zh) 基于随机森林的食源性致病菌的分类模型训练方法
CN110084301B (zh) 一种基于隐马尔可夫模型的多工况过程工况辨识方法
CN115588124B (zh) 一种基于软标签交叉熵追踪的细粒度分类去噪训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination