CN111259929A - 基于随机森林的食源性致病菌的分类模型训练方法 - Google Patents

基于随机森林的食源性致病菌的分类模型训练方法 Download PDF

Info

Publication number
CN111259929A
CN111259929A CN202010020262.XA CN202010020262A CN111259929A CN 111259929 A CN111259929 A CN 111259929A CN 202010020262 A CN202010020262 A CN 202010020262A CN 111259929 A CN111259929 A CN 111259929A
Authority
CN
China
Prior art keywords
pathogenic bacteria
food
borne pathogenic
random forest
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010020262.XA
Other languages
English (en)
Inventor
曾万聃
王其
夏志平
黄杰伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technology
Original Assignee
Shanghai Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technology filed Critical Shanghai Institute of Technology
Priority to CN202010020262.XA priority Critical patent/CN111259929A/zh
Publication of CN111259929A publication Critical patent/CN111259929A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明提供了一种基于随机森林的食源性致病菌的分类模型训练方法,本发明对于两种不同致病菌的拉曼光谱数据进行多步数据预处理,包括利用多项式拟合进行基线校正、PCA进行数据降维、Savitzky‑Golay卷积平滑算法降低噪声干扰,平滑光谱等步骤。本发明集成多棵决策树模型,有效地提高了分类模型的泛化能力,使得食源性致病菌检测的准确性得到提升。

Description

基于随机森林的食源性致病菌的分类模型训练方法
技术领域
本发明涉及一种基于随机森林的食源性致病菌的分类模型训练方法。
背景技术
当前用于食源性致病菌检测的方法主要包括:直接接种分离法、增菌培养分离法、直接实时荧光定量聚合酶链式反应(PCR)和增光后实时PCR法。但是这些传统的检测技术存在很多问题,比如说耗时长、效率低、操作繁琐等。
发明内容
本发明的目的在于提供一种基于随机森林的食源性致病菌的分类模型训练方法。
为解决上述问题,本发明提供一种基于随机森林的食源性致病菌的分类模型训练方法,包括:
从食源性致病菌拉曼光谱数据流中,随机抽取n个新的自助样本集,并由此构建n棵分类回归树,每次未被抽到的样本组成n个袋外数据,其中,n为正整数;
对每一棵树,通过计算每一棵树的每个特征蕴含的信息量,选择一个最具有分类能力的特征进行节点分裂,且每棵树最大限度地生长,不做任何剪枝;
将生成的多棵树组成随机森林分类模型,用随机森林分类模型对新的数据进行分类,得到分类结果;
对食源性致病菌拉曼光谱数据流进行预处理;
将经过预处理的食源性致病菌拉曼光谱数据流按照3∶7的比例进行划分,其中,30%的食源性致病菌拉曼光谱数据流作为测试集,70%的食源性致病菌拉曼光谱数据流作为训练集,采用所述测试集和训练集对所述随机森林分类模型进行10折交叉验证并记录对应的随机森林分类模型的性能指标。
进一步的,在上述方法中,对食源性致病菌拉曼光谱数据流进行预处理,包括:
使用Savitzky-Golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱。
进一步的,在上述方法中,使用Savitzky-Golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱之后,还包括:
对降低噪声干扰、平滑光谱后的食源性致病菌拉曼光谱数据流进行加权最小乘基线校正和选择波长。
进一步的,在上述方法中,随机抽取n个新的自助样本集,包括:
应用bootstrap方法有放回地随机抽取n个新的自助样本集。
进一步的,在上述方法中,得到分类结果中,
所述分类结果按照随机森林分类模型的投票多少而定。
与现有技术相比,本发明具有如下的有益效果:
本发明借助于基于随机森林的集成算法模型,在一定程度上缓解了人工识别两种波峰相似的食源性致病菌大肠杆菌O157∶H7和布鲁氏菌S2株出现的误判问题。
附图说明
图1是本发明一实施例的基于随机森林的食源性致病菌的分类模型训练方法的流程图;
图2是本发明一实施例的Random Forest集成算法模型流程图;
图3是本发明一实施例的Random Forest集成算法流程细节图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种基于随机森林(Random Forest)的食源性致病菌的分类模型训练方法,包括:
步骤S1,从食源性致病菌拉曼光谱数据流中,随机抽取n个新的自助样本集,并由此构建n棵分类回归树,每次未被抽到的样本组成n个袋外数据,其中,n为正整数;
步骤S2,对每一棵树,通过计算每一棵树的每个特征蕴含的信息量,选择一个最具有分类能力的特征进行节点分裂,且每棵树最大限度地生长,不做任何剪枝;
步骤S3,将生成的多棵树组成随机森林分类模型,用随机森林分类模型对新的数据进行分类,得到分类结果;
步骤S4,对食源性致病菌拉曼光谱数据流进行预处理;
步骤S5,将经过预处理的食源性致病菌拉曼光谱数据流按照3∶7的比例进行划分,其中,30%的食源性致病菌拉曼光谱数据流作为测试集,70%的食源性致病菌拉曼光谱数据流作为训练集,采用所述测试集和训练集对所述随机森林分类模型进行10折交叉验证并记录对应的随机森林分类模型的性能指标。
在此,相比于传统食源性致病菌检测技术,拉曼光谱技术能够提供快速、简单、可重复、且更重要的无损伤的定性定量分析,它无需样品准备,样品可直接通过光纤探头或者通过玻璃、石英和光纤测量。
本发明可以针对拉曼峰相似的两种食源性致病菌——大肠杆菌O157∶H7以及布鲁氏菌S2株,训练出一种基于Random Forest集成算法的食源性致病菌的分类训练模型,能够提升传统单一分类器泛化能力不强、分类准确率不高的问题。
本发明的基于随机森林(Random Forest)的食源性致病菌的分类模型训练方法一实施例中,步骤S4,对食源性致病菌拉曼光谱数据流进行预处理,包括:
使用Savitzky-Golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱。
本发明的基于随机森林(Random Forest)的食源性致病菌的分类模型训练方法一实施例中,使用Savitzky-Golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱之后,还包括:
对降低噪声干扰、平滑光谱后的食源性致病菌拉曼光谱数据流进行加权最小乘基线校正和选择波长。
在此,对获得的原始数据进行适当的预处理,其中主要包括使用Savitzky-Golay卷积平滑算法降低噪声干扰,平滑光谱、加权最小乘基线校正、稀疏优化选择适当波长。
拉曼光谱的信号强度比较弱,重叠严重,同时受环境、探测器等因素的影响,使得测得的拉曼光谱常伴随较严重的噪声,例如仪器噪声、荧光噪声等。同时,拉曼光谱还会伴有基线漂移等问题。为了准确地分析光谱数据,需要对拉曼光谱进行降噪基线校正,波长选择处理。
本发明的基于随机森林(Random Forest)的食源性致病菌的分类模型训练方法一实施例中,随机抽取n个新的自助样本集,包括:
应用bootstrap方法有放回地随机抽取n个新的自助样本集。
本发明的基于随机森林(Random Forest)的食源性致病菌的分类模型训练方法一实施例中,得到分类结果中,
所述分类结果按照随机森林分类模型的投票多少而定。
具体的,对已有的Logistic Regression算法和本发明的Random Forest算法模型经过10折交叉验证,将取得的十组结果取平均值获得交叉验证结果为:LogisticRegression算法交叉验证精确率为88.0%,Random Forest算法交叉验证精确率为98.1%。可以看出Logistic Regression算法模型在分类准确率提高了10.1%,因此本发明模型具有更高的可靠性。
图2是本发明一实施例的Random Forest集成算法模型流程图.
图3为Random Forest集成算法流程图(细节图),本实施例中的方法包括:
1)样本Bagging:从原样本中通过bootstrap有放回的随机抽取训练样本集,然后据此构建一个对应的决策树。
2)特征的随机子空间:在对决策树每个节点进行分裂时,从特征中选取一个特征子集,然后从这个子集中选择一个最优分裂特征来建树。
本发明一具体实施例中的方法包括:
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true position)、假正例(false position)、真反例(true negative)、假反例(falsenegative),令TP、FP、TN、FN分别表示其对应样例数,则显然有TP+FP+TN+FN=样例总数,分类结果的“混淆矩阵”(confusion matrix)如表1。
Figure BDA0002359895870000051
表1
查准率P与查全率R分别定义为:
Figure BDA0002359895870000052
Figure BDA0002359895870000053
以查准率为纵轴、查全率为横轴作图,就得到了查全率-查准率曲线图,简称“P-R曲线”,显示该曲线的图称为“P-R图”。
Logistic Regression模型的P-R曲线基本包含在Random Forest模型曲线内,可以看出Random Forest模型具有更高的分类性能。
本发明一具体实施例中的方法包括:
与P-R图相似,根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要的值,分别以它们为横、纵坐标作图,就得到了ROC曲线。ROC曲线图的纵轴是“真正例率”(True Position Rate,简称TPR),横轴是“假正例率”(False Position Rate,简称FPR)。基于表1,两者分别定义为:
Figure BDA0002359895870000061
Figure BDA0002359895870000062
两条ROC曲线图相互交叉,此时,若比较两分类器的性能,较为合理的判据是比较ROC曲线下的面积,即AUC(Area Under ROC Curve),Logistic Regression模型AUC值为0.89,而Random Forest模型的AUC值为0.97,Random Forest模型分类性能要明显优于Logistic Regression模型。
综上所述,本发明对于两种不同致病菌的拉曼光谱数据进行多步数据预处理,包括利用多项式拟合进行基线校正、PCA进行数据降维、Savitzky-Golay卷积平滑算法降低噪声干扰,平滑光谱等步骤。本发明集成多棵决策树模型,有效地提高了分类模型的泛化能力,使得食源性致病菌检测的准确性得到提升。
与现有技术相比,本发明具有如下的有益效果:
本发明借助于集成算法模型,在一定程度上缓解了人工识别两种波峰相似的食源性致病菌大肠杆菌O157∶H7和布鲁氏菌S2株出现的误判问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (5)

1.一种基于随机森林的食源性致病菌的分类模型训练方法,其特征在于,包括:
从食源性致病菌拉曼光谱数据流中,随机抽取n个新的自助样本集,并由此构建n棵分类回归树,每次未被抽到的样本组成n个袋外数据,其中,n为正整数;
对每一棵树,通过计算每一棵树的每个特征蕴含的信息量,选择一个最具有分类能力的特征进行节点分裂,且每棵树最大限度地生长,不做任何剪枝;
将生成的多棵树组成随机森林分类模型,用随机森林分类模型对新的数据进行分类,得到分类结果;
对食源性致病菌拉曼光谱数据流进行预处理;
将经过预处理的食源性致病菌拉曼光谱数据流按照3∶7的比例进行划分,其中,30%的食源性致病菌拉曼光谱数据流作为测试集,70%的食源性致病菌拉曼光谱数据流作为训练集,采用所述测试集和训练集对所述随机森林分类模型进行10折交叉验证并记录对应的随机森林分类模型的性能指标。
2.如权利要求1所述的基于随机森林的食源性致病菌的分类模型训练方法,其特征在于,对食源性致病菌拉曼光谱数据流进行预处理,包括:
使用Savitzky-Golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱。
3.如权利要求2所述的基于随机森林的食源性致病菌的分类模型训练方法,其特征在于,使用Savitzky-Golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱之后,还包括:
对降低噪声干扰、平滑光谱后的食源性致病菌拉曼光谱数据流进行加权最小乘基线校正和选择波长。
4.如权利要求1所述的基于随机森林的食源性致病菌的分类模型训练方法,其特征在于,随机抽取n个新的自助样本集,包括:
应用bootstrap方法有放回地随机抽取n个新的自助样本集。
5.如权利要求1所述的基于随机森林的食源性致病菌的分类模型训练方法,其特征在于,得到分类结果中,
所述分类结果按照随机森林分类模型的投票多少而定。
CN202010020262.XA 2020-01-08 2020-01-08 基于随机森林的食源性致病菌的分类模型训练方法 Pending CN111259929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010020262.XA CN111259929A (zh) 2020-01-08 2020-01-08 基于随机森林的食源性致病菌的分类模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010020262.XA CN111259929A (zh) 2020-01-08 2020-01-08 基于随机森林的食源性致病菌的分类模型训练方法

Publications (1)

Publication Number Publication Date
CN111259929A true CN111259929A (zh) 2020-06-09

Family

ID=70946844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010020262.XA Pending CN111259929A (zh) 2020-01-08 2020-01-08 基于随机森林的食源性致病菌的分类模型训练方法

Country Status (1)

Country Link
CN (1) CN111259929A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114237265A (zh) * 2022-02-25 2022-03-25 深圳市城市交通规划设计研究中心股份有限公司 最优日常巡检路线的规划方法、系统、计算机及存储介质
CN114663722A (zh) * 2022-03-08 2022-06-24 上海应用技术大学 一种基于LightGBM算法的食源性致病菌分类方法
CN116359169A (zh) * 2023-06-02 2023-06-30 谱宁医学科技(天津)有限责任公司 疾病筛查模型的构建装置、疾病筛查装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090281981A1 (en) * 2008-05-06 2009-11-12 Chen Barry Y Discriminant Forest Classification Method and System
CN104136908A (zh) * 2011-12-19 2014-11-05 奥普蒂库尔诊断有限公司 用于鉴定培养物中微生物的光谱手段和方法
CN108376564A (zh) * 2018-02-06 2018-08-07 天津艾登科技有限公司 基于随机森林算法的疾病诊断并发症识别方法及系统
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN109781706A (zh) * 2019-02-11 2019-05-21 上海应用技术大学 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090281981A1 (en) * 2008-05-06 2009-11-12 Chen Barry Y Discriminant Forest Classification Method and System
CN104136908A (zh) * 2011-12-19 2014-11-05 奥普蒂库尔诊断有限公司 用于鉴定培养物中微生物的光谱手段和方法
CN108376564A (zh) * 2018-02-06 2018-08-07 天津艾登科技有限公司 基于随机森林算法的疾病诊断并发症识别方法及系统
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN109781706A (zh) * 2019-02-11 2019-05-21 上海应用技术大学 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
饶刚福等: "基于激光诱导击穿光谱的微生物种类鉴别研究", 《分析化学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114237265A (zh) * 2022-02-25 2022-03-25 深圳市城市交通规划设计研究中心股份有限公司 最优日常巡检路线的规划方法、系统、计算机及存储介质
CN114237265B (zh) * 2022-02-25 2022-07-12 深圳市城市交通规划设计研究中心股份有限公司 最优日常巡检路线的规划方法、系统、计算机及存储介质
CN114663722A (zh) * 2022-03-08 2022-06-24 上海应用技术大学 一种基于LightGBM算法的食源性致病菌分类方法
CN116359169A (zh) * 2023-06-02 2023-06-30 谱宁医学科技(天津)有限责任公司 疾病筛查模型的构建装置、疾病筛查装置、设备及介质
CN116359169B (zh) * 2023-06-02 2023-09-05 谱宁医学科技(天津)有限责任公司 疾病筛查模型的构建装置、疾病筛查装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108629365B (zh) 分析数据解析装置以及分析数据解析方法
CN111259929A (zh) 基于随机森林的食源性致病菌的分类模型训练方法
CN110243806B (zh) 拉曼光谱下基于相似度的混合物组分识别方法
CN110763660B (zh) 基于集成学习的libs定量分析方法
EP2122332B1 (en) An ensemble method and apparatus for classifying materials and quantifying the composition of mixtures
Ahmed et al. Enhanced feature selection for biomarker discovery in LC-MS data using GP
US12050179B2 (en) Method for extracting raman characteristic peaks employing improved principal component analysis
CN103487411A (zh) 一种随机森林算法结合激光诱导击穿光谱识别钢材牌号的方法
CN108802002B (zh) 一种快速无损鉴别解除滞育的蚕卵拉曼光谱模型构建方法
Lei et al. Geographic origin identification of coal using near-infrared spectroscopy combined with improved random forest method
Ruan et al. A novel hybrid filter/wrapper method for feature selection in archaeological ceramics classification by laser-induced breakdown spectroscopy
Ruan et al. A modified backward elimination approach for the rapid classification of Chinese ceramics using laser-induced breakdown spectroscopy and chemometrics
CN113008865A (zh) 珠宝玉石鉴定方法、装置、介质及设备
CN115436407A (zh) 一种随机森林回归结合主成分分析的元素含量定量分析方法
CN111426657B (zh) 一种溶解性有机物三维荧光谱图的识别比对方法
CN103743705A (zh) 一种假高粱及其近似物种的快速检测方法
CN113138181B (zh) 一种对清香型原酒品质分级的方法
CN105911000A (zh) 基于特征波段的血斑蛋在线检测方法
CN116858822A (zh) 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法
CN113295674B (zh) 一种基于s变换的激光诱导击穿光谱特征非线性处理方法
CN113791062A (zh) 一种基于拉曼光谱判断固定物质类别的方法
CN111595802A (zh) 一种基于nir光谱的忧遁草种源地分类模型的构建方法及应用
CN113963225B (zh) 目标类别判定方法
CN111693484A (zh) 一种基于太赫兹时域光谱的芝麻油品种识别方法
Titarenko et al. Application of statistical methods for classification of varietal and regional origin of white wines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200609