CN110379463B - 基于机器学习的海洋藻类成因分析及浓度预测方法和系统 - Google Patents

基于机器学习的海洋藻类成因分析及浓度预测方法和系统 Download PDF

Info

Publication number
CN110379463B
CN110379463B CN201910487618.8A CN201910487618A CN110379463B CN 110379463 B CN110379463 B CN 110379463B CN 201910487618 A CN201910487618 A CN 201910487618A CN 110379463 B CN110379463 B CN 110379463B
Authority
CN
China
Prior art keywords
machine learning
optimal
concentration
data
algae
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910487618.8A
Other languages
English (en)
Other versions
CN110379463A (zh
Inventor
高瑞
于沛轩
刘治平
张道良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201910487618.8A priority Critical patent/CN110379463B/zh
Publication of CN110379463A publication Critical patent/CN110379463A/zh
Application granted granted Critical
Publication of CN110379463B publication Critical patent/CN110379463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Epidemiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)

Abstract

本发明公开了一种基于机器学习的海洋藻类成因分析及浓度预测方法和系统,该方法包括以下步骤:构建数据集,并对其进行标准化处理,将处理后的数据集划分为训练集与测试集;对训练集中环境参数进行特征选择,得到多种特征子集,将所有特征子集在多种不同的机器学习算法上进行多次验证,得到每种机器学习算法对应的最优特征子集及其评价指标;选取评价指标最优的机器学习算法作为最优预测模型;利用最优预测模型预测最优特征子集对应的藻类浓度;利用GBDT模型对数据集中环境参数数据进行训练,得到最优特征子集中每个环境参数的重要程度,利用每个环境参数的重要程度,分析藻类成因。

Description

基于机器学习的海洋藻类成因分析及浓度预测方法和系统
技术领域
本公开涉及有害藻华预测技术领域,具体涉及一种基于机器学习的海洋藻类成因分析及浓度预测方法和系统。
背景技术
在针对有害藻华预测问题的研究中,现有的有害藻华预测方法主要有:非线性动力学、统计预测法、机器学习预测法等。
非线性动力学方法理论研究单种群赤潮藻类、多种群赤潮藻类以及赤潮食物链的生态动力学行为,阐明了模型的非线性动力学特性,提出赤潮发生的生态动力学机制。但当特征数目较多的时候求解将十分困难。
统计预测方法适合对大量的数据资料进行统计分析,以求得比较准确的预测结果和理论方法。藻华的浓度数据往往为时间序列,因此可以用时间序列的预测方法进行预测。但这种方法对于序列的形式有一定的要求,需满足平稳性,且其预测结果与环境物理参数无关,无法反映相关性。
随着计算机软件技术,人工智能的发展,人们开始探索将机器学习技术应用于赤潮预测上。机器学习方法不需要提出复杂的动力学方程,且可以更好的适用于各种非线性条件下。
发明内容
为了克服上述现有技术的不足,本公开提供了一种基于机器学习的海洋藻类成因分析及浓度预测方法和系统,找出有害藻华发生的影响因素,并对水体中藻类细胞浓度进行预测。
本公开一方面提供的基于机器学习的海洋藻类成因分析及浓度预测方法的技术方案是:
一种基于机器学习的海洋藻类成因分析及浓度预测方法,该方法包括以下步骤:
获取大量藻类细胞浓度数据及与浓度相关的环境参数,构建数据集,并对其进行标准化处理,将处理后的数据集划分为训练集与测试集;
对训练集中环境参数进行特征选择,得到多种特征子集,将所有特征子集在多种不同的机器学习算法上进行多次10折交叉验证,得到每种机器学习算法对应的最优特征子集及其评价指标;
将所有机器学习算法的评价指标进行比较,选取评价指标最优的机器学习算法作为最优预测模型,将其对应的最优特征子集作为最终的最优特征子集;
利用最优预测模型预测最优特征子集对应的藻类浓度;
利用GBDT模型对数据集中环境参数数据进行训练,得到最优特征子集中每个环境参数的重要程度,利用每个环境参数的重要程度,分析藻类成因。
本公开另一方面提供的基于机器学习的海洋藻类成因分析及浓度预测系统的技术方案是:
一种基于机器学习的海洋藻类成因分析及浓度预测系统,包括:
数据获取模块,用于获取大量藻类细胞浓度数据及与浓度相关的环境参数,构建数据集,并对其进行标准化处理,将处理后的数据集划分为训练集与测试集;
最优预测模型选择模块,用于对训练集中环境参数进行特征选择,得到多种特征子集,将所有特征子集在多种不同的机器学习算法上进行多次10折交叉验证,得到每种机器学习算法对应的最优特征子集及其评价指标;将所有机器学习算法的评价指标进行比较,选取评价指标最优的机器学习算法作为最优预测模型,将该机器学习算法对应的最优特征子集作为最终的最优特征子集;
藻类浓度预测模块,用于利用最优预测模型预测最优特征子集对应的藻类浓度;
藻类成因分析模块,用于基于最优预测模型对应的最优特征子集,利用GBDT模型对数据集中环境参数数据进行训练,得到最优特征子集中每个环境参数的重要程度;根据得到的每个参数的重要程度,分析藻类成因。
本公开一方面提供的计算机可读存储介质的技术方案是:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。
本公开一方面提供的计算机设备的技术方案是:
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。
通过上述技术方案,本公开的有益效果是:
(1)本公开不但可以对藻类浓度进行预测,也可以得到影响其浓度的关键因素;
(2)本公开可以对不同的环境及藻类采用不同的算法与特征子集;
(3)本公开采用穷举法的方法保证可以得到基于样本集的最优解,同时由于与藻类相关的物理、化学、生物因素的数目不会太多,采用10折交叉验证保证了训练速度,也提高了模型的泛化性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本申请,并不构成对本公开的不当限定。
图1是实施例一基于机器学习的海洋藻类成因分析及浓度预测方法的流程图;
图2是实施例一南加州海岸海洋观测系统测量的部分数据示意图;
图3是实施例一预测结果示意图;
图4是实施例一每种参数对藻类浓度影响的重要程度示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
名称解释:
(1)z-zero标准化,叫标准差标准化,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,注意,一般来说z-score不是归一化,而是标准化,归一化只是标准化的一种。
(2)SVM,支持向量机算法,是一种分类回归算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。
(3)RandomForest,随机森林算法,属于集成学习中的bagging方法。是指利用多棵决策树对样本进行训练并预测的一种算法,也是一个包含多个决策树的算法,对于分类问题,其输出的类别是由多个决策树输出的类别的众数来决定的,对于回归问题,通常使用简单平均法,对多个决策树得到的回归结果进行算术平均得到最终的模型输出。
(4)GBDT,梯度提升树,属于集成学习中的boosting方法。是一种基于决策树(decision tree)实现的分类回归算法,该算法底层基于回归树和函数空间的梯度降算法,除了具有树模型的可解释性强、有效处理混合类型的特征、伸缩不变性、对缺失值鲁棒等优点,还具有预测能力强、稳定性好等优势。
(5)Adaboost,属于集成学习中的boosting算法。是一种迭代算法,其核心思想是针对同一个训练集,不断对预测错的数据进行预测,增大其对应弱分类器的权重,训练不同的分类器(弱分类器),然后把这些弱分类器根据权重集合起来,构成一个更强的最终分类器(强分类器)。
(6)KNN,邻近算法,或者说K最近邻分类算法,是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
实施例一
本实施例提供一种基于机器学习的海洋藻类成因分析及浓度预测方法,找出有害藻华发生的影响因素,并对水体中藻类细胞浓度进行预测。
请参阅附图1,所述基于机器学习的海洋藻类成因分析及浓度预测方法包括以下步骤:
S101,获取包含有藻类细胞浓度数据及与浓度相关的环境参数,构建数据集。
具体地,获取海洋观测系统测量的大量包含有藻类细胞浓度数据,对于每一个藻类细胞浓度都对应一组环境参数,包括水温、氨、叶绿素、亚硝酸盐、硅酸盐等。利用所有藻类细胞浓度数据以及每个藻类细胞浓度对应的环境参数,构建数据集。
S102,对数据集中数据进行z-zero标准化处理,并将标准化处理后的数据集划分为训练集与测试集。
具体地,分别对数据集中藻类细胞浓度数据以及每个藻类细胞浓度对应的环境参数按列进行z-zero标准化处理,消除量纲产生的影响。
z-zero标准化处理的公式如下:
Figure BDA0002085924280000061
其中,x'为标准化后数据,xi为原始数据,
Figure BDA0002085924280000062
为原始数据的平均值,xstd为原始数据的标准差。
对标准化处理后的数据集进行划分,将70%数据划分为训练集,将30%数据划分为测试集。
S103,对训练集中浓度对应的环境参数进行特征选择,得到多种特征子集,将所有特征子集在不同的机器学习算法上进行多次10折交叉验证,得到每种机器学习算法下表现最优的特征子集及其评价指标。
具体地,采用穷举法从训练集中选择每个藻类细胞浓度对应的环境参数特征,得到2n-1种特征子集。采用穷举法选取所有的特征子集实现方法如下:
假设一个浓度数据对应n个环境参数特征,则每次随机抽取1个特征(
Figure BDA0002085924280000073
种情况)、随机抽取2个特征(
Figure BDA0002085924280000071
种情况)、抽取全部特征(
Figure BDA0002085924280000074
种情况),构建特征子集,最终获得共2n-1个特征子集。
分别将2n-1个特征子集在不同的机器学习算法上进行多次10折交叉验证,得到每个机器学习算法多个预测值与实际值匹配程度的评价指标,该评价指标为均方根误差MSE或拟合优度R2。取多次10折交叉验证得到的每个机器学习算法多个评价指标的平均值作为每个机器学习算法最终的评价指标,并根据每个机器学习算法最终的评价指标,选取每种机器学习算法下精度最优的特征子集。
所述机器学习算法包括支持向量机算法SVM、随机森林算法RandomForest、梯度提升树GBDT、迭代算法Adaboost、邻近算法KNN。
在本实施例中,根据数据集中藻类细胞浓度值的分布情况,采用均方根误差(MSE)或拟合优度(R2)作为预测值与实际值匹配程度的评价指标,对于多轮交叉验证,将该指标取平均值作为最终的评价指标。
均方根误差MSE的计算公式为:
Figure BDA0002085924280000081
其中,n为样本总数,yi为实际值,
Figure BDA0002085924280000082
为预测值。
拟合优度R2的计算公式为:
Figure BDA0002085924280000083
其中,n为样本总数,yi为实际值,
Figure BDA0002085924280000084
为预测值,
Figure BDA0002085924280000085
为样本平均值。
在本实施例中,针对每种机器学习算法,将2n-1个特征子集在机器学习算法上进行10折交叉验证的方法为:
将2n-1个特征子集划分为10组,将9组特征子集在该机器学习算法进行训练,并利用剩余的1组特征子集验证训练结果,重复进行多次,得到多个预测值与实际值匹配程度的评价指标MSE或R2
由于单轮10折交叉验证划分数据具有随机性,因此需要进行多轮10折交叉验证。
取多轮10折交叉验证得到的该机器学习算法的多个评价指标的平均值作为该机器学习算法最终的评价指标;
根据该机器学习算法最终的评价指标,选取该机器学习算法下精度最优的特征子集。
在本实施例中,重复次数可根据训练时间调整,一般可取10-100次。
S104,选取最优的预测模型及对应的特征子集。
具体地,将每种机器学习算法的评价指标相比较,选择评价指标最好的机器学习算法作为最优的预测模型,将该机器算法对应的最优特征子集作为最优的预测模型对应的最优特征子集。
当评价指标为MSE指标时,选取最小MSE指标对应的机器学习算法法作为最优的预测模型,当评价指标为R2指标时,选取最大R2指标对应的机器学习算法法作为最优的预测模型。
S105,利用最优的预测模型预测最优特征子集对应的藻类细胞浓度。
按照最优的预测模型对应的最优特征子集再次对数据集进行划分,划分为新的训练集和测试集,利用新的训练集对最优的预测模型进行训练;
基于最优的预测模型的最优特征子集,将测试集中数据输入训练好的预测模型进行预测,得到最优特征子集对应的最终的藻类浓度。
S106,利用GBDT模型对数据集中环境参数数据进行训练,得到最优特征子集中每个参数的影响藻类浓度重要程度,即影响藻类浓度的关键因素重要程度。
具体地,在GBDT模型上对数据集中数据进行训练,得到每个参数的影响藻类浓度重要程度的具体实现方式如下:
将步骤101得到的数据集中所有数据按照最优模型所对应的最优特征子集进行切割,并分别送入GBDT模型进行训练,GBDT模型包含多个CART树模型,CART树在选取根据哪个特征进行划分时,会选取使划分后和方差最小的特征进行划分,因此和方差即可作为特征的重要程度,GBDT中所有CART树模型上重要程度之和的平均值即最终的重要程度。
在本实施例中,可根据得到的每个参数的重要程度,分析藻类成因。
本实施例提出的基于机器学习的海洋藻类成因分析及浓度预测方法,不但可以对藻类浓度进行预测,也可以得到影响其浓度的关键因素,可以对不同的环境参数及藻类采用不同的算法与特征子集,采用穷举法进行环境参数特征选择,保证可以得到基于样本集的最优解,同时由于与藻类相关的环境因素的数目不会太多,采用10折交叉验证保证了训练速度,也提高了模型的泛化性。
为了使本领域的技术人员更好地了解本公开的技术方案,下面列举一个具体实施例。本实施例提供的基于机器学习的海洋藻类成因分析及浓度预测方法包括一种步骤:
S201,数据收集。
该数据来自于美国SCCOOS(南加州海岸海洋观测系统)统计的2008-2018年间的数据,剔除掉了无用、缺失及错误的数据,如图2所示。
S202,对数据集中数据进行z-zero标准化处理,将处理后的数据集划分为训练集(70%)与测试集(30%)。
S203,选择最优的预测模型。
如表1所示,由于SVM算法综合表现最好,因此选取SVM算法作为最终预测模型,并仅使用Ammonia(氨)+Chlorophyll1(叶绿素1)+Nitrite(亚硝酸盐)+Silicate(硅酸盐)+temp(水温)这五个参数预测藻类浓度。
表1各种算法下最优的特征子集
算法 最优特征子集 MSE R2
Adaboost 氨+叶绿素1+亚硝酸盐+褐藻黄素1+褐藻黄素2+硅酸盐 0.672 0.956
GBDT 氨+叶绿素+叶绿素1+磷酸盐 0.631 0.936
KNN 氨+叶绿素l+叶绿素1+水温 0.726 0.948
SVM 氨+叶绿素1+亚硝酸盐+硅酸盐+水温 0.331 0.936
S204,对最优的预测模型进行训练,将测试集中数据输入训练后的预测模型预测,得到最终预测结果。
如图3所示,real线条为原始浓度数据,predict without FS线条为使用全部参数进行预测的结果,predict with FS线条为仅使用上述五种参数的预测结果,可以看到经过特征选择后的预测效果有了明显的提升。
S205,影响浓度的成因分析。
将根据上述五种参数划分后的数据送入GBDT模型进行训练,可以得到每种参数对藻类浓度影响的重要程度,如图4所示。
由图4可以看出,叶绿素a常作为浮游植物丰度的一个标准代表,因此肯定与藻类浓度影响最大,可以说明该方法有一定的正确性。其次,硅酸盐及氨是影响程度第二第三大的因素,因此可以控制水体中硅酸盐或氨的浓度,例如对工业污水或生活废水进行监管,可能也会间接的控制有害藻华的爆发。
实施例二
本实施例提供一种基于机器学习的海洋藻类成因分析及浓度预测系统,该系统包括:
数据获取模块,用于获取大量藻类细胞浓度数据及与浓度相关的环境参数,构建数据集,并对其进行标准化处理,将处理后的数据集划分为训练集与测试集;
最优预测模型选择模块,用于对训练集中环境参数进行特征选择,得到多种特征子集,将所有特征子集在多种不同的机器学习算法上进行多次10折交叉验证,得到每种机器学习算法对应的最优特征子集及其评价指标;将所有机器学习算法的评价指标进行比较,选取评价指标最优的机器学习算法作为最优预测模型,将该机器学习算法对应的最优特征子集作为最终的最优特征子集;
藻类浓度预测模块,用于利用最优预测模型预测最优特征子集对应的藻类浓度;
藻类成因分析模块,用于基于最优预测模型对应的最优特征子集,利用GBDT模型对数据集中环境参数数据进行训练,得到最优特征子集中每个环境参数的重要程度;根据得到的每个参数的重要程度,分析藻类成因。
实施例三
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现如图1所示的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。
实施例四
本实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如图1所示的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (9)

1.一种基于机器学习的海洋藻类成因分析及浓度预测方法,其特征是,包括以下步骤:
获取大量藻类细胞浓度数据及与浓度相关的环境参数,构建数据集,并对其进行标准化处理,将处理后的数据集划分为训练集与测试集;所述浓度相关的环境参数包括水温、氨、叶绿素、亚硝酸盐、硅酸盐或褐藻黄素中的多种;
采用穷举法对训练集中环境参数进行特征选择,得到多种特征子集,将所有特征子集在多种不同的机器学习算法上进行多次10折交叉验证,得到每种机器学习算法对应的最优特征子集及其评价指标,所述评价指标为均方根误差MSE或拟合优度R2,表示预测值与实际值的匹配程度,取多次10折交叉验证得到的每个机器学习算法多个评价指标的平均值作为每个机器学习算法最终的评价指标;
将所有机器学习算法的评价指标进行比较,选取评价指标最优的机器学习算法作为最优预测模型,将其对应的最优特征子集作为最终的最优特征子集;
利用最优预测模型预测最优特征子集对应的藻类浓度;
利用GBDT模型对数据集中环境参数数据进行训练,得到最优特征子集中每个环境参数的重要程度,利用每个环境参数的重要程度,分析藻类成因。
2.根据权利要求1所述的基于机器学习的海洋藻类成因分析及浓度预测方法,其特征是,所述机器学习算法包括支持向量机算法、随机森林算法、梯度提升树、迭代算法及邻近算法。
3.根据权利要求1所述的基于机器学习的海洋藻类成因分析及浓度预测方法,其特征是,分别对数据集中藻类细胞浓度数据以及每个藻类细胞浓度对应的环境参数按列进行z-zero标准化处理;将标准化处理后的数据集中一部分数据划分为训练集,另一部分数据划分为测试集。
4.根据权利要求1所述的基于机器学习的海洋藻类成因分析及浓度预测方法,其特征是,将所有特征子集在机器学习算法上进行多次10折交叉验证的步骤包括:
将多种特征子集划分为10组,将9组特征子集在机器学习算法进行训练,并利用剩余的1组特征子集验证训练结果;
重复进行上述步骤多次,得到多个评价指标;
取多个评价指标的平均值作为机器学习算法的评级指标;
根据机器学习算法的评价指标,选取该机器学习算法对应的最优特征子集。
5.根据权利要求1所述的基于机器学习的海洋藻类成因分析及浓度预测方法,其特征是,所述利用最优的预测模型预测藻类细胞浓度的步骤包括:
按照最优特征子集再次将数据集划分成训练集和测试集,利用训练集对最优预测模型进行训练;
将测试集中数据输入训练好的预测模型进行预测,得到最优特征子集对应的藻类细胞浓度。
6.根据权利要求1所述的基于机器学习的海洋藻类成因分析及浓度预测方法,其特征是,所述最优特征子集中每个环境参数的重要程度的确定方法为:
按照最优预测模型所对应的最优特征子集将数据集中所有环境参数数据进行切割,并分别送入GBDT模型进行训练;
计算GBDT模型中所有CART树模型上最优特征子集中每个环境参数重要程度之和的平均值,得到最优特征子集中每个环境参数的重要程度。
7.一种基于机器学习的海洋藻类成因分析及浓度预测系统,其特征是,包括:
数据获取模块,用于获取大量藻类细胞浓度数据及与浓度相关的环境参数,构建数据集,并对其进行标准化处理,将处理后的数据集划分为训练集与测试集;所述浓度相关的环境参数包括水温、氨、叶绿素、亚硝酸盐、硅酸盐或褐藻黄素中的多种;
最优预测模型选择模块,采用穷举法用于对训练集中环境参数进行特征选择,得到多种特征子集,将所有特征子集在多种不同的机器学习算法上进行多次10折交叉验证,得到每种机器学习算法对应的最优特征子集及其评价指标;所述评价指标为均方根误差MSE或拟合优度R2,表示预测值与实际值的匹配程度,取多次10折交叉验证得到的每个机器学习算法多个评价指标的平均值作为每个机器学习算法最终的评价指标;将所有机器学习算法的评价指标进行比较,选取评价指标最优的机器学习算法作为最优预测模型,将该机器学习算法对应的最优特征子集作为最终的最优特征子集;
藻类浓度预测模块,用于利用最优预测模型预测最优特征子集对应的藻类浓度;
藻类成因分析模块,用于基于最优预测模型对应的最优特征子集,利用GBDT模型对数据集中环境参数数据进行训练,得到最优特征子集中每个环境参数的重要程度;根据得到的每个参数的重要程度,分析藻类成因。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现如权利要求1-6中任一项所述的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。
CN201910487618.8A 2019-06-05 2019-06-05 基于机器学习的海洋藻类成因分析及浓度预测方法和系统 Active CN110379463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910487618.8A CN110379463B (zh) 2019-06-05 2019-06-05 基于机器学习的海洋藻类成因分析及浓度预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910487618.8A CN110379463B (zh) 2019-06-05 2019-06-05 基于机器学习的海洋藻类成因分析及浓度预测方法和系统

Publications (2)

Publication Number Publication Date
CN110379463A CN110379463A (zh) 2019-10-25
CN110379463B true CN110379463B (zh) 2021-10-26

Family

ID=68249814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910487618.8A Active CN110379463B (zh) 2019-06-05 2019-06-05 基于机器学习的海洋藻类成因分析及浓度预测方法和系统

Country Status (1)

Country Link
CN (1) CN110379463B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024039553A1 (en) * 2022-08-17 2024-02-22 X Development Llc Data informed ocean simulations

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052195A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 测井曲线异常值标注方法、装置、计算机设备和存储介质
CN111445991A (zh) * 2020-03-31 2020-07-24 深圳市恒泰生命科学技术发展有限公司 一种基于细胞转录组数据进行临床免疫监测的方法
CN111723944B (zh) * 2020-05-29 2024-03-22 北京熙诚紫光科技有限公司 基于多种机器学习的chf预测方法及装置
CN113824580B (zh) * 2020-06-19 2024-08-16 北京市天元网络技术股份有限公司 一种网络指标预警方法及系统
CN111933212B (zh) * 2020-08-26 2024-02-27 腾讯科技(深圳)有限公司 一种基于机器学习的临床组学数据处理方法及装置
CN112309495B (zh) * 2020-10-30 2022-12-09 山东大学 基于机器学习的海藻固碳蛋白预测方法及系统
CN112415892B (zh) * 2020-11-09 2022-05-03 东风汽车集团有限公司 一种汽油机起动标定控制参数优化方法
CN112687355A (zh) * 2020-12-04 2021-04-20 复旦大学 一种机器学习辅助的聚合物合成逆分析方法
CN112674779B (zh) * 2020-12-25 2022-11-15 西华大学 一种基于ecg信号的睡眠自动分期方法
CN113111588B (zh) * 2021-04-23 2023-01-24 中国大唐集团科学技术研究院有限公司华东电力试验研究院 一种燃气轮机nox排放浓度预测方法及装置
CN113656930B (zh) * 2021-06-24 2023-11-17 华北理工大学 采用机器学习算法对单渣法冶炼终点磷含量的预测方法
CN113780287A (zh) * 2021-07-30 2021-12-10 武汉中海庭数据技术有限公司 一种多深度学习模型的最优选取方法及系统
CN114242156A (zh) * 2021-12-17 2022-03-25 厦门大学 海洋微塑料上致病性弧菌相对丰度的实时预测方法及系统
CN115182395B (zh) * 2022-06-29 2024-06-04 山东大学 一种海底地层稳定性评估预测方法及系统
CN115453064B (zh) * 2022-09-22 2023-09-05 山东大学 一种细颗粒物空气污染成因分析方法及系统
CN115691691A (zh) * 2022-12-03 2023-02-03 湖南大学 一种基于机器学习的新污染物反应活性预测方法
CN116307081A (zh) * 2023-02-03 2023-06-23 中国环境科学研究院 一种基于机器学习算法预测赤潮发生的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720615B2 (en) * 2006-03-20 2010-05-18 Sensis Corporation System for detection and prediction of water quality events
CN102998664A (zh) * 2012-10-29 2013-03-27 中国科学院对地观测与数字地球科学中心 一种基于合成孔径雷达的水华识别方法及装置
CN103678910A (zh) * 2013-12-12 2014-03-26 河海大学 河道型水库支流库湾水华的云体系架构预警系统及方法
CN106295121A (zh) * 2016-07-21 2017-01-04 天津大学 景观湖泊贝叶斯水质风险预测方法
CN107085705A (zh) * 2017-03-28 2017-08-22 中国林业科学研究院资源信息研究所 一种高效特征选择的森林参数遥感估测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101533000B (zh) * 2009-03-05 2012-07-25 重庆大学 一种构建水体富营养化风险分析模型的方法
CN106484976B (zh) * 2016-09-28 2019-05-07 西安交通大学 赤潮监测预警系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720615B2 (en) * 2006-03-20 2010-05-18 Sensis Corporation System for detection and prediction of water quality events
CN102998664A (zh) * 2012-10-29 2013-03-27 中国科学院对地观测与数字地球科学中心 一种基于合成孔径雷达的水华识别方法及装置
CN103678910A (zh) * 2013-12-12 2014-03-26 河海大学 河道型水库支流库湾水华的云体系架构预警系统及方法
CN106295121A (zh) * 2016-07-21 2017-01-04 天津大学 景观湖泊贝叶斯水质风险预测方法
CN107085705A (zh) * 2017-03-28 2017-08-22 中国林业科学研究院资源信息研究所 一种高效特征选择的森林参数遥感估测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Application of feature selection and regression models for chlorophyll-a prediction in a shallow lake;Xue Li et.al;《Environmental Science and Pollution Research》;20180505;第19488-19497页 *
数据挖掘技术在电梯应急处置与安全监管中的应用;陆二伟;《中国优秀硕士学位论文全文数据库 工程科技II辑》;20190115(第12期);第43,49-50页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024039553A1 (en) * 2022-08-17 2024-02-22 X Development Llc Data informed ocean simulations

Also Published As

Publication number Publication date
CN110379463A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110379463B (zh) 基于机器学习的海洋藻类成因分析及浓度预测方法和系统
Dilmi et al. A novel approach for water quality classification based on the integration of deep learning and feature extraction techniques
Liu et al. Fault diagnosis of water quality monitoring devices based on multiclass support vector machines and rule-based decision trees
Wu et al. Complex system fault diagnosis based on a fuzzy robust wavelet support vector classifier and an adaptive Gaussian particle swarm optimization
Yun Prediction model of algal blooms using logistic regression and confusion matrix
Chen et al. Machine fault classification using deep belief network
Cheng et al. Monitoring influent conditions of wastewater treatment plants by nonlinear data-based techniques
CN110969304A (zh) 数字工厂生产产能预测方法、系统、装置
Sokolov et al. Research of classical machine learning methods and deep learning models effectiveness in detecting anomalies of industrial control system
CN111753891A (zh) 一种无监督特征学习的滚动轴承故障诊断方法
CN117164103B (zh) 生活污水处理系统的智能控制方法、终端及系统
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
CN112967755A (zh) 一种面向单细胞rna测序数据的细胞类型识别方法
CN116245019A (zh) 一种基于Bagging抽样及改进随机森林算法的负荷预测方法、系统、装置及存储介质
CN112966770B (zh) 基于集成混合模型的故障预测方法、装置及相关设备
CN117594132A (zh) 基于鲁棒性残差图卷积网络的单细胞rna序列数据聚类方法
CN117635361A (zh) 一种基于集成学习的金枪鱼渔场预测方法及系统
CN112001436A (zh) 一种基于改进的极限学习机的水质分类方法
Wu et al. Process monitoring of nonlinear uncertain systems based on part interval stacked autoencoder and support vector data description
Pagadala et al. Water Quality Prediction Using Machine Learning Techniques
Shin et al. The prediction of diatom abundance by comparison of various machine learning methods
Murugesan et al. Mitigating Missing Rate and Early Cyberattack Discrimination Using Optimal Statistical Approach with Machine Learning Techniques in a Smart Grid
Samaké et al. Acceptance and rejection zones for a classifier’s predictions in deep learning
CN113904801B (zh) 一种网络入侵检测方法及系统
Kirthana et al. Machine Learning Techniques for wastwewater treatment plants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant