CN110379463B

CN110379463B - 基于机器学习的海洋藻类成因分析及浓度预测方法和系统

Info

Publication number: CN110379463B
Application number: CN201910487618.8A
Authority: CN
Inventors: 高瑞; 于沛轩; 刘治平; 张道良
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2021-10-26
Anticipated expiration: 2039-06-05
Also published as: CN110379463A

Abstract

本发明公开了一种基于机器学习的海洋藻类成因分析及浓度预测方法和系统，该方法包括以下步骤：构建数据集，并对其进行标准化处理，将处理后的数据集划分为训练集与测试集；对训练集中环境参数进行特征选择，得到多种特征子集，将所有特征子集在多种不同的机器学习算法上进行多次验证，得到每种机器学习算法对应的最优特征子集及其评价指标；选取评价指标最优的机器学习算法作为最优预测模型；利用最优预测模型预测最优特征子集对应的藻类浓度；利用GBDT模型对数据集中环境参数数据进行训练，得到最优特征子集中每个环境参数的重要程度，利用每个环境参数的重要程度，分析藻类成因。

Description

基于机器学习的海洋藻类成因分析及浓度预测方法和系统

技术领域

本公开涉及有害藻华预测技术领域，具体涉及一种基于机器学习的海洋藻类成因分析及浓度预测方法和系统。

背景技术

在针对有害藻华预测问题的研究中，现有的有害藻华预测方法主要有：非线性动力学、统计预测法、机器学习预测法等。

非线性动力学方法理论研究单种群赤潮藻类、多种群赤潮藻类以及赤潮食物链的生态动力学行为，阐明了模型的非线性动力学特性，提出赤潮发生的生态动力学机制。但当特征数目较多的时候求解将十分困难。

统计预测方法适合对大量的数据资料进行统计分析，以求得比较准确的预测结果和理论方法。藻华的浓度数据往往为时间序列，因此可以用时间序列的预测方法进行预测。但这种方法对于序列的形式有一定的要求，需满足平稳性，且其预测结果与环境物理参数无关，无法反映相关性。

随着计算机软件技术，人工智能的发展，人们开始探索将机器学习技术应用于赤潮预测上。机器学习方法不需要提出复杂的动力学方程，且可以更好的适用于各种非线性条件下。

发明内容

为了克服上述现有技术的不足，本公开提供了一种基于机器学习的海洋藻类成因分析及浓度预测方法和系统，找出有害藻华发生的影响因素，并对水体中藻类细胞浓度进行预测。

本公开一方面提供的基于机器学习的海洋藻类成因分析及浓度预测方法的技术方案是：

一种基于机器学习的海洋藻类成因分析及浓度预测方法，该方法包括以下步骤：

获取大量藻类细胞浓度数据及与浓度相关的环境参数，构建数据集，并对其进行标准化处理，将处理后的数据集划分为训练集与测试集；

对训练集中环境参数进行特征选择，得到多种特征子集，将所有特征子集在多种不同的机器学习算法上进行多次10折交叉验证，得到每种机器学习算法对应的最优特征子集及其评价指标；

将所有机器学习算法的评价指标进行比较，选取评价指标最优的机器学习算法作为最优预测模型，将其对应的最优特征子集作为最终的最优特征子集；

利用最优预测模型预测最优特征子集对应的藻类浓度；

利用GBDT模型对数据集中环境参数数据进行训练，得到最优特征子集中每个环境参数的重要程度，利用每个环境参数的重要程度，分析藻类成因。

本公开另一方面提供的基于机器学习的海洋藻类成因分析及浓度预测系统的技术方案是：

一种基于机器学习的海洋藻类成因分析及浓度预测系统，包括：

数据获取模块，用于获取大量藻类细胞浓度数据及与浓度相关的环境参数，构建数据集，并对其进行标准化处理，将处理后的数据集划分为训练集与测试集；

最优预测模型选择模块，用于对训练集中环境参数进行特征选择，得到多种特征子集，将所有特征子集在多种不同的机器学习算法上进行多次10折交叉验证，得到每种机器学习算法对应的最优特征子集及其评价指标；将所有机器学习算法的评价指标进行比较，选取评价指标最优的机器学习算法作为最优预测模型，将该机器学习算法对应的最优特征子集作为最终的最优特征子集；

藻类浓度预测模块，用于利用最优预测模型预测最优特征子集对应的藻类浓度；

藻类成因分析模块，用于基于最优预测模型对应的最优特征子集，利用GBDT模型对数据集中环境参数数据进行训练，得到最优特征子集中每个环境参数的重要程度；根据得到的每个参数的重要程度，分析藻类成因。

本公开一方面提供的计算机可读存储介质的技术方案是：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。

本公开一方面提供的计算机设备的技术方案是：

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。

通过上述技术方案，本公开的有益效果是：

(1)本公开不但可以对藻类浓度进行预测，也可以得到影响其浓度的关键因素；

(2)本公开可以对不同的环境及藻类采用不同的算法与特征子集；

(3)本公开采用穷举法的方法保证可以得到基于样本集的最优解，同时由于与藻类相关的物理、化学、生物因素的数目不会太多，采用10折交叉验证保证了训练速度，也提高了模型的泛化性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本申请，并不构成对本公开的不当限定。

图1是实施例一基于机器学习的海洋藻类成因分析及浓度预测方法的流程图；

图2是实施例一南加州海岸海洋观测系统测量的部分数据示意图；

图3是实施例一预测结果示意图；

图4是实施例一每种参数对藻类浓度影响的重要程度示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

名称解释：

(1)z-zero标准化，叫标准差标准化，这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，注意，一般来说z-score不是归一化，而是标准化，归一化只是标准化的一种。

(2)SVM，支持向量机算法，是一种分类回归算法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

(3)RandomForest，随机森林算法，属于集成学习中的bagging方法。是指利用多棵决策树对样本进行训练并预测的一种算法，也是一个包含多个决策树的算法，对于分类问题，其输出的类别是由多个决策树输出的类别的众数来决定的，对于回归问题，通常使用简单平均法，对多个决策树得到的回归结果进行算术平均得到最终的模型输出。

(4)GBDT，梯度提升树，属于集成学习中的boosting方法。是一种基于决策树(decision tree)实现的分类回归算法，该算法底层基于回归树和函数空间的梯度降算法，除了具有树模型的可解释性强、有效处理混合类型的特征、伸缩不变性、对缺失值鲁棒等优点，还具有预测能力强、稳定性好等优势。

(5)Adaboost，属于集成学习中的boosting算法。是一种迭代算法，其核心思想是针对同一个训练集，不断对预测错的数据进行预测，增大其对应弱分类器的权重，训练不同的分类器(弱分类器)，然后把这些弱分类器根据权重集合起来，构成一个更强的最终分类器(强分类器)。

(6)KNN，邻近算法，或者说K最近邻分类算法，是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

实施例一

本实施例提供一种基于机器学习的海洋藻类成因分析及浓度预测方法，找出有害藻华发生的影响因素，并对水体中藻类细胞浓度进行预测。

请参阅附图1，所述基于机器学习的海洋藻类成因分析及浓度预测方法包括以下步骤：

S101，获取包含有藻类细胞浓度数据及与浓度相关的环境参数，构建数据集。

具体地，获取海洋观测系统测量的大量包含有藻类细胞浓度数据，对于每一个藻类细胞浓度都对应一组环境参数，包括水温、氨、叶绿素、亚硝酸盐、硅酸盐等。利用所有藻类细胞浓度数据以及每个藻类细胞浓度对应的环境参数，构建数据集。

S102，对数据集中数据进行z-zero标准化处理，并将标准化处理后的数据集划分为训练集与测试集。

具体地，分别对数据集中藻类细胞浓度数据以及每个藻类细胞浓度对应的环境参数按列进行z-zero标准化处理，消除量纲产生的影响。

z-zero标准化处理的公式如下：

其中，x'为标准化后数据，x_i为原始数据，

为原始数据的平均值，x_std为原始数据的标准差。

对标准化处理后的数据集进行划分，将70％数据划分为训练集，将30％数据划分为测试集。

S103，对训练集中浓度对应的环境参数进行特征选择，得到多种特征子集，将所有特征子集在不同的机器学习算法上进行多次10折交叉验证，得到每种机器学习算法下表现最优的特征子集及其评价指标。

具体地，采用穷举法从训练集中选择每个藻类细胞浓度对应的环境参数特征，得到2ⁿ-1种特征子集。采用穷举法选取所有的特征子集实现方法如下：

假设一个浓度数据对应n个环境参数特征，则每次随机抽取1个特征(

种情况)、随机抽取2个特征(

种情况)、抽取全部特征(

种情况)，构建特征子集，最终获得共2ⁿ-1个特征子集。

分别将2ⁿ-1个特征子集在不同的机器学习算法上进行多次10折交叉验证，得到每个机器学习算法多个预测值与实际值匹配程度的评价指标，该评价指标为均方根误差MSE或拟合优度R²。取多次10折交叉验证得到的每个机器学习算法多个评价指标的平均值作为每个机器学习算法最终的评价指标，并根据每个机器学习算法最终的评价指标，选取每种机器学习算法下精度最优的特征子集。

所述机器学习算法包括支持向量机算法SVM、随机森林算法RandomForest、梯度提升树GBDT、迭代算法Adaboost、邻近算法KNN。

在本实施例中，根据数据集中藻类细胞浓度值的分布情况，采用均方根误差(MSE)或拟合优度(R²)作为预测值与实际值匹配程度的评价指标，对于多轮交叉验证，将该指标取平均值作为最终的评价指标。

均方根误差MSE的计算公式为：

其中，n为样本总数，y_i为实际值，

为预测值。

拟合优度R²的计算公式为：

其中，n为样本总数，y_i为实际值，

为预测值，

为样本平均值。

在本实施例中，针对每种机器学习算法，将2ⁿ-1个特征子集在机器学习算法上进行10折交叉验证的方法为：

将2ⁿ-1个特征子集划分为10组，将9组特征子集在该机器学习算法进行训练，并利用剩余的1组特征子集验证训练结果，重复进行多次，得到多个预测值与实际值匹配程度的评价指标MSE或R²；

由于单轮10折交叉验证划分数据具有随机性，因此需要进行多轮10折交叉验证。

取多轮10折交叉验证得到的该机器学习算法的多个评价指标的平均值作为该机器学习算法最终的评价指标；

根据该机器学习算法最终的评价指标，选取该机器学习算法下精度最优的特征子集。

在本实施例中，重复次数可根据训练时间调整，一般可取10-100次。

S104，选取最优的预测模型及对应的特征子集。

具体地，将每种机器学习算法的评价指标相比较，选择评价指标最好的机器学习算法作为最优的预测模型，将该机器算法对应的最优特征子集作为最优的预测模型对应的最优特征子集。

当评价指标为MSE指标时，选取最小MSE指标对应的机器学习算法法作为最优的预测模型，当评价指标为R2指标时，选取最大R2指标对应的机器学习算法法作为最优的预测模型。

S105，利用最优的预测模型预测最优特征子集对应的藻类细胞浓度。

按照最优的预测模型对应的最优特征子集再次对数据集进行划分，划分为新的训练集和测试集，利用新的训练集对最优的预测模型进行训练；

基于最优的预测模型的最优特征子集，将测试集中数据输入训练好的预测模型进行预测，得到最优特征子集对应的最终的藻类浓度。

S106，利用GBDT模型对数据集中环境参数数据进行训练，得到最优特征子集中每个参数的影响藻类浓度重要程度，即影响藻类浓度的关键因素重要程度。

具体地，在GBDT模型上对数据集中数据进行训练，得到每个参数的影响藻类浓度重要程度的具体实现方式如下：

将步骤101得到的数据集中所有数据按照最优模型所对应的最优特征子集进行切割，并分别送入GBDT模型进行训练，GBDT模型包含多个CART树模型，CART树在选取根据哪个特征进行划分时，会选取使划分后和方差最小的特征进行划分，因此和方差即可作为特征的重要程度，GBDT中所有CART树模型上重要程度之和的平均值即最终的重要程度。

在本实施例中，可根据得到的每个参数的重要程度，分析藻类成因。

本实施例提出的基于机器学习的海洋藻类成因分析及浓度预测方法，不但可以对藻类浓度进行预测，也可以得到影响其浓度的关键因素，可以对不同的环境参数及藻类采用不同的算法与特征子集，采用穷举法进行环境参数特征选择，保证可以得到基于样本集的最优解，同时由于与藻类相关的环境因素的数目不会太多，采用10折交叉验证保证了训练速度，也提高了模型的泛化性。

为了使本领域的技术人员更好地了解本公开的技术方案，下面列举一个具体实施例。本实施例提供的基于机器学习的海洋藻类成因分析及浓度预测方法包括一种步骤：

S201，数据收集。

该数据来自于美国SCCOOS(南加州海岸海洋观测系统)统计的2008-2018年间的数据，剔除掉了无用、缺失及错误的数据，如图2所示。

S202，对数据集中数据进行z-zero标准化处理，将处理后的数据集划分为训练集(70％)与测试集(30％)。

S203，选择最优的预测模型。

如表1所示，由于SVM算法综合表现最好，因此选取SVM算法作为最终预测模型，并仅使用Ammonia(氨)+Chlorophyll1(叶绿素1)+Nitrite(亚硝酸盐)+Silicate(硅酸盐)+temp(水温)这五个参数预测藻类浓度。

表1各种算法下最优的特征子集

算法	最优特征子集	MSE	R2
				Adaboost	氨+叶绿素1+亚硝酸盐+褐藻黄素1+褐藻黄素2+硅酸盐	0.672	0.956
GBDT	氨+叶绿素+叶绿素1+磷酸盐	0.631	0.936
				KNN	氨+叶绿素l+叶绿素1+水温	0.726	0.948
SVM	氨+叶绿素1+亚硝酸盐+硅酸盐+水温	0.331	0.936

S204，对最优的预测模型进行训练，将测试集中数据输入训练后的预测模型预测，得到最终预测结果。

如图3所示，real线条为原始浓度数据，predict without FS线条为使用全部参数进行预测的结果，predict with FS线条为仅使用上述五种参数的预测结果，可以看到经过特征选择后的预测效果有了明显的提升。

S205，影响浓度的成因分析。

将根据上述五种参数划分后的数据送入GBDT模型进行训练，可以得到每种参数对藻类浓度影响的重要程度，如图4所示。

由图4可以看出，叶绿素a常作为浮游植物丰度的一个标准代表，因此肯定与藻类浓度影响最大，可以说明该方法有一定的正确性。其次，硅酸盐及氨是影响程度第二第三大的因素，因此可以控制水体中硅酸盐或氨的浓度，例如对工业污水或生活废水进行监管，可能也会间接的控制有害藻华的爆发。

实施例二

本实施例提供一种基于机器学习的海洋藻类成因分析及浓度预测系统，该系统包括：

实施例三

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时实现如图1所示的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。

实施例四

本实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如图1所示的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于机器学习的海洋藻类成因分析及浓度预测方法，其特征是，包括以下步骤：

获取大量藻类细胞浓度数据及与浓度相关的环境参数，构建数据集，并对其进行标准化处理，将处理后的数据集划分为训练集与测试集；所述浓度相关的环境参数包括水温、氨、叶绿素、亚硝酸盐、硅酸盐或褐藻黄素中的多种；

采用穷举法对训练集中环境参数进行特征选择，得到多种特征子集，将所有特征子集在多种不同的机器学习算法上进行多次10折交叉验证，得到每种机器学习算法对应的最优特征子集及其评价指标，所述评价指标为均方根误差MSE或拟合优度R2，表示预测值与实际值的匹配程度，取多次10折交叉验证得到的每个机器学习算法多个评价指标的平均值作为每个机器学习算法最终的评价指标；

利用最优预测模型预测最优特征子集对应的藻类浓度；

2.根据权利要求1所述的基于机器学习的海洋藻类成因分析及浓度预测方法，其特征是，所述机器学习算法包括支持向量机算法、随机森林算法、梯度提升树、迭代算法及邻近算法。

3.根据权利要求1所述的基于机器学习的海洋藻类成因分析及浓度预测方法，其特征是，分别对数据集中藻类细胞浓度数据以及每个藻类细胞浓度对应的环境参数按列进行z-zero标准化处理；将标准化处理后的数据集中一部分数据划分为训练集，另一部分数据划分为测试集。

4.根据权利要求1所述的基于机器学习的海洋藻类成因分析及浓度预测方法，其特征是，将所有特征子集在机器学习算法上进行多次10折交叉验证的步骤包括：

将多种特征子集划分为10组，将9组特征子集在机器学习算法进行训练，并利用剩余的1组特征子集验证训练结果；

重复进行上述步骤多次，得到多个评价指标；

取多个评价指标的平均值作为机器学习算法的评级指标；

根据机器学习算法的评价指标，选取该机器学习算法对应的最优特征子集。

5.根据权利要求1所述的基于机器学习的海洋藻类成因分析及浓度预测方法，其特征是，所述利用最优的预测模型预测藻类细胞浓度的步骤包括：

按照最优特征子集再次将数据集划分成训练集和测试集，利用训练集对最优预测模型进行训练；

将测试集中数据输入训练好的预测模型进行预测，得到最优特征子集对应的藻类细胞浓度。

6.根据权利要求1所述的基于机器学习的海洋藻类成因分析及浓度预测方法，其特征是，所述最优特征子集中每个环境参数的重要程度的确定方法为：

按照最优预测模型所对应的最优特征子集将数据集中所有环境参数数据进行切割，并分别送入GBDT模型进行训练；

计算GBDT模型中所有CART树模型上最优特征子集中每个环境参数重要程度之和的平均值，得到最优特征子集中每个环境参数的重要程度。

7.一种基于机器学习的海洋藻类成因分析及浓度预测系统，其特征是，包括：

数据获取模块，用于获取大量藻类细胞浓度数据及与浓度相关的环境参数，构建数据集，并对其进行标准化处理，将处理后的数据集划分为训练集与测试集；所述浓度相关的环境参数包括水温、氨、叶绿素、亚硝酸盐、硅酸盐或褐藻黄素中的多种；

最优预测模型选择模块，采用穷举法用于对训练集中环境参数进行特征选择，得到多种特征子集，将所有特征子集在多种不同的机器学习算法上进行多次10折交叉验证，得到每种机器学习算法对应的最优特征子集及其评价指标；所述评价指标为均方根误差MSE或拟合优度R2，表示预测值与实际值的匹配程度，取多次10折交叉验证得到的每个机器学习算法多个评价指标的平均值作为每个机器学习算法最终的评价指标；将所有机器学习算法的评价指标进行比较，选取评价指标最优的机器学习算法作为最优预测模型，将该机器学习算法对应的最优特征子集作为最终的最优特征子集；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时实现如权利要求1-6中任一项所述的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于机器学习的海洋藻类成因分析及浓度预测方法中的步骤。