CN109524062A

CN109524062A - 一种基于随机森林算法的离子浓度预测方法

Info

Publication number: CN109524062A
Application number: CN201811257092.6A
Authority: CN
Inventors: 刘军; 张苏沛
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-26

Abstract

一种基于随机森林算法的离子浓度预测方法，所述方法包括如下步骤：样本采集得到离子浓度数据以及与离子浓度相关的数据；对样本采集得到的所有数据进行标准化处理得到初始样本集；从初始样本集有放回地抽取一部分初始样本组成一组训练集，剩下的样本组成一组测试集；选定CART决策树作为随机森林算法中的弱学习算法对训练集训练得到弱学习机，共进行K次迭代，从而得到弱学习机序列，序列中包含各弱学习机h₁，h₂....h_k，该序列即为强学习机H；利用强学习机H对待测样本进行预测，对预测值取平均值得到测试样本的预测值。根据本发明提供的基于随机森林算法的离子浓度预测方法，用于预测离子浓度，具有极佳的拟合效果，该预测模型描述离子浓度具有较好的精确度。

Description

一种基于随机森林算法的离子浓度预测方法

技术领域

本发明属于离子浓度预测领域，具体涉及一种基于随机森林算法的离子浓度预测方法。

背景技术

目前，为缓解供需矛盾，自2002年开始，国家投资开发公司开始在罗布泊开发钾盐，目前新疆罗布泊已成为中国重要的钾肥生产基地，并且已经形成从单一钾肥开发到盐湖化工、能源化工等多种产业模式。

盐场主要通过太阳能分级蒸发卤水来获取其中的离子资源，包括Na+， K+，Mg²⁺等。其中氯化钠可以用于制作碱化工产品，含钾光卤石用于生产钾肥，水氯镁石是镁工业的主要原料。在提取过程中，根据离子浓度的不同，采集和去除杂质的方法也有所不同，因此通过预测盐田某位置离子的浓度，可以有效提高采集效率，降低成本，节约能源。随机森林作为一种常用的集成建模方法，以以决策树为基学习器，通过将若干个建立好的模型所得到的结果进行综合得到一个模型，而最后的预测结构由所有模型的预测结果平均而得。随机森林的最大优势是每个决策树均利用所有样本中的一部分，并只抽取其中一部分属性进行建模。这种做法能极大的提高模型的多样性，最小化了各棵决策树的相关性。依照集成学习理论来说，基学习器的多样性越强，其泛化能力就越高。

发明内容

本发明解决的技术问题为：提供一种基于随机森林的离子浓度回归预测方法，用以预测离子浓度，具有极佳的拟合效果，预测模型描述离子浓度具有较好的精确度。

本发明提供的具体解决方案包括如下步骤：

1)样本采集得到离子浓度数据以及与离子浓度相关的数据；

2)对样本采集得到的所有数据进行标准化处理得到初始样本集；

3)从初始样本集有放回地抽取一部分初始样本组成一组训练集，剩下的样本组成一组测试集；

4)选定CART决策树作为随机森林算法中的弱学习算法，在建立CART 决策树的过程中，每次随机选择部分特征，在特征属性中选择最佳划分属性，完成训练集样本的训练得到弱学习机。

5)重复步骤3)、4)，得到预测函数序列h，将该预测函数序列h对测试集样本进行预测，计算测试集预测误差，当测试集预测误差小于设定值，终止迭代过程，共进行K次迭代，从而得到弱学习机序列，序列中包含各弱学习机h1，h2....hk，该序列即为强学习机H；

6)将强学习机H作为离子预测模型，将待测样本的离子属性数据输入到强学习机H，强学习机H利用其各个弱学习机h1，h2....hk分别对待测样本进行预测，对预测函数序列的预测值取平均值得到待测样本的预测值。

由此，通过对样本进行有放回的随机抽样，最终生成多个独立的模型，不同模型之间不存在依赖关系，综合不同模型的预测结果，对回归问题取平均值，预测模型预测离子浓度具有较好的精确度。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步，所述步骤1)中样本采集的内容包括离子种类、采集时间、采集地点的纵横坐标、盐池编号以及相应的离子浓度等，其中离子种类、采集时间、采集地点的纵横坐标和盐池编号等作为特征属性，离子浓度为预测目标。

进一步，所述步骤2)对采集到的所有数据进行标准化处理，将采集得到的数据信息如采集时间、采集地点纵横坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0，方差为1的空间内。

标准化可以在不改变原始数据分布的情况下，使得不同度量的特征之间具有可比性。

进一步，所述步骤3)利用系统产生的随机数，从初始样本集按照一定的比例抽取初始样本组成训练集，剩下的初始样本组成测试集。

具体的，组成每组训练集的样本数量在初始样本集样品数量的50％-90％之间，所述初始样本集样品的数量为1000-3000个。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为基于随机森林算法的离子浓度预测方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

结合附图1，根据本发明的实施例包括如下步骤：

1)样本采集得到离子浓度数据以及与离子浓度相关的数据；

3)从初始样本集抽取一部分初始样本(有放回)组成一组训练集，剩下的样本组成一组测试集；

6)将强学习机H作为离子预测模型，将待测样本的离子属性数据输入到强学习机H，强学习机H利用其各个弱学习机h1，h2....hk分别对待测样本进行预测，对预测函数序列的预测值取平均值得到待测样本的预测值

优选地，利用随机搜索对模型参数进行优化，利用测试集样样本的预测均方差MSE数值评价模型优化结果，得到最佳优化参数，停止调参。

具体的，参数优化过程中，利用模型对测试集进行预测，以测试集样本的均方误差来评估预测结果的精确度，当均方差MSE小于设定值，停止迭代，确定相关参数如决策树个数N、内部节点划分最小样本数、节点最少的样本数、决策树最大特征数、最大深度等。

均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE。MSE 是衡量平均误差的一种较方便的方法，MSE可以评价数据的变化程度，MSE 的值越小，说明预测模型描述实验数据具有更好的精确度。

其数学公式为：

其中D＝{(x₁，y₁)，(x₂，y₂)，…(x_m，y_m)}代表数据集，y_i表示自变量xi 的真实值，f表示训练完成的算法模型，f(x_i)为算法模型根据自变量xi 计算出的预测值。

进一步，所述步骤3)利用系统产生的随机数，从初始样本集按照一定的比例抽取初始样本组成训练集，剩下的初始样本组成测试集

具体地，训练集S样本数量为初始样本集样品数量的50％～90％之间，所述初始样本集样品的数量为1000～3000个。

实施例1：

采集1324个离子浓度相关数据，将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0，方差为1的空间内，每次抽取初始样本集数量75％的样本作为训练集，选定CART决策树作为集成学习随机森林算法中的弱学习算法，对该弱学习算法循环调用，对训练集样品进行训练，优化参数得到决策树个数 400，内部节点划分最小样本数为2，节点最少的样本1、决策树最大特征数sqrt(N)(N，N代表特征属性的个数)，测试集的测试误差为：R²＝0.97441， MSE＝0.2056，停止迭代，得到弱学习机序列h1，h2....h400，该序列即为强学习机H；将强学习机H作为离子预测模型，将待测样品的离子属性数据输入到强学习机H，强学习机H利用其各个弱学习机h1，h2....h400对待测样本进行预测，对预测函数序列的预测值取平均值得到待测样本的预测值。

实施例2：

采集1324个离子浓度相关数据，将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0，方差为1的空间内，每次抽取初始样本集数量50％的样本作为训练集，选定CART决策树作为集成学习随机森林算法中的弱学习算法，对该弱学习算法循环调用，对训练集样品进行训练，优化参数得到决策树个数 650，内部节点划分最小样本数为2，节点最少的样本为1、决策树最大特征数为sqrt(N)(N，N代表特征属性的个数)，测试集的测试误差为：R²＝0.95441， MSE＝0.2105，停止迭代，得到弱学习机序列h1，h2....h650，该序列即为强学习机H；将强学习机H作为离子预测模型，将待测样品的离子属性数据输入到强学习机H，强学习机H利用其各个弱学习机h1，h2....h500对待测样本进行预测，对预测函数序列的预测值取平均值得到测试样本的预测值。

实施例3：

采集1324个离子浓度相关数据，将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0，方差为1的空间内，每次抽取和初始样本集数量相同的样本作为训练集，选定CART决策树作为集成学习随机森林算法中的弱学习算法，对该弱学习算法循环调用，对训练集样品进行训练，优化参数得到最佳优化参数决策树个数389，内部节点划分最小样本数为2，节点最少的样本为1、决策树最大特征数为sqrt(N)(N，N代表特征属性的个数)，测试集的测试误差为：R²＝0.96841，MSE＝0.2116，停止迭代，得到弱学习机序列h1， h2....h389，该序列即为强学习机H；将强学习机H作为离子预测模型，将待测样品的离子属性数据输入到强学习机H，强学习机H利用其各个弱学习机h1，h2....h389对待测样本进行预测，对预测函数序列的预测值取平均值得到测试样本的预测值。

实施例4

采集2896个离子浓度相关数据，将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0，方差为1的空间内，每次抽取初始样本集数量75％的样本作为训练集，选定CART决策树作为集成学习随机森林算法中的弱学习算法，对该弱学习算法循环调用，对训练集样品进行训练，优化参数得到最佳优化参数决策树个数980，内部节点划分最小样本数为2，节点最少的样本为1、决策树最大特征数为sqrt(N)(N，N代表特征属性的个数)，测试集的测试误差为：R2＝0.95441，MSE＝0.2205，停止迭代，得到弱学习机序列h1，h2....h980，该序列即为强学习机H；将强学习机H作为离子预测模型，将待测样品的离子属性数据输入到强学习机H，强学习机H利用其各个弱学习机h1， h2....h980对待测样本进行预测，对预测函数序列的预测值取平均值得到测试样本的预测值。

实施例5：

采集2896个离子浓度相关数据，将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0，方差为1的空间内，每次抽取初始样本集数量50％的样本作为训练集，选定CART决策树作为集成学习随机森林算法中的弱学习算法，对该弱学习算法循环调用，对训练集样品进行训练，优化参数得到最佳优化参数决策树个数1203，内部节点划分最小样本数为2，节点最少的样本为1、决策树最大特征数为sqrt(N)(N，N代表特征属性的个数)，测试集的测试误差为：R2＝0.9478，MSE＝0.2298，停止迭代，得到弱学习机序列h1， h2....h1203，该序列即为强学习机H；将强学习机H作为离子预测模型，将待测样品的离子属性数据输入到强学习机H，强学习机H利用其各个弱学习机h1，h2....h1203对待测样本进行预测，对预测函数序列的预测值取平均值得到测试样本的预测值。

实施例6:

采集2896个离子浓度相关数据，将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0，方差为1的空间内，每次抽取初始样本集数量相同的的样本数量作为训练集，选定CART决策树作为集成学习随机森林算法中的弱学习算法，对该弱学习算法循环调用，对训练集样品进行训练，优化参数得到最佳优化参数决策树个数678，内部节点划分最小样本数为2，节点最少的样本为1、决策树最大特征数为sqrt(N)(N，N代表特征属性的个数)，测试集的测试误差为：R2＝0.9620，MSE＝0.2178，停止迭代，得到弱学习机序列h1， h2....h678，该序列即为强学习机H；将强学习机H作为离子预测模型，将待测样品的离子属性数据输入到强学习机H，强学习机H利用其各个弱学习机h1，h2....h678对待测样本进行预测，对预测函数序列的预测值取平均值得到测试样本的预测值。

尽管上面已经详细描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于随机森林算法的离子浓度预测方法，其特征在于，所述的方法包括如下步骤：

1)样本采集得到离子浓度数据以及与离子浓度相关的数据；

4)选定CART决策树作为随机森林算法中的弱学习算法，在建立CART决策树的过程中，每次随机选择部分特征，在特征属性中选择最佳划分属性，完成训练集样本的训练得到弱学习机；

5)重复步骤3)、4)，得到预测函数序列h，将该预测函数序列h对测试集样本进行预测，计算测试集预测误差，当测试集预测误差小于设定值，终止迭代过程，共进行K次迭代，从而得到弱学习机序列，序列中包含各弱学习机h₁，h₂....h_k，该序列即为强学习机H；

6)将强学习机H作为离子预测模型，将待测样本的离子属性数据输入到强学习机H，强学习机H利用其各个弱学习机h₁，h₂....h_k分别对待测样本进行预测，对预测函数序列的预测值取平均值得到待测样本的预测值。

2.根据权利要求1所述的基于随机森林算法的离子浓度预测方法，其特征在于，所述步骤1)中样本采集的内容包括离子种类、采集时间、采集地点的纵横坐标、盐池编号以及相应的离子浓度等，其中离子种类、采集时间、采集地点的纵横坐标和盐池编号等作为特征属性，离子浓度为预测目标。

3.根据权利要求1所述的基于随机森林算法的离子浓度预测方法，其特征在于，所述步骤2)对采集到的所有数据进行标准化处理，将采集得到的数据信息如采集时间、采集地点纵横坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0，方差为1的空间内。

4.根据权利要求1所述的基于随机森林算法的离子浓度预测方法，其特征在于，所述步骤3)利用系统产生的随机数，从初始样本集按照一定的比例抽取初始样本组成训练集，剩下的的初始样本组成测试集。