CN109524062A - 一种基于随机森林算法的离子浓度预测方法 - Google Patents
一种基于随机森林算法的离子浓度预测方法 Download PDFInfo
- Publication number
- CN109524062A CN109524062A CN201811257092.6A CN201811257092A CN109524062A CN 109524062 A CN109524062 A CN 109524062A CN 201811257092 A CN201811257092 A CN 201811257092A CN 109524062 A CN109524062 A CN 109524062A
- Authority
- CN
- China
- Prior art keywords
- sample
- ion concentration
- learning machine
- training set
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于随机森林算法的离子浓度预测方法,所述方法包括如下步骤:样本采集得到离子浓度数据以及与离子浓度相关的数据;对样本采集得到的所有数据进行标准化处理得到初始样本集;从初始样本集有放回地抽取一部分初始样本组成一组训练集,剩下的样本组成一组测试集;选定CART决策树作为随机森林算法中的弱学习算法对训练集训练得到弱学习机,共进行K次迭代,从而得到弱学习机序列,序列中包含各弱学习机h1,h2....hk,该序列即为强学习机H;利用强学习机H对待测样本进行预测,对预测值取平均值得到测试样本的预测值。根据本发明提供的基于随机森林算法的离子浓度预测方法,用于预测离子浓度,具有极佳的拟合效果,该预测模型描述离子浓度具有较好的精确度。
Description
技术领域
本发明属于离子浓度预测领域,具体涉及一种基于随机森林算法的离子浓度预测方法。
背景技术
目前,为缓解供需矛盾,自2002年开始,国家投资开发公司开始在罗布泊开发钾盐,目前新疆罗布泊已成为中国重要的钾肥生产基地,并且已经形成从单一钾肥开发到盐湖化工、能源化工等多种产业模式。
盐场主要通过太阳能分级蒸发卤水来获取其中的离子资源,包括Na+, K+,Mg2+等。其中氯化钠可以用于制作碱化工产品,含钾光卤石用于生产钾肥,水氯镁石是镁工业的主要原料。在提取过程中,根据离子浓度的不同,采集和去除杂质的方法也有所不同,因此通过预测盐田某位置离子的浓度,可以有效提高采集效率,降低成本,节约能源。随机森林作为一种常用的集成建模方法,以以决策树为基学习器,通过将若干个建立好的模型所得到的结果进行综合得到一个模型,而最后的预测结构由所有模型的预测结果平均而得。随机森林的最大优势是每个决策树均利用所有样本中的一部分,并只抽取其中一部分属性进行建模。这种做法能极大的提高模型的多样性,最小化了各棵决策树的相关性。依照集成学习理论来说,基学习器的多样性越强,其泛化能力就越高。
发明内容
本发明解决的技术问题为:提供一种基于随机森林的离子浓度回归预测方法,用以预测离子浓度,具有极佳的拟合效果,预测模型描述离子浓度具有较好的精确度。
本发明提供的具体解决方案包括如下步骤:
1)样本采集得到离子浓度数据以及与离子浓度相关的数据;
2)对样本采集得到的所有数据进行标准化处理得到初始样本集;
3)从初始样本集有放回地抽取一部分初始样本组成一组训练集,剩下的样本组成一组测试集;
4)选定CART决策树作为随机森林算法中的弱学习算法,在建立CART 决策树的过程中,每次随机选择部分特征,在特征属性中选择最佳划分属性,完成训练集样本的训练得到弱学习机。
5)重复步骤3)、4),得到预测函数序列h,将该预测函数序列h对测试集样本进行预测,计算测试集预测误差,当测试集预测误差小于设定值,终止迭代过程,共进行K次迭代,从而得到弱学习机序列,序列中包含各弱学习机h1,h2....hk,该序列即为强学习机H;
6)将强学习机H作为离子预测模型,将待测样本的离子属性数据输入到强学习机H,强学习机H利用其各个弱学习机h1,h2....hk分别对待测样本进行预测,对预测函数序列的预测值取平均值得到待测样本的预测值。
由此,通过对样本进行有放回的随机抽样,最终生成多个独立的模型,不同模型之间不存在依赖关系,综合不同模型的预测结果,对回归问题取平均值,预测模型预测离子浓度具有较好的精确度。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步,所述步骤1)中样本采集的内容包括离子种类、采集时间、采集地点的纵横坐标、盐池编号以及相应的离子浓度等,其中离子种类、采集时间、采集地点的纵横坐标和盐池编号等作为特征属性,离子浓度为预测目标。
进一步,所述步骤2)对采集到的所有数据进行标准化处理,将采集得到的数据信息如采集时间、采集地点纵横坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0,方差为1的空间内。
标准化可以在不改变原始数据分布的情况下,使得不同度量的特征之间具有可比性。
进一步,所述步骤3)利用系统产生的随机数,从初始样本集按照一定的比例抽取初始样本组成训练集,剩下的初始样本组成测试集。
具体的,组成每组训练集的样本数量在初始样本集样品数量的50%-90%之间,所述初始样本集样品的数量为1000-3000个。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为基于随机森林算法的离子浓度预测方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
结合附图1,根据本发明的实施例包括如下步骤:
1)样本采集得到离子浓度数据以及与离子浓度相关的数据;
2)对样本采集得到的所有数据进行标准化处理得到初始样本集;
3)从初始样本集抽取一部分初始样本(有放回)组成一组训练集,剩下的样本组成一组测试集;
4)选定CART决策树作为随机森林算法中的弱学习算法,在建立CART 决策树的过程中,每次随机选择部分特征,在特征属性中选择最佳划分属性,完成训练集样本的训练得到弱学习机。
5)重复步骤3)、4),得到预测函数序列h,将该预测函数序列h对测试集样本进行预测,计算测试集预测误差,当测试集预测误差小于设定值,终止迭代过程,共进行K次迭代,从而得到弱学习机序列,序列中包含各弱学习机h1,h2....hk,该序列即为强学习机H;
6)将强学习机H作为离子预测模型,将待测样本的离子属性数据输入到强学习机H,强学习机H利用其各个弱学习机h1,h2....hk分别对待测样本进行预测,对预测函数序列的预测值取平均值得到待测样本的预测值
由此,通过对样本进行有放回的随机抽样,最终生成多个独立的模型,不同模型之间不存在依赖关系,综合不同模型的预测结果,对回归问题取平均值,预测模型预测离子浓度具有较好的精确度。
优选地,利用随机搜索对模型参数进行优化,利用测试集样样本的预测均方差MSE数值评价模型优化结果,得到最佳优化参数,停止调参。
具体的,参数优化过程中,利用模型对测试集进行预测,以测试集样本的均方误差来评估预测结果的精确度,当均方差MSE小于设定值,停止迭代,确定相关参数如决策树个数N、内部节点划分最小样本数、节点最少的样本数、决策树最大特征数、最大深度等。
均方误差是指参数估计值与参数真值之差平方的期望值,记为MSE。MSE 是衡量平均误差的一种较方便的方法,MSE可以评价数据的变化程度,MSE 的值越小,说明预测模型描述实验数据具有更好的精确度。
其数学公式为:
其中D={(x1,y1),(x2,y2),…(xm,ym)}代表数据集,yi表示自变量xi 的真实值,f表示训练完成的算法模型,f(xi)为算法模型根据自变量xi 计算出的预测值。
进一步,所述步骤1)中样本采集的内容包括离子种类、采集时间、采集地点的纵横坐标、盐池编号以及相应的离子浓度等,其中离子种类、采集时间、采集地点的纵横坐标和盐池编号等作为特征属性,离子浓度为预测目标。
进一步,所述步骤2)对采集到的所有数据进行标准化处理,将采集得到的数据信息如采集时间、采集地点纵横坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0,方差为1的空间内。
标准化可以在不改变原始数据分布的情况下,使得不同度量的特征之间具有可比性。
进一步,所述步骤3)利用系统产生的随机数,从初始样本集按照一定的比例抽取初始样本组成训练集,剩下的初始样本组成测试集
具体地,训练集S样本数量为初始样本集样品数量的50%~90%之间,所述初始样本集样品的数量为1000~3000个。
实施例1:
采集1324个离子浓度相关数据,将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0,方差为1的空间内,每次抽取初始样本集数量75%的样本作为训练集,选定CART决策树作为集成学习随机森林算法中的弱学习算法,对该弱学习算法循环调用,对训练集样品进行训练,优化参数得到决策树个数 400,内部节点划分最小样本数为2,节点最少的样本1、决策树最大特征数sqrt(N)(N,N代表特征属性的个数),测试集的测试误差为:R2=0.97441, MSE=0.2056,停止迭代,得到弱学习机序列h1,h2....h400,该序列即为强学习机H;将强学习机H作为离子预测模型,将待测样品的离子属性数据输入到强学习机H,强学习机H利用其各个弱学习机h1,h2....h400对待测样本进行预测,对预测函数序列的预测值取平均值得到待测样本的预测值。
实施例2:
采集1324个离子浓度相关数据,将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0,方差为1的空间内,每次抽取初始样本集数量50%的样本作为训练集,选定CART决策树作为集成学习随机森林算法中的弱学习算法,对该弱学习算法循环调用,对训练集样品进行训练,优化参数得到决策树个数 650,内部节点划分最小样本数为2,节点最少的样本为1、决策树最大特征数为sqrt(N)(N,N代表特征属性的个数),测试集的测试误差为:R2=0.95441, MSE=0.2105,停止迭代,得到弱学习机序列h1,h2....h650,该序列即为强学习机H;将强学习机H作为离子预测模型,将待测样品的离子属性数据输入到强学习机H,强学习机H利用其各个弱学习机h1,h2....h500对待测样本进行预测,对预测函数序列的预测值取平均值得到测试样本的预测值。
实施例3:
采集1324个离子浓度相关数据,将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0,方差为1的空间内,每次抽取和初始样本集数量相同的样本作为训练集,选定CART决策树作为集成学习随机森林算法中的弱学习算法,对该弱学习算法循环调用,对训练集样品进行训练,优化参数得到最佳优化参数决策树个数389,内部节点划分最小样本数为2,节点最少的样本为1、决策树最大特征数为sqrt(N)(N,N代表特征属性的个数),测试集的测试误差为:R2=0.96841,MSE=0.2116,停止迭代,得到弱学习机序列h1, h2....h389,该序列即为强学习机H;将强学习机H作为离子预测模型,将待测样品的离子属性数据输入到强学习机H,强学习机H利用其各个弱学习机h1,h2....h389对待测样本进行预测,对预测函数序列的预测值取平均值得到测试样本的预测值。
实施例4
采集2896个离子浓度相关数据,将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0,方差为1的空间内,每次抽取初始样本集数量75%的样本作为训练集,选定CART决策树作为集成学习随机森林算法中的弱学习算法,对该弱学习算法循环调用,对训练集样品进行训练,优化参数得到最佳优化参数决策树个数980,内部节点划分最小样本数为2,节点最少的样本为1、决策树最大特征数为sqrt(N)(N,N代表特征属性的个数),测试集的测试误差为:R2=0.95441,MSE=0.2205,停止迭代,得到弱学习机序列h1,h2....h980,该序列即为强学习机H;将强学习机H作为离子预测模型,将待测样品的离子属性数据输入到强学习机H,强学习机H利用其各个弱学习机h1, h2....h980对待测样本进行预测,对预测函数序列的预测值取平均值得到测试样本的预测值。
实施例5:
采集2896个离子浓度相关数据,将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0,方差为1的空间内,每次抽取初始样本集数量50%的样本作为训练集,选定CART决策树作为集成学习随机森林算法中的弱学习算法,对该弱学习算法循环调用,对训练集样品进行训练,优化参数得到最佳优化参数决策树个数1203,内部节点划分最小样本数为2,节点最少的样本为1、决策树最大特征数为sqrt(N)(N,N代表特征属性的个数),测试集的测试误差为:R2=0.9478,MSE=0.2298,停止迭代,得到弱学习机序列h1, h2....h1203,该序列即为强学习机H;将强学习机H作为离子预测模型,将待测样品的离子属性数据输入到强学习机H,强学习机H利用其各个弱学习机h1,h2....h1203对待测样本进行预测,对预测函数序列的预测值取平均值得到测试样本的预测值。
实施例6:
采集2896个离子浓度相关数据,将采集得到的数据如采集时间、采集地点横纵坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0,方差为1的空间内,每次抽取初始样本集数量相同的的样本数量作为训练集,选定CART决策树作为集成学习随机森林算法中的弱学习算法,对该弱学习算法循环调用,对训练集样品进行训练,优化参数得到最佳优化参数决策树个数678,内部节点划分最小样本数为2,节点最少的样本为1、决策树最大特征数为sqrt(N)(N,N代表特征属性的个数),测试集的测试误差为:R2=0.9620,MSE=0.2178,停止迭代,得到弱学习机序列h1, h2....h678,该序列即为强学习机H;将强学习机H作为离子预测模型,将待测样品的离子属性数据输入到强学习机H,强学习机H利用其各个弱学习机h1,h2....h678对待测样本进行预测,对预测函数序列的预测值取平均值得到测试样本的预测值。
尽管上面已经详细描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (4)
1.一种基于随机森林算法的离子浓度预测方法,其特征在于,所述的方法包括如下步骤:
1)样本采集得到离子浓度数据以及与离子浓度相关的数据;
2)对样本采集得到的所有数据进行标准化处理得到初始样本集;
3)从初始样本集有放回地抽取一部分初始样本组成一组训练集,剩下的样本组成一组测试集;
4)选定CART决策树作为随机森林算法中的弱学习算法,在建立CART决策树的过程中,每次随机选择部分特征,在特征属性中选择最佳划分属性,完成训练集样本的训练得到弱学习机;
5)重复步骤3)、4),得到预测函数序列h,将该预测函数序列h对测试集样本进行预测,计算测试集预测误差,当测试集预测误差小于设定值,终止迭代过程,共进行K次迭代,从而得到弱学习机序列,序列中包含各弱学习机h1,h2....hk,该序列即为强学习机H;
6)将强学习机H作为离子预测模型,将待测样本的离子属性数据输入到强学习机H,强学习机H利用其各个弱学习机h1,h2....hk分别对待测样本进行预测,对预测函数序列的预测值取平均值得到待测样本的预测值。
2.根据权利要求1所述的基于随机森林算法的离子浓度预测方法,其特征在于,所述步骤1)中样本采集的内容包括离子种类、采集时间、采集地点的纵横坐标、盐池编号以及相应的离子浓度等,其中离子种类、采集时间、采集地点的纵横坐标和盐池编号等作为特征属性,离子浓度为预测目标。
3.根据权利要求1所述的基于随机森林算法的离子浓度预测方法,其特征在于,所述步骤2)对采集到的所有数据进行标准化处理,将采集得到的数据信息如采集时间、采集地点纵横坐标、盐池编号以及相应的离子浓度将原始数据通过标准差映射到均值为0,方差为1的空间内。
4.根据权利要求1所述的基于随机森林算法的离子浓度预测方法,其特征在于,所述步骤3)利用系统产生的随机数,从初始样本集按照一定的比例抽取初始样本组成训练集,剩下的的初始样本组成测试集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257092.6A CN109524062A (zh) | 2018-10-26 | 2018-10-26 | 一种基于随机森林算法的离子浓度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257092.6A CN109524062A (zh) | 2018-10-26 | 2018-10-26 | 一种基于随机森林算法的离子浓度预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109524062A true CN109524062A (zh) | 2019-03-26 |
Family
ID=65774091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811257092.6A Pending CN109524062A (zh) | 2018-10-26 | 2018-10-26 | 一种基于随机森林算法的离子浓度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109524062A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113012753A (zh) * | 2021-03-09 | 2021-06-22 | 桂林电子科技大学 | 一种基于集成学习的低密度脂蛋白的数据处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104849328A (zh) * | 2015-05-06 | 2015-08-19 | 浙江大学 | 基于电子舌快速检测果汁中苯甲酸的方法 |
CN106568923A (zh) * | 2016-11-10 | 2017-04-19 | 北京农业质量标准与检测技术研究中心 | 一种土壤重金属含量影响因子评价方法 |
CN107103123A (zh) * | 2017-04-06 | 2017-08-29 | 大连大学 | 基于Bagging‑FSE算法的风洞马赫数混合模型建模方法 |
CN107194138A (zh) * | 2016-01-31 | 2017-09-22 | 青岛睿帮信息技术有限公司 | 一种基于体检数据建模的空腹血糖预测方法 |
-
2018
- 2018-10-26 CN CN201811257092.6A patent/CN109524062A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104849328A (zh) * | 2015-05-06 | 2015-08-19 | 浙江大学 | 基于电子舌快速检测果汁中苯甲酸的方法 |
CN107194138A (zh) * | 2016-01-31 | 2017-09-22 | 青岛睿帮信息技术有限公司 | 一种基于体检数据建模的空腹血糖预测方法 |
CN106568923A (zh) * | 2016-11-10 | 2017-04-19 | 北京农业质量标准与检测技术研究中心 | 一种土壤重金属含量影响因子评价方法 |
CN107103123A (zh) * | 2017-04-06 | 2017-08-29 | 大连大学 | 基于Bagging‑FSE算法的风洞马赫数混合模型建模方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113012753A (zh) * | 2021-03-09 | 2021-06-22 | 桂林电子科技大学 | 一种基于集成学习的低密度脂蛋白的数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106355011B (zh) | 一种地球化学数据元素序结构分析方法及装置 | |
Derot et al. | Advances in forecasting harmful algal blooms using machine learning models: A case study with Planktothrix rubescens in Lake Geneva | |
CN107622185B (zh) | 一种数字pcr浓度计算方法 | |
CN108959741B (zh) | 一种基于海洋物理生态耦合模型的参数优化方法 | |
CN112735514B (zh) | 神经网络提取调控dna组合模式的训练和可视化方法及系统 | |
CN103164631B (zh) | 一种智能协同表达基因分析仪 | |
CN106202998A (zh) | 一种非模式生物转录组基因序列结构分析的方法 | |
CN109524062A (zh) | 一种基于随机森林算法的离子浓度预测方法 | |
CN110390132A (zh) | 基于过程状态空间的有色冶金单元工序数字化和建模方法 | |
CN110738272B (zh) | 一种输电线路通道可视化机械类连续告警样本的标注方法 | |
CN117574690B (zh) | 基于负碳排放的生物炭制备分析方法及相关装置 | |
CN108875310A (zh) | Dna结合蛋白序列信息特征提取与分类方法及装置 | |
CN111159259A (zh) | 基于孤立森林和超限学习机的时间序列鲁棒高效建模方法 | |
CN100370453C (zh) | 稀土串级萃取分离组分含量软测量方法 | |
CN111967677A (zh) | 一种非常规资源甜点分布的预测方法及装置 | |
CN114944198B (zh) | 一种计算机处理采集设备数据的融合方法 | |
CN111126827A (zh) | 一种基于bp人工神经网络的投入产出核算模型构建方法 | |
CN116343910A (zh) | 基于图神经网络的蛋白质与配体之间对接姿势的预测方法 | |
CN103279690A (zh) | 一种医学信息排序方法 | |
CN107784197B (zh) | 一种pcr实验优化方法 | |
Zheng et al. | Analyzing technological knowledge diffusion among technological fields using patent data: The example of microfluidics | |
CN107498715A (zh) | 一种具有石材硬度检测功能的高精度自动加工工艺 | |
CN112308340A (zh) | 电力数据处理方法及装置 | |
CN113139334A (zh) | 一种基于蜂群仿真优化方法 | |
KR20170112469A (ko) | 데이터마이닝 기법을 이용한 종합 수질 평가지수의 산정방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |