CN112633733A - 基于可信度的随机森林土壤重金属风险评价方法及系统 - Google Patents
基于可信度的随机森林土壤重金属风险评价方法及系统 Download PDFInfo
- Publication number
- CN112633733A CN112633733A CN202011604252.7A CN202011604252A CN112633733A CN 112633733 A CN112633733 A CN 112633733A CN 202011604252 A CN202011604252 A CN 202011604252A CN 112633733 A CN112633733 A CN 112633733A
- Authority
- CN
- China
- Prior art keywords
- risk
- random forest
- samples
- heavy metal
- credibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 229910001385 heavy metal Inorganic materials 0.000 title claims abstract description 59
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 57
- 239000002689 soil Substances 0.000 title claims abstract description 53
- 238000011156 evaluation Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 45
- 238000012360 testing method Methods 0.000 claims abstract description 31
- 238000005457 optimization Methods 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims abstract description 20
- 238000013210 evaluation model Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000003900 soil pollution Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 31
- 238000012502 risk assessment Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 2
- 238000011109 contamination Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000003344 environmental pollutant Substances 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 2
- 231100000719 pollutant Toxicity 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 229910052785 arsenic Inorganic materials 0.000 description 1
- RQNWIZPPADIBDY-UHFFFAOYSA-N arsenic atom Chemical compound [As] RQNWIZPPADIBDY-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 229910052793 cadmium Inorganic materials 0.000 description 1
- BDOSMKKIYDKNTQ-UHFFFAOYSA-N cadmium atom Chemical compound [Cd] BDOSMKKIYDKNTQ-UHFFFAOYSA-N 0.000 description 1
- 229910052804 chromium Inorganic materials 0.000 description 1
- 239000011651 chromium Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 231100000171 higher toxicity Toxicity 0.000 description 1
- 231100001240 inorganic pollutant Toxicity 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011133 lead Substances 0.000 description 1
- QSHDDOUJBYECFT-UHFFFAOYSA-N mercury Chemical compound [Hg] QSHDDOUJBYECFT-UHFFFAOYSA-N 0.000 description 1
- 229910052753 mercury Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于可信度的随机森林土壤重金属风险评价方法及系统,进行数据预处理,包括对原始数据集进行预处理,得到未标记的数据集;然后进行数据标记,包括采用土壤污染评价方法标记数据集中样本是否有污染风险;数据集划分,包括对数据集按不同类别所占比例分层采样,划分训练集和测试集;模型训练,包括使用基于真阳率加权投票的随机森林算法对训练集进行学习得到风险评价模型,将测试集输入模型得到风险评价结果;使用贝叶斯优化算法以准确率为优化目标,找到使准确率最高的参数组合;利用训练好的模型进行土壤重金属风险评价评估。本发明在不平衡数据集上实现了少类别样本召回率的提高,可准确区分出样本有无污染风险。
Description
技术领域
本发明属于人工智能领域,主要涉及基于可信度的随机森林土壤重金属风险评价方法。
背景技术
土壤无机污染物中以重金属比较突出,主要是由于重金属不能为土壤微生物所分解,而易于积累.转化为毒性更大的甲基化合物,甚至有的通过食物链以有害浓度在人体内蓄积,严重危害人体健康。土壤重金属污染严重威胁生态系统和农产品安全。
目前有研究将随机森林算法用于土壤重金属含量影响因子评价,例如申请号为CN201610997260.X的专利文献。但是,随机森林算法的分类精度还有不足:
随机森林算法(Random Forest,RF)包含两个部分,分别是Bagging算法(Bootstrap aggregating,引导聚集算法)和随机子空间算法(Random Subspace Method,RSM)。Bagging算法使用有放回采样法从训练集中得到子训练集,并对子训练集训练出基学习器,对结果进行投票,而获得投票最多的作为输出的结果。而随机子空间算法,是对特征集进行无替换的随机采样形成特征子集,并使用特征子集训练基学习器,重复该过程训练出n个基学习器,最后,对n个基学习器的结果使用简单投票法获得最终结果。随机森林算法将CART决策树作为基学习器,首先使用Bagging获取子训练集,再使用随机子空间算法对子训练集抽取部分特征,形成最终子训练集输入CART决策树来学习训练。因为输入给每个基学习器的训练集不同,每个基学习器的学习结果也不同,所以随机森林泛化能力强,且每个基学习器的训练过程彼此独立,可并行执行。面对分类问题时,随机森林直接选择得票最多的类别作为最后的分类结果。因为每个基学习器学习的数据不同,所以有的基学习器分类性能更优或者更差。投票法给每个基学习器同样的投票权利,优秀的基学习器不能获得更多的投票数,这一点限制了随机森林的分类精度。
已经有许多学者尝试给分类性能优异的基学习器分配更高的权重,并证实了该方法能有效提高随机森林的分类准确率。目前,有学者以基学习器的袋外准确率或者后验概率作为分配权重的依据。但是,风险评价面对的数据集往往是不平衡甚至高度不平衡的(有风险样本占总样本比例不足10%),这些依据无法在面对不平衡数据集时,针对性的提高对少数类样本的分辨能力。
发明内容
针对现有技术无法应对不平衡数据集的缺陷,本发明提供的技术方案提供一种基于可信度的随机森林土壤重金属风险评价方案。
本发明技术方案为一种基于可信度的随机森林土壤重金属风险评价方法,包括以下步骤:
步骤1,数据预处理,包括对原始数据集进行预处理,得到未标记的数据集;然后进行数据标记,包括采用土壤污染评价方法标记数据集中样本是否有污染风险;
步骤2,数据集划分,包括对数据集按不同类别所占比例分层采样,划分训练集和测试集;
步骤3,模型训练,包括使用基于真阳率加权投票的随机森林算法对训练集进行学习得到模型,将测试集输入模型得到风险评价结果;使用贝叶斯优化算法以准确率为优化目标,找到使准确率最高的参数组合;
所述基于真阳率加权投票的随机森林算法实现如下,
对训练集使用子装袋算法,强制选择所有的少数类样本,仅对多数类样本有放回抽样,得到子训练集St′,,t=1,2,…,T,T为基学习器的数量;
对子训练集St随机抽取得到最终子训练集St′,并训练得到基学习器ht,t=1,2,…,T;
将测试集输入所有基学习器,根据基学习器的分类结果计算真阳率以及每个基学习器的权重;
对于测试集中的样本,依据每个基学习器的权重,计算得出最终分类结果;
步骤4,利用训练好的模型进行进行土壤重金属风险评价评估。
而且,步骤1中对数据集中样本进行标记时,是采用二分类标记方式。
而且,步骤2中数据集划分是按照每种类别样本数的比例进行分层采样划分。
而且,步骤3中,根据基学习器的分类结果计算真阳率以及每个基学习器的权重,实现方式如下,
其中,TP表示风险样本中被归类为风险样本的数量,FN表示风险样本中被归类为非风险样本的数量,TPR表示真阳率;
其中,TPR(i)表示第i个基学习器的可信度,TPR(j)表示第j个基学习器的可信度,weigt(i)表示第i个基学习器的权重。
对于测试集中的样本x,依据得到的权重,计算得出最终分类结果H(x)如下,
其中,weight(t)表示第t个基学习器的权重,ht(x)表示第t个基学习器的分类结果,分类结果用y=1或y=-1表示,sign()表示符号函数。
而且,步骤3中使用贝叶斯优化算法以准确率为优化目标,找到使准确率最高的参数组合,实现方式如下,
使用贝叶斯优化算法以最大化风险评价模型的准确率为目标,找到最优超参数组合,准确率Acc计算如下,
其中,TP表示风险样本中被归类为风险样本的数量,TN表示非风险样本中被归类为非风险样本的数量,P表示风险样本的数量,N表示非风险样本的数量;
贝叶斯优化以最大化准确率为目标函数,风险评价模型的超参数作为目标函数的自变量,在指定的超参数搜索空间中为每个超参数选择若干个采样点,使用高斯过程来代理目标函数的先验分布;通过最大化采集函数在目标函数自变量的域中选择一个新的自变量值并计算出对应的目标函数值,最后整合数据集更新概率模型,直到达到预设的迭代次数上限,输出结果,得出使目标函数最优的参数组合。
而且,采用最大化高斯过程的置信边界作为采集函数。
本发明还提供一种基于可信度的随机森林土壤重金属风险评价系统,用于实现如上所述的一种基于可信度的随机森林土壤重金属风险评价方法。
而且,包括以下模块,
第一模块,用于数据预处理,包括对原始数据集进行预处理,得到未标记的数据集;然后进行数据标记,包括采用土壤污染评价方法标记数据集中样本是否有污染风险;
第二模块,用于数据集划分,包括对数据集按不同类别所占比例分层采样,划分训练集和测试集;
第三模块,用于模型训练,包括使用基于真阳率加权投票的随机森林算法对训练集进行学习得到风险评价模型,将测试集输入模型得到风险评价结果;使用贝叶斯优化算法以准确率为优化目标,找到使准确率最高的参数组合;
所述基于真阳率加权投票的随机森林算法实现如下,
对训练集使用子装袋算法,强制选择所有的少数类样本,仅对多数类样本有放回抽样,得到子训练集St′,,t=1,2,…,T,T为基学习器的数量;
对子训练集St随机抽取得到最终子训练集St′,并训练得到基学习器ht,t=1,2,…,T;
将测试集输入所有基学习器,根据基学习器的分类结果计算真阳率以及每个基学习器的权重;
对于测试集中的样本,依据每个基学习器的权重,计算得出最终分类结果;
第四模块,用于利用训练好的风险评价模型进行土壤重金属风险评价评估。
或者,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于可信度的随机森林土壤重金属风险评价方法。
或者,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于可信度的随机森林土壤重金属风险评价方法。
本发明提供了一种基于可信度的随机森林土壤重金属污染风险评价技术方案,实现了不平衡数据集中少数类样本的分类精度的提升,进一步提高了随机森林算法的整体精度,也为土壤重金属风险评价提供了一种新的解决方案。该方法具有简单、有效、精度高、易于实现的特点。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例的实例结果与原算法的准确率对比图。
图3为本发明实施例的实例结果与原算法的召回率对比图。
具体实施方式
本发明技术方案可采用计算机软件方式支持自动运行流程。以下结合附图和实施例详细说明本发明技术方案。
本发明针对现有技术缺陷,提出基于真阳率为随机森林基学习器赋权并用于土壤重金属污染风险评价。参见图1,本发明实施例提供的基于可信度的随机森林土壤重金属风险评价方法,包括以下步骤:
(1)数据预处理:包括对原始数据集进行预处理,得到未标记数据集;包括数据标记,包括选择土壤污染评价方法标记样本是否有污染风险。
进一步地,本发明优选提出对数据集进行标记时是二分类标记,无风险样本标记为-1,有风险样本标记为1。
实施例中,首先进行特征选择,对原始的重金属含量数据集,去除具有大量缺失值的特征,对有少量缺失值的特征使用邻近值填补。具体实施时,为确保后续数据标记的精度,可以参考《土壤环境质量农用地土壤污染风险管控标准(试行)》(标准号:GB15618-2018)规定的镉、汞、铅、铬、镍、砷、锌、铜八种重金属农用地土壤污染风险筛选值和管制值。依据重金属污染风险筛选值选用单因子污染指数法计算每种重金属的污染指数,再选用内梅罗综合污染指数法或地积累指数法等污染评价方法标记数据集目标值。
为便于实施参考起见,对基于单因子污染指数法和内梅罗综合污染指数法的实现介绍如下:
单因子污染指数法:该方法是以土壤元素背景值为评价标准来评价重金属元素的累计污染程度,计算方法如公式(1)所示:
Pi=Ci/Si (1)
其中,Pi是土壤中重金属i的污染指数,Ci是重金属i在土壤中的实测含量值;Si是重金属元素i在《土壤环境质量农用地土壤污染风险管控标准(试行)》(标准号:GB15618-2018)中规定的风险筛选值。
内梅罗综合污染指数法:该方法突出了高浓度污染物对土壤环境质量的影响,能反映出各种污染物对土壤环境的作用,计算方法如公式(2)所示:
其中,P是采样点综合八种重金属得到的污染指数,max(Pi)为八种重金属的单因子污染指数中的最大值,avg(Pi)为八种重金属的单因子污染指数中的平均值,i表示八种重金属中的一种。
得到内梅罗污染指数后,据表(1)得到样本标记目标值。
表(1):样本标记参考值
(2)数据集划分:包括对数据集按不同类别所占比例分层采样,划分训练集和测试集,其中训练集包含样本数占总样本数的75%,测试集包含样本数占总样本数的25%。
进一步地,本发明优选提出数据集划分是按照每种类别样本数的比例进行分层采样划分。具体实施时,可以根据k折交叉的k值确定划分出的子数据集个数。
实施例依据数据集中每个类别的比例分层抽样,确保划分出的数据集均包含每个类别的样本。
(3)模型训练:使用基于真阳率加权投票的随机森林算法对训练集进行学习得到风险评价模型,最后将测试集输入模型得到风险评价结果;训练过程如下,
输入:设有训练集S=({x1,y1},{x2,y2},...,{xn,yn}),包含有n个样本;测试集S′=({x1,y1},{x2,y2},...,{xm,ym}),包含m个样本;类别空间y={-1,1};样本特征数d;森林中树(基学习器)的数量T。
输出:分类结果H(x)
步骤1:对训练集S=({x1,y1},{x2,y2},...,{xn,yn})使用子装袋算法,强制选择所有的少数类样本(y=1的所有样本),仅对多数类样本(y=-1的样本)有放回抽样得到子训练集St,t=1,2,...,T。
步骤2:对St随机抽取k个特征(k<<d)得到最终子训练集St′,并对其训练得到基学习器ht,t=1,2,...,T。
步骤3:将测试集S′=({x1,y1},{x2,y2},...,{xm,ym})输入所有基学习器,根据基学习器的分类结果通过公式(3)计算真阳率(True Positive Rate,即可信度),依据公式(4)来计算每个基学习器的权重后,集成所有基学习器,形成风险评价模型。
其中,TP表示风险样本中被归类为风险样本的数量,FN表示风险样本中被归类为非风险样本的数量,TPR表示真阳率。
其中,TPR(i)表示第i个基学习器的可信度,TPR(j)表示第j个基学习器的可信度,T表示基学习器的数量,weight(i)表示第i个基学习器的权重。该方程已被证明满足归一化条件,并且可信度越高,权重越大。
步骤4:把测试集输入到步骤3形成的风险评价模型中,对于测试集中的样本x,依据公式(4)得到的权重,使用公式(5)计算得出最终分类结果H(x)。
步骤5:使用贝叶斯优化算法以最大化风险评价模型的准确率为目标,找到风险评价模型的最优超参数组合。准确率Acc计算公式如下:
其中,TP表示风险样本中被归类为风险样本的数量,TN表示非风险样本中被归类为非风险样本的数量,P表示风险样本的数量,N表示非风险样本的数量。
贝叶斯优化以最大化准确率为目标函数,风险评价模型的超参数作为目标函数的自变量,在指定的超参数搜索空间(例如表2所示)中为每个超参数选择若干个采样点,使用高斯过程(Gaussian Process)来代理目标函数的先验分布。选择最大化高斯过程的置信边界(Gaussian Process-Upper Confidenc Bound)作为采集函数(具体实施时也可以选择其他方法作采集函数),通过最大化采集函数在目标函数自变量的域中选择一个新的自变量值并计算出对应的目标函数值,最后整合数据集更新概率模型,直到达到预设的迭代次数上限,输出结果,得出使目标函数最优的参数组合。
表2:风险评价模型超参数及其取值范围
最大化高斯过程的置信边界是把后验分布的均值和协方差求一个加权和来寻找最大化高斯过程的置信区间的点。均值对应的是开发策略,协方差对应的是探索策略。
(4)利用训练好的模型进行土壤重金属风险评价:
具体实施时,可以进行模型结果评估。根据公式(6)(7)计算风险评价结果的准确率和精准率。召回率(也就是真阳率)按照上文提到的公式(3)来计算,得到的结果用于判断模型对每个类别的分类性能。
下面以武汉周边农田重金属含量数据集为例对本发明提出方法进行说明:首先对原始数据进行特征选择,数据集标记等预处理操作;其次按照每种类别样本的比例对数据集进行分层采样划分,方便在训练时进行k折交叉处理;然后将训练集输入算法训练出基学习器,根据公式(3)计算每个基学习器的TPR值,利用公式(4)得到每个基学习器的权重。最后根据公式(5)中的函数得出最终分类结果,将得到的分类结果应用公式(6)、(7)(3)得到准确率,精准率和召回率。使用基于真阳率加权投票的随机森林(TWVRF)和原始随机森林算法(RF)对同一数据集进行了50次训练,并记录了每次训练的准确率和召回率,并画出相应折线图(见图2,图3)。比较后可以发现TWVRF的召回率明显高于RF算法,这表明以TPR作为可信度来为基学习器分配权重有效地提高了RF的区分有风险样本的能力。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
在一些可能的实施例中,提供一种基于可信度的随机森林土壤重金属风险评价系统,包括以下模块,
第一模块,用于数据预处理,包括对原始数据集进行预处理,得到未标记的数据集;然后进行数据标记,包括采用土壤污染评价方法标记数据集中样本是否有污染风险;
第二模块,用于数据集划分,包括对数据集按不同类别所占比例分层采样,划分训练集和测试集;
第三模块,用于模型训练,包括使用基于真阳率加权投票的随机森林算法对训练集进行学习得到风险评价模型,将测试集输入模型得到风险评价结果;使用贝叶斯优化算法以准确率为优化目标,找到使准确率最高的参数组合;
所述基于真阳率加权投票的随机森林算法实现如下,
对训练集使用子装袋算法,强制选择所有的少数类样本,仅对多数类样本有放回抽样,得到子训练集St′,,t=1,2,…,T,T为基学习器的数量;
对子训练集St随机抽取得到最终子训练集St′,并训练得到基学习器ht,t=1,2,…,T;
将测试集输入所有基学习器,根据基学习器的分类结果计算真阳率以及每个基学习器的权重;
对于测试集中的样本,依据每个基学习器的权重,计算得出最终分类结果;
第四模块,用于利用训练好的模型进行土壤重金属风险评价评估。
在一些可能的实施例中,提供一种基于可信度的随机森林土壤重金属风险评价系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于可信度的随机森林土壤重金属风险评价方法。
在一些可能的实施例中,提供一种基于可信度的随机森林土壤重金属风险评价系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于可信度的随机森林土壤重金属风险评价方法。
本文中所描述的具体实例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (10)
1.一种基于可信度的随机森林土壤重金属风险评价方法,包括以下步骤:
步骤1,数据预处理,包括对原始数据集进行预处理,得到未标记的数据集;然后进行数据标记,包括采用土壤污染评价方法标记数据集中样本是否有污染风险;
步骤2,数据集划分,包括对数据集按不同类别所占比例分层采样,划分训练集和测试集;
步骤3,模型训练,包括使用基于真阳率加权投票的随机森林算法对训练集进行学习得到模型,将测试集输入模型得到风险评价结果;使用贝叶斯优化算法以准确率为优化目标,找到使准确率最高的参数组合;
所述基于真阳率加权投票的随机森林算法实现如下,
对训练集使用子装袋算法,强制选择所有的少数类样本,仅对多数类样本有放回抽样,得到子训练集St′,,t=1,2,…,T,T为基学习器的数量;
对子训练集St随机抽取得到最终子训练集St′,并训练得到基学习器ht,t=1,2,…,T;
将测试集输入所有基学习器,根据基学习器的分类结果计算真阳率以及每个基学习器的权重;
对于测试集中的样本,依据每个基学习器的权重,计算得出最终分类结果;
步骤4,利用训练好的模型进行土壤重金属风险评价评估。
2.根据权利要求1所述基于可信度的随机森林土壤重金属风险评价方法,其特征在于:步骤1中对数据集中样本进行标记时,是采用二分类标记方式。
3.根据权利要求1或2所述基于可信度的随机森林土壤重金属风险评价方法,其特征在于:步骤2中数据集划分是按照每种类别样本数的比例进行分层采样划分。
4.根据权利要求1或2所述基于可信度的随机森林土壤重金属风险评价方法,其特征在于:步骤3中,根据基学习器的分类结果计算真阳率以及每个基学习器的权重,实现方式如下,
其中,TP表示风险样本中被归类为风险样本的数量,FN表示风险样本中被归类为非风险样本的数量,TPR表示真阳率;
其中,TPR(i)表示第i个基学习器的可信度,TPR(j)表示第j个基学习器的可信度,weigt(i)表示第i个基学习器的权重。
对于测试集中的样本x,依据得到的权重,计算得出最终分类结果H(x)如下,
其中,weight(t)表示第t个基学习器的权重,ht(x)表示第t个基学习器的分类结果,分类结果用y=1或y=-1表示,sign()表示符号函数。
5.根据权利要求1或2所述基于可信度的随机森林土壤重金属风险评价方法,其特征在于:步骤3中使用贝叶斯优化算法以准确率为优化目标,找到使准确率最高的参数组合,实现方式如下,
使用贝叶斯优化算法以最大化风险评价模型的准确率为目标,找到最优超参数组合,准确率Acc计算如下,
其中,TP表示风险样本中被归类为风险样本的数量,TN表示非风险样本中被归类为非风险样本的数量,P表示风险样本的数量,N表示非风险样本的数量;
贝叶斯优化以最大化准确率为目标函数,风险评价模型的超参数作为目标函数的自变量,在指定的超参数搜索空间中为每个超参数选择若干个采样点,使用高斯过程来代理目标函数的先验分布;通过最大化采集函数在目标函数自变量的域中选择一个新的自变量值并计算出对应的目标函数值,最后整合数据集更新概率模型,直到达到预设的迭代次数上限,输出结果,得出使目标函数最优的参数组合。
6.根据权利要求5所述基于可信度的随机森林土壤重金属风险评价方法,其特征在于:采用最大化高斯过程的置信边界作为采集函数。
7.一种基于可信度的随机森林土壤重金属风险评价系统,其特征在于:用于实现如权利要求1-6任一项所述的一种基于可信度的随机森林土壤重金属风险评价方法。
8.根据权利要求7所述基于可信度的随机森林土壤重金属风险评价系统,其特征在于:包括以下模块,
第一模块,用于数据预处理,包括对原始数据集进行预处理,得到未标记的数据集;然后进行数据标记,包括采用土壤污染评价方法标记数据集中样本是否有污染风险;
第二模块,用于数据集划分,包括对数据集按不同类别所占比例分层采样,划分训练集和测试集;
第三模块,用于模型训练,包括使用基于真阳率加权投票的随机森林算法对训练集进行学习得到风险评价模型,将测试集输入模型得到风险评价结果;使用贝叶斯优化算法以准确率为优化目标,找到使准确率最高的参数组合;
所述基于真阳率加权投票的随机森林算法实现如下,
对训练集使用子装袋算法,强制选择所有的少数类样本,仅对多数类样本有放回抽样,得到子训练集St′,,t=1,2,…,T,T为基学习器的数量;
对子训练集St随机抽取得到最终子训练集St′,并训练得到基学习器ht,t=1,2,…,T;
将测试集输入所有基学习器,根据基学习器的分类结果计算真阳率以及每个基学习器的权重;
对于测试集中的样本,依据每个基学习器的权重,计算得出最终分类结果;
第四模块,用于利用训练好的风险评价模型进行土壤重金属风险评价评估。
9.根据权利要求7所述基于可信度的随机森林土壤重金属风险评价系统,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-6任一项所述的一种基于可信度的随机森林土壤重金属风险评价方法。
10.根据权利要求7所述基于可信度的随机森林土壤重金属风险评价系统,其特征在于:包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如权利要求1-6任一项所述的一种基于可信度的随机森林土壤重金属风险评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604252.7A CN112633733A (zh) | 2020-12-30 | 2020-12-30 | 基于可信度的随机森林土壤重金属风险评价方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011604252.7A CN112633733A (zh) | 2020-12-30 | 2020-12-30 | 基于可信度的随机森林土壤重金属风险评价方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112633733A true CN112633733A (zh) | 2021-04-09 |
Family
ID=75287557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011604252.7A Pending CN112633733A (zh) | 2020-12-30 | 2020-12-30 | 基于可信度的随机森林土壤重金属风险评价方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633733A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628697A (zh) * | 2021-07-28 | 2021-11-09 | 上海基绪康生物科技有限公司 | 一种针对分类不平衡数据优化的随机森林模型训练方法 |
CN114034966A (zh) * | 2021-10-13 | 2022-02-11 | 国电南瑞科技股份有限公司 | 一种基于支持向量机的输电线路故障识别方法和装置 |
CN114511239A (zh) * | 2022-02-18 | 2022-05-17 | 中国农业科学院农业信息研究所 | 土壤重金属污染风险区划分方法、装置、电子设备及介质 |
CN114757433A (zh) * | 2022-04-24 | 2022-07-15 | 四川大学 | 一种饮用水源抗生素抗性相对风险快速识别方法 |
CN115050477A (zh) * | 2022-06-21 | 2022-09-13 | 河南科技大学 | 一种贝叶斯优化的RF与LightGBM疾病预测方法 |
CN115795353A (zh) * | 2023-02-06 | 2023-03-14 | 北京科技大学 | 一种基于不均衡数据集的地下金属目标分类方法及系统 |
CN116306958A (zh) * | 2022-09-13 | 2023-06-23 | 中债金科信息技术有限公司 | 违约风险预测模型训练方法、违约风险预测方法及设备 |
CN117909886A (zh) * | 2024-03-18 | 2024-04-19 | 南京海关工业产品检测中心 | 一种基于优化随机森林模型的锯齿棉品级分类方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046931A (zh) * | 2019-12-02 | 2020-04-21 | 北京交通大学 | 一种基于随机森林的道岔故障诊断方法 |
CN111524606A (zh) * | 2020-04-24 | 2020-08-11 | 郑州大学第一附属医院 | 一种基于随机森林算法的肿瘤数据统计方法 |
CN111598460A (zh) * | 2020-05-18 | 2020-08-28 | 武汉轻工大学 | 土壤重金属含量的监测方法、装置、设备及存储介质 |
-
2020
- 2020-12-30 CN CN202011604252.7A patent/CN112633733A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046931A (zh) * | 2019-12-02 | 2020-04-21 | 北京交通大学 | 一种基于随机森林的道岔故障诊断方法 |
CN111524606A (zh) * | 2020-04-24 | 2020-08-11 | 郑州大学第一附属医院 | 一种基于随机森林算法的肿瘤数据统计方法 |
CN111598460A (zh) * | 2020-05-18 | 2020-08-28 | 武汉轻工大学 | 土壤重金属含量的监测方法、装置、设备及存储介质 |
Non-Patent Citations (7)
Title |
---|
BIFENG HU ET AL.: "Modelling bioaccumulation of heavy metals in soil-crop ecosystems and identifying its controlling factors using machine learning", 《ENVIRONMENTAL POLLUTION》 * |
一路前行1: "Bagging与随机森林", 《HTTPS://BLOG.CSDN.NET/WEIYONGGLE1996/ARTICLE/DETAILS/77841787》 * |
刘志远 等: "《交通大数据——理论与方法》", 30 November 2020 * |
李新鹏 等: "不平衡数据集下基于自适应加权Bagging-GBDT算法的磁盘故障预测模型", 《微电子学与计算机》 * |
肖跃雷 等: "基于特征选择和超参数优化的恐怖袭击组织预测方法", 《计算机应用》 * |
胡婵娟 等: "基于Spark 框架的用于金融信贷风险控制的加权随机森林算法", 《小型微型计算机系统》 * |
范拴喜: "《土壤重金属污染与控制》", 30 November 2011 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628697A (zh) * | 2021-07-28 | 2021-11-09 | 上海基绪康生物科技有限公司 | 一种针对分类不平衡数据优化的随机森林模型训练方法 |
CN114034966A (zh) * | 2021-10-13 | 2022-02-11 | 国电南瑞科技股份有限公司 | 一种基于支持向量机的输电线路故障识别方法和装置 |
CN114511239A (zh) * | 2022-02-18 | 2022-05-17 | 中国农业科学院农业信息研究所 | 土壤重金属污染风险区划分方法、装置、电子设备及介质 |
CN114757433A (zh) * | 2022-04-24 | 2022-07-15 | 四川大学 | 一种饮用水源抗生素抗性相对风险快速识别方法 |
CN114757433B (zh) * | 2022-04-24 | 2023-08-29 | 四川大学 | 一种饮用水源抗生素抗性相对风险快速识别方法 |
CN115050477A (zh) * | 2022-06-21 | 2022-09-13 | 河南科技大学 | 一种贝叶斯优化的RF与LightGBM疾病预测方法 |
CN116306958A (zh) * | 2022-09-13 | 2023-06-23 | 中债金科信息技术有限公司 | 违约风险预测模型训练方法、违约风险预测方法及设备 |
CN115795353A (zh) * | 2023-02-06 | 2023-03-14 | 北京科技大学 | 一种基于不均衡数据集的地下金属目标分类方法及系统 |
CN115795353B (zh) * | 2023-02-06 | 2023-04-21 | 北京科技大学 | 一种基于不均衡数据集的地下金属目标分类方法及系统 |
CN117909886A (zh) * | 2024-03-18 | 2024-04-19 | 南京海关工业产品检测中心 | 一种基于优化随机森林模型的锯齿棉品级分类方法及系统 |
CN117909886B (zh) * | 2024-03-18 | 2024-05-24 | 南京海关工业产品检测中心 | 一种基于优化随机森林模型的锯齿棉品级分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633733A (zh) | 基于可信度的随机森林土壤重金属风险评价方法及系统 | |
Hassan et al. | Efficient prediction of water quality index (WQI) using machine learning algorithms | |
Wu et al. | Diagnosis of wetland ecosystem health in the Zoige Wetland, Sichuan of China | |
Jarnevich et al. | Using the MAXENT program for species distribution modelling to assess invasion risk. | |
McGregor et al. | How robust is the Australian Weed Risk Assessment protocol? A test using pine invasions in the Northern and Southern hemispheres | |
Hariri et al. | Tipburn disorder detection in strawberry leaves using convolutional neural networks and particle swarm optimization | |
Kim et al. | Development of a daily epidemiological model of rice blast tailored for seasonal disease early warning in South Korea | |
Kurra et al. | Water quality prediction using machine learning | |
Simu et al. | Air pollution prediction using machine learning | |
CN112614552B (zh) | 基于bp神经网络的土壤重金属含量预测方法及系统 | |
Chawla et al. | Extending data mining for spatial applications: A case study in predicting nest locations | |
CN115049160B (zh) | 时空大数据的平原工业型城市碳排放量评估方法及系统 | |
Basha et al. | Neutrosophic rule-based prediction system for assessment of pollution on benthic foraminifera in burullus lagoon in egypt | |
Sunori et al. | Design of ann based classifiers for soil fertility of uttarakhand | |
Davis et al. | Deep learning with citizen science data enables estimation of species diversity and composition at continental extents | |
Bani-Hani et al. | Prediction of energy gains from Jordanian wind stations using artificial neural network | |
Do et al. | A comparative study of machine learning techniques in prediction of exhaust emissions and performance of a diesel engine fuelled with biodiesel blends | |
Helliwell et al. | The present is the key to the past, but what does the future hold for the recovery of surface waters from acidification? | |
Fajčíková et al. | Application of artificial neural network in medical geochemistry | |
CN106778801A (zh) | 用于分析观测对象的类别的方法和装置 | |
Özcan et al. | Application of deep neural networks in modeling the capture of Ips sexdentatus in pheromone trap. | |
CN103984960A (zh) | 一种遥感图像样本智能采集方法 | |
Naumoski et al. | A novel fuzzy based approach for inducing diatom habitat models and discovering diatom indicating properties | |
Xiao et al. | Sausage quality classification of hyperspectral multi-data fusion based on machine learning | |
Liu et al. | ANN-based prediction of ammonia nitrogen for wastewater discharge indicators under carbon neutral trend |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210409 |
|
RJ01 | Rejection of invention patent application after publication |