CN116776254A - 区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法 - Google Patents
区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法 Download PDFInfo
- Publication number
- CN116776254A CN116776254A CN202310790193.4A CN202310790193A CN116776254A CN 116776254 A CN116776254 A CN 116776254A CN 202310790193 A CN202310790193 A CN 202310790193A CN 116776254 A CN116776254 A CN 116776254A
- Authority
- CN
- China
- Prior art keywords
- feature
- representing
- forest
- algorithm
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 65
- 238000011156 evaluation Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 78
- 238000003066 decision tree Methods 0.000 claims description 33
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000009827 uniform distribution Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000012502 risk assessment Methods 0.000 claims 5
- 230000006872 improvement Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000001133 acceleration Effects 0.000 description 9
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000235648 Pichia Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000763 evoking effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,包括以下步骤:S1,将具有潜在滑坡区域的地理底图输入并行深度森林算法中,并从中筛选无关特征,获取候选特征集,从候选特征集中过滤出冗杂特征,构成优质特征集;S2,将获取的优质特征集送入多粒度扫描阶段处理;S3,结合Spark对每层级联森林模型进行并行化训练;S4,对并行深度森林算法的有效性进行验证。本发明提出的算法无论是在运行效率上还是模型精确度上都有显著的提高,此外通过该方法所挖掘出的知识,能够在金融领域、医疗领域上提供巨大的帮助。
Description
技术领域
本发明涉及大数据挖掘领域,特别是涉及一种大数据环境下的Spark和NRSCA策略并行深度森林算法。
背景技术
滑坡作为常见的山区突发性地质灾害,是指斜坡受到外界因素(例如降雨、地震、人类工程活动等)的诱发呈现不稳定状态,导致岩土体沿一定的软弱面(带)做整体下滑的现象,常常埋没村庄、毁坏道路、破坏农田及堵塞江河,有的地区甚至会进一步诱发高山峡谷泥石流等次生灾害。长期以来威胁着广大人民群众的生命财产安全,制约了地区经济发展,也为国土空间规划管控带来了困难。而区域滑坡危险性评价是针对一定区域评估其在某个时间段发生特定规模的滑坡地质灾害的可能性,能够为地方政府提出相应的防治对策建议,为地质灾害防治管控及城镇规划、土地利用等提供基础依据。
在现今大数据时代,许多学者开始针对历史滑坡数据及相关诱发因素的大数据进行挖掘,借助人工智能和地理信息技术(GIS)深度融合,进行区域滑坡危险性评价的研究。2014年,Christos Polykretis等利用神经网络和传统数据统计相结合,针对希腊伯罗奔尼撒半岛采用高程、坡度、坡向、地表覆盖、岩性、距水系、公路和断层的距离为统计指标,进行了滑坡危险性评价;2015年,Ahmed Mohamed Youssef等采用随机森林法和研究区高程分布、斜坡坡向、坡度、耕种区分布、地形剖面指数、岩性、距水系距离、降雨量等指标融合,针对沙特阿拉伯阿西尔省进行了滑坡危险性评价及编图;2017年,Kaixiang Zhang等采用随机森林决策树法针融合地理信息技术对中国三峡中部区域,结合地貌、地质、水文、地表覆盖及环境诱发因素等指标,做出滑坡危险性评价;2020年,Deliang Sun等采用随机森林法结合地貌、地质条件、环境因素及人类工程活动等下属22个指标,对中国三峡区域奉节县和巫山县进行了滑坡危险性评价。
综上所述,机器学习特别是随机森林融合地理信息技术在区域滑坡危险性评价领域虽已取得丰硕的成果,但仍存在一些不足:(1)在地理信息ArcGis软件中,通常针对研究区选择分辨率为25m*25m—1000m*1000m(视数据来源及评价精度需求而定)的地理底图来逐个提取所有斜坡单元的地质地貌参数及特征,协助专家进行滑坡危险性评价。若采用25m*25m左右的分辨率,虽然精度上足以反映单个斜坡单元的特征,但提取数据过程中会产生数千万甚至更多的栅格数据,而单处理器系统的计算性能无法满足需求的处理速度。若根据1000m*1000m的分辨率来进行提取,容易造成覆盖范围过大包含多个斜坡在内,显然不符合单个斜坡自身的实际情况。(2)机器学习需要让模型在不断训练学习过程中积累以提高有效的知识标识,另外要具有知识泛化和推理能力,而传统机器学习方法,无法在完成当前训练任务的同时保留对上个任务的记忆,难以形成训练知识的复用泛化,因此如何设计既能提高大区域滑坡危险性评价的预测精度,使得其处理速度满足实际应用的方法,同时使学习过程具有知识复用和泛化能力,具有重大意义。
深度森林是基于森林的集成学习方法,其超参数较少,具有良好的表征学习能力,被广泛应用于图像识别、故障诊断、指标预测等各个领域。然而随着大数据时代的到来,各个领域的数据量和特征量呈指数级增长,深度森林面对数据量和特征量的增长,其训练代价明显增加,训练效果下降。因此,设计适用于处理大数据的深度深林算法才能适用于大区域滑坡危险性评价需求。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,为了实现本发明的上述目的,本发明提供了区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,包括以下步骤:
S1,将具有潜在滑坡区域的地理底图输入并行深度森林算法中,并从中筛选无关特征,获取候选特征集,从候选特征集中过滤出冗杂特征,构成优质特征集;
S2,将获取的优质特征集送入多粒度扫描阶段处理;
S3,结合Spark对每层级联森林模型进行并行以获得滑坡结果。
本发明的一种优选方案,S1具体包括以下步骤:
S11,首先计算出每个特征Fisher Score(FSf)和SUδ(f,C);然后根据SUδ(f,C)和FSf计算原始特征集中每个特征的特征分割参数FSP,并且根据FSP的大小进行降序排序;最后按照FSP值,从高到低将原始特征集划分为候选特征集合和无关特征集合两部分,其中,特征分割参数FSP的计算公式如下;
FSP=FSf*SUδ(f,C) (1)
FSP表示特征分割参数;
FSf表示特征f的Fisher Score的值;
SUδ(f,C)表示衡量特征f和标签集合C的相关性;
*表示相乘;
其中,
FSf表示特征f的Fisher Score的值;
k表示样本数;
nc表示类别为c的样本数;
μfc表示特征f在类别c中的均值;
μf表示特征f的均值;
表示特征f在类别c中方差的平方;
SUδ(f,C)表示衡量特征f和标签集合C的相关性;
NHδ(f;C)表示当前特征f和标签集合C的邻域互信息;
NHδ(f)表示当前特征f的邻域信息熵;
NHδ(C)表示当前标签集合C的邻域信息熵;
S12,提出并通过冗余系数RF对候选特征集进行过滤,进一步筛选出大量冗余特征,获取优质特征集,冗余系数RF的计算公式如下:
fi表示假设的第一特征;
fj表示假设的第二特征;
RFi,j表示fi与fj的冗余系数;
SUδ(fi,fj)表示衡量当前特征fi和第二特征fj的相关性;
NHδ(f;C)表示当前特征f和标签集合C的邻域互信息。
本发明的一种优选方案,S2具体包括以下步骤:
S21,随机扫描:特征预处理阶段得到特征集合S,其大小为x,类别数为y,从S中随机抽取h个特征组成一个特征片段,重复抽取b次,共生成b个特征片段,将每个特征片段导入到随机森林中训练,得到b个y维的类向量;
S22,等距提取:将特征集合S等分为b个特征片段,每份大小为将每个特征片段导入到完全随机森林中训练,同样得到b个y维的类向量;
S23,初始化类向量:重复上述两个阶段z次,将z次训练后得到的类向量进行拼接,最后得到2zby维的原始类向量E。
本发明的一种优选方案,S3具体包括以下步骤:
S31,并行构建级联森林:利用Spark框架搭建并行深度森林,提出了FFM-II的特征筛选机制,根据级联森林训练得出的准确率剔除非关键特征,平衡增强类向量和原始类向量维度;
S32,负载均衡:设计了TSM-SCA的任务调度机制,利用SCA算法计算出最优的任务分配方案,然后Spark集群按照方案分配任务。
本发明的一种优选方案,S31具体包括以下步骤:
S311,过滤特征;首先根据当前层级联森林的训练准确率,计算每个特征的重要性指数G(f),并根据G(f)的值对原始类向量中的特征从低到高排序;然后提出自适应比例系数QDF,按照当前原始类向量的特征数量计算自适应比例系数QDF;最后根据QDF值将排好序的原始类向量E分为非关键类向量和有效类向量,将非关键类向量放入到非关键类向量集合R*,其中重要性指数G(f)的公式如下:
G(f)表示当前层级联森林的特征f的重要性指数;
μi表示决策树权重;
εj表示第j个子森林权重;
s表示每层级联森林中含有的子森林个数;
r表示子森林中含有的决策树的个数;
Gi(f)表示第j个子森林的第i棵决策树的特征f的重要性指数;
μi表示决策树权重;
Pi表示j个子森林中第i棵决策树的准确率;
r表示子森林中含有的决策树的个数;
εj表示子森林权重;
Qj表示第j个子森林的准确率;
s表示每层级联森林中含有的子森林个数;
其中,自适应比例系数QDF的计算公式如下:
QDF表示自适应比例系数;
λ表示级联森林的层数;
Nλ表示第λ层级联森林原始向量的特征数量;
S312,合并类向量:首先拼接前面所有层级联森林训练得到的增强类向量,得到总的增强类向量D;然后将总的增强类向量D与下一层级联森林的原始类向量E'进行拼接;最后从拼接后的类向量中删除非关键类向量集合R*中包含的特征,获取输入到下一层级联森林的类向量ED。
本发明的一种优选方案,S32具体包括以下步骤:
S321,初始化SCA种群:初始化种群数量为k,Xm=(xm1,xm2,.....,xmN)表示第m(m=1,2,.....,k)个体,根据集群节点数量设置搜索空间维度为N;
S322,更新个体的位置:提出基于惯性因子ω的位置更新函数W(x)来替代式(10),以此提升个体的全局搜索能力,加快算法收敛;其中包含公式如下:
W()表示位置更新函数;
表示个体h在维度l上的更新位置;
ω(t)表示惯性因子;
表示个体h在维度l上的原位置;
r1表示更新振幅控制参数;
r2表示服从均匀分布的随机数,r2∈[0,2π];
r3表示服从均匀分布的随机数,r3∈[-2,2];
r4表示服从均匀分布的随机数,r4∈[0,1];
pgl表示当前全局最优解的l维位置;
其中,惯性因子ω(t)的计算公式如下:
ωmin表示迭代结束时的惯性因子,即最小值;
ωmax表示初始惯性因子,即最大值;
t表示当前迭代次数;
T表示最大迭代次数;
表示t与T的比值
S323,更新振幅控制参数r1:式(11)中r1是线性递减的,前期和后期递减速度相同,导致前期全局搜索不充分,后期算法无法快速收敛,为了获得更好的稳定性和更高的寻优能力,对控制参数r1提出一种基于正切函数的曲线自适应振幅调整策略,来保证解的优质性,其中包括公式如下:
r1(t)表示振幅控制参数;
a表示常数;
t表示当前迭代次数;
T表示最大迭代次数;
表示t与T的比值;
S324,判断当前最优个体是否满足解条件:若满足条件或者设定的迭代次数达到上限则输出当前最优个体Pg,不满足重复S322-S323;
S325,任务分配:集群根据得到的任务调度方案Pg=(pg1,pg2,....,pgN)进行任务分配,实现集群的负载平衡。
综上所述,由于采用了上述技术方案,本发明能够针对大数据环境下的并行深度森林算法存在数据冗余特征多、多粒度扫描两端特征利用率低和收敛速度慢等问题,本发明提出了基于邻域粗糙集改进的并行深度森林算法——PDF-SNRSCA,算法的主要工作如下:(1)在特征选择阶段,提出了基于邻域粗糙集和Fisher Score的特征选择策略(FeatureSelection strategy based on Neighborhood Rough Sets and Fisher Score,FS-NRS),通过衡量特征的相关性和冗余度,筛选出信息量较大的特征,解决冗余及无关特征过多的问题。(2)在多粒度扫描阶段,提出了一种随机选择和等距提取的扫描策略(Scanningstrategy for Random Selection and Equidistant Extraction,S-RSEE),替代原始的多粒度扫描策略,解决多粒度扫描两端特征利用率低的问题。(3)在模型并行化训练阶段,提出了基于重要性指数的特征筛选机制(Feature Filtering Mechanism based onImportance Index,FFM-II),以此平衡增强类向量与原始类向量维度,解决了模型收敛速度慢的问题;同时设计了基于SCA的任务调度机制(Task Scheduling Mechanism based onSCA,TSM-SCA),将任务重新分配,保证集群负载均衡,提高了级联森林并行化效率。本发明提出的算法无论是在运行效率上还是模型精确度上都有显著的提高,此外通过该方法所挖掘出的知识,能够在金融领域、医疗领域上提供巨大的帮助。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实验结果示意展示图。
图2是本发明准确度F-measure的示意展示图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
1.特征并行提取
目前在大数据环境下的并行深度森林算法中,在模型训练过程中存在数据冗余特征多的问题。为了解决此问题,提出了FS-NRS的特征选择策略,该策略主要包含两个步骤:(1)筛选无关特征:提出特征分割参数FSP对原始特征集进行分割,筛选出大量无关特征,获取候选特征集。(2)过滤冗余特征:提出冗余系数RF对候选特征集进行过滤,筛选出大量冗余特征,获取优质特征集。
1.1筛选无关特征
为了准确筛选出原始特征集中存在的大量无关特征,提出了特征分割参数FSP将原始特征集划分为无关特征集和候选特征集。其划分过程如下:首先计算出每个特征Fisher Score(FSf)和SUδ(f,C);然后根据SUδ(f,C)和FSf计算原始特征集中每个特征的特征分割参数FSP,并且根据FSP的大小进行降序排序;最后按照FSP值,从高到低将原始特征集划分为候选特征集合和无关特征集合两部分。
定理1(特征分割参数FSP):已知样本集合中,类别数量为k,特征f的特征分割参数FSP为:
FSP=FSf*SUδ(f,C) (1)
FSP表示特征分割参数;
FSf表示特征f的Fisher Score的值;
SUδ(f,C)表示衡量特征f和标签集合C的相关性;
*表示相乘;
其中,
FSf表示特征f的Fisher Score的值;
k表示样本数;
nc表示类别为c的样本数;
μfc表示特征f在类别c中的均值;
μf表示特征f的均值;
表示特征f在类别c中方差的平方;
SUδ(f,C)表示衡量特征f和标签集合C的相关性;
NHδ(f;C)表示当前特征f和标签集合C的邻域互信息;
NHδ(f)表示当前特征f的邻域信息熵;
NHδ(C)表示当前标签集合C的邻域信息熵。
证明:根据邻域对称不确定性定义可知,SUδ(f,C)可以衡量当前特征f和标签集C的相关性,当SUδ(f,C)较大时,表明当前特征f和标签集合C的相关性越大;根据FisherScore定义可知,FSf可以衡量当前特征f重要性,FSf越大,表明当前特征f的重要性越高。FSP设定成邻域对称不确定性与Fisher Score的乘积,同时考虑了特征相关性和特征重要性,当所选特征与标签具有高相关性且特征重要性越高时,FSP的值越大,重要特征被选出,因此可用FSP作为特征分割,证毕。
1.2过滤冗余特征
经过无关特征的初步过滤后,候选特征集合依旧存在着大量的冗余特征,因此提出了冗余系数RF,对候选特征集进行过滤,进一步筛选出大量冗余特征,获取优质特征集。该过程如下:首先计算当前特征f与标签集合C的邻域互信息NHδ(fi;C)以特征间的邻域不确定性SUδ(fi,fj);然后利用NHδ(fi;C)和SUδ(fi,fj)计算特征间的冗余系数RF,并且根据冗余系数和阈值比较,进一步消除冗余特征,获取优质特征集。
定理2(冗余系数RF):已知存在特征fi与fj,则两个特征的冗余系数RFi,j为:
fi表示假设的第一特征;
fj表示假设的第二特征;
RFi,j表示fi与fj的冗余系数;
SUδ(fi,fj)表示衡量当前特征fi和第二特征fj的相关性;
NHδ(f;C)表示当前特征f和标签集合C的邻域互信息。
证明:SUδ(fi,fj)为特征和特征之间的邻域对称不确定性,根据邻域对称不确定性可知,SUδ(fi,fj)可以度量特征和特征之间的相关性程度,SUδ(fi,fj)越大,表示特征与特征之间的相关性越大,特征间信息的冗余程度越大;NHδ(fi;C)为特征和标签之间的邻域互信息,根据邻域互信息可知,NHδ(fi;C)可以度量特征和标签之间的相关程度,NHδ(fi;C)越大,表示特征与标签之间的相关信息量越大;当SUδ(fi,fj)越大,NHδ(fi;C)越小时,表明特征fi,fj之间重叠的信息量越大,特征fi与标签C相关度越小,此时SUδ(fi,fj)/NHδ(fi;C)比值越大,特征之间存在巨大冗余,因此冗余系数RF可以衡量特征冗余信息量的大小,证毕。
2.多粒度扫描
经过特征预处理阶段获取的优质特征集,被送入多粒度扫描阶段处理,然而传统多粒度扫描存在两端特征利用率过低的问题,为此提出S-RSEE的特征扫描策略。该策略具体流程如下:
(1)随机扫描。特征预处理阶段得到特征集合S,其大小为x,类别数为y,从S中随机抽取h个特征组成一个特征片段,重复抽取b次,共生成b个特征片段,将每个特征片段导入到随机森林中训练,得到b个y维的类向量。
(2)等距提取。将特征集合S等分为b个特征片段,每份大小为将每个特征片段导入到完全随机森林中训练,同样得到b个y维的类向量。
(3)初始化类向量。重复上述两个阶段z次,将z次训练后得到的类向量进行拼接,最后得到2zby维的原始类向量E。
3.级联森林并行化训练
针对并行训练过程中模型收敛速度慢,级联森林并行训练效率低的问题,本文结合Spark对每层级联森林模型进行并行化训练,该过程分为两个阶段:(1)并行构建级联森林:利用Spark框架搭建并行深度森林,提出了FFM-II的特征筛选机制,根据级联森林训练得出的准确率剔除非关键特征,平衡增强类向量和原始类向量维度。(2)负载均衡:设计了TSM-SCA的任务调度机制,利用SCA算法计算出最优的任务分配方案,然后Spark集群按照方案分配任务。
3.1并行构建级联森林
在利用spark构建并行级联森林过程中,由于级联森林训练得到的增强类向量维度远低于原始类向量维度,导致模型收敛速度慢,因此提出FFM-II的特征筛选机制,通过模型的训练准确率计算特征的重要性指数,以此剔除部分非关键特征,平衡增强类向量和原始类向量维度,从而加快模型收敛速度,该策略过程如下:
(1)过滤特征。首先根据当前层级联森林的训练准确率,计算每个特征的重要性指数G(f),并根据G(f)的值对原始类向量中的特征从低到高排序;然后提出自适应比例系数QDF,按照当前原始类向量的特征数量计算自适应比例系数QDF;最后根据QDF值将排好序的原始类向量E分为非关键类向量和有效类向量,将非关键类向量放入到非关键类向量集合R*。
(2)合并类向量。首先拼接前面所有层级联森林训练得到的增强类向量,得到总的增强类向量D;然后将总的增强类向量D与下一层级联森林的原始类向量E'进行拼接;最后从拼接后的类向量中删除非关键类向量集合R*中包含的特征,获取输入到下一层级联森林的类向量ED。
定理3(重要性指数G(f))假设在当前层级森林中,决策树权重为μi,子森林权重为εj,特征f的重要性在第j个子森林的第i棵决策树中为Gi(f),则在当前层级联森林中,特征f重要性指数为:
G(f)表示当前层级联森林的特征f的重要性指数;
μi表示决策树权重;
εj表示第j个子森林权重;
s表示每层级联森林中含有的子森林个数;
r表示子森林中含有的决策树的个数;
Gi(f)表示第j个子森林的第i棵决策树的特征f的重要性指数;
μi表示决策树权重;
Pi表示j个子森林中第i棵决策树的准确率;
r表示子森林中含有的决策树的个数;
εj表示子森林权重;
Qj表示第j个子森林的准确率;
s表示每层级联森林中含有的子森林个数。
其中,Pi是第j个子森林中第i棵决策树的准确率,Qj是第j个子森林的准确率。
证明:假设每层级联森林中含有s个子森林,每个森林中含有r棵决策树,其中,第j个子森林中第i棵决策树的准确率为Pi,第j个子森林的准确率为Qj,准确率可以衡量决策树和子森林的分类能力。Pi与的比值表示单个决策树预测准确率与子森林总准确率归一化权重,其值越大说明该决策树分类能力越强,在子森林中越重要。同理,Qj与/>的比值反映了Qj在本层级联森林总准确率/>的权重,其值越大则说明该子森林分类能力越强,在本层级联森林中越重要。Gi(f)表示特征f在第i棵决策树中的重要性,Gi(f)的值只能衡量特征在当前决策树中重要性,若想要衡量特征f在当前层级联森林中重要性,需要计算特征在当前层所有决策树中的重要程度,所以在当前层级联森林中,特征f重要性指数为:
G(f)表示当前层级联森林的特征f的重要性指数;
s表示每层级联森林中含有的子森林个数;
r表示子森林中含有的决策树的个数;
εj表示子森林权重;
μi表示决策树权重;
Gi(f)表示第j个子森林的第i棵决策树的特征f的重要性指数。
证毕。
定理4(自适应比例系数QDF)假设第λ层级联森林中,原始类向量的特征数量为Nλ,则第λ层的自适应比例系数QDF为:
QDF表示自适应比例系数;
λ表示级联森林的层数;
Nλ表示第λ层级联森林原始向量的特征数量。
证明:当λ>1时,第λ层级联森林原始向量的特征数量为Nλ,令此时/>则/>当第λ+1层的特征数量Nλ不变时,令/>此时/>当第λ+1层的特征数量为Nλ+1时,此时/>由于函数f(x)=1/x在[1,+∞)的取值为(0,1),则/>令会使得比例系数随着层数和特征数量动态变化,并且随着层数的增加而逐步降低。证毕。
综上QDF是一个可以根据级联森林的层数和特征数量来动态调整划分比例的系数,且级联森林的层数越多划分比例越小。
3.2负载均衡
针对Spark各节点计算能力偏差造成的集群负载不均衡,导致级联森林并行化效率低下的问题,设计了TSM-SCA的任务调度机制,通过SCA算法求解最优的调度方案,重新分配任务,使节点达到负载均衡的状态,从而提高并行化效率。具体分为以下步骤:
(1)初始化SCA种群。初始化种群数量为k,Xm=(xm1,xm2,.....,xmN)表示第m(m=1,2,.....,k)个体,根据集群节点数量设置搜索空间维度为N。
(2)更新个体的位置。提出基于惯性因子ω的位置更新函数W(x)来替代式(10),以此提升个体的全局搜索能力,加快算法收敛。
(3)更新振幅控制参数r1。式(11)中r1是线性递减的,前期和后期递减速度相同,导致前期全局搜索不充分,后期算法无法快速收敛。为了获得更好的稳定性和更高的寻优能力,对控制参数r1提出一种基于正切函数的曲线自适应振幅调整策略,来保证解的优质性。
(4)判断当前最优个体是否满足解条件。若满足条件或者设定的迭代次数达到上限则输出当前最优个体Pg,不满足重复(2)-(3)。
(5)任务分配。集群根据得到的任务调度方案Pg=(pg1,pg2,....,pgN)(g1,g2,...,gN表示最优个体在各个维度的位置)进行任务分配,实现集群的负载平衡。
定理5(位置更新函数W()):假设为个体h在维度l上的原位置,/>为个体h在维度l上的更新位置,pgl为当前全局最优解的l维位置,ω(t)为惯性因子,位置更新函数为(位置更新函数有两个,需要通过r4的大小判断使用上面的更新还是下面的更新):/>
W()表示位置更新函数;
表示个体h在维度l上的更新位置;
ω(t)表示惯性因子;
表示个体h在维度l上的原位置;
r1表示更新振幅控制参数;
r2表示服从均匀分布的随机数,r2∈[0,2π];
r3表示服从均匀分布的随机数,r3∈[-2,2];
r4表示服从均匀分布的随机数,r4∈[0,1];
pgl表示当前全局最优解的l维位置;
ω(t)表示惯性因子;
ωmin表示迭代结束时的惯性因子,即最小值;
ωmax表示初始惯性因子,即最大值;
t表示当前迭代次数;
T表示最大迭代次数;
表示t与T的比值。
其中,T为最大迭代次数,ωmax为初始惯性因子,即最大值;ωmin为迭代结束时的惯性因子,即最小值。
证明:根据惯性因子的迭代定理可知,在迭代早期,较大惯性因子可以提升全局搜索能力,在迭代晚期,较小惯性因子可以增强局部开发能力,加速算法收敛。当前迭代次数t和最大迭代次数T的比值表示当前迭代所处的时间段,t与T的比值在[0,1]之间,因为函数/>在/>区间先缓慢递减,后快速递减,且当/>时,ω→ωmax,时,ω→ωmin,所以惯性因子ω在早期取值较大,在后期取值较小,ω(t)满足了惯性因子的迭代定理。因此,使用W(x)可以提升全局搜索能力,加快算法收敛,证毕。
定理6(r1自适应振幅调整策略):假设T为最大迭代次数,a为常数,则在t次迭代时,控制参数r1为:
/>
r1(t)表示振幅控制参数;
a表示常数;
t表示当前迭代次数;
T表示最大迭代次数;
表示t与T的比值。
证明:当前迭代次数t和最大迭代次数T的比值t/T表示当前迭代所处的时间段,t与T的比值在[0,1]之间,因为函数在/>区间先缓慢递减,后快速递减,所以r1∈[0,a]的递减速率先慢后快。在前期r1递减缓慢,保证了前期的迭代次数比原始SCA算法更多,可以相对增加全局搜索能力,有助于在更大空间内搜寻最优解;在后期r1加速递减,加快算法收敛,可以提升SCA的寻优精度和收敛速度。因此,r1(t)可以增加全局搜索能力,加快收敛速度,提升解的精度,证毕。
4.PDF-SNRSCA算法的有效性验证
为了验证PDF-SNRSCA算法的有效性及可行性,对延安市、延安市安塞区进行栅格化,分别获得60,185,000和5,600,000个栅格单元,每个栅格单元有7个影响因子(维度),分别称它们为延安市和延安市安塞区数据集,将PDF-SNRSCA算法应用于上述两个数据集进行算法的性能验证。
4.1PDF-SNRSCA方法的并行性分析
为了验证PDF-SNRSCA算法在大数据环境下的可行性,以加速比作为评价指标,在延安市和延安市安塞区这2个数据集中进行实验,为了进一步保证实验的准确性,以运行10次后的平均结果计算加速比。实验结果如图1所示。
由图1可以看出,算法在延安市数据集和延安市安塞区数据集上的加速比都是随着节点数的增加而逐步提升。算法在两个节点运行时的加速比上升幅度较小这是因为分配到各节点的数据量较大,其并行性能没有得到明显的提升,随着节点数的增加,加速比呈直线上升的状态。当节点数增加到了6时,算法在处理延安市数据集时,加速比达到了4.56,比单个节点提升了3.56;在处理延安市安塞区数据集时,加速比高达4.12,比单个节点提升了3.12。产生该结果的原因主要包括:(1)当节点数量较少时,算法总体运行时间主要由节点间的通信时间决定,并行计算缩减的运算时间有限无法起到主导作用,从而导致此时算法的加速比较小;(2)当节点数量较多时,PDF-SNRSCA算法利用FS-NRS策略过滤了原始数据集中大量的冗余和不相关特征,减少了冗余和不相关特征的计算,因此提升了算法的加速比;(3)在模型并行训练阶段,PDF-SNRSCA算法利用FFM-II机制平衡增强向量和原始向量的维度,加快了模型收敛速度,同时利用TSM-SCA机制,寻找最优的调度方案,实现负载均衡,从而提高了各节点的并行运算效率。因此,PDF-SNRSCA算法在并行计算平台上的性能提升会随着节点个数的增加而更加显著,这同时也表明PDF-SNRSCA算法在大数据环境下具有较好的可行性。
4.2PDF-SNRSCA方法的分类精确度分析
为了分析PDF-SNRSCA算法分类精确度,在延安市和延安市安塞区两个数据集上分别作了实验,算法的准确度F-measure的结果如图2所示。
从图2可以看出,PDF-SNRSCA算法在两个数据集上的分类精确度都达到了85%以上。在延安市数据集上,算法的F-measure值达到了88.5%;在延安市安塞区数据集上,算法的F-measure值达到87.2%。造成这种结果的主要原因有:(1)PDF-SNRSCA算法设计了FS-NRS策略,通过衡量特征的相关性和冗余度,对特征进行过滤,提高了模型的分类能力;(2)PDF-SNRSCA算法设计了S-RSEE策略,使得特征同概率被选取,提高了两端特征利用率,进而提高了算法的准确率;(3)PDF-SNRSCA算法利用FFM-II策略筛选出非关键性特征,对提升算法准确率也有一定的帮助。故由上述的比较结果可知,PDF-SNRSCA算法在两个数据集上有着更为优秀的分类精确度。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (7)
1.区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,包括以下步骤:
S1,将具有潜在滑坡区域的地理底图输入改进的并行深度森林算法中,并从中筛选无关特征,获取候选特征集,从候选特征集中过滤出冗杂特征,构成优质特征集;
S2,将获取的优质特征集送入多粒度扫描阶段处理;
S3,结合Spark对每层级联森林模型进行并行化获得滑坡结果。
2.根据权利要求1所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,S1具体包括以下步骤:
S11,首先计算出每个特征Fisher Score(FSf)和SUδ(f,C);然后根据SUδ(f,C)和FSf计算原始特征集中每个特征的特征分割参数FSP,并且根据FSP的大小进行降序排序;最后按照FSP值,从高到低将原始特征集划分为候选特征集合和无关特征集合两部分,其中,特征分割参数FSP的计算公式如下;
FSP=FSf*SUδ(f,C) (1)
FSP表示特征分割参数;
FSf表示特征f的Fisher Score的值;
SUδ(f,C)表示衡量特征f和标签集合C的相关性;
其中,
FSf表示特征f的Fisher Score的值;
k表示样本数;
nc表示类别为c的样本数;
μfc表示特征f在类别c中的均值;
μf表示特征f的均值;
表示特征f在类别c中方差的平方;
SUδ(f,C)表示衡量特征f和标签集合C的相关性;
NHδ(f;C)表示当前特征f和标签集合C的邻域互信息;
NHδ(f)表示当前特征f的邻域信息熵;
NHδ(C)表示当前标签集合C的邻域信息熵;
S12,提出并通过冗余系数RF对候选特征集进行过滤,筛选出大量冗余特征,获取优质特征集,冗余系数RF的计算公式如下:
fi表示假设的第一特征;
fj表示假设的第二特征;
RFi,j表示fi与fj的冗余系数;
SUδ(fi,fj)表示衡量当前特征fi和第二特征fj的相关性;
NHδ(f;C)表示当前特征f和标签集合C的邻域互信息。
3.根据权利要求1所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,S2具体包括以下步骤:
S21,随机扫描:特征预处理阶段得到特征集合S,其大小为x,类别数为y,从S中随机抽取h个特征组成一个特征片段,重复抽取b次,共生成b个特征片段,将每个特征片段导入到随机森林中训练,得到b个y维的类向量;
S22,等距提取:将特征集合S等分为b个特征片段,每份大小为将每个特征片段导入到完全随机森林中训练,同样得到b个y维的类向量;
S23,初始化类向量:重复上述两个阶段z次,将z次训练后得到的类向量进行拼接,最后得到2zby维的原始类向量E。
4.根据权利要求1所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,S3具体包括以下步骤:
S31,并行构建级联森林:利用Spark框架搭建并行深度森林,结合FFM-II的特征筛选机制,根据级联森林训练得出的准确率剔除非关键特征,平衡增强类向量和原始类向量维度;
S32,负载均衡:通过TSM-SCA的任务调度机制,利用SCA算法计算出最优的任务分配方案,然后Spark集群按照方案分配任务。
5.根据权利要求4所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,S31具体包括以下步骤:
S311,过滤特征;首先根据当前层级联森林的训练准确率,计算每个特征的重要性指数G(f),并根据G(f)的值对原始类向量中的特征从低到高排序;按照当前原始类向量的特征数量计算自适应比例系数QDF;最后根据QDF值将排好序的原始类向量E分为非关键类向量和有效类向量,将非关键类向量放入到非关键类向量集合R*,其中重要性指数G(f)的公式如下:
G(f)表示当前层级联森林的特征f的重要性指数;
μi表示决策树权重;
εj表示第j个子森林权重;
s表示每层级联森林中含有的子森林个数;
r表示子森林中含有的决策树的个数;
Gi(f)表示第j个子森林的第i棵决策树的特征f的重要性指数;
μi表示决策树权重;
Pi表示j个子森林中第i棵决策树的准确率;
r表示子森林中含有的决策树的个数;
εj表示子森林权重;
Qj表示第j个子森林的准确率;
s表示每层级联森林中含有的子森林个数;
其中,自适应比例系数QDF的计算公式如下:
QDF表示自适应比例系数;
λ表示级联森林的层数;
Nλ表示第λ层级联森林原始向量的特征数量;
S312,合并类向量:首先拼接前面所有层级联森林训练得到的增强类向量,得到总的增强类向量D;然后将总的增强类向量D与下一层级联森林的原始类向量E'进行拼接;最后从拼接后的类向量中删除非关键类向量集合R*中包含的特征,获取输入到下一层级联森林的类向量ED。
6.根据权利要求4所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,S32具体包括以下步骤:
S321,初始化SCA种群:初始化种群数量为k,Xm=(xm1,xm2,.....,xmN)表示第m(m=1,2,.....,k)个体,根据集群节点数量设置搜索空间维度为N;
S322,更新个体的位置:基于惯性因子ω的位置更新函数W(x)来替代式(10),以此提升个体的全局搜索能力,加快算法收敛;其中包含公式如下:
W()表示位置更新函数;
表示个体h在维度l上的更新位置;
ω(t)表示惯性因子;
表示个体h在维度l上的原位置;
r1表示更新振幅控制参数;
r2表示服从均匀分布的随机数,r2∈[0,2π];
r3表示服从均匀分布的随机数,r3∈[-2,2];
r4表示服从均匀分布的随机数,r4∈[0,1];
pgl表示当前全局最优解的l维位置;
其中,惯性因子ω(t)的计算公式如下:
ωmin表示迭代结束时的惯性因子,即最小值;
ωmax表示初始惯性因子,即最大值;
t表示当前迭代次数;
T表示最大迭代次数;
表示t与T的比值;
S323,更新振幅控制参数r1:式(11)中r1是线性递减的,前期和后期递减速度相同,导致前期全局搜索不充分,后期算法无法快速收敛,为了获得更好的稳定性和更高的寻优能力,对控制参数r1利用公式(12)来保证解的优质性;
r1(t)表示振幅控制参数;
a表示常数;
t表示当前迭代次数;
T表示最大迭代次数;
表示t与T的比值;
S324,判断当前最优个体是否满足解条件:若满足条件或者设定的迭代次数达到上限则输出当前最优个体Pg,不满足重复S322~S323;
S325,任务分配:集群根据得到的任务调度方案Pg=(pg1,pg2,....,pgN)进行任务分配,实现集群的负载平衡。
7.根据权利要求1所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,还包括对改进的并行深度森林算法的有效性进行验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310790193.4A CN116776254A (zh) | 2023-06-30 | 2023-06-30 | 区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310790193.4A CN116776254A (zh) | 2023-06-30 | 2023-06-30 | 区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116776254A true CN116776254A (zh) | 2023-09-19 |
Family
ID=87991168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310790193.4A Pending CN116776254A (zh) | 2023-06-30 | 2023-06-30 | 区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116776254A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523060A (zh) * | 2024-01-04 | 2024-02-06 | 虚拟现实(深圳)智能科技有限公司 | 元宇宙数字人的画质处理方法、装置、设备及存储介质 |
-
2023
- 2023-06-30 CN CN202310790193.4A patent/CN116776254A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523060A (zh) * | 2024-01-04 | 2024-02-06 | 虚拟现实(深圳)智能科技有限公司 | 元宇宙数字人的画质处理方法、装置、设备及存储介质 |
CN117523060B (zh) * | 2024-01-04 | 2024-05-17 | 虚拟现实(深圳)智能科技有限公司 | 元宇宙数字人的画质处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Polykretis et al. | Adaptive neuro-fuzzy inference system (ANFIS) modeling for landslide susceptibility assessment in a Mediterranean hilly area | |
Häring et al. | Spatial disaggregation of complex soil map units: a decision-tree based approach in Bavarian forest soils | |
Eastman et al. | Multi-criteria and multi-objective decision making for land allocation using GIS | |
Guzzetti et al. | Estimating the quality of landslide susceptibility models | |
Zhu et al. | Construction of membership functions for predictive soil mapping under fuzzy logic | |
Youssef et al. | Integrated evaluation of urban development suitability based on remote sensing and GIS techniques: Contribution from the analytic hierarchy process. | |
Jochem et al. | Identifying residential neighbourhood types from settlement points in a machine learning approach | |
Li et al. | Rainfall and earthquake-induced landslide susceptibility assessment using GIS and Artificial Neural Network | |
Li et al. | Stacking ensemble of deep learning methods for landslide susceptibility mapping in the Three Gorges Reservoir area, China | |
CN111898315B (zh) | 基于分形—机器学习混合模型的滑坡易发性评估方法 | |
Tang et al. | Evaluating landslide susceptibility based on cluster analysis, probabilistic methods, and artificial neural networks | |
CN105760649B (zh) | 一种面向大数据的可信度量方法 | |
CN106250442A (zh) | 一种网络安全数据的特征选择方法及系统 | |
CN105843829B (zh) | 一种基于分层模型的大数据可信性度量方法 | |
Mokarram et al. | A review of landform classification methods | |
CN113642849A (zh) | 考虑空间分布特征的地质灾害危险性综合评价方法及装置 | |
CN116776254A (zh) | 区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法 | |
CN105205052A (zh) | 一种数据挖掘方法及装置 | |
CN113392587A (zh) | 一种大区域滑坡危险性评价的并行支持向量机分类方法 | |
CN102930275A (zh) | 基于Cramer’s V指数的遥感影像特征选择方法 | |
Samadi Alinia et al. | Tehran’s seismic vulnerability classification using granular computing approach | |
CN110704694A (zh) | 一种基于网络表示学习的组织层级划分方法及其应用 | |
CN106056577A (zh) | 基于mds‑srm混合级联的sar图像变化检测方法 | |
Nourzad et al. | Ensemble methods for binary classifications of airborne LiDAR data | |
Hu et al. | Using uncertain DM-chameleon clustering algorithm based on machine learning to predict landslide hazards |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |