CN112418311A - 一种通信网络风险评估的分布式随机森林方法 - Google Patents
一种通信网络风险评估的分布式随机森林方法 Download PDFInfo
- Publication number
- CN112418311A CN112418311A CN202011315706.9A CN202011315706A CN112418311A CN 112418311 A CN112418311 A CN 112418311A CN 202011315706 A CN202011315706 A CN 202011315706A CN 112418311 A CN112418311 A CN 112418311A
- Authority
- CN
- China
- Prior art keywords
- training
- data
- model
- random forest
- risk assessment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004891 communication Methods 0.000 title claims abstract description 30
- 238000012502 risk assessment Methods 0.000 title claims abstract description 27
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000005192 partition Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 12
- 238000010801 machine learning Methods 0.000 abstract description 6
- 230000007547 defect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000033999 Device damage Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Abstract
本发明公开一种通信网络风险评估的分布式随机森林方法,包括数据预处理阶段、模型的离线训练阶段以及在线预测阶段,通过数据预处理阶段将训练数据划分为最佳数量的分区,使所提出的模型能够加速并行和分布式训练任务,将分区后的数据划分为训练集和测试集,然后利用spark构建随机森林模型进行训练,最后利用训练后的模型进行在线预测。本发明解决了传统通信网络风险评估方法的缺点,使得风险评估的结果更为可靠,此外该方法提高了集中式机器学习方法处理大数据的效率,节约了时间成本,提高风险评估中大数据的处理效率,同时避免集中式的通信过载问题。
Description
技术领域
本发明涉及一种数据处理领域,具体是一种通信网络风险评估的分布式随机森林方法。
背景技术
目前,随着通信网络的快速稳定发展,5G网络时代的到来,使得传统2G、3G、4G网络的规模迅速扩大并且网络结构更为复杂,对通信网络进行风险评估有着至关重要的作用,它不仅确保运营商的正常运行,还可以为运营商提供准确、高效的运营保障。
已有的风险评估方法在评估通信网络的安全时大多采用主观性判断,例如模糊综合评价法、层次分析法、专家打分法等,通过人为设定风险因素的权值以判断整个通信网络的安全程度,其缺点是显而易见的,在很大程度上影响评估结果的准确性。随着机器学习技术的迅速发展,以及日益增长的数据量,使得传统的主观性风险评估方法不在适用,基于大数据及机器学习方法的风险评估技术受到广泛关注。在面对处理海量数据时,集中式的机器学习方法的效率则令人担忧,并且容易造成通信过载,损毁设备。
因此,为了得到一种既能高效处理海量数据,又能避免产生通信过载的通信网络风险评估方法,需要考虑分布式处理技术。利用分布式机器学习方法,既能避免集中式的低效率,又能防止通信过载,从而达到一种最优的数据处理模式,针对这种情况,现提出一种通信网络风险评估的分布式随机森林方法。
发明内容
本发明的目的在于提供一种通信网络风险评估的分布式随机森林方法,旨在提高风险评估中大数据的处理效率,同时避免集中式的通信过载问题,解决了传统通信网络风险评估方法的缺点,使得风险评估的结果更为可靠,此外该方法提高了集中式机器学习方法处理大数据的效率,节约了时间成本。
本发明的目的可以通过以下技术方案实现:
一种通信网络风险评估的分布式随机森林方法,包括数据预处理阶段、模型的离线训练阶段以及在线预测阶段,通过数据预处理阶段将训练数据划分为最佳数量的分区,使所提出的模型能够加速并行和分布式训练任务,将分区后的数据划分为训练集和测试集,然后利用spark构建随机森林模型进行训练,最后利用训练后的模型进行在线预测。
进一步地,所述数据预处理阶段由于跨节点的数据分布对于并行和分布式计算的效率至关重要,利用spark中的RDD技术进行分区操作,并且将训练数据划分为最佳数量的分区,使所提出的模型能够加速并行和分布式训练任务,设置Np为分区数目的集合,Time(RDDtrain,np)表示根据参数np计执行训练任务所需的计算时间的函数,最优分区数为:
进一步地,所述离线训练阶段利用spark构建随机森林模型,在模型构建过程中,利用bootstrap对训练数据进行采样生成新的训练数据,并从新的训练数据中根据基尼指数选择最优的特征以进行树的划分,最后集成每棵树构建随机森林模型,具体步骤如下
Step 1:输入分区的训练数据集
for train of each partition do
Step 3:生成随机森林模型{hi,i=1,2,...,Ntree}。
进一步地,所述在线预测阶段基于数据的并行化,以及Python多线程编程和Spark的并行框架,将测试集的每个样本并行分配到工作节点中,利用离线训练过的模型进行最终的预测。
本发明的有益效果:
1、本发明解决了传统通信网络风险评估方法的缺点,使得风险评估的结果更为可靠,此外该方法提高了集中式机器学习方法处理大数据的效率,节约了时间成本;
2、本发明提高风险评估中大数据的处理效率,同时避免集中式的通信过载问题。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明通信网络风险评估的分布式随机森林方法实施流程图;
图2是本发明通信网络风险评估的分布式随机森林方法运行效率对比图;
图3是本发明在真实数据集上的ROC曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
一种通信网络风险评估的分布式随机森林方法,如图1所示,通过运用spark中的RDD技术将数据集进行分区操作,利用spark分布式计算框架建立随机森林模型,并最终进行预测,该方法旨在提高集中式环境中进行通信网络风险评估时大数据处理的效率,并且避免单个处理单元的通信过载问题,如图1所示,在数据预处理阶段,由于跨节点的数据分布对于并行和分布式计算的效率至关重要。此步骤的主要目标是将训练数据RDDtrain划分为最佳数量的分区,使所提出的模型能够加速并行和分布式训练任务,设置Np为分区数目的集合,Time(RDDtrain,np)表示根据参数np计执行训练任务所需的计算时间的函数。最优分区数为:
模型的并行化离线训练阶段利用spark构建随机森林模型,具体步骤如下
Step 1:输入分区的训练数据集
for train of each partition do
Step 3:生成随机森林模型{hi,i=1,2,...,Ntree}
模型的在线预测阶段利用数据的并行化,基于Python多线程编程和Spark的并行框架,将测试集的每个样本并行分配到工作节点中,利用离线训练过的模型进行最终的预测。
考虑该方法的运行效率问题,如图2所示,在真实数据集上进行实验,选取Accuracy、Recall、F1 score、ROC曲线、PR为该方法评价指标,实验结果从图中可以看出,该方法在分布式环境下的运行时间约为集中式环境中的一半,从而表明该算法在处理通信网络大数据时的高效性。
为了衡量该方法的有效性,在真实数据集上进行实验,选取ROC曲线作为评价指标,运行结果如图3所示,从图中可以看出,该方法在ROC曲线中的AUC面积高于另外两个竞争的算法,从而体现出所提方法在实际处理问题时有更好的性能。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (4)
1.一种通信网络风险评估的分布式随机森林方法,包括数据预处理阶段、模型的离线训练阶段以及在线预测阶段,其特征在于:通过数据预处理阶段将训练数据划分为最佳数量的分区,使所提出的模型能够加速并行和分布式训练任务,将分区后的数据划分为训练集和测试集,然后利用spark构建随机森林模型进行训练,最后利用训练后的模型进行在线预测。
4.根据权利要求1所述的一种通信网络风险评估的分布式随机森林方法,其特征在于,所述在线预测阶段基于数据的并行化,以及Python多线程编程和Spark的并行框架,将测试集的每个样本并行分配到工作节点中,利用离线训练过的模型进行最终的预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011315706.9A CN112418311A (zh) | 2020-11-21 | 2020-11-21 | 一种通信网络风险评估的分布式随机森林方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011315706.9A CN112418311A (zh) | 2020-11-21 | 2020-11-21 | 一种通信网络风险评估的分布式随机森林方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112418311A true CN112418311A (zh) | 2021-02-26 |
Family
ID=74777153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011315706.9A Pending CN112418311A (zh) | 2020-11-21 | 2020-11-21 | 一种通信网络风险评估的分布式随机森林方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418311A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550374A (zh) * | 2016-01-29 | 2016-05-04 | 湖南大学 | Spark云服务环境下面向大数据的随机森林并行机器学习方法 |
CN106056427A (zh) * | 2016-05-25 | 2016-10-26 | 中南大学 | 一种基于Spark的大数据混合模型的移动推荐方法 |
CN107124325A (zh) * | 2017-03-10 | 2017-09-01 | 北京国电通网络技术有限公司 | 一种电力通信网运行安全评估方法及系统 |
CN107124394A (zh) * | 2017-03-10 | 2017-09-01 | 北京国电通网络技术有限公司 | 一种电力通信网络安全态势预测方法和系统 |
CN107145959A (zh) * | 2017-03-23 | 2017-09-08 | 北京国电通网络技术有限公司 | 一种基于大数据平台的电力数据处理方法 |
CN108491226A (zh) * | 2018-02-05 | 2018-09-04 | 西安电子科技大学 | 基于集群缩放的Spark配置参数自动调优方法 |
CN108833397A (zh) * | 2018-06-08 | 2018-11-16 | 武汉思普崚技术有限公司 | 一种基于网络安全的大数据安全分析平台系统 |
CN109087140A (zh) * | 2018-08-07 | 2018-12-25 | 广州航海学院 | 一种基于spark大数据的闭环目标客户识别方法 |
CN110825522A (zh) * | 2019-10-31 | 2020-02-21 | 武汉联图时空信息科技有限公司 | Spark参数自适应优化方法及系统 |
CN111327462A (zh) * | 2020-02-11 | 2020-06-23 | 安徽理工大学 | 基于遗传算法优化深度神经网络的通信网络风险评估方法 |
CN111382357A (zh) * | 2020-03-06 | 2020-07-07 | 吉林农业科技学院 | 一种基于大数据的信息推荐系统 |
CN111639237A (zh) * | 2020-04-07 | 2020-09-08 | 安徽理工大学 | 一种基于聚类和关联规则挖掘的电力通信网风险评估系统 |
-
2020
- 2020-11-21 CN CN202011315706.9A patent/CN112418311A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550374A (zh) * | 2016-01-29 | 2016-05-04 | 湖南大学 | Spark云服务环境下面向大数据的随机森林并行机器学习方法 |
CN106056427A (zh) * | 2016-05-25 | 2016-10-26 | 中南大学 | 一种基于Spark的大数据混合模型的移动推荐方法 |
CN107124325A (zh) * | 2017-03-10 | 2017-09-01 | 北京国电通网络技术有限公司 | 一种电力通信网运行安全评估方法及系统 |
CN107124394A (zh) * | 2017-03-10 | 2017-09-01 | 北京国电通网络技术有限公司 | 一种电力通信网络安全态势预测方法和系统 |
CN107145959A (zh) * | 2017-03-23 | 2017-09-08 | 北京国电通网络技术有限公司 | 一种基于大数据平台的电力数据处理方法 |
CN108491226A (zh) * | 2018-02-05 | 2018-09-04 | 西安电子科技大学 | 基于集群缩放的Spark配置参数自动调优方法 |
CN108833397A (zh) * | 2018-06-08 | 2018-11-16 | 武汉思普崚技术有限公司 | 一种基于网络安全的大数据安全分析平台系统 |
CN109087140A (zh) * | 2018-08-07 | 2018-12-25 | 广州航海学院 | 一种基于spark大数据的闭环目标客户识别方法 |
CN110825522A (zh) * | 2019-10-31 | 2020-02-21 | 武汉联图时空信息科技有限公司 | Spark参数自适应优化方法及系统 |
CN111327462A (zh) * | 2020-02-11 | 2020-06-23 | 安徽理工大学 | 基于遗传算法优化深度神经网络的通信网络风险评估方法 |
CN111382357A (zh) * | 2020-03-06 | 2020-07-07 | 吉林农业科技学院 | 一种基于大数据的信息推荐系统 |
CN111639237A (zh) * | 2020-04-07 | 2020-09-08 | 安徽理工大学 | 一种基于聚类和关联规则挖掘的电力通信网风险评估系统 |
Non-Patent Citations (4)
Title |
---|
F. OPITZ, C ET AL: "Data Analytics, Machine Learning and Risk Assessment for Surveillance and Situation Awareness", 《2020 21ST INTERNATIONAL RADAR SYMPOSIUM 》 * |
W. ALAJALI ET AL: "Traffic Flow Prediction for Road Intersection Safety", 《SMARTWORLD/SCALCOM/UIC/ATC/CBDCOM/IOP/SCI》 * |
云宝音等: "通信网络安全风险评估及防御技术应用研究", 《安全技术》 * |
胡天宇: "基于Spark的随机森林算法优化与并行化研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11124317B2 (en) | Method for prediction of key performance parameters of aero-engine in transition condition | |
CN110135630B (zh) | 基于随机森林回归和多步寻优的短期负荷需求预测方法 | |
CN110417011B (zh) | 一种基于互信息与迭代随机森林的在线动态安全评估方法 | |
CN103745273B (zh) | 一种半导体制造过程的多性能预测方法 | |
CN112686464A (zh) | 短期风电功率预测方法及装置 | |
CN113570138B (zh) | 一种时间卷积网络的设备剩余使用寿命预测方法及装置 | |
CN109636243A (zh) | 模型故障检测方法、装置、计算机设备以及存储介质 | |
CN109784692A (zh) | 一种基于深度学习的快速安全约束经济调度方法 | |
CN111190349A (zh) | 船舶机舱设备状态监测及故障诊断方法、系统及介质 | |
CN113625697B (zh) | 考虑任务能力变化的无人机集群可靠性评估方法和系统 | |
CN111680875A (zh) | 基于概率基线模型的无人机状态风险模糊综合评价方法 | |
CN112116160A (zh) | 一种基于优化神经网络改进元胞自动机的重要输电通道灾害监测方法 | |
CN112307677A (zh) | 基于深度学习的电网振荡模态评估与安全主动预警方法 | |
CN108763096A (zh) | 基于深度信念网络算法支持向量机的软件缺陷预测方法 | |
CN112017070A (zh) | 一种基于数据增强评估电力系统暂态稳定的方法及系统 | |
CN115526258A (zh) | 基于Spearman相关系数特征提取的电力系统暂稳评估方法 | |
CN111814284A (zh) | 基于相关性检测与改进随机森林的在线电压稳定评估方法 | |
CN113328467B (zh) | 一种概率电压稳定性评估方法、系统、终端设备及介质 | |
CN111680823A (zh) | 一种风向信息预测方法及系统 | |
Li et al. | Aero-engine exhaust gas temperature prediction based on LightGBM optimized by improved bat algorithm | |
CN112632765B (zh) | 一种加权和法与sem法结合的作战能力评估方法 | |
CN109886316B (zh) | 基于云系相似度权重分配的变压器状态参量组合预测方法 | |
CN112418311A (zh) | 一种通信网络风险评估的分布式随机森林方法 | |
CN111965442A (zh) | 一种数字孪生环境下的能源互联网故障诊断方法及装置 | |
CN110458432A (zh) | 一种基于云模型的电力光传输网可靠性诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210226 |