CN112418311A - 一种通信网络风险评估的分布式随机森林方法 - Google Patents

一种通信网络风险评估的分布式随机森林方法 Download PDF

Info

Publication number
CN112418311A
CN112418311A CN202011315706.9A CN202011315706A CN112418311A CN 112418311 A CN112418311 A CN 112418311A CN 202011315706 A CN202011315706 A CN 202011315706A CN 112418311 A CN112418311 A CN 112418311A
Authority
CN
China
Prior art keywords
training
data
model
random forest
risk assessment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011315706.9A
Other languages
English (en)
Inventor
李德权
方润月
申修宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Science and Technology
Original Assignee
Anhui University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Science and Technology filed Critical Anhui University of Science and Technology
Priority to CN202011315706.9A priority Critical patent/CN112418311A/zh
Publication of CN112418311A publication Critical patent/CN112418311A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Abstract

本发明公开一种通信网络风险评估的分布式随机森林方法,包括数据预处理阶段、模型的离线训练阶段以及在线预测阶段,通过数据预处理阶段将训练数据划分为最佳数量的分区,使所提出的模型能够加速并行和分布式训练任务,将分区后的数据划分为训练集和测试集,然后利用spark构建随机森林模型进行训练,最后利用训练后的模型进行在线预测。本发明解决了传统通信网络风险评估方法的缺点,使得风险评估的结果更为可靠,此外该方法提高了集中式机器学习方法处理大数据的效率,节约了时间成本,提高风险评估中大数据的处理效率,同时避免集中式的通信过载问题。

Description

一种通信网络风险评估的分布式随机森林方法
技术领域
本发明涉及一种数据处理领域,具体是一种通信网络风险评估的分布式随机森林方法。
背景技术
目前,随着通信网络的快速稳定发展,5G网络时代的到来,使得传统2G、3G、4G网络的规模迅速扩大并且网络结构更为复杂,对通信网络进行风险评估有着至关重要的作用,它不仅确保运营商的正常运行,还可以为运营商提供准确、高效的运营保障。
已有的风险评估方法在评估通信网络的安全时大多采用主观性判断,例如模糊综合评价法、层次分析法、专家打分法等,通过人为设定风险因素的权值以判断整个通信网络的安全程度,其缺点是显而易见的,在很大程度上影响评估结果的准确性。随着机器学习技术的迅速发展,以及日益增长的数据量,使得传统的主观性风险评估方法不在适用,基于大数据及机器学习方法的风险评估技术受到广泛关注。在面对处理海量数据时,集中式的机器学习方法的效率则令人担忧,并且容易造成通信过载,损毁设备。
因此,为了得到一种既能高效处理海量数据,又能避免产生通信过载的通信网络风险评估方法,需要考虑分布式处理技术。利用分布式机器学习方法,既能避免集中式的低效率,又能防止通信过载,从而达到一种最优的数据处理模式,针对这种情况,现提出一种通信网络风险评估的分布式随机森林方法。
发明内容
本发明的目的在于提供一种通信网络风险评估的分布式随机森林方法,旨在提高风险评估中大数据的处理效率,同时避免集中式的通信过载问题,解决了传统通信网络风险评估方法的缺点,使得风险评估的结果更为可靠,此外该方法提高了集中式机器学习方法处理大数据的效率,节约了时间成本。
本发明的目的可以通过以下技术方案实现:
一种通信网络风险评估的分布式随机森林方法,包括数据预处理阶段、模型的离线训练阶段以及在线预测阶段,通过数据预处理阶段将训练数据划分为最佳数量的分区,使所提出的模型能够加速并行和分布式训练任务,将分区后的数据划分为训练集和测试集,然后利用spark构建随机森林模型进行训练,最后利用训练后的模型进行在线预测。
进一步地,所述数据预处理阶段由于跨节点的数据分布对于并行和分布式计算的效率至关重要,利用spark中的RDD技术进行分区操作,并且将训练数据划分为最佳数量的分区,使所提出的模型能够加速并行和分布式训练任务,设置Np为分区数目的集合,Time(RDDtrain,np)表示根据参数np计执行训练任务所需的计算时间的函数,最优分区数为:
Figure BDA0002791323910000021
使得
Figure BDA0002791323910000022
其中
Figure BDA0002791323910000023
是分区的最佳数,得到最优分区后,对分区后的数据进行训练集和测试集的划分,以最终进行模型的训练和测试。
进一步地,所述离线训练阶段利用spark构建随机森林模型,在模型构建过程中,利用bootstrap对训练数据进行采样生成新的训练数据,并从新的训练数据中根据基尼指数选择最优的特征以进行树的划分,最后集成每棵树构建随机森林模型,具体步骤如下
Step 1:输入分区的训练数据集
for train of each partition do
Step 2:
Figure BDA0002791323910000031
Step 3:生成随机森林模型{hi,i=1,2,...,Ntree}。
进一步地,所述在线预测阶段基于数据的并行化,以及Python多线程编程和Spark的并行框架,将测试集的每个样本并行分配到工作节点中,利用离线训练过的模型进行最终的预测。
本发明的有益效果:
1、本发明解决了传统通信网络风险评估方法的缺点,使得风险评估的结果更为可靠,此外该方法提高了集中式机器学习方法处理大数据的效率,节约了时间成本;
2、本发明提高风险评估中大数据的处理效率,同时避免集中式的通信过载问题。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明通信网络风险评估的分布式随机森林方法实施流程图;
图2是本发明通信网络风险评估的分布式随机森林方法运行效率对比图;
图3是本发明在真实数据集上的ROC曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
一种通信网络风险评估的分布式随机森林方法,如图1所示,通过运用spark中的RDD技术将数据集进行分区操作,利用spark分布式计算框架建立随机森林模型,并最终进行预测,该方法旨在提高集中式环境中进行通信网络风险评估时大数据处理的效率,并且避免单个处理单元的通信过载问题,如图1所示,在数据预处理阶段,由于跨节点的数据分布对于并行和分布式计算的效率至关重要。此步骤的主要目标是将训练数据RDDtrain划分为最佳数量的分区,使所提出的模型能够加速并行和分布式训练任务,设置Np为分区数目的集合,Time(RDDtrain,np)表示根据参数np计执行训练任务所需的计算时间的函数。最优分区数为:
Figure BDA0002791323910000041
使得
Figure BDA0002791323910000042
其中
Figure BDA0002791323910000043
是分区的最佳数。得到最优分区后,对分区后的数据进行训练集和测试集的划分,以最终进行模型的训练和测试。
模型的并行化离线训练阶段利用spark构建随机森林模型,具体步骤如下
Step 1:输入分区的训练数据集
for train of each partition do
Step 2:
Figure BDA0002791323910000044
Step 3:生成随机森林模型{hi,i=1,2,...,Ntree}
模型的在线预测阶段利用数据的并行化,基于Python多线程编程和Spark的并行框架,将测试集的每个样本并行分配到工作节点中,利用离线训练过的模型进行最终的预测。
考虑该方法的运行效率问题,如图2所示,在真实数据集上进行实验,选取Accuracy、Recall、F1 score、ROC曲线、PR为该方法评价指标,实验结果从图中可以看出,该方法在分布式环境下的运行时间约为集中式环境中的一半,从而表明该算法在处理通信网络大数据时的高效性。
为了衡量该方法的有效性,在真实数据集上进行实验,选取ROC曲线作为评价指标,运行结果如图3所示,从图中可以看出,该方法在ROC曲线中的AUC面积高于另外两个竞争的算法,从而体现出所提方法在实际处理问题时有更好的性能。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (4)

1.一种通信网络风险评估的分布式随机森林方法,包括数据预处理阶段、模型的离线训练阶段以及在线预测阶段,其特征在于:通过数据预处理阶段将训练数据划分为最佳数量的分区,使所提出的模型能够加速并行和分布式训练任务,将分区后的数据划分为训练集和测试集,然后利用spark构建随机森林模型进行训练,最后利用训练后的模型进行在线预测。
2.根据权利要求1所述的一种通信网络风险评估的分布式随机森林方法,其特征在于,所述数据预处理阶段由于跨节点的数据分布对于并行和分布式计算的效率至关重要,利用spark中的RDD技术进行分区操作,并且将训练数据划分为最佳数量的分区,使所提出的模型能够加速并行和分布式训练任务,设置Np为分区数目的集合,Time(RDDtrain,np)表示根据参数np计执行训练任务所需的计算时间的函数,最优分区数为:
Figure FDA0002791323900000011
使得
Figure FDA0002791323900000012
其中
Figure FDA0002791323900000013
是分区的最佳数,得到最优分区后,对分区后的数据进行训练集和测试集的划分,以最终进行模型的训练和测试。
3.根据权利要求1所述的一种通信网络风险评估的分布式随机森林方法,其特征在于,所述离线训练阶段利用spark构建随机森林模型,在模型构建过程中,利用bootstrap对训练数据进行采样生成新的训练数据,并从新的训练数据中根据基尼指数选择最优的特征以进行树的划分,最后集成每棵树构建随机森林模型,具体步骤如下
Step 1:输入分区的训练数据集
for train of each partition do
Step 2:
Figure FDA0002791323900000021
Step 3:生成随机森林模型{hi,i=1,2,...,Ntree}。
4.根据权利要求1所述的一种通信网络风险评估的分布式随机森林方法,其特征在于,所述在线预测阶段基于数据的并行化,以及Python多线程编程和Spark的并行框架,将测试集的每个样本并行分配到工作节点中,利用离线训练过的模型进行最终的预测。
CN202011315706.9A 2020-11-21 2020-11-21 一种通信网络风险评估的分布式随机森林方法 Pending CN112418311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011315706.9A CN112418311A (zh) 2020-11-21 2020-11-21 一种通信网络风险评估的分布式随机森林方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011315706.9A CN112418311A (zh) 2020-11-21 2020-11-21 一种通信网络风险评估的分布式随机森林方法

Publications (1)

Publication Number Publication Date
CN112418311A true CN112418311A (zh) 2021-02-26

Family

ID=74777153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011315706.9A Pending CN112418311A (zh) 2020-11-21 2020-11-21 一种通信网络风险评估的分布式随机森林方法

Country Status (1)

Country Link
CN (1) CN112418311A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法
CN107124325A (zh) * 2017-03-10 2017-09-01 北京国电通网络技术有限公司 一种电力通信网运行安全评估方法及系统
CN107124394A (zh) * 2017-03-10 2017-09-01 北京国电通网络技术有限公司 一种电力通信网络安全态势预测方法和系统
CN107145959A (zh) * 2017-03-23 2017-09-08 北京国电通网络技术有限公司 一种基于大数据平台的电力数据处理方法
CN108491226A (zh) * 2018-02-05 2018-09-04 西安电子科技大学 基于集群缩放的Spark配置参数自动调优方法
CN108833397A (zh) * 2018-06-08 2018-11-16 武汉思普崚技术有限公司 一种基于网络安全的大数据安全分析平台系统
CN109087140A (zh) * 2018-08-07 2018-12-25 广州航海学院 一种基于spark大数据的闭环目标客户识别方法
CN110825522A (zh) * 2019-10-31 2020-02-21 武汉联图时空信息科技有限公司 Spark参数自适应优化方法及系统
CN111327462A (zh) * 2020-02-11 2020-06-23 安徽理工大学 基于遗传算法优化深度神经网络的通信网络风险评估方法
CN111382357A (zh) * 2020-03-06 2020-07-07 吉林农业科技学院 一种基于大数据的信息推荐系统
CN111639237A (zh) * 2020-04-07 2020-09-08 安徽理工大学 一种基于聚类和关联规则挖掘的电力通信网风险评估系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法
CN107124325A (zh) * 2017-03-10 2017-09-01 北京国电通网络技术有限公司 一种电力通信网运行安全评估方法及系统
CN107124394A (zh) * 2017-03-10 2017-09-01 北京国电通网络技术有限公司 一种电力通信网络安全态势预测方法和系统
CN107145959A (zh) * 2017-03-23 2017-09-08 北京国电通网络技术有限公司 一种基于大数据平台的电力数据处理方法
CN108491226A (zh) * 2018-02-05 2018-09-04 西安电子科技大学 基于集群缩放的Spark配置参数自动调优方法
CN108833397A (zh) * 2018-06-08 2018-11-16 武汉思普崚技术有限公司 一种基于网络安全的大数据安全分析平台系统
CN109087140A (zh) * 2018-08-07 2018-12-25 广州航海学院 一种基于spark大数据的闭环目标客户识别方法
CN110825522A (zh) * 2019-10-31 2020-02-21 武汉联图时空信息科技有限公司 Spark参数自适应优化方法及系统
CN111327462A (zh) * 2020-02-11 2020-06-23 安徽理工大学 基于遗传算法优化深度神经网络的通信网络风险评估方法
CN111382357A (zh) * 2020-03-06 2020-07-07 吉林农业科技学院 一种基于大数据的信息推荐系统
CN111639237A (zh) * 2020-04-07 2020-09-08 安徽理工大学 一种基于聚类和关联规则挖掘的电力通信网风险评估系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
F. OPITZ, C ET AL: "Data Analytics, Machine Learning and Risk Assessment for Surveillance and Situation Awareness", 《2020 21ST INTERNATIONAL RADAR SYMPOSIUM 》 *
W. ALAJALI ET AL: "Traffic Flow Prediction for Road Intersection Safety", 《SMARTWORLD/SCALCOM/UIC/ATC/CBDCOM/IOP/SCI》 *
云宝音等: "通信网络安全风险评估及防御技术应用研究", 《安全技术》 *
胡天宇: "基于Spark的随机森林算法优化与并行化研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Similar Documents

Publication Publication Date Title
US11124317B2 (en) Method for prediction of key performance parameters of aero-engine in transition condition
CN110135630B (zh) 基于随机森林回归和多步寻优的短期负荷需求预测方法
CN110417011B (zh) 一种基于互信息与迭代随机森林的在线动态安全评估方法
CN103745273B (zh) 一种半导体制造过程的多性能预测方法
CN112686464A (zh) 短期风电功率预测方法及装置
CN113570138B (zh) 一种时间卷积网络的设备剩余使用寿命预测方法及装置
CN109636243A (zh) 模型故障检测方法、装置、计算机设备以及存储介质
CN109784692A (zh) 一种基于深度学习的快速安全约束经济调度方法
CN111190349A (zh) 船舶机舱设备状态监测及故障诊断方法、系统及介质
CN113625697B (zh) 考虑任务能力变化的无人机集群可靠性评估方法和系统
CN111680875A (zh) 基于概率基线模型的无人机状态风险模糊综合评价方法
CN112116160A (zh) 一种基于优化神经网络改进元胞自动机的重要输电通道灾害监测方法
CN112307677A (zh) 基于深度学习的电网振荡模态评估与安全主动预警方法
CN108763096A (zh) 基于深度信念网络算法支持向量机的软件缺陷预测方法
CN112017070A (zh) 一种基于数据增强评估电力系统暂态稳定的方法及系统
CN115526258A (zh) 基于Spearman相关系数特征提取的电力系统暂稳评估方法
CN111814284A (zh) 基于相关性检测与改进随机森林的在线电压稳定评估方法
CN113328467B (zh) 一种概率电压稳定性评估方法、系统、终端设备及介质
CN111680823A (zh) 一种风向信息预测方法及系统
Li et al. Aero-engine exhaust gas temperature prediction based on LightGBM optimized by improved bat algorithm
CN112632765B (zh) 一种加权和法与sem法结合的作战能力评估方法
CN109886316B (zh) 基于云系相似度权重分配的变压器状态参量组合预测方法
CN112418311A (zh) 一种通信网络风险评估的分布式随机森林方法
CN111965442A (zh) 一种数字孪生环境下的能源互联网故障诊断方法及装置
CN110458432A (zh) 一种基于云模型的电力光传输网可靠性诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226