CN106650800B - 基于Storm的马尔可夫等价类模型分布式学习方法 - Google Patents
基于Storm的马尔可夫等价类模型分布式学习方法 Download PDFInfo
- Publication number
- CN106650800B CN106650800B CN201611122068.2A CN201611122068A CN106650800B CN 106650800 B CN106650800 B CN 106650800B CN 201611122068 A CN201611122068 A CN 201611122068A CN 106650800 B CN106650800 B CN 106650800B
- Authority
- CN
- China
- Prior art keywords
- node
- equivalence class
- state diagram
- tuple
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
Abstract
本发明公开了基于Storm的马尔可夫等价类模型分布式学习方法。包括以下步骤:步骤1,使用Storm框架创建集群的计算节点;步骤2,初始化节点创建初始马尔可夫等价类状态,并生成状态图元组;步骤3,搜索节点计算当前状态图元组的所有合法修改操作符,并应用于当前状态图元组上;步骤4,评分节点使用最小描述长度准则计算模型对数据集的拟合度评分;步骤5,输出节点判定状态图元组是否达到局部最优,最终得到最匹配网络流量数据的马尔可夫等价类模型。本发明在入侵检测系统的分类器模型训练问题上,充分利用了分布式存储给计算过程带来的加速优势,提高了入侵检测系统对网络流量数据的实时处理能力。
Description
技术领域
本发明属于计算机云计算、大数据及机器学习领域,具体涉及基于Storm的马尔可夫等价类模型分布式学习方法。
背景技术
马尔可夫等价类模型是一种描述随机变量间概率关系的图模型,由CPDAG(Complete Partial DirectedAcyclic Graph,完全部分有向无环图)来表示,作为入侵检测中的统计方法,能够有效地反应网络流量数据中各属性之间的关系。从大规模网络流量数据中发现能够描述其关联规则的马尔可夫等价类模型的方法具有很高的复杂度,已被证明是NP难问题。另外,对大规模数据的单机环境的集中式处理方式使模型的学习过程受到严重限制。
目前已有许多学者使用马尔可夫等价类模型等概率图模型描述网络流量数据间的相互关系,并使用了并行化方法加速概率图模型的学习过程。Sahin和Devasia将粒子群算法应用到概率图模型的并行化上;Yu等提出了并行三阶段相关性分析方法,使用条件独立性测试来合并局部结构。另一方面,云计算技术的发展也为克服数据量瓶颈提供了新的解决途径。Yue K.等使用Hadoop的MapReduce框架扩展了评分与搜索方法使其学习过程能够被适用于大规模数据集;Arias等使用Spark减少了此类方法在集群计算过程中的数据传输量,进一步加速了模型的学习过程。
在使用网络流量数据对马尔可夫等价类模型进行训练的过程中,对其搜索空间中的环状路线进行检测也是并行化树式搜索方法的困难之一,这使得现有方法对模型学习过程的并行化粒度较粗,并且常容易受到特定参数的制约。例如并行度受限于图模型中的节点数量,会使得高加速比所带来的性能提升不能发挥到最大。并且已有技术仅将计算任务分布式地在集群上执行,较少关注分布式环境下搜索空间的状态数据存储问题,不能完全有效地发挥云计算对大规模数据的处理能力。急需一种具有高加速比的概率图模型分布式学习方法,来满足入侵检测系统对大规模网络流量数据的实时性需求。
发明内容
本发明的目的在于提供基于Storm的马尔可夫等价类模型分布式学习方法,从而从大规模数据集中高效地学习马尔可夫等价类模型,提高入侵检测系统中使用实时网络流量数据对模型进行训练的性能。
实现本发明的技术解决方案为:一种基于Storm的马尔可夫等价类模型分布式学习方法,具体包括以下步骤:
步骤1、将马尔可夫等价类模型的训练数据集上传至分布式文件系统HDFS(Hadoopdistributedfile system)中,通过Storm平台的Topology框架对训练数据集进行学习,创建四种云计算计算节点,分别是初始化节点node0、搜索节点node1、评分节点node2和输出节点node3;
步骤2、初始化节点node0创建初始马尔可夫等价类状态εi,使用初始马尔可夫等价类状态生成发送给nodek的状态图元组其中k为云计算节点编号,且0≤k≤3,并发送至任一搜索节点node1以启动搜索过程,向集群中唯一的输出节点发送状态图元组其中是包含了搜索空间内第i个马尔可夫等价类的状态图元组,是在搜索空间内的第j个相邻状态图元组;
步骤3、搜索节点node1根据从初始化节点node0和评分节点node2收到的当前状态图元组和前驱状态图元组为当前状态图元组生成标识符,将当前状态图元组发送给输出节点node3,确定当前状态图元组的所有可能的合法修改操作符,并将应用操作符之后产生的状态图元组发送给任一评分节点node2,其中是在搜索空间内的唯一的直接前驱状态图元组;
步骤4、评分节点node2将从搜索节点node1收到的当前状态图元组分布式地存储在各评分节点中,并计算运行实例未存储过的当前状态图元组的评分,将带有评分值的状态图元组发送至搜索节点;
步骤5、输出节点node3根据从初始化节点node0收到的终止条件来判断带有评分值的状态图元组是否达到了局部最优,如果达到了局部最优,则输出该状态图元组中对应的马尔可夫等价类模型,否则不做任何操作。
本发明与现有技术相比,其显著优点为:1)本发明通过利用Storm框架允许在分布式计算任务的拓扑逻辑中存在环的特性,以极细粒度分布化了马尔可夫等价类模型的学习算法,并通过检测搜索空间中的环状路径,消除了集群环境对并行度的制约;2)针对如马尔可夫等价类模型等概率图模型,重新设计其搜索空间内状态数据在集群上的存储方式,进一步提升了分布式学习方法的性能;3)将基于Storm的马尔可夫等价类模型分布式学习方法应用对真实的网络流量数据进行分类后,达到了近似理想加速比,并且在入侵检测系统需要处理大规模数据的情况下,加速效果更为突出。
下面结合附图对本发明作进一步详细阐述。
附图说明
图1为基于Storm的马尔可夫等价类分布式学习方法数据流图。
图2为搜索空间状态分布式存储示意图。
图3为本发明算法执行时间图。
具体实施方式
结合图1,本发明的一种基于Storm的马尔可夫等价类模型分布式学习方法,包括以下步骤:
步骤1、将马尔可夫等价类模型的训练数据集上传至分布式文件系统HDFS中,通过Storm平台的Topology框架对训练数据集进行学习,创建四种云计算计算节点,分别是初始化节点node0、搜索节点node1、评分节点node2和输出节点node3;
步骤2、初始化节点node0创建初始马尔可夫等价类状态εi,使用初始马尔可夫等价类状态生成发送给nodek的状态图元组其中k为云计算节点编号,且0≤k≤3,并发送至任一搜索节点node1以启动搜索过程,向集群中唯一的输出节点发送状态图元组其中是包含了搜索空间内第i个马尔可夫等价类的状态图元组,是在搜索空间内的第j个相邻状态图元组;
所述马尔可夫等价类状态εi为一个三元组:
式中,Ki为根据马尔可夫等价类状态εi计算得到的散列值,In(i,j)为状态图元组的标识符,由搜索节点的运行实例的标识符和运行实例已搜索过的状态数量组成。
步骤3、搜索节点node1根据从初始化节点node0和评分节点node2收到的当前状态图元组和前驱状态图元组为当前状态图元组生成标识符,将当前状态图元组发送给输出节点node3,确定当前状态图元组的所有可能的合法修改操作符,并将应用操作符之后产生的状态图元组发送给任一评分节点node2,其中是在搜索空间内的唯一的直接前驱状态图元组;
确定当前状态图元组的所有可能的合法修改操作符,具体是去除会导致其转移至前驱状态图元组的操作符。
步骤4、评分节点node2将从搜索节点node1收到的当前状态图元组分布式地存储在各评分节点中,并计算运行实例未存储过的当前状态图元组的评分,将带有评分值的状态图元组发送至搜索节点;
所述评分节点node2使用分布式散列表DHT存储马尔可夫等价类搜索空间,N个评分节点仅存储其接收到的状态图元组,第i个评分节点所存储的状态图元组组成集合χi,各状态图元组集合满足如下约束:
其中Ε为搜索空间中所有已搜索过的马尔可夫等价类状态所组成的集合,Ε是马尔可夫等价类状态全集的一个真子集,每个评分节点中的状态图元组集合是Ε的一个划分。
计算运行实例未存储过的当前状态图元组的评分,具体采用MDL最小描述长度准则来计算马尔可夫等价类状态对数据集的拟合度评分,获得拟合度评分最大的完全部分有向无环图,具体按照如下公式求解:
其中为使得拟合度评分最大的完全部分有向无环图,M为表示马尔可夫等价类模型的CPDAG中的节点数量,qi表示中第i个节点的父节点所有可能的组合,ni为第i个节点可能的取值范围,mijk为数据集中符合上述三个条件的条目数量,Mf是马尔可夫等价类模型中自由节点的数量,为代表数据集中第i个属性的节点的父节点集合。
步骤5、输出节点node3根据从初始化节点node0收到的终止条件来判断带有评分值的状态图元组是否达到了局部最优,如果达到了局部最优,则输出该状态图元组中对应的马尔可夫等价类模型,否则不做任何操作。
本发明在入侵检测系统的分类器模型训练问题上,不仅对模型的学习过程进行了细粒度的分布化,达到了近似理想加速比,而且能够解决分布式环境下搜索空间环状路径问题,充分利用了分布式存储给计算过程带来的加速优势,提高了入侵检测系统对网络流量数据的实时处理能力。
下面结合实施例对本发明做进一步详细的描述。
实施例
一种基于Storm的马尔可夫等价类模型分布式学习方法,使用以KDD1999入侵检测数据集对马尔可夫等价类模型进行训练作为一个实施例,包括以下步骤:
步骤1:将5个KDD1999入侵检测数据集上传至分布式文件系统HDFS(Hadoopdistributed file system)中,分别包含1×104、5×104、1×105、5×105、1×106条网络连接记录,其中每条网络连接记录包含42项特征值,分别在云计算集群上创建2~6个计算节点,其中包含了初始化节点node0、搜索节点node1、评分节点node2和输出节点node3,图1所示为本发明方法所创建的4种计算节点以及分布式学习方法的数据流图;
其中初始马尔可夫等价类状态ε0是一个三元组:
其中为表示一个马尔可夫等价类模型的完全部分有向无环图CPDAG,包含了42个节点,42个节点分别对应于网络监测记录的42项特征值,Ip(0)是ε0前驱状态的标识符,s0是已求得的ε0对数据集的拟合度评分;
式中,K0为根据初始马尔可夫等价类状态ε0计算得到的散列值,I0为状态图元组的标识符,由搜索节点的运行实例的标识符“1”和运行实例已搜索过的状态数量“0”组成,即“1-0”;
步骤3:搜索节点node1根据从初始化节点node0和评分节点node2收到的当前状态图元组和前驱状态图元组为当前状态图元组生成标识符,将当前状态图元组发送给输出节点node3,确定当前状态图元组的所有可能的合法修改操作符,并将应用操作符之后产生的状态图元组发送给任一评分节点node2,其中是在搜索空间内的唯一的直接前驱状态图元组;
其中确定当前状态图元组的所有可能的合法修改操作符,具体是去除会导致其转移至前驱状态图元组的操作符。
步骤4:评分节点node2将从搜索节点node1收到的当前状态图元组分布式地存储在各评分节点中,并计算运行实例未存储过的当前状态图元组的评分,将带有评分值的状态图元组发送至搜索节点;
其中评分节点node2使用分布式散列表DHT存储马尔可夫等价类搜索空间,图2所示为本发明方法搜索空间状态分布式存储的示意图,在使用了6个评分节点的实例中,每个评分节点仅存储其接收到的状态图元组,例如第2个评分节点所存储的状态图元组组成集合χ2,各状态图元组集合满足如下约束:
其中Ε为搜索空间中所有已搜索过的马尔可夫等价类状态所组成的集合,Ε是马尔可夫等价类状态全集的一个真子集,每个评分节点中的状态图元组集合是Ε的一个划分。
每个评分节点计算运行实例未存储过的当前状态图元组的评分,具体采用MDL最小描述长度准则来计算马尔可夫等价类状态对数据集的拟合度评分,获得拟合度评分最大的完全部分有向无环图,对所使用的含有1×106条网络连接记录的数据集的计算中,拟合度评分最大的完全部分有向无环图按照如下公式求解:
其中为使得拟合度评分最大的完全部分有向无环图,qi表示中第i个节点的父节点所有可能的组合,ni为第i个节点可能的取值范围,mijk为数据集中符合上述三个条件的条目数量,Mf是马尔可夫等价类模型中自由节点的数量,为代表数据集中第i个属性的节点的父节点集合。
步骤5、输出节点node3根据从初始化节点node0收到的终止条件来判断带有评分值的状态图元组是否达到了局部最优,如果达到了局部最优,则输出该状态图元组中对应的马尔可夫等价类模型,否则不做任何操作,图3为使用了本发明方法对KDD1999入侵检测数据集进行模型训练过程所消耗的计算时间,图中的横坐标为集群计算节点数量和数据集大小,纵坐标是执行时间,可以看出随着集群计算节点的增加,执行时间显著缩短,并且在网络连接记录数量巨大的情况下更为明显。
Claims (5)
1.一种基于Storm的马尔可夫等价类模型分布式学习方法,其特征在于,包括以下步骤:
步骤1、将马尔可夫等价类模型的训练数据集上传至分布式文件系统HDFS中,通过Storm平台的Topology框架对训练数据集进行学习,创建四种云计算节点,分别是初始化节点node0、搜索节点node1、评分节点node2和输出节点node3;
步骤2、初始化节点node0创建初始马尔可夫等价类状态εi,使用初始马尔可夫等价类状态生成发送给nodek的状态图元组其中k为云计算节点编号,且0≤k≤3,并发送至任一搜索节点node1以启动搜索过程,向集群中唯一的输出节点发送状态图元组 是包含了搜索空间内第i个马尔可夫等价类的状态图元组,是在搜索空间内的第j个相邻状态图元组;
步骤3、搜索节点node1根据从初始化节点node0和评分节点node2收到的当前状态图元组和前驱状态图元组为当前状态图元组生成标识符,将当前状态图元组发送给输出节点node3,确定当前状态图元组的所有可能的合法修改操作符,并将应用操作符之后产生的状态图元组发送给任一评分节点node2,其中是在搜索空间内的唯一的直接前驱状态图元组;
步骤4、评分节点node2将从搜索节点node1收到的当前状态图元组分布式地存储在各评分节点中,并计算运行实例未存储过的当前状态图元组的评分,将带有评分值的状态图元组发送至搜索节点;
步骤5、输出节点node3根据从初始化节点node0收到的终止条件来判断带有评分值的状态图元组是否达到了局部最优,如果达到了局部最优,则输出该状态图元组中对应的马尔可夫等价类模型,否则不做任何操作。
3.根据权利要求1所述的基于Storm的马尔可夫等价类模型分布式学习方法,其特征在于:步骤3中确定当前状态图元组的所有可能的合法修改操作符,具体是去除会导致其转移至前驱状态图元组的操作符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611122068.2A CN106650800B (zh) | 2016-12-08 | 2016-12-08 | 基于Storm的马尔可夫等价类模型分布式学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611122068.2A CN106650800B (zh) | 2016-12-08 | 2016-12-08 | 基于Storm的马尔可夫等价类模型分布式学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106650800A CN106650800A (zh) | 2017-05-10 |
CN106650800B true CN106650800B (zh) | 2020-06-30 |
Family
ID=58820164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611122068.2A Expired - Fee Related CN106650800B (zh) | 2016-12-08 | 2016-12-08 | 基于Storm的马尔可夫等价类模型分布式学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106650800B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609652B (zh) * | 2017-08-30 | 2019-10-25 | 第四范式(北京)技术有限公司 | 执行机器学习的分布式系统及其方法 |
CN111123963B (zh) * | 2019-12-19 | 2021-06-08 | 南京航空航天大学 | 基于强化学习的未知环境自主导航系统及方法 |
CN112965530B (zh) * | 2021-02-09 | 2024-03-19 | 辽宁警察学院 | 一种多无人机自适应变尺度动态目标搜索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826114A (zh) * | 2010-05-26 | 2010-09-08 | 南京大学 | 一种基于多马尔可夫链的内容推荐方法 |
CN102262661A (zh) * | 2011-07-18 | 2011-11-30 | 南京大学 | 一种基于k阶混合马尔可夫模型的Web页面访问预测方法 |
CN104217251A (zh) * | 2014-08-12 | 2014-12-17 | 西北工业大学 | 基于k2算法的装备故障贝叶斯网络预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8285719B1 (en) * | 2008-08-08 | 2012-10-09 | The Research Foundation Of State University Of New York | System and method for probabilistic relational clustering |
-
2016
- 2016-12-08 CN CN201611122068.2A patent/CN106650800B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826114A (zh) * | 2010-05-26 | 2010-09-08 | 南京大学 | 一种基于多马尔可夫链的内容推荐方法 |
CN102262661A (zh) * | 2011-07-18 | 2011-11-30 | 南京大学 | 一种基于k阶混合马尔可夫模型的Web页面访问预测方法 |
CN104217251A (zh) * | 2014-08-12 | 2014-12-17 | 西北工业大学 | 基于k2算法的装备故障贝叶斯网络预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106650800A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Secure service offloading for internet of vehicles in SDN-enabled mobile edge computing | |
CN110851429A (zh) | 一种基于影响力自适应聚合的边缘计算可信协同服务方法 | |
CN106650800B (zh) | 基于Storm的马尔可夫等价类模型分布式学习方法 | |
Yin et al. | Parallel implementing improved k-means applied for image retrieval and anomaly detection | |
WO2021184367A1 (zh) | 基于度分布生成模型的社交网络图生成方法 | |
CN115686868A (zh) | 一种基于联邦哈希学习的面向跨节点多模态检索方法 | |
CN105184654A (zh) | 一种基于社区划分的舆情热点实时获取方法与获取装置 | |
Orlandi et al. | Entropy to mitigate non-IID data problem on Federated Learning for the Edge Intelligence environment | |
Fellus et al. | Decentralized k-means using randomized gossip protocols for clustering large datasets | |
Liu et al. | Link prediction algorithm for signed social networks based on local and global tightness | |
CN111368060B (zh) | 对话机器人的自学习方法、装置、系统、电子设备及介质 | |
Gu et al. | Optimization of service addition in multilevel index model for edge computing | |
Pasteris et al. | Data distribution and scheduling for distributed analytics tasks | |
CN109492677A (zh) | 基于贝叶斯理论的时变网络链路预测方法 | |
Li et al. | Fog-based pub/sub index with Boolean expressions in the internet of industrial vehicles | |
WO2022186808A1 (en) | Method for solving virtual network embedding problem in 5g and beyond networks with deep information maximization using multiple physical network structure | |
Mahanipour et al. | Wrapper-based federated feature selection for iot environments | |
Gora et al. | Investigating performance of neural networks and gradient boosting models approximating microscopic traffic simulations in traffic optimization tasks | |
Fan et al. | Self-Adaptive Gradient Quantization for Geo-Distributed Machine Learning over Heterogeneous and Dynamic Networks | |
Shuai et al. | Memtv: a research on multi-level edge computing model for traffic video processing | |
Liu et al. | Distributed and real-time query framework for processing participatory sensing data streams | |
CN114581750A (zh) | 一种针对非独立同分布场景下快速准确的联邦学习方法及应用 | |
Guo et al. | Service composition optimization method based on parallel particle swarm algorithm on spark | |
CN109711478A (zh) | 一种基于时序密度聚类的大规模数据群组搜索方法 | |
Nie et al. | A deep reinforcement learning assisted task offloading and resource allocation approach towards self-driving object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200630 Termination date: 20211208 |