CN105577438A - 一种基于MapReduce的网络流量本体构建方法 - Google Patents

一种基于MapReduce的网络流量本体构建方法 Download PDF

Info

Publication number
CN105577438A
CN105577438A CN201510974143.7A CN201510974143A CN105577438A CN 105577438 A CN105577438 A CN 105577438A CN 201510974143 A CN201510974143 A CN 201510974143A CN 105577438 A CN105577438 A CN 105577438A
Authority
CN
China
Prior art keywords
network
network traffics
flow
traffics
mapreduce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510974143.7A
Other languages
English (en)
Other versions
CN105577438B (zh
Inventor
陶晓玲
韦毅
王勇
孔德艳
伍欣
亢蕊楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201510974143.7A priority Critical patent/CN105577438B/zh
Publication of CN105577438A publication Critical patent/CN105577438A/zh
Application granted granted Critical
Publication of CN105577438B publication Critical patent/CN105577438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods

Abstract

本发明为一种基于MapReduce的网络流量本体构建方法,主要步骤为Ⅰ、设计网络流量本体结构,采用网络流量本体结构对网络流量资源进行分层描述,并建立资源描述的层次关系;Ⅱ、利用MapReduce并行计算框架构建网络流量本体;Ⅱ的子步骤Ⅱ-1、通过MapReduce的映射函数捕获网络流量数据包并计算网络流量统计特征值;Ⅱ-2、通过MapReduce的规约函数生成文件形式的网络流量本体并保存至Hadoop分布式文件系统。本发明在网络流量本体构建时采用云计算作为网络流量本体的构建及知识推理的存储和计算资源,为用户提供具有并行化、虚拟化、按需服务等特点的高效服务;借助MapReduce并行处理技术,有效地提高网络流量本体构建的效率。

Description

一种基于MapReduce的网络流量本体构建方法
技术领域
本发明涉及网络管理技术领域,具体为一种基于MapReduce的网络流量本体构建方法。
背景技术
随着Web技术的迅猛发展和企业信息化需求的不断提高,许多新型网络应用模式和应用需求应运而生,随之而来的网络流量数据也呈现出爆炸性增长,给网络监管带来前所未有的挑战,也使得用户对网络流量进行精细化管理的需求越来越强烈。作为管理和优化各类网络资源的关键技术,网络流量分类广泛应用于网络监控、QoS(QualityofService,服务质量)管理、网络安全、态势分析等领域,是高效实现网络管理、流量控制以及安全检测的重要环节。
网络流量分类是指在基于TCP/IP协议的互联网中,按照网络的应用类型(例如WWW、FTP、MAIL、P2P等),将网络通信产生的双向TCP流量或UDP流量进行分类。
近年来许多研究人员将注意力转向了基于网络流量统计特征的机器学习分类方法,根据流量的某些属性(如平均包长、平均包间隔时间等)的统计信息,采用机器学习方法对流量进行分类,该方法不受动态端口、载荷加密及网络地址转换的影响。目前网络流量分类较为广泛使用的机器学习方法主要有:贝叶斯、神经网络、支持向量机、决策树等。
在高速大规模复杂网络环境下,各个网络节点传感器使用不同的网络流量采集系统收集网络数据包,网络流量数据格式不一,语义、语法异构。故目前网络流量数据的特点是多源、异构、海量,现有的网络流量分类技术大多只能对网络流量数据进行简单的格式化,缺少对数据异构(格式异构、语法异构、语义异构)的有效解决方法,也缺乏对流量信息(如获取环境等)的描述及知识推理,获得的流量数据存在不一致性、不能共享和缺乏网络流量分类知识等问题,因而现有的流量分类方法难以提供网络管理决策分析所需的资源信息。
在人工智能领域,本体逐渐被应用于知识工程、智能信息集成、数据挖掘、海量信息的组织和处理等领域中。本体为解决资源规范、无二义性和可扩展性描述问题提供了有效的途径,在描述资源方面具有通用性、开放性、智能性、准确性和综合性等诸多优点。
近年来研究者尝试引入本体到网络流量分类领域。Pietrzyk,Marcin首次尝试形式化定义流的类别,使用经典的开发本体准则,迭代构建一个基于本体范例的类别分类树,旨在消除流类别定义的模糊性。ChengjieGu等人提出一种基于流轮廓和本体的在线自学习网络流量分类框架,通过流轮廓与流量类别之间的映射关系实现流量分类。但是目前基于本体的网络流量分类方法还不能应用于大规模复杂网络,本体在网络流量分类领域的应用尚属起步阶段。
云计算是以数据为中心的密集型超级计算技术,对大数据集进行处理、分析,并向用户提供高效服务,具有并行化、虚拟化、按需服务等特点。其并行处理技术MapReduce能够为可划分的大规模数据并行计算处理问题提供充分的并行计算语义,已经被广泛接受。云计算技术为解决网络流量分类中海量数据处理问题提供了新方法。因此,本体与云计算相结合应用于网络流量分类,将发挥它们各自在海量异构数据描述与处理方面的优势,本体用于网络流量信息资源一致性描述和知识管理,而云计算为本体的构建及知识管理提供了存储和计算资源。
发明内容
本发明的目的是设计一种基于MapReduce的网络流量本体构建方法,针对大规模复杂网络环境下网络流量数据的多源、异构特点,通过本体进行网络流量信息资源一致性描述,实现基于MapReduce架构的并行化网络流量本体构建。
本发明设计的一种基于MapReduce的网络流量本体构建方法,主要包括如下步骤:
Ⅰ、设计网络流量本体结构
网络流量信息资源规模大且复杂,本方法根据互联网网络流量采集环境和网络流量信息资源设计网络流量本体结构,采用网络流量本体结构对网络流量资源进行分层描述,并建立资源描述的层次关系,以消除由不同网络设备所采集的网络流量信息资源间的不一致性,减小异构信息资源对网络流量分类结果的影响;
Ⅱ、利用MapReduce并行计算框架构建网络流量本体
所述步骤Ⅱ具体包括如下子步骤:
Ⅱ-1、通过MapReduce的映射(Map)函数捕获网络流量数据包并计算网络流量的统计特征值;
Ⅱ-2、通过MapReduce的规约(Reduce)函数生成网络流量本体;
通过MapReduce的规约(Reduce)函数根据步骤I设计的网络流量本体结构,新建网络流量本体模型,并添加网络流量本体基本概念、网络流量实例、网络流量本体基本概念与网络流量实例之间的关系以及网络流量实例与网络流量统计特征值之间的关系,将添加各元素后的网络流量本体模型用网络本体语言OWL描述成文件形式的网络流量本体,最终保存至Hadoop分布式文件系统(HDFS)中。
以下对各步骤详细说明。
所述步骤Ⅰ设计网络流量本体结构包括如下内容:
本方法根据互联网网络流量采集环境和网络流量信息资源设计网络流量本体结构,本方法设计的网络流量本体结构为多层结构,首层包括互联网中流量采集节点(Nodes)信息和流量(Traffics)信息。所述流量采集节点的下一层记录流量采集节点的相关信息,包括流量采集节点的网络软硬件设备信息(DeviceInfo)、流量采集节点的流量采集工具(Tools)及流量采集节点的配置参数(Configuration);所述流量采集工具的下一层记录各流量采集节点的各种流量采集工具名称以及流量采集信息格式。所述流量信息的下一层记录互联网上网络流量的相关信息,包括网络流量实例集合(Flows)、流量统计特征集合(Attributes)、流量所属应用类型(AppType)及协议(Protocol);所述流量所属应用类型的下一层描述各种应用类型,如万维网(www)、游戏(Games)、服务(Service)、邮件(Mail)、攻击(Attack)、数据库(Database)、交互(Interactive)、文件传输协议控制(FTP-Control)、文件传输协议被动连接(FTP-Pasv)、文件传输协议数据(FTP-Data)、多媒体(Multimedia)和点对点(P2P)。
所述子步骤Ⅱ-1、通过MapReduce的映射(Map)函数捕获流量数据包并计算网络流量的统计特征值,具体包括如下次子步骤:
Ⅱ-1-1、根据每个网络流量采集节点启动对应的映射函数,以<网络标识符,网络IP地址>为键值对作为每个映射函数的输入;
Ⅱ-1-2、映射函数根据网络IP地址控制网络流量采集节点,收集节点相关信息,调用网络流量采集工具捕获网络流量数据包,然后将采集到的网络流量信息传入中间结果(Combiner)。
Ⅱ-1-3、中间结果根据网络流量数据包的五元组,即源IP地址,源端口,目的IP地址,目的端口和传输层协议,确定每条网络流量,根据构成每条网络流量的数据包包头信息计算每条网络流量的统计特征值,并赋予每条网络流量标识符;
Ⅱ-1-4、完成网络流量统计特征值的计算之后,中间结果以<网络流量标识符,网络流量信息>为键值对,将各条网络流量的信息送入规约(Reduce)函数。
所述子步骤Ⅱ-2通过MapReduce的规约(Reduce)函数生成网络流量本体,具体包括如下次子步骤:
Ⅱ-2-1、在规约函数中新建网络流量本体模型;
Ⅱ-2-2、规约函数解析由中间结果传入的、以<网络流量标识符,网络流量信息>为键值对的网络流量信息资源,抽取其中需要进行本体描述的资源,对应到步骤I设计的网络流量本体结构中的相应位置;
Ⅱ-2-3、规约函数根据步骤I设计的网络流量本体结构,建立网络流量本体基本概念,包括各流量采集节点(Nodes)信息、流量(Traffics)信息、流量采集节点的网络软硬件设备信息(DeviceInfo)、流量采集节点的流量采集工具(Tools)及流量采集节点的配置参数(Configuration)、网络流量实例集合(Flows)、流量统计特征集合(Attributes)、流量所属应用类型(AppType)及协议(Protocol);
Ⅱ-2-4、规约函数根据步骤I设计的网络流量本体结构,建立网络流量本体基本概念与网络流量实例之间、网络流量实例与网络流量统计特征值之间的关系,包括“拥有”(hasAttribute)和“属于”(belongTo),二者是互逆关系;网络流量本体基本概念“拥有”网络流量实例,网络流量实例“属于”网络流量本体基本概念;网络流量实例“拥有”网络流量统计特征值,网络流量统计特征值“属于”网络流量实例;
Ⅱ-2-5、规约函数根据次子步骤Ⅱ-2-2中抽取的网络流量信息资源创建网络流量实例,每个网络流量实例对应于一条具体的网络流量,为次子步骤Ⅱ-2-1新建的网络流量本体模型添加网络流量实例、网络流量实例与网络流量本体基本概念之间的关系,并为网络流量实例添加网络流量的统计特征值、网络流量实例与网络流量统计特征值之间的关系;
Ⅱ-2-6、规约函数将经过次子步骤Ⅱ-2-5添加各元素后的网络流量本体模型用网络本体语言OWL描述成文件形式的网络流量本体,并保存到Hadoop分布式文件系统(HDFS)中。
与现有技术相比,本发明一种基于MapReduce的网络流量本体构建方法的优点为:1、在网络流量本体构建时引入大规模数据集的并行处理技术MapReduce,故可采用云计算作为网络流量本体的构建及知识推理的存储和计算资源,为用户提供具有并行化、虚拟化、按需服务等特点的高效服务;2、借助MapReduce并行处理技术,有效地提高网络流量本体构建的效率,适当增加计算节点即可以使网络流量本体构建效率得到与计算机节点个数成正比的加速。
附图说明
图1为本基于MapReduce的网络流量本体构建方法实施例的总体结构框图;
图2为本基于MapReduce的网络流量本体构建方法实施例步骤I设计的网络流量本体结构图;
图3为本基于MapReduce的网络流量本体构建方法实施例步骤Ⅱ的流程图;
图4为本基于MapReduce的网络流量本体构建方法实施例单机环境和集群环境下网络流量本体的构建时间对比曲线图;
图5为本基于MapReduce的网络流量本体构建方法实施例不同节点数的集群环境下的加速比曲线图。
具体实施方式
本基于MapReduce的网络流量本体构建方法实施例采用剑桥大学摩尔(Moore)教授团队采集并公开的数据集作为网络流量资源,本例称之为摩尔数据集,本例所用摩尔数据集包含377526个网络流量样本,其中的每个网络流量样本都是完备的传输控制协议(TCP)双向流量,有248个网络流量统计特征,由网络流量的源端口号、目的端口号等基本属性和包的平均间隔时间等统计属性组成,最后一项标记为网络流量所属的应用类型。
本例选取摩尔数据集中的12种网络应用类型作为分类目标,12种网络应用类型为:万维网(www)、游戏(Games)、服务(Service)、邮件(Mail)、攻击(Attack)、数据库(Database)、交互(Interactive)、文件传输协议控制(FTP-Control)、文件传输协议被动连接(FTP-Pasv)、文件传输协议数据(FTP-Data)、多媒体(Multimedia)和点对点(P2P)。共选取10个网络流量统计特征作为知识推理的依据,所选10个网络流量统计特征为服务器端口号、客户端端口号、被转发的同向包中所含数据的总字节数、被转发的反向包中所含数据的总字节数、所有同向包中传输控制协议包头所含推送(PUSH)标志位的总个数、所有反向包中传输控制协议包头所含推送(PUSH)标志位的总个数、所有同向包中传输控制协议包头所含结束(FIN)标志位的总个数、所有反向包中传输控制协议包头所含结束(FIN)标志位的总个数、所有同向包初始化窗口的总字节数、所有反向包初始化窗口的总字节数。
为了验证本方法的有效性,模拟搭建摩尔数据集的采集环境,在采集环境中利用网络流量重放工具对摩尔数据集中的30万条网络流量样本进行重放,通过MapReduce并行化地构建网络流量本体。本例借助Protégé3.5API构建网络流量本体。
本例总体结构框图如图1所示,从各个网络流量采集节点,即网络上的流量采集工具或设备,收集网络流量信息资源,包括流量采集节点(Nodes)信息和流量(Traffics)信息;依照各信息间的关系设计网络流量本体结构,利用MapReduce并行计算框架构建网络流量本体,并将网络流量本体以文件形式保存至Hadoop分布式文件系统(HDFS)中。本例具体包括如下步骤:
Ⅰ、设计网络流量本体结构
本例根据网络流量的采集环境和网络流量信息资源设计网络流量本体结构。如图2所示,本例的网络流量本体结构为多层结构,首层包括互联网中流量采集节点(Nodes)信息和流量(Traffics)信息。所述流量采集节点的下一层记录流量采集节点的相关信息,包括流量采集节点的网络软硬件设备信息(DeviceInfo)、流量采集节点的流量采集工具(Tools)及流量采集节点的配置参数(Configuration);所述流量采集工具的下一层记录各流量采集节点的各种流量采集工具名称以及流量采集信息格式。所述流量信息的下一层记录互联网上网络流量的相关信息,包括网络流量实例集合(Flows)、流量统计特征集合(Attributes)、流量所属应用类型(AppType)及协议(Protocol);所述流量所属应用类型的下一层描述各种应用类型(类型1,…,类型n)。
Ⅱ、利用MapReduce并行计算框架构建网络流量本体
本步骤流程图如图3所示。
Ⅱ-1、通过MapReduce的映射(Map)函数捕获网络流量数据包并计算网络流量统计特征值。具体包括如下次子步骤:
Ⅱ-1-1、根据每个网络流量采集节点(图3中的N1到Nn)启动对应的映射函数,以<网络标识符,网络IP地址>为键值对(图3中的<N1,IP1>到<Nn,IPn>),输入每个映射函数(图3中的Map1到Mapn);
Ⅱ-1-2、映射函数根据网络IP地址控制网络流量采集节点,收集节点相关信息,调用网络流量采集工具捕获网络流量数据包,然后将采集到的网络流量信息传入中间结果(Combiner)。
Ⅱ-1-3、中间结果根据网络流量数据包的五元组,即源IP地址,源端口,目的IP地址,目的端口和传输层协议,确定每条网络流量,根据构成每条网络流量的数据包包头信息计算每条网络流量的统计特征值,并赋予每条网络流量标识符;
Ⅱ-1-4、完成网络流量统计特征值的计算之后,中间结果以<网络流量标识符,网络流量信息>为键值(图3中的<I1,F1>到<In,Fn>)对将各条网络流量的信息送入规约(Reduce)函数(图3中的Reduce1到Reducem)。
Ⅱ-2、通过MapReduce的规约(Reduce)函数生成网络流量本体(图3中的本体O1到Om);
具体包括如下次子步骤:
Ⅱ-2-1、在规约函数中新建网络流量本体模型;
Ⅱ-2-2、规约函数解析由中间结果送入的、以<网络流量标识符,网络流量信息>为键值对的网络流量信息资源,抽取其中需要进行本体描述的资源,对应到步骤I设计的网络流量本体结构中的相应位置;
Ⅱ-2-3、规约函数根据步骤I设计的网络流量本体结构,建立网络流量本体基本概念,包括各流量采集节点(Nodes)信息、流量(Traffics)信息、流量采集节点的网络软硬件设备信息(DeviceInfo)、流量采集节点的流量采集工具(Tools)及流量采集节点的配置参数(Configuration)、网络流量实例集合(Flows)、流量统计特征集合(Attributes)、流量所属应用类型(AppType)及协议(Protocol);
Ⅱ-2-4、规约函数根据步骤I设计的网络流量本体结构,建立网络流量本体基本概念与网络流量实例之间、网络流量实例与网络流量统计特征值之间的关系,包括“拥有”(hasAttribute)和“属于”(belongTo),二者是互逆关系;网络流量本体基本概念“拥有”网络流量实例,网络流量实例“属于”网络流量本体基本概念;网络流量实例“拥有”网络流量统计特征值,网络流量统计特征值“属于”网络流量实例;
Ⅱ-2-5、规约函数根据次子步骤Ⅱ-2-2中抽取的网络流量信息资源创建网络流量实例,每个网络流量实例对应于一条具体的网络流量,为次子步骤Ⅱ-2-1新建的网络流量本体模型添加网络流量实例、网络流量实例与网络流量本体基本概念之间的关系,并为网络流量实例添加网络流量的统计特征值、网络流量实例与网络流量统计特征值之间的关系;
Ⅱ-2-6、规约函数将经过次子步骤Ⅱ-2-5添加各元素后的网络流量本体模型用网络本体语言OWL描述成文件形式的网络流量本体,并保存到Hadoop分布式文件系统(HDFS)中。
为验证本方法的有效性,针对不同网络流量数据规模,在单机和多台机情况下对比网络流量本体构建时间,对比结果如图4所示。图4中横坐标为网络流量实例数,单位为万条;纵坐标为网络流量本体构建时间,单位为秒。图4中▽连线表示单机,□连线表示2台机,◇连线表示3台机,△连线表示4台机。从图4可以看出,当网络流量实例数较少时,不同个数的计算节点构建网络流量本体所需的时间差距不大。随着网络流量实例数据规模的增大,网络流量本体构建所需的时间几乎呈线性增长。由此可知,本体构建时间与网络流量实例数据规模呈线性关系,不受流量实例间相互关系的影响,本方法的并行化处理有效。另外图4也显示多台机环境下比单机环境下的网络流量本体构建时间少,也说明本方法体现了并行化处理的优势。
为了能更精确地衡量本方法采用并行化技术所得到的性能提升,使用加速比R作为评价指标:
R=Ts/Tp
式中变量Ts表示单机环境下本方法的运行时间,变量Tp表示多台机并行环境下本方法的运行时间。
图5给出了当集群环境分别为采用2、3、4台机,即计算节点分别为2、3、4时,本方法的加速比曲线图。图5中横坐标为网络流量实例数,单位为万条;纵坐标为网络流量本体构建时间的加速比。图5中▽连线表示2台机,□连线表示3台机,◇表示4台机。如图5所示,从三条加速比曲线之间的间隔变化来看,每增加一个计算节点,加速比都会有相应幅度的提升,且提升幅度较为稳定,表示集群中的计算节点可以均衡地分担本体构建任务,不同的计算节点均独立完成构建任务,各计算节点完成自身任务时相互之间不需要进行信息资源交互。适当增加计算节点可以使网络流量本体构建效率得到与计算机节点个数成比例的加速提升。
以上实验表明,本发明基于MapReduce的网络流量本体构建方法借助MapReduce并行处理技术,有效地提高了网络流量本体构建的效率。
上述实施例,仅为对本发明的目的、技术方案和有益效果进一步详细说明的具体个例,本发明并非限定于此。凡在本发明的公开的范围之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。

Claims (4)

1.一种基于MapReduce的网络流量本体构建方法,主要包括如下步骤:
Ⅰ、设计网络流量本体结构
采用网络流量本体结构对网络流量信息资源进行分层描述,并建立资源描述的层次关系;
Ⅱ、利用MapReduce并行计算框架构建网络流量本体
所述步骤Ⅱ具体包括如下子步骤:
Ⅱ-1、通过MapReduce的映射函数捕获网络流量数据包并计算网络流量统计特征值;
Ⅱ-2、通过MapReduce的规约函数生成网络流量本体;
通过MapReduce的规约函数根据步骤I设计的网络流量本体结构,新建网络流量本体模型,并添加网络流量本体基本概念、网络流量实例、网络流量本体基本概念与网络流量实例之间的关系以及网络流量实例与网络流量统计特征值之间的关系,将添加各元素后的网络流量本体模型用网络本体语言OWL描述成文件形式的网络流量本体,最终保存至Hadoop分布式文件系统中。
2.根据权利要求1所述的基于MapReduce的网络流量本体构建方法,其特征在于:
所述步骤Ⅰ设计网络流量本体结构包括如下内容:
根据互联网网络流量采集环境和网络流量信息资源设计网络流量本体结构,所述网络流量本体结构为多层结构,首层包括互联网中流量采集节点信息和流量信息;所述流量采集节点的下一层记录流量采集节点的相关信息,包括流量采集节点的网络软硬件设备信息、流量采集节点的流量采集工具及流量采集节点的配置参数;所述流量采集工具的下一层记录各流量采集节点的各种流量采集工具名称以及流量采集信息格式;所述流量信息的下一层记录互联网上网络流量的相关信息,包括网络流量实例集合、流量统计特征集合、流量所属应用类型及协议;所述流量所属应用类型的下一层描述各种应用类型。
3.根据权利要求1所述的基于MapReduce的网络流量本体构建方法,其特征在于:
所述子步骤Ⅱ-1具体包括如下次子步骤:
Ⅱ-1-1、根据每个网络流量采集节点启动对应的映射函数,以<网络标识符,网络IP地址>为键值对作为每个映射函数的输入;
Ⅱ-1-2、映射函数根据网络IP地址控制网络流量采集节点,收集节点相关信息,调用网络流量采集工具捕获网络流量数据包,然后将采集到的网络流量信息传入中间结果;
Ⅱ-1-3、中间结果根据网络流量数据包的五元组,即源IP地址,源端口,目的IP地址,目的端口和传输层协议,确定每条网络流量,根据构成每条网络流量的网络数据包包头信息计算每条网络流量的统计特征值,并赋予每条网络流量标识符;
Ⅱ-1-4、完成网络流量统计特征值的计算之后,中间结果以<网络流量标识符,网络流量信息>为键值对,将各条网络流量的信息送入规约函数。
4.根据权利要求1所述的基于MapReduce的网络流量本体构建方法,其特征在于:
所述子步骤Ⅱ-2具体包括如下次子步骤:
Ⅱ-2-1、在规约函数中新建网络流量本体模型;
Ⅱ-2-2、规约函数解析由中间结果传入的、以<网络流量标识符,网络流量信息>为键值对的网络流量信息资源,抽取其中需要进行本体描述的资源,对应到步骤I设计的网络流量本体结构中的相应位置;
Ⅱ-2-3、规约函数根据步骤I设计的网络流量本体结构,建立网络流量本体基本概念,包括各流量采集节点信息、流量信息、流量采集节点的网络软硬件设备信息、流量采集节点的流量采集工具及流量采集节点的配置参数、网络流量实例集合、流量统计特征集合、流量所属应用类型及协议;
Ⅱ-2-4、规约函数根据步骤I设计的网络流量本体结构、建立网络流量本体基本概念与网络流量实例之间、网络流量实例与网络流量统计特征值之间的关系,包括“拥有”和“属于”,二者是互逆关系;网络流量本体基本概念“拥有”网络流量实例,网络流量实例“属于”网络流量本体基本概念;网络流量实例“拥有”网络流量统计特征值,网络流量统计特征值“属于”网络流量实例;
Ⅱ-2-5、规约函数根据次子步骤Ⅱ-2-2中抽取的网络流量信息资源创建网络流量实例,每个网络流量实例对应于一条具体的网络流量,为次子步骤Ⅱ-2-1新建的网络流量本体模型添加网络流量实例、网络流量实例与网络流量本体基本概念之间的关系,并为网络流量实例添加网络流量的统计特征值、网络流量实例与网络流量统计特征值之间的关系;
Ⅱ-2-6、规约函数将经过次子步骤Ⅱ-2-5添加各元素后的网络流量本体模型用网络本体语言OWL描述成文件形式的网络流量本体,并保存到Hadoop分布式文件系统中。
CN201510974143.7A 2015-12-22 2015-12-22 一种基于MapReduce的网络流量本体构建方法 Active CN105577438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510974143.7A CN105577438B (zh) 2015-12-22 2015-12-22 一种基于MapReduce的网络流量本体构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510974143.7A CN105577438B (zh) 2015-12-22 2015-12-22 一种基于MapReduce的网络流量本体构建方法

Publications (2)

Publication Number Publication Date
CN105577438A true CN105577438A (zh) 2016-05-11
CN105577438B CN105577438B (zh) 2018-09-28

Family

ID=55887135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510974143.7A Active CN105577438B (zh) 2015-12-22 2015-12-22 一种基于MapReduce的网络流量本体构建方法

Country Status (1)

Country Link
CN (1) CN105577438B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106533756A (zh) * 2016-11-08 2017-03-22 中国科学院计算技术研究所 一种通信特征抽取、流量产生方法及装置
CN107896160A (zh) * 2017-10-27 2018-04-10 中国科学技术大学 一种基于分布式系统的数据中心网络流量建模方法
CN109347662A (zh) * 2018-09-28 2019-02-15 西安交通大学深圳研究院 面向大规模网络流量的分布式社会网络结构快速挖掘系统
CN109901931A (zh) * 2019-03-07 2019-06-18 北京奇艺世纪科技有限公司 一种归约函数数量确定方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129457A (zh) * 2011-03-09 2011-07-20 浙江大学 大规模语义数据路径查询的方法
CN102682122A (zh) * 2012-05-15 2012-09-19 北京科技大学 基于本体构建材料科学领域语义数据模型的方法
US20120297061A1 (en) * 2011-05-17 2012-11-22 Applied Broadband, Inc. Method and system for collecting and managing network data
US20130151563A1 (en) * 2011-12-07 2013-06-13 Cisco Technology, Inc. Network-based dynamic data management
CN104298598A (zh) * 2014-10-01 2015-01-21 东北大学 分布式环境下rdfs本体的调试方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129457A (zh) * 2011-03-09 2011-07-20 浙江大学 大规模语义数据路径查询的方法
US20120297061A1 (en) * 2011-05-17 2012-11-22 Applied Broadband, Inc. Method and system for collecting and managing network data
US20130151563A1 (en) * 2011-12-07 2013-06-13 Cisco Technology, Inc. Network-based dynamic data management
CN102682122A (zh) * 2012-05-15 2012-09-19 北京科技大学 基于本体构建材料科学领域语义数据模型的方法
CN104298598A (zh) * 2014-10-01 2015-01-21 东北大学 分布式环境下rdfs本体的调试方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106533756A (zh) * 2016-11-08 2017-03-22 中国科学院计算技术研究所 一种通信特征抽取、流量产生方法及装置
CN106533756B (zh) * 2016-11-08 2019-06-18 中国科学院计算技术研究所 一种通信特征抽取、流量产生方法及装置
CN107896160A (zh) * 2017-10-27 2018-04-10 中国科学技术大学 一种基于分布式系统的数据中心网络流量建模方法
CN109347662A (zh) * 2018-09-28 2019-02-15 西安交通大学深圳研究院 面向大规模网络流量的分布式社会网络结构快速挖掘系统
CN109901931A (zh) * 2019-03-07 2019-06-18 北京奇艺世纪科技有限公司 一种归约函数数量确定方法、装置及系统

Also Published As

Publication number Publication date
CN105577438B (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN102035698B (zh) 基于决策树分类算法的http隧道检测方法
Zhao et al. Network traffic classification for data fusion: A survey
CN105516020B (zh) 一种基于本体知识推理的并行网络流量分类方法
CN105591972B (zh) 一种基于本体的网络流量分类方法
Alshammari et al. Identification of VoIP encrypted traffic using a machine learning approach
CN105577438A (zh) 一种基于MapReduce的网络流量本体构建方法
Wang et al. An automatic application signature construction system for unknown traffic
CN104144089A (zh) 一种基于bp神经网络进行流量识别的方法
Chen et al. Inferring causal relationship in coordinated flight of pigeon flocks
CN107786388A (zh) 一种基于大规模网络流数据的异常检测系统
CN103838803A (zh) 一种基于节点Jaccard相似度的社交网络社团发现方法
Carela-Espanol et al. K-dimensional trees for continuous traffic classification
CN109359686A (zh) 一种基于校园网流量的用户画像方法及系统
CN116910283A (zh) 一种针对网络行为数据的图存储方法及系统
Liu et al. Dynamic traffic classification algorithm and simulation of energy Internet of things based on machine learning
Min et al. Online Internet traffic identification algorithm based on multistage classifier
Ding et al. Internet traffic classification based on expanding vector of flow
Chen et al. A novel semi-supervised learning method for Internet application identification
CN108449356A (zh) 一种基于多序列比对的在线协议格式推断方法
Warnke et al. SIMORA: SIMulating Open Routing protocols for Application interoperability on edge devices
CN111555924B (zh) 用于智慧公路系统的网关设备优化部署方法
Chokkanathan et al. An integrated approach for network traffic analysis using unsupervised clustering and supervised classification
CN104111965B (zh) 基于差别矩阵的ogc地理信息服务描述词汇约简方法
CN107592222A (zh) 基于流行为特征的idc识别方法
Lopes et al. Gpu-oriented stream data mining traffic classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160511

Assignee: Guangxi Jun'an Network Security Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000459

Denomination of invention: A Method of Network Traffic Ontology Construction Based on MapReduce

Granted publication date: 20180928

License type: Common License

Record date: 20221228