CN111131379A - 一种分布式流量采集系统和边缘计算方法 - Google Patents

一种分布式流量采集系统和边缘计算方法 Download PDF

Info

Publication number
CN111131379A
CN111131379A CN201911090363.8A CN201911090363A CN111131379A CN 111131379 A CN111131379 A CN 111131379A CN 201911090363 A CN201911090363 A CN 201911090363A CN 111131379 A CN111131379 A CN 111131379A
Authority
CN
China
Prior art keywords
data
nodes
edge
acquisition
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911090363.8A
Other languages
English (en)
Other versions
CN111131379B (zh
Inventor
苏锐丹
孙昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DIGITAL CHINA ADVANCED SYSTEMS SERVICES CO LTD
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201911090363.8A priority Critical patent/CN111131379B/zh
Publication of CN111131379A publication Critical patent/CN111131379A/zh
Application granted granted Critical
Publication of CN111131379B publication Critical patent/CN111131379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于大数据云计算技术领域,公开了一种分布式流量采集系统和边缘计算方法。首先,规划分布式数据采集系统的节点,划分出采集节点、边缘节点和云中心节点,并依据设备的硬件性能分别安装Apache MiNiFi或Apache NiFi;其次,在采集节点、边缘节点和云中心节点上配置流模板,连接前后节点,完成数据采集、数据传输、边缘计算等功能,并将所有节点组织成以云中心为根的多级树状结构。本发明借鉴物联网应用场景中的边缘计算模式,在尽可能靠近数据源的地方,部署机器学习模型对数据进行分布式的并行处理,提高资源利用率和数据处理效率。

Description

一种分布式流量采集系统和边缘计算方法
技术领域
本发明属于大数据云计算(边缘计算)技术领域,尤其涉及一种分布式流量采集系统和边缘计算方法。
背景技术
目前,许多物联网(IoT)应用如智能家居、可穿戴设备、车联网等,已在本发明的日常生活中得到了广泛应用。物联网的迅猛发展使得一切事物都能互联互通,为本发明的学习、工作和生活提供了极大的便利。在物联网场景中,采用了大量的传感器设备,以便能够感知环境、监测变化从而做出相应的动作。由于这些智能设备的计算能力和存储容量有限,其本身的性能不足以有效处理这些传感器数据,也不能执行更复杂的处理动作,因此,一种更好的解决方案是采用云计算的方法,仅仅将这些智能设备看作是简单的数据生成器,将传感器数据直接传送到云服务器中进行存储和计算的卸载。
然而,根据目前的趋势预测,思科指出到2020年将有500亿台设备连接到互联网,思科全球云指数预测,到2020年由物、人、机产生的数据将超过500ZB,但此时全球数据中心的IP流量只会达到10.4ZB。此外,思科CEO预测到2025年将有大约5000亿个用户设备加入互联网。因此,处理快速增长的数据量以便减轻网络的沉重负担成为一个亟需解决的问题。同时,在越来越多的新场景中,如视频分析、自动驾驶等应用,需要物联网支持实时响应、位置感知、低延迟处理等功能,但由于云计算的集中化特性,且远离用户设备,加上数据在网络传输过程中由于带宽瓶颈产生的高延迟,使得云计算无法满足这些需求。为了解决这些问题,人们引入了边缘计算。在尽可能靠近数据源的机器上进行分布式的数据并行处理和分析,来实现更高的执行速度和更短的响应时间,将发送到服务器的数据量缩减到最少,这样可以提高数据传送链路上机器性能的利用率,提高整体的执行效率,大大提高了物联网的成功率。
相似的,在基于大数据的校园网络流量安全分析应用场景中,在校园内部署多个采集点来进行网络原始数据包的捕获和预处理。这些采集节点可以是一个用来监听无线流量的树莓派,也可以是接入骨干接点的镜像服务器。对于小型化的树莓派节点来说,其本身的计算和存储能力不足以支持大量的数据处理,总是需要将计算卸载到云中心;而对于骨干网上的镜像服务器来说,瞬时流量可能高达3-4Gbps,将这些流量全部传送到云中心进行处理,不仅会占用大量的网络带宽,也会使得云中心产生数据堆积,从而导致较高的数据处理延迟和响应时间,不能迅速得到处理结果。
综上所述,现有技术存在的问题是:
(1)现有技术在流量数据传输过程中会占用大量的网络带宽,导致网络拥塞,产生较高的延迟。
(2)现有技术大多使用云计算,海量数据上传会使云中心的数据堆积,导致较高的数据处理延迟和响应时间,不能迅速得到处理结果,造成处理效率低下,且计算、存储成本高。
(3)现有技术会将数据输到云端,重要的敏感信息会经过网络传输,可能造成传输过程中的隐私泄漏。
(4),现有技术对云中心依赖严重,数据传输在互联网连接受限的地区不能稳定地离线运行。
解决上述技术问题的难度:目前边缘计算的架构仍缺乏清晰、统一的定义,无论是工业领域还是消费领域,都存在众多细分市场,需求差异巨大,这导致边缘计算方案的多样性。因此,本发明需要在校园网络环境中,针对基于大数据的网络流量安全分析应用场景进行定制,依据众多厂家边缘计算产品的共性,抽象出边缘计算框架,并根据自身功能需求进行细化,包括数据采集、传输、边缘计算、结果反馈等自动化的基础功能,以及云中心的远程监控、管理等高级功能。
解决上述技术问题的意义:本发明借鉴物联网应用场景中的边缘计算模式,在尽可能靠近数据源的机器上进行分布式的数据并行处理和分析,实现更高的执行速度和更短的响应时间,将发送到服务器的数据量缩减到最少,这样可以提高数据传送链路上机器性能的利用率,提高整体的执行效率。
发明内容
针对现有技术存在的问题,本发明提供了一种分布式流量采集系统和边缘计算方法。
本发明是这样实现的,一种分布式流量采集系统,所述分布式流量采集系统包括:
采集节点,与边缘节点连接,用于根据需求执行多种类型数据的采集,从同一个网卡接口中获取原始网络数据,通过不同的采集设备将流量解析为多种格式并输出至指定的下一层端口;
边缘节点或集群,前后分别与采集节点、云中心节点连接,用于接收采集节点传输进来的数据,根据规则引擎或负载策略有选择的进行边缘计算。
云中心集群,首先负责汇总下层所有节点产生的所有数据,根据应用名称、数据类型等属性,将数据分别进行存储或后续处理;每个节点都会将该节点的状态日志等信息上传到云中心,用于绘制节点拓扑图。
进一步,所述采集节点在向下一层进行传输前,对每一个数据文件进行标记,标记的属性信息包括数据自来自哪个节点、哪个应用、什么数据类型。
进一步,所述边缘节点还用于自定义要执行的边缘计算内容,并将处理结果传送至下一层。
进一步,所述边缘节点还用于将不需要进行边缘计算的或非时间关键性的数据,直接卸载到在云中心进行后续的处理。
进一步,所述云中心节点的输入端口与边缘节点的输入端口相同。
本发明的另一目的在于提供一种分布式流量采集系统的边缘计算方法包括以下步骤:
步骤一,规划分布式数据采集系统的节点,划分出采集节点、边缘节点和云中心节点,并依据设备的硬件性能分别安装Apache MiNiFi或Apache NiFi;
步骤二,在采集节点、边缘节点和云中心节点上配置流模板,连接前后节点,完成数据采集、数据传输、边缘计算,并将所有节点组织成以云中心为根的树状结构。
进一步,步骤一中,将Apache MiNiFi安装在树莓派硬件资源上仅作为采集节点,将Apache NiFi安装在主机或服务器上作为边缘节点或者云中心节点;Apache NiFi或安装在采集节点中,负责大流量的采集和解析;可以依据某节点处理数据量的大小进行水平扩展,构成NiFi集群。
进一步,所述分布式流量采集系统的边缘计算方法进一步包括:
第一步,在采集节点上,部署数据采集的MiNiFi模板后,进行:
1.1)通过ExecuteProcess处理器调用采集工具,源源不断从网卡捕获数据包,并生成指定类型的文件存放在本地文件系统路径中;
1.2)通过GetFile处理器根据配置的正则表达式,在指定目录中获取文件名匹配的数据文件;该文件已转化成NiFi系统中的FlowFile,GetFile处理器自动删除本地文件以节省存储空间;
1.3)使用UpdateAttribute处理器为该流文件增添属性,以便后续根据属性进行拆分或路由;
1.4)通过RemoteProcessGroup,将数据发送到边缘节点上NiFi开放的指定的输入端口,同时开启该端口的传输压缩选项,以便减小数据体积、减少带宽占用;
第二步,在边缘节点上,部署边缘计算的NiFi模板,进行:
2.1)从命名为DataPath的输入端口传入采集节点生成的数据;
2.2)随后经过RouteOnAttribute处理器进行路由,根据采集节点设定的流文件属性来配置正则表达式,将匹配的流文件,即需要的数据转发至边缘计算的远程进程组中进行处理;将不需要计算的数据通过远程进程组直接发送到云中心的ApacheNiFi进行后续存储和处理;
第三步,在云中心节点上,部署云计算的NiFi模板,进行:
3.1)从输入端口获取数据后,根据流文件属性进行路由,一方面将检测结果文件直接放入HDFS或Hive中进行存档;另一方面,通过SplitText处理器,将处理结果拆分为每一条单独的记录;
3.2)将每条结果送入对应的Kafka主题,进行可视化或索引。
本发明的另一目的在于提供一种实现所述分布式流量采集系统的边缘计算方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的分布式流量采集系统的边缘计算方法。
综上所述,本发明的优点及积极效果为:
本发明借鉴物联网应用场景中的边缘计算模式,在尽可能靠近数据源的地方,部署机器学习模型对数据进行分布式的并行处理,充分利用了数据传输链路上节点的性能,相比于传统的云计算方式,提高了N倍的计算速度(N为边缘节点数量)、数据传输体积缩小了97.56%。同时在该领域通过本发明的计算方法还带来了其他的有益效果,如缩短系统响应时间、降低能源消耗等,提高了资源利用率和数据处理效率。
相比于现有技术,本发明的优点进一步包括:
(1)提升实时性,由于减少了中间传输的过程,数据处理的速度也更快。
(2)降低性能成本,边缘计算处理的数据是“小数据”,从数据计算、存储上都具有成本优势。
(3),降低网络带宽需求,随着联网设备的增多,网络传输压力会越来越大,而边缘计算的过程中,与云端服务器的数据交换并不多,因此也不需要占用太多网络带宽。
(4),提升应用程序效率,结合上面的三个优势,当数据处理更快、网络传输压力更小、成本也更低的时候,本发明应用程序的效率也会大大提升。
(5),提高数据隐私保护的可操作性,由于数据的收集和计算都是基于本地,数据也不再被传输到云端,因此重要的敏感信息可以不经过网络传输,能够有效避免传输过程中的泄漏。
(6),降低发生单点故障的可能性,减少对云的依赖也意味着某些设备可以在互联网连接受限的地区稳定地离线运行。
本发明选取两组数据进行测试,每组5个数据文件。第一组中每个文件大小相近,模拟多边缘节点进行分布式的并行边缘计算,记录每个文件的处理情况;第二组中每个文件大小呈梯度增长,模拟多采集节点直接将数据卸载到云中心,记录随数据量增长的处理情况。
测试实验证明:本发明测试中,对处理前、中、后的文件大小(单位千字节kb)、流记录(或DGA域名)数量、每个文件的处理时长(单位秒s)进行了统计,得到了表1和表2中的结果。
第一组 原始大小 原流记录数 DNS数据大小 DNS流记录数 处理后大小 DGA记录数 时长
文件1 40,790 371,987 2,366 20,104 62 516 11.056
文件2 41,264 376,241 2,415 20,515 56 457 10.98
文件3 41,214 375,773 2,462 20,966 63 523 10.956
文件4 42,088 383,544 2,840 24,089 69 574 11.893
文件5 41,314 376,709 2,527 21,464 58 487 10.755
平均值 41,334 376,850.8 2,522 21,427.6 61.6 511.4 11.128
表1.第一组数据统计结果
第二组 原始大小 原流记录数 DNS数据大小 DNS流记录数 处理后大小 DGA记录数 时长
文件6 21,938 200,000 1,285 10,900 41 330 7.26
文件7 32,898 300,000 1,870 15,906 51 419 9.746
文件8 43,864 400,000 2,625 22,327 64 526 11.546
文件9 54,858 500,000 3,507 29,818 79 657 13.663
文件10 65,800 600,000 4,128 35,035 75 621 13.223
平均值 43,871.6 400,000 2,683 22,797.2 62 510.6 11.088
表2.第二组数据统计结果
由表1可知,每40.37MB数据文件中约含376,851条流记录,其中包含约2.46MB的21,428条DNS记录。在这些DNS流记录中约有511条DGA恶意域名,平均处理时长为11.128s,处理后文件大小约为61.6KB,相比于全部的DNS数据,体积缩小了97.56%。
由表2可知,数据文件处理时长与DGA记录数呈正相关,与原数据文件大小或DNS记录数无直接关系,平均每100条DGA恶意域名的检测时长为2.17s。
综合两个表可知,若进行边缘计算,则总共平均用时约为11s,而相同数据全部由云中心进行计算,通过估算大约需耗时55.5s。综上,在尽可能靠近数据源的节点上部署机器学习模型进行边缘计算的方式是可行且有效的,大大减少了发送到云中心的数据量,充分利用了链路节点上的机器性能,提高了整体的效率。
附图说明
图1是本发明实施例提供的分布式流量采集系统的边缘计算方法流程图。
图2是本发明实施例提供的分布式流量采集系统的边缘计算方法原理图。
图3是本发明实施例提供的分布式流量采集系统示意图。
图中:1、采集节点;2、边缘节点;3、云中心;4、大数据存储计算平台。
图4是本发明实施例提供的DGA恶意域名检测边缘计算应用实例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术的基于大数据的校园网络流量安全分析中,流量数据进行处理时,会占用大量的网络带宽,使得云中心产生数据堆积,从而导致较高的数据处理延迟和响应时间,不能迅速得到处理结果,造成处理效率低下。
针对现有技术存在的问题,本发明提供了一种分布式流量采集系统和边缘计算方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的分布式流量采集系统的边缘计算方法包括以下步骤:
S101,规划分布式数据采集系统的节点,划分出采集节点、边缘节点和云中心节点三种角色,并依据设备的硬件性能分别安装Apache MiNiFi或Apache NiFi。通常将MiNiFi安装在树莓派等硬件资源有限的小型设备上仅作为采集节点,将NiFi安装在具有一定计算能力的主机或服务器上作为边缘节点或者云中心节点。NiFi也可以安装在采集节点中,负责大流量的采集和解析。可以依据该节点下属直连节点的数量进行水平扩展,构成NiFi集群来提高数据处理能力。
S102,在不同角色的节点上配置流模板,连接前后节点,完成数据采集、数据传输、数据处理等功能,最终将所有节点组织成以云中心为根的树状结构。
图2是本发明实施例提供的分布式流量采集系统的边缘计算方法原理图。
如图3所示,本发明实施例提供的分布式流量采集系统包括:
采集节点(Sensor)1,本发明根据不同应用来划分进程组,每个应用中可以根据需求同时执行多种类型数据的采集,即从同一个网卡接口中获取原始网络数据,通过不同的采集设备将流量解析为多种格式并输出至指定的下一层端口。在向下一层进行传输前,会对每一个数据文件进行标记,表明其来自来自哪个节点、哪个应用、是什么类型的数据,以便后面的流程中根据属性进行路由或拆分。
边缘节点(Edge)2,针对自身以及其他采集设备传输进来的数据,根据规则引擎或负载策略有选择的进行边缘计算。在EdgeComputing组中,可以自定义要执行的计算内容。例如,提取DNS数据中的域名字段,对其是否为DGA恶意域名进行判断,并将处理结果传送至下一层。此外,对于不需要进行计算或非时间关键性的数据,可以直接将其卸载到云中心进行后续的处理。
云中心(Center)3可能同时部署了Hadoop等大数据存储计算平台4,中心集群负责收集、存储、处理下层所有节点产生的所有数据,包括设备状态日志等信息。每一层都将本节点每分钟的状态信息上传。随后,根据应用、数据类型等属性,将这些数据分别存入对应应用的HDFS(分布式文件系统)中或发送给相应的Kafka(高性能跨语言分布式消息队列系统)主题进行后续处理。
此外,在图3中可以看到,云中心与边缘节点对外暴露的输入端口是一样的。这样设计的目的是使得该边缘计算模型同样支持两层结构,即设备层可以将采集到的数据不经过边缘层的计算处理,而是直接卸载到云中心。使用两层结构是为了提高数据传输的效率,例如设备层某节点负责采集的数据均不需要进行边缘计算,那么该节点生成的数据就没有必要流经边缘层,直接传送到云中心会使整个处理流程更简单、处理时延更短。
下面结合具体测试实验对本发明作进一步描述。
实施例
在边缘节点为要进行边缘计算的数据配置相关的流模板。本发明以DGA恶意域名检测为例(图4)构建边缘计算实例,将已训练好的机器学习检测模型部署在边缘节点。在图4中,本发明给出了整个边缘计算模型的概要图,包括设备层、边缘层和云中心。由于实际构建的流程框架较为复杂,不易于直观概览,为便于理解数据流,仅抽取了与本节的应用实例相关的组件,绘制了上述概要图进行展示与描述。
在设备层,本发明部署了数据采集的MiNiFi模板。首先通过ExecuteProcess处理器调用采集设备,源源不断从网卡捕获数据包,并生成指定类型的文件存放在本地文件系统路径中;接着,通过GetFile处理器根据配置的正则表达式,在指定目录中获取文件名匹配的数据文件。此时,该文件已转化成NiFi系统中的FlowFile(流文件),此后GetFile处理器会自动删除本地文件以节省存储空间;接着使用UpdateAttribute处理器为该流文件增添属性(如应用名称、数据类型等),以便后续可以根据属性进行拆分或路由;最后通过RemoteProcessGroup,将数据发送到边缘节点上NiFi实例中开放的指定的输入端口,同时可以开启该端口的传输压缩选项,以便减小数据体积、减少带宽占用。
在边缘层,上一层的数据首先从命名为DataPath的输入端口传入;随后经过RouteOnAttribute处理器进行路由,根据上一层设定的流文件属性来配置正则表达式,将匹配的流文件,即本发明需要的数据转发至边缘计算的Process Group(进程组)中进行处理;而将其他不需要计算的数据通过远程进程组直接发送到云中心的NiFi实例进行后续存储和处理。
在云中心,同样从输入端口获取数据后,首先根据流文件属性进行路由(图中未画出)。由于在本例中本发明是以文件的形式进行数据传输的,因此,一方面可以将检测结果直接放入HDFS或Hive中进行存档;另一方面,可以通过SplitText处理器,将处理结果拆分为一条一条单独的结果,并将每条结果送入对应的Kafka主题,便于后续进行可视化或索引。
下面结合测试对本发明的技术效果作详细的描述。
本发明使用本校网络中心对外总出口的流量作为数据源,数据率在3-4Gbps,将每分钟内的所有数据流转化为流记录作为一个数据文件。
选取两组数据进行测试,每组5个数据文件。第一组中每个文件大小相近,模拟多边缘节点进行分布式的并行边缘计算,记录每个文件的处理情况;第二组中每个文件大小呈梯度增长,模拟多采集节点直接将数据卸载到云中心,记录随数据量增长的处理情况。
本次测试对处理前、中、后的文件大小(单位千字节kb)、流记录(或DGA域名)数量、每个文件的处理时长(单位秒s)进行了统计,得到了表1和表2中的结果。
第一组 原始大小 原流记录数 DNS数据大小 DNS流记录数 处理后大小 DGA记录数 时长
文件1 40,790 371,987 2,366 20,104 62 516 11.056
文件2 41,264 376,241 2,415 20,515 56 457 10.98
文件3 41,214 375,773 2,462 20,966 63 523 10.956
文件4 42,088 383,544 2,840 24,089 69 574 11.893
文件5 41,314 376,709 2,527 21,464 58 487 10.755
平均值 41,334 376,850.8 2,522 21,427.6 61.6 511.4 11.128
表1.第一组数据统计结果
第二组 原始大小 原流记录数 DNS数据大小 DNS流记录数 处理后大小 DGA记录数 时长
文件6 21,938 200,000 1,285 10,900 41 330 7.26
文件7 32,898 300,000 1,870 15,906 51 419 9.746
文件8 43,864 400,000 2,625 22,327 64 526 11.546
文件9 54,858 500,000 3,507 29,818 79 657 13.663
文件10 65,800 600,000 4,128 35,035 75 621 13.223
平均值 43,871.6 400,000 2,683 22,797.2 62 510.6 11.088
表2.第二组数据统计结果
由表1可知,每40.37MB数据文件中约含376,851条流记录,其中包含约2.46MB的21,428条DNS记录。在这些DNS流记录中约有511条DGA恶意域名,平均处理时长为11.128s,处理后文件大小约为61.6KB,相比于全部的DNS数据,体积缩小了97.56%。
由表2可知,数据文件处理时长与DGA记录数呈正相关,与原数据文件大小或DNS记录数无直接关系,平均每100条DGA恶意域名的检测时长为2.17s。
综合两个表可知,若进行边缘计算,则总共平均用时约为11s,而相同数据全部由云中心进行计算,通过估算大约需耗时55.5s。综上,在尽可能靠近数据源的节点上部署机器学习模型进行边缘计算的方式是可行且有效的,大大减少了发送到云中心的数据量,充分利用了链路节点上的机器性能,提高了整体的效率。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分布式流量采集系统,其特征在于,所述分布式流量采集系统包括:
采集节点,与边缘节点连接,用于根据需求执行多种类型数据的采集,从同一个网卡接口中获取原始网络数据,通过不同的采集设备将流量解析为多种格式并输出至指定的下一层端口;
边缘节点或集群,前后分别与采集节点、云中心节点连接,用于接收采集节点传输进来的数据,根据规则引擎或负载策略有选择的进行边缘计算;
云中心集群,首先负责汇总下层所有节点产生的所有数据,根据应用名称、数据类型等属性,将数据分别进行存储或后续处理;每个节点都会将该节点的状态日志等信息上传到云中心,用于绘制节点拓扑图。
2.如权利要求1所述的分布式流量采集系统,其特征在于,所述采集节点在向下一层进行传输前,对每一个数据文件进行标记,标记的属性信息包括数据自来自哪个节点、哪个应用、什么数据类型。
3.如权利要求1所述的分布式流量采集系统,其特征在于,所述边缘节点还用于自定义要执行的边缘计算内容,并将处理结果传送至下一层。
4.如权利要求1所述的分布式流量采集系统,其特征在于,所述边缘节点还用于将不需要进行边缘计算的或非时间关键性的数据,直接卸载到在云中心进行后续的处理。
5.如权利要求1所述的分布式流量采集系统,其特征在于,所述云中心节点的输入端口与边缘节点的输入端口相同。
6.一种如权利要求1所述分布式流量采集系统的边缘计算方法,其特征在于,所述分布式流量采集系统的边缘计算方法包括以下步骤:
步骤一,规划分布式数据采集系统的节点,划分出采集节点、边缘节点和云中心节点,并依据设备的硬件性能分别安装Apache MiNiFi或Apache NiFi;
步骤二,在采集节点、边缘节点和云中心节点上配置流模板,连接前后节点,完成数据采集、数据传输、边缘计算,并将所有节点组织成以云中心为根的树状结构。
7.如权利要求6所述的分布式流量采集系统的边缘计算方法,其特征在于,
步骤一中,将Apache MiNiFi安装在树莓派硬件资源上仅作为采集节点,将ApacheNiFi安装在主机或服务器上作为边缘节点或者云中心节点;Apache NiFi也可安装在采集节点中,负责大流量的采集和解析;依据某节点处理数据量的大小进行水平扩展,构成NiFi集群。
8.如权利要求6所述的分布式流量采集系统的边缘计算方法,其特征在于,所述分布式流量采集系统的边缘计算方法进一步包括:
第一步,在采集节点上,部署数据采集的MiNiFi模板,进行:
1.1)通过ExecuteProcess处理器调用采集工具,源源不断从网卡捕获数据包,并生成指定类型的文件存放在本地文件系统路径中;
1.2)通过GetFile处理器根据配置的正则表达式,在指定目录中获取文件名匹配的数据文件;该文件已转化成NiFi系统中的FlowFile,GetFile处理器自动删除本地文件以节省存储空间;
1.3)使用UpdateAttribute处理器为该流文件增添属性,以便后续根据属性进行拆分或路由;
1.4)通过RemoteProcessGroup,将数据发送到边缘节点上NiFi中开放的指定的输入端口,同时开启该端口的传输压缩选项,以便减小数据体积、减少带宽占用;
第二步,在边缘节点上,部署边缘计算的NiFi模板,进行:
2.1)从命名为DataPath的输入端口传入采集节点生成的数据;
2.2)随后经过RouteOnAttribute处理器进行路由,根据采集节点设定的流文件属性来配置正则表达式,将匹配的流文件,即需要的数据转发至边缘计算的进程组中进行数据处理;将不需要计算的数据通过远程进程组直接发送到云中心进行后续存储和处理;
第三步,在云中心节点上,部署云计算的NiFi模板,进行:
3.1)从输入端口获取数据后,根据流文件属性进行路由,一方面将检测结果文件直接放入HDFS或Hive中进行存档;另一方面,通过SplitText处理器,将边缘计算结果拆分为每一条单独的记录;
3.2)将每条结果送入对应的Kafka主题,进行可视化或索引。
9.一种实现权利要求6~8任意一项所述分布式流量采集系统的边缘计算方法的信息数据处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求6-8任意一项所述的分布式流量采集系统的边缘计算方法。
CN201911090363.8A 2019-11-08 2019-11-08 一种分布式流量采集系统和边缘计算方法 Active CN111131379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911090363.8A CN111131379B (zh) 2019-11-08 2019-11-08 一种分布式流量采集系统和边缘计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911090363.8A CN111131379B (zh) 2019-11-08 2019-11-08 一种分布式流量采集系统和边缘计算方法

Publications (2)

Publication Number Publication Date
CN111131379A true CN111131379A (zh) 2020-05-08
CN111131379B CN111131379B (zh) 2021-06-01

Family

ID=70495761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911090363.8A Active CN111131379B (zh) 2019-11-08 2019-11-08 一种分布式流量采集系统和边缘计算方法

Country Status (1)

Country Link
CN (1) CN111131379B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949410A (zh) * 2020-08-23 2020-11-17 陈顺发 基于大数据和边缘计算的数据整合方法及云端大数据中心
CN111970374A (zh) * 2020-08-27 2020-11-20 山东有人信息技术有限公司 基于机器学习的数据节点分组方法、系统及介质
CN112486667A (zh) * 2020-11-03 2021-03-12 深圳市中博科创信息技术有限公司 一种基于边缘计算精准处理数据的方法及装置
CN112486676A (zh) * 2020-11-25 2021-03-12 深圳市中博科创信息技术有限公司 一种基于边缘计算的数据共享分发方法及装置
CN112650580A (zh) * 2020-11-02 2021-04-13 北京迅达云成科技有限公司 一种基于边缘计算的工业大数据监测系统
CN112732662A (zh) * 2021-01-04 2021-04-30 浪潮云信息技术股份公司 一种NiFi同步数据量统计方法
CN112800300A (zh) * 2021-03-19 2021-05-14 湖南人文科技学院 一种基于社交网络的数据采集与分析系统
CN113596158A (zh) * 2021-07-29 2021-11-02 杭州海康威视系统技术有限公司 一种基于场景的算法配置方法和装置
CN115150767A (zh) * 2022-09-06 2022-10-04 湖南智警公共安全技术研究院有限公司 一种基于边缘计算的无线传感网络数据传输方法
CN115208872A (zh) * 2021-04-09 2022-10-18 顺丰科技有限公司 边缘云镜像数据处理方法、装置、计算机设备和存储介质
WO2023279815A1 (zh) * 2021-07-08 2023-01-12 华为技术有限公司 性能监控系统及相关方法
CN116974654A (zh) * 2023-09-21 2023-10-31 浙江大华技术股份有限公司 一种图像数据的处理方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130290536A1 (en) * 2012-04-25 2013-10-31 Cisco Technology, Inc. Generalized coordinate system and metric-based resource selection framework
CN104699757A (zh) * 2015-01-15 2015-06-10 南京邮电大学 云环境下分布式网络信息采集方法
CN107529178A (zh) * 2017-08-30 2017-12-29 南京中科智达物联网系统有限公司 一种基于mec技术的校园手机管理系统和方法
CN107707596A (zh) * 2017-04-06 2018-02-16 邹霞 流量积算云服务中心系统
CN108777643A (zh) * 2018-06-08 2018-11-09 武汉思普崚技术有限公司 一种流量可视化平台系统
CN109067859A (zh) * 2018-07-20 2018-12-21 北京航空航天大学 一种面向跨域协同服务的双层云架构系统及实现方法
CN109088755A (zh) * 2018-08-01 2018-12-25 南京大学 一种边缘计算下的复杂事件处理系统部署方法
CN109660541A (zh) * 2018-12-24 2019-04-19 国家电网有限公司 去中心化大数据的采集方法及装置
US20190295608A1 (en) * 2018-03-12 2019-09-26 Micron Technology, Inc. Power Management Integrated Circuit with Dual Power Feed

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130290536A1 (en) * 2012-04-25 2013-10-31 Cisco Technology, Inc. Generalized coordinate system and metric-based resource selection framework
CN104699757A (zh) * 2015-01-15 2015-06-10 南京邮电大学 云环境下分布式网络信息采集方法
CN107707596A (zh) * 2017-04-06 2018-02-16 邹霞 流量积算云服务中心系统
CN107529178A (zh) * 2017-08-30 2017-12-29 南京中科智达物联网系统有限公司 一种基于mec技术的校园手机管理系统和方法
US20190295608A1 (en) * 2018-03-12 2019-09-26 Micron Technology, Inc. Power Management Integrated Circuit with Dual Power Feed
CN108777643A (zh) * 2018-06-08 2018-11-09 武汉思普崚技术有限公司 一种流量可视化平台系统
CN109067859A (zh) * 2018-07-20 2018-12-21 北京航空航天大学 一种面向跨域协同服务的双层云架构系统及实现方法
CN109088755A (zh) * 2018-08-01 2018-12-25 南京大学 一种边缘计算下的复杂事件处理系统部署方法
CN109660541A (zh) * 2018-12-24 2019-04-19 国家电网有限公司 去中心化大数据的采集方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋鑫: "MEC整体解决方案及典型应用场景研究", 《电信技术》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515367A (zh) * 2020-08-23 2021-10-19 陈顺发 基于大数据和边缘计算的数据整合方法及存储介质
CN113515367B (zh) * 2020-08-23 2022-08-30 浪潮工业互联网股份有限公司 基于大数据和边缘计算的数据整合方法及存储介质
CN111949410A (zh) * 2020-08-23 2020-11-17 陈顺发 基于大数据和边缘计算的数据整合方法及云端大数据中心
CN111949410B (zh) * 2020-08-23 2021-05-07 北京德昇科技有限公司 基于大数据和边缘计算的数据整合方法及云端大数据中心
CN111970374A (zh) * 2020-08-27 2020-11-20 山东有人信息技术有限公司 基于机器学习的数据节点分组方法、系统及介质
CN111970374B (zh) * 2020-08-27 2023-02-03 山东有人物联网股份有限公司 基于机器学习的数据节点分组方法、系统及介质
CN112650580B (zh) * 2020-11-02 2021-07-20 北京迅达云成科技有限公司 一种基于边缘计算的工业大数据监测系统
CN112650580A (zh) * 2020-11-02 2021-04-13 北京迅达云成科技有限公司 一种基于边缘计算的工业大数据监测系统
CN112486667A (zh) * 2020-11-03 2021-03-12 深圳市中博科创信息技术有限公司 一种基于边缘计算精准处理数据的方法及装置
CN112486676A (zh) * 2020-11-25 2021-03-12 深圳市中博科创信息技术有限公司 一种基于边缘计算的数据共享分发方法及装置
CN112732662A (zh) * 2021-01-04 2021-04-30 浪潮云信息技术股份公司 一种NiFi同步数据量统计方法
CN112732662B (zh) * 2021-01-04 2023-03-28 浪潮云信息技术股份公司 一种NiFi同步数据量统计方法
CN112800300A (zh) * 2021-03-19 2021-05-14 湖南人文科技学院 一种基于社交网络的数据采集与分析系统
CN112800300B (zh) * 2021-03-19 2023-09-12 湖南人文科技学院 一种基于社交网络的数据采集与分析系统
CN115208872A (zh) * 2021-04-09 2022-10-18 顺丰科技有限公司 边缘云镜像数据处理方法、装置、计算机设备和存储介质
WO2023279815A1 (zh) * 2021-07-08 2023-01-12 华为技术有限公司 性能监控系统及相关方法
CN113596158A (zh) * 2021-07-29 2021-11-02 杭州海康威视系统技术有限公司 一种基于场景的算法配置方法和装置
CN115150767B (zh) * 2022-09-06 2022-12-13 湖南智警公共安全技术研究院有限公司 一种基于边缘计算的无线传感网络数据传输方法
CN115150767A (zh) * 2022-09-06 2022-10-04 湖南智警公共安全技术研究院有限公司 一种基于边缘计算的无线传感网络数据传输方法
CN116974654A (zh) * 2023-09-21 2023-10-31 浙江大华技术股份有限公司 一种图像数据的处理方法、装置、电子设备及存储介质
CN116974654B (zh) * 2023-09-21 2023-12-19 浙江大华技术股份有限公司 一种图像数据的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111131379B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN111131379B (zh) 一种分布式流量采集系统和边缘计算方法
US11202132B2 (en) Application performance monitoring and management platform with anomalous flowlet resolution
US11088929B2 (en) Predicting application and network performance
US9838483B2 (en) Methods, systems, and computer readable media for a network function virtualization information concentrator
US9148381B2 (en) Cloud computing enhanced gateway for communication networks
US20180295029A1 (en) Managing groups of servers
CN111835562B (zh) 日志上传方法、日志查询方法、系统
US20150215228A1 (en) Methods, systems, and computer readable media for a cloud-based virtualization orchestrator
CN111966289B (zh) 基于Kafka集群的分区优化方法和系统
CN108427619B (zh) 日志管理方法、装置、计算设备及存储介质
CN109271363B (zh) 一种文件存储的方法及设备
CN111064591B (zh) 数据汇聚方法、装置、设备、存储介质和系统
US20160269428A1 (en) Data processing
CN109960634A (zh) 一种应用程序监控方法、装置及系统
CN115510936A (zh) 基于联邦学习的模型训练方法及聚类分析器
CN114830080B (zh) 数据分发流程配置方法及装置、电子设备、存储介质
Liu et al. Service resource management in edge computing based on microservices
CN112019604A (zh) 边缘数据传输方法和系统
WO2017193814A1 (zh) 一种业务链生成方法及系统
US20180285373A1 (en) Reduction of Volume of Reporting Data Using Multiple Datasets
CN114756301A (zh) 日志处理方法、装置和系统
CN111106974B (zh) 一种测试无损网络性能的方法和装置
CN113098914B (zh) 消息总线系统及消息传输方法、装置、电子设备
EP4296890A1 (en) Acquisition cycle determining method, apparatus and system, device, and storage medium
Yuan et al. Evidence Collection Agent Model Design for Big Data Forensic Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211012

Address after: Room 101-501, 5 / F, building 18, yard 10, northwest Wangdong Road, Haidian District, Beijing 100080

Patentee after: DIGITAL CHINA ADVANCED SYSTEMS SERVICES Co.,Ltd.

Address before: 710071 Xi'an Electronic and Science University, 2 Taibai South Road, Shaanxi, Xi'an

Patentee before: XIDIAN University

TR01 Transfer of patent right