CN109684301B - 一种基于大数据的多级网络流量存储方法及系统 - Google Patents

一种基于大数据的多级网络流量存储方法及系统 Download PDF

Info

Publication number
CN109684301B
CN109684301B CN201811417282.XA CN201811417282A CN109684301B CN 109684301 B CN109684301 B CN 109684301B CN 201811417282 A CN201811417282 A CN 201811417282A CN 109684301 B CN109684301 B CN 109684301B
Authority
CN
China
Prior art keywords
flow
storage
big data
relational database
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811417282.XA
Other languages
English (en)
Other versions
CN109684301A (zh
Inventor
石志凯
吴巍枫
孙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Fiberhome Integration Technologies Co ltd
Original Assignee
Wuhan Fiberhome Integration Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Fiberhome Integration Technologies Co ltd filed Critical Wuhan Fiberhome Integration Technologies Co ltd
Priority to CN201811417282.XA priority Critical patent/CN109684301B/zh
Publication of CN109684301A publication Critical patent/CN109684301A/zh
Application granted granted Critical
Publication of CN109684301B publication Critical patent/CN109684301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Abstract

本发明公开了一种基于大数据的多级网络流量存储方法及系统,涉及数据存储技术领域。本发明采用多级存储模式,根据业务需求灵活配置存储方案,大大缩减了仅用全包存储或仅用大数据进行文件归档存储所消耗的硬件资源。对采集的流量进行解析,获取多层次网络协议包头信息,将需存储的信息存储为结构化日志文件;再对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表,满足上层应用实时性业务需求。本发明利用大数据技术对流量包文件和关系数据库的表,根据业务需要进行归档存储,能发挥大数据的集群计算能力,满足大型高速网络流量环境的需求。

Description

一种基于大数据的多级网络流量存储方法及系统
技术领域
本发明涉及数据存储技术领域,具体是涉及一种基于大数据的多级网络流量存储方法及系统。
背景技术
网络流量数据在网络管理、网络优化运维、网络安全和网络用户行为分析挖掘等方面具有重要的作用。随着互联网的快速发展,网络技术的进步,网络流量数据的种类和数量都在急剧增长,给网络流量数据的存储和分析带来巨大挑战。作为网络流量分析的基础工作,网络流量存储技术对网络管理与优化、网络安全等技术的发展具有重要的现实意义。
目前主要的存储方法有:
1、全包存储,将流量采集工具采集的流量包,直接存储到操作系统的文件系统中。
2、大数据存储,将采集的流量包存入大数据文件系统中,如分布式文件系统。
3、大数据索引,将流量相关信息存入到HBASE数据库中,方便流量检索,同时可以对应分布式文件系统中存储的流量文件。
4、三级流量数据存储,采用Firebird数据库构建实时流数据库、普通流数据库,利用Oracle数据库构建基本指标数据库。
上述存储方法存在以下缺陷:
1、全包存储:需要大量硬件存储资源支持,同时检索和分析十分消耗系统资源,数据量大的时候速度十分缓慢,难以支撑上层应用的业务需要。
2、大数据存储:与全包存储方案类似,但使用大数据技术,实现了分布式存储,加大了文件存储的可靠性,提高了效率,但仍然需要大量存储和计算资源的支持,虽然一定程度上提高了检索和分析的效率,但是仍不能满足上层实时性业务。
3、大数据索引:将流量相关信息进行结构化存入HBASE数据库中,辅助全包存储索引检索,但依然属于大数据全包存储策略,需要耗费大量存储资源,同时检索到数据包后,依然需要大量的分析计算工作,耗费大量计算资源与时间,难以满足上层实时性业务。
4、三级数据流量存储:该存储方案对普通流数据库的设计存储时间较短,只有一周到几周之间,存储时间较短,同时,普通流数据库和基本指标数据库都采用关系型数据库,随着流的不断增长,数据表将不断增大,查询和分析性能会不断下降,难以满足大型高速网络流量环境的需求。
发明内容
本发明的目的是为了克服上述背景技术的不足,提供一种基于大数据的多级网络流量存储方法及系统,节省存储空间和计算资源,同时满足上层应用各种需求。
本发明提供一种基于大数据的多级网络流量存储方法,包括以下步骤:
对需要完整流量包存储的业务,将采集的流量进行全包存储;
对上层应用实时性业务和上层应用普通统计分析业务,对采集的流量进行解析,获取多层次网络协议包头信息,将需存储的信息存储为结构化日志文件;再对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表;
对大型网络流量环境需求的业务,对全包存储的文件或关系数据库表进行大数据存储。
在上述方案的基础上,所述需要完整流量包存储的业务包括全包网络流量安全分析业务、非加密传输文件还原业务和网络安全攻击行为的事后查证业务。
在上述方案的基础上,对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表后,即时删除结构化日志文件。
在上述方案的基础上,所述关系数据库表包括流量信息记录型数据表、流量统计类型数据表、流量分析类数据表和流量信息记录型数据表。
在上述方案的基础上,所述对全包存储的文件或关系数据库表进行大数据存储,具体包括以下步骤:
将全包存储的文件迁移至大数据系统的分布式文件系统中存储;
将关系数据库表迁移至大数据系统的数据仓库工具HIVE中存储。
本发明还提供一种基于大数据的多级网络流量存储系统,包括:
全包存储模块,其用于:对需要完整流量包存储的业务,将采集的流量进行全包存储;
结构化存储模块,其用于:对上层应用实时性业务和上层应用普通统计分析业务,对采集的流量进行解析,获取多层次网络协议包头信息,将需存储的信息存储为结构化日志文件;
关系数据库存储模块,其用于:对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表;
大数据存储模块,其用于:对大型网络流量环境需求的业务,对全包存储的文件或关系数据库表进行大数据存储。
在上述方案的基础上,所述需要完整流量包存储的业务包括全包网络流量安全分析业务、非加密传输文件还原业务和网络安全攻击行为的事后查证业务。
在上述方案的基础上,所述关系数据库存储模块对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表后,所述结构化存储模块即时删除结构化日志文件。
在上述方案的基础上,所述关系数据库表包括流量信息记录型数据表、流量统计类型数据表、流量分析类数据表和流量信息记录型数据表。
在上述方案的基础上,所述大数据存储模块具体用于:
将全包存储的文件迁移至大数据系统的分布式文件系统中存储;
将关系数据库表迁移至大数据系统的数据仓库工具中存储。
与现有技术相比,本发明的优点如下:
(1)本发明采用多级存储模式,根据业务需求灵活配置存储方案,大大缩减了仅用全包存储或仅用大数据进行文件归档存储所消耗的硬件资源。
(2)本发明对采集的流量进行解析,获取多层次网络协议包头信息,将需存储的信息存储为结构化日志文件;再对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表,满足上层应用实时性业务需求。
(3)本发明利用大数据技术对流量包文件和关系数据库的表,根据业务需要进行归档存储,能发挥大数据的集群计算能力,满足大型高速网络流量环境的需求。
附图说明
图1是本发明实施例的基于大数据的多级网络流量存储方法的流程示意图;
图2是本发明实施例的基于大数据的多级网络流量存储方法的各存储方式支持的业务类型的示意图。
具体实施方式
术语说明:
HDFS,Hadoop Distributed File System,分布式文件系统。
HIVE,一种底层封装了Hadoop的数据仓库处理工具。
下面结合附图及具体实施例对本发明作进一步的详细描述。
实施例1:
参见图1和图2所示,本发明实施例提供一种基于大数据的多级网络流量存储方法,包括以下步骤:
对需要完整流量包存储的业务,将采集的流量进行全包存储;所述需要完整流量包存储的业务包括全包网络流量安全分析业务、非加密传输文件还原业务和网络安全攻击行为的事后查证业务。
对上层应用实时性业务和上层应用普通统计分析业务,对采集的流量进行解析,获取多层次网络协议包头信息,将需存储的信息存储为结构化日志文件;再对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表;对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表后,即时删除结构化日志文件。
关系数据库表包括流量信息记录型数据表、流量统计类型数据表、流量分析类数据表和流量信息记录型数据表。主要存储的应用协议有:http,dhcp,dns,ftp,irc,mysql,rdp,sip,smtp,snmp,ssh,ssl,tunnel,pe,x509,未知协议等;各协议存储包头关键字段信息,如http协议存储的字段有:连接id,时间戳,请求方式,host,uri,referrer,协议版本,user agent,请求字节长度,返回字节长度,状态码等;四层协议主要为tcp和udp协议,针对某个连接,存储的字段主要有:连接id,时间戳,五元组,源端字节数,目标端字节数,连接状态,连接持续时间,丢失字节数,源端负载字节数,目标端负载字节数等;各协议归档存储为结构化日志文件—log文件,归档时间根据网络环境可以设置为n分钟,n小时或以天为周期(流量较小情况);log文件一般入关系数据库后即时删除,缩减磁盘存储空间。
作为优选的实施方式,网络流量分析应用包含的业务主要有对流的统计分析和对协议的统计分析,流量监控等,因此设计的关系数据库表包括:流量信息记录型数据表,流量统计类型数据表,流量分析类数据表;流量信息记录型数据表,直接将log文件相关字段进行对应表字段进行存储。流量统计类型数据表,即对log文件相关字段进行统计,将结果存储为关系数据库表,一般的包括:流量上下行大小,各协议流量大小,源端流量目标端流量大小,会话流量统计等。流量分析类型数据库,非直接统计计算可得出的分析结果,如网络环境中的设备分布情况、异常连接分析等。针对上层相应应用,对流量进行相关分析,分析入库周期与log归档一致,待log文件生成后即可进行分析并将结果入库。利用关系数据库,可以即时对上层应用的请求即时相应,节省大量存储空间,同时大幅提升上层应用回复请求效率,大大提升用户体验。
作为优选的实施方式,对大型网络流量环境需求的业务,对全包存储的文件或关系数据库表进行大数据存储。
所述对全包存储的文件或关系数据库表进行大数据存储,具体包括以下步骤:
将全包存储的文件迁移至大数据系统的HDFS中存储;
将关系数据库表迁移至大数据系统的HIVE中存储。
本发明实施例利用大数据技术对流量包文件和关系数据库的表,根据业务需要进行归档存储,能发挥大数据的集群计算能力,满足大型高速网络流量环境的需求。
实施例2:
本发明实施例提供一种基于大数据的多级网络流量存储系统,包括:
全包存储模块,其用于:对需要完整流量包存储的业务,将采集的流量进行全包存储;所述需要完整流量包存储的业务包括全包网络流量安全分析业务、非加密传输文件还原业务和网络安全攻击行为的事后查证业务。
结构化存储模块,其用于:对上层应用实时性业务和上层应用普通统计分析业务,对采集的流量进行解析,获取多层次网络协议包头信息,将需存储的信息存储为结构化日志文件;
关系数据库存储模块,其用于:对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表;所述关系数据库表包括流量信息记录型数据表、流量统计类型数据表、流量分析类数据表和流量信息记录型数据表。
大数据存储模块,其用于:对大型网络流量环境需求的业务,对全包存储的文件或关系数据库表进行大数据存储。
作为优选的实施方式,所述关系数据库存储模块对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表后,所述结构化存储模块即时删除结构化日志文件,以缩减存储空间。
作为优选的实施方式,所述大数据存储模块具体用于:
将全包存储的文件迁移至大数据系统的HDFS中存储;
将关系数据库表迁移至大数据系统的HIVE中存储。
本发明实施例利用大数据技术对流量包文件和关系数据库的表,根据业务需要进行归档存储,能发挥大数据的集群计算能力,满足大型高速网络流量环境的需求。
本领域的技术人员可以对本发明实施例进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。说明书中未详细描述的内容为本领域技术人员公知的现有技术。

Claims (8)

1.一种基于大数据的多级网络流量存储方法,其特征在于,包括以下步骤:
对需要完整流量包存储的业务,将采集的流量进行全包存储;
对上层应用实时性业务和上层应用普通统计分析业务,对采集的流量进行解析,获取多层次网络协议包头信息,将需存储的信息存储为结构化日志文件;再对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表;
对大型网络流量环境需求的业务,对全包存储的文件或关系数据库表进行大数据存储;
所述需要完整流量包存储的业务包括全包网络流量安全分析业务、非加密传输文件还原业务和网络安全攻击行为的事后查证业务。
2.如权利要求1所述的方法,其特征在于:对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表后,即时删除结构化日志文件。
3.如权利要求1所述的方法,其特征在于:所述关系数据库表包括流量信息记录型数据表、流量统计类型数据表、流量分析类数据表和流量信息记录型数据表。
4.如权利要求1所述的方法,其特征在于:所述对全包存储的文件或关系数据库表进行大数据存储,具体包括以下步骤:
将全包存储的文件迁移至大数据系统的分布式文件系统中存储;
将关系数据库表迁移至大数据系统的数据仓库工具HIVE中存储。
5.一种基于大数据的多级网络流量存储系统,其特征在于,包括:
全包存储模块,其用于:对需要完整流量包存储的业务,将采集的流量进行全包存储;
结构化存储模块,其用于:对上层应用实时性业务和上层应用普通统计分析业务,对采集的流量进行解析,获取多层次网络协议包头信息,将需存储的信息存储为结构化日志文件;
关系数据库存储模块,其用于:对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表;
大数据存储模块,其用于:对大型网络流量环境需求的业务,对全包存储的文件或关系数据库表进行大数据存储;
所述需要完整流量包存储的业务包括全包网络流量安全分析业务、非加密传输文件还原业务和网络安全攻击行为的事后查证业务。
6.如权利要求5所述的系统,其特征在于:所述关系数据库存储模块对结构化日志文件进行分析计算,并将分析结果存储为关系数据库表后,所述结构化存储模块即时删除结构化日志文件。
7.如权利要求5所述的系统,其特征在于:所述关系数据库表包括流量信息记录型数据表、流量统计类型数据表、流量分析类数据表和流量信息记录型数据表。
8.如权利要求5所述的系统,其特征在于:所述大数据存储模块具体用于:
将全包存储的文件迁移至大数据系统的分布式文件系统中存储;
将关系数据库表迁移至大数据系统的数据仓库工具中存储。
CN201811417282.XA 2018-11-26 2018-11-26 一种基于大数据的多级网络流量存储方法及系统 Active CN109684301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811417282.XA CN109684301B (zh) 2018-11-26 2018-11-26 一种基于大数据的多级网络流量存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811417282.XA CN109684301B (zh) 2018-11-26 2018-11-26 一种基于大数据的多级网络流量存储方法及系统

Publications (2)

Publication Number Publication Date
CN109684301A CN109684301A (zh) 2019-04-26
CN109684301B true CN109684301B (zh) 2021-04-27

Family

ID=66185851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811417282.XA Active CN109684301B (zh) 2018-11-26 2018-11-26 一种基于大数据的多级网络流量存储方法及系统

Country Status (1)

Country Link
CN (1) CN109684301B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113098924A (zh) * 2021-03-05 2021-07-09 广东电力信息科技有限公司 一种基于网络大数据流量分析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552242B1 (en) * 2013-09-25 2017-01-24 Amazon Technologies, Inc. Log-structured distributed storage using a single log sequence number space
US9800551B2 (en) * 2015-08-20 2017-10-24 Cisco Technology, Inc. AVC Bi-directional correlation using an overlay fabric header
CN106713064A (zh) * 2015-11-18 2017-05-24 青岛海日安电子有限公司 一种虚拟机流量监控方法
CN107404459B (zh) * 2016-05-19 2020-09-04 华为技术有限公司 获取网络攻击报文的指纹特征的方法以及网络设备
US10880176B2 (en) * 2016-09-09 2020-12-29 Huawei Technologies Co., Ltd. Method and apparatus for network slicing

Also Published As

Publication number Publication date
CN109684301A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
US11757740B2 (en) Aggregation of select network traffic statistics
US11681678B2 (en) Fast circular database
Kadadi et al. Challenges of data integration and interoperability in big data
US9680716B2 (en) System and method for monitoring and managing data center resources in real time incorporating manageability subsystem
US8179799B2 (en) Method for partitioning network flows based on their time information
US9535961B2 (en) Query summary generation using row-column data storage
US8601113B2 (en) Method for summarizing flow information from network devices
US9806968B2 (en) Integrated network data collection arrangement and methods thereof
CN109933505A (zh) 日志处理方法、装置、计算机设备和存储介质
US9331919B2 (en) Method for summarizing flow information of network devices
CN107634848A (zh) 一种采集分析网络设备信息的系统和方法
CN113162818A (zh) 一种分布式流量采集分析的实现方法及系统
CN103778203B (zh) 一种网络管理数据无损压缩存储与检索的方法与系统
CN109684301B (zh) 一种基于大数据的多级网络流量存储方法及系统
CN106506328A (zh) 消息的推送方法
Taherimonfared et al. Real-time handling of network monitoring data using a data-intensive framework
CN116506300A (zh) 一种网站流量数据统计方法和系统
CN109800271A (zh) 一种基于大数据的信息采集方法
Elsen et al. goProbe: a scalable distributed network monitoring solution
CN112202761B (zh) 一种叉车定位监控系统
Sharma et al. Optimizing Forensic Data Availability and Retention of SDN Forensic Logs by Using Bloom Filter
Thai Network Analysis through Edge Computing using Queries
CN117539730A (zh) 基于Flink的工业互联网安全日志处理系统及方法
CN116932536A (zh) 一种基于唯一id的逆变器数据持久化存储方法
CN117573467A (zh) 日志处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant