CN111258979A - 一种云防护日志系统及其工作方法 - Google Patents

一种云防护日志系统及其工作方法 Download PDF

Info

Publication number
CN111258979A
CN111258979A CN202010055990.4A CN202010055990A CN111258979A CN 111258979 A CN111258979 A CN 111258979A CN 202010055990 A CN202010055990 A CN 202010055990A CN 111258979 A CN111258979 A CN 111258979A
Authority
CN
China
Prior art keywords
data
log
log data
processing
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010055990.4A
Other languages
English (en)
Other versions
CN111258979B (zh
Inventor
白智全
寇晓辉
杨颖超
庞珂
郭蒙
霍克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010055990.4A priority Critical patent/CN111258979B/zh
Publication of CN111258979A publication Critical patent/CN111258979A/zh
Application granted granted Critical
Publication of CN111258979B publication Critical patent/CN111258979B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Fuzzy Systems (AREA)
  • Computing Systems (AREA)
  • Technology Law (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种云防护日志系统及其工作方法,属于信息安全应用技术领域。该系统包括日志收集、日志处理和日志存储模块。其工作流程为:分布式日志收集系统Flume收集和聚合云防护平台上的日志数据,之后将日志数据缓存到消息队列Kafka中;负责执行实时处理任务的Storm会去Kafka中处理日志数据,待日志数据处理完后,将其保存到HDFS中,而负责离线处理任务的MapReduce会在HDFS上运行数据挖掘等算法;经过实时处理和离线处理的数据报表将被存储到MySQL中。本发明采用了云计算和分布式等新型架构,与传统的本地防护系统中的日志系统相比,在面对云端海量日志数据时,具有更好的实时性,并且系统的可靠性和扩展性也有明显的性能提升。

Description

一种云防护日志系统及其工作方法
技术领域
本发明涉及一种云防护日志系统及其工作方法,属于信息安全应用技术领域。
背景技术
近年来,随着我国企业网络技术的蓬勃发展,企业用户的需求也随之日益增长。企业用户在对网络服务追求高速率和高质量的同时,网络安全也得到了越来越多的关注,而网络安全的发展总是伴随着网络技术的革新而不断发展。目前,网络攻击方式日益复杂,加之普通企业员工网络安全防范意识淡薄,这就导致企业内部网络被入侵和攻击的事件频繁发生。传统网络安全解决方案正逐渐丧失作用,面临被淘汰的局面。而随着云计算和分布式技术的成熟,各大信息安全企业以及网络安全专家都开始着手研究基于分布式云计算的云防护系统。传统本地防护系统只单纯地将防护系统部署在本地服务器或本地局域网内,此时只有当网络威胁到达本地时,防护系统才会发挥作用实施拦截。而新型云防护系统在保留本地防护系统的同时,进一步将防护系统分布式地部署在多个地区的云服务器上。云防护系统作为企业局域网的反向代理,成为实现企业局域网与外部Internet安全连接的桥梁。网络威胁在入侵企业局域网时,必须要首先经过云端的云防护系统,从而在本地云防护系统之外又增加了一层云端防护系统。这有效提高了整个防护系统的网络威胁拦截率,可以做到更加高效的将威胁拦截于企业局域网之外。
云防护日志系统作为云防护系统的业务处理核心,可以对云防护日志数据进行处理,不仅可以更好地发现威胁来源以及入侵目标,也可以更有效地帮助企业网络安全研究员分析和评估目前企业局域网的安全状况,并对当前问题做出更优的网络安全防御方案。云防护系统在提供新的网络安全解决方案的同时,也带来了新的挑战。云防护系统在拦截威胁时,将产生大量的云防护日志数据来记录当前网络安全状况。传统本地防护系统的防护日志只负责记录本公司内的网络安全状况,而云防护系统由于分布式的部署在众多地区的云服务器上,并为众多企业客户提供网络安全服务。此时,云防护系统产生的云防护日志将具有如下新特点:海量数据、高流速及高复杂性。综上所述,结合云防护系统下日志的新特点以及云防护日志数据对企业网络安全的重要意义,目前对能够支持分布式收集、高速实时处理以及海量存储的云防护日志系统的设计迫在眉睫。
J.P.Anderson等(参见J.P.Anderson,"Computer Security Threat Monitoringand Surveillance,"Technical Report,James P.Anderson Company,Fort Washington,1980)首次提出了将日志数据用于信息安全防护的思想,在网络威胁入侵时通过记录日志数据来实现威胁的溯源和预防。近年来,随着云计算和大数据技术的兴起,M.D.Holtz等(参见M.D.Holtz,B.M.David,and R.T.de Sousa Junior,"Building Scalable DistributedIntrusion Detection Systems Based on the MapReduce Framework",REVISTATelecomunicacoes,no.2,pp.22-31,2011)通过对大数据技术Hadoop的研究,构建了一套基于MapReduce框架的大规模网络威胁入侵检测系统,该方案可以通过分析海量的日志数据来防御网络威胁的再次入侵,但其无法做到实时地对网络威胁的防御。Shetty Sachin等(参见Shetty Sachin,"Auditing and Analysis of Network Traffic in CloudEnvironment."Services IEEE,2013.)实现了在云计算环境下实时地对网络流量的处理和分析。李雪等(参见李雪."基于大数据实时web防火墙日志安全审计系统的探究."网络安全技术与应用12(2014):109-110)利用Hadoop生态下的Flume和Storm等框架构建了一个基于大数据平台的实时Web防火墙日志系统,并通过实验验证了该系统的有效性和实时性。在云防护系统的基础上,以上方案都缺乏构建一个功能齐全且统一高效的云防护日志系统,同时其性能也在实时性、可靠性和扩展性方面受到了一定的限制,不能有效的提高系统的性能。
发明内容
根据现有技术和解决方案的缺点和不足,本发明提供了一种功能性齐全且实时性、可靠性和扩展性更好的云防护日志系统及其工作方法。
本发明的技术方案如下:
一种云防护日志系统及其工作方法,该系统包括日志收集模块、日志处理模块和日志存储模块,日志收集模块负责采集和聚合云防护平台下杀毒引擎集群产生的日志数据,之后将日志数据发送到日志处理模块进行实时处理;待实时处理完成后,日志处理模块将日志数据存储到日志存储模块中;此后日志处理模块对日志存储模块中的日志数据进行离线处理;日志处理模块中实时处理和离线处理产生的数据报表将存储到日志存储模块中;日志收集模块包括日志收集系统Flume和消息队列Kafka,Flume包括负责日志数据采集的Flume Agent和对采集的日志数据进行聚合的Flume Collector,Flume采集和聚合日志数据后,将日志数据发送到Kafka中缓存;日志处理模块包括分布式实时大数据处理框架Storm和分布式离线大数据处理框架MapReduce,两者分别负责对日志数据进行实时和离线处理;日志存储模块包括负责存储海量日志数据的Hadoop分布式文件系统HDFS以及负责存储和缓存数据报表的关系型数据库MySQL和非关系型数据库Redis,外部的数据访问层DAL查询MySQL中的数据报表时,将优先去Redis中查询,如缓存未命中,则直接去MySQL中查询;云防护日志系统通过日志收集模块中的Flume Agent集成到云防护平台内部进行日志数据的采集工作;数据报表存储于MySQL中,外部的DAL可以通过Redis和MySQL直接查询和展示数据报表,其工作流程为:日志收集系统Flume采集、聚合各区域云防护平台上杀毒引擎产生的日志数据,之后将日志数据缓存到消息队列Kafka中;负责执行实时处理任务的Storm会去Kafka中提取和处理日志数据;待日志数据处理完后,将其保存到HDFS中;而负责离线处理任务的MapReduce会在HDFS上运行数据挖掘算法;经过实时处理和离线处理的数据报表将被存储到MySQL中,该方法的具体步骤如下:
1)云防护平台部署在各区域的云服务器上,用户在购买云防护平台的服务后,用户内部主机与外部网络交换数据时,其数据流量将转发到云防护平台的杀毒引擎集群进行扫描,杀毒引擎集群通过生成日志数据的形式来记录当前数据流量的重要信息以及扫描结果,同时日志数据是以流式数据的形式持续地从杀毒引擎集群中产生;日志数据产生后,云防护平台将日志数据存放到指定文件目录进行保存;
2)云防护平台所在区域的云服务器上集成了Flume Agent,Flume Agent不间断地采集该区域云防护平台内的日志数据,之后Flume Agent将日志数据发送到FlumeCollector进行日志数据的聚合,Flume Collector在接收到多个Flume Agent发送的日志数据后,将聚合的日志数据发往消息队列Kafka中进行缓存;
3)消息队列Kafka采用了发布订阅模式,即Flume Collector将日志数据发布到Kafka中,Kafka对日志数据进行先进先出(FIFO)队列式缓存,日志处理模块中的Storm框架通过订阅Kafka,实现对Kafka中缓存的日志数据进行消费;
4)日志处理模块中的实时处理模块Storm框架将日志数据从Kafka中提取并传输到本地后,Storm框架将对日志数据进行实时处理,实时处理包括数据预处理和数据统计,数据预处理采用预设格式的方式对日志数据进行清洗和切分,即通过将每一条日志数据与标准日志数据模板进行对比,实现去除部分格式错误或内容残缺的日志数据,并通过日志数据中的分隔符,实现日志数据中的数据段的切分和提取;数据的各项统计结果则通过正则表达式对已提取的数据段中的具体数据信息字段进行精确匹配,之后将匹配的数据信息字段进行分组和统计;统计的数据报表将保存到日志数据存储模块的关系型数据库MySQL中;
5)Storm框架实时处理完成后,原始的海量日志数据将被持久化存储到日志存储模块的HDFS中,日志数据在HDFS中存储多个备份,同时多个备份均匀的分布在多个节点上,通过HDFS的冗余机制保障了海量日志数据的可靠性;
6)日志处理模块的离线处理模块MapReduce框架在HDFS内对海量日志数据进行离线处理,离线处理主要对日志数据执行数据挖掘算法,具体的数据挖掘算法的源代码通过MapReduce框架的客户端进行提交后,MapReduce框架内的Map任务对日志数据进行分割和映射,Reduce任务会对Map任务映射后的数据进行合并和统计;离线处理后的数据报表也将保存到日志数据存储模块的MySQL中;
7)MySQL中的数据报表需要通过前端网页进行展示,前端网页首先向后端DAL发送超文本传输协议(HTTP)请求数据包,DAL通过解析HTTP请求数据包获取需要查询的数据报表;此后,DAL将优先去缓存数据库Redis中查找是否存在该数据报表,若存在则直接将该数据报表返回;若不存在,则转向MySQL中进行查询,待查询的数据报表返回后,再将该数据报表添加到Redis中,下次访问该数据报表时,DAL将直接从Redis中读取并返回;DAL在获取前端网站查询的数据报表后,通过发送HTTP响应数据包将该数据报表发送到前端网页;最后,前端网页对数据报表进行数据展示,用户即可通过前端网页展示的信息来获取云防护日志系统对日志数据实时处理或离线处理的结果。
所述的Flume是一种分布式的海量日志采集、聚合和传输的系统。
所述的Flume Agent是一种负责日志采集的系统。
所述的Flume Collector是一种负责日志聚合的系统。
所述的Kafka是一种分布式消息队列。
所述的Storm是一种分布式实时大数据处理框架。
所述的MapReduce是一种分布式离线大数据处理框架。
所述的Hadoop是一种分布式数据和计算的框架。
所述的HDFS是一种分布式文件系统。
所述的MySQL是一种关系型数据库。
所述的Redis是一种非关系型数据库。
所述的DAL是英文Data Access Layer的缩写,意即数据访问层,其功能主要是负责数据库的访问。简单地说就是实现对数据表的查询、插入、更新、删除等操作。
本发明采用了云计算和分布式等新型架构,提出了一种云防护日志系统及其工作方法,与传统的本地防护系统中的日志系统相比,在面对云端海量日志数据时,具有更好的实时性,并且系统的可靠性和扩展性也有明显的性能提升。
附图说明
图1是本发明的云防护日志系统的示意框图。
图2是本发明系统接入的分布式云防护平台的示意框图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明,但不限于此。
实施例:
一种云防护日志系统及其工作方法,如图1-2所示,该系统包括日志收集模块、日志处理模块和日志存储模块,日志收集模块负责采集和聚合云防护平台下杀毒引擎集群产生的日志数据,之后将日志数据发送到日志处理模块进行实时处理;待实时处理完成后,日志处理模块将日志数据存储到日志存储模块中;此后日志处理模块对日志存储模块中的日志数据进行离线处理;日志处理模块中实时处理和离线处理产生的数据报表将存储到日志存储模块中;日志收集模块包括日志收集系统Flume和消息队列Kafka,Flume包括负责日志数据采集的Flume Agent和对采集的日志数据进行聚合的Flume Collector,Flume采集和聚合日志数据后,将日志数据发送到Kafka中缓存;日志处理模块包括分布式实时大数据处理框架Storm和分布式离线大数据处理框架MapReduce,两者分别负责对日志数据进行实时和离线处理;日志存储模块包括负责存储海量日志数据的Hadoop分布式文件系统HDFS以及负责存储和缓存数据报表的关系型数据库MySQL和非关系型数据库Redis,外部的数据访问层DAL查询MySQL中的数据报表时,将优先去Redis中查询,如缓存未命中,则直接去MySQL中查询;云防护日志系统通过日志收集模块中的Flume Agent集成到云防护平台内部进行日志数据的采集工作;数据报表存储于MySQL中,外部的DAL可以通过Redis和MySQL直接查询和展示数据报表,其工作流程为:日志收集系统Flume采集、聚合各区域云防护平台上杀毒引擎产生的日志数据,之后将日志数据缓存到消息队列Kafka中;负责执行实时处理任务的Storm会去Kafka中提取和处理日志数据;待日志数据处理完后,将其保存到HDFS中;而负责离线处理任务的MapReduce会在HDFS上运行数据挖掘算法;经过实时处理和离线处理的数据报表将被存储到MySQL中,该方法的具体步骤如下:
1)云防护平台部署在各区域的云服务器上,用户在购买云防护平台的服务后,用户内部主机与外部网络交换数据时,其数据流量将转发到云防护平台的杀毒引擎集群进行扫描,杀毒引擎集群通过生成日志数据的形式来记录当前数据流量的重要信息以及扫描结果,同时日志数据是以流式数据的形式持续地从杀毒引擎集群中产生;日志数据产生后,云防护平台将日志数据存放到指定文件目录进行保存;
2)云防护平台所在区域的云服务器上集成了Flume Agent,Flume Agent不间断地采集该区域云防护平台内的日志数据,之后Flume Agent将日志数据发送到FlumeCollector进行日志数据的聚合,Flume Collector在接收到多个Flume Agent发送的日志数据后,将聚合的日志数据发往消息队列Kafka中进行缓存;
3)消息队列Kafka采用了发布订阅模式,即Flume Collector将日志数据发布到Kafka中,Kafka对日志数据进行先进先出(FIFO)队列式缓存,日志处理模块中的Storm框架通过订阅Kafka,实现对Kafka中缓存的日志数据进行消费;
4)日志处理模块中的实时处理模块Storm框架将日志数据从Kafka中提取并传输到本地后,Storm框架将对日志数据进行实时处理,实时处理包括数据预处理和数据统计,数据预处理采用预设格式的方式对日志数据进行清洗和切分,即通过将每一条日志数据与标准日志数据模板进行对比,实现去除部分格式错误或内容残缺的日志数据,并通过日志数据中的分隔符,实现日志数据中的数据段的切分和提取;数据的各项统计结果则通过正则表达式对已提取的数据段中的具体数据信息字段进行精确匹配,之后将匹配的数据信息字段进行分组和统计;统计的数据报表将保存到日志数据存储模块的关系型数据库MySQL中;
5)Storm框架实时处理完成后,原始的海量日志数据将被持久化存储到日志存储模块的HDFS中,日志数据在HDFS中存储多个备份,同时多个备份均匀的分布在多个节点上,通过HDFS的冗余机制保障了海量日志数据的可靠性;
6)日志处理模块的离线处理模块MapReduce框架在HDFS内对海量日志数据进行离线处理,离线处理主要对日志数据执行数据挖掘算法,具体的数据挖掘算法的源代码通过MapReduce框架的客户端进行提交后,MapReduce框架内的Map任务对日志数据进行分割和映射,Reduce任务会对Map任务映射后的数据进行合并和统计;离线处理后的数据报表也将保存到日志数据存储模块的MySQL中;
7)MySQL中的数据报表需要通过前端网页进行展示,前端网页首先向后端DAL发送超文本传输协议(HTTP)请求数据包,DAL通过解析HTTP请求数据包获取需要查询的数据报表;此后,DAL将优先去缓存数据库Redis中查找是否存在该数据报表,若存在则直接将该数据报表返回;若不存在,则转向MySQL中进行查询,待查询的数据报表返回后,再将该数据报表添加到Redis中,下次访问该数据报表时,DAL将直接从Redis中读取并返回;DAL在获取前端网站查询的数据报表后,通过发送HTTP响应数据包将该数据报表发送到前端网页;最后,前端网页对数据报表进行数据展示,用户即可通过前端网页展示的信息来获取云防护日志系统对日志数据实时处理或离线处理的结果。

Claims (1)

1.一种云防护日志系统及其工作方法,该系统包括日志收集模块、日志处理模块和日志存储模块,日志收集模块负责采集和聚合云防护平台下杀毒引擎集群产生的日志数据,之后将日志数据发送到日志处理模块进行实时处理;待实时处理完成后,日志处理模块将日志数据存储到日志存储模块中;此后日志处理模块对日志存储模块中的日志数据进行离线处理;日志处理模块中实时处理和离线处理产生的数据报表将存储到日志存储模块中;日志收集模块包括日志收集系统Flume和消息队列Kafka,Flume包括负责日志数据采集的Flume Agent和对采集的日志数据进行聚合的Flume Collector,Flume采集和聚合日志数据后,将日志数据发送到Kafka中缓存;日志处理模块包括分布式实时大数据处理框架Storm和分布式离线大数据处理框架MapReduce,两者分别负责对日志数据进行实时和离线处理;日志存储模块包括负责存储海量日志数据的Hadoop分布式文件系统HDFS以及负责存储和缓存数据报表的关系型数据库MySQL和非关系型数据库Redis,外部的数据访问层DAL查询MySQL中的数据报表时,将优先去Redis中查询,如缓存未命中,则直接去MySQL中查询;云防护日志系统通过日志收集模块中的Flume Agent集成到云防护平台内部进行日志数据的采集工作;数据报表存储于MySQL中,外部的DAL可以通过Redis和MySQL直接查询和展示数据报表,其工作流程为:日志收集系统Flume采集、聚合各区域云防护平台上杀毒引擎产生的日志数据,之后将日志数据缓存到消息队列Kafka中;负责执行实时处理任务的Storm会去Kafka中提取和处理日志数据;待日志数据处理完后,将其保存到HDFS中;而负责离线处理任务的MapReduce会在HDFS上运行数据挖掘算法;经过实时处理和离线处理的数据报表将被存储到MySQL中,该方法的具体步骤如下:
1)云防护平台部署在各区域的云服务器上,用户在购买云防护平台的服务后,用户内部主机与外部网络交换数据时,其数据流量将转发到云防护平台的杀毒引擎集群进行扫描,杀毒引擎集群通过生成日志数据的形式来记录当前数据流量的重要信息以及扫描结果,同时日志数据是以流式数据的形式持续地从杀毒引擎集群中产生;日志数据产生后,云防护平台将日志数据存放到指定文件目录进行保存;
2)云防护平台所在区域的云服务器上集成了Flume Agent,Flume Agent不间断地采集该区域云防护平台内的日志数据,之后Flume Agent将日志数据发送到Flume Collector进行日志数据的聚合,Flume Collector在接收到多个Flume Agent发送的日志数据后,将聚合的日志数据发往消息队列Kafka中进行缓存;
3)消息队列Kafka采用了发布订阅模式,即Flume Collector将日志数据发布到Kafka中,Kafka对日志数据进行先进先出队列式缓存,日志处理模块中的Storm框架通过订阅Kafka,实现对Kafka中缓存的日志数据进行消费;
4)日志处理模块中的实时处理模块Storm框架将日志数据从Kafka中提取并传输到本地后,Storm框架将对日志数据进行实时处理,实时处理包括数据预处理和数据统计,数据预处理采用预设格式的方式对日志数据进行清洗和切分,即通过将每一条日志数据与标准日志数据模板进行对比,实现去除部分格式错误或内容残缺的日志数据,并通过日志数据中的分隔符,实现日志数据中的数据段的切分和提取;数据的各项统计结果则通过正则表达式对已提取的数据段中的具体数据信息字段进行精确匹配,之后将匹配的数据信息字段进行分组和统计;统计的数据报表将保存到日志数据存储模块的关系型数据库MySQL中;
5)Storm框架实时处理完成后,原始的海量日志数据将被持久化存储到日志存储模块的HDFS中,日志数据在HDFS中存储多个备份,同时多个备份均匀的分布在多个节点上,通过HDFS的冗余机制保障了海量日志数据的可靠性;
6)日志处理模块的离线处理模块MapReduce框架在HDFS内对海量日志数据进行离线处理,离线处理主要对日志数据执行数据挖掘算法,具体的数据挖掘算法的源代码通过MapReduce框架的客户端进行提交后,MapReduce框架内的Map任务对日志数据进行分割和映射,Reduce任务会对Map任务映射后的数据进行合并和统计;离线处理后的数据报表也将保存到日志数据存储模块的MySQL中;
7)MySQL中的数据报表需要通过前端网页进行展示,前端网页首先向后端DAL发送超文本传输协议HTTP请求数据包,DAL通过解析HTTP请求数据包获取需要查询的数据报表;此后,DAL将优先去缓存数据库Redis中查找是否存在该数据报表,若存在则直接将该数据报表返回;若不存在,则转向MySQL中进行查询,待查询的数据报表返回后,再将该数据报表添加到Redis中,下次访问该数据报表时,DAL将直接从Redis中读取并返回;DAL在获取前端网站查询的数据报表后,通过发送HTTP响应数据包将该数据报表发送到前端网页;最后,前端网页对数据报表进行数据展示,用户即可通过前端网页展示的信息来获取云防护日志系统对日志数据实时处理或离线处理的结果。
CN202010055990.4A 2020-01-16 2020-01-16 一种云防护日志系统及其工作方法 Expired - Fee Related CN111258979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010055990.4A CN111258979B (zh) 2020-01-16 2020-01-16 一种云防护日志系统及其工作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010055990.4A CN111258979B (zh) 2020-01-16 2020-01-16 一种云防护日志系统及其工作方法

Publications (2)

Publication Number Publication Date
CN111258979A true CN111258979A (zh) 2020-06-09
CN111258979B CN111258979B (zh) 2022-04-15

Family

ID=70950684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010055990.4A Expired - Fee Related CN111258979B (zh) 2020-01-16 2020-01-16 一种云防护日志系统及其工作方法

Country Status (1)

Country Link
CN (1) CN111258979B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796983A (zh) * 2020-06-23 2020-10-20 中体彩科技发展有限公司 一种体彩异常交易请求的监控系统及方法
CN112115112A (zh) * 2020-08-10 2020-12-22 上海金仕达软件科技有限公司 日志信息处理方法、装置及电子设备
CN112163060A (zh) * 2020-09-16 2021-01-01 安徽龙运智能科技有限公司 一种大数据技术处理海量gps数据系统
CN112688914A (zh) * 2020-11-30 2021-04-20 广东电网有限责任公司 一种智慧型云平台动态感知方法
CN112818006A (zh) * 2021-02-04 2021-05-18 北京易车互联信息技术有限公司 可扩展数据计算平台
CN113010483A (zh) * 2020-11-20 2021-06-22 云智慧(北京)科技有限公司 一种海量日志管理方法和系统
CN113037828A (zh) * 2021-03-03 2021-06-25 浪潮云信息技术股份公司 一种云环境下的数据采集与控制方法及系统
CN113220521A (zh) * 2021-02-04 2021-08-06 北京易车互联信息技术有限公司 实时监控系统
CN114124459A (zh) * 2021-10-25 2022-03-01 杭州安恒信息技术股份有限公司 一种集群服务器安全防护方法、装置、设备及存储介质
CN115242817A (zh) * 2022-07-21 2022-10-25 阿里巴巴(中国)有限公司 数据访问处理方法、装置、设备和存储介质
CN112818006B (zh) * 2021-02-04 2024-05-31 北京易车互联信息技术有限公司 可扩展数据计算平台

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN106709003A (zh) * 2016-12-23 2017-05-24 长沙理工大学 基于Hadoop的海量日志数据处理方法
CN107404658A (zh) * 2016-05-19 2017-11-28 中兴通讯股份有限公司 一种交互式网络电视系统及用户数据实时获取方法
CN107943802A (zh) * 2016-10-12 2018-04-20 北京京东尚科信息技术有限公司 一种日志分析方法和系统
CN109542733A (zh) * 2018-12-05 2019-03-29 焦点科技股份有限公司 一种高可靠的实时日志收集及可视化检索方法
CN109933505A (zh) * 2019-03-14 2019-06-25 深圳市珍爱捷云信息技术有限公司 日志处理方法、装置、计算机设备和存储介质
KR20190111261A (ko) * 2018-03-22 2019-10-02 주식회사 이글루시큐리티 블록체인 기술을 활용한 보안관제 시스템 및 그 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN107404658A (zh) * 2016-05-19 2017-11-28 中兴通讯股份有限公司 一种交互式网络电视系统及用户数据实时获取方法
CN107943802A (zh) * 2016-10-12 2018-04-20 北京京东尚科信息技术有限公司 一种日志分析方法和系统
CN106709003A (zh) * 2016-12-23 2017-05-24 长沙理工大学 基于Hadoop的海量日志数据处理方法
KR20190111261A (ko) * 2018-03-22 2019-10-02 주식회사 이글루시큐리티 블록체인 기술을 활용한 보안관제 시스템 및 그 방법
CN109542733A (zh) * 2018-12-05 2019-03-29 焦点科技股份有限公司 一种高可靠的实时日志收集及可视化检索方法
CN109933505A (zh) * 2019-03-14 2019-06-25 深圳市珍爱捷云信息技术有限公司 日志处理方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
隆振: "《日志平台系统应用研究》", 《电子世界》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796983A (zh) * 2020-06-23 2020-10-20 中体彩科技发展有限公司 一种体彩异常交易请求的监控系统及方法
CN111796983B (zh) * 2020-06-23 2024-06-04 中体彩科技发展有限公司 一种体彩异常交易请求的监控系统及方法
CN112115112A (zh) * 2020-08-10 2020-12-22 上海金仕达软件科技有限公司 日志信息处理方法、装置及电子设备
CN112163060A (zh) * 2020-09-16 2021-01-01 安徽龙运智能科技有限公司 一种大数据技术处理海量gps数据系统
CN113010483A (zh) * 2020-11-20 2021-06-22 云智慧(北京)科技有限公司 一种海量日志管理方法和系统
CN112688914A (zh) * 2020-11-30 2021-04-20 广东电网有限责任公司 一种智慧型云平台动态感知方法
CN112818006B (zh) * 2021-02-04 2024-05-31 北京易车互联信息技术有限公司 可扩展数据计算平台
CN112818006A (zh) * 2021-02-04 2021-05-18 北京易车互联信息技术有限公司 可扩展数据计算平台
CN113220521A (zh) * 2021-02-04 2021-08-06 北京易车互联信息技术有限公司 实时监控系统
CN113037828A (zh) * 2021-03-03 2021-06-25 浪潮云信息技术股份公司 一种云环境下的数据采集与控制方法及系统
CN114124459B (zh) * 2021-10-25 2024-04-09 杭州安恒信息技术股份有限公司 一种集群服务器安全防护方法、装置、设备及存储介质
CN114124459A (zh) * 2021-10-25 2022-03-01 杭州安恒信息技术股份有限公司 一种集群服务器安全防护方法、装置、设备及存储介质
CN115242817B (zh) * 2022-07-21 2023-10-24 阿里巴巴(中国)有限公司 数据访问处理方法、装置、设备和存储介质
CN115242817A (zh) * 2022-07-21 2022-10-25 阿里巴巴(中国)有限公司 数据访问处理方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN111258979B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN111258979B (zh) 一种云防护日志系统及其工作方法
CN108040074B (zh) 一种基于大数据的实时网络异常行为检测系统及方法
JP6490059B2 (ja) データを処理するための方法、有形機械可読記録可能記憶媒体および装置、ならびにデータ・レコードから抽出された特徴をクエリするための方法、有形機械可読記録可能記憶媒体および装置
US9942253B2 (en) Network monitoring, detection, and analysis system
CN103152352B (zh) 一种基于云计算环境的全信息安全取证监听方法和系统
CN106487596A (zh) 分布式服务跟踪实现方法
EP3282643B1 (en) Method and apparatus of estimating conversation in a distributed netflow environment
CN109299174B (zh) 一种多源情报数据聚合处理方法及装置
Karimi et al. Distributed network traffic feature extraction for a real-time IDS
CN107943802A (zh) 一种日志分析方法和系统
CN107273554A (zh) 电梯智能监控系统与方法
CN108399231A (zh) 一种数据采集方法及Flume数据采集客户端
Jaaz et al. Database techniques for resilient network monitoring and inspection
CN112749153A (zh) 一种工业网络数据管理系统
CN116257021A (zh) 一种工控系统智能网络安全态势监测预警平台
Tsvetanov Storing data from sensors networks
Feng et al. An efficient caching mechanism for network-based url filtering by multi-level counting bloom filters
Elsen et al. goProbe: a scalable distributed network monitoring solution
CN115391429A (zh) 基于大数据云计算的时序数据处理方法及装置
Tong et al. Application of frequent item set mining algorithm in IDS based on Hadoop framework
Pape et al. Restful correlation and consolidation of distributed logging data in cloud environments
Du et al. A Real-time Big Data Framework for Network Security Situation Monitoring.
Yi et al. A Network Traffic Analysis System based on Big Data
CN114157467B (zh) 分布式可切换工控蜜网诱捕方法
Zou et al. Research on Dynamic Expansion Method of Multi Source Log Index

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220415

CF01 Termination of patent right due to non-payment of annual fee