CN114218053A - 一种基于大数据的日志统一采集装置 - Google Patents

一种基于大数据的日志统一采集装置 Download PDF

Info

Publication number
CN114218053A
CN114218053A CN202111372994.6A CN202111372994A CN114218053A CN 114218053 A CN114218053 A CN 114218053A CN 202111372994 A CN202111372994 A CN 202111372994A CN 114218053 A CN114218053 A CN 114218053A
Authority
CN
China
Prior art keywords
data
log
module
big data
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111372994.6A
Other languages
English (en)
Inventor
张宇
杨莉莉
隆文喜
韩珺
马国雷
李楠芳
袁学斌
李宗容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Qinghai Electric Power Co Ltd
Electric Power Research Institute of State Grid Qinghai Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Qinghai Electric Power Co Ltd
Electric Power Research Institute of State Grid Qinghai Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Qinghai Electric Power Co Ltd, Electric Power Research Institute of State Grid Qinghai Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202111372994.6A priority Critical patent/CN114218053A/zh
Publication of CN114218053A publication Critical patent/CN114218053A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于大数据的日志统一采集装置,属于数据采集领域。包括远程数据采集模块、依赖策略配置模块、数据预处理模块,远程数据采集模块、依赖策略配置模块、数据预处理模块之间形成相互数据交互,通过对数据的采集分选,并通过大数据展示模块进行展示,通过该装置针对性地对日志进行采集,提高采集效率,减轻各日志平台存储压力,同时通过策略配置,来提高各模块策略的实时更新能力,依赖策略配置功能实现采集模型的共享和即插即用,数据预处理功能实现数据标准化的实时预处理和实时存储。

Description

一种基于大数据的日志统一采集装置
技术领域
本发明提供一种基于大数据的日志统一采集装置,属于数据采集领域。
背景技术
传统大数据系统例如Hadoop的Chukwa,Apache的Flume等。以Flume为例,Flume是一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据,同时,Flume提供对数据进行简单处理,并写到各种数据接收方(如文本、HDFS、HBase等)的能力。
Flume的核心是把数据从数据源(Source)收集过来,再将收集到的数据送到指定的目的地(Smk)。
flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agent外部的Source生成,当Source捕获事件后会进行特定的格式化,然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区,它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。
现有的采集手段采集性能及可扩展性较差,数据处理方式简单且无法热更新处理策略,实时性差,无法根据用户自身需要,来决定是否全量采集日志,比较浪费存储空间。
发明内容
本发明提出一种基于大数据的日志统一采集装置提供了一种实现对海量的安全设备,网络设备,数据库和中间件等的漏洞,配置,安全事件,网络故障等日志信息的远程实时采集和实时标准化,可以减轻集中采集、集中存储的压力的数据采集装置。
本发明提出一种基于大数据的日志统一采集装置是这样实现的,本发明提出一种基于大数据的日志统一采集装置,包括远程数据采集模块、依赖策略配置模块、数据预处理模块,远程数据采集模块、依赖策略配置模块、数据预处理模块之间形成相互数据交互,通过对数据的采集分选,并通过大数据展示模块进行展示;
所述依赖策略配置模块:该模块以正则表达式为主要日志策略定义方式,以json形式作为配置内容的载体以便进行存储和传输。
所述远程数据采集模块:将一台主机和其产生的日志称为数据源,大量的数据源通过特定的日志收集器(一个轻量级日志分析和传输模块,功能是传输策略定义好的日志种类)将日志过滤后,放入本地的IPFS节点(一个P2P分布式存储)后返回唯一HASH值,减少日志传输内容的大小。
所述数据预处理模块:通过日志过滤器,编解码器进行数据处理,最后将处理后的数据存入IPFS中,并通过上报HASH,将日志在日志统一收集服务中完成日志落地,留待数据展示平台调用。
所述大数据展示模块:内置大数据展示平台服务,需要单独设立一个模块,对外提供用以同步依赖策略配置模块的配置。
所述远程数据采集模块、数据预处理模块、大数据展示平台,通过定期的http通讯同步依赖策略配置模块的配置,如有更新则实时热刷新自身配置。
有益效果:
一、通过该装置针对性地对日志进行采集,提高采集效率,减轻各日志平台存储压力,同时
通过策略配置,来提高各模块策略的实时更新能力;
二、数据采集功能实现各种不同协议代理,应用代理模块,实时消息交换中心之间的松耦合;三、依赖策略配置功能实现采集模型的共享和即插即用,数据预处理功能实现数据标准化的
实时预处理和实时存储。
附图说明
图1为本发明一种基于大数据的日志统一采集装置的现有的数据采集流程图。
图2为本发明一种基于大数据的日志统一采集装置的系统框架图。
图3为本发明一种基于大数据的日志统一采集装置的流程图。
具体实施方式
下面结合附图对本发明进一步说明。
根据图2-3所示:本发明提出一种基于大数据的日志统一采集装置是这样实现的,本发明提出一种基于大数据的日志统一采集装置,包括远程数据采集模块、依赖策略配置模块、数据预处理模块,远程数据采集模块、依赖策略配置模块、数据预处理模块之间形成相互数据交互,通过对数据的采集分选,并通过大数据展示模块进行展示;
所述依赖策略配置模块:该模块以正则表达式为主要日志策略定义方式,以json形式作为配置内容的载体以便进行存储和传输;
所述远程数据采集模块:将一台主机和其产生的日志称为数据源,大量的数据源通过特定的日志收集器(一个轻量级日志分析和传输模块,功能是传输策略定义好的日志种类)将日志过滤后,放入本地的IPFS节点(一个P2P分布式存储)后返回唯一HASH值,减少日志传输内容的大小;
所述数据预处理模块:通过日志过滤器,编解码器进行数据处理,最后将处理后的数据存入IPFS中,并通过上报HASH,将日志在日志统一收集服务中完成日志落地,留待数据展示平台调用;
所述大数据展示模块:内置大数据展示平台服务,需要单独设立一个模块,对外提供用以同步依赖策略配置模块的配置;
所述远程数据采集模块、数据预处理模块、大数据展示平台,通过定期的http通讯同步依赖策略配置模块的配置,如有更新则实时热刷新自身配置。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (6)

1.一种基于大数据的日志统一采集装置,其特征在于:包括远程数据采集模块、依赖策略配置模块、数据预处理模块,远程数据采集模块、依赖策略配置模块、数据预处理模块之间形成相互数据交互,通过对数据的采集分选,并通过大数据展示模块进行展示。
2.根据权利要求1所述的一种基于大数据的日志统一采集装置,其特征在于:所述依赖策略配置模块:该模块以正则表达式为主要日志策略定义方式,以json形式作为配置内容的载体以便进行存储和传输。
3.根据权利要求1所述的一种基于大数据的日志统一采集装置,其特征在于:所述远程数据采集模块:将一台主机和其产生的日志称为数据源,大量的数据源通过特定的日志收集器(一个轻量级日志分析和传输模块,功能是传输策略定义好的日志种类)将日志过滤后,放入本地的IPFS节点(一个P2P分布式存储)后返回唯一HASH值,减少日志传输内容的大小。
4.根据权利要求1所述的一种基于大数据的日志统一采集装置,其特征在于:所述数据预处理模块:通过日志过滤器,编解码器进行数据处理,最后将处理后的数据存入IPFS中,并通过上报HASH,将日志在日志统一收集服务中完成日志落地,留待数据展示平台调用。
5.根据权利要求1所述的一种基于大数据的日志统一采集装置,其特征在于:所述大数据展示模块:内置大数据展示平台服务,需要单独设立一个模块,对外提供用以同步依赖策略配置模块的配置。
6.根据权利要求1所述的一种基于大数据的日志统一采集装置,其特征在于:所述远程数据采集模块、数据预处理模块、大数据展示平台,通过定期的http通讯同步依赖策略配置模块的配置,如有更新则实时热刷新自身配置。
CN202111372994.6A 2021-11-19 2021-11-19 一种基于大数据的日志统一采集装置 Pending CN114218053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111372994.6A CN114218053A (zh) 2021-11-19 2021-11-19 一种基于大数据的日志统一采集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111372994.6A CN114218053A (zh) 2021-11-19 2021-11-19 一种基于大数据的日志统一采集装置

Publications (1)

Publication Number Publication Date
CN114218053A true CN114218053A (zh) 2022-03-22

Family

ID=80697537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111372994.6A Pending CN114218053A (zh) 2021-11-19 2021-11-19 一种基于大数据的日志统一采集装置

Country Status (1)

Country Link
CN (1) CN114218053A (zh)

Similar Documents

Publication Publication Date Title
CN111787066B (zh) 一种基于大数据与ai的物联网数据平台
CN109492040B (zh) 一种适用于数据中心海量短报文数据处理的系统
CN107818120A (zh) 基于大数据的数据处理方法和装置
CN103095819A (zh) 推送数据信息的方法及数据信息推送系统
CN106815338A (zh) 一种大数据的实时存储、处理和查询系统
CN106709003A (zh) 基于Hadoop的海量日志数据处理方法
CN111737329A (zh) 一种轨道交通统一数据采集平台
CN106850258A (zh) 一种日志管理系统、方法及装置
CN106991177B (zh) 一种分布式环境下实时日志的无损采集方法及其系统
CN103207920A (zh) 一种元数据并行采集系统
CN102480489A (zh) 一种用于分布式环境下的日志记录方法和设备
KR102345082B1 (ko) 클라우드 기반 iec61850 정보 처리 방법
CN117194156A (zh) 一种多云平台的统一监控运维管理方法及系统
CN101976210B (zh) 基于消息中间件的井场数据远程传输系统
CN116737523B (zh) 一种基于边缘计算的可观测性数据采集方法
CN112417050A (zh) 数据同步方法和装置、系统、存储介质及电子装置
CN110674221B (zh) 一种空间数据同步方法、终端及计算机可读存储介质
CN107341249A (zh) 服务器信息的存储和提取方法及系统、提取装置
CN111049898A (zh) 一种实现计算集群资源跨域架构的方法及系统
CN114218053A (zh) 一种基于大数据的日志统一采集装置
CN109525422A (zh) 一种日志数据监控管理方法
CN115391429A (zh) 基于大数据云计算的时序数据处理方法及装置
KR20190078745A (ko) 에너지 IoT TOC 플랫폼 분산처리 시스템
CN115374101A (zh) 轨道交通站段级数据管理系统
CN102761570A (zh) 基于代理的网格资源监控系统及监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination