CN108959445A - 分布式日志处理方法及装置 - Google Patents

分布式日志处理方法及装置 Download PDF

Info

Publication number
CN108959445A
CN108959445A CN201810609796.9A CN201810609796A CN108959445A CN 108959445 A CN108959445 A CN 108959445A CN 201810609796 A CN201810609796 A CN 201810609796A CN 108959445 A CN108959445 A CN 108959445A
Authority
CN
China
Prior art keywords
log
data
distributed
information
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810609796.9A
Other languages
English (en)
Inventor
张梅
马文
张雪坚
张新阳
王宇平
周洁
李孟霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Yunnan Power Grid Co Ltd
Tongfang Technology of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Yunnan Power Grid Co Ltd
Tongfang Technology of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Yunnan Power Grid Co Ltd, Tongfang Technology of Yunnan Power Grid Co Ltd filed Critical Information Center of Yunnan Power Grid Co Ltd
Priority to CN201810609796.9A priority Critical patent/CN108959445A/zh
Publication of CN108959445A publication Critical patent/CN108959445A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种分布式日志处理方法及装置。该方法包括输入目标日志数据;将目标日志数据转化为统一格式数据;以及对所述统一格式数据执行预设结构化处理操作。本申请解决了分布式储日志存在多源异构的技术问题。实现了对多源异构、分布式日志源的高效、准确处理。

Description

分布式日志处理方法及装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种分布式日志处理方法及装置。
背景技术
异构数据是指不同结构的数据,数据的异构性主要体现在:计算机体系结构的异构,数据的物理存储来源于不同体系结构的计算机;操作系统的异构,数据的存储来源于不同的操作系统;数据格式的异构,数据的存储管理机制不同,可以是关系型数据库系统,如Oracle、SQL Server、DB2等,也可以是文件型二维数据,如txt、CSV、XLS等;数据存储地点的异构,数据存储在分散的物理位置上;数据存储的逻辑模型异构,数据分别在不同的业务逻辑中存储和维护,使相同意义的数据存在表现的异构,如独立的销售系统和独立的采购系统中存在部门的编码不一致等。异构数据往往不是一个层面的异构,而是在多个层面上都存在异构。此外,移动终端(如手机、PDA、iPad和手提电脑等)的广泛应用产生了大量的移动终端数据个体,包括通讯录、日历、文件等,其存储结构的逻辑或物理实现可能是异构的,进而在移动终端的数据备份以及移动终端间的数据同步方面,存在异构数据同步需求。另外,云计算大规模应用所产生的海量数据也存在实时数据复制的需求,这方面应用也涉及大量异构数据。
工程师会同时收集PC端、无线端、H5端等上的不同服务的用户行为日志,经过传输、转换、存储后形成TB甚至PB级别的数据仓库。数据仓库是所有数据分析和挖掘的基础,其数据准确性显得尤为重要。因此,这对入库过程提出了更高的要求,企业要尽量减少进程失败、网络抖动等不稳定因素带来的日志数据丢失问题。
针对日志的分布式日志处理,现有的技术方案绝大部分是在各个服务器端机器部署日志采集模块,然后通过日志传输组件(类似Flume,Scribe)将日志传输到收集端机器。由收集端机器的进程完成数据的ETL过程,然后在入库后,开发各种分析、挖掘的程序得到决策方案。
针对相关技术中分布式储日志存在多源异构的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种分布式日志处理方法及装置,以解决分布式储日志存在多源异构的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种分布式日志处理方法。
根据本申请的分布式日志处理方法包括:输入目标日志数据;将目标日志数据转化为统一格式数据;以及对所述统一格式数据执行预设结构化处理操作。
进一步地,将目标日志数据转化为统一格式数据包括:分割所述目标日志数据中的日志文件;处理所述日志文件得到统一格式的日志信息;以及使所述日志文件中的日志信息逐条序列化输出到分布式存储系统。
进一步地,对所述统一格式数据执行预设结构化处理操作包括:对所述统一格式数据执行序列化操作得到规范化数据格式;按照预设编码规则对所述规范化数据格式执行编码操作得到格式规范的结构化数据。
进一步地,对所述统一格式数据执行预设结构化处理操作之后还包括:日志实时分析,其中,所述实时分析包括:配置日志标签;以及根据日志标签将属于同一标签的日志信息进行日志分析,并基于所述标签展示分析结果。
进一步地,对所述统一格式数据执行预设结构化处理操作之后还包括:日志实时或离线分析,其中,所述日志实时或离线分析包括:利用MapReduce对所述分布式数据库中存储的日志数据进行离线分析处理;和/或,利用Storm对日志接收模块接收的实时日志数据进行实时分析。
为了实现上述目的,根据本申请的另一方面,提供了一种分布式日志处理装置。
根据本申请的分布式日志处理装置包括:采集模块,用于输入目标日志数据;集成模块,用于将目标日志数据转化为统一格式数据;以及结构化处理模块,用于对所述统一格式数据执行预设结构化处理操作。
进一步地,所述集成模块包括:分割单元,用于分割所述目标日志数据中的日志文件;处理单元,用于处理所述日志文件得到统一格式的日志信息;以及输出单元,用于使日志文件中的日志信息逐条序列化输出到分布式存储系统。
进一步地,所述结构化处理模块包括:规范化模块,用于对所述统一格式数据执行序列化操作得到规范化数据格式;编码模块,用于按照预设编码规则对所述规范化数据格式执行编码操作得到格式规范的结构化数据。
进一步地,装置还包括:日志分析模块,用于配置日志标签;以及根据日志标签将属于同一标签的日志信息进行日志分析,并基于所述标签展示分析结果。
进一步地,装置还包括:日志分析模块,用于利用MapReduce对所述分布式数据库中存储的日志数据进行离线分析处理;和/或,利用Storm对日志接收模块接收的实时日志数据进行实时分析。
在本申请实施例中,采用输入目标日志数据的方式,通过将目标日志数据转化为统一格式数据,达到了对所述统一格式数据执行预设结构化处理操作的目的,从而实现了对多源异构、分布式日志源的高效、准确处理技术效果,进而解决了分布式储日志存在多源异构的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的分布式日志处理方法示意图;
图2是根据本申请第二实施例的分布式日志处理方法示意图;
图3是根据本申请第三实施例的分布式日志处理方法示意图;
图4是根据本申请第四实施例的分布式日志处理方法示意图;
图5是根据本申请第五实施例的分布式日志处理方法示意图;
图6是根据本申请第一实施例的分布式日志处理装置示意图;
图7是根据本申请第二实施例的分布式日志处理装置示意图;以及
图8是根据本申请第三实施例的分布式日志处理装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S102至步骤S106:
步骤S102,输入目标日志数据;
输入目标日志数据主要是指通过日志采集的方式获得目标日志数据。
具体操作时,日志采集可以是工具类JAR包,将JAR包添加到业务系统的lib库中,并配置相关路径即可。日志采集能够支持在操作类文件中耦合式的添加日志行为,同时支持Spring AOP解耦式的日志采集行为。业务系统在启动时加载JAR包中的LogCollector类,并完成在日志处理系统中的注册工作。各个业务系统中的JAR包相当于日志处理系统安装在各个日志源中的日志采集Agent,JAR包中的LogController类在初始化时会向日志接收模块发送Agent注册信息,告知日志处理系统该日志源(业务系统)名称、IP等相关信息。
具体操作时,日志采集可以是支持实时和非实时两种同步方式,针对实时性要求高的日志数据,业务系统每次触发行为操作时,采集模块都会主动连接日志接收模块进行数据同步;针对实时性要求不高的日志数据,业务系统触发行为操作时,日志采集模块会先将其存储在本地端,并在后续某个时刻将该时间段本地端暂存的日志数据统一打包发送给日志采集模块。
数据采集,又称数据获取,是利用一种工具从系统外部采集数据并输入到系统内部的过程。在互联网行业快速发展的今天,数据采集领域已经发生了重要的变化,被广泛应用于互联网及分布式领域。在电力行业,数据采集就是对所关心的安全设备、应用系统等通过某种具体方式(file、syslog、http等)进行电网监控、故障分析所需日志信息的采集工作。
日志采集技术是日志分析的关键技术之一。日志采集技术需要采集各种安全设备、应用系统等日志信息,为上层的事件分析工作提供数据来源,因此日志采集过程是系统进行检测和决策的基础,它的准确性、可靠性及其效率直接影响到整个系统的性能。
在本发明的一个实施例中,分析的日志信息主要包括:系统日志、访问日志、用户行为日志三类,通过基于syslog方式的日志扫描抓取方法获取电力系统的日志信息。系统日志(syslog)协议是在加州大学伯克立软件分布研究中心(BSD)的TCP/IP系统实施中开发的,目前己成为工业标准协议,可用它记录系统及设备的日志。在UNIX/Linux系统的路由器、交换机等网络设备中,syslog记录着系统中的任何事件,管理者可以通过查看系统记录,随时掌握系统状况。UNIX/Linux的系统日志通过syslogd进程记录系统有关事件,也可以记录应用程序运作事件,通过适当配置,还可以实现运行syslog协议的机器之间的通信。通过分析这些网络行为日志,追踪和掌握与系统、设备和网络有关的情况。
在本申请的一个实施例中,基于syslog方式的日志扫描抓取方法采用应用于系统日志扫描抓取的网络爬虫系统来实时扫描并抓取系统日志,为后续的运行状态监视做准备。网络爬虫(Spider)是指遵循HTTP协议,根据其中的超链接以及Web页面文档之间的索引关系来遍历信息空间的软件程序。
步骤S104,将目标日志数据转化为统一格式数据;
将多源异构的多种类型的日志数据转换为统一格式,以便结构化处理。
将日志文件进行分割,对其进行处理得到统一格式的日志信息,使日志文件中的日志信息逐条序列化输出到分布式存储系统(HDFS/HBase)中。
具体地,通过Flume工具将日志文件进行分割,采用组合报文前后缀的方式,定制日志数据格式,使不同类别的日志信息得到统一的日志数据格式,使日志信息逐条序列化输出到分布式存储系统(HDFS/HBase)中,为下一步日志分析创造了便利。
比如,根据电力系统的实际需要,分析的日志信息主要包括:系统日志、访问日志、用户行为日志三类。系统日志用于系统运行状态监测,包括系统资源使用率、网络设备使用状况等;访问日志用于统计系统主机的交互情况,如系统访问量、访问节点信息、访问时间等;用户行为日志用于调度行为模式的挖掘分析,主要对运行人员的操作数据进行建模分析。三类日志文件通过爬虫技术抓取并利用Flume工具以批量、定时的方式发送到分布式存储系统中。Flume工具是一种分布式日志搜集、运输工具。它以Agent为基本单元,包含数据接收端、发送端、通道,是具有高扩展性和高自由度的分布式工具,不但可以搜集非结构化的文本文件,也可以搜集非结构化的视频、音频等文件。该过程首先检测是否有新的日志文件产生,如果有则将日志文件进行分割,对日志信息进行格式的统一处理,然后将处理后的日志信息逐条序列化存储到分布式系统中,便于以后的集中分析。
步骤S106,对所述统一格式数据执行预设结构化处理操作。
对所述统一格式数据执行预设结构化处理操作可以是序列化:是指将结构化的数据按一定的编码规范转成指定格式的过程。
对所述统一格式数据执行预设结构化处理操作可以是反序列化:是指将转成指定格式的数据解析成原始的结构化数据的过程。
比如,XML是一种文本格式,对人阅读比较友好,但是XML方式比较占空间,效率也不是很高。通常,比较高效的序列化都是采用二进制方式的,将要序列化的结构化数据,按一定的编码规范,转成为一串二进制的字节流存储下来,需要用的时候再从这串二进制的字节流中反序列化出对应的结构化的数据。
优选地,采用ProtoBuf对所述统一格式数据执行预设结构化处理操作。ProtoBuf全称是Protocol Buffers,它是谷歌内部用的一种高效的、可扩展的对结构化数据进行编码的格式规范。
即,ProtoBuf用来作为序列化结构化数据的程序库。
根据本申请实施例,优选地,如图2所示,将目标日志数据转化为统一格式数据包括:
步骤S202,分割所述目标日志数据中的日志文件;
步骤S204,处理所述日志文件得到统一格式的日志信息;以及
步骤S206,使所述日志文件中的日志信息逐条序列化输出到分布式存储系统。
根据本申请实施例,优选地,如图3所示,对所述统一格式数据执行预设结构化处理操作包括:
步骤S302,对所述统一格式数据执行序列化操作得到规范化数据格式;
步骤S304,按照预设编码规则对所述规范化数据格式执行编码操作得到格式规范的结构化数据。
根据本申请实施例,优选地,如图3所示,对所述统一格式数据执行预设结构化处理操作之后还包括:日志实时分析,其中,所述实时分析包括:
步骤S402,配置日志标签;以及
所述标签包括但不限于以下至少一种:错误标签、警告标签、异常标签、和信息标签。例如,在基于logj4技术所记录的日志文件中,错误标签为error,警告标签为warn、异常标签为exception、信息标签为info。
步骤S404,根据日志标签将属于同一标签的日志信息进行日志分析,并基于所述标签展示分析结果。
通过日志服务器实时收集至少一个应用所对应的日志文件中符合预设标签的日志信息,并按照所述标签将所获取的日志信息进行分配。
具体地,所述日志服务器可周期循环的从各应用的日志文件的新增部分读取符合预设的各标签的日志信息,再按照各所述标签将所获取的所有日志信息分配给相应的分析软件。
优选地,利用Flume技术,所述应用服务器中的每个日志线程配置有一个或几个标签,各日志线程从各应用的日志文件中读取与所配置的标签相符的日志信息,并传至所述日志服务器。再由所述日志服务器根据预设标签将所获取的日志信息分配给基于所述标签分类的分布式文件服务器。
优选地,将属于同一标签的日志信息进行日志分析,并基于所述标签展示分析结果。具体地,所述分布式文件服务器基于预设时间段和/或所获取的日志信息所对应的应用,将属于同一标签的各日志信息进行日志分析,得到日志分析结果;所述日志分析结果包括以下至少一种:相应标签所对应的各日志信息的产生原因及其数量统计、相应标签所对应的各日志信息的正常类型和异常类型。其中,所述预设时间段举例为:最近1秒内、最近1分钟内、最近2小时内、从A1时间至A2时间内等等。
所述分布式文件服务器在预设的时间段内将某个应用/多个应用的日志信息按照预设的关键字、和/或文本格式进行归类,以得到分析结果。进一步的还可以按照关键字在文本格式中的位置进行统计,丰富所述分析结果。其中,所述文本格式是日志信息中预先按照应用名称、日志产生原因、日志内容进行划分的。
根据本申请实施例,优选地,如图3所示,对所述统一格式数据执行预设结构化处理操作之后还包括:日志实时或离线分析,其中,所述日志实时或离线分析包括:利用MapReduce对所述分布式数据库中存储的日志数据进行离线分析处理;和/或,利用Storm对日志接收模块接收的实时日志数据进行实时分析。
本领域技术人员能够明了,还可以通过其他任意方式进行日志实施或离线分析处理。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,采用输入目标日志数据的方式,通过将目标日志数据转化为统一格式数据,达到了对所述统一格式数据执行预设结构化处理操作的目的,从而实现了对多源异构、分布式日志源的高效、准确处理技术效果,进而解决了分布式储日志存在多源异构的技术问题。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述分布式日志处理方法的装置,如图6所示,该装置包括:采集模块10,用于输入目标日志数据;集成模块20,用于将目标日志数据转化为统一格式数据;以及结构化处理模块30,用于对所述统一格式数据执行预设结构化处理操作。
优选地,本申请中的装置用于将多源异构的多种类型的日志数据转换为统一格式,以便结构化处理。并将统一格式的日志数据规范化形式表示的结构化数据。最后,用于对结构化的日志数据进行实时或离线分析。
优选地,日志数据规范化形式表示可以采用三元组规范形式。
本申请实施例的采集模块10中输入目标日志数据主要是指通过日志采集的方式获得目标日志数据。
具体操作时,日志采集可以是工具类JAR包,将JAR包添加到业务系统的lib库中,并配置相关路径即可。日志采集能够支持在操作类文件中耦合式的添加日志行为,同时支持Spring AOP解耦式的日志采集行为。业务系统在启动时加载JAR包中的LogCollector类,并完成在日志处理系统中的注册工作。各个业务系统中的JAR包相当于日志处理系统安装在各个日志源中的日志采集Agent,JAR包中的LogController类在初始化时会向日志接收模块发送Agent注册信息,告知日志处理系统该日志源(业务系统)名称、IP等相关信息。
具体操作时,日志采集可以是支持实时和非实时两种同步方式,针对实时性要求高的日志数据,业务系统每次触发行为操作时,采集模块都会主动连接日志接收模块进行数据同步;针对实时性要求不高的日志数据,业务系统触发行为操作时,日志采集模块会先将其存储在本地端,并在后续某个时刻将该时间段本地端暂存的日志数据统一打包发送给日志采集模块。
数据采集,又称数据获取,是利用一种工具从系统外部采集数据并输入到系统内部的过程。在互联网行业快速发展的今天,数据采集领域已经发生了重要的变化,被广泛应用于互联网及分布式领域。在电力行业,数据采集就是对所关心的安全设备、应用系统等通过某种具体方式(file、syslog、http等)进行电网监控、故障分析所需日志信息的采集工作。
日志采集技术是日志分析的关键技术之一。日志采集技术需要采集各种安全设备、应用系统等日志信息,为上层的事件分析工作提供数据来源,因此日志采集过程是系统进行检测和决策的基础,它的准确性、可靠性及其效率直接影响到整个系统的性能。
在本发明的一个实施例中,分析的日志信息主要包括:系统日志、访问日志、用户行为日志三类,通过基于syslog方式的日志扫描抓取方法获取电力系统的日志信息。系统日志(syslog)协议是在加州大学伯克立软件分布研究中心(BSD)的TCP/IP系统实施中开发的,目前己成为工业标准协议,可用它记录系统及设备的日志。在UNIX/Linux系统的路由器、交换机等网络设备中,syslog记录着系统中的任何事件,管理者可以通过查看系统记录,随时掌握系统状况。UNIX/Linux的系统日志通过syslogd进程记录系统有关事件,也可以记录应用程序运作事件,通过适当配置,还可以实现运行syslog协议的机器之间的通信。通过分析这些网络行为日志,追踪和掌握与系统、设备和网络有关的情况。
在本申请的一个实施例中,基于syslog方式的日志扫描抓取方法采用应用于系统日志扫描抓取的网络爬虫系统来实时扫描并抓取系统日志,为后续的运行状态监视做准备。网络爬虫(Spider)是指遵循HTTP协议,根据其中的超链接以及Web页面文档之间的索引关系来遍历信息空间的软件程序。
本申请实施例的集成模块20中具体地,通过Flume工具将日志文件进行分割,采用组合报文前后缀的方式,定制日志数据格式,使不同类别的日志信息得到统一的日志数据格式,使日志信息逐条序列化输出到分布式存储系统(HDFS/HBase)中,为下一步日志分析创造了便利。
比如,根据电力系统的实际需要,分析的日志信息主要包括:系统日志、访问日志、用户行为日志三类。系统日志用于系统运行状态监测,包括系统资源使用率、网络设备使用状况等;访问日志用于统计系统主机的交互情况,如系统访问量、访问节点信息、访问时间等;用户行为日志用于调度行为模式的挖掘分析,主要对运行人员的操作数据进行建模分析。三类日志文件通过爬虫技术抓取并利用Flume工具以批量、定时的方式发送到分布式存储系统中。Flume工具是一种分布式日志搜集、运输工具。它以Agent为基本单元,包含数据接收端、发送端、通道,是具有高扩展性和高自由度的分布式工具,不但可以搜集非结构化的文本文件,也可以搜集非结构化的视频、音频等文件。该过程首先检测是否有新的日志文件产生,如果有则将日志文件进行分割,对日志信息进行格式的统一处理,然后将处理后的日志信息逐条序列化存储到分布式系统中,便于以后的集中分析。
本申请实施例的结构化处理模块30中对所述统一格式数据执行预设结构化处理操作可以是序列化:是指将结构化的数据按一定的编码规范转成指定格式的过程。
对所述统一格式数据执行预设结构化处理操作可以是反序列化:是指将转成指定格式的数据解析成原始的结构化数据的过程。
比如,XML是一种文本格式,对人阅读比较友好,但是XML方式比较占空间,效率也不是很高。通常,比较高效的序列化都是采用二进制方式的,将要序列化的结构化数据,按一定的编码规范,转成为一串二进制的字节流存储下来,需要用的时候再从这串二进制的字节流中反序列化出对应的结构化的数据。
优选地,采用ProtoBuf对所述统一格式数据执行预设结构化处理操作。ProtoBuf全称是Protocol Buffers,它是谷歌内部用的一种高效的、可扩展的对结构化数据进行编码的格式规范。
即,ProtoBuf用来作为序列化结构化数据的程序库。
在本申请实施例中,采集模块采用输入目标日志数据的方式,集成模块通过将目标日志数据转化为统一格式数据,结构化处理模块达到了对所述统一格式数据执行预设结构化处理操作的目的,从而实现了对多源异构、分布式日志源的高效、准确处理技术效果,进而解决了分布式储日志存在多源异构的技术问题。
根据本申请实施例,优选地,如图7所示,所述集成模块20包括:分割单元201,用于分割所述目标日志数据中的日志文件;处理单元202,用于处理所述日志文件得到统一格式的日志信息;以及输出单元203,用于使日志文件中的日志信息逐条序列化输出到分布式存储系统。
根据本申请实施例,优选地,如图8所示,所述结构化处理模块30包括:规范化模块301,用于对所述统一格式数据执行序列化操作得到规范化数据格式;编码模块302,用于按照预设编码规则对所述规范化数据格式执行编码操作得到格式规范的结构化数据。
根据本申请实施例,优选地,装置还包括:日志分析模块,用于配置日志标签;以及
根据日志标签将属于同一标签的日志信息进行日志分析,并基于所述标签展示分析结果。
根据本申请实施例,优选地,还包括:日志分析模块,用于利用MapReduce对所述分布式数据库中存储的日志数据进行离线分析处理;
和/或,利用Storm对日志接收模块接收的实时日志数据进行实时分析。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种分布式日志处理方法,其特征在于,包括:
输入目标日志数据;
将目标日志数据转化为统一格式数据;以及
对所述统一格式数据执行预设结构化处理操作。
2.根据权利要求1所述的分布式日志处理方法,其特征在于,将目标日志数据转化为统一格式数据包括:
分割所述目标日志数据中的日志文件;
处理所述日志文件得到统一格式的日志信息;以及
使所述日志文件中的日志信息逐条序列化输出到分布式存储系统。
3.根据权利要求1所述的分布式日志处理方法,其特征在于,对所述统一格式数据执行预设结构化处理操作包括:
对所述统一格式数据执行序列化操作得到规范化数据格式;
按照预设编码规则对所述规范化数据格式执行编码操作得到格式规范的结构化数据。
4.根据权利要求1所述的分布式日志处理方法,其特征在于,对所述统一格式数据执行预设结构化处理操作之后还包括:日志实时分析,其中,所述实时分析包括:
配置日志标签;以及
根据日志标签将属于同一标签的日志信息进行日志分析,并基于所述标签展示分析结果。
5.根据权利要求1所述的分布式日志处理方法,其特征在于,对所述统一格式数据执行预设结构化处理操作之后还包括:日志实时或离线分析,其中,所述日志实时或离线分析包括:
利用MapReduce对所述分布式数据库中存储的日志数据进行离线分析处理;
和/或,利用Storm对日志接收模块接收的实时日志数据进行实时分析。
6.一种分布式日志处理装置,其特征在于,包括:
采集模块,用于输入目标日志数据;
集成模块,用于将目标日志数据转化为统一格式数据;以及
结构化处理模块,用于对所述统一格式数据执行预设结构化处理操作。
7.根据权利要求6所述的分布式日志处理装置,其特征在于,所述集成模块包括:
分割单元,用于分割所述目标日志数据中的日志文件;
处理单元,用于处理所述日志文件得到统一格式的日志信息;以及
输出单元,用于使日志文件中的日志信息逐条序列化输出到分布式存储系统。
8.根据权利要求6所述的分布式日志处理装置,其特征在于,所述结构化处理模块包括:
规范化模块,用于对所述统一格式数据执行序列化操作得到规范化数据格式;
编码模块,用于按照预设编码规则对所述规范化数据格式执行编码操作得到格式规范的结构化数据。
9.根据权利要求6所述的分布式日志处理装置,其特征在于,还包括:日志分析模块,用于配置日志标签;以及
根据日志标签将属于同一标签的日志信息进行日志分析,并基于所述标签展示分析结果。
10.根据权利要求6所述的分布式日志处理装置,其特征在于,还包括:日志分析模块,用于
利用MapReduce对所述分布式数据库中存储的日志数据进行离线分析处理;
和/或,利用Storm对日志接收模块接收的实时日志数据进行实时分析。
CN201810609796.9A 2018-06-13 2018-06-13 分布式日志处理方法及装置 Pending CN108959445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810609796.9A CN108959445A (zh) 2018-06-13 2018-06-13 分布式日志处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810609796.9A CN108959445A (zh) 2018-06-13 2018-06-13 分布式日志处理方法及装置

Publications (1)

Publication Number Publication Date
CN108959445A true CN108959445A (zh) 2018-12-07

Family

ID=64488501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810609796.9A Pending CN108959445A (zh) 2018-06-13 2018-06-13 分布式日志处理方法及装置

Country Status (1)

Country Link
CN (1) CN108959445A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685399A (zh) * 2019-02-19 2019-04-26 贵州电网有限责任公司 电力系统日志整合分析方法及系统
CN109768623A (zh) * 2019-02-02 2019-05-17 鼎信信息科技有限责任公司 电力系统的监控方法、装置、计算机设备和存储介质
CN110659270A (zh) * 2019-08-19 2020-01-07 苏宁金融科技(南京)有限公司 一种数据处理及传输方法和装置
CN110851396A (zh) * 2019-11-07 2020-02-28 北京集奥聚合科技有限公司 一种基于建模平台微服务架构统一日志设计方法
CN111552619A (zh) * 2020-04-29 2020-08-18 深圳市道旅旅游科技股份有限公司 日志数据展示方法、装置、计算机设备及存储介质
CN112184080A (zh) * 2020-11-02 2021-01-05 中国运载火箭技术研究院 航天产品数据管理系统
CN112506886A (zh) * 2021-02-05 2021-03-16 北京通付盾人工智能技术有限公司 一种多源业务操作日志采集方法及系统
CN112948211A (zh) * 2021-02-26 2021-06-11 杭州安恒信息技术股份有限公司 一种基于日志处理的告警方法、装置、设备及介质
CN114756902A (zh) * 2022-04-11 2022-07-15 敏于行(北京)科技有限公司 高效可信结构化数据库的安全审计方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103166785A (zh) * 2011-12-15 2013-06-19 同程网络科技股份有限公司 基于Hadoop的分布式日志分析系统
CN103324563A (zh) * 2012-03-19 2013-09-25 宇龙计算机通信科技(深圳)有限公司 查看通信终端的终端事件的方法及其通信终端
CN104616205A (zh) * 2014-11-24 2015-05-13 北京科东电力控制系统有限责任公司 一种基于分布式日志分析的电力系统运行状态监视方法
CN104933114A (zh) * 2015-06-08 2015-09-23 山东蚁巡网络科技有限公司 一种海量日志管理云平台
EP2927819A1 (de) * 2014-04-04 2015-10-07 Siemens Aktiengesellschaft Verfahren zur automatischen Verarbeitung einer Anzahl von Protokolldateien eines Automatisierungssystems
CN104978438A (zh) * 2015-07-23 2015-10-14 上海斐讯数据通信技术有限公司 基于日志的实时分析方法及系统
CN107660283A (zh) * 2015-04-03 2018-02-02 甲骨文国际公司 用于在日志分析系统中实现日志解析器的方法和系统
CN108011745A (zh) * 2017-09-30 2018-05-08 北京车和家信息技术有限公司 数据的传输方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103166785A (zh) * 2011-12-15 2013-06-19 同程网络科技股份有限公司 基于Hadoop的分布式日志分析系统
CN103324563A (zh) * 2012-03-19 2013-09-25 宇龙计算机通信科技(深圳)有限公司 查看通信终端的终端事件的方法及其通信终端
EP2927819A1 (de) * 2014-04-04 2015-10-07 Siemens Aktiengesellschaft Verfahren zur automatischen Verarbeitung einer Anzahl von Protokolldateien eines Automatisierungssystems
CN104616205A (zh) * 2014-11-24 2015-05-13 北京科东电力控制系统有限责任公司 一种基于分布式日志分析的电力系统运行状态监视方法
CN107660283A (zh) * 2015-04-03 2018-02-02 甲骨文国际公司 用于在日志分析系统中实现日志解析器的方法和系统
CN104933114A (zh) * 2015-06-08 2015-09-23 山东蚁巡网络科技有限公司 一种海量日志管理云平台
CN104978438A (zh) * 2015-07-23 2015-10-14 上海斐讯数据通信技术有限公司 基于日志的实时分析方法及系统
CN108011745A (zh) * 2017-09-30 2018-05-08 北京车和家信息技术有限公司 数据的传输方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109768623A (zh) * 2019-02-02 2019-05-17 鼎信信息科技有限责任公司 电力系统的监控方法、装置、计算机设备和存储介质
CN109685399A (zh) * 2019-02-19 2019-04-26 贵州电网有限责任公司 电力系统日志整合分析方法及系统
CN110659270A (zh) * 2019-08-19 2020-01-07 苏宁金融科技(南京)有限公司 一种数据处理及传输方法和装置
CN110851396A (zh) * 2019-11-07 2020-02-28 北京集奥聚合科技有限公司 一种基于建模平台微服务架构统一日志设计方法
CN111552619A (zh) * 2020-04-29 2020-08-18 深圳市道旅旅游科技股份有限公司 日志数据展示方法、装置、计算机设备及存储介质
CN111552619B (zh) * 2020-04-29 2021-05-25 深圳市道旅旅游科技股份有限公司 日志数据展示方法、装置、计算机设备及存储介质
CN112184080A (zh) * 2020-11-02 2021-01-05 中国运载火箭技术研究院 航天产品数据管理系统
CN112506886A (zh) * 2021-02-05 2021-03-16 北京通付盾人工智能技术有限公司 一种多源业务操作日志采集方法及系统
CN112948211A (zh) * 2021-02-26 2021-06-11 杭州安恒信息技术股份有限公司 一种基于日志处理的告警方法、装置、设备及介质
CN114756902A (zh) * 2022-04-11 2022-07-15 敏于行(北京)科技有限公司 高效可信结构化数据库的安全审计方法及装置

Similar Documents

Publication Publication Date Title
CN108959445A (zh) 分布式日志处理方法及装置
CN109245931B (zh) 基于kubernetes的容器云平台的日志管理和监控报警的实现方法
CN105677842A (zh) 基于Hadoop大数据处理技术的日志分析系统
CN112600891B (zh) 一种基于信息物理融合的边云协同系统及工作方法
CN106778253A (zh) 基于大数据的威胁情景感知信息安全主动防御模型
EP3436984A1 (en) Managed function execution for processing data streams in real time
CN105207826A (zh) 一种基于Tachyou的Spark大数据平台的安全攻击告警定位系统
CN104616205A (zh) 一种基于分布式日志分析的电力系统运行状态监视方法
CN111259073A (zh) 基于日志、流量和业务访问的业务系统运行状态智能研判系统
CN107104951B (zh) 网络攻击源的检测方法和装置
CN101854652A (zh) 一种电信网络业务性能监控系统
CN111885439B (zh) 一种光网络综合管理和值勤管理系统
Sanjappa et al. Analysis of logs by using logstash
CN106210124A (zh) 一种统一的云数据中心监控系统
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
CN113179173A (zh) 一种用于高速公路系统的运维监控系统
CN113067717A (zh) 网络请求日志链式跟踪方法、全链路调用监控系统和介质
US9922539B1 (en) System and method of telecommunication network infrastructure alarms queuing and multi-threading
CN111125450A (zh) 一种多层拓扑网络资源对象的管理方法
Wu et al. An Auxiliary Decision‐Making System for Electric Power Intelligent Customer Service Based on Hadoop
Zhang et al. Efficient online surveillance video processing based on spark framework
CN102783087B (zh) 基于管理分层的关联告警的方法和装置
CN113378219B (zh) 一种非结构化数据的处理方法和系统
Chen et al. Big data storage architecture design in cloud computing
Usman et al. Resource monitoring and visualization for OF@ TEIN SDN-enabled multi-site cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207

RJ01 Rejection of invention patent application after publication