CN111625416A - 一种基于云os的日志回收及故障警报系统 - Google Patents

一种基于云os的日志回收及故障警报系统 Download PDF

Info

Publication number
CN111625416A
CN111625416A CN202010385968.6A CN202010385968A CN111625416A CN 111625416 A CN111625416 A CN 111625416A CN 202010385968 A CN202010385968 A CN 202010385968A CN 111625416 A CN111625416 A CN 111625416A
Authority
CN
China
Prior art keywords
module
log
recovery
data
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010385968.6A
Other languages
English (en)
Other versions
CN111625416B (zh
Inventor
刘金卓
杨燕
赵娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN202010385968.6A priority Critical patent/CN111625416B/zh
Publication of CN111625416A publication Critical patent/CN111625416A/zh
Application granted granted Critical
Publication of CN111625416B publication Critical patent/CN111625416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs

Abstract

本发明公开了一种基于云os的日志回收及故障警报系统,包括:日志回收模块、持久化存储模块、监控部署模块、广播中心模块、可视化模块和中间件模块;所述日志回收模块用于负责从被检测服务器中回收运行过程中产生的日志数据;持久化存储模块用于负责持久化保存来自日志回收模块的数据,并建立快速索引;监控部署模块用于建立一个文件服务器;广播中心模块用于负责获得实时的日志数据,并广播给各个频道的订阅者;可视化模块用于展示实时的日志信息;中间件模块用于支持广播中心的外围运转;本发明有效的兼顾了不同平台的通用性,使不同平台均可以便捷使用本发明的系统;并给了系统一个实时消息获取通道,使系统可以实时对数据进行查看和检测。

Description

一种基于云os的日志回收及故障警报系统
技术领域
本发明涉及软件工程领域,尤其是一种基于云os的日志回收及故障警报系统。
背景技术
进入21世纪以来,信息技术的快速发展,为人们的生活和工作带来了巨大便利。尤其是近些年来随着云计算和大数据技术的普及,各大企业,各地政府研究机构都在建立属于自己的云计算中心。这些计算中心拥有着海量的服务器并运行着不同的计算任务,但是随着的数据量的一步步增大和运算任务的逐渐繁重,计算中心不得不随着硬件的发展对设备进行更新换代。而淘汰下的服务器往往并不会被取消使用,而是运行一些轻量的任务在计算中心继续工作,因此各大计算中心都面临着不同配置不同品牌的服务器共同运作的窘况。
日志作为计算中心的重要资源,对海量日志数据的分析和挖掘也已经成为云计算厂商和计算中心的重要任务,因此,能提供一种兼顾通用性和多样化的分析手段的日志分析系统成为了云计算行业的迫切需求。
现在许多新兴企业,一些传统的IT公司,都已经在发展一套自己的内部日志处理系统。例如:HP OpsAnalytics,IBM Tivoli,Amazon CloudWatch这些系统极大的减少了系统管理员的工作,但是仍然无法提供一个通用的、端到端的、综合的解决方案。
一方面新兴日志分析企业提供的分析管理软件是有效的,但是他们的分析和预测模块基本属于缺失状态,例如Splunk是一个从机器到操作系统都可以进行日志收集的系统,它具有优越的日式回收能力,可以灵活的伸缩并拥有高性能,从而可以获得大量的日式数据并提供快速的索引功能。然而它只提供了简单的分析工具控制面板和基本的关键词搜索,不具备实时的检测能力,无法对数据提供深入的挖掘能力。另一方面传统IT公司的日志分析系统,是高度定制化的,而且其高度依赖于公司内部的高级分析系统。例如HPOpsAnalytics,它可以快速的收集系统的信息,并提供了非常多的高级分析工具,去帮助管理员定位和分析错误,甚至是预测一些错误的发生。但是,这个系统作为HP服务框架下的一部分,是不能应用在非HP服务框架下的IT应用中的。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于云os的日志回收及故障警报系统;本发明解决了日志处理系统不能通用的问题;解决了日志处理系统不能对数据进行实时检测的问题。
本发明基于开源项目ELK构建,增加了缓冲队列,广播中心,非关系型数据库持久化,并使用Nodejs开发了大量的中间件系统把各个组件使用HTTP的方式链接,最终成为了一个完整的可以通用的收集集群内各个组件的日志并实时通过Kafka转发给各个订阅者的系统。
ELK指的是Elasticsearch,Logstash,Kibana;Elasticsearch的底层是基于Apache Lucene,这是一个接口友好的开源搜索引擎。在各个领域之中,Lucene都被认为是最优秀,最可靠的,性能最好的搜索引擎。
本发明采用的技术方案如下:
一种基于云os的日志回收及故障警报系统,包括:日志回收模块、持久化存储模块、监控部署模块、广播中心模块、可视化模块和中间件模块;所述日志回收模块用于负责从被检测服务器中回收运行过程中产生的日志数据,缓存并转交给下层处理;持久化存储模块用于负责持久化保存来自日志回收模块的数据,并建立快速索引,给可视化模块提供接口;监控部署模块用于建立一个文件服务器,将被测服务端需要的配置文件以及Rsyslog编译的支持库分发给被检测服务器;广播中心模块用于负责获得实时的日志数据,并广播给各个频道的订阅者;可视化模块用于负责对持久化模块中的数据进行简单分析,并成为广播中心的订阅者用以展示实时的日志信息;中间件模块用于支持广播中心的外围运转,从日志回收模块转发数据给广播中心模块。
进一步的,所述日志回收模块包括Rsyslog回收部分和Redis缓冲部分;Rsyslog回收部分根据配置文件,对系统服务,应用日志文件和依托Services托管的服务进行监控,检测到有新的信息产生时,会把新的信息发送给Redis缓冲部分;Redis缓冲部分用于减少数据洪峰对整个系统的危害,提高系统的并行工作能力。
进一步的,所述持久化存储模块包括用于持久化处理的Mongo DB,以及用来进行实时索引的Elasticsearch。
进一步的,所述监控部署模块包括分发服务器、被检测服务器执行脚本和配置文件三部分。
进一步的,所述部署流程为:
S1:判断被部署服务器中的Rsyslog是否需要更新;若需要则执行S2,若不需要则执行S3;
S2:更新被部署服务器中的Rsyslog;
S3:从分发服务器获得二进制拓展模块和配置文件;
S4:重启Rsyslog服务并写入一条日志。
进一步的,所述可视化模块用于处理存在Elasticsearch的静态日志信息和由WebSocket中间件发送来的动态数据。
进一步的,所述中间件模块包括:从Logstash通过HTTP方式转发给Kafka的中间件和通过订阅Kafka的错误频道并转换为WebSocket方式的中间件。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明有效的兼顾了不同平台的通用性,使不同平台均可以便捷使用本发明的系统。
2、本发明通过广播模块、持久化存储模块和监控部署模块给了系统一个实时消息获取通道,使系统可以实时对数据进行查看和检测。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是日志回收及故障警报系统结构图。
图2是监控部署流程图。
其中,1-日志回收模块;2-持久化存储模块;3-监控部署模块;4-广播中心模块;5-可视化模块;6-中间件模块。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
实施例1
一种基于云os的日志回收及故障警报系统,如图1所示,包括:日志回收模块1、持久化存储模块2、监控部署模块3、广播中心模块4、可视化模块5和中间件模块6。
日志回收模块1用于负责从被检测服务器中回收运行过程中产生的日志数据,缓存并转交给下层处理;日志回收模块1包括Rsyslog回收部分和Redis缓冲部分;Rsyslog根据配置文件,对系统服务,应用日志文件和依托Services托管的服务进行监控,检测到有新的信息产生时,会把新的信息发送给Redis。Rsyslog可以通过Linux系统的Journal获得系统日志,也可以通过二次编译,开启文件输入功能,配置文件输入项,检测文件内容的变化来达到监控应用的目的。应用程序抛出的日志,一般会写入文件,也有部分会直接输出在控制台中,因此Rsyslog灵活的输入的配置就可以解决不同应用的监控问题。同时,因为Rsyslog可以直接获得Journal的日志,所以可以方便的监控所有由Linux init.d控制的使用系统托管服务的应用程序。
持久化存储模块2用于负责持久化保存来自日志回收模块1的数据,并建立快速索引,给可视化模块5提供接口;持久化存储模块2包括用于持久化处理的Mongo DB,以及用来进行实时索引的Elasticsearch;日志信息会分发给Elasticsearch按照时间进行索引,同时,也会把数据发给Mongo DB进行原始的持久化处理。
监控部署模块3用于建立一个文件服务器,将被测服务端需要的配置文件以及Rsyslog编译的支持库分发给被检测服务器;监控部署模块3包括分发服务器、被检测服务器执行脚本和配置文件三部分;其监控部署流程,如图2所示为:
S1:判断被部署服务器中的Rsyslog是否需要更新;若需要则执行S2,若不需要则执行S3。
上述步骤中,在被部署服务器中执行自动部署脚本,会开始判断被部署服务器中的Rsyslog是否需要更新。
S2:更新被部署服务器中的Rsyslog。
上述步骤中,当检测到Rsyslog需要更新时,则会自动更新。
S3:从分发服务器获得二进制拓展模块和配置文件;
上述步骤中,会从存储着已经编译完成的扩展模块二进制文件的分发服务器上将二进制模块文件下载到当前系统的运行库中,并重新进行一次二进制链接库动态连接操作,更新并启用Rsyslog的扩展模块;接下来从分发的服务器将配置文件下载到Rsyslog的配置文件夹中。
S4:重启Rsyslog服务并写入一条日志。
上述步骤中,当配置文件下载到Rsyslog的配置文件夹中后,会将Rsyslog服务重启并写入一条日志。
广播中心模块4用于负责获得实时的日志数据,并广播给各个频道的订阅者;广播中心模块4为一个开放的系统,允许不同的订阅者灵活的订阅不同的频道获得数据。
可视化模块5用于负责从将持久化模块中的数据进行简单分析,并成为广播中心的订阅者用以展示实时的日志信息;数据可视化模块5,处理存在Elasticsearch的静态日志信息和由WebSocket中间件发送来的动态数据;静态数据可以进行按照时段绘制图表,或者直接可视化显示峰值数据;而动态的数据可以直接实时显示错误,并可以发送给错误分析的服务。
中间件模块6用于支持广播中心的外围运转,从日志回收模块1转发数据给广播中心模块4;中间件模块6包括:
从Logstash通过HTTP方式转发给Kafka的中间件:使用配置文件让Logstash使用HTTP输出,配置相应的HTTP地址,运用Express的路由中间件,当Logstash访问该地址时,将附加的JSON信息转为数据结构,同时判断日志类型进行分发,使用node-kafka模块将数据按照类型转发给不同的Kafka频道。
通过订阅Kafka的错误频道并转换为WebSocket方式的中间件:在中间件内新建一个Kafka的订阅者,订阅Kafka的错误日志频道,同时建立一个WebSocket服务器,当Kafka广播错误日志的时候,对所有链接到本中间件的WebSocket进行一次转播。
本发明有效的兼顾了不同平台的通用性,使不同平台均可以便捷使用本发明的系统;通过广播模块、持久化存储模块2和监控部署模块3给了系统一个实时消息获取通道,使系统可以实时对数据进行查看和检测。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (7)

1.一种基于云os的日志回收及故障警报系统,其特征在于,包括:日志回收模块(1)、持久化存储模块(2)、监控部署模块(3)、广播中心模块(4)、可视化模块(5)和中间件模块(6);所述日志回收模块(1)用于负责从被检测服务器中回收运行过程中产生的日志数据,缓存并转交给下层处理;持久化存储模块(2)用于负责持久化保存来自日志回收模块(1)的数据,并建立快速索引,给可视化模块(5)提供接口;监控部署模块(3)用于建立一个文件服务器,将被测服务端需要的配置文件以及Rsyslog编译的支持库分发给被检测服务器;广播中心模块(4)用于负责获得实时的日志数据,并广播给各个频道的订阅者;可视化模块(5)用于负责对持久化模块中的数据进行简单分析,并成为广播中心的订阅者用以展示实时的日志信息;中间件模块(6)用于支持广播中心的外围运转,从日志回收模块(1)转发数据给广播中心模块(4)。
2.如权利要求1所述的基于云os的日志回收及故障警报系统,其特征在于,所述日志回收模块(1)包括Rsyslog回收部分和Redis缓冲部分;Rsyslog回收部分根据配置文件,对系统服务,应用日志文件和依托Services托管的服务进行监控,检测到有新的信息产生时,会把新的信息发送给Redis缓冲部分;Redis缓冲部分用于减少数据洪峰对整个系统的危害,提高系统的并行工作能力。
3.如权利要求1所述的基于云os的日志回收及故障警报系统,其特征在于,所述持久化存储模块(2)包括用于持久化处理的Mongo DB,以及用来进行实时索引的Elasticsearch。
4.如权利要求1所述的基于云os的日志回收及故障警报系统,其特征在于,所述监控部署模块(3)包括分发服务器、被检测服务器执行脚本和配置文件三部分。
5.如权利要求4所述的基于云os的日志回收及故障警报系统,其特征在于,所述监控部署流程为:
S1:判断被部署服务器中的Rsyslog是否需要更新;若需要则执行S2,若不需要则执行S3;
S2:更新被部署服务器中的Rsyslog;
S3:从分发服务器获得二进制拓展模块和配置文件;
S4:重启Rsyslog服务并写入一条日志。
6.如权利要求1所述的基于云os的日志回收及故障警报系统,其特征在于,所述可视化模块(5)用于处理存在Elasticsearch的静态日志信息和由WebSocket中间件发送来的动态数据。
7.如权利要求1所述的基于云os的日志回收及故障警报系统,其特征在于,所述中间件模块(6)包括:从Logstash通过HTTP方式转发给Kafka的中间件和通过订阅Kafka的错误频道并转换为WebSocket方式的中间件。
CN202010385968.6A 2020-05-09 2020-05-09 一种基于云os的日志回收及故障警报系统 Active CN111625416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010385968.6A CN111625416B (zh) 2020-05-09 2020-05-09 一种基于云os的日志回收及故障警报系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010385968.6A CN111625416B (zh) 2020-05-09 2020-05-09 一种基于云os的日志回收及故障警报系统

Publications (2)

Publication Number Publication Date
CN111625416A true CN111625416A (zh) 2020-09-04
CN111625416B CN111625416B (zh) 2021-08-24

Family

ID=72259121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010385968.6A Active CN111625416B (zh) 2020-05-09 2020-05-09 一种基于云os的日志回收及故障警报系统

Country Status (1)

Country Link
CN (1) CN111625416B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344539A (zh) * 2022-10-12 2022-11-15 北京奥星贝斯科技有限公司 用于分布式数据库的日志空间回收方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399887A (zh) * 2013-07-19 2013-11-20 蓝盾信息安全技术股份有限公司 一种海量日志的查询与统计分析系统
CN106412061A (zh) * 2016-09-28 2017-02-15 上海爱数信息技术股份有限公司 一种基于Linux的日志文件夹远程传输系统
CN107391606A (zh) * 2017-06-30 2017-11-24 中国联合网络通信集团有限公司 基于Storm的日志处理方法及装置
CN108280017A (zh) * 2018-02-28 2018-07-13 郑州云海信息技术有限公司 一种系统事件日志上传方法、装置、设备及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399887A (zh) * 2013-07-19 2013-11-20 蓝盾信息安全技术股份有限公司 一种海量日志的查询与统计分析系统
CN106412061A (zh) * 2016-09-28 2017-02-15 上海爱数信息技术股份有限公司 一种基于Linux的日志文件夹远程传输系统
CN107391606A (zh) * 2017-06-30 2017-11-24 中国联合网络通信集团有限公司 基于Storm的日志处理方法及装置
CN108280017A (zh) * 2018-02-28 2018-07-13 郑州云海信息技术有限公司 一种系统事件日志上传方法、装置、设备及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SURA_1988: "Linux中rsyslog与journal对系统日志进行管理", 《HTTPS://BLOG.CSDN.NET/WEIXIN_43314056/ARTICLE/DETAILS/83153829》 *
李必臣: "基于日志流的应用告警系统的设计与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
林峰旭等: "Rsyslog在IT日志采集中的应用", 《网络空间安全》 *
王裕辰: "基于ELK Stack的实时日志分析系统的设计与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
薛新: "Rsyslog采集linux日志及转发到Logstash", 《HTTPS://BLOG.CSDN.NET/XUEXIN736/ARTICLE/DETAILS/80203931》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344539A (zh) * 2022-10-12 2022-11-15 北京奥星贝斯科技有限公司 用于分布式数据库的日志空间回收方法和装置
CN115344539B (zh) * 2022-10-12 2023-02-17 北京奥星贝斯科技有限公司 用于分布式数据库的日志空间回收方法和装置

Also Published As

Publication number Publication date
CN111625416B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN112035317B (zh) 一种微服务链路监控方法、装置、设备及介质
CN108521339B (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
CN110690984A (zh) 基于Spark的大数据网络日志采集分析和预警的方法、系统
CN111046011B (zh) 日志收集方法、系统、装置、电子设备及可读存储介质
CN111309550A (zh) 应用程序的数据采集方法、系统、设备和存储介质
US20160323160A1 (en) Detection of node.js memory leaks
US11669319B2 (en) Creating and using native virtual probes in computing environments
CN110750426A (zh) 服务状态监测方法、装置、电子设备及可读存储介质
CN110851324B (zh) 基于日志的巡检处理方法、装置以及电子设备、存储介质
US11700255B2 (en) Feedback framework
CN105045905A (zh) 一种基于全文检索的日志维护方法及系统
CN111625416B (zh) 一种基于云os的日志回收及故障警报系统
CN111092752A (zh) 跨多个网络切片的故障定位方法及装置
CN113608969A (zh) 业务系统运行监控系统及方法
CN115220995A (zh) 一种基于agent探针的微服务全链路分析方法
CN106126419A (zh) 一种应用程序的调试方法及装置
CN111158995B (zh) 基于skywalking、ELK平台实现跨系统日志跟踪查询的方法及系统
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN112527619A (zh) 一种基于有向无环图结构的分析链路调用方法及系统
CN114691445A (zh) 集群故障处理方法、装置、电子设备及可读存储介质
CN111162938A (zh) 数据处理系统及方法
CN115664992A (zh) 网络运行数据的处理方法、装置、电子设备及介质
CN112818204B (zh) 一种业务的处理方法、装置、设备及存储介质
CN112491601A (zh) 流量拓扑生成方法、装置、存储介质及电子设备
CN112422349A (zh) 面向nfv的网管系统、方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB03 Change of inventor or designer information

Inventor after: Liu Jinzhuo

Inventor after: Qin Jianglong

Inventor after: Peng Xiyang

Inventor after: Li Jie

Inventor after: Jing Ming

Inventor after: Chai Yanming

Inventor after: Wang Xinjie

Inventor after: Wen Junjie

Inventor after: Yang Yan

Inventor after: Zhao Na

Inventor after: Wang Junzheng

Inventor after: Yu Yong

Inventor after: Wang Jian

Inventor after: Yu Qian

Inventor after: Zhang Xuan

Inventor after: Lin Ying

Inventor before: Liu Jinzhuo

Inventor before: Yang Yan

Inventor before: Zhao Na

CB03 Change of inventor or designer information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant