CN112527887A - 一种应用于Gbase数据库的可视化运维方法及装置 - Google Patents

一种应用于Gbase数据库的可视化运维方法及装置 Download PDF

Info

Publication number
CN112527887A
CN112527887A CN202011400331.6A CN202011400331A CN112527887A CN 112527887 A CN112527887 A CN 112527887A CN 202011400331 A CN202011400331 A CN 202011400331A CN 112527887 A CN112527887 A CN 112527887A
Authority
CN
China
Prior art keywords
gbase
file
node
index data
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011400331.6A
Other languages
English (en)
Other versions
CN112527887B (zh
Inventor
李清颢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202011400331.6A priority Critical patent/CN112527887B/zh
Publication of CN112527887A publication Critical patent/CN112527887A/zh
Application granted granted Critical
Publication of CN112527887B publication Critical patent/CN112527887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种应用于Gbase数据库的可视化运维方法及装置,通过采集操作系统指标数据、Gbase产品日志和Gbase运行指标数据,并对其进行预处理,实现在日志平台建立不同场景下的包含操作系统指标数据和Gbase数据库运行指标数据的可视化视图,供运维人员进行日常运维和异常信息查看,提高了对Gbase数据库的运维效率。

Description

一种应用于Gbase数据库的可视化运维方法及装置
技术领域
本发明涉及计算机技术领域,更具体的,涉及一种应用于Gbase数据库的可视化运维方法及装置。
背景技术
Gbase数据库作为一种大数据管理应用,其分布式存储的特点造成了服务器数量众多、系统运行指标繁杂、运维门槛提升等问题。
目前已有的Gbase数据库运维系统提供了Gbase数据库集群状态、性能等数据的查看检索功能,运维人员通过输入检索指令查看Gbase数据库集群状态、性能等数据,但是该运维功能比较单一,无法满足对Gbase数据库更高的运维需求。
发明内容
有鉴于此,本发明提供了一种应用于Gbase数据库的可视化运维方法及装置,提高了对Gbase数据库的运维效率。
为了实现上述发明目的,本发明提供的具体技术方案如下:
一种应用于Gbase数据库的可视化运维方法,包括:
获取操作系统指标数据、Gbase产品日志和Gbase运行指标数据;
对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行预处理,并将预处理后的数据存储到日志平台,所述预处理至少包括主题分类、过滤解析和建立索引;
在所述日志平台,根据预处理后的数据建立不同场景下的包含所述操作系统指标数据和所述Gbase数据库运行指标数据的可视化视图。
可选的,所述获取操作系统指标数据、Gbase产品日志和Gbase运行指标数据,包括:
调用Metricbeat采集器采集所述操作系统指标数据;
调用Filebeat采集器采集所述Gbase产品日志;
运行预设采集脚本采集所述Gbase运行指标数据,将所述Gbase运行指标数据格式化后输出到本地文件,调用所述Filebeat采集器从所述本地文件中采集格式化后的所述Gbase运行指标数据。
可选的,所述对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行预处理,并将预处理后的数据存储到日志平台,包括:
采用Kafka集群对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行缓冲,并对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行主题分类;
利用Logstash集群对所述Kafka集群输出的所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行过滤解析,所述过滤解析包括:时间校对、日志字段分词、字段类型转换和导出索引的设定;
将所述Logstash集群输出的数据发送到ElasticSearch集群,在所述ElasticSearch集群分别为所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据建立索引。
可选的,所述在所述日志平台,根据预处理后的数据建立不同场景下的包含所述操作系统指标数据和所述Gbase数据库运行指标数据的可视化视图,包括:
在所述日志平台,根据预处理后的所述操作系统指标数据建立操作系统的单机视图,所述单机视图包括:不同进程的CPU总体使用率示意图、CPU使用率在系统、用户、等待三个指标的发展趋势图;
在所述日志平台,根据预处理后的所述操作系统指标数据建立操作系统的集群视图;
在所述日志平台,根据预处理后的所述Gbase产品日志和所述Gbase运行指标数据建立包含集群节点状态、当前运行SQL详情及数量趋势、执行超过30分钟长SQL详情及数据趋势、数据表大小Top展示、关键文件系统容量查看、数据运算临时目录容量发展趋势、集群异常告警视图以及Gbase数据库软件日志的综合查询视图。
可选的,所述方法还包括:
周期性采集Gbase数据库所有节点的/opt容量并输出到第一文件中;
遍历所述第一文件,判断所述第一文件中是否存在/opt容量达到100%的节点;
若所述第一文件中存在/opt容量达到100%的节点,遍历第二文件,判断所述第二文件中是否保存有该节点的IP记录;
若所述第二文件中未保存有该节点的IP记录,在所述第二文件中新增该节点的IP记录,并在第三文件中新增该节点的IP记录,所述第二文件中该节点的IP记录包括:该节点的IP、开始告警时间和最后告警时间,所述第三文件中该节点的IP记录包括:该节点的IP地址、开始告警时间、最后告警时间和告警内容,其中,所述第二文件和所述第三文件中该节点的开始告警时间和最后告警时间都为当前时间;
若所述第二文件中保存有该节点的IP记录,将所述第二文件中该节点的IP记录中的最后告警时间更新为当前时间,并在所述第三文件中新增该节点的IP记录,所述第三文件中该节点的IP记录包括:该节点的IP、开始告警时间、最后告警时间和告警内容,所述第三文件中该节点的开始告警时间为所述第二文件中该节点的开始告警时间,所述第三文件中该节点的结束告警时间为当前时间;
若所述第一文件中不存在/opt容量达到100%的节点,遍历所述第二文件,并在所述第二文件存在该节点的IP记录的情况下,删除该节点的IP记录。
可选的,所述方法还包括:
调用所述Filebeat采集器采集所述第三文件中的IP记录,并输出到所述Logstash集群;
在所述Logstash集群中将IP+开始告警时间设置为所接收到的IP记录的主键;
判断所接收到的IP记录的主键是否重复;
若重复,则根据所接收到的IP记录的最后告警时间对与所接收到的IP记录具有相同主键的已存储IP记录的最后告警时间进行更新;
若不重复,则将所接收到的IP记录存储在所述Logstash集群中。
一种应用于Gbase数据库的可视化运维装置,包括:
数据获取单元,用于获取操作系统指标数据、Gbase产品日志和Gbase运行指标数据;
预处理单元,用于对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行预处理,并将预处理后的数据存储到日志平台,所述预处理至少包括主题分类、过滤解析和建立索引;
视图建立单元,用于在所述日志平台,根据预处理后的数据建立不同场景下的包含所述操作系统指标数据和所述Gbase数据库运行指标数据的可视化视图。
可选的,所述数据获取单元,具体用于:
调用Metricbeat采集器采集所述操作系统指标数据;
调用Filebeat采集器采集所述Gbase产品日志;
运行预设采集脚本采集所述Gbase运行指标数据,将所述Gbase运行指标数据格式化后输出到本地文件,调用所述Filebeat采集器从所述本地文件中采集格式化后的所述Gbase运行指标数据。
可选的,所述预处理单元,具体用于:
采用Kafka集群对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行缓冲,并对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行主题分类;
利用Logstash集群对所述Kafka集群输出的所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行过滤解析,所述过滤解析包括:时间校对、日志字段分词、字段类型转换和导出索引的设定;
将所述Logstash集群输出的数据发送到ElasticSearch集群,在所述ElasticSearch集群分别为所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据建立索引。
可选的,所述视图建立单元,具体用于:
在所述日志平台,根据预处理后的所述操作系统指标数据建立操作系统的单机视图,所述单机视图包括:不同进程的CPU总体使用率示意图、CPU使用率在系统、用户、等待三个指标的发展趋势图;
在所述日志平台,根据预处理后的所述操作系统指标数据建立操作系统的集群视图;
在所述日志平台,根据预处理后的所述Gbase产品日志和所述Gbase运行指标数据建立包含集群节点状态、当前运行SQL详情及数量趋势、执行超过30分钟长SQL详情及数据趋势、数据表大小Top展示、关键文件系统容量查看、数据运算临时目录容量发展趋势、集群异常告警视图以及Gbase数据库软件日志的综合查询视图。
可选的,所述装置还包括告警IP记录获取单元,具体用于:
周期性采集Gbase数据库所有节点的/opt容量并输出到第一文件中;
遍历所述第一文件,判断所述第一文件中是否存在/opt容量达到100%的节点;
若所述第一文件中存在/opt容量达到100%的节点,遍历第二文件,判断所述第二文件中是否保存有该节点的IP记录;
若所述第二文件中未保存有该节点的IP记录,在所述第二文件中新增该节点的IP记录,并在第三文件中新增该节点的IP记录,所述第二文件中该节点的IP记录包括:该节点的IP、开始告警时间和最后告警时间,所述第三文件中该节点的IP记录包括:该节点的IP地址、开始告警时间、最后告警时间和告警内容,其中,所述第二文件和所述第三文件中该节点的开始告警时间和最后告警时间都为当前时间;
若所述第二文件中保存有该节点的IP记录,将所述第二文件中该节点的IP记录中的最后告警时间更新为当前时间,并在所述第三文件中新增该节点的IP记录,所述第三文件中该节点的IP记录包括:该节点的IP、开始告警时间、最后告警时间和告警内容,所述第三文件中该节点的开始告警时间为所述第二文件中该节点的开始告警时间,所述第三文件中该节点的结束告警时间为当前时间;
若所述第一文件中不存在/opt容量达到100%的节点,遍历所述第二文件,并在所述第二文件存在该节点的IP记录的情况下,删除该节点的IP记录。
可选的,所述装置还包括告警IP记录存储单元,具体用于:
调用所述Filebeat采集器采集所述第三文件中的IP记录,并输出到所述Logstash集群;
在所述Logstash集群中将IP+开始告警时间设置为所接收到的IP记录的主键;
判断所接收到的IP记录的主键是否重复;
若重复,则根据所接收到的IP记录的最后告警时间对与所接收到的IP记录具有相同主键的已存储IP记录的最后告警时间进行更新;
若不重复,则将所接收到的IP记录存储在所述Logstash集群中。
相对于现有技术,本发明的有益效果如下:
本发明公开的一种应用于Gbase数据库的可视化运维方法及装置,通过采集操作系统指标数据、Gbase产品日志和Gbase运行指标数据,并对其进行预处理,实现在日志平台建立不同场景下的包含操作系统指标数据和Gbase数据库运行指标数据的可视化视图,供运维人员进行日常运维和异常信息查看,提高了对Gbase数据库的运维效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种应用于Gbase数据库的可视化运维方法的流程示意图;
图2为本发明实施例公开的数据分类采集示意图;
图3为本发明实施例公开的数据采集到存储的流程示意图;
图4为本发明实施例公开的操作系统的单机视图中占用最多CPU的进程排行示意图;
图5为本发明实施例公开的操作系统的单机视图中CPU系统、用户、IO等待趋势图;
图6为本发明实施例公开的操作系统的集群视图中集群中单体与平均值对比视图;
图7为本发明实施例公开的Gbase数据库状态原始值示意图;
图8为本发明实施例公开的Gbase数据库集群状态可视化组件示意图;
图9为本发明实施例公开的文件系统容量告警示意图;
图10为本发明实施例公开的Logstash集群中存储的数据节点的告警内容示意图;
图11为本发明实施例公开的一种应用于Gbase数据库的可视化运维装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开的一种应用于Gbase数据库的可视化运维方法,请参阅图1,该方法包括以下步骤:
S101:获取操作系统指标数据、Gbase产品日志和Gbase运行指标数据;
请参阅图2,调用Metricbeat采集器采集操作系统指标数据,操作系统指标数据包括:CPU、内存、网络、磁盘IO、文件系统等指标数据。调用Filebeat采集器采集Gbase产品日志,Gbase产品日志包括:集群日志、节点日志、同步日志、服务日志等。运行预设采集脚本采集Gbase运行指标数据,Gbase运行指标数据包括:节点状态、当前SQL、历史长SQL、表信息、临时目录等指标数据,将Gbase运行指标数据格式化后输出到本地文件,然后调用Filebeat采集器从本地文件中采集格式化后的Gbase运行指标数据。
S102:对操作系统指标数据、Gbase产品日志和Gbase运行指标数据进行预处理,并将预处理后的数据存储到日志平台,预处理至少包括主题分类、过滤解析和建立索引;
从日志采集到日志存储之间的预处理过程如图3所示,由于日志量庞大繁杂,采用Kafka集群对操作系统指标数据、Gbase产品日志和Gbase运行指标数据进行缓冲,并按内容对操作系统指标数据、Gbase产品日志和Gbase运行指标数据进行主题分类,以便后续的分类管理与检索。
然后,利用Logstash集群对所述Kafka集群输出的操作系统指标数据、Gbase产品日志和Gbase运行指标数据进行过滤解析,过滤解析包括:时间校对、日志字段分词、字段类型转换和导出索引的设定;
最后,将Logstash集群输出的数据发送到ElasticSearch集群,在ElasticSearch集群分别为操作系统指标数据、Gbase产品日志和Gbase运行指标数据建立索引和生命周期管理。
由于Gbase数据库和操作系统的相关数据量大,为了便于后续在日志平台可以有效根据采集到的数据建立可视化视图,对采集到的数据进行预处理十分必要,其中,主题分类、过滤解析和建立索引是对数据进行有效管理和使用的有效手段。
S103:在日志平台,根据预处理后的数据建立不同场景下的包含操作系统指标数据和Gbase数据库运行指标数据的可视化视图。
本实施例为了便于运维人员根据可视化视图进行日常运维和异常信息查看,所建立的可视化视图都是基于Gbase数据库的运维需求场景建立的,如建立操作系统单机视图、操作系统的集群视图、Gbase数据库集群的综合查询视图、文件系统容量告警视图等。
具体的,在日志平台,根据预处理后的操作系统指标数据建立操作系统的单机视图,该单机视图包括CPU、内存、系统负载、磁盘IO、文件系统、进程占用等指标。
例如,使用CPU总体使用率system.process.cpu.total.pct指标,以平均值的方式进行聚合,并按进程名process.name字段进行数据拆分、倒序排列,得到如图4所示的占用最多CPU的进程排行示意图,可得到一段时间内操作系统上耗费CPU资源最多的是哪些进程,有助于系统管理员判断是否存在进程非正常运行的情况。
又如将CPU核数(相当于多核满负荷总值)system.cpu.cores、CPU系统部分使用率system.cpu.system.pct、CPU用户部分使用率system.cpu.user.pct、CPU IO等待system.cpu.iowait.pct四个指标,取其一段时间内的平均值进行聚合,可查看该段时间内操作系统CPU使用率在系统、用户、等待三个指标的发展趋势,以及和满负荷总量的比值关系。如图5所示的CPU系统、用户、IO等待趋势图,IO等待明显高于其他指标,可帮助系统管理员判断系统可能存在磁盘类故障,导致了CPU IO异常。
类似操作系统的单机视图,本实施例还建立有操作系统的集群视图和集群Top5视图,分别查看集群的总体运行情况和集群中高于平均值突出异常的个体。
例如,使用系统5分钟平均负载system.load.5指标,在一定时间段内按平均值进行聚合,用主机名进行拆分,可得到集群中每个操作系统的负载曲线;另建一条不按主机名拆分的“集群平均负载”曲线进行对比。由图6中集群中单体与平均值对比视图可看到,JICS-D13的负载高于集群中其他操作系统,有助于系统管理员判断集群中单个操作系统是否存在性能瓶颈。
又如,在操作系统的集群视图中,使用了大量同样类型的可视化组件——TSVB中的时间序列图,在同一视图内,鼠标滑过任意组件,系统使用红色竖线形式标识同一时间点,有助于管理员从多个系统指标维度印证系统故障点的存在。
针对Gbase数据库集群,本实施例建立有包含集群节点状态、当前运行SQL详情及数量趋势、执行超过30分钟长SQL详情及数量趋势、数据表大小Top展示、关键文件系统容量查看、数据运算临时目录容量发展趋势、集群异常告警视图以及Gbase数据库软件日志等内容的综合查询视图,运维人员可在该视图中快速定位Gbase数据库集群异常节点、异常事件、异常SQL和异常日志,该综合查询视图中还包括跳转按钮,通过鼠标点击该跳转按钮也可灵活跳转到操作系统的单机\集群视图进行更多指标和日志的查看。
例如,集群状态组件,通过自研脚本从Gbase数据库操作系统中采集到集群的节点状态、同步状态和数据状态,请参阅图7,原始的正常值为OPEN\OPEN\0。在Logstash层进行数据过滤处理时,将该正常值转变为数字1\1\1,将其他非正常值一律设为0。在Kibana展现层中,创建垂直条形图,取与操作系统上脚本采集间隔相同的5分钟时间段,使用“最高命中结果”来聚合节点状态gnode_state_value、同步状态sync_state_value、数据状态data_state_value三个指标,按IP地址进行数据拆分,即可展现如图8所示的所有节点的三个状态(节点状态、同步状态和数据状态),如所有指标正常,应展现完整的三排方格,如任意节点任意状态异常,则方格缺失。该组件可便于系统管理员在不登录Gbase数据库的情况下快速检查集群状态。
本实施例还公开了文件系统告警组件,由于Gbase数据库数据量巨大,且单个运行作业占用空间高,造成操作系统的/opt文件系统(存放数据用)使用率长期处于现有生产系统告警阈值线(90%)以上,且由于Gbase数据库节点数量巨大,无意义的告警数量堆积也无助于解决问题。传统的容量监控模式已不适用于Gbase数据库高容量运行的现状。
本实施例提出了一种告警方法:当单个节点空间用尽(100%)后,在日志平台中记录一条包含“告警发生时间”的告警信息,如下次采集仍为100%,刷新“最后告警时间”,如低于100%,则不对该条告警进行更新。使用临时文件和“IP+告警发生时间”为联合主键,当该节点下次达到100%,不会覆盖历史记录,而是新建一条告警记录。这样既可以查看历史上所有的告警记录,又可根据主键单独刷新最新一条告警。
请参阅图9,图9中的文件1为下述第一文件,文件2为下述第二文件,文件3为下述第三文件,时间1为下述开始告警时间,时间2为下述最后告警时间。
周期性采集Gbase数据库所有节点的/opt容量并输出到第一文件中;
遍历第一文件,判断第一文件中是否存在/opt容量达到100%的节点;
若第一文件中存在/opt容量达到100%的节点,遍历第二文件,判断第二文件中是否保存有该节点的IP记录;
若第二文件中未保存有该节点的IP记录,在第二文件中新增该节点的IP记录,并在第三文件中新增该节点的IP记录,第二文件中该节点的IP记录包括:该节点的IP、开始告警时间和最后告警时间,第三文件中该节点的IP记录包括:该节点的IP地址、开始告警时间、最后告警时间和告警内容,其中,第二文件和第三文件中该节点的开始告警时间和最后告警时间都为当前时间;
若第二文件中保存有该节点的IP记录,将第二文件中该节点的IP记录中的最后告警时间更新为当前时间,并在第三文件中新增该节点的IP记录,第三文件中该节点的IP记录包括:该节点的IP、开始告警时间、最后告警时间和告警内容,第三文件中该节点的开始告警时间为第二文件中该节点的开始告警时间,第三文件中该节点的结束告警时间为当前时间;
若第一文件中不存在/opt容量达到100%的节点,遍历第二文件,并在第二文件存在该节点的IP记录的情况下,删除该节点的IP记录。
调用Filebeat采集器采集第三文件中的IP记录,并输出到Logstash集群;
在Logstash集群中将IP+开始告警时间设置为所接收到的IP记录的主键;
判断所接收到的IP记录的主键是否重复;
若重复,则根据所接收到的IP记录的最后告警时间对与所接收到的IP记录具有相同主键的已存储IP记录的最后告警时间进行更新;
若不重复,则将所接收到的IP记录存储在Logstash集群中。
以图10为例,在Logstash集群中每个节点仅保存一条IP记录。
历史长SQL组件,在Logstash层面使用“SQL号+管理节点IP+开始时间”为主键,使得同一长SQL,在多次采集周期内,如持续存续,则只刷新“执行时间”字段,无需新建一条记录。从而可以提供给用户查询历史上任意时间执行SQL的功能,和按不同时间维护(按天、按执行时长)对长SQL数量进行统计的功能。
具体的,历史长SQL组件包括SQL查询功能、对长SQL记录数量进行统计功能、按天对长SQL记录数量进行展示功能以及按“执行时间”指标对长SQL数量进行分类统计的功能,其中,对长SQL记录数量进行统计的时间可以定为1天之内,按天对长SQL记录数量进行展示的时段可以为一周,按“执行时间”指标对长SQL数量进行分类统计,分为0.5-1小时、1-2小时、2-3小时和3小时以上4类展示。通过对不同时段长SQL的数量统计,可以了解一周内应用整体的运行情况。历史长SQL的查询可方便系统管理员针对某条执行时间过长的SQL,提醒开发项目组进行优化。
Gbase数据库运维中经常出现容量告急的情况,通常情况下系统管理员需要手工登录操作系统查询是因为哪些数据表过大造成的,既费时又不直观简便。本实施例中,通过在Gbase数据库部署定时查询表大小信息的脚本,存入一张数据表。再通过另一脚本对该数据表进行定制化查询(按表大小排序、按行数排序、按空洞率排序),输出到文件后再输入到日志平台。在日志平台建立按上述三个指标排序的Top20视图,便于管理员对当前表大小信息进行查看,从而在容量告急时提醒开发项目组进行清理。
综上,本实施例公开的一种应用于Gbase数据库的可视化运维方法,通过采集操作系统指标数据、Gbase产品日志和Gbase运行指标数据,并对其进行预处理,实现在日志平台建立不同场景下的包含操作系统指标数据和Gbase数据库运行指标数据的可视化视图,供运维人员进行日常运维和异常信息查看,提高了对Gbase数据库的运维效率。
基于上述实施例公开的一种应用于Gbase数据库的可视化运维方法,本实施例对应公开了一种应用于Gbase数据库的可视化运维装置,请参阅图11,该装置包括:
数据获取单元100,用于获取操作系统指标数据、Gbase产品日志和Gbase运行指标数据;
预处理单元200,用于对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行预处理,并将预处理后的数据存储到日志平台,所述预处理至少包括主题分类、过滤解析和建立索引;
视图建立单元300,用于在所述日志平台,根据预处理后的数据建立不同场景下的包含所述操作系统指标数据和所述Gbase数据库运行指标数据的可视化视图。
可选的,所述数据获取单元100,具体用于:
调用Metricbeat采集器采集所述操作系统指标数据;
调用Filebeat采集器采集所述Gbase产品日志;
运行预设采集脚本采集所述Gbase运行指标数据,将所述Gbase运行指标数据格式化后输出到本地文件,调用所述Filebeat采集器从所述本地文件中采集格式化后的所述Gbase运行指标数据。
可选的,所述预处理单元200,具体用于:
采用Kafka集群对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行缓冲,并对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行主题分类;
利用Logstash集群对所述Kafka集群输出的所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行过滤解析,所述过滤解析包括:时间校对、日志字段分词、字段类型转换和导出索引的设定;
将所述Logstash集群输出的数据发送到ElasticSearch集群,在所述ElasticSearch集群分别为所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据建立索引。
可选的,所述视图建立单元300,具体用于:
在所述日志平台,根据预处理后的所述操作系统指标数据建立操作系统的单机视图,所述单机视图包括:不同进程的CPU总体使用率示意图、CPU使用率在系统、用户、等待三个指标的发展趋势图;
在所述日志平台,根据预处理后的所述操作系统指标数据建立操作系统的集群视图;
在所述日志平台,根据预处理后的所述Gbase产品日志和所述Gbase运行指标数据建立包含集群节点状态、当前运行SQL详情及数量趋势、执行超过30分钟长SQL详情及数据趋势、数据表大小Top展示、关键文件系统容量查看、数据运算临时目录容量发展趋势、集群异常告警视图以及Gbase数据库软件日志的综合查询视图。
可选的,所述装置还包括告警IP记录获取单元,具体用于:
周期性采集Gbase数据库所有节点的/opt容量并输出到第一文件中;
遍历所述第一文件,判断所述第一文件中是否存在/opt容量达到100%的节点;
若所述第一文件中存在/opt容量达到100%的节点,遍历第二文件,判断所述第二文件中是否保存有该节点的IP记录;
若所述第二文件中未保存有该节点的IP记录,在所述第二文件中新增该节点的IP记录,并在第三文件中新增该节点的IP记录,所述第二文件中该节点的IP记录包括:该节点的IP、开始告警时间和最后告警时间,所述第三文件中该节点的IP记录包括:该节点的IP地址、开始告警时间、最后告警时间和告警内容,其中,所述第二文件和所述第三文件中该节点的开始告警时间和最后告警时间都为当前时间;
若所述第二文件中保存有该节点的IP记录,将所述第二文件中该节点的IP记录中的最后告警时间更新为当前时间,并在所述第三文件中新增该节点的IP记录,所述第三文件中该节点的IP记录包括:该节点的IP、开始告警时间、最后告警时间和告警内容,所述第三文件中该节点的开始告警时间为所述第二文件中该节点的开始告警时间,所述第三文件中该节点的结束告警时间为当前时间;
若所述第一文件中不存在/opt容量达到100%的节点,遍历所述第二文件,并在所述第二文件存在该节点的IP记录的情况下,删除该节点的IP记录。
可选的,所述装置还包括告警IP记录存储单元,具体用于:
调用所述Filebeat采集器采集所述第三文件中的IP记录,并输出到所述Logstash集群;
在所述Logstash集群中将IP+开始告警时间设置为所接收到的IP记录的主键;
判断所接收到的IP记录的主键是否重复;
若重复,则根据所接收到的IP记录的最后告警时间对与所接收到的IP记录具有相同主键的已存储IP记录的最后告警时间进行更新;
若不重复,则将所接收到的IP记录存储在所述Logstash集群中。
本实施例公开的一种应用于Gbase数据库的可视化运维装置,通过采集操作系统指标数据、Gbase产品日志和Gbase运行指标数据,并对其进行预处理,实现在日志平台建立不同场景下的包含操作系统指标数据和Gbase数据库运行指标数据的可视化视图,供运维人员进行日常运维和异常信息查看,提高了对Gbase数据库的运维效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
上述各个实施例之间可任意组合,对所公开的实施例的上述说明,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本申请。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种应用于Gbase数据库的可视化运维方法,其特征在于,包括:
获取操作系统指标数据、Gbase产品日志和Gbase运行指标数据;
对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行预处理,并将预处理后的数据存储到日志平台,所述预处理至少包括主题分类、过滤解析和建立索引;
在所述日志平台,根据预处理后的数据建立不同场景下的包含所述操作系统指标数据和所述Gbase数据库运行指标数据的可视化视图。
2.根据权利要求1所述的方法,其特征在于,所述获取操作系统指标数据、Gbase产品日志和Gbase运行指标数据,包括:
调用Metricbeat采集器采集所述操作系统指标数据;
调用Filebeat采集器采集所述Gbase产品日志;
运行预设采集脚本采集所述Gbase运行指标数据,将所述Gbase运行指标数据格式化后输出到本地文件,调用所述Filebeat采集器从所述本地文件中采集格式化后的所述Gbase运行指标数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行预处理,并将预处理后的数据存储到日志平台,包括:
采用Kafka集群对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行缓冲,并对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行主题分类;
利用Logstash集群对所述Kafka集群输出的所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行过滤解析,所述过滤解析包括:时间校对、日志字段分词、字段类型转换和导出索引的设定;
将所述Logstash集群输出的数据发送到ElasticSearch集群,在所述ElasticSearch集群分别为所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据建立索引。
4.根据权利要求1所述的方法,其特征在于,所述在所述日志平台,根据预处理后的数据建立不同场景下的包含所述操作系统指标数据和所述Gbase数据库运行指标数据的可视化视图,包括:
在所述日志平台,根据预处理后的所述操作系统指标数据建立操作系统的单机视图,所述单机视图包括:不同进程的CPU总体使用率示意图、CPU使用率在系统、用户、等待三个指标的发展趋势图;
在所述日志平台,根据预处理后的所述操作系统指标数据建立操作系统的集群视图;
在所述日志平台,根据预处理后的所述Gbase产品日志和所述Gbase运行指标数据建立包含集群节点状态、当前运行SQL详情及数量趋势、执行超过30分钟长SQL详情及数据趋势、数据表大小Top展示、关键文件系统容量查看、数据运算临时目录容量发展趋势、集群异常告警视图以及Gbase数据库软件日志的综合查询视图。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
周期性采集Gbase数据库所有节点的/opt容量并输出到第一文件中;
遍历所述第一文件,判断所述第一文件中是否存在/opt容量达到100%的节点;
若所述第一文件中存在/opt容量达到100%的节点,遍历第二文件,判断所述第二文件中是否保存有该节点的IP记录;
若所述第二文件中未保存有该节点的IP记录,在所述第二文件中新增该节点的IP记录,并在第三文件中新增该节点的IP记录,所述第二文件中该节点的IP记录包括:该节点的IP、开始告警时间和最后告警时间,所述第三文件中该节点的IP记录包括:该节点的IP地址、开始告警时间、最后告警时间和告警内容,其中,所述第二文件和所述第三文件中该节点的开始告警时间和最后告警时间都为当前时间;
若所述第二文件中保存有该节点的IP记录,将所述第二文件中该节点的IP记录中的最后告警时间更新为当前时间,并在所述第三文件中新增该节点的IP记录,所述第三文件中该节点的IP记录包括:该节点的IP、开始告警时间、最后告警时间和告警内容,所述第三文件中该节点的开始告警时间为所述第二文件中该节点的开始告警时间,所述第三文件中该节点的结束告警时间为当前时间;
若所述第一文件中不存在/opt容量达到100%的节点,遍历所述第二文件,并在所述第二文件存在该节点的IP记录的情况下,删除该节点的IP记录。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
调用所述Filebeat采集器采集所述第三文件中的IP记录,并输出到所述Logstash集群;
在所述Logstash集群中将IP+开始告警时间设置为所接收到的IP记录的主键;
判断所接收到的IP记录的主键是否重复;
若重复,则根据所接收到的IP记录的最后告警时间对与所接收到的IP记录具有相同主键的已存储IP记录的最后告警时间进行更新;
若不重复,则将所接收到的IP记录存储在所述Logstash集群中。
7.一种应用于Gbase数据库的可视化运维装置,其特征在于,包括:
数据获取单元,用于获取操作系统指标数据、Gbase产品日志和Gbase运行指标数据;
预处理单元,用于对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行预处理,并将预处理后的数据存储到日志平台,所述预处理至少包括主题分类、过滤解析和建立索引;
视图建立单元,用于在所述日志平台,根据预处理后的数据建立不同场景下的包含所述操作系统指标数据和所述Gbase数据库运行指标数据的可视化视图。
8.根据权利要求7所述的装置,其特征在于,所述数据获取单元,具体用于:
调用Metricbeat采集器采集所述操作系统指标数据;
调用Filebeat采集器采集所述Gbase产品日志;
运行预设采集脚本采集所述Gbase运行指标数据,将所述Gbase运行指标数据格式化后输出到本地文件,调用所述Filebeat采集器从所述本地文件中采集格式化后的所述Gbase运行指标数据。
9.根据权利要求7所述的装置,其特征在于,所述预处理单元,具体用于:
采用Kafka集群对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行缓冲,并对所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行主题分类;
利用Logstash集群对所述Kafka集群输出的所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据进行过滤解析,所述过滤解析包括:时间校对、日志字段分词、字段类型转换和导出索引的设定;
将所述Logstash集群输出的数据发送到ElasticSearch集群,在所述ElasticSearch集群分别为所述操作系统指标数据、所述Gbase产品日志和所述Gbase运行指标数据建立索引。
10.根据权利要求7所述的装置,其特征在于,所述视图建立单元,具体用于:
在所述日志平台,根据预处理后的所述操作系统指标数据建立操作系统的单机视图,所述单机视图包括:不同进程的CPU总体使用率示意图、CPU使用率在系统、用户、等待三个指标的发展趋势图;
在所述日志平台,根据预处理后的所述操作系统指标数据建立操作系统的集群视图;
在所述日志平台,根据预处理后的所述Gbase产品日志和所述Gbase运行指标数据建立包含集群节点状态、当前运行SQL详情及数量趋势、执行超过30分钟长SQL详情及数据趋势、数据表大小Top展示、关键文件系统容量查看、数据运算临时目录容量发展趋势、集群异常告警视图以及Gbase数据库软件日志的综合查询视图。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括告警IP记录获取单元,具体用于:
周期性采集Gbase数据库所有节点的/opt容量并输出到第一文件中;
遍历所述第一文件,判断所述第一文件中是否存在/opt容量达到100%的节点;
若所述第一文件中存在/opt容量达到100%的节点,遍历第二文件,判断所述第二文件中是否保存有该节点的IP记录;
若所述第二文件中未保存有该节点的IP记录,在所述第二文件中新增该节点的IP记录,并在第三文件中新增该节点的IP记录,所述第二文件中该节点的IP记录包括:该节点的IP、开始告警时间和最后告警时间,所述第三文件中该节点的IP记录包括:该节点的IP地址、开始告警时间、最后告警时间和告警内容,其中,所述第二文件和所述第三文件中该节点的开始告警时间和最后告警时间都为当前时间;
若所述第二文件中保存有该节点的IP记录,将所述第二文件中该节点的IP记录中的最后告警时间更新为当前时间,并在所述第三文件中新增该节点的IP记录,所述第三文件中该节点的IP记录包括:该节点的IP、开始告警时间、最后告警时间和告警内容,所述第三文件中该节点的开始告警时间为所述第二文件中该节点的开始告警时间,所述第三文件中该节点的结束告警时间为当前时间;
若所述第一文件中不存在/opt容量达到100%的节点,遍历所述第二文件,并在所述第二文件存在该节点的IP记录的情况下,删除该节点的IP记录。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括告警IP记录存储单元,具体用于:
调用所述Filebeat采集器采集所述第三文件中的IP记录,并输出到所述Logstash集群;
在所述Logstash集群中将IP+开始告警时间设置为所接收到的IP记录的主键;
判断所接收到的IP记录的主键是否重复;
若重复,则根据所接收到的IP记录的最后告警时间对与所接收到的IP记录具有相同主键的已存储IP记录的最后告警时间进行更新;
若不重复,则将所接收到的IP记录存储在所述Logstash集群中。
CN202011400331.6A 2020-12-02 2020-12-02 一种应用于Gbase数据库的可视化运维方法及装置 Active CN112527887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011400331.6A CN112527887B (zh) 2020-12-02 2020-12-02 一种应用于Gbase数据库的可视化运维方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011400331.6A CN112527887B (zh) 2020-12-02 2020-12-02 一种应用于Gbase数据库的可视化运维方法及装置

Publications (2)

Publication Number Publication Date
CN112527887A true CN112527887A (zh) 2021-03-19
CN112527887B CN112527887B (zh) 2024-07-23

Family

ID=74997391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011400331.6A Active CN112527887B (zh) 2020-12-02 2020-12-02 一种应用于Gbase数据库的可视化运维方法及装置

Country Status (1)

Country Link
CN (1) CN112527887B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548706A (zh) * 2022-01-27 2022-05-27 广州车行易科技股份有限公司 一种业务风险的预警方法以及相关设备
CN115757055A (zh) * 2022-10-19 2023-03-07 北京新数科技有限公司 一种基于Spring Cloud的数据库统一运维及综合性能评分系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844171A (zh) * 2016-12-27 2017-06-13 浪潮软件集团有限公司 一种海量运维的实现方法
US20180097844A1 (en) * 2016-09-30 2018-04-05 Fortinet, Inc. Selective enforcement of event record purging in a high volume log system
CN109902072A (zh) * 2019-02-21 2019-06-18 云南电网有限责任公司红河供电局 一种日志处理系统
CN110278102A (zh) * 2018-03-15 2019-09-24 勤智数码科技股份有限公司 一种it自动化运维系统和方法
CN110928740A (zh) * 2018-09-20 2020-03-27 中国石油化工股份有限公司 云计算中心运维数据集中可视化方法及其系统
CN111984499A (zh) * 2020-08-04 2020-11-24 中国建设银行股份有限公司 一种大数据集群的故障检测方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180097844A1 (en) * 2016-09-30 2018-04-05 Fortinet, Inc. Selective enforcement of event record purging in a high volume log system
CN106844171A (zh) * 2016-12-27 2017-06-13 浪潮软件集团有限公司 一种海量运维的实现方法
CN110278102A (zh) * 2018-03-15 2019-09-24 勤智数码科技股份有限公司 一种it自动化运维系统和方法
CN110928740A (zh) * 2018-09-20 2020-03-27 中国石油化工股份有限公司 云计算中心运维数据集中可视化方法及其系统
CN109902072A (zh) * 2019-02-21 2019-06-18 云南电网有限责任公司红河供电局 一种日志处理系统
CN111984499A (zh) * 2020-08-04 2020-11-24 中国建设银行股份有限公司 一种大数据集群的故障检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阮晓龙 等: "基于ELK+Kafka 的智慧运维大数据分析平台研究与实现", 《软件导刊》, vol. 19, no. 6, pages 150 - 154 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548706A (zh) * 2022-01-27 2022-05-27 广州车行易科技股份有限公司 一种业务风险的预警方法以及相关设备
CN115757055A (zh) * 2022-10-19 2023-03-07 北京新数科技有限公司 一种基于Spring Cloud的数据库统一运维及综合性能评分系统
CN115757055B (zh) * 2022-10-19 2023-10-27 北京新数科技有限公司 一种基于Spring Cloud的数据库统一运维及综合性能评分系统

Also Published As

Publication number Publication date
CN112527887B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
CN111984499B (zh) 一种大数据集群的故障检测方法和装置
CN106557991B (zh) 电压监测数据平台
CN112181960B (zh) 一种基于AIOps的智能运维框架系统
CN113064866B (zh) 一种电力业务数据整合系统
CN112527887B (zh) 一种应用于Gbase数据库的可视化运维方法及装置
CN112231296B (zh) 一种分布式日志处理方法、装置、系统、设备及介质
CN106033324B (zh) 一种数据存储的方法和装置
US11201802B2 (en) Systems and methods for providing infrastructure metrics
CN110147470B (zh) 一种跨机房数据比对系统及方法
CN115269515B (zh) 一种检索指定目标文档数据处理方法
CN111984495A (zh) 一种大数据监控方法、装置和存储介质
CN116126621A (zh) 大数据集群的任务监控方法及相关设备
CN111314158A (zh) 大数据平台监控方法、装置及设备、介质
CN116701525A (zh) 一种基于实时数据分析的预警方法、系统和电子设备
CN114253806A (zh) 一种接入层日志收集分析预警系统
CN110677271A (zh) 基于elk的大数据告警方法、装置、设备及存储介质
CN111414355A (zh) 一种海上风电场数据监测存储系统及方法、装置
Jiadi et al. Research on Data Center Operation and Maintenance Management Based on Big Data
CN111274083A (zh) 一种分布式监控及采集服务器硬件指标的方法及系统
CN116149947A (zh) 数据模型的质量评估方法、装置、电子设备及存储介质
WO2020010531A1 (zh) 故障检测方法、设备
CN114493720A (zh) 监控Kafka消费者的方法、装置、存储介质及设备
CN112667149B (zh) 一种数据热度感知方法、装置、设备及介质
CN112817987A (zh) 访问分布式存储集群的方法及装置、设备、存储介质
CN113064791A (zh) 基于海量日志数据实时监控的分散标签特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant