CN107332685A - 国网云中应用的一种基于大数据运维日志的方法 - Google Patents
国网云中应用的一种基于大数据运维日志的方法 Download PDFInfo
- Publication number
- CN107332685A CN107332685A CN201710365526.3A CN201710365526A CN107332685A CN 107332685 A CN107332685 A CN 107332685A CN 201710365526 A CN201710365526 A CN 201710365526A CN 107332685 A CN107332685 A CN 107332685A
- Authority
- CN
- China
- Prior art keywords
- daily record
- node
- information
- log
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了国网云中应用的一种基于大数据运维日志的方法,还包括:1)采集日志信息并进行日志预处理,具体包括采集日志信息并用脚本对日志信息解析转换成统一格式,用SQL语言代码对日志信息进行清洗去重,和获取以IP地址为主字段的记录用于用户识别;2)统计一段时间的日志流量,运用时间序列分析法进行日志流量统计,预测日志流量的走势,为后续的日志流量预测模型提供数据;日志流量预测模型加载所述日志流量值并运行,并生成流量走势图,实时的预测日志流量;3)将步骤2)中生成的流量走势图通过展示界面可视化呈现。本发明在统一日志搜索中心对日志字段进行搜索,能够快速的定位错误,实现对日志流量的提前预测和预警。
Description
技术领域
本发明涉及计算机技术领域,具体的说,是国网云中应用的一种基于大数据运维日志的方法。
背景技术
“国网云”包括生产控制云、企业管理云和公共服务云,分别为国家电网公司的生产控制、企业管理及对外服务提供相应的技术支撑,而“国网云”平台则是管理、调控、支撑这三朵云的核心。大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据运维日志主要来自于机器数据,机器数据主要是指来自服务器、存储、网络中的传统接口数据,也常常被认为是机器生产的数据,机器生成的数据是发展最快、最复杂同时也是最宝贵的那部分大数据,但是现有的大数据挖掘和数据分析基本上都是建立在人的行为和商业运作产生的数据上,当服务器出错时,运维人员需要进入每一台服务器上应用的安装目录,找到日志路径,筛选日志产生的时间,再进入日志文本中查找关键字,找到报错的日志信息。这样运维人员需要经过繁琐的操作和筛选,才能将定位出错的位置,并且传统的日志服务器缺少实时过滤和深入分析日志能力,存在不能实时的分析和展示当前状况以及预测未来情况的问题。
发明内容
本发明的目的在于提供国网云中应用的一种基于大数据运维日志的方法,用于解决现有技术中运维日志出错时运维人员需要进入服务器出错日志的根目录查找关键词,筛选数据量较大、工作繁琐、效率不高以及不能预测未来日志流量是否超出预警值的问题。
为了达到上述目的,本发明通过下述技术方案实现:
国网云中应用的一种基于大数据运维日志的方法,包括搭建大数据运维日志的硬件环境、软件环境和集群环境,还包括:
1)采集日志信息并进行日志预处理,具体包括:
1.1)从软硬件设备采集日志信息,并采用shell脚本、python脚本或Apache脚本中的任意一种对所述日志信息解析后转换成统一的日志格式,所述日志信息包括计算机信息、系统信息、进程信息、磁盘信息、服务信息和应用信息;
1.2)用SQL语言提取日志中的用户名和IP地址,生成用于识别用户的表格实现日志清洗去重,所述SQL语言的代码为:
index=splunk_monitoring sourcetype=tcp//获取索引和日志类型
dedup host//去掉重复此主机的日志
table localaddress localport remotehostname remoteport processnameusername//统计该日志字段的值,并生成表格;
1.3)由所述表格中提取的用户名和IP地址识别用户,并生成以IP地址为主字段的记录实现日志用户识别;
2)统计一段时间的日志流量,并据此预测出日志流量的走势并生成流量走势图展示给用户,具体包括:
统计一段时间的日志流量,运用时间序列分析法进行日志流量统计,预测日志流量的走势,为后续的日志流量预测模型提供数据;
日志流量预测模型加载所述日志流量值并运行,并生成流量走势图,实时的预测日志流量;
3)将步骤2)中生成的流量走势图通过展示界面可视化呈现。
大数据运维日志分为日志预处理、日志流量预测、展示界面三大块,通过脚本对日志进行解析后转换成统一的日志格式,经过日志的清洗和合并,提取以IP地址为主字段的记录实现日志用户识别,再通过时间序列分析法对日志流量进行统计,再采用日志流量预测模型进行预测,日志流量预测模型采用卡尔曼滤波算法模型,通过运行日志预处理后的信息,运行模型,最后生成展示界面。当运维人员发现预测的流量继续向上,并且将要超过以前的历史流量高点时,可考虑在现有带宽的基础上进行扩容,实现对灾难的提前预警。
进一步的优选,所述展示界面还包括用于展示服务器运行情况的服务器监控模块,所述服务器监控模块分析本地服务器产生的日志信息,并显示当前服务器的动态实现监控本地服务器以及采用splunk指定要访问云上服务器,通过远程桌面连接云上服务器,收集云上服务器的数据至本地,从最新的日志数据中,提取出最新的服务器空间状况,实现云上服务器的实时监控。
splunk是机器数据的引擎,使用splunk可收集、索引和利用所有应用程序、服务器和设备(物理、虚拟和云中)生成的快速移动型计算机数据,从一个位置搜索并分析所有实时和历史数据,实时的通过服务器产生的日志信息,观察计算的各项指标动态,不仅方便维护,更能防止服务器宕机,在服务器有多台的时候,利用splunk收集和处理实时的日志数据,能将不同服务器之间的数据都收集在一起,通过提取到每台服务器的日志,分析其动态,是可行且非常方便的。云上的服务器通过远程桌面连接,可以通过splunk指定接收服务器地址,同样可将云上服务器的数据收集到本地来,一个界面就能看到所有云上服务器的状态,从而实现本地服务器和云上服务器的实时监控。
进一步的优选,所述展示界面还包括用于搜索日志信息的日志搜索模块,所述日志搜索模块将所有的日志实时的收集到一起,建立起一个统一的搜索中心,通过调用splunk的应用组件创建输入框实现对日志的检索,将各个服务器的日志汇总显示,并建立数据索引owa;在所述数据索引owa中输入关键字和错误出现的时间,实现对在线预览文档的Office Web Apps服务器进行日志的搜索排错。
通过建立日志统一搜索中心后,避免了到每台服务器中,周而复始的进服务器找目录,并且日志都是实时收集不存在延时问题。只需输入关键字和错误出现的时间,就能够快速的定位错误,从而快速的进行下一步操作解决错误,既方便又快捷。
进一步的优选,所述步骤2.1)中的收集信息包括:
2.1.1)收集计算机信息,通过调用WinHostMon:computer脚本实现对windows中计算机信息的日志收集,其中包括计算机名、所属域信息,将splunk_monitoring作为存储的索引,类型为computer,日志设置为每300秒刷新一次;
2.1.2)收集操作系统信息,通过调用WinHostMon:os脚本实现对操作系统信息的收集,其中包括操作系统版本、总的内存容量和剰余内存容量,存储的索引为splunk_monitoring,类别为operatingSystem,设置300秒刷新一次系统信息日志;
2.1.3)收集进程信息,通过调用WinHostMon:processor脚本实现对进程信息的收集,其中包括进程名、所占用的空间大小,存储的索引为:splunk_monitoring,类型为processor,设置10秒刷新一次进程日志;
2.1.4)收集磁盘信息,通过调用WinHostMon:disT脚本实现对磁盘信息的收集,存储在索引splunk_monitoring的disT类型目录下,其中包括磁盘名、磁盘的总容量、磁盘剩余容量,设置每10秒刷新一次;
2.1.5)收集服务信息,通过调用WinHostMon:service脚本,实现对服务信息的收集,并将日志存储在索引splunk_monitoring的service类型目录下,其中包括服务名、服务进程ID,日志设置每300秒刷新一次;
2.1.6)收集应用信息,通过调用WinHostMon:application脚本,实现对应用信息的收集,并将日志存储在索引splunk_monitoring的application类型目录下,其中包括应用程序名、错误类型、错误描述,日志设置每10秒刷新一次;
2.1.7)收集AIX系统日志信息,通过在AIX系统上部署通用转发器,配置日志收集的脚本,实现对AIX操作系统的日志收集,将收集的日志存储在Unix索引下。
根据收集的不同信息,为不同类型的日志建立不同的索引,方便后续的调用索引操作。
进一步的优选,所述集群环境由主节点(Master node)、对等节点(Peers node)、搜索头节点(Search head)和日志收集节点(Forwarders)构成,其中:
主节点(Master node):用于查看所述数据索引owa在对等节点间的分布状况,管理搜索头节点(Search head),设置复制因子和搜索因子,所述复制因子即为可复制的份数,所述搜索因子为提供搜索的份数;
搜索头节点(Search head):用于对收集的日志进行处理;
对等节点(Peers node):用于存储索引文件,多个对等节点的索引文件配置相同,实现多个节点之间的负载均衡和同步复制;
日志收集节点(Forwarders):上层日志的源头,用于对每个子节点数据进行收集,通过分布式的分发给多个索引,实现分布式的实时处理。
通过多个节点实现分布式的实时处理来达到加快数据处理速度的目的。
进一步的优选,所述主节点(Master node)设有管理界面,所述管理界面用于:
管理对等节点(Peers node):由主节点(Master node)的管理界面查看对等节点(Peers node)的运行状态、增加或删除对等节点(Peers node);
管理数据索引owa:可实时查看索引的复制状态;
管理搜索头节点(Search head):因为主节点(Master node)会自动的创建一个搜索头节点,并且可以在主节点(Master node)的管理界面查看搜索头节点(Search head)的运行状况,増加或删除搜索头节点(Search head)。
整个节点架构是通过从日志收集节点执行日志收集脚本,再将收集的日志分别传输到多个对等节点(Peers node),在传输的过程中实现对日志收集节点(Forwarders)的负载均衡,并且保证数据完整性,在对等节点(Peers node)收到日志数据后,通过对等节点(Peers node)之间的索引同步,实现多个索引数据一致,而对等节点(Peers node)接收的量值是由主节点(Master node)来调控的,在对等节点(Peers node)收到数据后,捜索头节点就可以检索对等节点(Peers node)里的数据,实现对日志结果的操作。
进一步的优选,所述日志流量预测模型基于卡尔曼滤波算法预测模型。
卡尔曼滤波(Kalman filtering)一种利用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响,所以最优估计也可看作是滤波过程。卡尔曼滤波预测模型通过对每个小时的日志流量的统计,可以确切推出日志量的一个走势,并利用走势图,可以发现明显的一些规律,同时也能利用卡尔曼滤波算法的实时性,实时得出下个时间段的预测值。
本发明与现有技术相比,具有以下优点及有益效果:
本发明可以实现服务器监控,查看服务器的具体资源所占用的空间及运行状态,当空间占用过高或者服务处于异常时,给出特殊颜色提醒维护人员进行及时的维护,从而更高效的工作,建立统一日志搜索中心,通过对日志字段进行搜索,能够快速的定位错误,通过以前累积的日志数据,运用数据挖掘中的时间序列分析法,对日志流量实现提前预测,对未来流量是否会超出预警值,进行提前预警。
附图说明
图1为本发明的系统原理框图。
具体实施方式
首先,在对本发明的具体实施例进行详述之前,对本文中涉及的专有名词给予解释:
owa:即office web apps的缩写,是由微软推出的基于Web端的在线办公工具,它将Microsoft Office 2010产品的体验延伸到可支持的浏览器上。Office Web Apps让你可以从几乎任何地方共享自己Office文档;
宕机,指系统无法从一个系统错误中恢复过来,或系统硬件层面出问题,以致系统长时间无响应,而不得不重启动系统的现象;
乘号“×”与点乘“·”的区别:点乘“·”是数组的运算,要求参与运算的两个量必须是维数相同,是对应元素的相乘。乘号“×”是矩阵或逆矩阵的运算要求前一个矩阵的列的维数等于后一个矩阵的行的维数。A.*B表示的是两个矩阵的对应元素相乘,其中生成的同阶矩阵C的对应的矩阵元素为:C(i,j)=A(i,j)*B(i,j);而如果A·B的话,则是正常的矩阵相乘,并非是对应的元素相乘。
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,国网云中应用的一种基于大数据运维日志的方法,包括搭建大数据运维日志的硬件环境、软件环境和集群环境,还包括:
1)采集日志信息并进行日志预处理,具体包括:
1.1)从软硬件设备采集日志信息,并采用shell脚本、python脚本或Apache脚本中的任意一种对所述日志信息解析后转换成统一的日志格式,所述日志信息包括计算机信息、系统信息、进程信息、磁盘信息、服务信息和应用信息;
1.2)用SQL语言提取日志中的用户名和IP地址,生成用于识别用户的表格实现日志清洗去重,所述SQL语言的代码为:
index=splunk_monitoring sourcetype=tcp//获取索引和日志类型
dedup host//去掉重复此主机的日志
table localaddress localport remotehostname remoteport processnameusername//统计该日志字段的值,并生成表格;
1.3)由所述表格中提取的用户名和IP地址识别用户,并生成以IP地址为主字段的记录实现日志用户识别;
2)统计一段时间的日志流量,并据此预测出日志流量的走势并生成流量走势图展示给用户,具体包括:
统计一段时间的日志流量,运用时间序列分析法进行日志流量统计,预测日志流量的走势,为后续的日志流量预测模型提供数据;
日志流量预测模型加载所述日志流量值并运行,并生成流量走势图,实时的预测日志流量;
3)将步骤2)中生成的流量走势图通过展示界面可视化呈现。
大数据运维日志分为日志预处理、日志流量预测、展示界面三大块,通过脚本对日志进行解析后转换成统一的日志格式,经过日志的清洗和合并,提取以IP地址为主字段的记录实现日志用户识别,再通过时间序列分析法对日志流量进行统计,再采用日志流量预测模型进行预测,日志流量预测模型采用卡尔曼滤波算法模型,通过运行日志预处理后的信息,运行模型,最后生成展示界面。当运维人员发现预测的流量继续向上,并且将要超过以前的历史流量高点时,可考虑在现有带宽的基础上进行扩容,实现对灾难的提前预警。
实施例2:
在实施例1的基础上,结合附图1所示,所述展示界面还包括用于展示服务器运行情况的服务器监控模块,所述服务器监控模块分析本地服务器产生的日志信息,并显示当前服务器的动态实现监控本地服务器以及采用splunk指定要访问云上服务器,通过远程桌面连接云上服务器,收集云上服务器的数据至本地,从最新的日志数据中,提取出最新的服务器空间状况,实现云上服务器的实时监控。
Splunk是机器数据的引擎,使用Splunk可收集、索引和利用所有应用程序、服务器和设备(物理、虚拟和云中)生成的快速移动型计算机数据,从一个位置搜索并分析所有实时和历史数据,实时的通过服务器产生的日志信息,观察计算的各项指标动态,不仅方便维护,更能防止服务器宕机,在服务器有多台的时候,利用splunk收集和处理实时的日志数据,能将不同服务器之间的数据都收集在一起,通过提取到每台服务器的日志,分析其动态,是可行且非常方便的。云上的服务器通过远程桌面连接,可以通过splunk指定接收服务器地址,同样可将云上服务器的数据收集到本地来,一个界面就能看到所有云上服务器的状态,从而实现本地服务器和云上服务器的实时监控。
实施例3:
在实施例1的基础上,结合附图1所示,所述展示界面还包括用于搜索日志信息的日志搜索模块,所述日志搜索模块将所有的日志实时的收集到一起,建立起一个统一的搜索中心,通过调用splunk的应用组件创建输入框实现对日志的检索,将各个服务器的日志汇总显示,并建立数据索引owa;在所述数据索引owa中输入关键字和错误出现的时间,实现对在线预览文档的Office Web Apps服务器进行日志的搜索排错。
通过建立日志统一搜索中心后,避免了到每台服务器中,周而复始的进服务器找目录,并且日志都是实时收集不存在延时问题。只需输入关键字和错误出现的时间,就能够快速的定位错误,从而快速的进行下一步操作解决错误,既方便又快捷。
实施例4:
在实施例1的基础上,结合附图1所示,所述步骤2.1)中的收集信息包括:
2.1.1)收集计算机信息,通过调用WinHostMon:computer脚本实现对windows中计算机信息的日志收集,其中包括计算机名、所属域信息,将splunk_monitoring作为存储的索引,类型为computer,日志设置为每300秒刷新一次;
2.1.2)收集操作系统信息,通过调用WinHostMon:os脚本实现对操作系统信息的收集,其中包括操作系统版本、总的内存容量和剰余内存容量,存储的索引为splunk_monitoring,类别为operatingSystem,设置300秒刷新一次系统信息日志;
2.1.3)收集进程信息,通过调用WinHostMon:processor脚本实现对进程信息的收集,其中包括进程名、所占用的空间大小,存储的索引为:splunk_monitoring,类型为processor,设置10秒刷新一次进程日志;
2.1.4)收集磁盘信息,通过调用WinHostMon:disT脚本实现对磁盘信息的收集,存储在索引splunk_monitoring的disT类型目录下,其中包括磁盘名、磁盘的总容量、磁盘剩余容量,设置每10秒刷新一次;
2.1.5)收集服务信息,通过调用WinHostMon:service脚本,实现对服务信息的收集,并将日志存储在索引splunk_monitoring的service类型目录下,其中包括服务名、服务进程ID,日志设置每300秒刷新一次;
2.1.6)收集应用信息,通过调用WinHostMon:application脚本,实现对应用信息的收集,并将日志存储在索引splunk_monitoring的application类型目录下,其中包括应用程序名、错误类型、错误描述,日志设置每10秒刷新一次;
2.1.7)收集AIX系统日志信息,通过在AIX系统上部署通用转发器,配置日志收集的脚本,实现对AIX操作系统的日志收集,将收集的日志存储在Unix索引下。
根据收集的不同信息,为了方便后续的调用索引操作,需要为不同类型的日志建立不同的索引。
实施例5:
在实施例1的基础上,结合附图1所示,所述集群环境由主节点(Master node)、对等节点(Peers node)、搜索头节点(Search head)和日志收集节点(Forwarders)构成,其中:
主节点(Master node):用于查看所述数据索引owa在对等节点间的分布状况,管理搜索头节点(Search head),设置复制因子和搜索因子,所述复制因子即为可复制的份数,所述搜索因子为提供搜索的份数;
搜索头节点(Search head):用于对收集的日志进行处理;
对等节点(Peers node):用于存储索引文件,多个对等节点的索引文件配置相同,实现多个节点之间的负载均衡和同步复制;
日志收集节点(Forwarders):上层日志的源头,用于对每个子节点数据进行收集,通过分布式的分发给多个索引,实现分布式的实时处理。
通过多个节点实现分布式的实时处理来达到加快数据处理速度的目的。
进一步的优选,所述主节点(Master node)设有管理界面,所述管理界面用于:
管理对等节点(Peers node):由主节点(Master node)的管理界面查看对等节点(Peers node)的运行状态、增加或删除对等节点(Peers node);
管理数据索引owa:可实时查看索引的复制状态;
管理搜索头节点(Search head):因为主节点(Master node)会自动的创建一个搜索头节点,并且可以在主节点(Master node)的管理界面查看搜索头节点的运行状况,増加或删除搜索头节点。
整个节点架构是通过从日志收集节点(Forwarders)执行日志收集脚本,再将收集的日志分别传输到多个对等节点(Peers node),在传输的过程中实现对日志收集节点(Forwarders)的负载均衡,并且保证数据完整性,在对等节点(Peers node)收到日志数据后,通过对等节点(Peers node)之间的索引同步,实现多个索引数据一致,而对等节点(Peers node)接收的量值是由主节点(Master node)来调控的,在对等节点收到数据后,捜索头节点(Search head)就可以检索对等节点(Peers node)里的数据,实现对日志结果的操作。
实施例6:
在以上实施例的基础上,结合附图1所示,所述日志流量预测模型基于卡尔曼滤波算法预测模型。
卡尔曼滤波(Kalman filtering)一种利用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响,所以最优估计也可看作是滤波过程。卡尔曼滤波预测模型通过对每个小时的日志流量的统计,可以确切推出日志量的一个走势,并利用走势图,可以发现明显的一些规律,同时也能利用卡尔曼滤波算法的实时性,实时得出下个时间段的预测值。采用信号与噪声的状态空间模型,利用前一时刻地估计值和现时刻的观测值来更新对状态变量的估计,求出现时刻的估计值。它适合于实时处理和计算机运算。现设线性时变系统的离散状态方程和观测方程为:
X(T)=F(T,T-1)·X(T-1)+T(T,T-1)·U(T-1)
Y(T)=H(T)·X(T)+N(T)
其中,X(T)和Y(T)分别是T时刻的状态矢量和观测矢量,F(T,T-1)为状态转移矩阵,U(T)为T时刻动态噪声,T(T,T-1)为系统控制矩阵,H(T)为T时刻观测矩阵,N(T)为T时刻观测噪声,则卡尔曼滤波的算法流程为:
预估计X(T)^=F(T,T-1)·X(T-1)
预估计协方差矩阵:
C(T)^=F(T,T-1)×C(T)×F(T,T-1)'+T(T,T-1)×Q(T)×T(T,T-1)'
Q(T)=U(T)×U(T)'
卡尔曼增益矩阵:
T(T)=C(T)^×H(T)'×[H(T)×C(T)^×H(T)'+R(T)]^(-1)
R(T)=N(T)×N(T)'
更新估计X(T)~=X(T)^+T(T)×[Y(T)-H(T)×X(T)^]
计算更新后估计协方差矩阵:
C(T)~=[I-T(T)×H(T)]×C(T)^×[I-T(T)×H(T)]'+T(T)×R(T)×
T(T)'X(T+1)=X(T)~
C(T+1)=C(T)~
重复以上步骤,估算当前时刻与前一时刻的系统预测误差,如果超出预测区间,则结束,发出预警,提醒运维人员及时的带宽扩容,防止业务系统的访问异常。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (7)
1.国网云中应用的一种基于大数据运维日志的方法,包括搭建大数据运维日志的硬件环境、软件环境和集群环境,其特征在于,还包括:
1)采集日志信息并进行日志预处理,具体包括:
1.1)从软硬件设备采集日志信息,并采用shell脚本、python脚本或Apache脚本中的任意一种对所述日志信息解析后转换成统一的日志格式,所述日志信息包括计算机信息、系统信息、进程信息、磁盘信息、服务信息和应用信息;
1.2)用SQL语言提取日志中的用户名和IP地址,生成用于识别用户的表格实现日志清洗去重,所述SQL语言的代码为:
index=splunk_monitoring sourcetype=tcp //获取索引和日志类型
dedup host //去掉重复此主机的日志
table localaddress localport remotehostname remoteport processnameusername //统计该日志字段的值,并生成表格;
1.3)由所述表格中提取的用户名和IP地址识别用户,并生成以IP地址为主字段的记录实现日志用户识别;
2)统计一段时间的日志流量,并据此预测出日志流量的走势并生成流量走势图展示给用户,具体包括:
统计一段时间的日志流量,运用时间序列分析法进行日志流量统计,预测日志流量的走势,为后续的日志流量预测模型提供数据;
日志流量预测模型加载所述日志流量值并运行,并生成流量走势图,实时的预测日志流量;
3)将步骤2)中生成的流量走势图通过展示界面可视化呈现。
2.根据权利要求1所述的国网云中应用的一种基于大数据运维日志的方法,其特征在于,所述展示界面还包括用于展示服务器运行情况的服务器监控模块,所述服务器监控模块分析本地服务器产生的日志信息,并显示当前服务器的动态实现监控本地服务器以及采用splunk指定要访问云上服务器,通过远程桌面连接云上服务器,收集云上服务器的数据至本地,从最新的日志数据中,提取出最新的服务器空间状况,实现云上服务器的实时监控。
3. 根据权利要求1所述的国网云中应用的一种基于大数据运维日志的方法,其特征在于,所述展示界面还包括用于搜索日志信息的日志搜索模块,所述日志搜索模块将所有的日志实时的收集到一起,建立起一个统一的搜索中心,通过调用splunk的应用组件创建输入框实现对日志的检索,将各个服务器的日志汇总显示,并建立数据索引owa;在所述数据索引owa中输入关键字和错误出现的时间,实现对在线预览文档的Office Web Apps服务器进行日志的搜索排错。
4.根据权利要求1所述的国网云中应用的一种基于大数据运维日志的方法,其特征在于,所述步骤2.1)中的收集信息包括:
2.1.1)收集计算机信息,通过调用WinHostMon:computer脚本实现对windows中计算机信息的日志收集,其中包括计算机名、所属域等信息,将splunk_monitoring作为存储的索引,类型为computer,日志设置为每300秒刷新一次;
2.1.2)收集操作系统信息,通过调用WinHostMon:os脚本实现对操作系统信息的收集,其中包括操作系统版本、总的内存容量和剰余内存容量,存储的索引为splunk_monitoring,类别为operatingSystem,设置300秒刷新一次系统信息日志;
2.1.3)收集进程信息,通过调用WinHostMon:processor脚本实现对进程信息的收集,其中包括进程名、所占用的空间大小,存储的索引为:splunk_monitoring,类型为processor,设置10秒刷新一次进程日志;
2.1.4)收集磁盘信息,通过调用WinHostMon:disT脚本实现对磁盘信息的收集,存储在索引splunk_monitoring的disT类型目录下,其中包括磁盘名、磁盘的总容量、磁盘剩余容量,设置每10秒刷新一次;
2.1.5)收集服务信息,通过调用WinHostMon:service脚本,实现对服务信息的收集,并将日志存储在索引splunk_monitoring的service类型目录下,其中包括服务名、服务进程ID,日志设置每300秒刷新一次;
2.1.6)收集应用信息,通过调用WinHostMon:application脚本,实现对应用信息的收集,并将日志存储在索引splunk_monitoring的application类型目录下,其中包括应用程序名、错误类型、错误描述,日志设置每10秒刷新一次;
2.1.7)收集AIX系统日志信息,通过在AIX系统上部署通用转发器,配置日志收集的脚本,实现对AIX操作系统的日志收集,将收集的日志存储在Unix索引下。
5. 根据权利要求1所述的国网云中应用的一种基于大数据运维日志的方法,其特征在于,所述集群环境由主节点(Master node)、对等节点(Peers node)、搜索头节点(Searchhead)和日志收集节点(Forwarders)构成,其中:
主节点(Master node):用于查看所述数据索引owa在对等节点间的分布状况,管理搜索头节点(Search head),设置复制因子和搜索因子,所述复制因子即为可复制的份数,所述搜索因子为提供搜索的份数;
搜索头节点(Search head):用于对收集的日志进行处理;
对等节点(Peers node):用于存储索引文件,多个对等节点的索引文件配置相同,实现多个节点之间的负载均衡和同步复制;
日志收集节点(Forwarders):上层日志的源头,用于对每个子节点数据进行收集,通过分布式的分发给多个索引,实现分布式的实时处理。
6. 根据权利要求5所述的国网云中应用的一种基于大数据运维日志的方法,其特征在于,所述主节点(Master node)设有管理界面,所述管理界面用于:
管理对等节点(Peers node):由主节点(Master node)的管理界面查看对等节点(Peers node)的运行状态、增加或删除对等节点(Peers node);
管理数据索引owa:可实时查看索引的复制状态;
管理搜索头节点(Search head):因为主节点(Master node)会自动的创建一个搜索头节点,并且可以在主节点(Master node)的管理界面查看搜索头节点的运行状况,増加或删除搜索头节点。
7.根据权利要求1-6中任意一项所述的国网云中应用的一种基于大数据运维日志的方法,其特征在于,所述日志流量预测模型基于卡尔曼滤波算法预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710365526.3A CN107332685A (zh) | 2017-05-22 | 2017-05-22 | 国网云中应用的一种基于大数据运维日志的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710365526.3A CN107332685A (zh) | 2017-05-22 | 2017-05-22 | 国网云中应用的一种基于大数据运维日志的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107332685A true CN107332685A (zh) | 2017-11-07 |
Family
ID=60193605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710365526.3A Pending CN107332685A (zh) | 2017-05-22 | 2017-05-22 | 国网云中应用的一种基于大数据运维日志的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107332685A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108737170A (zh) * | 2018-05-09 | 2018-11-02 | 中国银行股份有限公司 | 一种批量日志异常数据告警方法及装置 |
CN109241180A (zh) * | 2018-08-01 | 2019-01-18 | 福建天泉教育科技有限公司 | 一种基于日志的数据同步的方法及装置 |
CN110730109A (zh) * | 2019-10-12 | 2020-01-24 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111290913A (zh) * | 2020-02-04 | 2020-06-16 | 复旦大学 | 一种基于运维数据预测的故障定位可视化系统和方法 |
CN111541645A (zh) * | 2020-03-24 | 2020-08-14 | 国家计算机网络与信息安全管理中心 | 一种VoIP服务知识库构建方法及系统 |
CN112381322A (zh) * | 2020-11-27 | 2021-02-19 | 上海九方云智能科技有限公司 | 基于期权计算波动率指数来进行风险预警的方法及系统 |
EP3798846A4 (en) * | 2018-06-28 | 2021-07-28 | ZTE Corporation | OPERATING AND MAINTENANCE SYSTEM AND PROCEDURES |
CN113297048A (zh) * | 2021-05-24 | 2021-08-24 | 北京鼎事兴教育咨询有限公司 | 日志数据的处理方法、电子设备及存储介质 |
WO2021232292A1 (zh) * | 2020-05-20 | 2021-11-25 | 深圳市欢太科技有限公司 | 日志数据处理方法及相关产品 |
CN115086206A (zh) * | 2022-06-14 | 2022-09-20 | 工银科技有限公司 | 一种客户端软件调试方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105323111A (zh) * | 2015-11-17 | 2016-02-10 | 南京南瑞集团公司 | 一种运维自动化系统及方法 |
US20170034023A1 (en) * | 2015-07-27 | 2017-02-02 | Datagrid Systems, Inc. | Techniques for evaluating server system reliability, vulnerability and component compatibility using crowdsourced server and vulnerability data |
-
2017
- 2017-05-22 CN CN201710365526.3A patent/CN107332685A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170034023A1 (en) * | 2015-07-27 | 2017-02-02 | Datagrid Systems, Inc. | Techniques for evaluating server system reliability, vulnerability and component compatibility using crowdsourced server and vulnerability data |
CN105323111A (zh) * | 2015-11-17 | 2016-02-10 | 南京南瑞集团公司 | 一种运维自动化系统及方法 |
Non-Patent Citations (1)
Title |
---|
周亮彪: "IT运维大数据平台日志分析系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108737170A (zh) * | 2018-05-09 | 2018-11-02 | 中国银行股份有限公司 | 一种批量日志异常数据告警方法及装置 |
US11947438B2 (en) | 2018-06-28 | 2024-04-02 | Xi'an Zhongxing New Software Co., Ltd. | Operation and maintenance system and method |
EP3798846A4 (en) * | 2018-06-28 | 2021-07-28 | ZTE Corporation | OPERATING AND MAINTENANCE SYSTEM AND PROCEDURES |
CN109241180B (zh) * | 2018-08-01 | 2021-06-04 | 福建天泉教育科技有限公司 | 一种基于日志的数据同步的方法及装置 |
CN109241180A (zh) * | 2018-08-01 | 2019-01-18 | 福建天泉教育科技有限公司 | 一种基于日志的数据同步的方法及装置 |
CN110730109A (zh) * | 2019-10-12 | 2020-01-24 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111290913A (zh) * | 2020-02-04 | 2020-06-16 | 复旦大学 | 一种基于运维数据预测的故障定位可视化系统和方法 |
CN111541645B (zh) * | 2020-03-24 | 2022-06-17 | 国家计算机网络与信息安全管理中心 | 一种VoIP服务知识库构建方法及系统 |
CN111541645A (zh) * | 2020-03-24 | 2020-08-14 | 国家计算机网络与信息安全管理中心 | 一种VoIP服务知识库构建方法及系统 |
WO2021232292A1 (zh) * | 2020-05-20 | 2021-11-25 | 深圳市欢太科技有限公司 | 日志数据处理方法及相关产品 |
CN112381322A (zh) * | 2020-11-27 | 2021-02-19 | 上海九方云智能科技有限公司 | 基于期权计算波动率指数来进行风险预警的方法及系统 |
CN113297048A (zh) * | 2021-05-24 | 2021-08-24 | 北京鼎事兴教育咨询有限公司 | 日志数据的处理方法、电子设备及存储介质 |
CN115086206A (zh) * | 2022-06-14 | 2022-09-20 | 工银科技有限公司 | 一种客户端软件调试方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107332685A (zh) | 国网云中应用的一种基于大数据运维日志的方法 | |
US11550829B2 (en) | Systems and methods for load balancing in a system providing dynamic indexer discovery | |
CN108270785B (zh) | 一种基于知识图谱的分布式安全事件关联分析方法 | |
US20160359880A1 (en) | Geo visualization of network flows | |
CN106487596A (zh) | 分布式服务跟踪实现方法 | |
CN111885040A (zh) | 分布式网络态势感知方法、系统、服务器及节点设备 | |
Lu et al. | A framework for cloud-based large-scale data analytics and visualization: Case study on multiscale climate data | |
EP3553678A1 (en) | Systems and methods for accessing data items and aggregating data records | |
CN108039959A (zh) | 一种数据的态势感知方法、系统及相关装置 | |
US11416278B2 (en) | Presenting hypervisor data for a virtual machine with associated operating system data | |
CN113347170B (zh) | 一种基于大数据框架的智能分析平台设计方法 | |
US10055459B2 (en) | Query hint management for a database management system | |
CN110719194B (zh) | 一种网络数据的分析方法及装置 | |
CN108268485A (zh) | 一种日志实时分析方法及系统 | |
CN113448812A (zh) | 微服务场景下的监控告警方法及装置 | |
CN111756706A (zh) | 一种异常流量检测方法、装置及存储介质 | |
US20170201606A1 (en) | Automatically adjusting timestamps from remote systems based on time zone differences | |
CN107683467A (zh) | 用于使用结构监视系统来处理涉及计算系统和网络的事件的系统和方法 | |
US20160308733A1 (en) | Systems and Methods for Indicating Deployment of Application Features | |
CN114116872A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
US20210392165A1 (en) | Application protectability schemes for enterprise applications | |
Eismann et al. | Teastore-a micro-service reference application | |
Ali et al. | Detecting anomalies from end-to-end internet performance measurements (PingER) using cluster based local outlier factor | |
Semeraro et al. | It takes a village: Monitoring the blue waters supercomputer | |
CN112989150A (zh) | 一种运维图的获取方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171107 |