CN107332685A

CN107332685A - 国网云中应用的一种基于大数据运维日志的方法

Info

Publication number: CN107332685A
Application number: CN201710365526.3A
Authority: CN
Inventors: 王萍; 胡聪; 吴斌; 马永; 张禾良; 蔡梦臣; 吴尚; 徐敏; 方圆; 倪平波; 张捷; 胡州明; 欧渊; 杨帆; 吴磊; 左发先
Original assignee: SICHUAN ZHONGDIAN VENUS INFORMATION TECHNOLOGY Co Ltd; Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Current assignee: SICHUAN ZHONGDIAN VENUS INFORMATION TECHNOLOGY Co Ltd; Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2017-11-07

Abstract

本发明公开了国网云中应用的一种基于大数据运维日志的方法，还包括：1）采集日志信息并进行日志预处理，具体包括采集日志信息并用脚本对日志信息解析转换成统一格式，用SQL语言代码对日志信息进行清洗去重，和获取以IP地址为主字段的记录用于用户识别；2）统计一段时间的日志流量，运用时间序列分析法进行日志流量统计，预测日志流量的走势，为后续的日志流量预测模型提供数据；日志流量预测模型加载所述日志流量值并运行，并生成流量走势图，实时的预测日志流量；3）将步骤2）中生成的流量走势图通过展示界面可视化呈现。本发明在统一日志搜索中心对日志字段进行搜索，能够快速的定位错误，实现对日志流量的提前预测和预警。

Description

国网云中应用的一种基于大数据运维日志的方法

技术领域

本发明涉及计算机技术领域，具体的说，是国网云中应用的一种基于大数据运维日志的方法。

背景技术

“国网云”包括生产控制云、企业管理云和公共服务云，分别为国家电网公司的生产控制、企业管理及对外服务提供相应的技术支撑，而“国网云”平台则是管理、调控、支撑这三朵云的核心。大数据(big data)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据运维日志主要来自于机器数据，机器数据主要是指来自服务器、存储、网络中的传统接口数据，也常常被认为是机器生产的数据，机器生成的数据是发展最快、最复杂同时也是最宝贵的那部分大数据，但是现有的大数据挖掘和数据分析基本上都是建立在人的行为和商业运作产生的数据上，当服务器出错时，运维人员需要进入每一台服务器上应用的安装目录，找到日志路径，筛选日志产生的时间，再进入日志文本中查找关键字，找到报错的日志信息。这样运维人员需要经过繁琐的操作和筛选，才能将定位出错的位置,并且传统的日志服务器缺少实时过滤和深入分析日志能力，存在不能实时的分析和展示当前状况以及预测未来情况的问题。

发明内容

本发明的目的在于提供国网云中应用的一种基于大数据运维日志的方法，用于解决现有技术中运维日志出错时运维人员需要进入服务器出错日志的根目录查找关键词，筛选数据量较大、工作繁琐、效率不高以及不能预测未来日志流量是否超出预警值的问题。

为了达到上述目的，本发明通过下述技术方案实现：

国网云中应用的一种基于大数据运维日志的方法，包括搭建大数据运维日志的硬件环境、软件环境和集群环境，还包括：

1)采集日志信息并进行日志预处理，具体包括：

1.1)从软硬件设备采集日志信息，并采用shell脚本、python脚本或Apache脚本中的任意一种对所述日志信息解析后转换成统一的日志格式，所述日志信息包括计算机信息、系统信息、进程信息、磁盘信息、服务信息和应用信息；

1.2)用SQL语言提取日志中的用户名和IP地址，生成用于识别用户的表格实现日志清洗去重，所述SQL语言的代码为：

index＝splunk_monitoring sourcetype＝tcp//获取索引和日志类型

dedup host//去掉重复此主机的日志

table localaddress localport remotehostname remoteport processnameusername//统计该日志字段的值，并生成表格；

1.3)由所述表格中提取的用户名和IP地址识别用户，并生成以IP地址为主字段的记录实现日志用户识别；

2)统计一段时间的日志流量，并据此预测出日志流量的走势并生成流量走势图展示给用户，具体包括：

统计一段时间的日志流量，运用时间序列分析法进行日志流量统计，预测日志流量的走势，为后续的日志流量预测模型提供数据；

日志流量预测模型加载所述日志流量值并运行，并生成流量走势图，实时的预测日志流量；

3)将步骤2)中生成的流量走势图通过展示界面可视化呈现。

大数据运维日志分为日志预处理、日志流量预测、展示界面三大块，通过脚本对日志进行解析后转换成统一的日志格式，经过日志的清洗和合并，提取以IP地址为主字段的记录实现日志用户识别，再通过时间序列分析法对日志流量进行统计，再采用日志流量预测模型进行预测，日志流量预测模型采用卡尔曼滤波算法模型，通过运行日志预处理后的信息，运行模型，最后生成展示界面。当运维人员发现预测的流量继续向上，并且将要超过以前的历史流量高点时，可考虑在现有带宽的基础上进行扩容，实现对灾难的提前预警。

进一步的优选，所述展示界面还包括用于展示服务器运行情况的服务器监控模块，所述服务器监控模块分析本地服务器产生的日志信息，并显示当前服务器的动态实现监控本地服务器以及采用splunk指定要访问云上服务器，通过远程桌面连接云上服务器，收集云上服务器的数据至本地，从最新的日志数据中，提取出最新的服务器空间状况，实现云上服务器的实时监控。

splunk是机器数据的引擎，使用splunk可收集、索引和利用所有应用程序、服务器和设备(物理、虚拟和云中)生成的快速移动型计算机数据，从一个位置搜索并分析所有实时和历史数据，实时的通过服务器产生的日志信息，观察计算的各项指标动态，不仅方便维护，更能防止服务器宕机，在服务器有多台的时候，利用splunk收集和处理实时的日志数据，能将不同服务器之间的数据都收集在一起，通过提取到每台服务器的日志，分析其动态，是可行且非常方便的。云上的服务器通过远程桌面连接，可以通过splunk指定接收服务器地址，同样可将云上服务器的数据收集到本地来，一个界面就能看到所有云上服务器的状态，从而实现本地服务器和云上服务器的实时监控。

进一步的优选，所述展示界面还包括用于搜索日志信息的日志搜索模块，所述日志搜索模块将所有的日志实时的收集到一起，建立起一个统一的搜索中心，通过调用splunk的应用组件创建输入框实现对日志的检索，将各个服务器的日志汇总显示，并建立数据索引owa；在所述数据索引owa中输入关键字和错误出现的时间，实现对在线预览文档的Office Web Apps服务器进行日志的搜索排错。

通过建立日志统一搜索中心后，避免了到每台服务器中，周而复始的进服务器找目录，并且日志都是实时收集不存在延时问题。只需输入关键字和错误出现的时间，就能够快速的定位错误，从而快速的进行下一步操作解决错误，既方便又快捷。

进一步的优选，所述步骤2.1)中的收集信息包括：

2.1.1)收集计算机信息，通过调用WinHostMon：computer脚本实现对windows中计算机信息的日志收集，其中包括计算机名、所属域信息，将splunk_monitoring作为存储的索引，类型为computer，日志设置为每300秒刷新一次；

2.1.2)收集操作系统信息，通过调用WinHostMon：os脚本实现对操作系统信息的收集，其中包括操作系统版本、总的内存容量和剰余内存容量，存储的索引为splunk_monitoring,类别为operatingSystem，设置300秒刷新一次系统信息日志；

2.1.3)收集进程信息，通过调用WinHostMon：processor脚本实现对进程信息的收集，其中包括进程名、所占用的空间大小，存储的索引为：splunk_monitoring，类型为processor，设置10秒刷新一次进程日志；

2.1.4)收集磁盘信息，通过调用WinHostMon：disT脚本实现对磁盘信息的收集，存储在索引splunk_monitoring的disT类型目录下，其中包括磁盘名、磁盘的总容量、磁盘剩余容量，设置每10秒刷新一次；

2.1.5)收集服务信息，通过调用WinHostMon：service脚本，实现对服务信息的收集，并将日志存储在索引splunk_monitoring的service类型目录下，其中包括服务名、服务进程ID，日志设置每300秒刷新一次；

2.1.6)收集应用信息，通过调用WinHostMon：application脚本，实现对应用信息的收集，并将日志存储在索引splunk_monitoring的application类型目录下，其中包括应用程序名、错误类型、错误描述，日志设置每10秒刷新一次；

2.1.7)收集AIX系统日志信息，通过在AIX系统上部署通用转发器，配置日志收集的脚本，实现对AIX操作系统的日志收集，将收集的日志存储在Unix索引下。

根据收集的不同信息，为不同类型的日志建立不同的索引，方便后续的调用索引操作。

进一步的优选，所述集群环境由主节点(Master node)、对等节点(Peers node)、搜索头节点(Search head)和日志收集节点(Forwarders)构成，其中：

主节点(Master node)：用于查看所述数据索引owa在对等节点间的分布状况，管理搜索头节点(Search head)，设置复制因子和搜索因子，所述复制因子即为可复制的份数，所述搜索因子为提供搜索的份数；

搜索头节点(Search head)：用于对收集的日志进行处理；

对等节点(Peers node)：用于存储索引文件，多个对等节点的索引文件配置相同，实现多个节点之间的负载均衡和同步复制；

日志收集节点(Forwarders)：上层日志的源头，用于对每个子节点数据进行收集，通过分布式的分发给多个索引，实现分布式的实时处理。

通过多个节点实现分布式的实时处理来达到加快数据处理速度的目的。

进一步的优选，所述主节点(Master node)设有管理界面，所述管理界面用于：

管理对等节点(Peers node)：由主节点(Master node)的管理界面查看对等节点(Peers node)的运行状态、增加或删除对等节点(Peers node)；

管理数据索引owa：可实时查看索引的复制状态；

管理搜索头节点(Search head)：因为主节点(Master node)会自动的创建一个搜索头节点，并且可以在主节点(Master node)的管理界面查看搜索头节点(Search head)的运行状况，増加或删除搜索头节点(Search head)。

整个节点架构是通过从日志收集节点执行日志收集脚本，再将收集的日志分别传输到多个对等节点(Peers node)，在传输的过程中实现对日志收集节点(Forwarders)的负载均衡，并且保证数据完整性，在对等节点(Peers node)收到日志数据后，通过对等节点(Peers node)之间的索引同步，实现多个索引数据一致，而对等节点(Peers node)接收的量值是由主节点(Master node)来调控的，在对等节点(Peers node)收到数据后，捜索头节点就可以检索对等节点(Peers node)里的数据，实现对日志结果的操作。

进一步的优选，所述日志流量预测模型基于卡尔曼滤波算法预测模型。

卡尔曼滤波(Kalman filtering)一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响，所以最优估计也可看作是滤波过程。卡尔曼滤波预测模型通过对每个小时的日志流量的统计，可以确切推出日志量的一个走势，并利用走势图，可以发现明显的一些规律，同时也能利用卡尔曼滤波算法的实时性，实时得出下个时间段的预测值。

本发明与现有技术相比，具有以下优点及有益效果：

本发明可以实现服务器监控，查看服务器的具体资源所占用的空间及运行状态，当空间占用过高或者服务处于异常时，给出特殊颜色提醒维护人员进行及时的维护，从而更高效的工作，建立统一日志搜索中心，通过对日志字段进行搜索，能够快速的定位错误，通过以前累积的日志数据，运用数据挖掘中的时间序列分析法，对日志流量实现提前预测，对未来流量是否会超出预警值，进行提前预警。

附图说明

图1为本发明的系统原理框图。

具体实施方式

首先，在对本发明的具体实施例进行详述之前，对本文中涉及的专有名词给予解释：

owa:即office web apps的缩写，是由微软推出的基于Web端的在线办公工具，它将Microsoft Office 2010产品的体验延伸到可支持的浏览器上。Office Web Apps让你可以从几乎任何地方共享自己Office文档；

宕机,指系统无法从一个系统错误中恢复过来，或系统硬件层面出问题，以致系统长时间无响应，而不得不重启动系统的现象；

乘号“×”与点乘“·”的区别：点乘“·”是数组的运算，要求参与运算的两个量必须是维数相同，是对应元素的相乘。乘号“×”是矩阵或逆矩阵的运算要求前一个矩阵的列的维数等于后一个矩阵的行的维数。A.*B表示的是两个矩阵的对应元素相乘，其中生成的同阶矩阵C的对应的矩阵元素为：C(i,j)＝A(i,j)*B(i,j)；而如果A·B的话，则是正常的矩阵相乘，并非是对应的元素相乘。

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

结合附图1所示，国网云中应用的一种基于大数据运维日志的方法，包括搭建大数据运维日志的硬件环境、软件环境和集群环境，还包括：

1)采集日志信息并进行日志预处理，具体包括：

index＝splunk_monitoring sourcetype＝tcp//获取索引和日志类型

dedup host//去掉重复此主机的日志

3)将步骤2)中生成的流量走势图通过展示界面可视化呈现。

实施例2：

在实施例1的基础上，结合附图1所示，所述展示界面还包括用于展示服务器运行情况的服务器监控模块，所述服务器监控模块分析本地服务器产生的日志信息，并显示当前服务器的动态实现监控本地服务器以及采用splunk指定要访问云上服务器，通过远程桌面连接云上服务器，收集云上服务器的数据至本地，从最新的日志数据中，提取出最新的服务器空间状况，实现云上服务器的实时监控。

实施例3：

在实施例1的基础上，结合附图1所示，所述展示界面还包括用于搜索日志信息的日志搜索模块，所述日志搜索模块将所有的日志实时的收集到一起，建立起一个统一的搜索中心，通过调用splunk的应用组件创建输入框实现对日志的检索，将各个服务器的日志汇总显示，并建立数据索引owa；在所述数据索引owa中输入关键字和错误出现的时间，实现对在线预览文档的Office Web Apps服务器进行日志的搜索排错。

实施例4：

在实施例1的基础上，结合附图1所示，所述步骤2.1)中的收集信息包括：

根据收集的不同信息，为了方便后续的调用索引操作，需要为不同类型的日志建立不同的索引。

实施例5：

在实施例1的基础上，结合附图1所示，所述集群环境由主节点(Master node)、对等节点(Peers node)、搜索头节点(Search head)和日志收集节点(Forwarders)构成，其中：

搜索头节点(Search head)：用于对收集的日志进行处理；

管理数据索引owa：可实时查看索引的复制状态；

管理搜索头节点(Search head)：因为主节点(Master node)会自动的创建一个搜索头节点，并且可以在主节点(Master node)的管理界面查看搜索头节点的运行状况，増加或删除搜索头节点。

整个节点架构是通过从日志收集节点(Forwarders)执行日志收集脚本，再将收集的日志分别传输到多个对等节点(Peers node)，在传输的过程中实现对日志收集节点(Forwarders)的负载均衡，并且保证数据完整性，在对等节点(Peers node)收到日志数据后，通过对等节点(Peers node)之间的索引同步，实现多个索引数据一致，而对等节点(Peers node)接收的量值是由主节点(Master node)来调控的，在对等节点收到数据后，捜索头节点(Search head)就可以检索对等节点(Peers node)里的数据，实现对日志结果的操作。

实施例6：

在以上实施例的基础上，结合附图1所示，所述日志流量预测模型基于卡尔曼滤波算法预测模型。

卡尔曼滤波(Kalman filtering)一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响，所以最优估计也可看作是滤波过程。卡尔曼滤波预测模型通过对每个小时的日志流量的统计，可以确切推出日志量的一个走势，并利用走势图，可以发现明显的一些规律，同时也能利用卡尔曼滤波算法的实时性，实时得出下个时间段的预测值。采用信号与噪声的状态空间模型，利用前一时刻地估计值和现时刻的观测值来更新对状态变量的估计，求出现时刻的估计值。它适合于实时处理和计算机运算。现设线性时变系统的离散状态方程和观测方程为：

X(T)＝F(T,T-1)·X(T-1)+T(T,T-1)·U(T-1)

Y(T)＝H(T)·X(T)+N(T)

其中,X(T)和Y(T)分别是T时刻的状态矢量和观测矢量，F(T,T-1)为状态转移矩阵，U(T)为T时刻动态噪声，T(T,T-1)为系统控制矩阵，H(T)为T时刻观测矩阵，N(T)为T时刻观测噪声，则卡尔曼滤波的算法流程为：

预估计X(T)^＝F(T,T-1)·X(T-1)

预估计协方差矩阵：

C(T)^＝F(T,T-1)×C(T)×F(T,T-1)'+T(T,T-1)×Q(T)×T(T,T-1)'

Q(T)＝U(T)×U(T)'

卡尔曼增益矩阵：

T(T)＝C(T)^×H(T)'×[H(T)×C(T)^×H(T)'+R(T)]^(-1)

R(T)＝N(T)×N(T)'

更新估计X(T)～＝X(T)^+T(T)×[Y(T)-H(T)×X(T)^]

计算更新后估计协方差矩阵：

C(T)～＝[I-T(T)×H(T)]×C(T)^×[I-T(T)×H(T)]'+T(T)×R(T)×

T(T)'X(T+1)＝X(T)～

C(T+1)＝C(T)～

重复以上步骤，估算当前时刻与前一时刻的系统预测误差，如果超出预测区间，则结束，发出预警，提醒运维人员及时的带宽扩容，防止业务系统的访问异常。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.国网云中应用的一种基于大数据运维日志的方法，包括搭建大数据运维日志的硬件环境、软件环境和集群环境，其特征在于，还包括：

1）采集日志信息并进行日志预处理，具体包括：

1.1）从软硬件设备采集日志信息，并采用shell脚本、python脚本或Apache脚本中的任意一种对所述日志信息解析后转换成统一的日志格式，所述日志信息包括计算机信息、系统信息、进程信息、磁盘信息、服务信息和应用信息；

1.2）用SQL语言提取日志中的用户名和IP地址，生成用于识别用户的表格实现日志清洗去重，所述SQL语言的代码为：

index=splunk_monitoring sourcetype=tcp //获取索引和日志类型

dedup host //去掉重复此主机的日志

table localaddress localport remotehostname remoteport processnameusername //统计该日志字段的值，并生成表格；

1.3）由所述表格中提取的用户名和IP地址识别用户，并生成以IP地址为主字段的记录实现日志用户识别；

2）统计一段时间的日志流量，并据此预测出日志流量的走势并生成流量走势图展示给用户，具体包括：

3）将步骤2）中生成的流量走势图通过展示界面可视化呈现。

2.根据权利要求1所述的国网云中应用的一种基于大数据运维日志的方法，其特征在于，所述展示界面还包括用于展示服务器运行情况的服务器监控模块，所述服务器监控模块分析本地服务器产生的日志信息，并显示当前服务器的动态实现监控本地服务器以及采用splunk指定要访问云上服务器，通过远程桌面连接云上服务器，收集云上服务器的数据至本地，从最新的日志数据中，提取出最新的服务器空间状况，实现云上服务器的实时监控。

3. 根据权利要求1所述的国网云中应用的一种基于大数据运维日志的方法，其特征在于，所述展示界面还包括用于搜索日志信息的日志搜索模块，所述日志搜索模块将所有的日志实时的收集到一起，建立起一个统一的搜索中心，通过调用splunk的应用组件创建输入框实现对日志的检索，将各个服务器的日志汇总显示，并建立数据索引owa；在所述数据索引owa中输入关键字和错误出现的时间，实现对在线预览文档的Office Web Apps服务器进行日志的搜索排错。

4.根据权利要求1所述的国网云中应用的一种基于大数据运维日志的方法，其特征在于，所述步骤2.1）中的收集信息包括：

2.1.1）收集计算机信息，通过调用WinHostMon：computer脚本实现对windows中计算机信息的日志收集，其中包括计算机名、所属域等信息，将splunk_monitoring作为存储的索引，类型为computer，日志设置为每300秒刷新一次；

2.1.2）收集操作系统信息，通过调用WinHostMon：os脚本实现对操作系统信息的收集，其中包括操作系统版本、总的内存容量和剰余内存容量，存储的索引为splunk_monitoring,类别为operatingSystem，设置300秒刷新一次系统信息日志；

2.1.3）收集进程信息，通过调用WinHostMon：processor脚本实现对进程信息的收集，其中包括进程名、所占用的空间大小，存储的索引为：splunk_monitoring，类型为processor，设置10秒刷新一次进程日志；

2.1.4）收集磁盘信息，通过调用WinHostMon：disT脚本实现对磁盘信息的收集，存储在索引splunk_monitoring的disT类型目录下，其中包括磁盘名、磁盘的总容量、磁盘剩余容量，设置每10秒刷新一次；

2.1.5）收集服务信息，通过调用WinHostMon：service脚本，实现对服务信息的收集，并将日志存储在索引splunk_monitoring的service类型目录下，其中包括服务名、服务进程ID，日志设置每300秒刷新一次；

2.1.6）收集应用信息，通过调用WinHostMon：application脚本，实现对应用信息的收集，并将日志存储在索引splunk_monitoring的application类型目录下，其中包括应用程序名、错误类型、错误描述，日志设置每10秒刷新一次；

2.1.7）收集AIX系统日志信息，通过在AIX系统上部署通用转发器，配置日志收集的脚本，实现对AIX操作系统的日志收集，将收集的日志存储在Unix索引下。

5. 根据权利要求1所述的国网云中应用的一种基于大数据运维日志的方法，其特征在于，所述集群环境由主节点（Master node）、对等节点（Peers node）、搜索头节点（Searchhead）和日志收集节点（Forwarders）构成，其中：

主节点（Master node）：用于查看所述数据索引owa在对等节点间的分布状况，管理搜索头节点（Search head），设置复制因子和搜索因子，所述复制因子即为可复制的份数，所述搜索因子为提供搜索的份数；

搜索头节点（Search head）：用于对收集的日志进行处理；

对等节点（Peers node）：用于存储索引文件，多个对等节点的索引文件配置相同，实现多个节点之间的负载均衡和同步复制；

日志收集节点（Forwarders）：上层日志的源头，用于对每个子节点数据进行收集，通过分布式的分发给多个索引，实现分布式的实时处理。

6. 根据权利要求5所述的国网云中应用的一种基于大数据运维日志的方法，其特征在于，所述主节点（Master node）设有管理界面，所述管理界面用于：

管理对等节点（Peers node）：由主节点（Master node）的管理界面查看对等节点（Peers node）的运行状态、增加或删除对等节点（Peers node）；

管理数据索引owa：可实时查看索引的复制状态；

管理搜索头节点（Search head）：因为主节点（Master node）会自动的创建一个搜索头节点，并且可以在主节点（Master node）的管理界面查看搜索头节点的运行状况，増加或删除搜索头节点。

7.根据权利要求1-6中任意一项所述的国网云中应用的一种基于大数据运维日志的方法，其特征在于，所述日志流量预测模型基于卡尔曼滤波算法预测模型。