CN111177095B - 日志分析方法、装置、计算机设备及存储介质 - Google Patents

日志分析方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111177095B
CN111177095B CN201911257624.0A CN201911257624A CN111177095B CN 111177095 B CN111177095 B CN 111177095B CN 201911257624 A CN201911257624 A CN 201911257624A CN 111177095 B CN111177095 B CN 111177095B
Authority
CN
China
Prior art keywords
data
abnormal
log
processing
anomaly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911257624.0A
Other languages
English (en)
Other versions
CN111177095A (zh
Inventor
李婉
盛国娟
王颖
史墨祎
石娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911257624.0A priority Critical patent/CN111177095B/zh
Publication of CN111177095A publication Critical patent/CN111177095A/zh
Application granted granted Critical
Publication of CN111177095B publication Critical patent/CN111177095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开一种日志分析方法、装置、计算机设备及存储介质,包括:获取输入数据集,其中,输入数据集为对获取的原始日志数据进行标准化处理后,具有统一的数据结构的数据;将输入数据集输入至预设的异常分析模型中生成异常数据,其中,异常分析模型为预先训练至收敛状态,用于对日志数据中的异常数据进行提取的循环神经网络模型;基于预设的异常历史数据库,对异常数据进行关联处理。本申请能够快速获取来自不同服务器上的原始日志数据,进行标准化处理后使之具备相同的数据结构,再对日志数据采用循环神经网络模型来进行异常识别,即使在数据量庞大的情况下,也能快速进行识别,并对异常数据进行关联性处理,以加快异常数据处理的速度和精确度。

Description

日志分析方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机应用技术领域,具体而言,本发明涉及一种日志分析方法、装置、计算机设备及存储介质。
背景技术
日志反映了用户机器设备的基本信息和运行情况。目前常采用的处理方法是故障发生后,登录到各台服务器,使用grep、sed、awk等Linux脚本工具去日志里查看故障原因,排查时间长,还不一定可以及时找到故障根源。
发明人发现,随着云计算和大数据技术的发展,大数据的研究和应用带来了巨大的商业价值和社会价值。通过分析日志可以发现用户活动和习惯、应用系统和产品的运行状况。但是由于用户机器设备使用来自不同厂商的硬件和软件产生不同的日志格式和日志形式,数量庞大,冗余信息多,目前对日志数据还缺乏关联分析和深度利用。因此,如何分析和挖掘日志,从中发现网络异常或隐患系统,对实现运维智能化、保障业务系统稳定运行具有重要作用。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,公开一种日志分析方法、装置、计算机设备及存储介质,能快速获取原始日志数据,且快速进行异常识别和关联分析处理。
为了达到上述目的,本发明公开一种日志分析方法,包括:
获取输入数据集,其中,所述输入数据集为对获取的原始日志数据进行标准化处理后,具有统一的数据结构的数据;
将所述输入数据集输入至预设的异常分析模型中生成异常数据,其中,所述异常分析模型为预先训练至收敛状态,用于对日志数据中的异常数据进行提取的循环神经网络模型;
基于预设的异常历史数据库,对所述异常数据进行关联处理。
可选的,所述获取输入数据集的方法包括:
通过预设的日志分析模块从各个服务器中抓取原始日志数据;
根据预设的日志类型对所述原始日志数据进行筛选,生成目标日志数据;
对所述目标日志数据进行标准化处理后生成所述输入数据集,其中,所述标准化处理包括分类、干扰词过滤和去重。
可选的,所述异常分析模型的训练方法包括:
获取标记有异常数据的训练集数据,其中,所述训练集数据为收集的日志数据;
通过所述训练集数据对初始化的神经网络模型进行迭代训练,以生成多个损失函数值;
选取损失函数值最小的参数作为预估模型的参数,以通过所述预估模型对所述输入数据集进行数据处理,输出异常数据。
可选的,所述循环神经网络模型包括输入层、隐藏层和输出层,所述通过所述训练集数据对初始化的循环神经网络模型进行迭代训练的方法包括:
将所述训练集数据通过输入层输入;
隐藏层同步接收所述输入层输入的数据和该隐藏层在上一个状态的输出结果作为输入数据进行训练。
可选的,所述基于预设的异常历史数据库,对所述异常数据进行关联处理的方法包括:
识别所述异常数据是否已经存储在异常历史数据库中;
当已经存储在所述异常历史数据库中时,从所述异常历史数据库中提取所述异常数据对应的历史处理参数,根据所述历史处理参数对所述异常数据进行处理。
可选的,所述基于预设的异常历史数据库,对所述异常数据进行关联处理的方法还包括:
当所述异常数据未存储在所述异常历史数据库中时,分析所述异常数据的类型,根据所述类型所映射的处理规则对所述异常数据进行处理。
可选的,所述日志分析模块为通过Kubernetes容器采用ElasticSearch、Logstash和Kibana搭建而成。
另一方面,本申请公开一种日志分析装置,包括:
获取模块:被配置为执行获取输入数据集,其中,所述输入数据集为对获取的原始日志数据进行标准化处理后,具有统一的数据结构的数据;
识别模块:被配置为执行将所述输入数据集输入至预设的异常分析模型中生成异常数据,其中,所述异常分析模型为预先训练至收敛状态,用于对日志数据中的异常数据进行提取的循环神经网络模型;
处理模块:被配置为执行基于预设的异常历史数据库,对所述异常数据进行关联处理。
可选的,所述获取模块包括:
抓取模块:被配置为执行通过预设的日志分析模块从服务器中抓取原始日志数据;
选取模块:被配置为执行根据预设的日志类型对所述原始日志数据进行筛选,生成目标日志数据;
标准模块:被配置为执行对所述目标日志数据进行标准化处理后生成所述输入数据集,其中,所述标准化处理包括分类、干扰词过滤和去重。
可选的,所述识别模块包括:
预处理模块:被配置为执行获取标记有异常数据的训练集数据,其中,所述训练集数据为收集的日志数据;
训练模块:被配置为执行通过所述训练集数据对初始化的循环神经网络模型进行迭代训练,以生成多个损失函数值;
选取模块:被配置为执行选取损失函数值最小的参数作为预估模型的参数,以通过所述预估模型对所述输入数据集进行数据处理,输出异常数据。
可选的,所述循环神经网络模型包括输入层、隐藏层和输出层,所述训练模块包括:
输入模块:被配置为执行将所述训练集数据通过输入层输入;
迭代训练模块:被配置为执行隐藏层同步接收所述输入层输入的数据和该隐藏层在上一个状态的输出结果作为输入数据进行训练。
可选的,所述处理模块包括:
历史数据识别模块:被配置为执行识别所述异常数据是否已经存储在异常历史数据库中;
匹配关联模块:被配置为执行当已经存储在所述异常历史数据库中时,从所述异常历史数据库中提取所述异常数据对应的历史处理参数,根据所述历史处理参数对所述异常数据进行处理。
可选的,所述处理模块还包括:
分类处理模块:被配置为执行当所述异常数据未存储在所述异常历史数据库中时,分析所述异常数据的类型,根据所述类型所映射的处理规则对所述异常数据进行处理。
可选的,所述日志分析模块为通过Kubernetes容器采用ElasticSearch、Logstash和Kibana搭建而成。
另一方面,本申请公开一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述任意一项所述的日志分析方法的步骤。
另一方面,本申请公开一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任意一项所述的日志分析方法的步骤。
本发明的有益效果是:
本申请公开一种日志分析方法、装置、计算机设备及存储介质,能够快速获取来自不同系统,不同服务器上的日志数据,进行标准化处理后使之具备相同的数据结构,对处理后的日志数据采用循环神经网络模型来进行异常识别,即使在数据量庞大的情况下,也能快速进行识别,当识别后异常数据后,对异常数据进行关联性处理,以加快异常数据处理的速度和精确度,实现系统运行和维护的智能化。
另外,采用Kubernetes的集群环境,通过对容器的CPU、内存、并发量等指标的监控,一键部署,实现容器的自动伸缩,随着日志量的增加可以横向扩展,从而增强对海量数据的适应能力。
另外,基于容器的部署方案使得运维人员无需将精力浪费在繁琐的环境部署与集成上,更专注于收集和分析日志。
另外,本申请的日志分析系统不仅可以实时查看资源使用情况和运行状态,还可以对日志字段进行捜索,能够快速定位错误。智能预测机制通过对输入参数的计算评估当前系统能系统的并发量、流量、用户访问量、响应时间等属性,提前预测异常,帮助运维人员更好地评估系统性能及产品质量。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一实施例的日志分析方法示意图;
图2为本发明一实施例的获取输入数据集的方法流程图;
图3为本发明一实施例的循环神经网络模型的训练方法流程图;
图4为本发明一实施例的对所述训练集数据进行迭代训练的方法流程图;
图5为本发明一实施例的RNN模型的训练过程示意图;
图6为本发明一实施例的异常数据根据预设的异常历史数据库进行关联处理的方法流程图;
图7为本发明一实施例的日志分析装置的结构示意图;
图8为本发明一实施例的计算机设备基本结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
具体的,请参阅图1,本发明公开一种日志分析方法,包括:
S1000、获取输入数据集,其中,所述输入数据集为对获取的原始日志数据进行标准化处理后,具有统一的数据结构的数据;
日志数据记录了系统运行时产生的信息,如日常操作、网络访问、系统警告、系统错误等事件的相关属性与信息。这些信息有利于了解系统的运行情况,常用于异常检测、关联分析和性能优化。但是,不同服务器,不同系统中获取的日志数据的格式可能不一样,因此当需要对多个服务器多个系统采集的日志数据进行处理时,需要对这些收集的原始日志数据进行标准化处理,使之具备相同的数据结构才方便后续的数据分析。
在一实施例中,请参阅图2,所述获取输入数据集的方法包括:
S1100、通过预设的日志分析模块从各个服务器中抓取原始日志数据;
S1200、根据预设的日志类型对所述原始日志数据进行筛选,生成目标日志数据;
S1300、对所述目标日志数据进行标准化处理后生成所述输入数据集,其中,所述标准化处理包括分类、干扰词过滤和去重。
在一实施例中,采用ElasticSearch、Logstash和Kibana(ELK)搭建日志分析系统。Logstash是一个ETL工具,负责抓取日志数据,对数据进行格式转换和处理后,输出到Elasticsearch中存储。Elasticsearch是一个分布式搜索引擎和分析引擎,用于数据存储,可提供实时的数据查询。Kibana是一个数据可视化服务,根据用户的操作从Elasticsearch中查询数据,形成相应的分析结果,以图表的形式展现给用户,ELK支持集中管理日志、全文检索和统计分析的功能,提高了诊断的效率,还可以实时监测系统性能、网络安全,并且提供可视化视图。日志数据的获取使用Logstash从每台服务器上抓取日志数据,并对数据进行格式转换和处理。采用Kubernetes的集群环境,通过对容器的CPU、内存、并发量等指标的监控,一键部署,实现容器的自动伸缩,随着日志量的增加可以横向扩展,从而增强对海量数据的适应能力。
具体的,容器的创建采用Docker技术,在一实施例中,采用Docker技术部署日志分析系统,Docker具有轻量级、易于部署、快速可用的特性,可实现一次构建,多次部署,在日志量急剧增加的时候时启动新节点,在流量减少时迅速释放资源。运维人员创建基本功能的Docker镜像后,使用这些镜像创建容器,通过容器启动时调整和配置参数来自定义容器,使之适合不同场景的需求。使用Kubernetes容器云技术托管基础设施,对分散的计算资源进行整合集中分配。本申请中使用Docker镜像为日志分析系统构建一套特定的环境,利用Kubernetes强大的调度能力动态地启动和删除容器。当需要提高数据收集规模时,通过一键扩容Slave的数量实现集群的扩容,当流量较少时也可以及时释放资源供其他系统使用,几乎没有带来任何的运维负担。
数据预处理主要用于提取日志中有用数据,主要包括应用业务日志、系统日志、安全日志、性能数据、网络数据、流量数据等类型,应用业务日志包括访问IP、访问页面、访问时间和访问成功状态等,系统日志主要包括CPU核数和使用率、内存容量和使用率、硬盘容量和使用率、带宽、TCP参数、Socket参数、系统的最大消息队列数、最大文件句柄数、最大进程数等,安全日志主要包括合法性等,然后进行分类、过滤干扰词、去除无用和重复信息等操作,经过此处理后,日志获得统一的结构。需要说明的是,对原始日志数据进行分类为根据预设的类别数据库,对数据进行分类,过滤干扰词为根据分类信息,匹配对应的干扰词数据库,识别原始日志数据中是否包含有干扰词数据库中的数据,当包含则过滤对应的干扰词,之后,再根据预设的数据结构规则,将不属于该数据结构规则中的数据,以及多余重复的数据去除,使每一个日志数据都按照这个预设的数据结构规则进行排列,以构建输入数据集。
S2000、将所述输入数据集输入至预设的异常分析模型中生成异常数据,其中,所述异常分析模型为预先训练至收敛状态,用于对日志数据中的异常数据进行提取的循环神经网络模型;
循环神经网络(Recurrent Neural Network,RNN),是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。本申请中的循环神经网络为一种异常分析模块,能够通过对日志数据进行处理输出异常数据。
在一实施例中,请参阅图3,所述异常分析模型的训练方法包括:
S2100、获取标记有异常数据的训练集数据,其中,所述训练集数据为收集的日志数据;
S2200、通过所述训练集数据对初始化的循环神经网络模型进行迭代训练,以生成多个损失函数值;
S2300、选取损失函数值最小的参数作为预估模型的参数,以通过所述预估模型对所述输入数据集进行数据处理,输出异常数据。
本发明采用的数据集中的输入数据集都为数字型特征,但由于这些输入数据集的量纲不一致,需要进行预处理,即对输入数据集进行归一化处理,可以让算法收敛更快,提升模型拟合过程的计算效率;如果不归一化处理,就不容易进行比较,模型的精确度就会受影响,甚至得不出正确的结果。这里,采用“min-max标准化”作为数据归一化处理方法,然后将归一化到[0,1]的每份数据进行向量化,组合成一个L维的特征向量,即序列。最终,在该数据集共提取得到10000个特征向量用于训练模型。将从日志中提取的信息进行归一化和向量化处理后,作为RNN训练模型的输入数据集。
所述循环神经网络模型包括输入层、隐藏层和输出层,请参阅图4,所述通过所述训练集数据对初始化的神经网络模型进行迭代训练的方法包括:
S2310、将所述训练集数据通过输入层输入;
S2320、隐藏层同步接收所述输入层输入的数据和该隐藏层在上一个状态的输出结果作为输入数据进行训练。
与一般神经网络不同的是,循环神经网络的隐藏层存在一条有向反馈边,正是这种反馈机制赋予了循环神经网络记忆能力。请参阅图5,循环神经网络模型的训练过程如下:
首先定义模型中涉及到的一些变量:
X:表示训练模型的输入;
S:表示隐藏层;
o:表示训练模型的输出;
U、W、V:表示训练模型的权重参数;
t:表示的是状态;
本发明将归一化处理后的部分L维的特征向量作为RNN训练模型的输入x,关键之处为隐藏层的输入St有两个来源,一个是当前的Xt输入,另一个是上一个状态隐层的输出St-1。可以使用下面的公式将上面结构表示为:
其中,g是输出层的激活函数,这里选择softmax函数;f是隐藏层的激活函数,这里选择为tanh函数,隐藏层是一个循环层。
然后初始化模型参数,初始化其实是和具体的激活函数有关系,我们这里使用的是tanh,一种方式是初始化为其中n是前一层接入的链接数。循环层中采用时间反向传播(Backpropagation Through Time,BPTT)算法训练参数,包含三个步骤:1.前向计算每个隐藏层的输出值;2.反向计算每个隐藏层的误差项值;3.计算每个权重参数的梯度。最后再用随机梯度下降算法更新权重参数。
本发明采用损失函数指标来评价模型的精确性,损失函数度量的是预测值与真实值之间的差异,即损失函数值越小,表明模型的鲁棒性越好。这里,采用交叉熵作为损失函数,如果有N个样本,损失函数可以写为:
其中,y是真实值,o是模型的预测值。
考虑到预估模型的预测准确定,将训练集进行迭代训练,选取损失函数值最小时所对应的参数作为最优参数,通过所述测试集对所述最优参数进行精度测试,当精度达到预设阈值时,选取该最优参数对应的网络作为预估模型,以对所述输入数据集进行数据处理,输出异常数据。
S3000、基于预设的异常历史数据库,对所述异常数据进行关联处理。
当获取了由神经网络模型输出的异常数据后,需要对所述异常数据进行处理,请参阅图6,所述对所述基于预设的异常历史数据库,对所述异常数据进行关联处理的方法包括:
S3100、识别所述异常数据是否已经存储在异常历史数据库中;
S3200、当已经存储在所述异常历史数据库中时,从所述异常历史数据库中提取所述异常数据对应的历史处理参数,根据所述历史处理参数对所述异常数据进行处理;
S3300、当所述异常数据未存储在所述异常历史数据库中时,分析所述异常数据的类型,根据所述类型所映射的处理规则对所述异常数据进行处理。
结合上述异常数据识别方法,本步骤中主要用于异常检测和关联分析。当识别出出现异常数据时,首先判断同类型的异常数据曾经是否发生,这一步骤主要通过将当前识别的异常数据在异常历史数据库中进行对比,如果该异常数据在异常历史数据库中出现了,则表示曾经出现过一样的异常事件,则按照历史处理方法处理,在本实施例中,在历史数据库中存储由异常数据之外,还存储有针对该异常数据对应的处理参数,因此可通过调取对应的处理参数来对异常数据进行异常处理。
如果在异常历史数据库中没有相同类型的异常数据,则再分析异常数据的类型,如果是性能类异常,查看其服务器的历史性能趋势。如果是缺陷类异常,则查看异常时间点附近的日志条目。如果仍无法定位,则查看其关联系统是否存在异常,以此判断本此异常是否由于关联系统的异常行为引起的。如果都无法解决,则通过邮件或者电话形式通知运维人员。不同类型的异常数据对应不同的处理规则,以此达到精确异常处理的目的。
本申请的技术方案还包括以下有益效果:
1)使用Kubernetes容器云技术托管基础设施,对分散的数据资源进行整合集中分配,秒级弹性伸缩,有效应对高并发升级挑战,自适应海量数据,同时提供了资源系统使用率。
2)基于容器的部署方案使得运维人员无需将精力浪费在繁琐的环境部署与集成上,更专注于收集和分析日志。
3)本申请的日志分析系统不仅可以实时查看资源使用情况和运行状态,还可以对日志字段进行捜索,能够快速定位错误。智能预测机制通过对输入参数的计算评估当前系统能系统的并发量、流量、用户访问量、响应时间等属性,提前预测异常,帮助运维人员更好地评估系统性能及产品质量。
另一方面,请参阅图7,本申请公开一种日志分析装置,包括:
获取模块1000:被配置为执行获取输入数据集,其中,所述输入数据集为对获取的原始日志数据进行标准化处理后,具有统一的数据结构的数据;
识别模块2000:被配置为执行将所述输入数据集输入至预设的异常分析模型中生成异常数据,其中,所述异常分析模型为预先训练至收敛状态,用于对日志数据中的异常数据进行提取的循环神经网络模型;
处理模块3000:被配置为执行基于预设的异常历史数据库,对所述异常数据进行关联处理。
可选的,所述获取模块包括:
抓取模块:被配置为执行通过预设的日志分析模块从服务器中抓取原始日志数据;
选取模块:被配置为执行根据预设的日志类型对所述原始日志数据进行筛选,生成目标日志数据;
标准模块:被配置为执行对所述目标日志数据进行标准化处理后生成所述输入数据集,其中,所述标准化处理包括分类、干扰词过滤和去重。
可选的,所述识别模块包括:
预处理模块:被配置为执行获取标记有异常数据的训练集数据,其中,所述训练集数据为收集的日志数据;
训练模块:被配置为执行通过所述训练集数据对初始化的循环神经网络模型进行迭代训练,以生成多个损失函数值;
选取模块:被配置为执行选取损失函数值最小的参数作为预估模型的参数,以通过所述预估模型对所述输入数据集进行数据处理,输出异常数据。
可选的,所述循环神经网络模型包括输入层、隐藏层和输出层,所述训练模块包括:
输入模块:被配置为执行将所述训练集数据通过输入层输入;
迭代训练模块:被配置为执行隐藏层同步接收所述输入层输入的数据和该隐藏层在上一个状态的输出结果作为输入数据进行训练。
可选的,所述处理模块包括:
历史数据识别模块:被配置为执行识别所述异常数据是否已经存储在异常历史数据库中;
匹配关联模块:被配置为执行当已经存储在所述异常历史数据库中时,从所述异常历史数据库中提取所述异常数据对应的历史处理参数,根据所述历史处理参数对所述异常数据进行处理。
可选的,所述处理模块还包括:
分类处理模块:被配置为执行当所述异常数据未存储在所述异常历史数据库中时,分析所述异常数据的类型,根据所述类型所映射的处理规则对所述异常数据进行处理。
可选的,所述日志分析模块为通过Kubernetes容器采用ElasticSearch、Logstash和Kibana搭建而成。
由于上述公开的日志分析装置是日志分析方法一一对应的产品的介绍,其功能一样,此处不再赘述。
本发明实施例提供计算机设备基本结构框图请参阅图8。
该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种日志分析方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种日志分析方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
计算机设备通过接收关联的客户端发送的提示行为的状态信息,即关联终端是否开启提示以及贷款人是否关闭该提示任务。通过验证上述任务条件是否达成,进而向关联终端发送对应的预设指令,以使关联终端能够根据该预设指令执行相应的操作,从而实现了对关联终端的有效监管。同时,在提示信息状态与预设的状态指令不相同时,服务器端控制关联终端持续进行响铃,以防止关联终端的提示任务在执行一段时间后自动终止的问题。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述日志分析方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种日志分析方法,其特征在于,包括:
获取输入数据集,其中,所述输入数据集为对获取的原始日志数据进行标准化处理后,具有统一的数据结构的数据;
将所述输入数据集输入至预设的异常分析模型中生成异常数据,其中,所述异常分析模型为预先训练至收敛状态,用于对日志数据中的异常数据进行提取的循环神经网络模型;
识别所述异常数据是否已经存储在异常历史数据库中;
当已经存储在所述异常历史数据库中时,从所述异常历史数据库中提取所述异常数据对应的历史处理参数,根据所述历史处理参数对所述异常数据进行处理;
当所述异常数据未存储在所述异常历史数据库中时,分析所述异常数据的类型,根据所述类型所映射的处理规则对所述异常数据进行处理;
其中,当所述异常数据的类型为性能类异常时,通过查看服务器的历史性能趋势对所述异常数据进行处理;当所述异常数据的类型为缺陷类异常时,通过查看异常时间点附近的日志条目进行处理;当所述异常数据的类型为除所述性能类异常和所述缺陷类异常之外的其他类异常时,通过查看所述异常数据的关联系统进行处理。
2.根据权利要求1所述的日志分析方法,其特征在于,所述获取输入数据集的方法包括:
通过预设的日志分析模块从服务器中抓取原始日志数据;
根据预设的日志类型对所述原始日志数据进行筛选,生成目标日志数据;
对所述目标日志数据进行标准化处理后生成所述输入数据集,其中,所述标准化处理包括分类、干扰词过滤和去重。
3.根据权利要求1所述的日志分析方法,其特征在于,所述异常分析模型的训练方法包括:
获取标记有异常数据的训练集数据,其中,所述训练集数据为收集的日志数据;
通过所述训练集数据对初始化的循环神经网络模型进行迭代训练,以生成多个损失函数值;
选取损失函数值最小的参数作为预估模型的参数,以通过所述预估模型对所述输入数据集进行数据处理,输出异常数据。
4.根据权利要求3所述的日志分析方法,其特征在于,所述循环神经网络模型包括输入层、隐藏层和输出层,所述通过所述训练集数据对初始化的神经网络模型进行迭代训练的方法包括:
将所述训练集数据通过输入层输入;
隐藏层同步接收所述输入层输入的数据和该隐藏层在上一个状态的输出结果作为输入数据进行训练。
5.根据权利要求2所述的日志分析方法,其特征在于,所述日志分析模块为通过Kubernetes容器采用ElasticSearch、Logstash和Kibana搭建而成。
6.一种日志分析装置,包括:
获取模块:被配置为执行获取输入数据集,其中,所述输入数据集为对获取的原始日志数据进行标准化处理后,具有统一的数据结构的数据;
识别模块:被配置为执行将所述输入数据集输入至预设的异常分析模型中生成异常数据,其中,所述异常分析模型为预先训练至收敛状态,用于对日志数据中的异常数据进行提取的神经网络模型;
处理模块:被配置为执行基于预设的异常历史数据库,对所述异常数据进行关联处理;所述关联处理的步骤包括:识别所述异常数据是否已经存储在异常历史数据库中;当已经存储在所述异常历史数据库中时,从所述异常历史数据库中提取所述异常数据对应的历史处理参数,根据所述历史处理参数对所述异常数据进行处理;当所述异常数据未存储在所述异常历史数据库中时,分析所述异常数据的类型,根据所述类型所映射的处理规则对所述异常数据进行处理;其中,当所述异常数据的类型为性能类异常时,通过查看服务器的历史性能趋势对所述异常数据进行处理;当所述异常数据的类型为缺陷类异常时,通过查看异常时间点附近的日志条目进行处理;当所述异常数据的类型为除所述性能类异常和所述缺陷类异常之外的其他类异常时,通过查看所述异常数据的关联系统进行处理。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项权利要求所述的日志分析方法的步骤。
8.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至5中任一项权利要求所述的日志分析方法的步骤。
CN201911257624.0A 2019-12-10 2019-12-10 日志分析方法、装置、计算机设备及存储介质 Active CN111177095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911257624.0A CN111177095B (zh) 2019-12-10 2019-12-10 日志分析方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911257624.0A CN111177095B (zh) 2019-12-10 2019-12-10 日志分析方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111177095A CN111177095A (zh) 2020-05-19
CN111177095B true CN111177095B (zh) 2023-10-27

Family

ID=70655453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911257624.0A Active CN111177095B (zh) 2019-12-10 2019-12-10 日志分析方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111177095B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708748B (zh) * 2020-06-22 2023-08-08 南方电网科学研究院有限责任公司 一种网络日志分析算法的管理系统及方法
CN112054989B (zh) * 2020-07-13 2023-03-24 北京天融信网络安全技术有限公司 一种检测模型的构建方法及批量操作异常的检测方法
CN111650345B (zh) * 2020-07-14 2021-02-19 中科三清科技有限公司 大气环境污染检测数据的处理方法、装置、设备及介质
CN111966515A (zh) * 2020-07-16 2020-11-20 招联消费金融有限公司 业务异常数据处理方法、装置、计算机设备和存储介质
CN111651760B (zh) * 2020-08-04 2020-11-20 北京志翔科技股份有限公司 一种设备安全状态综合分析的方法及计算机可读存储介质
CN112256651B (zh) * 2020-09-28 2022-06-14 苏州浪潮智能科技有限公司 一种多源异构日志采集的方法、装置
CN112364284B (zh) * 2020-11-23 2024-01-30 北京八分量信息科技有限公司 基于上下文进行异常侦测的方法、装置及相关产品
CN112510699A (zh) * 2020-11-25 2021-03-16 国网湖北省电力有限公司咸宁供电公司 一种基于大数据的变电站二次设备状态分析方法及设备
CN112468503A (zh) * 2020-11-30 2021-03-09 苏州浪潮智能科技有限公司 一种基于防火墙的网站鉴别的方法、装置、设备及介质
CN114697212A (zh) * 2020-12-25 2022-07-01 北京京东方技术开发有限公司 设备参数处理方法、设备、系统及介质
CN115269304A (zh) * 2021-04-29 2022-11-01 超聚变数字技术有限公司 日志异常检测模型训练方法、装置及设备
CN113535655A (zh) * 2021-06-17 2021-10-22 北京中联国成科技有限公司 一种日志分析方法及装置
CN113392084A (zh) * 2021-07-13 2021-09-14 华青融天(北京)软件股份有限公司 一种日志数据处理方法、装置、设备及介质
CN113285962B (zh) * 2021-07-21 2021-12-17 南方电网数字电网研究院有限公司 在线操作监测方法与系统
CN113778740B (zh) * 2021-11-10 2022-08-02 中航金网(北京)电子商务有限公司 一种基于垃圾回收日志的异常处理方法及装置
CN114095333A (zh) * 2021-11-23 2022-02-25 天翼数字生活科技有限公司 一种网络排障方法、装置、设备及可读存储介质
CN114389834B (zh) * 2021-11-26 2024-04-30 浪潮通信信息系统有限公司 一种api网关异常调用识别的方法、装置、设备及产品
CN114185736B (zh) * 2021-11-29 2023-12-26 苏州浪潮智能科技有限公司 一种基于主动式数据的异常监测方法、设备及介质
WO2023128976A1 (en) * 2021-12-29 2023-07-06 Diattack Yazilim Bilisim Siber Guvenlik Ve Danismanlik Anonim Sirketi A network protection system
CN114511190A (zh) * 2021-12-31 2022-05-17 上海华鑫股份有限公司 一种面向二级市场市值重估的可视分析系统及分析方法
CN115766514A (zh) * 2022-11-02 2023-03-07 中国第一汽车股份有限公司 车联网的全链路质量监控方法、装置、存储介质和车辆
CN116340433B (zh) * 2023-05-31 2023-07-28 中国水利水电第七工程局有限公司 施工监测信息存储计算方法、存储介质、设备及系统
CN116644438B (zh) * 2023-07-19 2023-11-14 江苏华存电子科技有限公司 一种基于移动存储设备的数据安全管理方法及系统

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106603264A (zh) * 2015-10-20 2017-04-26 阿里巴巴集团控股有限公司 一种定位故障根源的方法和设备
WO2017094262A1 (ja) * 2015-11-30 2017-06-08 日本電気株式会社 ログ分析システム、方法およびプログラム
WO2017110720A1 (ja) * 2015-12-25 2017-06-29 日本電気株式会社 ログ分析システム、ログ分析方法及びプログラムを格納した記録媒体
CN106933693A (zh) * 2017-03-15 2017-07-07 郑州云海信息技术有限公司 一种数据库集群节点故障自动修复方法及系统
CN107203450A (zh) * 2016-03-16 2017-09-26 伊姆西公司 故障的分类方法和设备
CN107885642A (zh) * 2017-11-29 2018-04-06 小花互联网金融服务(深圳)有限公司 基于机器学习的业务监控方法及系统
CN108170581A (zh) * 2017-12-27 2018-06-15 北京奇艺世纪科技有限公司 一种故障预警方法、装置及电子设备
CN109325865A (zh) * 2018-08-13 2019-02-12 中国平安人寿保险股份有限公司 异常处理方法、装置、计算机设备及存储介质
EP3460494A1 (en) * 2017-09-26 2019-03-27 Siemens Aktiengesellschaft A method and apparatus for automatic detection of a fault type
WO2019060327A1 (en) * 2017-09-20 2019-03-28 University Of Utah Research Foundation ONLINE DETECTION OF ANOMALIES IN A NEWSPAPER USING AUTOMATIC APPRENTICESHIP
CN109714187A (zh) * 2018-08-17 2019-05-03 平安普惠企业管理有限公司 基于机器学习的日志分析方法、装置、设备及存储介质
CN109933492A (zh) * 2019-03-22 2019-06-25 北京极简智能科技有限公司 一种软件异常溯源方法、系统、设备及存储介质
CN110034948A (zh) * 2019-01-11 2019-07-19 阿里巴巴集团控股有限公司 排查系统故障的方法和装置
CN110046188A (zh) * 2019-01-04 2019-07-23 阿里巴巴集团控股有限公司 业务处理方法及其系统
CN110347547A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 基于深度学习的日志异常检测方法、装置、终端及介质
CN110381079A (zh) * 2019-07-31 2019-10-25 福建师范大学 结合gru和svdd进行网络日志异常检测方法
CN110460591A (zh) * 2019-07-26 2019-11-15 南京理工大学 基于改进分层时间记忆网络的cdn流量异常检测装置及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080103855A1 (en) * 2006-10-25 2008-05-01 Robert Hernandez System And Method For Detecting Anomalies In Market Data
US9558056B2 (en) * 2013-07-28 2017-01-31 OpsClarity Inc. Organizing network performance metrics into historical anomaly dependency data
US10936564B2 (en) * 2017-04-19 2021-03-02 Xerox Corporation Diagnostic method and system utilizing historical event logging data

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106603264A (zh) * 2015-10-20 2017-04-26 阿里巴巴集团控股有限公司 一种定位故障根源的方法和设备
WO2017094262A1 (ja) * 2015-11-30 2017-06-08 日本電気株式会社 ログ分析システム、方法およびプログラム
WO2017110720A1 (ja) * 2015-12-25 2017-06-29 日本電気株式会社 ログ分析システム、ログ分析方法及びプログラムを格納した記録媒体
CN107203450A (zh) * 2016-03-16 2017-09-26 伊姆西公司 故障的分类方法和设备
CN106933693A (zh) * 2017-03-15 2017-07-07 郑州云海信息技术有限公司 一种数据库集群节点故障自动修复方法及系统
WO2019060327A1 (en) * 2017-09-20 2019-03-28 University Of Utah Research Foundation ONLINE DETECTION OF ANOMALIES IN A NEWSPAPER USING AUTOMATIC APPRENTICESHIP
EP3460494A1 (en) * 2017-09-26 2019-03-27 Siemens Aktiengesellschaft A method and apparatus for automatic detection of a fault type
CN107885642A (zh) * 2017-11-29 2018-04-06 小花互联网金融服务(深圳)有限公司 基于机器学习的业务监控方法及系统
CN108170581A (zh) * 2017-12-27 2018-06-15 北京奇艺世纪科技有限公司 一种故障预警方法、装置及电子设备
CN109325865A (zh) * 2018-08-13 2019-02-12 中国平安人寿保险股份有限公司 异常处理方法、装置、计算机设备及存储介质
CN109714187A (zh) * 2018-08-17 2019-05-03 平安普惠企业管理有限公司 基于机器学习的日志分析方法、装置、设备及存储介质
CN110046188A (zh) * 2019-01-04 2019-07-23 阿里巴巴集团控股有限公司 业务处理方法及其系统
CN110034948A (zh) * 2019-01-11 2019-07-19 阿里巴巴集团控股有限公司 排查系统故障的方法和装置
CN109933492A (zh) * 2019-03-22 2019-06-25 北京极简智能科技有限公司 一种软件异常溯源方法、系统、设备及存储介质
CN110347547A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 基于深度学习的日志异常检测方法、装置、终端及介质
CN110460591A (zh) * 2019-07-26 2019-11-15 南京理工大学 基于改进分层时间记忆网络的cdn流量异常检测装置及方法
CN110381079A (zh) * 2019-07-31 2019-10-25 福建师范大学 结合gru和svdd进行网络日志异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王易东等. 基于深度学习的系统日志异常检测研究.《网络与信息安全学报》.第1-14页. *

Also Published As

Publication number Publication date
CN111177095A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111177095B (zh) 日志分析方法、装置、计算机设备及存储介质
CN110659173B (zh) 一种运维系统及方法
US10628409B2 (en) Distributed data transformation system
US10740310B2 (en) Intelligent preprocessing of multi-dimensional time-series data
US20220187819A1 (en) Method for event-based failure prediction and remaining useful life estimation
US20190163549A1 (en) Label rectification and classification/prediction for multivariate time series data
US11500370B2 (en) System for predictive maintenance using generative adversarial networks for failure prediction
US11036981B1 (en) Data monitoring system
CN111259073A (zh) 基于日志、流量和业务访问的业务系统运行状态智能研判系统
CN112114986A (zh) 数据异常识别方法、装置、服务器和存储介质
US11055631B2 (en) Automated meta parameter search for invariant based anomaly detectors in log analytics
US20230133541A1 (en) Alert correlating using sequence model with topology reinforcement systems and methods
CN110796366A (zh) 质差小区识别方法和装置
CN107111609A (zh) 用于神经语言行为识别系统的词法分析器
CN110232130B (zh) 元数据管理谱系生成方法、装置、计算机设备和存储介质
US20220277219A1 (en) Systems and methods for machine learning data generation and visualization
US20200027028A1 (en) Analytic system for gradient boosting tree compression
CN116707859A (zh) 特征规则提取方法和装置、网络入侵检测方法和装置
CN116453056A (zh) 目标检测模型构建方法和变电站异物入侵检测方法
Li et al. An automated data engineering pipeline for anomaly detection of IoT sensor data
CN116155541A (zh) 面向网络安全应用的自动化机器学习平台以及方法
JPWO2018142694A1 (ja) 特徴量生成装置、特徴量生成方法及びプログラム
Mandagondi Anomaly detection in log files using machine learning techniques
US20210279596A1 (en) System for predictive maintenance using trace norm generative adversarial networks
CN114978976A (zh) SRv6融合网络的数据异常检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant