CN113438114B - 互联网系统的运行状态监控方法、装置、设备及存储介质 - Google Patents

互联网系统的运行状态监控方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113438114B
CN113438114B CN202110729046.7A CN202110729046A CN113438114B CN 113438114 B CN113438114 B CN 113438114B CN 202110729046 A CN202110729046 A CN 202110729046A CN 113438114 B CN113438114 B CN 113438114B
Authority
CN
China
Prior art keywords
log
maintenance
content
data
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110729046.7A
Other languages
English (en)
Other versions
CN113438114A (zh
Inventor
魏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202110729046.7A priority Critical patent/CN113438114B/zh
Publication of CN113438114A publication Critical patent/CN113438114A/zh
Application granted granted Critical
Publication of CN113438114B publication Critical patent/CN113438114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Abstract

本发明公开了一种互联网系统的运行状态监控方法、装置、设备及存储介质,该监控方法包括:采集系统日志文件,并提取系统日志文件中的当前日志数据,对当前日志数据进行预处理;基于目标循环神经网络模型对预处理后的当前日志数据进行特征提取,采用LSTM神经网络对特征提取结果进行分类预测,通过归一化处理将分类预测结果转换为概率分布预测值,根据概率分布预测值识别互联网的运行状态;当互联网的运行状态发生异常时,获取用户操作记录,从用户操作记录中提取维护数据;将维护数据与当前日志数据进行匹配,并根据匹配结果确定互联网系统的运行状态发生异常是否为偶发异常。通过上述方式,本发明能够提高系统的监控效率和准确率。

Description

互联网系统的运行状态监控方法、装置、设备及存储介质
技术领域
本发明涉及互联网监控技术领域,特别是涉及一种互联网系统的运行状态监控方法、装置、设备及存储介质。
背景技术
目前,企业中越来越多地使用了人工智能技术进行互联网系统各种参数的监控,并逐步替代传统的监控系统。人工智能用于系统监控,可以通过历史数据学习和进行训练,获得不同时段、不同系统的运行状况。这样,监控系统更加容易判断系统运行状态的正常和异常情况,并且更加准确地判断系统故障情况。但是,在一些特殊情况下,人工智能基于历史数据无法判断系统的运行状态是否为异常,甚至将正常情况判定为故障。比如,不定期的系统维护,或人为对系统的有影响操作等。单纯依赖人工智能进行系统监控有以下不足之处:
1.人工智能缺乏对周围环境的感知能力;
2.用户没有将自己的行为告知监控系统或者人工智能监控系统;
3.基于历史数据训练获得的人工智能模型,不能应对变化较大的实际场景。
发明内容
本发明提供一种互联网系统的运行状态监控方法、装置、设备及存储介质,能够减少故障判断时间,降低业务损失,提高系统的监控效率和准确率。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种互联网系统的运行状态监控方法,包括:
采集系统日志文件,并提取所述系统日志文件中的当前日志数据,对所述当前日志数据进行预处理;
基于目标循环神经网络模型对预处理后的所述当前日志数据进行特征提取,采用LSTM神经网络对特征提取结果进行分类预测,通过归一化处理将分类预测结果转换为概率分布预测值,根据所述概率分布预测值识别所述互联网的运行状态;
当所述互联网的运行状态发生异常时,获取用户操作记录,从所述用户操作记录中提取维护数据;
将所述维护数据与所述当前日志数据进行匹配,并根据匹配结果确定所述互联网系统的运行状态发生异常是否为偶发异常。
根据本发明的一个实施例,基于目标循环神经网络模型对预处理后的所述当前日志数据进行特征提取,采用LSTM神经网络对特征提取结果进行分类预测,通过归一化处理将分类预测结果转换为概率分布预测值,根据所述概率分布预测值识别所述互联网的运行状态的步骤之前,还包括:
构建初始循环神经网络模型;
采集历史系统日志文件,并提取所述历史系统日志文件中的历史日志数据,对所述历史日志数据进行分类处理形成训练数据,将训练数据存储于训练数据集中;
采用所述训练数据对构建好的初始循环神经网络模型进行训练,通过调整隐藏层层数以及优化参数,得到优化后的目标循环神经网络模型。
根据本发明的一个实施例,将所述维护数据与所述当前日志数据进行匹配,并根据匹配结果确定所述互联网系统的运行状态发生异常是否为偶发异常的步骤之后,还包括:
当互联网系统的运行状态发生异常为非偶发异常时,将所述当前日志数据标记为正常,将标记后的所述当前日志数据作为新的训练数据,添加进所述训练数据集中;
当互联网系统的运行状态发生异常为偶发异常时,生成异常报告并通知维护人员进行人工处理。
根据本发明的一个实施例,当互联网系统的运行状态发生异常为偶发异常时,生成异常报告并通知维护人员进行人工处理的步骤之后,还包括:
若人工处理结果仍为偶发异常时,将所述当前日志数据标记为异常数据,将标记后的当前日志数据作为新的训练数据,添加进所述训练数据集中。
根据本发明的一个实施例,所述当前日志数据包括日志时间和日志内容,所述维护数据包括维护时间和维护内容,将所述维护数据与所述当前日志数据进行匹配,并根据匹配结果确定所述互联网系统的运行状态发生异常是否为偶发异常的步骤包括:
将所述日志时间与所述维护时间进行匹配;
若所述日志时间与所述维护时间相匹配,则将所述维护内容与所述日志内容进行匹配;
若所述日志时间与所述维护时间不匹配,则确定所述互联网系统的运行状态发生异常为偶发异常。
根据本发明的一个实施例,若所述日志时间与所述维护时间相匹配,则将所述维护内容与所述日志内容进行匹配的步骤之后还包括:
若所述维护内容与所述日志内容相匹配,则确定所述互联网系统的运行状态发生异常为非偶发异常;
若所述维护内容与所述日志内容不匹配,则确定所述互联网系统的运行状态发生异常为偶发异常。
根据本发明的一个实施例,若所述日志时间与所述维护时间相匹配,则将所述维护内容与所述日志内容进行匹配的步骤包括:
将所述维护内容解析成本文信息,所述文本信息包含多个句子或字段,对所述文本信息进行分词处理和词性标注处理,去除语法关联词,获得关键词并计算关键词总数量;
将所述关键词与所述日志内容中的词汇进行匹配,获得匹配关键词并计算匹配关键词数量;
根据所述匹配关键词数量和所述关键词总数量计算所述维护内容与所述日志内容的匹配率,所述匹配率为所述匹配关键词数量与所述关键词总数量的比率;
将所述匹配率与预设阈值进行比对,当所述匹配率大于预设阈值,则所述维护内容与所述日志内容相匹配,否则,所述维护内容与所述日志内容不匹配。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种互联网系统的运行状态监控装置,包括:
采集模块,用于采集系统日志文件,并提取所述系统日志文件中的当前日志数据,对所述当前日志数据进行预处理;
识别模块,用于基于目标循环神经网络模型对预处理后的所述当前日志数据进行特征提取,采用LSTM神经网络对特征提取结果进行分类预测,通过归一化处理将分类预测结果转换为概率分布预测值,根据所述概率分布预测值识别所述互联网的运行状态;
获取模块,用于当所述互联网的运行状态发生异常时,获取用户操作记录,从所述用户操作记录中提取维护数据;
判定模块,用于将所述维护数据与所述当前日志数据进行匹配,并根据匹配结果确定所述互联网系统的运行状态发生异常是否为偶发异常。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的互联网系统的运行状态监控方法。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机存储介质,存储有能够实现上述互联网系统的运行状态监控方法的程序文件。
本发明的有益效果是:将人工智能识别结果与用户操作判断结果相结合,不仅能够充分发挥人工智能对历史日志数据的识别作用,还能够充分考虑用户操作带给系统的影响,使得故障判断更加精准,进而减少了故障判断时间,降低了业务损失,提高了系统的监控效率和准确率。
附图说明
图1是本发明第一实施例的互联网系统的运行状态监控方法的流程示意图;
图2是本发明实施例中步骤S104的流程示意图;
图3是本发明实施例中步骤S202的流程示意图;
图4是本发明第二实施例的互联网系统的运行状态监控方法的流程示意图;
图5是本发明第三实施例的互联网系统的运行状态监控方法的流程示意图;
图6是本发明实施例的互联网系统的运行状态监控装置的结构示意图;
图7是本发明实施例的计算机设备的结构示意图;
图8是本发明实施例的计算机存储介质的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的互联网系统的运行状态监控方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:采集系统日志文件,并提取系统日志文件中的当前日志数据,对当前日志数据进行预处理。
在步骤S101中,系统硬件如服务器、交换机、路由器、防火墙等,系统硬件运行产生相应的日志,系统日志包括但不限于硬件日志、应用日志以及业务日志。本实施例中,通过ELK采集系统日志文件并采用Elasticsearch将系统日志文件进行存储。本实施例中,采集系统日志文件后,提取系统日志文件中的当前日志数据,当前日志数据包括运行状态发生改变的日志时间以及日志内容,将当前日志数据解析为日志模板并编号,按照编号顺序将前日志数据转化为日志序列,在日志序列中,对每个当前日志数据进行标签标注,每个数据标签对应标注为“1”或“0”,其中,“1”表示正常数据,“0”表示异常数据,在本实施例中,只要有一个异常数据出现,则该日志序列为异常日志序列。
步骤S102:基于目标循环神经网络模型对预处理后的当前日志数据进行特征提取,采用LSTM神经网络对特征提取结果进行分类预测,通过归一化处理将分类预测结果转换为概率分布预测值,根据概率分布预测值识别互联网的运行状态。
在步骤S102中,目标循环神经网络模型为采用双层LSTM堆叠而成的LSTM的神经网络模型,LSTM的神经网络结构包括输入层、隐藏层以及输出层,其中,输入层由一系列神经元构成,用以获取输入数据的特征向量;隐藏层由两层LSTM层堆叠而成,每层LSTM层分别具有多个神经元,每个神经元对应一个LSTM记忆块,记忆块包含自连接的状态神经元以及输入门、输出门和遗忘门,在同一时间步的LSTM层之间,采用正则化方法减少过拟合的影响;输出层为具有多个神经元的全连接层,分别对应需要预测的目标类别,通过softmax激活函数进行归一化处理,将隐藏层的输出转换为与分类预测类别相关的概率分布预测值。本实施例将日志序列作为目标循环神经网络模型的输入,将对日志序列的分类识别结果作为目标循环神经网络模型的输出,将日志序列输入目标循环神经网络模型后,选取前面N个日志编号预测下一个日志编号,选取概率最大的多个日志编号预测互联网的运行状态为正常,否则将前一段时间内的日志序列预测为异常日志序列,并预测互联网的运行状态发生异常。本实施例中,若目标循环神经网络模型的输出结果为“1”,表示互联网的运行状态正常,若目标循环神经网络模型的输出结果为“0”,表示互联网的运行状态异常。
步骤S103:当互联网的运行状态发生异常时,获取用户操作记录,从用户操作记录中提取维护数据。
在步骤S103中,用户操作系统可对用户操作进行授权并对操作行为进行记录,用户操作包括计划内系统维护和临时系统维护,计划内系统维护通常有固定的维护时间和维护内容,而临时系统维护没有确定的维护时间和维护内容,但是,只要被授权的操作行为,都会形成完整的维护记录,因此,可利用授权信息和维护记录作为判断系统的运行状态是否发生异常的依据之一。本实施例的用户操作记录包括授权信息和维护数据,维护数据包括维护时间和维护内容。
步骤S104:将维护数据与当前日志数据进行匹配,并根据匹配结果确定互联网系统的运行状态发生异常是否为偶发异常。
在步骤S104中,将维护数据与当前日志数据进行匹配,获得匹配率,当匹配率超过预设阈值,则认为维护数据与当前日志数据相匹配,确定互联网系统的运行状态发生异常为用户操作所导致,即非偶发异常;当匹配率低于预设阈值,则认为维护数据与当前日志数据不匹配,确定互联网系统的运行状态发生异常为非用户操作所导致,即偶发异常。
当前日志数据包括日志时间和日志内容,维护数据包括维护时间和维护内容,进一步地,请参见图2,步骤S104还包括以下步骤:
步骤S201:将日志时间与维护时间进行匹配;
在步骤S201中,若日志时间与维护时间相匹配执行步骤S202,若日志时间与维护时间不匹配执行步骤S203。
步骤S202:若日志时间与维护时间相匹配,则将维护内容与日志内容进行匹配;
在步骤S202中,日志时间可以为一个时刻或一个时间段,当日志时间为一个时刻时,维护时间包含日志时间则认为日志时间与维护时间相匹配,当日志时间为一个时间段,维护时间在日志时间范围内则认为日志时间与维护时间相匹配,否则,日志时间与维护时间不匹配。
进一步地,请参见图3,步骤S202还包括以下步骤:
步骤S301:将维护内容解析成本文信息,文本信息包含多个句子或字段,对文本信息进行分词处理和词性标注处理,去除语法关联词,获得关键词并计算关键词总数量;
在步骤S301中,分词处理和词性标注处理可采用NLP通用模型技术完成,本实施例的语法关联词包括副词和连词等无实际意义的词汇,在对文本信息进行处理之后需将副词和连词等无实际意义的词汇去除,得到关键词。
步骤S302:将关键词与日志内容中的词汇进行匹配,获得匹配关键词并计算匹配关键词数量;
在步骤S302中,日志内容中的词汇可形成词汇列表,将关键词与词汇列表进行一一匹配,将相同或相似度较高的词汇作为匹配关键词,筛选出匹配关键词后,对匹配关键词进行去重处理后计算匹配关键词数量。
步骤S303:根据匹配关键词数量和关键词总数量计算维护内容与日志内容的匹配率,匹配率为匹配关键词数量与关键词总数量的比率;
步骤S304:将匹配率与预设阈值进行比对,当匹配率大于预设阈值,则维护内容与日志内容相匹配,否则,维护内容与日志内容不匹配。
在本实施例中,若维护内容与日志内容相匹配,则确定互联网系统的运行状态为非偶发异常;若维护内容与日志内容不匹配,则确定互联网系统的运行状态为偶发异常。
步骤S203:若日志时间与维护时间不匹配,则确定互联网系统的运行状态发生异常为偶发异常。
在本实施例中,只有日志时间与维护时间匹配且维护内容与日志内容相匹配时,才能确定互联网系统的运行状态发生异常为用户操作所引起,否则,互联网系统的运行状态发生异常为非用户操作所引起,为偶发异常。时间匹配和内容匹配原则上不分先后顺序,在本实施例中,因为日志时间与维护时间的匹配过程相对于维护内容与日志内容的匹配过程简单,数据处理量较小,因此,首选执行步骤S201,在确定时间匹配后才进行内容匹配,在一定程度上减小数据处理量,提高处理效率,从而提高监控效率。
本发明第一实施例的互联网系统的运行状态监控方法通过将人工智能识别结果与用户操作判断结果相结合,不仅能够充分发挥人工智能对历史日志数据的识别作用,还能够充分考虑用户操作带给系统的影响,使得故障判断更加精准,进而减少了故障判断时间,降低了业务损失,提高了系统的监控效率和准确率。
图4是本发明第二实施例的互联网系统的运行状态监控方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图4所示的流程顺序为限。如图4所示,该方法包括步骤:
步骤S401:采集系统日志文件,并提取系统日志文件中的当前日志数据,对当前日志数据进行预处理。
在本实施例中,图4中的步骤S401和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S402:构建初始循环神经网络模型。
在步骤S402中,初始循环神经网络模型为分类模型,用于分析当前日志数据是否错误以预测互联网的运行状态是否发生异常,可采用决策树或K-近邻等分类算法构建。进一步地,本实施例的初始循环神经网络为RNN神经网络,例如LSTM神经网络,本实施例的初始循环神经网络模型为采用双层LSTM堆叠而成的LSTM的神经网络模型,初始循环神经网络结构包括输入层、隐藏层以及输出层,其中,输入层由一系列神经元构成,用以获取输入数据的特征向量;隐藏层由两层LSTM层堆叠而成,每层LSTM层分别具有多个神经元,每个神经元对应一个LSTM记忆块,记忆块包含自连接的状态神经元以及输入门、输出门和遗忘门,在同一时间步的LSTM层之间,采用正则化方法减少过拟合的影响;输出层为具有多个神经元的全连接层,分别对应需要预测的目标类别,通过归一化指数函数softmax激活函数,将隐藏层的输出转换为与分类预测类别相关的概率分布预测值。
步骤S403:采集历史系统日志文件,并提取历史系统日志文件中的历史日志数据,对历史日志数据进行分类处理形成训练数据,将训练数据存储于训练数据集中。
在步骤S403中,将日志类型分为两类,一类正常,一类异常,将日志类型作为日志数据的标签,对历史日志数据进行分类处理,若日志类型为错误,则将历史日志数据标注为“0”,表示系统的运行状态发生异常,若日志类型为正确,则将历史日志数据标注为“1”,表示系统的运行状态未发生异常,将标记后的历史日志数据形成训练数据,多个训练数据形成训练数据集。
步骤S404:采用训练数据对构建好的初始循环神经网络模型进行训练,通过调整隐藏层层数以及优化参数,得到优化后的目标循环神经网络模型。
在步骤S404中,通过训练获取初始循环神经网络模型中各个模块的权重参数与偏置项,经过BPTT反向传播算法修正隐藏层的参数以及优化偏置项,得到最优化的初始循环神经网络模型,即目标循环神经网络模型。具体地,LSTM单元根据如下公式进行前向传播:
遗忘门的计算公式为:ft=σ(wf·[ht-1,xt]+bf);
输入门的计算公式为:it=σ(wi·[ht-1,xt]+bi)
记忆门的计算公式为:c′t=tanh(wc·[ht-1,xt]+bc)
单元状态的更新公式为:ct=ft*ct-1+it*c′t
输出门的计算公式为:ot=σ(wo·[ht-1,xt]+bo);ht=ot*tanh(ct);
其中,ht:t时刻LSTM单元的输出;ht-1:t-1时刻LSTM单元的输出;ct:t时刻LSTM单元状态;ct-1:t-1时刻LSTM单元状态;xt:t时刻LSTM单元的输入;wf:遗忘门权重矩阵;σ:sigmoid函数;bf:遗忘门的偏置项;tanh:双曲正切函数;wi:输入门的权重矩阵;bi:输入门的偏置项;wc:记忆门的权重矩阵;bc:记忆门的偏置项;wo:输出门的权重矩阵;bo:输出门的偏置项。
进一步,本实施例通过训练确定的参数wf、bf、wi、bi、wc、bc、wo、bo八组参数以及最后的softmax回归层,通过BPTT反向传播算法以及交叉熵损失函数优化的初始循环神经网络模型。
步骤S405:基于目标循环神经网络模型对预处理后的当前日志数据进行特征提取,采用LSTM神经网络对特征提取结果进行分类预测,通过归一化处理将分类预测结果转换为概率分布预测值,根据概率分布预测值识别互联网的运行状态。
在本实施例中,图4中的步骤S405和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S406:当互联网的运行状态发生异常时,获取用户操作记录,从用户操作记录中提取维护数据。
在本实施例中,图4中的步骤S406和图1中的步骤S103类似,为简约起见,在此不再赘述。
步骤S407:将维护数据与当前日志数据进行匹配,并根据匹配结果确定互联网系统的运行状态发生异常是否为偶发异常。
在本实施例中,图4中的步骤S407和图1中的步骤S104类似,为简约起见,在此不再赘述。
本发明第二实施例的互联网系统的运行状态监控方法在第一实施例的基础上,通过训练以及优化初始循环神经网络模型使系统监控更加准确、可靠,减少故障判断错误。
图5是本发明第三实施例的互联网系统的运行状态监控方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图5所示的流程顺序为限。如图5所示,该方法包括步骤:
步骤S501:采集系统日志文件,并提取系统日志文件中的当前日志数据,对当前日志数据进行预处理。
在本实施例中,图5中的步骤S501和图4中的步骤S401类似,为简约起见,在此不再赘述。
步骤S502:构建初始循环神经网络模型。
在本实施例中,图5中的步骤S502和图4中的步骤S402类似,为简约起见,在此不再赘述。
步骤S503:采集历史系统日志文件,并提取历史系统日志文件中的历史日志数据,对历史日志数据进行分类处理形成训练数据,将训练数据存储于训练数据集中。
在本实施例中,图5中的步骤S503和图4中的步骤S403类似,为简约起见,在此不再赘述。
步骤S504:采用训练数据对构建好的初始循环神经网络模型进行训练,通过调整隐藏层层数以及优化参数,得到优化后的目标循环神经网络模型。
在本实施例中,图5中的步骤S504和图4中的步骤S404类似,为简约起见,在此不再赘述。
步骤S505:基于目标循环神经网络模型对预处理后的当前日志数据进行特征提取,采用LSTM神经网络对特征提取结果进行分类预测,通过归一化处理将分类预测结果转换为概率分布预测值,根据概率分布预测值识别互联网的运行状态。
在本实施例中,图5中的步骤S505和图4中的步骤S405类似,为简约起见,在此不再赘述。
步骤S506:当互联网的运行状态发生异常时,获取用户操作记录,从用户操作记录中提取维护数据。
在本实施例中,图5中的步骤S506和图4中的步骤S406类似,为简约起见,在此不再赘述。
步骤S507:将维护数据与当前日志数据进行匹配,并根据匹配结果确定互联网系统的运行状态发生异常是否为偶发异常。
在步骤S507中,将维护数据与当前日志数据进行匹配,获得匹配率,当匹配率超过预设阈值,则认为维护数据与当前日志数据相匹配,确定互联网系统的运行状态发生异常为用户操作所导致,即非偶发异常;当匹配率低于预设阈值,则认为维护数据与当前日志数据不匹配,确定互联网系统的运行状态发生异常为非用户操作所导致,即偶发异常。当互联网系统的运行状态发生异常为非偶发异常时执行步骤S508,当互联网系统的运行状态为偶发异常时执行步骤S509。
步骤S508:当互联网系统的运行状态发生异常为非偶发异常时,将当前日志数据标记为正常,将标记后的当前日志数据作为新的训练数据,添加进训练数据集中。
在本实施例中,通过不断更新训练数据优化目标循环神经网络模型,通过人工智识别更多的用户操作行为以应对偶发事件,在不断迭代之后,提高了系统的故障判断精度和监控效率。
步骤S509:当互联网系统的运行状态发生异常为偶发异常时,生成异常报告并通知维护人员进行人工处理。
步骤S510:若人工处理结果仍为偶发异常时,将当前日志数据标记为异常数据,将标记后的当前日志数据作为新的训练数据,添加进训练数据集中。
本发明第三实施例的互联网系统的运行状态监控方法在第二实施例的基础上,通过不断更新训练数据优化人工智能模型,能够让人工智能模型识别更多的用户操作行为以应对偶发事件,在不断迭代之后,提高了监控系统的故障判断精度和监控效率。
图6是本发明实施例的互联网系统的运行状态监控装置的结构示意图。如图6所示,该装置60包括采集模块61、识别模块62、获取模块63和判定模块64。
采集模块61用于采集系统日志文件,并提取系统日志文件中的当前日志数据,对当前日志数据进行预处理。
识别模块62用于基于目标循环神经网络模型对预处理后的当前日志数据进行特征提取,采用LSTM神经网络对特征提取结果进行分类预测,通过归一化处理将分类预测结果转换为概率分布预测值,根据概率分布预测值识别互联网的运行状态。
获取模块63用于当互联网的运行状态发生异常时,获取用户操作记录,从用户操作记录中提取维护数据。
判定模块64用于将维护数据与当前日志数据进行匹配,并根据匹配结果确定互联网系统的运行状态发生异常是否为偶发异常。
请参阅图7,图7为本发明实施例的计算机设备的结构示意图。如图7所示,该计算机设备70包括处理器71及和处理器71耦接的存储器72。
存储器72存储有用于实现上述任一实施例所述的互联网系统的运行状态监控方法的程序指令。
处理器71用于执行存储器72存储的程序指令以监控互联网系统的运行状态。
其中,处理器71还可以称为CPU(Central Processing Unit,中央处理单元)。处理器71可能是一种集成电路芯片,具有信号的处理能力。处理器71还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图8,图8为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件81,其中,该程序文件81可以以软件产品的形式存储在上述计算机存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种互联网系统的运行状态监控方法,其特征在于,包括:
采集系统日志文件,并提取所述系统日志文件中的当前日志数据,对所述当前日志数据进行预处理;
基于目标循环神经网络模型对预处理后的所述当前日志数据进行特征提取,采用LSTM神经网络对特征提取结果进行分类预测,通过归一化处理将分类预测结果转换为概率分布预测值,根据所述概率分布预测值识别所述互联网的运行状态;
当所述互联网的运行状态发生异常时,获取用户操作记录,从所述用户操作记录中提取维护数据;
将所述维护数据与所述当前日志数据进行匹配,并根据匹配结果确定所述互联网系统的运行状态发生异常是否为偶发异常;
所述当前日志数据包括日志时间和日志内容,所述维护数据包括维护时间和维护内容,将所述维护数据与所述当前日志数据进行匹配,并根据匹配结果确定所述互联网系统的运行状态发生异常是否为偶发异常的步骤包括:
将所述日志时间与所述维护时间进行匹配;
若所述日志时间与所述维护时间相匹配,则将所述维护内容与所述日志内容进行匹配;
若所述日志时间与所述维护时间不匹配,则确定所述互联网系统的运行状态发生异常为偶发异常;
若所述维护内容与所述日志内容相匹配,则确定所述互联网系统的运行状态发生异常为非偶发异常;
若所述维护内容与所述日志内容不匹配,则确定所述互联网系统的运行状态发生异常为偶发异常;
若所述日志时间与所述维护时间相匹配,则将所述维护内容与所述日志内容进行匹配的步骤包括:
将所述维护内容解析成文本信息,所述文本信息包含多个句子或字段,对所述文本信息进行分词处理和词性标注处理,去除语法关联词,获得关键词并计算关键词总数量;
将所述关键词与所述日志内容中的词汇进行匹配,获得匹配关键词并计算匹配关键词数量;
根据所述匹配关键词数量和所述关键词总数量计算所述维护内容与所述日志内容的匹配率,所述匹配率为所述匹配关键词数量与所述关键词总数量的比率;
将所述匹配率与预设阈值进行比对,当所述匹配率大于预设阈值,则所述维护内容与所述日志内容相匹配,否则,所述维护内容与所述日志内容不匹配。
2.根据权利要求1所述的监控方法,其特征在于,基于目标循环神经网络模型对预处理后的所述当前日志数据进行特征提取,采用LSTM神经网络对特征提取结果进行分类预测,通过归一化处理将分类预测结果转换为概率分布预测值,根据所述概率分布预测值识别所述互联网的运行状态的步骤之前,还包括:
构建初始循环神经网络模型;
采集历史系统日志文件,并提取所述历史系统日志文件中的历史日志数据,对所述历史日志数据进行分类处理形成训练数据,将训练数据存储于训练数据集中;
采用所述训练数据对构建好的初始循环神经网络模型进行训练,通过调整隐藏层层数以及优化参数,得到优化后的目标循环神经网络模型。
3.根据权利要求2所述的监控方法,其特征在于,将所述维护数据与所述当前日志数据进行匹配,并根据匹配结果确定所述互联网系统的运行状态发生异常是否为偶发异常的步骤之后,还包括:
当互联网系统的运行状态发生异常为非偶发异常时,将所述当前日志数据标记为正常,将标记后的所述当前日志数据作为新的训练数据,添加进所述训练数据集中;
当互联网系统的运行状态发生异常为偶发异常时,生成异常报告并通知维护人员进行人工处理。
4.根据权利要求3所述的监控方法,其特征在于,当互联网系统的运行状态发生异常为偶发异常时,生成异常报告并通知维护人员进行人工处理的步骤之后,还包括:
若人工处理结果仍为偶发异常时,将所述当前日志数据标记为异常数据,将标记后的所述当前日志数据作为新的训练数据,添加进所述训练数据集中。
5.一种互联网系统的运行状态监控装置,其特征在于,包括:
采集模块,用于采集系统日志文件,并提取所述系统日志文件中的当前日志数据,对所述当前日志数据进行预处理;
识别模块,用于基于目标循环神经网络模型对预处理后的所述当前日志数据进行特征提取,采用LSTM神经网络对特征提取结果进行分类预测,通过归一化处理将分类预测结果转换为概率分布预测值,根据所述概率分布预测值识别所述互联网的运行状态;
获取模块,用于当所述互联网的运行状态发生异常时,获取用户操作记录,从所述用户操作记录中提取维护数据;
判定模块,用于将所述维护数据与所述当前日志数据进行匹配,并根据匹配结果确定所述互联网系统的运行状态发生异常是否为偶发异常;
所述当前日志数据包括日志时间和日志内容,所述维护数据包括维护时间和维护内容,所述判定模块执行如下步骤:
将所述日志时间与所述维护时间进行匹配;
若所述日志时间与所述维护时间相匹配,则将所述维护内容与所述日志内容进行匹配;
若所述日志时间与所述维护时间不匹配,则确定所述互联网系统的运行状态发生异常为偶发异常;
若所述维护内容与所述日志内容相匹配,则确定所述互联网系统的运行状态发生异常为非偶发异常;
若所述维护内容与所述日志内容不匹配,则确定所述互联网系统的运行状态发生异常为偶发异常;
若所述日志时间与所述维护时间相匹配,则将所述维护内容与所述日志内容进行匹配的步骤包括:
将所述维护内容解析成文本信息,所述文本信息包含多个句子或字段,对所述文本信息进行分词处理和词性标注处理,去除语法关联词,获得关键词并计算关键词总数量;
将所述关键词与所述日志内容中的词汇进行匹配,获得匹配关键词并计算匹配关键词数量;
根据所述匹配关键词数量和所述关键词总数量计算所述维护内容与所述日志内容的匹配率,所述匹配率为所述匹配关键词数量与所述关键词总数量的比率;
将所述匹配率与预设阈值进行比对,当所述匹配率大于预设阈值,则所述维护内容与所述日志内容相匹配,否则,所述维护内容与所述日志内容不匹配。
6.一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的互联网系统的运行状态监控方法。
7.一种计算机存储介质,其特征在于,存储有能够实现如权利要求1-4中任一项所述的互联网系统的运行状态监控方法的程序文件。
CN202110729046.7A 2021-06-29 2021-06-29 互联网系统的运行状态监控方法、装置、设备及存储介质 Active CN113438114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110729046.7A CN113438114B (zh) 2021-06-29 2021-06-29 互联网系统的运行状态监控方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110729046.7A CN113438114B (zh) 2021-06-29 2021-06-29 互联网系统的运行状态监控方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113438114A CN113438114A (zh) 2021-09-24
CN113438114B true CN113438114B (zh) 2022-10-14

Family

ID=77757719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110729046.7A Active CN113438114B (zh) 2021-06-29 2021-06-29 互联网系统的运行状态监控方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113438114B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858794B (zh) * 2023-02-20 2023-05-05 北京特立信电子技术股份有限公司 用于网络运行安全监测的异常日志数据识别方法
CN116166967B (zh) * 2023-04-21 2023-07-14 深圳开鸿数字产业发展有限公司 基于元学习与残差网络的数据处理方法、设备和存储介质
CN116187205B (zh) * 2023-04-24 2023-08-15 北京智芯微电子科技有限公司 配电网数字孪生体的运行状态预测方法及装置、训练方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782460A (zh) * 2020-06-04 2020-10-16 昆山伊莱智能软件科技有限公司 大规模日志数据的异常检测方法、装置和存储介质
WO2020259280A1 (zh) * 2019-06-28 2020-12-30 中兴通讯股份有限公司 日志管理方法、装置、网络设备和可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11194692B2 (en) * 2017-09-22 2021-12-07 Nec Corporation Log-based system maintenance and management
CN111552609B (zh) * 2020-04-12 2022-03-11 西安电子科技大学 一种异常状态检测方法、系统、存储介质、程序、服务器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020259280A1 (zh) * 2019-06-28 2020-12-30 中兴通讯股份有限公司 日志管理方法、装置、网络设备和可读存储介质
CN111782460A (zh) * 2020-06-04 2020-10-16 昆山伊莱智能软件科技有限公司 大规模日志数据的异常检测方法、装置和存储介质

Also Published As

Publication number Publication date
CN113438114A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN113438114B (zh) 互联网系统的运行状态监控方法、装置、设备及存储介质
Liao et al. Enhanced restricted Boltzmann machine with prognosability regularization for prognostics and health assessment
CN112235327A (zh) 异常日志检测方法、装置、设备和计算机可读存储介质
CN110008323B (zh) 一种半监督学习结合集成学习的问题等价性判别的方法
CN112202726B (zh) 一种基于上下文感知的系统异常检测方法
Haroush et al. A statistical framework for efficient out of distribution detection in deep neural networks
Vignotto et al. Extreme value theory for anomaly detection–the GPD classifier
Zhao et al. Probabilistic remaining useful life prediction based on deep convolutional neural network
WO2021169361A1 (zh) 时间序列数据的检测方法、装置、计算机设备及存储介质
Vignotto et al. Extreme Value Theory for Open Set Classification--GPD and GEV Classifiers
CN110580213A (zh) 一种基于循环标记时间点过程的数据库异常检测方法
CN112488142A (zh) 一种雷达故障的预测方法、装置及存储介质
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN114662602A (zh) 一种离群点检测方法、装置、电子设备及存储介质
CN114399321A (zh) 一种业务系统稳定性分析方法、装置和设备
CN110954734A (zh) 故障诊断方法、装置、设备和存储介质
CN116402352A (zh) 一种企业风险预测方法、装置、电子设备及介质
CN115983087A (zh) 一种注意力机制与lstm结合检测时序数据异常方法及终端机
WO2018036402A1 (zh) 模型中关键变量的探测方法及装置
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
CN114817933A (zh) 评估业务预测模型鲁棒性的方法、装置及计算设备
CN112182056A (zh) 一种数据检测方法、装置、设备及存储介质
CN115964470B (zh) 一种摩托车配件的寿命预测方法及系统
CN117269742A (zh) 一种高海拔环境下断路器健康状态评估方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant