CN111506487B - 一种基于操作日志的故障修复手段的推荐方法及系统 - Google Patents

一种基于操作日志的故障修复手段的推荐方法及系统 Download PDF

Info

Publication number
CN111506487B
CN111506487B CN202010594026.9A CN202010594026A CN111506487B CN 111506487 B CN111506487 B CN 111506487B CN 202010594026 A CN202010594026 A CN 202010594026A CN 111506487 B CN111506487 B CN 111506487B
Authority
CN
China
Prior art keywords
log
module
operation log
sequence
executed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010594026.9A
Other languages
English (en)
Other versions
CN111506487A (zh
Inventor
张君
王俊
徐云华
陈晓莉
林建洪
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Ponshine Information Technology Co ltd
Original Assignee
Zhejiang Ponshine Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Ponshine Information Technology Co ltd filed Critical Zhejiang Ponshine Information Technology Co ltd
Priority to CN202010594026.9A priority Critical patent/CN111506487B/zh
Publication of CN111506487A publication Critical patent/CN111506487A/zh
Application granted granted Critical
Publication of CN111506487B publication Critical patent/CN111506487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于操作日志的故障修复手段的推荐方法及系统,本发明涉及的一种基于操作日志的故障修复手段的推荐方法,包括步骤:S11.建立记录操作信息的代理节点;S12.根据建立的代理节点记录异常事件相关对象的操作日志,并对所述操作日志进行标记;S13.对所述进行标记的操作日志进行过滤处理,得到异常事件中带有标记的介入性操作;S14.对所述得到的介入性操作的标记进行判断,剔除介入性操作中执行失败的操作日志行,得到介入性操作中执行成功的操作日志片段;S15.对所述得到的执行成功的操作日志片段进行标准化处理;S16.对步骤S12中与执行成功的操作日志片段相同的异常事件所搜集的操作日志片段进行公共操作片段提取,并作为故障处置的推荐操作。

Description

一种基于操作日志的故障修复手段的推荐方法及系统
技术领域
本发明涉及故障修复技术领域,尤其涉及一种基于操作日志的故障修复手段的推荐方法及系统。
背景技术
随着企业信息化的成熟,运维体系也愈发重要,而日益增多的设备量和趋于复杂的系统构架使运维工作的难度越来越大。门槛的提高不但导致人力成本的成倍增加,还使得运维风险直线加大,急需运维辅助工具来降低运维的复杂度,提升运维效率。
现有运维辅助工具的有History工具:在Linux中,可以通过history来查看历史命令。默认状态下,history只会输出命令的序号以及命令,可以对history命令的配置文件.bashrc做更改,添加执行时间、执行用户、执行路径等信息。
运维辅助工具还有inotify工具:它是一个内核用于通知用户空间程序文件系统变化的机制,如文件增加、删除等事件可以立刻让用户得知,该机制是著名的桌面搜索引擎项目 beagle 引入的,并在 Gamin 等项目中被应用。
如公开号为CN111191529A的专利公开了一种处理异常工单的方法,其中,所述异常工单为除质检结论为合格的工单以外的其他工单。所述处理异常工单的方法包括:通过深度神经网络模型从所述异常工单中提取特征属性,其中,该特征属性具有m个维度,m>200;将所述特征属性转换成状态矩阵;将所述状态矩阵输入到异常工单决策模型中,其中,所述异常工单决策模型是以经过人工处理的异常工单的信息记录为样本数据通过深度强化学习算法训练得到的,所述异常工单决策模型的输入量为所述状态矩阵,所述异常工单决策模型的输出量为表征处理方案的权重向量;及通过所述异常工单决策模型计算出针对所述异常工单的处理方案。其虽然可以输出针对异常工单的处理方案,但是其处理的是工单各个维度的特征,其还需要采用神经网络的算法,确定各个维度的特征,进行分类,区别不合格的原因。
但是实际的运维工作难度越来越大,服务器的故障修复流程依然无法满足故障修复效率的要求。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于操作日志的故障修复手段的推荐方法及系统,可以围绕运维过程中运维人员的操作记录,通过找到成功修复此次故障的人工介入性操作,实现自动积累运维经验的目的。
为了实现以上目的,本发明采用以下技术方案:
一种基于操作日志的故障修复手段的推荐方法,包括步骤:
S1.建立记录操作信息的代理节点;
S2.根据建立的代理节点记录异常事件相关对象的操作日志,并对所述操作日志进行标记;
S3.对所述进行标记的操作日志进行过滤处理,得到异常事件中带有标记的介入性操作;
S4.对所述得到的介入性操作的标记进行判断,剔除介入性操作中执行失败的操作日志行,得到介入性操作中执行成功的操作日志片段;
S5.对所述得到的执行成功的操作日志片段进行标准化处理;
S6.对步骤S2中与执行成功的操作日志片段相同的异常事件所搜集的操作日志片段进行公共操作片段提取,并作为故障处置的推荐操作。
进一步的,所述步骤S1中建立记录操作信息的代理节点之后还包括:
所述建立的代理节点将记录的操作信息生成原始操作日志,并对操作日志进行标记。
进一步的,所述对操作日志进行标记具体为:
A1.在代理节点执行每条命令之前,获取执行命令的当前绝对路径;在命令执行后,对所述绝对路径进行标记;
A2.判断所述命令是否执行成功,并对判断结果进行标记;
A3.判断所述执行命令是否为文本处理类命令,若是,则命令执行完毕后,检查被执行文件状态是否变更,并对所述是否变更的判断结果进行标记。
进一步的,所述操作日志包括操作发生时间、操作设备、操作用户、操作对象IP、操作目录、操作内容、执行判断。
进一步的,所述步骤S5具体为:
S51.按照对象类型、对象名称和时间顺序对操作日志进行排序;
S52.删除历史记录中相关的操作日志行。
进一步的,所述步骤S6中的公共操作片段提取具体为:
B1.通过空格对相同异常事件所搜集的所有日志片段进行分词;
B2.将进行分词后得到的所有词列出,并记录每个词的频次,将所述每个词的频次作为基准列a 1
B3.将每个日志片段中包括所述基准列a 1中词的频数列出;
B4.输出每个日志片段的词频向量;
B5.计算每个日志片段与基准列a 1的相似度,并获得每个日志片段相似度的数列a 2
B6.计算数列a 2的标准差
Figure 396661DEST_PATH_IMAGE001
B7.将基准列a 1中频数为1的词删除,作为数列a 3
B8.去除当前每个日志片段中所述步骤B7中删除的词;
B9.将数列a 3取代基准列a 1,并执行步骤B3-B6,得到标准差
Figure 338334DEST_PATH_IMAGE002
B10.将数列a 3中频数为2的词删除,作为数列a 4
B11.将步骤B10取代步骤B7,并重新执行步骤B8-B9,得到标准差
Figure 532555DEST_PATH_IMAGE003
B12.循环操作步骤B10-B11,直到数列中的词全部被删除,结束循环,得到标准差
Figure 323794DEST_PATH_IMAGE004
B13.计算点(0,
Figure 464925DEST_PATH_IMAGE001
)、(1,
Figure 278683DEST_PATH_IMAGE002
)、…、(n-1,
Figure 112647DEST_PATH_IMAGE005
)两两之间的斜率k,若n=m时,斜率k最 小,则取数列a(m+1)作为标准数列A1
B14.将标准数列A1按照词在日志片段中的顺序调整词序,作为最终的公共操作集。
进一步的,所述步骤B5中计算每个日志片段与基准列a 1的相似度通过公式进行计算的,所述公式表示为:
Figure 922340DEST_PATH_IMAGE006
其中,x i 表示两个数列词频向量的横坐标;y i 表示两个数列词频向量的纵坐标。
相应的,还提供一种基于操作日志的故障修复手段的推荐系统,包括:
建立模块,用于建立记录操作信息的代理节点;
标记模块,用于根据建立的代理节点记录异常事件相关对象的操作日志,并对所述操作日志进行标记;
过滤模块,用于对所述进行标记的操作日志进行过滤处理,得到异常事件中带有标记的介入性操作;
剔除模块,用于对所述得到的介入性操作的标记进行判断,剔除介入性操作中执行失败的操作日志行,得到介入性操作中执行成功的操作日志片段;
标准化模块,用于对所述得到的执行成功的操作日志片段进行标准化处理;
提取模块,用于对标记模块中与执行成功的操作日志片段相同的异常事件所搜集的操作日志片段进行公共操作片段提取,并作为故障处置的推荐操作。
进一步的,所述建立模块中建立记录操作信息的代理节点之后还包括:
生成模块,用于建立的代理节点将记录的操作信息生成原始操作日志,并对操作日志进行标记;
所述对操作日志进行标记具体包括:
获取模块,用于在代理节点执行每条命令之前,获取执行命令的当前绝对路径;在命令执行后,对所述绝对路径进行标记;
第一判断模块,用于判断所述命令是否执行成功,并对判断结果进行标记;
第二判断模块,用于判断所述执行命令是否为文本处理类命令,若是,则命令执行完毕后,检查被执行文件状态是否变更,并对所述是否变更的判断结果进行标记。
进一步的,所述提取模块中的公共操作片段提取具体为:
分词模块,用于通过空格对相同异常事件所搜集的所有日志片段进行分词;
记录模块,用于将进行分词后得到的所有词列出,并记录每个词的频次,将所述每个词的频次作为基准列a 1
第一列出模块,用于将每个日志片段中包括所述基准列a 1中词的频数列出;
输出模块,用于输出每个日志片段的词频向量;
第一计算模块,用于计算每个日志片段与基准列a 1的相似度,并获得每个日志片段相似度的数列a 2
第二计算模块,用于计算数列a 2的标准差
Figure 368627DEST_PATH_IMAGE007
第一删除模块,用于将基准列a 1中频数为1的词删除,作为数列a 3
去除模块,用于去除当前每个日志片段中所述第一删除模块中删除的词;
第一替换模块,用于将数列a 3取代基准列a 1,得到标准差
Figure 517849DEST_PATH_IMAGE008
第二删除模块,用于将数列a 3中频数为2的词删除,作为数列a 4
第二替换模块,用于将第二删除模块取代一删除模块,得到标准差
Figure 319451DEST_PATH_IMAGE009
循环模块,用于循环操作第二删除模块、第二替换模块,直到数列中的词全部被删 除,结束循环,得到标准差
Figure 554124DEST_PATH_IMAGE010
第三计算模块,用于计算点(0,
Figure 335260DEST_PATH_IMAGE007
)、(1,
Figure 870147DEST_PATH_IMAGE008
)、…、(n-1,
Figure 780334DEST_PATH_IMAGE011
)两两之间的斜率k,若n=m时,斜率k最小,则取数列a(m+1)作为标准数列A1
调整模块,用于将标准数列A1按照词在日志片段中的顺序调整词序,作为最终的公共操作集。
与现有技术相比,本发明围绕运维过程中运维人员的操作记录,通过找到成功修复此次故障的人工介入性操作,实现自动积累运维经验的目的。同时将把同一类故障的处置操作做关联,通过算法发掘共性,再配合对恢复指标的检验,判断处置操作的有效性,实现自动归纳处理问题的核心步骤,在之后遇到类似问题时,能够提供精准的修复建议(包含定位动作和修复动作)。
附图说明
图1是实施例一提供的一种基于操作日志的故障修复手段的推荐方法流程图;
图2是实施例一提供的一种基于操作日志的故障修复手段的推荐方法流程示意图;
图3是实施例一提供公共操作集推荐处置操作示意图;
图4是实施例二提供的一种基于操作日志的故障修复手段的推荐系统结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于操作日志的故障修复手段的推荐方法及系统。
实施例一
本实施例提供一种基于操作日志的故障修复手段的推荐方法,如图1-2所示,包括步骤:
S11.建立记录操作信息的代理节点;
S12.根据建立的代理节点记录异常事件相关对象的操作日志,并对所述操作日志进行标记;
S13.对所述进行标记的操作日志进行过滤处理,得到异常事件中带有标记的介入性操作;
S14.对所述得到的介入性操作的标记进行判断,剔除介入性操作中执行失败的操作日志行,得到介入性操作中执行成功的操作日志片段;
S15.对所述得到的执行成功的操作日志片段进行标准化处理;
S16.对步骤S12中与执行成功的操作日志片段相同的异常事件所搜集的操作日志片段进行公共操作片段提取,并作为故障处置的推荐操作。
在步骤S11中,建立记录操作信息的代理节点。
建立操作代理,采集操作日志及添加标记;由于审计和安全的要求,操作在执行时需要通过代理(4A)。代理节点将实时记录所有的操作信息,生成操作日志,并传送至日志服务器。同时代理节点将对操作进行额外标记,标记方法如下:
A1.在代理节点执行每条命令之前,获取执行命令的当前绝对路径;在命令执行后,对所述绝对路径进行标记;
在代理节点执行每条命令之前,获取执行命令的当前绝对路径,在命令执行后,对此绝对路径用“ [ ]”标示,依附于每条操作日志末尾。
A2.判断所述命令是否执行成功,并对判断结果进行标记;
在A1执行后,添加对此命令的执行是否成功的判断,对此判断结果用“ [ ]”标示,依附于A1生成日志末尾。
A3.判断所述执行命令是否为文本处理类命令,若是,则命令执行完毕后,检查被执行文件状态是否变更,并对所述是否变更的判断结果进行标记。
在A2执行后,判断执行命令是否为文本处理类命令,如果是,在命令执行完毕后,借助Inotify工具,检查被执行文件状态,标记是否变更,对此判断结果用“ [ ]”标示,依附于A2生成日志末尾。
操作日志内容包含操作发生时间、操作设备、操作用户、操作对象IP、操作目录、操作内容、执行判断。
例如:
<30>Oct 9 22:33:20 hlfedora auditd[1787]: [root@azure_test_static1_11_35 fastdfs]# cd /var/log/history/fastdfs/ [/var/log/history/fastdfs/][success] [unmodified]
本实施例在生成的每个日志后进行标记,为后续排除掉非有效的介入性操作做好筛选依据。
在步骤S12中,根据建立的代理节点记录异常事件相关对象的操作日志,并对所述操作日志进行标记。
异常事件对应操作日志获取:
在操作执行过程中,若收到告警系统上报的具有指示待处理异常事件发生的原始告警或者加工处理后的告警(后续出现的关联告警由告警系统归并至此主要告警),将告警发生开始的时间定义为异常事件的起点时间T1,将解除告警的结束时间(也就是异常修复完成)定义为异常事件的结束时间T2,获取时间T1到时间T2(根据异常恢复通知判断)之间的异常事件相关对象的操作日志数据,其中包含本机操作日志和相关联对象操作日志。
在步骤S13中,对所述进行标记的操作日志进行过滤处理,得到异常事件中带有标记的介入性操作。
过滤出异常事件发生后的介入性操作:
首先根据操作用户,删除步骤S12获取的操作日志数据中程序用户的操作记录;再根据变更工单中所列出的变更实施操作,剔除计划性操作,保留异常事件发生后的人工介入性操作。
其中变更工单是软件升级、修改配置等工作,需要向资源池提变更工单,说明此次变更内容、影响范围、需要配合的地方等,由资源池统一协调配合。本实施例将变更工单中的计划性变更操作进行剔除,只保留异常事件发生后的人工介入性操作,达到只保留此次故障的所有介入性操作的目标。
在步骤S14中,对得到的介入性操作的标记进行判断,剔除介入性操作中执行失败的操作日志行,得到介入性操作中执行成功的操作日志片段。
剔除执行失败的操作:
根据步骤S13中每条日志最后的执行判断标记,对执行失败的操作日志行进行剔除,最终保留此次故障所对的成功执行的介入性操作日志集合。
在步骤S15中,对所述得到的执行成功的操作日志片段进行标准化处理。
输出日志片段进行标准化处理,处理步骤如下:
S151.按对象类型、对象名称和时间顺序对操作日志进行排序。
S152.删除历史记录cd相关操作日志行。
本实施例根据对日志的标记进行筛选,首先剔除程序用户的操作日志记录,再剔除计划性操作,达到只保留此次故障的所有介入性操作的目标。然后再剔除执行失败的操作,并做好日志标准化。
在步骤S16中,对步骤S12中与执行成功的操作日志片段相同的异常事件所搜集的操作日志片段进行公共操作片段提取,并作为故障处置的推荐操作。
相同异常事件所对操作日志的归并处理:
将S12步骤中相同异常事件所搜集的日志片段做公共操作片段提取,作为故障处置的推荐操作。公共片段提取的方法,具体如下:
B1.通过空格对相同异常事件所搜集的所有日志片段进行分词;
B2.将进行分词后得到的所有词列出,并记录每个词的频次,将所述每个词的频次作为基准列a 1
B3.将每个日志片段中包括所述基准列a 1中词的频数列出;
B4.输出每个日志片段的词频向量;
B5.根据下述公式,计算每个日志片段与基准列a 1的相似度,并获得每个日志片段相似度的数列a 2
Figure 269346DEST_PATH_IMAGE006
其中,x i 表示两个数列词频向量的横坐标;y i 表示两个数列词频向量的纵坐标;
B6.计算数列a 2的标准差
Figure 352709DEST_PATH_IMAGE007
B7.将基准列a 1中频数为1的词删除,作为数列a 3
B8.去除当前每个日志片段中所述步骤B7中删除的词;
B9.将数列a 3取代基准列a 1,并执行步骤B3-B6,得到标准差
Figure 476523DEST_PATH_IMAGE008
B10.将数列a 3中频数为2的词删除,作为数列a 4
B11.将步骤B10取代步骤B7,并重新执行步骤B8-B9,得到标准差
Figure 823190DEST_PATH_IMAGE009
B12.循环操作步骤B10-B11,直到数列中的词全部被删除,结束循环,得到标准差
Figure 528060DEST_PATH_IMAGE010
B13.计算点(0,
Figure 618376DEST_PATH_IMAGE007
)、(1,
Figure 862276DEST_PATH_IMAGE008
)、…、(n-1,
Figure 114265DEST_PATH_IMAGE011
)两两之间的斜率k,若n=m时,斜率k最 小,则取数列a(m+1)作为标准数列A1
B14.将标准数列A1按照词在日志片段中的顺序调整词序,作为最终的公共操作集。
当再次出现相同问题时,系统将使用公共操作集推荐处置操作。同时在运维人员确认或修改后,依此法重新调整公共操作集。
如图3所示为使用公共操作集推荐处置操作对事件类型A为例进行说明,具体为:
当被判定为事件类型A(可采用既定模型方案判定,但是既定模型不属于本发明所要保护的内容,可根据现有技术得出)的不同事件(即异常事件)出现n次后(n>1),通过算法B1-B14步骤,输出事件类型A的公共操作集(处置)。当再次出现属于事件类型A的事件时,可将事件类型A所对的公共操作集推荐给操作用户,同时将本次事件的处置操作所对日志也作为新的操作样本,套用上述方法,更新公共操作集。同时,公共操作集可人工修正,处置人员将结合本次事件的处置步骤,判定本次处置操作推荐有效或修改其中步骤,作为新的操作样本(则本次事件原始操作日志集不作为样本参与计算,以新样本取代)。
与现有技术相比,本实施例围绕运维过程中运维人员的操作记录,通过找到成功修复此次故障的人工介入性操作,实现自动积累运维经验的目的。同时将把同一类故障的处置操作做关联,通过算法发掘共性,再配合对恢复指标的检验,判断处置操作的有效性,实现自动归纳处理问题的核心步骤,在之后遇到类似问题时,能够提供精准的修复建议(包含定位动作和修复动作);本实施例从发生故障时,人工的介入性操作中发现共性,提取关键操作,在下次遇到的时候进行提示。
实施例二
本实施例提供一种基于操作日志的故障修复手段的推荐系统,包括:
建立模块11,用于建立记录操作信息的代理节点;
标记模块12,用于根据建立的代理节点记录异常事件相关对象的操作日志,并对所述操作日志进行标记;
过滤模块13,用于对所述进行标记的操作日志进行过滤处理,得到异常事件中带有标记的介入性操作;
剔除模块14,用于对所述得到的介入性操作的标记进行判断,剔除介入性操作中执行失败的操作日志行,得到介入性操作中执行成功的操作日志片段;
标准化模块15,用于对所述得到的执行成功的操作日志片段进行标准化处理;
提取模块16,用于对标记模块中与执行成功的操作日志片段相同的异常事件所搜集的操作日志片段进行公共操作片段提取,并作为故障处置的推荐操作。
进一步的,所述建立模块11中建立记录操作信息的代理节点之后还包括:
生成模块,用于建立的代理节点将记录的操作信息生成原始操作日志,并对操作日志进行标记;
所述对操作日志进行标记具体包括:
获取模块,用于在代理节点执行每条命令之前,获取执行命令的当前绝对路径;在命令执行后,对所述绝对路径进行标记;
第一判断模块,用于判断所述命令是否执行成功,并对判断结果进行标记;
第二判断模块,用于判断所述执行命令是否为文本处理类命令,若是,则命令执行完毕后,检查被执行文件状态是否变更,并对所述是否变更的判断结果进行标记。
进一步的,所述提取模块16中的公共操作片段提取具体为:
分词模块,用于通过空格对相同异常事件所搜集的所有日志片段进行分词;
记录模块,用于将进行分词后得到的所有词列出,并记录每个词的频次,将所述每个词的频次作为基准列a 1
第一列出模块,用于将每个日志片段中包括所述基准列a 1中词的频数列出;
输出模块,用于输出每个日志片段的词频向量;
第一计算模块,用于计算每个日志片段与基准列a 1的相似度,并获得每个日志片段相似度的数列a 2
第二计算模块,用于计算数列a 2的标准差
Figure 374608DEST_PATH_IMAGE007
第一删除模块,用于将基准列a 1中频数为1的词删除,作为数列a 3
去除模块,用于去除当前每个日志片段中所述第一删除模块中删除的词;
第一替换模块,用于将数列a 3取代基准列a 1,得到标准差
Figure 3035DEST_PATH_IMAGE008
第二删除模块,用于将数列a 3中频数为2的词删除,作为数列a 4
第二替换模块,用于将第二删除模块取代一删除模块,得到标准差
Figure 101441DEST_PATH_IMAGE009
循环模块,用于循环操作第二删除模块、第二替换模块,直到数列中的词全部被删 除,结束循环,得到标准差
Figure 25797DEST_PATH_IMAGE010
第三计算模块,用于计算点(0,
Figure 271971DEST_PATH_IMAGE007
)、(1,
Figure 907351DEST_PATH_IMAGE008
)、…、(n-1,
Figure 657001DEST_PATH_IMAGE011
)两两之间的斜率k,若n=m时,斜率k最小,则取数列a(m+1)作为标准数列A1
调整模块,用于将标准数列A1按照词在日志片段中的顺序调整词序,作为最终的公共操作集。
需要说明的是,本实施例提供的一种基于操作日志的故障修复手段的推荐系统与实施例一类似,在此不多做赘述。
与现有技术相比,本实施例围绕运维过程中运维人员的操作记录,通过找到成功修复此次故障的人工介入性操作,实现自动积累运维经验的目的。同时将把同一类故障的处置操作做关联,通过算法发掘共性,再配合对恢复指标的检验,判断处置操作的有效性,实现自动归纳处理问题的核心步骤,在之后遇到类似问题时,能够提供精准的修复建议(包含定位动作和修复动作)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种基于操作日志的故障修复手段的推荐方法,其特征在于,包括步骤:
S1.建立记录操作信息的代理节点;
S2.根据建立的代理节点记录异常事件相关对象的操作日志,并对所述操作日志进行标记;
S3.对所述进行标记的操作日志进行过滤处理,得到异常事件中带有标记的介入性操作;
S4.对所述得到的介入性操作的标记进行判断,剔除介入性操作中执行失败的操作日志行,得到介入性操作中执行成功的操作日志片段;
S5.对所述得到的执行成功的操作日志片段进行标准化处理;
S6.对步骤S2中与执行成功的操作日志片段相同的异常事件所搜集的操作日志片段进行公共操作片段提取,并作为故障处置的推荐操作;
所述步骤S6中的公共操作片段提取具体为:
B1.通过空格对相同异常事件所搜集的所有日志片段进行分词;
B2.将进行分词后得到的所有词列出,并记录每个词的频次,将所述每个词的频次作为基准列a1
B3.将每个日志片段中包括所述基准列a1中词的频数列出;
B4.输出每个日志片段的词频向量;
B5.计算每个日志片段与基准列a1的相似度,并获得每个日志片段相似度的数列a2
B6.计算数列a2的标准差σ1
B7.将基准列a1中频数为1的词删除,作为数列a3
B8.去除当前每个日志片段中所述步骤B7中删除的词;
B9.将数列a3取代基准列a1,并执行步骤B3-B6,得到标准差σ2
B10.将数列a3中频数为2的词删除,作为数列a4
B11.将步骤B10取代步骤B7,并重新执行步骤B8-B9,得到标准差σ3
B12.循环操作步骤B10-B11,直到数列中的词全部被删除,结束循环,得到标准差σ1n
B13.计算点(0,σ1)、(1,σ2)、…、(n-1,σn)两两之间的斜率k,若n=m时,斜率k最小,则取数列a(m+1)作为标准数列A1
B14.将标准数列A1按照词在日志片段中的顺序调整词序,作为最终的公共操作集。
2.根据权利要求1所述的一种基于操作日志的故障修复手段的推荐方法,其特征在于,所述步骤S1中建立记录操作信息的代理节点之后还包括:
所述建立的代理节点将记录的操作信息生成原始操作日志,并对操作日志进行标记。
3.根据权利要求2所述的一种基于操作日志的故障修复手段的推荐方法,其特征在于,所述对操作日志进行标记具体为:
A1.在代理节点执行每条命令之前,获取执行命令的当前绝对路径;在命令执行后,对所述绝对路径进行标记;
A2.判断所述命令是否执行成功,并对判断结果进行标记;
A3.判断所述执行命令是否为文本处理类命令,若是,则命令执行完毕后,检查被执行文件状态是否变更,并对所述是否变更的判断结果进行标记。
4.根据权利要求2所述的一种基于操作日志的故障修复手段的推荐方法,其特征在于,所述操作日志包括操作发生时间、操作设备、操作用户、操作对象IP、操作目录、操作内容、执行判断。
5.根据权利要求1所述的一种基于操作日志的故障修复手段的推荐方法,其特征在于,所述步骤S5具体为:
S51.按照对象类型、对象名称和时间顺序对操作日志进行排序;
S52.删除历史记录中相关的操作日志行。
6.根据权利要求1所述的一种基于操作日志的故障修复手段的推荐方法,其特征在于,所述步骤B5中计算每个日志片段与基准列a1的相似度通过公式进行计算的,所述公式表示为:
Figure FDA0002636087160000021
其中,xi表示两个数列词频向量的横坐标;yi表示两个数列词频向量的纵坐标。
7.一种基于操作日志的故障修复手段的推荐系统,其特征在于,包括:
建立模块,用于建立记录操作信息的代理节点;
标记模块,用于根据建立的代理节点记录异常事件相关对象的操作日志,并对所述操作日志进行标记;
过滤模块,用于对所述进行标记的操作日志进行过滤处理,得到异常事件中带有标记的介入性操作;
剔除模块,用于对所述得到的介入性操作的标记进行判断,剔除介入性操作中执行失败的操作日志行,得到介入性操作中执行成功的操作日志片段;
标准化模块,用于对所述得到的执行成功的操作日志片段进行标准化处理;
提取模块,用于对标记模块中与执行成功的操作日志片段相同的异常事件所搜集的操作日志片段进行公共操作片段提取,并作为故障处置的推荐操作;
所述提取模块中的公共操作片段提取具体为:
分词模块,用于通过空格对相同异常事件所搜集的所有日志片段进行分词;
记录模块,用于将进行分词后得到的所有词列出,并记录每个词的频次,将所述每个词的频次作为基准列a1
第一列出模块,用于将每个日志片段中包括所述基准列a1中词的频数列出;
输出模块,用于输出每个日志片段的词频向量;
第一计算模块,用于计算每个日志片段与基准列a1的相似度,并获得每个日志片段相似度的数列a2
第二计算模块,用于计算数列a2的标准差σ1
第一删除模块,用于将基准列a1中频数为1的词删除,作为数列a3
去除模块,用于去除当前每个日志片段中所述第一删除模块中删除的词;
第一替换模块,用于将数列a3取代基准列a1,得到标准差σ2
第二删除模块,用于将数列a3中频数为2的词删除,作为数列a4
第二替换模块,用于将第二删除模块取代一删除模块,得到标准差σ3
循环模块,用于循环操作第二删除模块、第二替换模块,直到数列中的词全部被删除,结束循环,得到标准差σ1n
第三计算模块,用于计算点(0,σ1)、(1,σ2)、…、(n-1,σn)两两之间的斜率k,若n=m时,斜率k最小,则取数列a(m+1)作为标准数列A1
调整模块,用于将标准数列A1按照词在日志片段中的顺序调整词序,作为最终的公共操作集。
8.根据权利要求7所述的一种基于操作日志的故障修复手段的推荐系统,其特征在于,所述建立模块中建立记录操作信息的代理节点之后还包括:
生成模块,用于建立的代理节点将记录的操作信息生成原始操作日志,并对操作日志进行标记;
所述对操作日志进行标记具体包括:
获取模块,用于在代理节点执行每条命令之前,获取执行命令的当前绝对路径;在命令执行后,对所述绝对路径进行标记;
第一判断模块,用于判断所述命令是否执行成功,并对判断结果进行标记;
第二判断模块,用于判断所述执行命令是否为文本处理类命令,若是,则命令执行完毕后,检查被执行文件状态是否变更,并对所述是否变更的判断结果进行标记。
CN202010594026.9A 2020-06-28 2020-06-28 一种基于操作日志的故障修复手段的推荐方法及系统 Active CN111506487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010594026.9A CN111506487B (zh) 2020-06-28 2020-06-28 一种基于操作日志的故障修复手段的推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010594026.9A CN111506487B (zh) 2020-06-28 2020-06-28 一种基于操作日志的故障修复手段的推荐方法及系统

Publications (2)

Publication Number Publication Date
CN111506487A CN111506487A (zh) 2020-08-07
CN111506487B true CN111506487B (zh) 2020-10-13

Family

ID=71878806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010594026.9A Active CN111506487B (zh) 2020-06-28 2020-06-28 一种基于操作日志的故障修复手段的推荐方法及系统

Country Status (1)

Country Link
CN (1) CN111506487B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032235B (zh) * 2021-03-31 2022-11-04 上海天旦网络科技发展有限公司 基于系统指标与命令调用日志的运维措施推荐方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790156B (zh) * 2009-11-19 2011-10-26 北京邮电大学 基于策略优化的终端软件故障修复方法及装置
ES2527550B2 (es) * 2013-07-25 2015-12-07 Universidad De Alcalá Procedimiento de reparación agrupada de caminos en fallo y puente de red
CN105827431B (zh) * 2015-12-25 2019-05-17 广东亿迅科技有限公司 基于故障因果图的集群故障收敛方法和装置

Also Published As

Publication number Publication date
CN111506487A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN109902153B (zh) 基于自然语言处理和案例推理的设备故障诊断方法及系统
US10417072B2 (en) Scalable predictive early warning system for data backup event log
CN113282461B (zh) 传输网的告警识别方法和装置
US8380385B2 (en) System and method for determining electronic logbook observed defect fix effectiveness
CN107301120B (zh) 用于处理非结构化日志的方法及装置
CN112183782A (zh) 故障工单处理方法及设备
CN111722058A (zh) 基于知识图谱的电力信息系统故障检测方法、装置及介质
CN111506487B (zh) 一种基于操作日志的故障修复手段的推荐方法及系统
CN108959374B (zh) 数据存储方法、装置及电子设备
CN113687972A (zh) 业务系统异常数据的处理方法、装置、设备及存储介质
CN110716820A (zh) 一种基于决策树算法的故障诊断方法
CN112699106A (zh) 一种基于Apriori算法的继电保护装置多维度告警信息时序关联关系分析方法
CN109426576B (zh) 容错处理方法以及容错组件
CN113378239B (zh) 一种数据内容确权方法及系统
CN114418775A (zh) 年金投资数据的校验方法、装置、设备及介质
CN113269268A (zh) 基于大数据的数据匹配方法、系统及云平台
US20210173750A1 (en) Methods to automatically correct and improve system recovery and replication processes
CN115373868A (zh) 智能数据处理系统及方法
CN114139853A (zh) 一种基于大数据的钢结构产品清单处理方法和装置
CN112380042A (zh) 数据库软件的故障定位与分析方法、装置及存储介质
JP6897580B2 (ja) 切り分け作業特定装置、切り分け作業特定方法及びプログラム
JP7446142B2 (ja) サイバーセキュリティ監査システム
US20230064846A1 (en) Failure knowledge structure system and failure knowledge structure method
CN114721861B (zh) 一种基于日志差异化比对的故障定位方法与系统
CN112561261B (zh) 核电厂工作过程的经验反馈数据应用方法和计算机终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant