CN110659173B - 一种运维系统及方法 - Google Patents
一种运维系统及方法 Download PDFInfo
- Publication number
- CN110659173B CN110659173B CN201810689427.5A CN201810689427A CN110659173B CN 110659173 B CN110659173 B CN 110659173B CN 201810689427 A CN201810689427 A CN 201810689427A CN 110659173 B CN110659173 B CN 110659173B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- maintenance
- module
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 217
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000005856 abnormality Effects 0.000 claims abstract description 71
- 238000012549 training Methods 0.000 claims description 131
- 238000011156 evaluation Methods 0.000 claims description 96
- 230000002159 abnormal effect Effects 0.000 claims description 75
- 238000013500 data storage Methods 0.000 claims description 75
- 238000002372 labelling Methods 0.000 claims description 66
- 238000007726 management method Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 25
- 238000012795 verification Methods 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 230000005540 biological transmission Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 17
- 238000013526 transfer learning Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 12
- 238000007619 statistical method Methods 0.000 claims description 9
- 238000012790 confirmation Methods 0.000 claims description 8
- 230000003068 static effect Effects 0.000 claims description 8
- 238000002360 preparation method Methods 0.000 claims description 7
- 238000012550 audit Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 abstract description 8
- 238000012544 monitoring process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3428—Benchmarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3495—Performance evaluation by tracing or monitoring for systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本发明实施例提供了一种运维系统及方法,该系统包括相互连接的数据采集模块、数据存储模块、异常及故障标注模块、模型自动训练及评估模块、运维管理及任务执行模块、结果审核模块。如此,能够在满足基本运维需求的同时,可以实现异常及故障自动发现、故障快速定位、故障提前预警等运维功能,而且保证整个运维系统能够实现自适应更新、自我提升、逐步进化,显著提升运维的效率。
Description
技术领域
本发明实施例涉及但不限于一种运维系统及方法。
背景技术
目前随着云计算、大数据技术的成熟,各个行业在实际应用过程中积累了各种各样的海量数据,除了应用系统自身的必要数据之外,还有与之相关的底层存储介质、网络传输、操作系统、数据库及文件系统、管理系统等的日志数据,这些数据记录了系统正常操作、异常操作、故障出现之前及故障出现之后系统的变化及关联组件的连锁反应等等,是运维人员进行异常发现、故障定界、根因分析以及故障预测的依据。但是面对每时每刻不断增长的、组件之间交错复杂的、日志记录形式种类多样的运维数据,过去那种依赖人力逐步排查、脚本辅助定位、日志检索、简单统计分析、阈值监控等已经无法满足当前运维对时效性、功能性的基本需求了。
目前运维领域的方法有以下几类:一是人工经验,运维工程师通过检索、查看日志的日志级别(如debug、warning、error、info、fatal)或者错误码(如400、ORA-01500等特定码),结合丰富的运维经验快速锁定故障所在的位置;这种运维方式在成熟稳定的小型企业中比较有效,对于目前大型的、复杂的、新软件不断叠加的集群中,由于日志数据量巨大、日志类型多种多样、运维需求高效有效的情况下就显得力不从心了。二是日志分析工具,这种工具最早以分析用户的操作日志为主,在了解用户的操作习惯、行为爱好的基础上进行系统优化、精准营销等等,后来应用进一步扩展到运维上,但是这些工具的主要功能是对日志进行统一收集、解析、存储之后提供日志检索、简单的统计分析及可视化展示(如用户的访问量UV、页面的访问量PV等等),这些工具随着云计算及大数据的发展对底层架构也进行了更新,可以满足复杂多样的、海量的日志的快速检索、简单统计分析、实时监控等需求,但是对于运维领域中的异常自动发现、故障快速定位、故障提前预警等高级运维需求没法满足。
而如何在云计算、大数据的基础上,利用人工智能技术实现运维的智能化,当前及后续较长一段时间内各中大型企业积极探索的内容。
发明内容
有鉴于此,本发明实施例提供了一种运维系统,包括:相互连接的数据采集模块、数据存储模块、异常及故障标注模块、模型自动训练及评估模块、运维管理及任务执行模块、结果审核模块;其中,数据采集模块,用于采集所述运维系统所需要的各种日志源数据并存储在数据存储模块;数据存储模块,用于对所述日志源数据、运维结果、标注结果、模型及知识库进行存储;异常及故障标注模块,用于持续地对数据存储模块中的部分源数据进行异常及故障标注,并将标注结果存储到数据存储模块;模型自动训练及评估模块,用于持续地生成及更新各种运维模型及知识库,并存储到数据存储模块;运维管理及任务执行模块,用于对运维任务设置与执行、运维模型及知识库调用、运维结果存储及输出;结果审核模块,用于对运维管理及任务执行模块输出的异常及故障进行审核,并将审核确认的异常及故障输出到异常及故障标注模块。
本发明实施例还提供了一种运维方法,包括:数据采集模块采集运维系统所需要的各种日志源数据并存储在数据存储模块;数据存储模块对所述日志源数据、运维结果、标注结果、模型及知识库进行存储;异常及故障标注模块持续地对数据存储模块中的部分源数据进行异常及故障标注,并将标注结果存储到数据存储模块模型自动训练及评估模块持续地生成及更新各种运维模型及知识库,并存储到数据存储模块;运维管理及任务执行模块对运维任务的设置与执行、运维模型及知识库的调用、运维结果的存储及输出;结果审核模块对运维管理及任务执行模块输出的异常及故障进行审核,并将审核确认的异常及故障输出到异常及故障标注模块。
与相关技术相比,本发明实施例提供了一种运维系统及方法,该系统包括相互连接的数据采集模块、数据存储模块、异常及故障标注模块、模型自动训练及评估模块、运维管理及任务执行模块、结果审核模块;其中,数据采集模块,用于采集所述运维系统所需要的各种日志源数据并存储在数据存储模块;数据存储模块,用于对所述日志源数据、运维结果、标注结果、模型及知识库进行存储;异常及故障标注模块,用于持续地对数据存储模块中的部分源数据进行异常及故障标注,并将标注结果存储到数据存储模块;模型自动训练及评估模块,用于持续地生成及更新各种运维模型及知识库,并存储到数据存储模块;运维管理及任务执行模块,用于对运维任务设置与执行、运维模型及知识库调用、运维结果存储及输出;结果审核模块,用于对运维管理及任务执行模块输出的异常及故障进行审核,并将审核确认的异常及故障输出到异常及故障标注模块。如此,能够在满足基本运维需求的同时,可以实现异常及故障自动发现和输出,保证整个运维系统能够实现自适应更新、自我提升、逐步进化,显著提升运维的效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例一提供的运维系统的结构示意图;
图2为相关技术中运维系统的结构示意图;
图3为本发明实施例二提供的运维系统的结构示意图;
图4为本发明实施例三提供的运维方法的流程示意图;
图5为本发明实施例四提供的运维方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
为了在云计算、大数据的基础上,利用人工智能技术实现运维的智能化,本发明实施例提供了一种新的运维系统及方法,来保证整个运维系统能够实现自适应更新、自我提升、逐步进化,显著提升运维的效率。
实施例一
图1为本发明实施例一提供的运维系统的结构示意图。如图1所示,该运维系统,包括:相互连接的数据采集模块、数据存储模块、异常及故障标注模块、模型自动训练及评估模块、运维管理及任务执行模块、结果审核模块;其中,
数据采集模块,用于采集所述运维系统所需要的各种日志源数据并存储在数据存储模块;
数据存储模块,用于对所述日志源数据、运维结果、标注结果、模型及知识库进行存储;
异常及故障标注模块,用于持续地对数据存储模块中的部分源数据进行异常及故障标注,并将标注结果存储到数据存储模块;
模型自动训练及评估模块,用于持续地生成及更新各种运维模型及知识库,并存储到数据存储模块;
运维管理及任务执行模块,用于对运维任务设置与执行、运维模型及知识库调用、运维结果存储及输出;
结果审核模块,用于对运维管理及任务执行模块输出的异常及故障进行审核,并将审核确认的异常及故障输出到异常及故障标注模块。
其中,所述数据采集模块采集的各种日志源数据,包括:应用系统日志、操作系统资源状态日志、异常日志数据、流式日志数据、运维详细记录、第三方标注数据;
其中,针对应用系统日志和操作系统资源状态日志,数据采集模块采用定时扫描、批量传输的数据采集模式,针对异常日志数据和流式日志数据,数据采集模块采用实时采集、实时传输的数据采集模式,针对运维详细记录和第三方标注数据,数据采集模块采用定时扫描、批量传输的数据采集模式;
所述异常及故障标注模块进行异常及故障标注的源数据,包括:数据存储模块中存储的运维详细记录和第三方标注数据、结果审核模块输出的审核确认的异常及故障、模型自动训练及评估模块用来作为训练测试验证的数据。
其中,所述异常及故障标注模块进行异常及故障标注的方式,包括:人工、半人工、半监督学习、迁移学习四种方式;
所述人工方式,表示按照故障发生模块、故障类型、故障原因对数据存储模块中按需抽取的运维详细记录进行标注;
所述半人工方式,表示按故障发生模块、故障类型、故障原因对结果审核模块输出的审核确认后的异常及故障进行标注;
所述半监督学习方式,表示利用半监督学习算法、部分已经标注好的标注样本对模型自动训练及评估模块用来作为训练测试验证的数据进行标注;
所述迁移学习方式,表示利用迁移学习技术对相近的第三方标注数据学习生成所述运维系统所需的标注数据。
其中,所述模型自动训练及评估模块生成及更新各种运维模型及知识库的方式包括:实时数据处理建模及评估、批量数据处理建模及评估;
所述实时数据处理建模及评估,表示从数据存储模块中的实时数据库中抽取实时日志数据,按照实时任务需求对数据进行处理,按时间顺序对数据进行排序、按照特定时间窗口对数据进行时间切分,然后利用简单的关系判定、统计分析对异常模式进行发现与抽取;
所述批量数据处理建模及评估,表示按照运维任务的不同及标注数据准备情况,对发现和抽取的异常模式选择单模型训练及评估、集成模型训练及评估和增量模型训练及评估,生成各种运维模型及知识库;
其中,所述的单模型训练及评估,包含:根据任务类型、异常及故障标注数据、训练测试及验证数据,从监督模型、非监督模型、半监督模型三类中选择合适的算法,进行训练和评估生成单模型;
所述的集成模型训练及评估,包含:当单模型训练及评估的结果不稳定时将多个单模型采用合适的集成模式以获取稳定的最优结果;
所述的增量模式训练及评估,包含:新日志数据到来后需要对已有运维模型进行模型参数更新、模型重新训练及评估更新操作。
其中,各种运维模型及知识库,包含:实时模型、通用模型、知识库、增量模型;
其中,所述实时模型,包含:用于实时计算场景下发现日志数据中的简单异常规则、静态阈值参数;
所述通用模型,包含:用于批量计算场景下单模型训练及评估后形成的算法及相应的参数、随时间及数据变化的动态阈值,集成模型及评估后形成的集成框架及相应的算法及参数;
所述知识库,包含:模型综合训练及评估中各阶段发现的复杂规则、关联关系、链路传播图、知识图谱、故障树;
所述增量模型,包含:已有运维模型如何适应新的数据而做出的模型参数调整、模型类型调整,既包含单模型的增量,也包含集成模型的增量。
下面通过一个具体的实施例详细阐述本发明实施例一提供的技术方案。
实施例二
图2为相关技术中运维系统的结构示意图,图3为本发明实施例二提供的运维系统的结构示意图。如图2、3所示,该运维系统包括:
数据采集模块、数据存储模块、模型自动训练及评估模块、运维管理及任务执行模块;
还包括:异常及故障标注模块、结果审核模块。
其中,数据采集模块,用于采集智能运维系统所需要的各种日志源数据并存储在数据存储模块。
数据采集模块主要实现对各种类型、各种形态日志数据的采集:除了常见的应用系统日志批量采集、操作系统资源状态日志采集、异常日志实时采集之外,增加对流式日志数据的采集、运维详细记录表的采集、第三方标注数据的采集。
具体而言,数据采集模块单独运行数据采集接口配置向导,向导根据待采集数据的速率、数据类型,启动相应的采集方案。向导预置三种不同的采集方案为:1)针对异常日志数据、流式日志数据,均采用实时采集、实时传输的数据采集模式,采集到的数据直接传入数据存储模块中的实时内存数据库;2)针对运维详细记录、第三方标注数据,均采用定时扫描、批量传输的数据采集模式,采集到的数据直接传入数据存储模块中的分布式数据库;3)针对应用系统日志、操作系统资源状态日志,均采用定时扫描、批量传输的数据采集模式,但是此时采集到的数据直接存入数据存储模块中的分布式文件系统。
其中,数据存储模块,用于对日志源数据、运维结果、标注结果、模型及知识库等系统必要的数据进行存储。
数据存储模块主要实现对日志数据、异常及故障标注结果、各种模型及知识库等等的存储。
具体而言,数据存储模块主要对日志源数据的存储、日志分析结果的存储、异常及故障标注结果的存储、各种模型及知识库的存储,其他模块中间的结果数据根据需要也可考虑在此存储。与普通运维系统相比,本模块增加了智能运维系统所需的异常及故障标注结果的存储、模型及知识库的存储。各种不同数据可根据数据类型、数据形态、数据采集速率进行分布式、分类存储:如非结构化、半结构化的应用系统日志及操作系统资源状态日志源数据可以存储在分布式文件系统中,运维详细记录和第三方标注数据可以选择存储在分布式数据库中,实时采集的异常及流式数据可以先存储在内存数据库中后根据考虑需要考虑是否转存入分布式文件系统中或者分布式数据库中。
其中,异常及故障标注模块,用于持续地对数据存储模块中的部分源数据进行异常及故障标注,并将标注结果存储到数据存储模块。
所述异常及故障标注模块中的部分源数据,包括:运维详细记录、结果审核模块输出的确定的异常及故障、第三方标注数据、模型自动训练及评估模块用来作为训练测试验证的数据;
所述异常及故障标注模块中的异常及故障标注,包括:人工、半人工、半监督学习、迁移学习四种方式;具体操作方式为:人工表示按需抽取来自数据存储中的运维详细记录,按照故障发生模块、故障类型、故障原因对数据进行标注;半人工表示结果审核模块输出的人工确认后的异常及故障按故障发生模块、故障类型、故障原因等对数据进行标注;半监督学习表示利用半监督学习算法、部分已经标注好的标注样本对其他未进行标注的数据(模型自动训练及评估模块用来作为训练测试验证的数据)进行标注;迁移学习表示利用迁移学习技术、相近的第三方标注数据学习生成本运维系统所需的标注数据(模型自动训练及评估模块用来作为训练测试验证的数据)。
其中,模型自动训练及评估模块,用于持续地生成及更新各种运维模型及知识库,并存储到数据存储模块。
所述模型自动训练及评估模块,持续地生成及更新各种运维模型及知识库,生成及更新方式包含:实时数据处理建模及评估、批量数据处理建模及评估。实时数据处理建模及评估是从数据存储模块中的实时数据库中抽取实时日志数据,按照实时任务需求对数据进行处理,如按时间顺序对数据进行排序、按照特定时间窗口对数据进行时间切分等,然后利用简单的关系判定、统计分析等对异常模式进行发现与抽取。批量数据处理建模及评估是按照运维任务的不同及标注数据准备情况,具体可选用的模型及评估方法进一步分为单模模型训练及评估、集成模型训练及评估和增量模型训练及评估。
模型自动训练及评估模块的主要目标是生成并更新运维管理及任务执行模块在进行异常自动发现、故障快速定位、故障提前预警时所需要调用的实时模型、通用模型、知识库、增量模型。运维自动训练及评估模块具体又分为数据处理、单模型训练及评估、集成模型训练及评估、增量模型训练及评估四个子模块,每个子模块的作用及功能均不相同,具体使用时根据运维任务、数据质量依次选择每个子模块中不同的方法进行数据预处理、模型训练、模型评估。
所述的单模型训练及评估,包含:根据任务类型、异常及故障标注数据、训练测试及验证数据,从监督模型、非监督模型、半监督模型三类中选择合适的算法,如异常模式发现任务由于异常模式变化多样,但出现频率不高,所以在样本数量上较少,所以一般多以非监督模型为主;而故障定位和故障预警一般以监督模型为主、以半监督模型为辅。
所述的集成模型训练及评估,包含:当单个模型训练评估结果不稳定时将多个单模型采用合适的集成模式以获取稳定的最优的结果。
所述的增量模式训练及评估,包含:新日志数据到来后需要对已有运维模型进行模型参数更新、模型重新训练及评估等更新操作。
所述的各种运维模型及知识库,包含:实时模型、通用模型、知识库、增量模型。所述的实时模型,包含:用于实时计算场景下发现日志数据中的简单异常规则、静态阈值参数等。所述的通用模型,包含:用于批量计算场景下单模型训练及评估后形成的算法及相应的参数、随时间及数据等变化的动态阈值,集成模型及评估后形成的集成框架及相应的算法及参数。所述的知识库,包含:运维模型综合训练及评估中各阶段发现的复杂规则、关联关系、链路传播图、知识图谱、故障树等等,这部分模式可以直接应用于实时日志数据进行实时异常检测,也可以应用于批量日志数据进行故障的提前预测。所述的增量模型,包含:已有运维模型如何适应新的数据而做出的模型参数调整、模型类型调整等,既包含单模型的增量,也包含集成模型的增量。
具体而言,模型自动训练及评估模块由运维管理及任务执行模块按需启动、分类执行:a)实时数据处理、建模及评估:从数据存储模块中的实时数据库中抽取实时日志数据,按照实时任务需求对数据进行处理,如按时间顺序对数据进行排序、按照特定时间窗口对数据进行时间切分等,然后利用简单的关系判定、统计分析等对异常模式进行发现与抽取。b)批量数据处理、建模及评估:按照运维任务的不同及标注数据准备情况,具体可选用的模型及评估方法进一步分为单模模型训练及评估、集成模型训练及评估和增量模型训练及评估。其中,单模型训练及评估主要根据任务类型、异常及故障标注数据从监督模型、非监督模型、半监督模型三类中选择合适的算法,如异常模式发现任务由于异常模式变化多样,但出现频率不高,所以在样本数量上较少,所以一般多以非监督模型为主;而故障定位和故障预警一般以监督模型为主、以半监督模型为辅;集成模型训练及评估是为了弥补单模在任务类型存在多态时结果不稳定情况下将多个单模型采用合适的集成模式以获取稳定的最优的结果;增量模式训练及评估是为了满足面对不断涌现的新日志数据情况下已有运维模型能够保持及时更新。模型自动训练及评估的结果以模型及知识库的形式存入数据存储模块中,模型及知识库在存储时根据各自的应用场景分为以下四种:a)实时模型,主要是用于实时计算场景下发现日志数据中的简单异常规则、静态阈值参数等。b)通用模型,主要用于批量计算场景下单模型训练及评估后形成的算法及相应的参数、随时间及数据等变化的动态阈值,集成模型及评估后形成的集成框架及相应的算法及参数。c)知识库类,主要是运维模型综合训练及评估中各阶段发现的复杂规则、关联关系、链路传播图、知识图谱、故障树等等,这部分模式可以直接应用于实时日志数据进行实时异常检测,也可以应用于批量日志数据进行故障的提前预测;d)增量模型,将单模型训练及评估、集成模型训练及评估后得到的模型进行增量效能评估,保留增量效能较好的模型单独作为增量模型,以满足整个智能运维系统对新增数据的适应性。增量模型在调用时,按照增量模型是对全部数据进行重新计算还是仅对新增数据进行增量计算来选取是定时启动还是触发启动。
其中,运维管理及任务执行模块实现对运维系统的统一管理及任务能力:日志查询与KPI监控的任务执行及结果展示、故障手动定位及结果的展示、异常规则过滤的执行及结果的展示、静态阈值的设定及执行结果的展示、异常自动发现相关模型的调用及结果的展示、故障快速定位相关模型的调用及结果的展示、故障提前预警相关模型的调用及结果的展示、模型自动训练及评估模块的启动及结果的管理、各种模型的分类管理及更新。与普通运维系统相比,异常自动发现相关模型的调用及结果的展示、故障快速定位相关模型的调用及结果的展示、故障提前预警相关模型的调用及结果的展示、模型自动训练及评估模块的启动及结果的管理、各种模型的分类管理及更新均是此模块新增功能。
具体而言,运维管理及任务执行模块一方面根据系统配置及模型可调用情况提供日志查询、各种KPI监控、异常发现、故障预警等功能,另一方面跟踪KPI监控的结果、异常规则过滤的结果、阈值超限的结果、异常模式自动发现的结果,并根据新发现的异常及故障数据、已有异常及故障的数据标注情况调用模型自动训练及评估模块生成的模型或者知识库中的一种或者几种,实现故障的快速定位并给出相应的结果。运维管理及任务执行模块负责运维结果的输出。
其中,运维管理及任务执行模块继续监测新的日志数据的采集情况,依次启动异常及故障标注模块、模型自动训练及评估模块,生成新的模型及知识库或者对已有模型及知识库进行更新,后续迭代性地执行运维任务、进行结果审核等等,从而实现系统运维能力的自我更新、迭代和进化。
其中,结果审核模块,用于对运维管理及任务执行模块输出的异常及故障进行审核,并将审核确认的异常及故障输出到异常及故障标注模块。
结果审核模块主要负责对运维管理模块生成的运维结果进行人工审核及确认,将确认有效的异常及故障传入异常及故障标注模块中作为一种数据标注方式不断扩充、累积标注数据。
本发明实施例二提供的技术方案,在日志数据类型及形态多样、运维需求复杂情况下可以高效地进行异常自动发现、故障快速定位、故障提前预警等,而且整个智能运维系统可以实现自适应更新、自我迭代、逐步进化。
实施例三
图4为本发明实施例三提供的运维方法的流程示意图。如图4所示,该运维方法,包括:
步骤401,数据采集模块采集运维系统所需要的各种日志源数据并存储在数据存储模块;
步骤402,数据存储模块对所述日志源数据、运维结果、标注结果、模型及知识库进行存储;
步骤403,异常及故障标注模块持续地对数据存储模块中的部分源数据进行异常及故障标注,并将标注结果存储到数据存储模块;
步骤404,模型自动训练及评估模块持续地生成及更新各种运维模型及知识库,并存储到数据存储模块;
步骤405,运维管理及任务执行模块对运维任务的设置与执行、运维模型及知识库的调用、运维结果的存储及输出;
步骤406,结果审核模块对运维管理及任务执行模块输出的异常及故障进行审核,并将审核确认的异常及故障输出到异常及故障标注模块。
其中,所述数据采集模块采集的各种日志源数据,包括:应用系统日志、操作系统资源状态日志、异常日志数据、流式日志数据、运维详细记录、第三方标注数据;
其中,针对应用系统日志和操作系统资源状态日志,数据采集模块采用定时扫描、批量传输的数据采集模式,针对异常日志数据和流式日志数据,数据采集模块采用实时采集、实时传输的数据采集模式,针对运维详细记录和第三方标注数据,数据采集模块采用定时扫描、批量传输的数据采集模式;
所述异常及故障标注模块进行异常及故障标注的源数据,包括:数据存储模块中存储的运维详细记录和第三方标注数据、结果审核模块输出的审核确认的异常及故障、模型自动训练及评估模块用来作为训练测试验证的数据。
其中,所述异常及故障标注模块进行异常及故障标注的方式,包括:人工、半人工、半监督学习、迁移学习四种方式;
所述人工方式,表示按照故障发生模块、故障类型、故障原因对数据存储模块中按需抽取的运维详细记录进行标注;
所述半人工方式,表示按故障发生模块、故障类型、故障原因对结果审核模块输出的审核确认后的异常及故障进行标注;
所述半监督学习方式,表示利用半监督学习算法、部分已经标注好的标注样本对模型自动训练及评估模块用来作为训练测试验证的数据进行标注;
所述迁移学习方式,表示利用迁移学习技术对相近的第三方标注数据学习生成所述运维系统所需的标注数据。
其中,所述模型自动训练及评估模块生成及更新各种运维模型及知识库的方式包括:实时数据处理建模及评估、批量数据处理建模及评估;
所述实时数据处理建模及评估,表示从数据存储模块中的实时数据库中抽取实时日志数据,按照实时任务需求对数据进行处理,按时间顺序对数据进行排序、按照特定时间窗口对数据进行时间切分,然后利用简单的关系判定、统计分析对异常模式进行发现与抽取;
所述批量数据处理建模及评估,表示按照运维任务的不同及标注数据准备情况,对发现和抽取的异常模式选择单模型训练及评估、集成模型训练及评估和增量模型训练及评估,生成各种运维模型及知识库;
其中,所述的单模型训练及评估,包含:根据任务类型、异常及故障标注数据、训练测试及验证数据,从监督模型、非监督模型、半监督模型三类中选择合适的算法,进行训练和评估生成单模型;
所述的集成模型训练及评估,包含:当单模型训练及评估的结果不稳定时将多个单模型采用合适的集成模式以获取稳定的最优结果;
所述的增量模式训练及评估,包含:新日志数据到来后需要对已有运维模型进行模型参数更新、模型重新训练及评估更新操作。
其中,各种运维模型及知识库,包含:实时模型、通用模型、知识库、增量模型;
其中,所述实时模型,包含:用于实时计算场景下发现日志数据中的简单异常规则、静态阈值参数;
所述通用模型,包含:用于批量计算场景下单模型训练及评估后形成的算法及相应的参数、随时间及数据变化的动态阈值,集成模型及评估后形成的集成框架及相应的算法及参数;
所述知识库,包含:模型综合训练及评估中各阶段发现的复杂规则、关联关系、链路传播图、知识图谱、故障树;
所述增量模型,包含:已有运维模型如何适应新的数据而做出的模型参数调整、模型类型调整,既包含单模型的增量,也包含集成模型的增量。
下面通过一个具体的实施例详细阐述本发明实施例三提供的技术方案。
实施例四
图5为本发明实施例四提供的运维方法的流程示意图。如图5所示,该运维方法,包括:
步骤501,数据采集;
其中,该数据采集包括:
1、异常日志实时采集,对工作集群中重要应用/操作的异常日志进行实时采集;
2、操作系统资源状态采集;
3、应用系统日志批量采集;
4、第三方标注数据采集,用于补充运维系统异常及故障标注数据的匮乏,主要通过迁移学习技术对外界相近的标注数据进行迁移实现;
5、运维详细记录表采集,直接作为运维系统异常及故障的标注数据;
6、流式日志数据采集,主要采集大数据环境中类似交易型、实时传输型/操作型的流式数据进行实时采集。
步骤502,数据存储;
其中,该数据存储包括:
1、日志源数据存储,一般存储在文件系统中;
2、日志分析结果存储,一般存储在数据库或数据仓库中;
3、标注结果存储,用于保存异常及故障标注模中生成的标注结果;
4、模型及知识库存储,用于保存模型自动训练及评估模块中生成的各种模型和知识库;
步骤503,异常及故障标注;
其中,所述异常及故障标注,包括:
1、异常事件标注,对系统中采集到的异常数据进行确认,标注出真正异常的事件;
2、故障类型标注,对系统中采集到的故障数据及故障类型进行标注;
3、标注数据迁移,对第三方标注数据通过迁移学习技术形成系统可用的异常及故障标注数据。
步骤504,模型自动训练及评估;
其中,所述模型自动训练及评估,包括:
1、数据预处理,负责模型自动训练及评估模块中的数据准备工作,包含但不限于样本数据抽取、数据解析及格式统一、特征提取及构造、数据不平衡处理等等;
2、单模型训练及评估,根据数据存储模块中日志源数据存储的现状、标注结果存储的现状、任务类型(异常自动发现/故障快速定位/故障提前预警)选择单模型训练及评估中的非监督模型训练及评估、半监督模型训练及评估、监督模型训练及评估中的一种或者多种模型进行训练、测试及评估,并将形成的算法及参数、关联关系、链路传播、复杂规则、知识图谱、故障树等作为模型或者知识库存入数据存储模块的模型及知识库存储中;
3、集成模型训练及评估,在单模型训练及评估的基础上,根据模型的稳定性及评估效果可继续选择集成模型训练及评估进行模型的优化;
4、增量模型训练及评估,随着采集数据的不断增加,需要对已有模型及知识库进行更新,可以通过增量模型训练及评估实现。
步骤505,运维管理及任务执行;
其中,运维管理及任务执行包括:日志查询及KPI监控任务执行及结果展示、故障手动定位及结果的展示、异常规则过滤的执行及结果的展示、静态阈值的设定及执行结果的展示、异常自动发现相关模型的调用及结果的展示、故障快速定位相关模型的调用及结果的展示、故障提前预警相关模型的调用及结果的展示、模型自动训练及评估模块的启动及结果的管理、各种模型的分类管理及更新等等。
步骤506,结果审核。
其中,所述结果审核包括:对运维管理及任务执行模块中的异常及故障相关的结果进行审核,一方面将审核后的所有的异常及故障输出,另一方面将确认的异常及故障传入异常及故障标注模块中。
其中,上述各个步骤可以周期性循环,并不存在固定的顺序。
本实施例三、四提供的运维方法可以应用于上述实施例一、二提供的运维系统中。
本发明实施例三、四提供的技术方案,在日志数据类型及形态多样、运维需求复杂情况下可以高效地进行异常自动发现、故障快速定位、故障提前预警等,而且整个智能运维系统可以实现自适应更新、自我迭代、逐步进化。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于 RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种运维系统,其特征在于,包括:相互连接的数据采集模块、数据存储模块、异常及故障标注模块、模型自动训练及评估模块、运维管理及任务执行模块、结果审核模块;其中,
数据采集模块,用于采集所述运维系统所需要的各种日志源数据并存储在数据存储模块;
数据存储模块,用于对所述日志源数据、运维结果、标注结果、运维模型及知识库进行存储;
异常及故障标注模块,用于持续地对数据存储模块中的部分源数据进行异常及故障标注,并将标注结果存储到数据存储模块;
模型自动训练及评估模块,用于持续地生成及更新各种运维模型及知识库,并存储到数据存储模块;
运维管理及任务执行模块,用于对运维任务设置与执行、运维模型及知识库调用、运维结果存储及输出;
结果审核模块,用于对运维管理及任务执行模块输出的异常及故障进行审核,并将审核确认的异常及故障输出到异常及故障标注模块;
所述模型自动训练及评估模块生成及更新各种运维模型及知识库的方式包括:实时数据处理建模及评估;
所述实时数据处理建模及评估,表示从数据存储模块中的实时数据库中抽取实时日志数据,按照实时任务需求对数据进行处理,按时间顺序对数据进行排序,按照特定时间窗口对数据进行时间切分,然后利用简单的关系判定、统计分析对异常模式进行发现与抽取。
2.根据权利要求1所述的运维系统,其特征在于,
所述数据采集模块采集的各种日志源数据,包括:应用系统日志、操作系统资源状态日志、异常日志数据、流式日志数据、运维详细记录、第三方标注数据;
其中,针对应用系统日志和操作系统资源状态日志,数据采集模块采用定时扫描、批量传输的数据采集模式;针对异常日志数据和流式日志数据,数据采集模块采用实时采集、实时传输的数据采集模式;针对运维详细记录和第三方标注数据,数据采集模块采用定时扫描、批量传输的数据采集模式;
所述异常及故障标注模块进行异常及故障标注的部分源数据,包括:数据存储模块中存储的运维详细记录和第三方标注数据、结果审核模块输出的审核确认的异常及故障、模型自动训练及评估模块用来作为训练测试验证的数据。
3.根据权利要求1所述的运维系统,其特征在于,
所述异常及故障标注模块进行异常及故障标注的方式,包括:人工、半人工、半监督学习、迁移学习四种方式;
所述人工方式,表示按照故障发生模块、故障类型、故障原因对数据存储模块中按需抽取的运维详细记录进行标注;
所述半人工方式,表示按故障发生模块、故障类型、故障原因对结果审核模块输出的审核确认后的异常及故障进行标注;
所述半监督学习方式,表示利用半监督学习算法、部分已经标注好的标注样本对模型自动训练及评估模块用来作为训练测试验证的数据进行标注;
所述迁移学习方式,表示利用迁移学习技术对相近的第三方标注数据学习生成所述运维系统所需的标注数据。
4.根据权利要求1所述的运维系统,其特征在于,
所述模型自动训练及评估模块生成及更新各种运维模型及知识库的方式还包括:批量数据处理建模及评估;
所述批量数据处理建模及评估,表示按照运维任务的不同及标注数据准备情况,对发现和抽取的异常模式选择单模型训练及评估、集成模型训练及评估和增量模型训练及评估,生成各种运维模型及知识库;
其中,所述的单模型训练及评估,包含:根据任务类型、异常及故障标注数据、训练测试及验证数据,从监督模型、非监督模型、半监督模型三类中选择合适的模型,进行训练和评估生成单模型;
所述的集成模型训练及评估,包含:当单模型训练及评估的结果不稳定时,将多个单模型采用合适的集成模式以获取稳定的最优结果;
所述的增量模型训练及评估,包含:新日志数据到来后需要对已有运维模型进行模型参数更新、模型重新训练及评估更新。
5.根据权利要求4所述的运维系统,其特征在于,
各种运维模型及知识库,包含:实时模型、通用模型、知识库、增量模型;
其中,所述实时模型,包含:用于实时计算场景下发现日志数据中的简单异常规则、静态阈值参数;
所述通用模型,包含:用于批量计算场景下单模型训练及评估后形成的算法及相应的参数、随时间及数据变化的动态阈值,集成模型训练及评估后形成的集成框架及相应的算法及参数;
所述知识库,包含:模型综合训练及评估中各阶段发现的复杂规则、关联关系、链路传播图、知识图谱、故障树;
所述增量模型,包含:已有运维模型如何适应新的数据而做出的模型参数调整、模型类型调整,既包含单模型的增量,也包含集成模型的增量。
6.一种运维方法,包括:
数据采集模块采集运维系统所需要的各种日志源数据并存储在数据存储模块;
异常及故障标注模块持续地对数据存储模块中的部分源数据进行异常及故障标注,并将标注结果存储到数据存储模块;
模型自动训练及评估模块持续地生成及更新各种运维模型及知识库,并存储到数据存储模块;
运维管理及任务执行模块对运维任务的设置与执行、运维模型及知识库的调用、运维结果的存储及输出;
结果审核模块对运维管理及任务执行模块输出的异常及故障进行审核,并将审核确认的异常及故障输出到异常及故障标注模块;
数据存储模块对所述日志源数据、运维结果、标注结果、运维模型及知识库进行存储;
所述模型自动训练及评估模块生成及更新各种运维模型及知识库的方式包括:实时数据处理建模及评估;
所述实时数据处理建模及评估,表示从数据存储模块中的实时数据库中抽取实时日志数据,按照实时任务需求对数据进行处理,按时间顺序对数据进行排序,按照特定时间窗口对数据进行时间切分,然后利用简单的关系判定、统计分析对异常模式进行发现与抽取。
7.根据权利要求6所述的运维方法,其特征在于,
所述数据采集模块采集的各种日志源数据,包括:应用系统日志、操作系统资源状态日志、异常日志数据、流式日志数据、运维详细记录、第三方标注数据;
其中,针对应用系统日志和操作系统资源状态日志,数据采集模块采用定时扫描、批量传输的数据采集模式;针对异常日志数据和流式日志数据,数据采集模块采用实时采集、实时传输的数据采集模式;针对运维详细记录和第三方标注数据,数据采集模块采用定时扫描、批量传输的数据采集模式;
所述异常及故障标注模块进行异常及故障标注的部分源数据,包括:数据存储模块中存储的运维详细记录和第三方标注数据、结果审核模块输出的审核确认的异常及故障、模型自动训练及评估模块用来作为训练测试验证的数据。
8.根据权利要求6所述的运维方法,其特征在于,
所述异常及故障标注模块进行异常及故障标注的方式,包括:人工、半人工、半监督学习、迁移学习四种方式;
所述人工方式,表示按照故障发生模块、故障类型、故障原因对数据存储模块中按需抽取的运维详细记录进行标注;
所述半人工方式,表示按故障发生模块、故障类型、故障原因对结果审核模块输出的审核确认后的异常及故障进行标注;
所述半监督学习方式,表示利用半监督学习算法、部分已经标注好的标注样本对模型自动训练及评估模块用来作为训练测试验证的数据进行标注;
所述迁移学习方式,表示利用迁移学习技术对相近的第三方标注数据学习生成所述运维系统所需的标注数据。
9.根据权利要求6所述的运维方法,其特征在于,
所述模型自动训练及评估模块生成及更新各种运维模型及知识库的方式还包括:批量数据处理建模及评估;
所述批量数据处理建模及评估,表示按照运维任务的不同及标注数据准备情况,对发现和抽取的异常模式选择单模型训练及评估、集成模型训练及评估和增量模型训练及评估,生成各种运维模型及知识库;
其中,所述的单模型训练及评估,包含:根据任务类型、异常及故障标注数据、训练测试及验证数据,从监督模型、非监督模型、半监督模型三类中选择合适的模型,进行训练和评估生成单模型;
所述的集成模型训练及评估,包含:当单模型训练及评估的结果不稳定时,将多个单模型采用合适的集成模式以获取稳定的最优结果;
所述的增量模型训练及评估,包含:新日志数据到来后需要对已有运维模型进行模型参数更新、模型重新训练及评估更新。
10.根据权利要求9所述的运维方法,其特征在于,
各种运维模型及知识库,包含:实时模型、通用模型、知识库、增量模型;
其中,所述实时模型,包含:用于实时计算场景下发现日志数据中的简单异常规则、静态阈值参数;
所述通用模型,包含:用于批量计算场景下单模型训练及评估后形成的算法及相应的参数、随时间及数据变化的动态阈值,集成模型训练及评估后形成的集成框架及相应的算法及参数;
所述知识库,包含:模型综合训练及评估中各阶段发现的复杂规则、关联关系、链路传播图、知识图谱、故障树;
所述增量模型,包含:已有运维模型如何适应新的数据而做出的模型参数调整、模型类型调整,既包含单模型的增量,也包含集成模型的增量。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810689427.5A CN110659173B (zh) | 2018-06-28 | 2018-06-28 | 一种运维系统及方法 |
US17/256,618 US11947438B2 (en) | 2018-06-28 | 2019-06-28 | Operation and maintenance system and method |
PCT/CN2019/093812 WO2020001642A1 (zh) | 2018-06-28 | 2019-06-28 | 一种运维系统及方法 |
KR1020217001839A KR102483025B1 (ko) | 2018-06-28 | 2019-06-28 | 운영 유지 시스템 및 방법 |
EP19826453.3A EP3798846B1 (en) | 2018-06-28 | 2019-06-28 | Operation and maintenance system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810689427.5A CN110659173B (zh) | 2018-06-28 | 2018-06-28 | 一种运维系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110659173A CN110659173A (zh) | 2020-01-07 |
CN110659173B true CN110659173B (zh) | 2023-05-26 |
Family
ID=68985827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810689427.5A Active CN110659173B (zh) | 2018-06-28 | 2018-06-28 | 一种运维系统及方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11947438B2 (zh) |
EP (1) | EP3798846B1 (zh) |
KR (1) | KR102483025B1 (zh) |
CN (1) | CN110659173B (zh) |
WO (1) | WO2020001642A1 (zh) |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020157948A1 (ja) * | 2019-02-01 | 2020-08-06 | 日本電気株式会社 | 運用支援装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
US11341017B1 (en) * | 2019-04-24 | 2022-05-24 | Snap Inc. | Staged release of updates with anomaly monitoring |
CN112887119B (zh) * | 2019-11-30 | 2022-09-16 | 华为技术有限公司 | 故障根因确定方法及装置、计算机存储介质 |
CN111259947A (zh) * | 2020-01-13 | 2020-06-09 | 国网浙江省电力有限公司信息通信分公司 | 一种基于多模态学习的电力系统故障预警方法和系统 |
CN111541580A (zh) * | 2020-03-23 | 2020-08-14 | 广东工业大学 | 一种应用于工业互联网的自适应异常检测系统 |
CN111611327A (zh) * | 2020-05-28 | 2020-09-01 | 孙明松 | 一种运维数据处理的方法及装置 |
CN112084055A (zh) * | 2020-08-19 | 2020-12-15 | 广州小鹏汽车科技有限公司 | 应用系统的故障定位方法、装置、电子设备及存储介质 |
CN112181960B (zh) * | 2020-09-18 | 2022-05-31 | 杭州优云软件有限公司 | 一种基于AIOps的智能运维框架系统 |
CN113179173B (zh) * | 2020-09-29 | 2024-03-22 | 北京速通科技有限公司 | 一种用于高速公路系统的运维监控系统 |
CN114330760A (zh) * | 2020-09-29 | 2022-04-12 | 领值(上海)信息技术有限公司 | 一种设备运维管理方法及系统 |
CN112269821A (zh) * | 2020-10-30 | 2021-01-26 | 内蒙古电力(集团)有限责任公司乌海超高压供电局 | 一种基于大数据的电力设备状态分析方法 |
CN112511213B (zh) * | 2020-11-18 | 2022-07-22 | 四川安迪科技实业有限公司 | 基于日志分析的缺陷定位方法及系统 |
CN114594737B (zh) * | 2020-12-07 | 2024-09-17 | 北京福田康明斯发动机有限公司 | 一种监控发动机装配过程的优化方法及装置 |
CN112804079B (zh) * | 2020-12-10 | 2023-04-07 | 北京浪潮数据技术有限公司 | 云计算平台告警分析方法、装置、设备及存储介质 |
CN112711757B (zh) * | 2020-12-23 | 2022-09-16 | 光大兴陇信托有限责任公司 | 一种基于大数据平台的数据安全集中管控方法及系统 |
CN112910691B (zh) * | 2021-01-19 | 2023-06-27 | 中国工商银行股份有限公司 | 机房故障检测方法及装置 |
CN112766599A (zh) * | 2021-01-29 | 2021-05-07 | 广州源创动力科技有限公司 | 一种基于深度强化学习的智能运维方法 |
CN112783865A (zh) * | 2021-01-29 | 2021-05-11 | 杭州优云软件有限公司 | 一种半监督人机结合的运维故障库生成方法及系统 |
CN113313280B (zh) * | 2021-03-31 | 2023-09-19 | 阿里巴巴新加坡控股有限公司 | 云平台的巡检方法、电子设备及非易失性存储介质 |
CN113077289B (zh) * | 2021-04-12 | 2022-08-19 | 上海耶汇市场营销策划有限公司 | 一种用于产品营销的社交平台运维系统 |
CN113204199A (zh) * | 2021-04-26 | 2021-08-03 | 武汉卓尔信息科技有限公司 | 一种工业设备的远程运维系统及方法 |
CN113516360B (zh) * | 2021-05-16 | 2023-06-30 | 国检测试控股集团云南有限公司 | 检测机构的检测仪器设备管理信息化系统及管理方法 |
CN113359664B (zh) * | 2021-05-31 | 2023-07-07 | 海南文鳐科技有限公司 | 故障诊断与维护系统、方法、设备及存储介质 |
CN113258678A (zh) * | 2021-06-03 | 2021-08-13 | 长沙理工大学 | 一种智能配电柜故障抢修系统、方法及装置 |
CN113268891B (zh) * | 2021-06-30 | 2022-06-03 | 云智慧(北京)科技有限公司 | 一种运维系统的建模方法和装置 |
US11868971B2 (en) * | 2021-08-02 | 2024-01-09 | Arch Systems Inc. | Method for manufacturing system analysis and/or maintenance |
CN113651245B (zh) * | 2021-08-16 | 2023-07-21 | 合肥市春华起重机械有限公司 | 一种起重机承载力监测系统 |
CN113672427A (zh) * | 2021-08-26 | 2021-11-19 | 北京来也网络科技有限公司 | 基于rpa及ai的异常处理方法、装置、设备及介质 |
CN115905417A (zh) * | 2021-09-29 | 2023-04-04 | 中兴通讯股份有限公司 | 一种系统异常检测处理方法及装置 |
CN113919230A (zh) * | 2021-10-20 | 2022-01-11 | 中国兵器装备集团自动化研究所有限公司 | 一种复杂设备运行的建模评估方法及系统 |
CN113961424A (zh) * | 2021-10-28 | 2022-01-21 | 建信金融科技有限责任公司 | 分布式系统的故障预测方法以及故障预测装置 |
CN113971495A (zh) * | 2021-11-02 | 2022-01-25 | 中国银行股份有限公司 | 日间批量处理方法及装置 |
TWI806220B (zh) * | 2021-11-04 | 2023-06-21 | 財團法人資訊工業策進會 | 異常評估系統與異常評估方法 |
CN114048365B (zh) * | 2021-11-15 | 2022-10-21 | 江苏鼎驰电子科技有限公司 | 一种基于大数据流处理技术的运维监控治理方法 |
CN114205216B (zh) * | 2021-12-07 | 2024-02-06 | 中国工商银行股份有限公司 | 微服务故障的根因定位方法、装置、电子设备和介质 |
CN114371687B (zh) * | 2021-12-30 | 2024-07-02 | 苏州胜科设备技术有限公司 | 一种伺服驱动器快速测试方法 |
CN114610400A (zh) * | 2022-03-16 | 2022-06-10 | 青岛瑞斯凯尔生物科技有限公司 | 一种用于流式样本处理仪的管理系统及其方法 |
CN114880151B (zh) * | 2022-04-25 | 2023-01-13 | 北京科杰科技有限公司 | 人工智能运维方法 |
CN115017019B (zh) * | 2022-05-05 | 2024-07-09 | 南京邮电大学 | 一种基于日志的系统异常检测方法、装置及存储介质 |
CN114897196B (zh) * | 2022-05-11 | 2023-01-13 | 山东大卫国际建筑设计有限公司 | 一种办公建筑供水网络的运行管理方法、设备及介质 |
CN114912637B (zh) * | 2022-05-21 | 2023-08-29 | 重庆大学 | 人机物知识图谱制造产线运维决策方法及系统、存储介质 |
CN115051930B (zh) * | 2022-05-23 | 2023-05-12 | 中电信数智科技有限公司 | 基于AISecOps结合中台算法的弊端优化方法 |
CN114875999B (zh) * | 2022-05-27 | 2023-11-21 | 上海威派格智慧水务股份有限公司 | 一种用于二次供水系统的泵房运维管理系统 |
CN114969163B (zh) * | 2022-07-21 | 2022-12-09 | 北京宏数科技有限公司 | 一种基于大数据的设备运维方法及系统 |
CN115695150B (zh) * | 2022-11-01 | 2023-08-08 | 广州城轨科技有限公司 | 一种基于分布式异构融合组网设备检测方法及装置 |
KR102541576B1 (ko) * | 2023-02-06 | 2023-06-14 | 주식회사 마티아솔루션 | 머신비전 판정 모델의 서빙 시스템 |
CN116163943B (zh) * | 2023-03-27 | 2023-09-08 | 蚌埠市联合压缩机制造有限公司 | 一种运行状态实时监测的压缩机 |
CN116187725B (zh) * | 2023-04-27 | 2023-08-04 | 武汉新威奇科技有限公司 | 一种用于锻造自动线的锻造设备管理系统 |
CN116305699B (zh) * | 2023-05-11 | 2023-08-18 | 青岛研博数据信息技术有限公司 | 一种基于全方位感知的管道监督系统 |
CN116760691A (zh) * | 2023-07-06 | 2023-09-15 | 武昌理工学院 | 一种基于大数据技术的电信故障排除系统 |
CN117150032B (zh) * | 2023-08-04 | 2024-06-11 | 华能澜沧江水电股份有限公司 | 一种水电站发电机组的智能维护系统及方法 |
CN116841792B (zh) * | 2023-08-29 | 2023-11-17 | 北京轻松致远科技有限责任公司 | 一种应用程序开发故障修复方法 |
CN117325879B (zh) * | 2023-10-07 | 2024-04-05 | 盐城工学院 | 一种四轮分布式电驱动汽车状态评估方法及系统 |
CN117194201A (zh) * | 2023-11-07 | 2023-12-08 | 中央军委政治工作部军事人力资源保障中心 | 一种业务系统的健康度评估及观测方法、装置 |
CN117620345B (zh) * | 2023-12-28 | 2024-06-07 | 诚联恺达科技有限公司 | 一种真空回流焊炉的数据记录系统 |
CN117762464B (zh) * | 2023-12-29 | 2024-07-09 | 中睿信数字技术有限公司 | 一种基于云计算的软件运维系统及方法 |
CN117670312B (zh) * | 2024-01-30 | 2024-04-26 | 北京伽睿智能科技集团有限公司 | 一种远程辅助的设备故障维护系统 |
CN118172825A (zh) * | 2024-01-31 | 2024-06-11 | 无锡市照明和排水管理中心 | 一种行人感知智慧照明用管理系统 |
CN117709755B (zh) * | 2024-02-04 | 2024-05-10 | 深圳市安达新材科技有限公司 | 一种基于云计算的光学膜片数据管理系统及方法 |
CN118190443B (zh) * | 2024-02-28 | 2024-09-24 | 武汉万曦智能科技有限公司 | 场车综合检测系统及检测方法 |
CN117827524B (zh) * | 2024-03-06 | 2024-08-09 | 建信金融科技有限责任公司 | 系统运维方法和装置 |
CN118277793A (zh) * | 2024-04-23 | 2024-07-02 | 淄博亿境数字科技有限公司 | 一种vr全景运维数据分析系统 |
CN118094531B (zh) * | 2024-04-25 | 2024-07-12 | 济南源根科技有限公司 | 一种安全运维实时预警一体化系统 |
CN118333276A (zh) * | 2024-04-29 | 2024-07-12 | 兴容(上海)信息技术股份有限公司 | 一种基于数字化信息的业务智能监管系统及方法 |
CN118331514B (zh) * | 2024-06-17 | 2024-08-23 | 贵州警察学院 | 一种工业大数据处理方法及系统 |
CN118564579B (zh) * | 2024-08-02 | 2024-09-27 | 济南德嘉石油装备有限公司 | 钻机盘式刹车运行监测系统及方法 |
CN118657360A (zh) * | 2024-08-20 | 2024-09-17 | 贵州省大坝安全监测中心 | 基于数字孪生的水库防洪监测系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600115A (zh) * | 2016-11-28 | 2017-04-26 | 湖北华中电力科技开发有限责任公司 | 一种企业信息系统运维智能分析方法 |
CN106649034A (zh) * | 2016-11-22 | 2017-05-10 | 北京锐安科技有限公司 | 一种可视化智能运维方法及平台 |
CN108038049A (zh) * | 2017-12-13 | 2018-05-15 | 西安电子科技大学 | 实时日志控制系统及控制方法、云计算系统及服务器 |
CN108173671A (zh) * | 2016-12-07 | 2018-06-15 | 博彦科技股份有限公司 | 运维方法、装置及系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014115768A (ja) * | 2012-12-07 | 2014-06-26 | Toshiba Corp | ログ判定システム、ログ判定基準構築装置及びログ判定方法 |
CN103346906B (zh) | 2013-06-19 | 2016-07-13 | 华南师范大学 | 一种基于云计算的智能运维方法及系统 |
US10410135B2 (en) * | 2015-05-21 | 2019-09-10 | Software Ag Usa, Inc. | Systems and/or methods for dynamic anomaly detection in machine sensor data |
CN105204978A (zh) * | 2015-06-23 | 2015-12-30 | 北京百度网讯科技有限公司 | 基于机器学习的数据中心运行数据分析系统 |
US10361919B2 (en) * | 2015-11-09 | 2019-07-23 | At&T Intellectual Property I, L.P. | Self-healing and dynamic optimization of VM server cluster management in multi-cloud platform |
CN106452829B (zh) | 2016-01-21 | 2019-07-19 | 华南师范大学 | 一种基于bcc-knn的云计算中心智能运维方法及系统 |
US10769641B2 (en) * | 2016-05-25 | 2020-09-08 | Microsoft Technology Licensing, Llc | Service request management in cloud computing systems |
CN106095639A (zh) * | 2016-05-30 | 2016-11-09 | 中国农业银行股份有限公司 | 一种集群亚健康预警方法及系统 |
CN106844138A (zh) * | 2016-12-14 | 2017-06-13 | 北京奇艺世纪科技有限公司 | 运维报警系统及方法 |
KR101758870B1 (ko) * | 2017-02-13 | 2017-07-18 | 주식회사 온더 | 마이닝 관리 시스템 및 이를 이용한 마이닝 관리 방법 |
CN107332685A (zh) | 2017-05-22 | 2017-11-07 | 国网安徽省电力公司信息通信分公司 | 国网云中应用的一种基于大数据运维日志的方法 |
CN107358300A (zh) | 2017-06-19 | 2017-11-17 | 北京至信普林科技有限公司 | 一种基于多平台自主预测的智能运维告警过滤方法及系统 |
CN107577588B (zh) | 2017-09-26 | 2021-04-09 | 北京中安智达科技有限公司 | 一种海量日志数据智能运维系统 |
KR101856543B1 (ko) * | 2018-02-26 | 2018-05-11 | 주식회사 리앙커뮤니케이션즈 | 인공지능 기반의 장애 예측 시스템 |
-
2018
- 2018-06-28 CN CN201810689427.5A patent/CN110659173B/zh active Active
-
2019
- 2019-06-28 KR KR1020217001839A patent/KR102483025B1/ko active IP Right Grant
- 2019-06-28 WO PCT/CN2019/093812 patent/WO2020001642A1/zh unknown
- 2019-06-28 EP EP19826453.3A patent/EP3798846B1/en active Active
- 2019-06-28 US US17/256,618 patent/US11947438B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649034A (zh) * | 2016-11-22 | 2017-05-10 | 北京锐安科技有限公司 | 一种可视化智能运维方法及平台 |
CN106600115A (zh) * | 2016-11-28 | 2017-04-26 | 湖北华中电力科技开发有限责任公司 | 一种企业信息系统运维智能分析方法 |
CN108173671A (zh) * | 2016-12-07 | 2018-06-15 | 博彦科技股份有限公司 | 运维方法、装置及系统 |
CN108038049A (zh) * | 2017-12-13 | 2018-05-15 | 西安电子科技大学 | 实时日志控制系统及控制方法、云计算系统及服务器 |
Also Published As
Publication number | Publication date |
---|---|
US11947438B2 (en) | 2024-04-02 |
US20210271582A1 (en) | 2021-09-02 |
EP3798846A1 (en) | 2021-03-31 |
KR102483025B1 (ko) | 2022-12-29 |
EP3798846A4 (en) | 2021-07-28 |
EP3798846B1 (en) | 2022-09-07 |
KR20210019564A (ko) | 2021-02-22 |
WO2020001642A1 (zh) | 2020-01-02 |
CN110659173A (zh) | 2020-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110659173B (zh) | 一种运维系统及方法 | |
EP3975048B1 (en) | Method for constructing cloud network alarm root cause relational tree model, device, and storage medium | |
US11294754B2 (en) | System and method for contextual event sequence analysis | |
Khatib et al. | Self-healing in mobile networks with big data | |
CN111047082A (zh) | 设备的预警方法及装置、存储介质和电子装置 | |
CN112529204A (zh) | 模型训练方法、装置及系统 | |
CN114757307B (zh) | 一种人工智能自动训练方法、系统、装置及存储介质 | |
CN113542039A (zh) | 一种通过ai算法定位5g网络虚拟化跨层问题的方法 | |
CN112769605A (zh) | 一种异构多云的运维管理方法及混合云平台 | |
CN112181758A (zh) | 一种基于网络拓扑及实时告警的故障根因定位方法 | |
CN114528175A (zh) | 一种微服务应用系统根因定位方法、装置、介质及设备 | |
CN113505048A (zh) | 基于应用系统画像的统一监控平台及实现方法 | |
CN118275903B (zh) | 一种基于数据分析的电池性能测试方法 | |
CN111694752A (zh) | 应用测试方法、电子设备及存储介质 | |
CN117792864A (zh) | 一种告警处理方法、装置、存储介质及电子装置 | |
CN111522705A (zh) | 一种工业大数据智能运维解决方法 | |
CN117170724A (zh) | 用于检测业务异常的ai模型自动化更新方法、装置及设备 | |
CN112561388A (zh) | 一种基于物联网的信息处理方法、装置及设备 | |
CN111090585A (zh) | 一种基于众测过程的众测任务关闭时间自动预测方法 | |
CN113703394A (zh) | 一种基于边缘计算的刀具监测管理方法及系统 | |
CN118101532B (zh) | 一种多协议兼容的网络设备自适应测试系统及方法 | |
CN117081666B (zh) | 故障预测方法、装置、电子设备、存储介质及程序产品 | |
US11985048B2 (en) | Computerized system and method for an improved self organizing network | |
CN113138875B (zh) | 一种故障检测方法、终端以及计算机存储介质 | |
US20240250882A1 (en) | Method and apparatus for predictive maintenance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |