CN111831512A - 用于排查运维异常的方法、装置、电子设备及存储介质 - Google Patents
用于排查运维异常的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111831512A CN111831512A CN202010681077.5A CN202010681077A CN111831512A CN 111831512 A CN111831512 A CN 111831512A CN 202010681077 A CN202010681077 A CN 202010681077A CN 111831512 A CN111831512 A CN 111831512A
- Authority
- CN
- China
- Prior art keywords
- data
- maintenance
- determining
- function module
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013024 troubleshooting Methods 0.000 claims abstract description 62
- 230000002159 abnormal effect Effects 0.000 claims abstract description 52
- 230000008569 process Effects 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 47
- 230000015654 memory Effects 0.000 claims description 20
- 238000005314 correlation function Methods 0.000 claims description 12
- 238000011144 upstream manufacturing Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000007488 abnormal function Effects 0.000 claims description 7
- 238000007621 cluster analysis Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims 2
- 238000003379 elimination reaction Methods 0.000 claims 2
- 239000000126 substance Substances 0.000 claims 1
- 230000000712 assembly Effects 0.000 abstract description 4
- 238000000429 assembly Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 10
- 230000005856 abnormality Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000011835 investigation Methods 0.000 description 4
- 239000000523 sample Substances 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Fuzzy Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了用于排查运维异常的方法、装置、电子设备及计算机可读存储介质,涉及云平台/云环境、运维以及故障排查技术领域。该方法的一具体实施方式包括:获取目标云环境中各功能模块的运行数据;根据该运行数据确定不同功能模块之间存在关联的关联运行数据;根据该关联运行数据的实际关联度确定运维过程中存在的异常数据。该实施方式通过确定不同功能模块之间存在关联的关联运行数据,得以将现有的单点式故障排查方式改进为协同式运维故障排查,当一条依赖关系链上多个组件受影响发生故障,运维人员不会再收到多个单点故障报警,而是明确导致调用链上多个功能模块均产生故障的源头,故障源头定位更准确,效率更高。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及云平台/云环境技术领域、运维技术领域以及故障排查技术领域,尤其涉及用于排查运维异常的方法、装置、电子设备及存储介质。
背景技术
云平台/云环境的运维涉及从底层组件到上层产品多个领域,覆盖范围广,包含组件众多,同时从整体看针对各个组件的变更操作频率也较高,某项变更会在组件间存在相互影响。
为在云产品的运维过程中能够综合规划影响范围,快速定位故障原因,发现线上异常状态,现有技术主要依靠预先配置的监控发现线上异常,这种监控通常是针对单个功能模块的单点式监控,仅能基于该功能模块的历史数据判断其是否存在问题。
发明内容
本申请实施例提出了一种用于排查运维异常的方法、装置、电子设备及计算机可读存储介质。
第一方面,本申请实施例提出了一种用于排查运维异常的方法,包括:获取目标云环境中各功能模块的运行数据;根据运行数据确定不同功能模块之间存在关联的关联运行数据;根据关联运行数据的实际关联度确定运维过程中存在的异常数据。
第二方面,本申请实施例提出了一种用于排查运维异常的装置,包括:运行数据获取单元,被配置用于获取目标云环境中各功能模块的运行数据;关联运行数据确定单元,被配置用于根据运行数据确定不同功能模块之间存在关联的关联运行数据;基于关联度的异常数据确定单元,被配置用于根据关联运行数据的实际关联度确定运维过程中存在的异常数据。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的用于排查运维异常的方法。
第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的用于排查运维异常的方法。
本申请实施例提供的用于排查运维异常的方法、装置、电子设备及计算机可读存储介质,首先,获取目标云环境中各功能模块的运行数据;然后,根据该运行数据确定不同功能模块之间存在关联的关联运行数据;最后,根据该关联运行数据的实际关联度确定运维过程中存在的异常数据。区别于现有技术仅能实现的单点式运维故障排查方案,本申请通过确定不同功能模块之间存在关联的关联运行数据,得以将单点式故障排查方式改进为协同式运维故障排查,当一条依赖关系链上多个组件受影响发生故障,运维人员不会再收到多个单点故障报警,而是明确导致调用链上多个功能模块均产生故障的源头,故障源头定位更准确,效率更高。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构;
图2为本申请实施例提供的一种用于排查运维异常的方法的流程图;
图3为本申请实施例提供的另一种用于排查运维异常的方法的流程图;
图4为本申请实施例提供的又一种用于排查运维异常的方法的流程示意图;
图5为本申请实施例提供一种用于排查运维异常的装置的结构框图;
图6为本申请实施例提供一种适用于执行用于排查运维异常的方法的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于排查运维异常的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括云产品101、网络102和服务器103。云产品101包括至少两个功能模块,网络102作为在云产品101和服务器103之间提供通信链路的通信介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用服务器103通过网络102与云产品101进行数据交互,以对云产品101进行运维、参数更新、接收或下发消息等。云产品101和服务器103上可以安装有各种用于实现两者之间进行通信的应用,例如运维类应用、数据传输类应用、即时通讯类应用等。
云产品101和服务器103可以是硬件,也可以是软件。当云产品101为硬件时,其可以是由多台电子设备构建起的硬件集群,电子设备包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机、工作站、服务器等;当云产品101为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器;服务器为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。
服务器103通过内置的各种应用可以提供各种服务,以可以为云产品101提供运维故障排查服务的运维类应用为例,服务器103在运行该运维类应用时可实现如下效果:首先,通过网络102从云产品101中获取其中各功能模块的运行数据;然后,根据该运行数据确定不同功能模块之间存在关联的关联运行数据;最后,根据该关联运行数据的实际关联度确定运维过程中存在的异常数据。即服务器103通过上述处理步骤最终可以输出云产品101因本次运维导致出现的异常数据。
为了尽可能的不影响云产品101本身所负载的正常业务的运行,本申请后续各实施例所提供的用于排查运维异常的方法一般由独立于云产品101的服务器103来执行,相应地,用于排查运维异常的装置一般也设置于服务器103中。但同时也需要指出的是,在云产品101也具有满足要求的运算能力和运算资源时,云产品101也可以通过其上安装的运维类应用完成上述本交由服务器103做的各项运算,进而自行输出与服务器103同样的结果,尤其在云产品101当前处于剩余运算资源较多的情况时。相应的,用于排查运维异常的装置也可以设置于云产品101中。在此种情况下,示例性系统架构100也可以不包括服务器103和网络102。
应该理解,图1中的云产品、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的云产品、网络和服务器。
继续参考图2,图2为本申请实施例提供的一种用于排查运维异常的方法的流程图,其流程200包括以下步骤:
步骤201:获取目标云环境中各功能模块的运行数据;
本步骤旨在由用于排查运维异常的方法的执行主体(例如图1所示的服务器103)获取到目标云环境(例如图1所示的云产品101)中各功能模块的运行数据。其中,运行数据包括对应功能模块所执行每一项操作的信息,例如执行的读写操作、操作变更、通信对象、通信内容、异常告警等,以根据这些信息全面的判断该功能模块在本次运维前后所产生的变化以及当前的实时状态。
需要指出的是,各功能模块的运行数据可以由上述执行主体直接从本地的存储设备获取,也可以从非本地的存储设备(例如图1所示的云产品101)中获取。本地的存储设备可以是设置在上述执行主体内的一个数据存储模块,例如服务器硬盘,在此种情况下,各功能模块的运行数据可以在本地快速读取到;非本地的存储设备还可以为其它任何被设置用于存储数据的电子设备,例如一些云平台终端等,在此情况下,上述执行主体可以通过向该电子设备发送获取命令来获取所需的各功能模块的运行数据。
当各功能模块的运行数据需要实时从目标云环境中获取时,为获取到该运行数据,除采用由上述执行主体向目标云环境中的各个功能模块下发运行数据获取请求之外,还可以预先对目标云环境中的各个功能模块预置用于采集运行数据的探针、插件或客户端应用,以由探针、插件或客户端应用主动向上述执行返回采集到的运行数据,从而尽量减少上述执行主体与各功能模块之间的数据交互次数。进一步的,探针、插件或客户端应用可通过多种方式置入目标云环境的各功能模块,例如控制各功能模块统一从特定网络链接进行下载,或者利用网页重定向技术结合功能模块会经常访问的某个网页来帮助下载。
进一步的,为避免同时接收到从多个功能模块返回的运行数据导致数据堵塞和干扰,还可以通过设置消息队列的方式来梳理同时接收到的多个运行数据。
步骤202:根据运行数据确定不同功能模块之间存在关联的关联运行数据;
在步骤201的基础上,本步骤旨在由上述执行主体根据获取到的各功能模块的运行数据确定出关联运行数据,该关联运行数据表征了不同功能模块之间存在的关联在运行数据上的体现,可以包括存在关联关系的不同功能模块的工作模式组合、运行参数之间的映射等等。
应当理解的是,随着用户需求的增加,云环境/云产品越发复杂,由众多存在错综复杂关联关系的功能模块共同组成,某个服务或功能的达成往往需要多个功能模块的协同,因此在调用某个服务或功能时,实际上将按照调用链依次调用不同的功能模块。在此基础上,若因为运维改动了调用链中某个环节的某个参数,将有可能导致后续所有依赖该参数进行运算的其它环节均受到影响。
而且,关联关系除调用链这种较为有迹可循的来源之外,还有很多潜在或隐藏较深的类型,例如看起来毫无关联的两个功能模块的配置组合可能存在潜在的映射关系等等,因此常规通过单点运维故障排查的做法,很难准确发现导致此类异常产生的源头。
为了获取到尽可能的全面的关联运行数据,除了从各种渠道获取到已知的表征模块之间存在关联的信息之外,还可以借助分析、挖掘工具来从更深的层次确定存在的潜在关联关系,例如可以借助卷积神经网络、聚类分析算法来对不同功能模块之间、不同运行数据之间是否存在关联关系进行分析和分类。
步骤203:根据关联运行数据的实际关联度确定运维过程中存在的异常数据。
在步骤202的基础上,本步骤旨在由上述执行主体根据关联运行数据的实际关联度确定运维过程中存在的异常数据,其中,实际关联度表征对关联运行数据所表现出的关联关系的一种评估方式,以两个关联功能模块在其运行参数数值上的关联为例,假定A参数数值处在1~2之间,B参数数值处在5~6之间,而通过对大量历史正常运行的分析发现,B参数数值通常不超过A参数数值的2倍,而实际B参数数值与B参数数值的实际关联度(此处表现为比值)就超出了正常关联度,因此在A参数数值处在正常范围的情况下,就可以确定B参数属于异常数据。
除上述示出的一对关联参数的比值与预设比值之间的比较之外,实际关联度与正常关联度的比较还可以表现为以下至少一种:一对关联参数的和大于预设数值、存在关联的一对运行参数中任一参数数值未处于预设数值范围内、存在关联的一组配置信息的实际配置组合不属于任意一种预设配置组合、存在关联的一组配置信息的出现概率低于预设概率。进一步的,在已知或猜测目标云环境下可能存在上述某种关联关系时,还可以预先按照有监督的方式指导卷积神经网络或聚类分析算法去针对性的按照上述类型进行关联关系的挖掘和分析,以提升效率。
区别于现有技术仅能实现的单点式运维故障排查方案,本申请实施例提供的包含上述技术方案的用于排查运维异常的方法,通过确定不同功能模块之间存在关联的关联运行数据,得以将单点式故障排查方式改进为协同式运维故障排查,当一条依赖关系链上多个组件受影响发生故障,运维人员不会再收到多个单点故障报警,而是明确导致调用链上多个功能模块均产生故障的源头,故障源头定位更准确,效率更高。
在上述实施例的基础上,请参见图3,图3为本申请实施例提供的另一种用于排查运维异常的方法的流程图,其流程300包括如下步骤:
步骤301:获取目标云环境中各功能模块的运行数据;
步骤301与如图2所示的步骤201一致,相同部分内容请参见上一实施例的相应部分,此处不再进行赘述。
步骤302:根据已知的功能模块关联信息确定第一关联功能模块;
在本实施例中,本步骤由上述执行主体根据已知存在关联关系的功能模块来确定第一关联功能模块,这些已知信息包括但不限于已知存在的调用链信息、预定义的模块上下游关系、特殊需求等等。
一种包括但不限于的实现方式可以包括如下步骤:
获取根据设计需求预先为不同功能模块定义的上下游关系信息;
根据上下游关系信息确定第一关联功能模块。
即该实现方式是通过云环境构建之初按照设计需求自行设定的不同模块之间的上下游关系,因此基于此可以确定出一些存在关联的关联功能模块。
步骤303:利用卷积神经网络或聚类分析算法处理运行数据,得到存在关联关系的第二关联功能模块;
区别于步骤302根据已知信息确定出的第一关联功能模块,本步骤旨在由上述执行主体利用卷积神经网络或聚类分析算法从运行数据中挖掘出存在关联关系的第二关联功能模块,可使用包括其且不限于卷积神经网络或聚类分析算法的各种变种。
步骤304:从第一关联功能模块和第二关联功能模块的运行数据中提取关联运行数据;
在通过步骤302和步骤303提供的存在关联的关联功能模块的信息的基础上,本步骤旨在由上述执行主体将其作为基础信息从关联功能模块的运行数据有针对性的提取关联运行数据,从而提升关联运行数据的提取全面性和准确性。
步骤305:确定关联运行数据的实际关联度;
本步骤旨在由上述执行主体确定关联运行数据的实际关联度,应当理解的是,实际关联度的确定应与其关联形式相对应,例如上述在步骤203中示出的比值的形式。
步骤306:判断实际关联度是否与预设的正常关联度不符,若是,执行步骤307,否则执行步骤308;
步骤307:将具有与正常关联度相符的实际关联度的关联运行数据确定为正常数据;
本步骤建立在步骤306的判断结果为实际关联度与正常关联度相符的基础上,因此将具有与正常关联度相符的实际关联度的关联运行数据确定为正常数据。
步骤308:将具有与正常关联度不符的实际关联度的关联运行数据确定为异常数据。
本步骤建立在步骤306的判断结果为实际关联度与正常关联度不符的基础上,因此将具有与正常关联度不符的实际关联度的关联运行数据确定为异常数据。
在具有上一实施例全部有益效果的基础上,本实施例通过步骤302-步骤304具体提供了一种如何获取到关联运行数据的方案,结合已知信息和使用卷积神经网络或聚类分析算法得以尽可能的全面、准确的确定存在关联的功能模块,并针对性的从关联功能模块的运行数据中分析得到关联运行数据,使得关联运行数据更加全面和准确;通过步骤305-步骤308具体提供了一种如何根据实际关联度与正常关联度的比较确定出运维过程的异常数据的方案,针对不同的关联形式,说明了应采用不同的实际关联度计算方式,使得与正常关联度的对比也更加准确,而非不同的关联形式都与相同的正常关联度进行比较。
在上述任意实施例的基础上,在确定本次运维过程中的异常数据之后,还可以根据异常数据定位异常功能模块和异常物理主机,并通过预设路径上报包含异常功能模块和异常物理主机的运维异常排查报告,以通过运维异常排查报告辅助运维人员针对性的对异常源头进行正确的修复和调整,保障云环境尽可能的长时间保持稳定运行。
为加深理解,本申请还结合一个具体应用场景,给出了一种具体的实现方案,请参见如图4所示的流程示意图。
如图4所示,该实现方案主要分为两部分,一部分是左侧的运行数据采集部分,另一部则是右侧的异常数据排查部分。
针对运行数据采集部分,该场景下首先由云环境构建人员对各功能模块的上下游关系进行定义,包括构建好的云环境所应具有的功能和服务实现的调用链,从而构成一条按照调用链的功能模块链。每个功能模块的运行数据(包括常规运行数据、操作或数据变更信息、报警数据等)都会通过内置的探针或插件被发送至DB(Data Bas,数据库)进行统一存储。
针对异常数据排查部分,在该场景下分别按照三种方式对DB中存储的各功能模块运行数据进行分析和处理,分别为规则匹配、多维度数据聚合匹配以及聚类分析,以期尽可能的全面的发现关联运行数据。其中,规则匹配是指一对运行参数在参数数值上存在包括四则运算、范围等在内的映射关系,并将该映射关系构建为规则进行匹配,如果匹配上了就说明其两者的实际关联度属于正常关联度;多维度数据聚合匹配则是主要针对存在关联的一组配置信息的实际配置组合不属于任意一种预设配置组合、一组配置信息的实际配置组合的出现概率远低于平均概率等配置组合的关联形式;横向聚类分析则通常针对不同主机上的相同功能模块的参数之间的横向对比,从而确定哪台主机上配置的功能模块处于非正常运行状态。
在上述方案架构下,一个实际的排查运维异常的例子可以为:
承载异常数据排查部分的运维异常排查服务器通过规则匹配的方式发现了目标云环境下的A功能模块的A参数与B功能模块的B参数的参数数值的比值与预设的比值范围不匹配,并在确认A参数数值处于正常范围时,输出B功能模块负责运算B参数的部分属于第一异常源头、B参数为异常数据的第一消息;
运维异常排查服务器通过多维度数据聚合匹配的方式发现了目标云环境下A主机上C、D、E功能模块的工作模式分别为编号1、编号2、编号1,但通过对其它也运行有C、D、E功能模块的工作模式编号的收集发现,采用1-2-1工作模式组合的主机占比均为2%,采用1-1-1工作模式的主机占比为56%,剩余42%的主机则均按照1-1-2的工作模式配置C、D、E三个功能模块。因此将输出主机A上C、D、E功能模块中D功能模块工作模式配置错误以及应将其调整为处于编号1的工作模式的第二消息;
运维异常排查服务器通过横向聚类分析的方式发现了目标云环境下不存在异常,因此将输出横向聚类分析未发现异常的第三消息。
运维异常排查服务器根据第一消息、第二消息以及第三消息汇总异常主机,并生成事件,后续则通过线上验证来验证反馈的异常是否准确度,最终将验证出准确的异常进行上报。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于排查运维异常的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于排查运维异常的装置500可以包括:运行数据获取单元501、关联运行数据确定单元502、基于关联度的异常数据确定单元503。其中,运行数据获取单元501,被配置用于获取目标云环境中各功能模块的运行数据;关联运行数据确定单元502,被配置用于根据运行数据确定不同功能模块之间存在关联的关联运行数据;基于关联度的异常数据确定单元503,被配置用于根据关联运行数据的实际关联度确定运维过程中存在的异常数据。
在本实施例中,用于排查运维异常的装置500中:运行数据获取单元501、关联运行数据确定单元502、基于关联度的异常数据确定单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,关联运行数据确定单元501可以包括:第一关联功能模块确定子单元,被配置用于根据已知的功能模块关联信息确定第一关联功能模块;第二关联功能模块确定子单元,被配置用于利用卷积神经网络或聚类分析算法处理运行数据,得到存在关联关系的第二关联功能模块;关联运行提取子单元,被配置用于从第一关联功能模块和第二关联功能模块的运行数据中提取关联运行数据。
在本实施例的一些可选的实现方式中,第一关联功能模块确定子单元可以进一步被配置用于:获取根据设计需求预先为不同功能模块定义的上下游关系信息;根据上下游关系信息确定第一关联功能模块。
在本实施例的一些可选的实现方式中,基于关联度的异常数据确定单元503可以进一步被配置用于:响应于关联运行数据的实际关联度与预设的正常关联度不符,将具有与正常关联度不符的实际关联度的关联运行数据确定为异常数据。
在本实施例的一些可选的实现方式中,实际关联度与正常关联度不符包括以下至少一种情况:存在关联的一对运行参数的比值大于预设比值、存在关联的一对运行参数的和大于预设数值、存在关联的一对运行参数中任一参数数值未处于预设数值范围内、存在关联的一组配置信息的实际配置组合不属于任意一种预设配置组合、存在关联的一组配置信息的出现概率低于预设概率。
在本实施例的一些可选的实现方式中,用于排查运维异常的装置500还可以包括:异常功能模块及异常主机定位单元,被配置用于根据异常数据定位异常功能模块和异常物理主机;运维异常排除报告上报单元,被配置用于通过预设路径上报包含异常功能模块和异常物理主机的运维异常排查报告。
本实施例作为对应于上述方法实施例的装置实施例存在,区别于现有技术仅能实现的单点式运维故障排查方案,本实施例提供的包含上述技术方案的用于排查运维异常的装置,通过确定不同功能模块之间存在关联的关联运行数据,得以将单点式故障排查方式改进为协同式运维故障排查,当一条依赖关系链上多个组件受影响发生故障,运维人员不会再收到多个单点故障报警,而是明确导致调用链上多个功能模块均产生故障的源头,故障源头定位更准确,效率更高。
根据本申请的实施例,本申请还提供了一种电子设备和一种计算机可读存储介质。
图6示出了一种适于用来实现本申请实施例的用于排查运维异常的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的用于排查运维异常的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于排查运维异常的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的用于排查运维异常的方法对应的程序指令/模块(例如,附图5所示的运行数据获取单元501、关联运行数据确定单元502、基于关联度的异常数据确定单元503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用于排查运维异常的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储该电子设备在执行用于排查运维异常的方法所创建的各类数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至适用于执行用于排查运维异常的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
适用于执行用于排查运维异常的方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生适用于执行用于排查运维异常的方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
区别于现有技术仅能实现的单点式运维故障排查方案,本实施根据上述技术方案通过确定不同功能模块之间存在关联的关联运行数据,得以将单点式故障排查方式改进为协同式运维故障排查,当一条依赖关系链上多个组件受影响发生故障,运维人员不会再收到多个单点故障报警,而是明确导致调用链上多个功能模块均产生故障的源头,故障源头定位更准确,效率更高。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (14)
1.一种用于排查运维异常的方法,包括:
获取目标云环境中各功能模块的运行数据;
根据所述运行数据确定不同功能模块之间存在关联的关联运行数据;
根据所述关联运行数据的实际关联度确定运维过程中存在的异常数据。
2.根据权利要求1所述的方法,其中,根据所述运行数据确定不同功能模块之间存在关联的关联运行数据,包括:
根据已知的功能模块关联信息确定第一关联功能模块;
利用卷积神经网络或聚类分析算法处理所述运行数据,得到存在关联关系的第二关联功能模块;
从所述第一关联功能模块和所述第二关联功能模块的运行数据中提取所述关联运行数据。
3.根据权利要求2所述的方法,其中,根据已知的功能模块关联信息确定第一关联功能模块,包括:
获取根据设计需求预先为不同功能模块定义的上下游关系信息;
根据所述上下游关系信息确定所述第一关联功能模块。
4.根据权利要求1所述的方法,其中,根据所述关联运行数据的实际关联度确定运维过程中存在的异常数据,包括:
响应于所述关联运行数据的实际关联度与预设的正常关联度不符,将具有与所述正常关联度不符的实际关联度的关联运行数据确定为所述异常数据。
5.根据权利要求3所述的方法,其中,所述实际关联度与所述正常关联度不符包括以下至少一种情况:
存在关联的一对运行参数的比值大于预设比值、存在关联的一对运行参数的和大于预设数值、存在关联的一对运行参数中任一参数数值未处于预设数值范围内、存在关联的一组配置信息的实际配置组合不属于任意一种预设配置组合、存在关联的一组配置信息的出现概率低于预设概率。
6.根据权利要求1至5任一项所述的方法,还包括:
根据所述异常数据定位异常功能模块和异常物理主机;
通过预设路径上报包含所述异常功能模块和所述异常物理主机的运维异常排查报告。
7.一种用于排查运维异常的装置,包括:
运行数据获取单元,被配置用于获取目标云环境中各功能模块的运行数据;
关联运行数据确定单元,被配置用于根据所述运行数据确定不同功能模块之间存在关联的关联运行数据;
基于关联度的异常数据确定单元,被配置用于根据所述关联运行数据的实际关联度确定运维过程中存在的异常数据。
8.根据权利要求7所述的装置,其中,所述关联运行数据确定单元包括:
第一关联功能模块确定子单元,被配置用于根据已知的功能模块关联信息确定第一关联功能模块;
第二关联功能模块确定子单元,被配置用于利用卷积神经网络或聚类分析算法处理所述运行数据,得到存在关联关系的第二关联功能模块;
关联运行提取子单元,被配置用于从所述第一关联功能模块和所述第二关联功能模块的运行数据中提取所述关联运行数据。
9.根据权利要求8所述的装置,其中,第一关联功能模块确定子单元进一步被配置用于:
获取根据设计需求预先为不同功能模块定义的上下游关系信息;
根据所述上下游关系信息确定所述第一关联功能模块。
10.根据权利要求7所述的装置,其中,所述基于关联度的异常数据确定单元进一步被配置用于:
响应于所述关联运行数据的实际关联度与预设的正常关联度不符,将具有与所述正常关联度不符的实际关联度的关联运行数据确定为所述异常数据。
11.根据权利要求10所述的装置,其中,所述实际关联度与所述正常关联度不符包括以下至少一种情况:
存在关联的一对运行参数的比值大于预设比值、存在关联的一对运行参数的和大于预设数值、存在关联的一对运行参数中任一参数数值未处于预设数值范围内、存在关联的一组配置信息的实际配置组合不属于任意一种预设配置组合、存在关联的一组配置信息的出现概率低于预设概率。
12.根据权利要求7至11任一项所述的装置,还包括:
异常功能模块及异常主机定位单元,被配置用于根据所述异常数据定位异常功能模块和异常物理主机;
运维异常排除报告上报单元,被配置用于通过预设路径上报包含所述异常功能模块和所述异常物理主机的运维异常排查报告。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的用于排查运维异常的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的用于排查运维异常的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010681077.5A CN111831512B (zh) | 2020-07-15 | 2020-07-15 | 用于排查运维异常的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010681077.5A CN111831512B (zh) | 2020-07-15 | 2020-07-15 | 用于排查运维异常的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111831512A true CN111831512A (zh) | 2020-10-27 |
CN111831512B CN111831512B (zh) | 2024-03-15 |
Family
ID=72924404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010681077.5A Active CN111831512B (zh) | 2020-07-15 | 2020-07-15 | 用于排查运维异常的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831512B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112526905A (zh) * | 2020-11-27 | 2021-03-19 | 杭州萤石软件有限公司 | 一种针对指标异常的处理方法及系统 |
CN112711507A (zh) * | 2020-12-17 | 2021-04-27 | 浙江高速信息工程技术有限公司 | 设备告警方法、电子设备和介质 |
CN113886119A (zh) * | 2021-09-27 | 2022-01-04 | 北京三快在线科技有限公司 | 一种故障修复的方法及装置 |
CN116126568A (zh) * | 2021-11-12 | 2023-05-16 | 博泰车联网(大连)有限公司 | 故障复现方法、装置、设备和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777021A (zh) * | 2016-12-08 | 2017-05-31 | 郑州云海信息技术有限公司 | 一种基于自动化运维平台的数据分析方法及装置 |
CN108833184A (zh) * | 2018-06-29 | 2018-11-16 | 腾讯科技(深圳)有限公司 | 服务故障定位方法、装置、计算机设备及存储介质 |
CN109992600A (zh) * | 2019-03-28 | 2019-07-09 | 佛山市百斯特电器科技有限公司 | 一种设备故障的响应方法及设备 |
CN111078503A (zh) * | 2019-12-23 | 2020-04-28 | 中国建设银行股份有限公司 | 一种异常监控方法及系统 |
-
2020
- 2020-07-15 CN CN202010681077.5A patent/CN111831512B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777021A (zh) * | 2016-12-08 | 2017-05-31 | 郑州云海信息技术有限公司 | 一种基于自动化运维平台的数据分析方法及装置 |
CN108833184A (zh) * | 2018-06-29 | 2018-11-16 | 腾讯科技(深圳)有限公司 | 服务故障定位方法、装置、计算机设备及存储介质 |
CN109992600A (zh) * | 2019-03-28 | 2019-07-09 | 佛山市百斯特电器科技有限公司 | 一种设备故障的响应方法及设备 |
CN111078503A (zh) * | 2019-12-23 | 2020-04-28 | 中国建设银行股份有限公司 | 一种异常监控方法及系统 |
Non-Patent Citations (1)
Title |
---|
高强;张凤荔;陈学勤;王馨云;耿贞伟;周帆;: "基于改进Eclat算法的资源池节点异常模式挖掘", 计算机应用研究, no. 02 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112526905A (zh) * | 2020-11-27 | 2021-03-19 | 杭州萤石软件有限公司 | 一种针对指标异常的处理方法及系统 |
CN112526905B (zh) * | 2020-11-27 | 2022-09-27 | 杭州萤石软件有限公司 | 一种针对指标异常的处理方法及系统 |
CN112711507A (zh) * | 2020-12-17 | 2021-04-27 | 浙江高速信息工程技术有限公司 | 设备告警方法、电子设备和介质 |
CN113886119A (zh) * | 2021-09-27 | 2022-01-04 | 北京三快在线科技有限公司 | 一种故障修复的方法及装置 |
CN113886119B (zh) * | 2021-09-27 | 2022-12-09 | 北京三快在线科技有限公司 | 一种故障修复的方法及装置 |
CN116126568A (zh) * | 2021-11-12 | 2023-05-16 | 博泰车联网(大连)有限公司 | 故障复现方法、装置、设备和可读存储介质 |
CN116126568B (zh) * | 2021-11-12 | 2024-02-09 | 博泰车联网(大连)有限公司 | 故障复现方法、装置、设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111831512B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111831512B (zh) | 用于排查运维异常的方法、装置、电子设备及存储介质 | |
US10466866B2 (en) | Displaying a complex service topology for monitoring | |
US10373094B2 (en) | Automated model based root cause analysis | |
US20180034685A1 (en) | Algorithms for Root Cause Analysis | |
US10459780B2 (en) | Automatic application repair by network device agent | |
CN112486820B (zh) | 用于测试代码的方法、装置、设备以及存储介质 | |
US20180123922A1 (en) | Correlating performance outliers and network performance impacting event metric | |
US10402052B2 (en) | Guided exploration of root cause analysis | |
CN111835592B (zh) | 用于确定健壮性的方法、装置、电子设备及可读存储介质 | |
US20180123919A1 (en) | Unified monitoring flow map | |
US20180032905A1 (en) | Adaptive Anomaly Grouping | |
US10536505B2 (en) | Intelligent data transmission by network device agent | |
US20180123921A1 (en) | Automatic web page load detection | |
CN111666217A (zh) | 用于测试代码的方法和装置 | |
CN111865720B (zh) | 用于处理请求的方法、装置、设备以及存储介质 | |
CN112491617A (zh) | 一种链路跟踪方法、装置、电子设备和介质 | |
US10706108B2 (en) | Field name recommendation | |
CN112015995A (zh) | 数据分析的方法、装置、设备以及存储介质 | |
US11106563B2 (en) | Log analysis device, log analysis method, and recording medium storing program | |
US20190079851A1 (en) | Mid-method instrumentation | |
CN111694686B (zh) | 一种异常服务的处理方法、装置、电子设备及存储介质 | |
CN112735601B (zh) | 利用蓝牙确定传染病密接人群的测试方法、装置及设备 | |
EP3121668A1 (en) | A computer implemented method and system for engineering a process | |
US10726590B2 (en) | Correlate application performance with hardware performance via heatmap | |
CN113779616A (zh) | 用于识别数据的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |