CN115348146A - 业务异常的根因确定方法、装置及系统 - Google Patents
业务异常的根因确定方法、装置及系统 Download PDFInfo
- Publication number
- CN115348146A CN115348146A CN202110518393.5A CN202110518393A CN115348146A CN 115348146 A CN115348146 A CN 115348146A CN 202110518393 A CN202110518393 A CN 202110518393A CN 115348146 A CN115348146 A CN 115348146A
- Authority
- CN
- China
- Prior art keywords
- service
- abnormal
- entity
- network
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 230000005856 abnormality Effects 0.000 title claims description 36
- 230000002159 abnormal effect Effects 0.000 claims abstract description 420
- 238000004458 analytical method Methods 0.000 claims abstract description 320
- 230000008569 process Effects 0.000 claims abstract description 40
- 238000004891 communication Methods 0.000 claims description 82
- 230000005540 biological transmission Effects 0.000 claims description 66
- 230000000007 visual effect Effects 0.000 claims description 52
- 238000004422 calculation algorithm Methods 0.000 claims description 33
- 238000001514 detection method Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 7
- 230000002547 anomalous effect Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000013024 troubleshooting Methods 0.000 description 5
- 238000013475 authorization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000012792 core layer Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/065—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/22—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
一种业务异常的根因确定方法、装置及系统,属于网络技术领域。业务分析系统在第一业务发生异常之后获取与第一业务相关的第一统计信息,并确定与第一业务相关的第一逻辑拓扑,根据第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体,其中,第一逻辑拓扑包括与第一业务相关的网络实体以及所述网络实体之间的连接关系,第一逻辑拓扑中的网络实体包括服务器、网络设备、接口、VM和进程中的至少一种。本申请由业务分析系统根据与业务相关的统计信息以及与业务相关的逻辑拓扑确定引发业务发生异常的根因网络实体,有助于满足确定业务异常的根因的时效性。
Description
技术领域
本申请涉及网络技术领域,特别涉及一种业务异常的根因确定方法、装置及系统。
背景技术
业务通常由通信网络,例如数据中心网络(data center network,DCN)承载,业务异常(例如业务的访问时延增大或业务访问失败等)通常与承载该业务的通信网络有关。在业务发生异常时,需要确定业务异常的根本原因(简称根因)。例如确定通信网络中的哪个网络实体故障导致业务异常。其中,网络实体包括网络设备、接口等。
目前,在业务发生异常时,通常由工作人员对通信网络进行故障排查,以确定业务异常的根因。但是,工作人员对通信网络进行故障排查的效率较低,并且对于规模较大的通信网络,工作人员进行故障排查的工作量较大,无法满足根因确定的时效性。
发明内容
本申请提供了一种业务异常的根因确定方法、装置及系统,有助于满足确定业务异常的根因的时效性,提高确定业务异常的根因的效率。本申请的技术方案如下:
第一方面,提供了一种业务异常的根因确定方法,该方法包括:在第一业务发生异常之后,获取与第一业务相关的第一统计信息;确定与第一业务相关的第一逻辑拓扑,第一逻辑拓扑包括与第一业务相关的网络实体以及所述网络实体之间的连接关系,第一逻辑拓扑中的网络实体包括服务器、网络设备、接口、虚拟机(virtual machine,VM)和进程中的至少一种;根据第一统计信息和第一逻辑拓扑,确定引发第一业务发生异常的根因网络实体。
本申请提供的技术方案,业务分析系统根据与第一业务相关的第一统计信息以及与第一业务相关的第一逻辑拓扑,确定引发第一业务发生异常的根因网络实体,有助于满足确定第一业务发生异常的根因的时效性,提高确定第一业务发生异常的根因的效率。
可选地,第一统计信息包括属于第一业务的n条业务流的统计信息,根据第一统计信息和第一逻辑拓扑,确定引发第一业务发生异常的根因网络实体,包括:根据所述n条业务流的统计信息和第一逻辑拓扑,确定与第一业务相关的第二逻辑拓扑,第二逻辑拓扑包括n个流实体、所述n条业务流在第一逻辑拓扑所经过的网络实体、所述网络实体之间的连接关系以及所述流实体与所述网络实体之间的连接关系,所述n个流实体与所述n条业务流一一对应,所述n个流实体至少包括异常流实体,每个异常流实体对应所述n条业务流中的一条异常业务流;根据第二逻辑拓扑,确定引发第一业务发生异常的根因网络实体。
本申请提供的技术方案,业务分析系统根据属于第一业务的n条业务流的统计信息以及与第一业务相关的第一逻辑拓扑确定与第一业务相关的第二逻辑拓扑,根据第二逻辑拓扑确定引发第一业务发生异常的根因网络实体,有助于满足确定第一业务发生异常的根因的时效性,提高确定第一业务发生异常的根因的效率。
可选地,所述n个流实体还包括正常流实体,每个正常流实体对应所述n条业务流中的一条正常业务流。
可选地,根据所述n条业务流的统计信息和第一逻辑拓扑,确定与第一业务相关的第二逻辑拓扑,包括:根据所述n条业务流的统计信息,从所述n条业务流中确定正常业务流和异常业务流。
本申请提供的技术方案,业务分析系统根据属于第一业务的业务流的统计信息确定该业务流是正常业务流或异常业务流,从而在属于第一业务的n条业务流中确定正常业务流和异常业务流,可以便于业务分析系统根据正常业务流、异常业务流以及第一逻辑拓扑确定第二逻辑拓扑,从而根据第二逻辑拓扑确定引发第一业务发生异常的根因网络实体。
可选地,第二逻辑拓扑还包括状态实体,所述状态实体包括异常状态实体,异常状态实体与异常流实体相关(例如异常状态实体与异常流实体连接),根据第二逻辑拓扑,确定引发第一业务发生异常的根因网络实体,包括:采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度;根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
可选地,第二逻辑拓扑中的状态实体还包括正常状态实体,正常状态实体与第二逻辑拓扑中的正常流实体相关(例如正常状态实体与正常流实体连接)。
本申请提供的技术方案,第二逻辑拓扑中的状态实体可以对第二逻辑拓扑中的流实体的状态进行标识,以便于在第二逻辑拓扑对应的可视图中直观展示属于第一业务的n条业务流中的正常业务流和异常业务流。此外,业务分析系统采用状态实体与网络实体的相关度的方式,确定引发第一业务发生异常的根因网络实体,有助于保证确定的根因网络实体的准确性。其中,第二逻辑拓扑对应的可视图可以是显示有第二逻辑拓扑的可视化界面图,例如第二逻辑拓扑对应的可视图是显示有第二逻辑拓扑的用户接口(userinterface,UI)界面图。
可选地,采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,包括:采用基于图的推理算法确定异常状态实体与第二逻辑拓扑中的网络实体的相关度,以及,确定正常状态实体与第二逻辑拓扑中的网络实体的相关度;根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体,包括:根据异常状态实体与第二逻辑拓扑中的网络实体的相关度,以及,正常状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
本申请提供的技术方案,业务分析系统采用正常状态实体与网络实体的相关度以及异常状态实体与网络实体的相关度的方式,确定引发第一业务发生异常的根因网络实体,有助于保证确定的根因网络实体的准确性。
可选地,根据异常状态实体与第二逻辑拓扑中的网络实体的相关度,以及,正常状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体,包括:将第一相关度对应的网络实体确定为引发第一业务发生异常的根因网络实体;其中,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的最大相关度;或者,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的一个相关度,第一相关度大于第一阈值,第一相关度对应的网络实体与正常状态实体的相关度小于第二阈值,第二阈值小于或等于第一阈值。
本申请提供的技术方案,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的最大相关度;或者,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的一个相关度,第一相关度大于第一阈值,第一相关度对应的网络实体与正常状态实体的相关度小于第二阈值,第二阈值小于或等于第一阈值。由此,业务分析系统将第一相关度对应的网络实体确定为引发第一业务发生异常的根因网络实体,有助于保证确定的根因网络实体的准确性。
可选地,第二逻辑拓扑中的网络实体包括产生异常事件的异常网络实体,采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,包括:采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度;根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体,包括:根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
本申请提供的技术方案,业务分析系统采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度,根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度,确定引发第一业务发生异常的根因网络实体,有助于减少确定根因网络实体的计算量,简化确定根因网络实体的过程。
可选地,第二逻辑拓扑还包括异常事件对应的异常事件实体,异常事件实体与产生异常事件的异常网络实体相关(例如异常事件实体与产生异常事件的异常网络实体连接)。
本申请提供的技术方案,第二逻辑拓扑中的异常事件实体可以对第二逻辑拓扑中的异常网络实体进行标识,以便于在第二逻辑拓扑对应的可视图中直观展示异常网络实体。
可选地,异常事件包括告警日志或异常关键绩效指标(key performanceindicator,KPI)中的至少一种。
可选地,所述n条业务流的统计信息是根据与第一业务相关的传输路径上的设备发送的属于第一业务的业务流的性能数据确定的,在获取与第一业务相关的第一统计信息之前,该方法还包括:在承载第一业务的通信网络中确定与第一业务相关的传输路径;向所述传输路径上的设备发送检测任务,以指示所述设备采集属于第一业务的业务流的性能数据。
本申请提供的技术方案,业务分析系统通过确定与第一业务相关的传输路径,并向所述传输路径上的设备发送检测任务,可以便于所述传输路径上的设备采集属于第一业务的业务流的性能数据,从而便于业务分析系统获取属于第一业务的n条业务流的统计信息。
可选地,该方法还包括:在第一逻辑拓扑对应的可视图中标识出根因网络实体;或,发送指示所述根因网络实体的指示信息,例如向显示装置或告警装置发送指示所述根因网络实体的指示信息。其中,第一逻辑拓扑对应的可视图可以是显示有第一逻辑拓扑的可视化界面图,例如第一逻辑拓扑对应的可视图是显示有第一逻辑拓扑的UI界面图。
本申请提供的技术方案,业务分析系统在第一逻辑拓扑对应的可视图中标识出根因网络实体,可以将根因网络实体直观的展示出来,便于用户直观了解引发第一业务发生异常的根因网络实体;以及,业务分析系统发送指示根因网络实体的指示信息,可以便于用户查看根因网络实体的指示信息,以确定引发第一业务发生异常的根因网络实体。
可选地,该方法还包括:在第一逻辑拓扑对应的可视图中标识出与根因网络实体关联的目标路径,目标路径用于第一业务的传输。
本申请提供的技术方案,业务分析系统在第一逻辑拓扑对应的可视图中标识出与根因网络实体关联的目标路径,可以将目标路径直观的展示出来,便于用户直观了解与根因网络实体关联的目标路径。
第二方面,提供了一种业务分析系统,包括用于执行如上述第一方面或第一方面的任一可选方式所提供的方法的各个模块。所述模块可以基于软件、硬件或软件和硬件的结合实现,且所述模块可以基于具体实现进行任意组合或分割。所述模块可以部署在相同设备(也即是同一设备)或不同设备中。
第三方面,提供了一种业务分析装置,包括存储器和处理器;
存储器用于存储计算机程序;
处理器用于执行存储器中存储的计算机程序以使得该业务分析装置执行如上述第一方面或第一方面的任一可选方式所提供的方法。
第四方面,提供了一种业务分析系统,包括:业务控制装置和业务分析装置,业务控制装置与业务分析装置连接,业务控制装置与业务分析装置可以部署在相同设备(也即是同一设备)或不同设备中,
业务控制装置用于:在接收到用于指示第一业务发生异常的异常通知消息之后,向业务分析装置发送异常分析请求,异常分析请求中携带第一业务的指示信息;
业务分析装置用于:在接收到异常分析请求之后,获取与第一业务相关的第一统计信息,并确定与第一业务相关的第一逻辑拓扑,根据第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体,第一逻辑拓扑包括与第一业务相关的网络实体以及所述网络实体之间的连接关系,第一逻辑拓扑中的网络实体包括服务器、网络设备、接口、VM和进程中的至少一种。
本申请提供的技术方案,业务分析装置根据与第一业务相关的第一统计信息以及与第一业务相关的第一逻辑拓扑,确定引发第一业务发生异常的根因网络实体,有助于满足确定第一业务发生异常的根因的时效性,提高确定第一业务发生异常的根因的效率。
可选地,第一统计信息包括属于第一业务的n条业务流的统计信息,
业务控制装置还用于:在接收到异常通知消息之后,在承载第一业务的通信网络中确定与第一业务相关的传输路径,并向所述传输路径上的设备发送检测任务,以指示所述设备采集属于第一业务的业务流的性能数据;
业务分析装置具体用于:接收所述传输路径上的设备发送的属于第一业务的业务流的性能数据,根据所述传输路径上的设备发送的属于第一业务的业务流的性能数据,确定属于第一业务的所述n条业务流的统计信息。
本申请提供的技术方案,业务控制装置确定与第一业务相关的传输路径,并向所述传输路径上的设备发送检测任务,可以便于所述传输路径上的设备采集属于第一业务的业务流的性能数据,并向业务分析装置发送属于第一业务的业务流的性能数据,从而便于业务分析装置获取属于第一业务的n条业务流的统计信息。
可选地,业务控制装置还用于:在接收到异常通知消息之后,确定与第一业务相关的部署信息,并向业务分析装置发送部署信息,该部署信息至少包括与第一业务相关的VM的部署位置和部署网段;
业务分析装置具体用于:根据该部署信息确定与第一业务相关的网络实体以及所述网络实体之间的连接关系,根据与第一业务相关的网络实体以及所述网络实体之间的连接关系确定第一逻辑拓扑。
本申请提供的技术方案,业务控制装置确定与第一业务相关的部署信息并向业务分析装置发送该部署信息,可以便于业务分析装置根据该部署信息确定第一逻辑拓扑,根据与第一业务相关的第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体。
可选地,业务分析装置具体用于:在接收到异常分析请求之后,确定与第一业务相关的部署信息,根据该部署信息确定与第一业务相关的网络实体以及所述网络实体之间的连接关系,根据与第一业务相关的网络实体以及所述网络实体之间的连接关系确定第一逻辑拓扑。
本申请提供的技术方案,业务分析装置确定与第一业务相关的部署信息,并根据该部署信息确定第一逻辑拓扑,可以便于业务分析装置根据与第一业务相关的第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体。
可选地,第一统计信息包括属于第一业务的n条业务流的统计信息,业务分析装置具体用于:根据所述n条业务流的统计信息和第一逻辑拓扑,确定与第一业务相关的第二逻辑拓扑,第二逻辑拓扑包括n个流实体、所述n条业务流在第一逻辑拓扑所经过的网络实体、所述网络实体之间的连接关系以及所述流实体与所述网络实体之间的连接关系,所述n个流实体与所述n条业务流一一对应,所述n个流实体至少包括异常流实体,每个异常流实体对应所述n条业务流中的一条异常业务流;根据第二逻辑拓扑,确定引发第一业务发生异常的根因网络实体。
本申请提供的技术方案,业务分析装置根据属于第一业务的n条业务流的统计信息以及与第一业务相关的第一逻辑拓扑,确定与第一业务相关的第二逻辑拓扑,根据第二逻辑拓扑确定引发第一业务发生异常的根因网络实体,有助于满足确定第一业务发生异常的根因的时效性,提高确定第一业务发生异常的根因的效率。
可选地,所述n个流实体还包括正常流实体,每个正常流实体对应所述n条业务流中的一条正常业务流。
可选地,业务分析装置具体用于:根据所述n条业务流的统计信息,从所述n条业务流中确定正常业务流和异常业务流。
本申请提供的技术方案,业务分析装置根据属于第一业务的业务流的统计信息确定该业务流是正常业务流或异常业务流,从而在属于第一业务的n条业务流中确定正常业务流和异常业务流,可以便于业务分析装置根据正常业务流、异常业务流以及第一逻辑拓扑确定第二逻辑拓扑,从而根据第二逻辑拓扑确定引发第一业务发生异常的根因网络实体。
可选地,第二逻辑拓扑还包括状态实体,所述状态实体包括异常状态实体,异常状态实体与异常流实体相关(例如异常状态实体与异常流实体连接),业务分析装置具体用于:采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度;根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
可选地,第二逻辑拓扑中的状态实体还包括正常状态实体,正常状态实体与第二逻辑拓扑中的正常流实体相关(例如正常状态实体与正常流实体连接)。
本申请提供的技术方案,第二逻辑拓扑中的状态实体可以对第二逻辑拓扑中的流实体的状态进行标识,以便于在第二逻辑拓扑对应的可视图中直观展示属于第一业务的n条业务流中的正常业务流和异常业务流。此外,业务分析装置采用状态实体与网络实体的相关度的方式,确定引发第一业务发生异常的根因网络实体,有助于保证确定的根因网络实体的准确性。
可选地,业务分析装置具体用于:采用基于图的推理算法确定异常状态实体与第二逻辑拓扑中的网络实体的相关度,以及,确定正常状态实体与第二逻辑拓扑中的网络实体的相关度;根据异常状态实体与第二逻辑拓扑中的网络实体的相关度,以及,正常状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
本申请提供的技术方案,业务分析装置采用正常状态实体与网络实体的相关度以及异常状态实体与网络实体的相关度的方式,确定引发第一业务发生异常的根因网络实体,有助于保证确定的根因网络实体的准确性。
可选地,业务分析装置具体用于:将第一相关度对应的网络实体确定为引发第一业务发生异常的根因网络实体;其中,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的最大相关度;或者,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的一个相关度,第一相关度大于第一阈值且第一相关度对应的网络实体与正常状态实体的相关度小于第二阈值,第二阈值小于或等于第一阈值。
本申请提供的技术方案,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的最大相关度;或者,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的一个相关度,第一相关度大于第一阈值,第一相关度对应的网络实体与正常状态实体的相关度小于第二阈值,第二阈值小于或等于第一阈值。由此,业务分析装置将第一相关度对应的网络实体确定为引发第一业务发生异常的根因网络实体,有助于保证确定的根因网络实体的准确性。
可选地,第二逻辑拓扑中的网络实体包括产生异常事件的异常网络实体,业务分析装置具体用于:采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度;根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
本申请提供的技术方案,业务分析装置采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度,根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度,确定引发第一业务发生异常的根因网络实体,有助于减少确定根因网络实体的计算量,简化确定根因网络实体的过程。
可选地,第二逻辑拓扑还包括异常事件对应的异常事件实体,异常事件实体与产生异常事件的异常网络实体相关(例如异常事件实体与产生异常事件的异常网络实体连接)。
本申请提供的技术方案,第二逻辑拓扑中的异常事件实体可以对第二逻辑拓扑中的异常网络实体进行标识,以便于在第二逻辑拓扑对应的可视图中直观展示异常网络实体。
可选地,异常事件包括告警日志或异常KPI中的至少一种。
可选地,业务分析装置还用于:在第一逻辑拓扑对应的可视图中标识出根因网络实体;或,发送指示所述根因网络实体的指示信息。
本申请提供的技术方案,业务分析装置在第一逻辑拓扑对应的可视图中标识出根因网络实体,可以将根因网络实体直观的展示出来,便于用户直观了解引发第一业务发生异常的根因网络实体;以及,业务分析装置发送指示根因网络实体的指示信息,可以便于用户查看根因网络实体的指示信息,以确定引发第一业务发生异常的根因网络实体。
可选地,业务分析装置还用于:在第一逻辑拓扑对应的可视图中标识出与根因网络实体关联的目标路径,目标路径用于第一业务的传输。
本申请提供的技术方案,业务分析装置在第一逻辑拓扑对应的可视图中标识出与根因网络实体关联的目标路径,可以将目标路径直观的展示出来,便于用户直观了解与根因网络实体关联的目标路径。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被执行时实现如上述第一方面或第一方面的任一可选方式所提供的方法。
第六方面,提供了一种计算机程序产品,该计算机程序产品包括程序或代码,该程序或代码被执行时实现如上述第一方面或第一方面的任一可选方式所提供的方法。
第七方面,提供了一种芯片,该芯片包括可编程逻辑电路和/或程序指令,该芯片运行时用于实现如上述第一方面或第一方面的任一可选方式所提供的方法。
本申请提供的技术方案带来的有益效果是:
本申请提供的业务异常的根因确定方法、装置及系统,业务分析系统在第一业务发生异常之后,获取与第一业务相关的第一统计信息并确定与第一业务相关的第一逻辑拓扑,第一逻辑拓扑包括与第一业务相关的网络实体以及所述网络实体之间的连接关系,第一逻辑拓扑中的网络实体包括服务器、网络设备、接口、VM和进程中的至少一种,业务分析系统得到第一统计信息和第一逻辑拓扑后,根据第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体,也即是,确定第一业务发生异常的根因。本申请通过由业务分析系统根据与业务相关的统计信息以及与业务相关的逻辑拓扑确定业务发生异常的根因,有助于满足确定业务异常的根因的时效性,提高确定业务异常的根因的效率。
附图说明
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的另一种实施环境的示意图;
图3是本申请实施例提供的再一种实施环境的示意图;
图4是本申请实施例提供的又一种实施环境的示意图;
图5是本申请实施例提供的一种业务异常的根因确定方法的流程图;
图6是本申请实施例提供的一种第一逻辑拓扑的示意图;
图7是本申请实施例提供的一种确定根因网络实体的流程图;
图8是本申请实施例提供的一种第二逻辑拓扑的示意图;
图9是本申请实施例提供的一种第一逻辑拓扑的可视图;
图10是本申请实施例提供的一种第二逻辑拓扑的可视图;
图11是本申请实施例提供的另一种业务异常的根因确定方法的流程图;
图12是本申请实施例提供的一种业务分析系统的结构示意图;
图13是本申请实施例提供的一种业务分析装置的结构示意图;
图14是本申请实施例提供的另一种业务分析系统的结构示意图。
具体实施方式
下面将结合附图对本申请实施方式作进一步地详细描述。
业务通常由通信网络(例如数据中心网络)承载,当前大部分用户(例如金融用户)的诉求包括业务异常是否与通信网络相关。大部分用户期望能够快速感知业务异常,并且将业务异常与物理网络、逻辑网络等通信网络的故障关联,以快速确定出业务异常的根因。
一些金融用户的全栈式应用(application,APP)运维及根因分析系统,能够对用户的应用旅程跟踪,并确定逐段性能指标,以感知业务异常。例如手机登录某金融APP查看收支页面的整个流程为:APP->登录->商户授权->登录主流程->收支查询,全栈式应用运维及根因分析系统通过对该整个流程进行旅程跟踪,能够确定“APP->登录”、“登录->商户授权”、“商户授权->登录主流程”以及“登录主流程->收支查询”中的各个阶段的性能指标,从而感知业务异常。但是上述每个阶段(例如“登录->商户授权”阶段)的业务传输可能会经过数据中心网络中的多个网络设备,甚至经过多个数据中心网络,全栈式应用运维及根因分析系统仅能够确定是哪个阶段发生业务异常,无法深入到数据中心网络内部确定业务异常的根因。例如,无法确定是数据中心网络中的哪个网络实体发生故障导致业务异常。在这种情况下,通常需要由多个工作人员配合对数据中心网络进行故障排查才能确定业务异常的根因。但是,工作人员对数据中心网络进行故障排查的效率较低,且无法满足根因确定的时效性。
目前还可以采用网络性能监视和诊断(network performance monitoring anddiagnostics,NPMD)工具确定业务异常的根因。在采用NPMD工具确定业务异常的根因的方案中,需要在与待测业务相关的各个设备(包括网络设备、终端等)上部署用于拨测的代理(agent)模块,由代理模块采用网际包探测器(packet internet groper,PING)、踪迹(trace)等拨测手段对待测业务进行拨测,并将拨测到的数据(包括数据包数据、流量数据和基础设施度量指标数据等)上报给NPMD工具,NPMD工具根据各个代理模块上报的数据呈现历史、实时和预测性的视图,以便用户深入了解数据中心网络及由该数据中心网络承载的该待测业务的性能,从而确定业务异常的根因。但是由于需要在与待测业务相关的各个设备上部署代理模块,因此该方案的成本较高,并且用于拨测的流量与真实业务流量所走的转发路径不一定一致,导致确定业务异常的根因的准确性较低。
有鉴于目前确定业务异常的根因的方案中存在的上述问题,本申请实施例提供一种业务异常的根因确定方法、装置及系统。在本申请实施例提供的技术方案中,由业务分析系统根据与业务相关的统计信息以及与业务相关的逻辑拓扑确定引发业务发生异常的根因网络实体,有助于满足确定业务异常的根因的时效性,且确定业务异常的效率较高。由于是根据与业务相关的统计信息确定引发业务发生异常的根因网络实体,因此确定业务异常的根因的准确性较高。此外,本申请实施例提供的技术方案无需部署代理模块即可确定业务异常的根因,确定业务异常的根因的成本较低。下面结合附图对本申请的技术方案进行详细介绍。
首先介绍本申请的实施环境。
本申请实施例的实施环境是一种通信系统,该通信系统包括业务分析装置、承载第一业务的通信网络,以及提供第一业务的至少一个服务器。通信网络中包括多个网络设备,服务器通过通信网络的边缘设备(或接入设备)接入该通信网络。
其中,通信网络可以是运营商网络、数据中心网络、城域网络、广域网络、园区网络、虚拟局域网(virtual local area network,VLAN)或虚拟扩展局域网(virtualextensible local area network,VXLAN)等,本申请实施例不对通信网络的类型进行限定。
其中,业务分析装置可以是业务分析设备或者是业务分析设备中的处理芯片等功能组件。业务分析设备具体可以是通信网络的网管设备,业务分析设备分别与通信网络中的各个网络设备以及接入该通信网络的服务器连接。业务分析装置在确定第一业务发生异常之后,可以对第一业务进行分析,以确定第一业务发生异常的根因。其中,网管设备可以是一台服务器、或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。第一业务中可以包括多项服务,第一业务发生异常可以是第一业务的不同服务之间的访问出现异常。例如,“APP->登录->商户授权->登录主流程->收支查询”是第一业务,其中的“APP”、“登录”、“商户授权”、“登录主流程”和“收支查询”中的每一项可以是一项服务,第一业务发生异常例如可以是“登录->商户授权”之间的访问发生异常。
其中,网络设备可以是交换机、路由器、虚拟交换机或虚拟路由器等用于业务转发的设备,根据网络设备在通信网络中所处位置的不同,网络设备的角色不同。例如,运营商网络中的网络设备可以包括用户边缘(customer edge,CE)设备、运营商边缘(provideredge,PE)设备以及运营商(provider,P)设备等,CE设备、PE设备以及P设备均可以是交换机、路由器、虚拟交换机或虚拟路由器;再例如,数据中心网络中的网络设备可以包括脊(spine)设备、叶(leaf)设备等,spine设备和leaf设备均可以是交换机、路由器、虚拟交换机或虚拟路由器。其中,提供第一业务的每个服务器可以是一台物理服务器、或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。提供第一业务的服务器中可以部署有提供第一业务的VM,具体由服务器中的VM提供第一业务。应当理解的是,提供第一业务的服务器还可以提供除第一业务之外的业务,例如还可以提供第二业务。也即是,同一台服务器可以同时提供多个不同业务,本申请实施例对此不做限定。
作为本申请的具体示例,请参考图1和图2,图1和图2示出了本申请实施例提供的两种实施环境的示意图。图1和图2所示实施环境提供的通信系统分别包括业务分析装置101、承载第一业务的通信网络,以及提供第一业务的服务器102a~102c。通信网络包括多个网络设备103a~103e。图1和图2以业务分析装置101是业务分析设备为例说明。服务器102a通过网络设备103c接入通信网络,服务器102b通过网络设备103d接入通信网络,服务器102c通过网络设备103e接入通信网络,业务分析装置101分别与网络设备103a~103e连接。
图1所示的通信网络可以是运营商网络,网络设备103c~103e均可以是PE设备,网络设备103a~103b均可以是P设备,服务器102a~102c可以通过CE设备接入相应的PE设备,图1为了简洁未示出CE设备。图2所示的通信网络可以是数据中心网络,网络设备103c~103e均可以是leaf设备,网络设备103a~103b均可以是spine设备。图1和图2仅仅作为本申请实施环境的示例,实际实施过程中,通信网络中还可以包括其他设备,例如,数据中心网络中还包括位于核心层中的核心设备。此外,业务分析装置101还可以与服务器102a~102c连接,并且,业务分析装置101与网络设备103a~103e、服务器102a~102c中的任一设备的连接可以是直接连接(也即是业务分析装置101与该任一设备直连),或者是间接连接(也即是业务分析装置101与该任一设备通过其他设备连接),本申请实施例对此不做限定。
在可能的实现方式中,本申请实施环境提供的所述通信系统还包括业务控制装置。业务控制装置可以是控制设备或者是控制设备中的处理芯片等功能组件。控制设备与通信网络中的网络设备和/或接入该通信网络的服务器连接,且控制设备与业务分析设备连接(例如控制设备与通信网络中的网络设备连接,以通过网络设备与业务分析设备连接)。业务控制装置用于与业务分析装置配合确定第一业务发生异常的根因。控制设备可以是网络控制器,网关、一台服务器、或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
作为本申请的具体示例,请参考图3和图4,其示出了本申请实施例提供的另外两种实施环境的示意图。与图1和图2不同的是,图3和图4所示实施环境提供的通信系统还包括业务控制装置104。图3和图4以业务控制装置104是控制设备为例说明。如图3和图4所示,业务控制装置104与网络设备103e连接,以通过网络设备103e与业务分析装置101连接。本领域技术人员应当明白,图3和图4所示的业务控制装置104与业务分析装置101的连接仅仅是一种示例,并不构成对业务控制装置104与业务分析装置101连接方式的限定,在实际实施过程中,业务控制装置104与业务分析装置101还可以通过其他方式连接,只要保证业务控制装置104与业务分析装置101能够互传信息即可。
本申请实施例为了便于区分控制面设备与转发面设备的连接,以及控制面内设备之间的连接,采用双箭头虚线示出业务分析装置101与网络设备103a~103e之间的连接(控制面设备与转发面设备的连接)以及业务控制装置104与网络设备103e之间的连接(控制面设备与转发面设备的连接),采用实线示出网络设备103a~103e之间的连接(转发面内设备之间的连接)以及网络设备103a~103e与服务器102a~102c之间的连接(转发面内设备之间的连接),图1至图4所示的连接方式仅仅是示例性的,并不构成对本申请技术方案的限定。
以图3或图4所示实施环境为例,业务控制装置104中可以存储有承载第一业务的通信网络的网络拓扑以及与第一业务相关的部署信息(包括但不限于提供第一业务的VM的部署位置和部署网段),并向业务分析装置101提供通信网络的网络拓扑以及与第一业务相关的部署信息。业务分析装置101确定第一业务发生异常之后,根据承载第一业务的通信网络的网络拓扑以及与第一业务相关的部署信息确定与第一业务相关的逻辑拓扑,并获取与第一业务相关的统计信息(包括但不限于属于第一业务的业务流的性能数据),根据与第一业务相关的统计信息以及与第一业务相关的逻辑拓扑确定引发第一业务发生异常的根因网络实体。
可选地,业务控制装置104还用于收集通信网络中的网络设备中产生的异常事件,并向业务分析装置101提供网络设备中产生的异常事件,业务分析装置101确定的与第一业务相关的逻辑拓扑中还可以包括与异常事件相关的内容。其中,业务控制装置104可以周期性地采集通信网络中产生的异常事件。示例地,业务控制装置104采用简单网络管理协议(simple network management protocol,SNMP)或网络遥测(network telemetry)技术采集通信网络中产生的异常事件。当通信网络发生故障时,通信网络中的网络设备也主动向业务控制装置104上报产生的异常事件,本申请实施例对此不做限定。
这里以图3和图4所示实施环境为例说明,对于图1和图2所示实施环境,通信系统中不包括业务控制装置,由业务控制装置执行的相关操作则可以由业务分析装置执行。也即是,在业务分析装置中集成业务控制装置的功能,本申请实施例对此不做限定。
本领域技术人员应当明白,图1至图4所示实施环境仅用于举例,并非用于限制本申请实施例的技术方案,在具体实现过程中,通信系统中的网络设备的数量以及服务器的数量可以灵活配置,且通信系统还可能包括其他设备,本申请实施例对此不做限定。
以上是对本申请实施环境的介绍,下面介绍本申请的方法实施例。
请参考图5,其示出了本申请实施例提供的一种业务异常的根因确定方法的流程图。该方法可以应用于图1至图4任一所示实施环境,且该方法可以由业务分析系统执行。例如对于图1和图2所示实施环境,该业务分析系统可以是业务分析装置,对于图3和图4所示实施环境,该业务分析系统可以包括业务分析装置和业务控制装置。参见图5,该方法包括:
S501.在第一业务发生异常之后,获取与第一业务相关的第一统计信息。
S501可以由业务分析装置或业务控制装置执行,本申请实施例以S501由业务分析装置执行为例说明。业务分析装置可以确定第一业务是否发生异常,在确定第一业务发生异常之后,业务分析装置获取与第一业务相关的第一统计信息。
在可能的实现方式中,业务分析装置基于业务感知确定第一业务是否发生异常;或者,业务分析装置根据接收到的用于指示第一业务发生异常的异常通知消息确定第一业务发生异常;或者,业务分析装置根据接收到的用于对第一业务进行分析的异常分析请求确定第一业务发生异常。其中,异常通知消息、异常分析请求可以是用户的业务系统(或业务设备)向业务分析装置发送的;或者,异常通知消息是用户的业务系统向业务分析装置发送的,异常分析请求是业务控制装置向业务分析装置发送的,其中,用户的业务系统例如可以是应用程序性能监测器(application performance monitor,APM)系统。
在可能的实现方式中,与第一业务相关的第一统计信息包括属于第一业务的n条业务流的统计信息。该n条业务流的统计信息是根据该n条业务流的性能数据确定的,该n条业务流的性能数据可以是与第一业务相关的传输路径上的设备(例如网络设备或服务器)采集并发送给业务分析装置的(为了简洁,下文一些描述中将与第一业务相关的传输路径上的设备称为与第一业务相关的设备)。可选地,业务分析装置获取与第一业务相关的第一统计信息包括:业务分析装置接收与第一业务相关的传输路径上的设备发送的属于第一业务的n条业务流的性能数据,根据该n条业务流的性能数据确定该n条业务流的统计信息。其中,与第一业务相关的设备可以基于二元组、三元组或五元组的粒度进行指标数据采集得到业务流的性能数据,业务分析装置可以基于相同的粒度确定同一条业务流的性能数据,并根据同一条业务流的性能数据确定该同一条业务流的统计信息。其中,二元组可以包括源互联网协议(Internet Protocol,IP)地址和目的IP地址,三元组可以包括源IP地址、目的IP地址和协议号,五元组可以包括源IP地址、目的IP地址、源端口号、目的端口号和协议号。每条业务流的性能数据可以包括:路径类指标数据、会话类指标数据和流量类指标数据中的至少一种,会话类指标数据具体可以是传输控制协议(transmission controlprotocol,TCP)会话类指标数据。
在本申请实施例中,与第一业务相关的设备可以按照上报周期向业务分析装置发送业务流的性能数据,每个上报周期内与第一业务相关的设备向业务分析装置发送的性能数据是该上报周期内采集到的指标数据。与第一业务相关的设备在向业务分析装置发送业务流的性能数据的同时,还可以向业务分析装置发送用于指示该业务流的流指示信息(例如二元组、三元组或五元组等)以及用于指示本设备的设备指示信息。以业务流是TCP流为例,某个上报周期内与第一业务相关的某个设备向业务分析装置发送的数据可以如下表1所示,下表1中的性能数据是同一业务流(例如业务流1)的性能数据,且下表1第三列的内容为向业务分析装置发送的主要内容,第一列、第二列和第四列的内容用于对第三列的内容进行解释或概括,可以不向业务分析装置发送第一列、第二列和第四列的内容。
表1
业务分析装置可以基于与第一业务相关的设备在多个上报周期内发送的同一业务流的如表1所示的性能数据(例如多个上报周期内发送的包含同一五元组的性能数据),确定该业务流的统计信息。对于每条业务流,业务分析装置可以按照此方式确定该业务流的统计信息,从而得到属于第一业务的n条业务流的统计信息。
S502.确定与第一业务相关的第一逻辑拓扑,第一逻辑拓扑包括与第一业务相关的网络实体以及所述网络实体之间的连接关系,第一逻辑拓扑中的网络实体包括服务器、网络设备、接口、VM和进程中的至少一种。
S502可以由业务分析装置或业务控制装置执行,本申请实施例以S502由业务分析装置执行为例说明。业务分析装置确定第一业务发生异常之后,可以获取与第一业务相关的部署信息,根据与第一业务相关的部署信息和承载第一业务的通信网络的网络拓扑,确定与第一业务相关的网络实体以及所述网络实体(也即是与第一业务相关的网络实体)之间的连接关系,根据与第一业务相关的网络实体以及所述网络实体之间的连接关系确定第一逻辑拓扑。其中,与第一业务相关的网络实体包括提供第一业务的网络实体以及传输第一业务的网络实体,提供第一业务的网络实体例如提供第一业务的VM、所述VM所在的服务器和运行第一业务的进程中的至少一种,传输第一业务的网络实体例如第一业务的传输路径上的网络设备和/或所述网络设备的接口等。
在可能的实现方式中,业务分析装置的存储介质中存储有与第一业务相关的部署信息,业务分析装置从该存储介质中获取与第一业务相关的部署信息;或者,业务控制装置存储有与第一业务相关的部署信息,业务分析装置从业务控制装置获取与第一业务相关的部署信息。其中,与第一业务相关的部署信息至少包括与第一业务相关的VM的部署位置和部署网段。与第一业务相关的VM指的是提供第一业务的VM,VM的部署位置例如是VM所在的服务器,VM的部署网段例如是VM的互联网协议(Internet Protocol,IP)网段。在本申请实施例中,第一业务可以包括多项服务,第一业务发生异常可以是第一业务的不同服务之间的访问出现异常。例如,第一业务中包括服务1和服务2,第一业务发生异常可以是服务1访问服务2发生异常,则与第一业务相关的VM可以包括提供服务1的VM和提供服务2的VM。
示例地,与第一业务相关的部署信息可以如下表2所示:
表2
服务名称 | VM部署网段 | VM部署位置 |
服务1 | 10.1.2.0/24 | 服务器1、服务器2 |
服务2 | 10.10.1.0/24 | 服务器3 |
参见表2所示,提供服务1的VM的部署网段为10.1.2.0/24,部署位置包括服务器1和服务器2,提供服务2的VM的部署网段为10.10.1.0/24,部署位置包括服务器3。其中,服务器1可以是图1至图4所示实施环境中的服务器102a,服务器2可以是图1至图4所示实施环境中的服务器102b、服务器3可以是图1至图4所示实施环境中的服务器102c。
在可能的实现方式中,业务分析装置根据与第一业务相关的网络实体以及所述网络实体之间的连接关系确定第一逻辑拓扑包括:业务分析装置根据提供第一业务的网络实体以及承载第一业务的通信网络的网络拓扑,确定提供第一业务的网络实体之间的传输路径,根据提供第一业务的网络实体之间的传输路径得到第一逻辑拓扑。提供第一业务的网络实体之间的传输路径包括传输第一业务的网络实体。其中,第一逻辑拓扑中的网络实体包括服务器、网络设备、接口、VM和进程中的至少一种。第一逻辑拓扑中的VM是与第一业务相关的VM,第一逻辑拓扑中的服务器是与第一业务相关的VM所在的服务器,第一逻辑拓扑中的进程是服务器中运行第一业务的进程,第一逻辑拓扑中的接口是网络设备的接口,第一逻辑拓扑中的网络设备是传输第一业务的网络设备。可选地,第一逻辑拓扑中的网络实体包括正常网络实体和/或异常网络实体,异常网络实体是产生异常事件的网络实体,正常网络实体是未产生异常事件的网络实体,正常网络实体和异常网络实体可以在第一逻辑拓扑的可视图中区别标识。例如,第一逻辑拓扑中还包括异常事件对应的异常事件实体,异常事件实体与异常网络实体相关(例如异常事件实体与异常网络实体连接),以标识相应的异常网络实体。其中,异常事件例如但不限于告警日志或异常KPI中的至少一种,异常事件可以是发生异常的设备向业务分析装置上报的,也可以是业务分析装置或业务控制装置主动收集的,本申请实施例对此不作限定。
作为一种示例,请参考图6,其示出了本申请实施例提供的一种第一逻辑拓扑的示意图。第一逻辑拓扑中的网络实体包括:网络设备1~3(网络设备1~3可以是图1至图4所示实施环境中的三个网络设备)、接口1~10、服务器1~3(服务器1~3可以是图1至图4所示实施环境中的服务器102a~102c,这里为了简洁描述为服务器1~3)、VM11~13以及VM21~23,第一逻辑拓扑中的异常事件实体包括异常1和异常2。在图6所示的第一逻辑拓扑中,网络实体之间的箭头线表示归属关系,网络实体与异常事件实体之间的箭头线表示产生关系,网络实体之间未携带箭头的线条表示连接关系。例如,接口1与网络设备1之间的箭头线表示接口1属于网络设备1(也即是接口1是网络设备1的接口),VM11与服务器1之间的箭头线表示VM11属于服务器1(也即是VM11部署在服务器1中),接口8与异常1之间的箭头线表示接口8产生异常事件,接口4与接口9之间的线条表示接口4与接口9连接。图6所示的第一逻辑拓扑表达的含义是:网络设备1包括接口1、接口2、接口3和接口4,网络设备2包括接口5、接口6、接口7和接口8,网络设备3包括接口9和接口10,VM11和VM21部署在服务器1中,VM12和VM22部署在服务器2中,VM13和VM23部署在服务器3中,网络设备1的接口2与服务器1连接,网络设备1的接口4与网络设备3的接口9连接,网络设备2的接口5与服务器2连接,网络设备2的接口7与服务器3连接,网络设备2的接口8与网络设备3的接口10连接,接口8和接口10是产生异常事件的异常事件实体,除接口8和接口10之外的网络实体均是正常网络实体。在第一逻辑拓扑中,VM11~13可以是提供第一业务的服务1的VM,VM21~23可以是提供第一业务的服务2的VM。
S503.根据第一统计信息和第一逻辑拓扑,确定引发第一业务发生异常的根因网络实体。
S503可以由业务分析装置或业务控制装置执行,本申请实施例以S503由业务分析装置执行为例说明。其中,第一统计信息包括属于第一业务的n条业务流的统计信息,业务分析装置可以根据所述n条业务流的统计信息和第一逻辑拓扑,确定引发第一业务发生异常的根因网络实体。其中,与第一业务相关的设备向业务分析装置发送属于第一业务的业务流的性能数据的同时,还向业务分析装置发送该业务流的流指示信息(例如二元组、三元组或五元组等),所述n条业务流是业务分析装置基于与第一业务相关的设备发送的流指示信息确定的,按照业务流粒度来分,所述n条业务流中的每条业务流对应一个二元组、三元组或五元组。例如,所述n条业务流是业务分析装置基于与第一业务相关的设备发送的性能数据中携带的五元组确定的;或者,所述n条业务流是业务分析装置基于与第一业务相关的设备发送的性能数据中携带的源IP地址、目的IP地址和端口号(源端口号和/或目的端口号)确定的。运行第一业务的进程通常与端口相关,因此与第一业务相关的设备发送的性能数据中携带的端口号可以关联到运行第一业务的进程,或者说根据与第一业务相关的设备发送的性能数据中携带的端口号可以确定运行第一业务的进程。
作为一种示例,请参考图7,其示出了本申请实施例提供的一种根据第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体的流程图。如图7所示,该方法包括:
S5031.根据属于第一业务的n条业务流的统计信息和第一逻辑拓扑,确定与第一业务相关的第二逻辑拓扑,第二逻辑拓扑包括n个流实体、所述n条业务流在第一逻辑拓扑所经过的网络实体、所述网络实体之间的连接关系以及所述流实体与所述网络实体之间的连接关系,所述n个流实体与所述n条业务流一一对应,所述n个流实体至少包括异常流实体,每个异常流实体对应所述n条业务流中的一条异常业务流。
可选地,第二逻辑拓扑中的n个流实体包括异常流实体和正常流实体,每个异常流实体对应所述n条业务流中的一条异常业务流,每个正常流实体对应所述n条业务流中的一条正常业务流。正常流实体和异常流实体可以在第二逻辑拓扑对应的可视图中区别标识。例如,第二逻辑拓扑还包括状态实体,且状态实体具体包括正常状态实体和异常状态实体,在第二逻辑拓扑中,正常状态实体与正常流实体相关(例如正常状态实体与正常流实体连接)以标识相应的流实体是正常流实体,异常状态实体与异常流实体相关(例如异常状态实体与异常流实体连接),以标识相应的流实体是异常流实体。
在可能的实现方式中,业务分析装置根据属于第一业务的所述n条业务流的统计信息,从所述n条业务流中确定正常业务流和异常业务流;以及,业务分析装置根据属于第一业务的每条业务流的统计信息确定该业务流在第一逻辑拓扑所经过的网络实体(也即是第一逻辑拓扑中位于该业务流的传输路径上的网络实体);之后,业务分析装置根据所述n条业务流中的正常业务流、异常业务流以及所述n条业务流在第一逻辑拓扑所经过的网络实体,确定与第一业务相关的第二逻辑拓扑。其中,每条业务流的统计信息可以包括该业务流所经过的网络设备的指示信息以及该业务流在该网络设备上所经过的接口的指示信息,业务分析装置根据每条业务流所经过的网络设备的指示信息以及该业务流在该网络设备上所经过的接口的指示信息,确定该业务流在第一逻辑拓扑所经过的网络实体。
在一个具体实施例中,业务分析装置根据所述n条业务流中的正常业务流、异常业务流以及所述n条业务流在第一逻辑拓扑所经过的网络实体,确定与第一业务相关的第二逻辑拓扑,包括:业务分析装置根据所述n条业务流获取n个流实体(例如在第一逻辑拓扑中构建n个流实体),所述n个流实体包括异常流实体和正常流实体,并且业务分析装置根据所述n条业务流中的正常业务流和异常业务流获取正常状态实体和异常状态实体(例如在第一逻辑拓扑中构建正常状态实体和异常状态实体),业务分析装置将正常状态实体与所述n个流实体中的正常流实体分别连接,将异常状态实体与所述n个流实体中的异常流实体分别连接;之后,业务分析装置确定每条业务流对应的VM,将对应于每条业务流的流实体与第一逻辑拓扑中相应的VM(网络实体)连接得到第一初始拓扑(第一初始拓扑包括所述n个流实体、状态实体以及第一逻辑拓扑的完整结构);业务分析装置得到第一初始拓扑之后,将第一初始拓扑中所述n条业务流未经过的网络实体以及所述n条业务流未经过的网络实体与其他网络实体的连接关系删除,得到与第一业务相关的第二逻辑拓扑。
在另一个具体实施例中,业务分析装置根据所述n条业务流中的正常业务流、异常业务流以及所述n条业务流在第一逻辑拓扑所经过的网络实体,确定与第一业务相关的第二逻辑拓扑,包括:业务分析装置根据所述n条业务流在第一逻辑拓扑所经过的网络实体,将第一逻辑拓扑中所述n条业务流未经过的网络实体以及所述n条业务流未经过的网络实体与其他网络实体的连接关系删除,得到第二初始拓扑(第二初始拓扑包括所述n条业务流在第一逻辑拓扑所经过的网络实体以及所述网络实体之间的连接关系);之后,业务分析装置根据所述n条业务流获取n个流实体(例如在第二初始拓扑中构建n个流实体),所述n个流实体包括异常流实体和正常流实体,并且业务分析装置根据所述n条业务流中的正常业务流和异常业务流获取正常状态实体和异常状态实体(例如在第二初始拓扑中构建正常状态实体和异常状态实体),业务分析装置将正常状态实体与所述n个流实体中的正常流实体分别连接,将异常状态实体与所述n个流实体中的异常流实体分别连接;之后,业务分析装置确定每条业务流对应的VM,将对应于每条业务流的流实体与第二初始拓扑中相应的VM(网络实体)连接,得到与第一业务相关的第二逻辑拓扑。
在再一个具体实施例中,业务分析装置根据所述n条业务流中的正常业务流、异常业务流以及所述n条业务流在第一逻辑拓扑所经过的网络实体,确定与第一业务相关的第二逻辑拓扑,包括:业务分析装置根据所述n条业务流在第一逻辑拓扑所经过的网络实体以及所述网络实体(也即是所述n条业务流在第一逻辑拓扑所经过的网络实体)在第一逻辑拓扑中的连接关系,构建第三初始拓扑(第三初始拓扑包括所述n条业务流在第一逻辑拓扑所经过的网络实体以及所述网络实体之间的连接关系);之后,业务分析装置根据所述n条业务流获取n个流实体(例如在第三初始拓扑中构建n个流实体),所述n个流实体包括异常流实体和正常流实体,并且业务分析装置根据所述n条业务流中的正常业务流和异常业务流获取正常状态实体和异常状态实体(例如在第三初始拓扑中构建正常状态实体和异常状态实体),业务分析装置将第三初始拓扑中的正常状态实体与所述n个流实体中的正常流实体分别连接,将第三初始拓扑中的异常状态实体与所述n个流实体中的异常流实体分别连接;之后,业务分析装置在第三初始拓扑中确定所述n条业务流中的每条业务流对应的VM,将对应于每条业务流的流实体与第三初始拓扑中相应的VM(网络实体)连接,得到与第一业务相关的第二逻辑拓扑。
其中,所述n条业务流中的每条业务流从一个VM(例如源端VM)向另一个VM(例如目的端VM)传输,每条业务流对应的VM包括源端VM和目的端VM中的至少一个。例如某条业务流是服务1访问服务2的一条业务流,则该条业务流对应的VM包括提供服务1的VM和提供服务2的VM中的至少一个。
在可能的实现方式中,业务分析装置根据所述n条业务流中的每条业务流的统计信息,采用基于机器学习的无监督学习算法或有监督学习算法对该业务流进行异常检测,以确定该业务流是正常业务流或异常业务流。业务分析装置对所述n条业务流分别进行异常检测之后,即可从所述n条业务流中确定出正常业务流和异常业务流。作为一种示例,无监督学习算法是变分编码器(variational auto-encoder,VAE)算法,有监督学习算法是梯度增强决策树(gradient boost decision tree,GBDT)算法。
在可能的实现方式中,第二逻辑拓扑中的网络实体包括产生异常事件的异常网络实体和未产生异常事件的正常网络实体,并且,第二逻辑拓扑还包括异常事件对应的异常事件实体,异常事件实体与产生异常事件的异常网络实体相关(例如异常事件实体与产生异常事件的异常网络实体连接),本申请实施例对此不作限定。
作为一种示例,请参考图8,其示出了本申请实施例提供的一种第二逻辑拓扑的示意图。第二逻辑拓扑中的网络实体包括网络设备1~3(网络设备1~3可以是图1至图4所示实施环境中的三个网络设备)、接口2、接口4~5、接口7~10、服务器1~3(服务器1~3可以是图1至图4所示实施环境中的服务器102a~102c)、VM11~13以及VM21~23,第二逻辑拓扑中的异常事件实体包括异常1和异常2,第二逻辑拓扑中的流实体包括业务流1~n,第二逻辑拓扑中的状态实体包括正常状态和异常状态。如图8所示。业务流1(指的是流实体)分别与VM11和VM22连接,表示业务流1(指的是实际的业务流)是VM11和VM22之间传输的业务流;比如,业务流1是VM11提供的服务1访问VM22提供的服务2的业务流,业务流1经过的网络实体包括:VM11、服务器1、接口2、网络设备1、接口4、接口9、网络设备3、接口10、接口8、网络设备2、接口5、服务器2以及VM22;其他流实体与VM的连接关系及其含义,以及其他流实体对应的业务流所经过的网络实体以此类推,这里不再赘述。如图8所示,正常状态(也即是正常状态实体)分别与业务流1(指的是流实体)和业务流4(指的是流实体)连接,表示业务流1(指的是实际的业务流)和业务流4(指的是实际的业务流)是正常业务流;异常状态(也即是异常状态实体)分别与业务流2(指的是流实体)、业务流3(指的是流实体)和业务流n(指的是流实体)连接,表示业务流2(指的是实际的业务流)、业务流3(指的是实际的业务流)和业务流n(指的是实际的业务流)是异常业务流。
S5032.根据第二逻辑拓扑,确定引发第一业务发生异常的根因网络实体。
在可能的实现方式中,业务分析装置采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体。其中,所述基于图的推理算法例如是PersonalRank算法,业务分析装置可以从每个状态实体开始,采用随机游走的方式确定第二逻辑拓扑中的网络实体与该状态实体的相关度。
在本申请实施例中,第二逻辑拓扑中的状态实体可以包括正常状态实体和异常状态实体,业务分析装置可以采用基于图的推理算法确定第二逻辑拓扑中的异常状态实体与第二逻辑拓扑中的网络实体的相关度,以及,采用基于图的推理算法确定第二逻辑拓扑中的正常状态实体与第二逻辑拓扑中的网络实体的相关度,根据异常状态实体与网络实体的相关度以及正常状态实体与网络实体的相关度,确定引发第一业务发生异常的根因网络实体。具体的实施例中,业务分析装置将第一相关度对应的网络实体确定为引发第一业务发生异常的根因网络实体。其中,第一相关度为第二逻辑拓扑中的异常状态实体与第二逻辑拓扑中的网络实体的相关度中的最大相关度。或者,第一相关度为第二逻辑拓扑中的异常状态实体与第二逻辑拓扑中的网络实体的相关度中的一个相关度,第一相关度大于第一阈值,第一相关度对应的网络实体与正常状态实体的相关度小于第二阈值,第二阈值小于或等于第一阈值。
第二逻辑拓扑包括多个网络实体,业务分析装置可以确定异常状态实体与每个网络实体的相关度(为了便于区分,将异常状态实体与网络实体的相关度称为异常相关度),得到异常状态实体与多个网络实体的多个异常相关度,多个异常相关度与多个网络实体一一对应,其中,每个异常相关度是异常状态实体与一个网络实体的相关度,每个异常相关度对应的网络实体是该一个网络实体本身。同理,业务分析装置可以确定正常状态实体与每个网络实体的相关度(为了便于区分,将正常状态实体与网络实体的相关度称为正常相关度),得到正常状态实体与多个网络实体的多个正常相关度,多个正常相关度与多个网络实体一一对应,其中,每个正常相关度是正常状态实体与一个网络实体的相关度,每个正常相关度对应的网络实体是该一个网络实体本身。在可能的实现方式中,业务分析装置将多个异常相关度按照从大到小的顺序排序得到异常相关度序列,以及,将多个正常相关度按照从大到小的顺序排序得到正常相关度序列;之后,业务分析装置从异常相关度序列中确定最大异常相关度(也即是多个异常相关度中的最大值),并从正常相关度序列中确定最大正常相关度(也即是多个正常相关度中的最大值)。业务分析装置判断最大异常相关度对应的网络实体与最大正常相关度对应的网络实体是否为同一个网络实体。如果最大异常相关度对应的网络实体与最大正常相关度对应的网络实体不是同一个网络实体,业务分析装置将最大异常相关度确定为第一相关度,并将最大异常相关度对应的网络实体(也即是第一相关度对应的网络实体)确定为引发第一业务发生异常的根因网络实体。如果最大异常相关度对应的网络实体与最大正常相关度对应的网络实体是同一个网络实体,业务分析装置按照异常相关度序列中的排序顺序从异常相关度序列中确定第一相关度,使得第一相关度大于第一阈值,且第一相关度对应的网络实体(例如网络实体A)与正常状态实体的相关度小于第二阈值,如此可以保证第一相关度是异常相关度序列中较大的相关度,且保证第一相关度对应的网络实体(例如网络实体A)与正常状态实体的相关度较小,业务分析装置确定出第一相关度之后,将第一相关度对应的网络实体确定为引发第一业务发生异常的根因网络实体。
其中,第一阈值和第二阈值可以根据实际情况设置。例如,第一阈值和第二阈值可以根据网络实体引发业务异常的概率确定。第一阈值和第二阈值用于限定第一相关度是多个异常相关度中的较大相关度,且第一相关度对应的网络实体与正常状态实体的相关度较小。
作为一种示例,请参考图8,业务分析装置分别确定异常状态(也即是异常状态实体)与网络设备1~3、接口2、接口4~5、接口7~10、服务器1~3、VM11~13以及VM21~23中的每个网络实体的异常相关度,得到19个异常相关度,以及,分别确定正常状态(也即是正常状态实体)与网络设备1~3、接口2、接口4~5、接口7~10、服务器1~3、VM11~13以及VM21~23中的每个网络实体的正常相关度,得到19个正常相关度。之后,业务分析装置将19个异常相关度按照从大到小的顺序排序得到异常相关度序列,以及,将19个正常相关度按照从大到小的顺序排序得到正常相关度序列。业务分析装置从异常相关度序列中确定最大异常相关度,并从正常相关度序列中确定最大正常相关度。在一种可能的实现方式中,假设最大异常相关度对应的网络实体是接口8,最大正常相关度对应的网络实体是接口10,由于最大异常相关度对应的网络实体与最大正常相关度对应的网络实体不是同一个网络实体,因此业务分析装置将最大异常相关度确定为第一相关度,并将接口8(最大异常相关度对应的网络实体)确定为引发第一业务发生异常(例如服务1访问服务2发生异常)的根因网络实体。在另一种可能的实现方式中,假设最大异常相关度对应的网络实体和最大正常相关度对应的网络实体均是接口10,由于最大异常相关度对应的网络实体与最大正常相关度对应的网络实体是同一个网络实体,因此业务分析装置从异常相关度序列中确定小于第一阈值的至少一个异常相关度,将该至少一个异常相关度对应的至少一个网络实体中,与正常状态实体的相关度小于第二阈值的网络实体(例如接口8),确定为引发第一业务发生异常(例如服务1访问服务2发生异常)的根因网络实体。
S5032的前述描述以业务分析装置确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的每个网络实体的相关度为例说明。在可能实现方式中,第二逻辑拓扑中的网络实体包括产生异常事件的异常网络实体,业务分析装置采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度,根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度,确定引发第一业务发生异常的根因网络实体,如此可以减少确定根因网络实体的计算量,简化确定根因网络实体的过程。
具体的实施例中,业务分析装置采用基于图的推理算法确定第二逻辑拓扑中的异常状态实体与第二逻辑拓扑中的异常网络实体的异常相关度,以及,确定第二逻辑拓扑中的正常状态实体与第二逻辑拓扑中的异常网络实体的正常相关度,根据异常状态实体与异常网络实体的异常相关度以及正常状态实体与正常网络实体的正常相关度,确定引发第一业务发生异常的根因网络实体。继续以图8为例说明,第二逻辑拓扑中的异常网络实体包括接口8和接口10,业务分析系统可以确定异常状态(也即是异常状态实体)与接口8的异常相关度、异常状态(也即是异常状态实体)与接口10的异常相关度、正常状态(也即是正常状态实体)与接口8的正常相关度,以及,正常状态(也即是正常状态实体)与接口10的正常相关度,根据这四个相关度从接口8和接口10中确定引发第一业务发生异常的根因网络实体。可见,确定状态实体与异常网络实体的相关度有助于简化确定根因网络实体的过程。
前述实施例以第二逻辑拓扑中包括状态实体为例说明。在一些实施例中,第二逻辑拓扑中可以不包括状态实体,业务分析装置通过确定第二逻辑拓扑中的流实体与网络实体的相关度也可以确定出引发第一业务发生异常的根因网络实体,本申请实施例在此不再赘述。
综上所述,本申请实施例提供的业务异常的根因确定方法,业务分析系统在第一业务发生异常之后,获取与第一业务相关的第一统计信息并确定与第一业务相关的第一逻辑拓扑,根据第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体,也即是,确定第一业务发生异常的根因。本申请实施例提供的技术方案,通过由业务分析系统根据与业务相关的统计信息以及与业务相关的逻辑拓扑确定业务发生异常的根因,有助于满足确定业务异常的根因的时效性,提高确定业务异常的根因的效率。
本申请实施例提供的技术方案,在确定引发第一业务发生异常的根因网络实体时,采用的第一统计信息包括属于第一业务的n条业务流的性能数据,这n条业务流的性能数据是真实业务流的相关数据,因此根据第一统计信息确定出的根因网络实体的准确性较高。
如前所述,在本申请实施例中,属于第一业务的n条业务流的统计信息是根据与第一业务相关的传输路径上的设备发送的属于第一业务的业务流的性能数据确定的,因此在S501之前,该方法还包括下述S504至S505。
S504.在承载第一业务的通信网络中确定与第一业务相关的传输路径。
S504可以由业务分析装置或业务控制装置执行,本申请实施例以S504由业务分析装置执行为例说明。业务分析装置可以获取与第一业务相关的部署信息,根据与第一业务相关的部署信息和承载第一业务的通信网络(例如数据中心网络)的网络拓扑,在承载第一业务的通信网络中确定与第一业务相关的传输路径。
与第一业务相关的部署信息包括与第一业务相关的VM的部署位置和部署网段,业务分析装置确定与第一业务相关的VM的部署位置和部署网段之后,即可确定提供第一业务的服务器(也即与第一业务相关的VM所在的服务器)。业务分析装置可以根据提供第一业务的服务器结合承载第一业务的通信网络的网络拓扑,采用路径计算方法,在通信网络中确定所有可能用于传输第一业务的传输路径,将这些传输路径均确定为与第一业务相关的传输路径。
例如,第一业务中包括服务1和服务2,第一业务发生异常可以是服务1访问服务2发生异常,业务分析装置根据提供服务1的VM的部署位置和部署网段、提供服务2的VM的部署位置和部署网段以及承载第一业务的通信网络的网络拓扑,在承载第一业务的通信网络中计算服务1访问服务2的所有可能的访问路径,将这些访问路径均确定为与第一业务相关的传输路径。
S505.向与第一业务相关的传输路径上的设备发送检测任务,以指示接收到检测任务的设备采集属于第一业务的业务流的性能数据。
S505可以由业务分析装置或业务控制装置执行,本申请实施例以S505由业务分析装置执行为例说明。业务分析装置可以是承载第一业务的通信网络的网管设备,业务分析装置可以通过边界网关协议(border gateway protocol,BGP)、网络配置协议(networkconfiguration protocol,NETCONF)或其他用于网管设备与网络设备交互的私有协议向与第一业务相关的传输路径上的设备发送检测任务。其中,检测任务中可以包括与第一业务相关的指示信息以指示接收到检测任务的设备采集属于第一业务的业务流的性能数据。
作为一种示例,第一业务中包括服务1和服务2,第一业务发生异常是服务1访问服务2发生异常,检测任务中携带的与第一业务相关的指示信息可以包括:提供服务1的VM的部署网段(例如称为源IP网段)和提供服务2的VM的部署网段(例如称为目的IP网段),可选地,与第一业务相关的指示信息还包括目的端口号,目的IP网段和目的端口号用于确定服务2。在一个具体的示例中,业务分析装置向与第一业务相关的传输路径上的某个设备(例如图1至图4中的网络设备103a)发送的检测任务的内容如下表3所示:
表3
源IP网段 | 目的IP网段 | 目的端口号 |
10.1.2.0/24 | 10.10.1.0/24 | 6543 |
对应于业务分析装置向与第一业务相关的传输路径上的设备(简称为与第一业务相关的设备)发送检测任务,与第一业务相关的设备可以接收检测任务。接收到检测任务的每个设备可以根据检测任务采集属于第一业务的业务流的性能数据。具体的实施例中,接收到检测任务的每个设备根据接收到的检测任务中携带的与第一业务相关的指示信息采集属于第一业务的业务流的性能数据。
例如,网络设备103a接收到如表3所示的检测任务之后,根据检测任务启动监测功能以对接收到的报文进行监测,当网络设备103a监测到接收到的某个报文命中如表3所示的检测任务时(例如某个报文中携带的源IP地址属于10.1.2.0/24,目的IP地址属于10.10.1.0/24,目的端口号为6543,则该报文命中如表3所示的检测任务),网络设备103a对该报文进行指标统计以采集属于第一业务的业务流的性能数据。
在可能的实现方式中,在S503之后,该方法还包括S506和/或S507。
S506.在第一逻辑拓扑对应的可视图中标识出引发第一业务发生异常的根因网络实体。
S506可以由业务分析装置或业务控制装置执行,本申请实施例以S506由业务分析装置执行为例说明。业务分析装置可以在第一逻辑拓扑对应的可视图中,采用特殊标记、特殊图形、特殊颜色或特殊充填图案等对引发第一业务发生异常的根因网络实体进行标识,使得根因网络实体区别于第一逻辑拓扑中的其他网络实体,从而在第一逻辑拓扑对应的可视图中标识出所述根因网络实体。其中,第一逻辑拓扑对应的可视图可以是显示有第一逻辑拓扑的可视化界面图,例如第一逻辑拓扑对应的可视图是显示有第一逻辑拓扑的UI界面图。
作为一种示例,请参考图9,其示出了本申请实施例提供的一种第一逻辑拓扑对应的可视图100的示意图。第一逻辑拓扑对应的可视图100可以是UI界面图,在第一逻辑拓扑对应的可视图100中,接口8以不同于其他网络实体的充填图案(斜杠充填图案)标识,表示接口8是引发第一业务发生异常的根因网络实体。
S507.发送指示所述根因网络实体的指示信息。
S507可以由业务分析装置或业务控制装置执行,本申请实施例以S507由业务分析装置执行为例说明。业务分析装置可以向显示装置发送指示所述根因网络实体的指示信息,使得显示装置显示所述指示信息;或者,业务分析装置可以向告警装置发送指示所述根因网络实体的指示信息,使得所述告警装置根据所述指示信息发出告警。其中,所述显示装置和/或所述告警装置可以与业务分析装置集成在同一设备中,或者,所述显示装置和/或所述告警装置与业务分析装置部署在不同的设备中,本申请实施例对此不作限定。
在可能的实现方式中,在S503之后,该方法还包括S508。
S508.在第一逻辑拓扑对应的可视图中标识出与所述根因网络实体关联的目标路径,其中,目标路径用于第一业务的传输。
S508可以由业务分析装置或业务控制装置执行,本申请实施例以S508由业务分析装置执行为例说明。业务分析装置可以在第一逻辑拓扑对应的可视图中,采用特殊标记、特殊图形、特殊颜色或特殊充填图案等标识出目标路径上的各个网络实体,从而在第一逻辑拓扑对应的可视图中标识出目标路径。或者,业务分析装置根据位于目标路径上的各个网络实体在第一逻辑拓扑中的分布,在第一逻辑拓扑对应的可视图中绘制出目标路径,从而在第一逻辑拓扑对应的可视图中标识出目标路径,本申请实施例对此不作限定。
作为一种示例,请继续参考图9,第一逻辑拓扑对应的可视图100中还标识有目标路径。目标路径所经过的网络实体依次为:服务器1、接口2、网络设备1、接口4、接口9、网络设备3、接口10、接口8、网络设备2、接口5以及服务器2。
本申请实施例以业务分析装置在第一逻辑拓扑对应的可视图中标识出根因网络实体和目标路径为例说明,业务分析装置还可以在第二逻辑拓扑对应的可视图中标识出根因网络实体和目标路径。第二逻辑拓扑对应的可视图可以如图10所示。第二逻辑拓扑对应的可视图200可以是UI界面图,在第二逻辑拓扑对应的可视图200中,接口8以不同于其他网络实体的充填图案(斜杠充填图案)标识,表示接口8是引发第一业务发生异常的根因网络实体,并且第二逻辑拓扑对应的可视图200中标识有目标路径。
图9和图10以目标路径的数量是一条为例说明,在一些实施例中,目标路径的数量可以是多条,业务分析装置可以在第一逻辑拓扑对应的可视图或第二逻辑拓扑对应的可视图中,标识出该多条目标路径。此外,图9和图10标识根因网络实体和目标路径的方式仅仅是一种示例,在其他实施例中,业务分析装置还可以采用其他方式标识根因网络实体和目标路径,本申请实施例不对根因网络实体和目标路径的标识方式进行限定。
本申请实施例提供的技术方案,通过在第一逻辑拓扑对应的可视图或第二逻辑拓扑对应的可视图中标识出引发第一业务发生异常的根因网络实体,和/或,标识出与所述根因网络实体关联的目标路径,可以将所述根因网络实体和/或目标路径直观的展示出来,便于用户直观了解引发第一业务发生异常的根因网络实体,和/或,与所述根因网络实体关联的目标路径。
请参考图11,其示出了本申请实施例提供的另一种业务异常的根因确定方法的流程图。该方法可以应用于图3或图4所示实施环境中。参见图11,该方法包括:
S1101.业务控制装置在接收到用于指示第一业务发生异常的异常通知消息之后,在承载第一业务的通信网络中确定与第一业务相关的传输路径。
用户的业务系统(或业务设备)在感知到第一业务发生异常时,可以向业务控制装置发送异常通知消息,以指示第一业务发生异常。可选地,异常通知消息中携带第一业务的指示信息,以指示第一业务发生异常。其中,用户的业务系统例如是APM系统。
作为一种示例,第一业务中包括服务1和服务2,第一业务发生异常是服务1访问服务2发生异常,则异常通知消息的内容可以是“服务1访问服务2发生异常”,该异常通知消息中的服务1和服务2均是第一业务的指示信息。
业务控制装置接收到异常通知消息之后,可以在承载第一业务的通信网络中确定与第一业务相关的传输路径。业务控制装置确定与第一业务相关的传输路径的实现过程可以参考S504中业务分析装置确定与第一业务相关的传输路径的实现过程,这里不再赘述。
S1102.业务控制装置向与第一业务相关的传输路径上的设备发送检测任务,以指示与第一业务相关的传输路径上的设备采集属于第一业务的业务流的性能数据。
S1102的实现过程可以参考S505的实现过程,这里不再赘述。
S1103.业务控制装置在接收到用于指示第一业务发生异常的异常通知消息之后,向业务分析装置发送异常分析请求,异常分析请求中携带第一业务的指示信息。
业务控制装置在接收到用于指示第一业务发生异常的异常通知消息之后,可以生成异常分析请求,并向业务分析装置发送异常分析请求,该异常分析请求中携带第一业务的指示信息,以指示业务分析装置对第一业务进行异常分析。
作为一种示例,异常分析请求携带的信息包括“请分析服务1访问服务2发生异常的原因”,该异常分析请求中的服务1和服务2均是第一业务的指示信息。
S1104.与第一业务相关的传输路径上的设备根据检测任务采集属于第一业务的业务流的性能数据。
S1104的实现过程可以参考S505的实现过程,这里不再赘述。
S1105.与第一业务相关的传输路径上的设备向业务分析装置发送属于第一业务的业务流的性能数据。
与第一业务相关的传输路径上的设备采集到属于第一业务的业务流的性能数据之后,可以向业务分析装置发送属于第一业务的业务流的性能数据。
在可能的实现方式中,与第一业务相关的传输路径上的设备可以按照上报周期向业务分析装置发送业务流的性能数据,每个设备在每个上报周期内与向业务分析装置发送的性能数据是该上报周期内采集到的属于第一业务的业务流的性能数据。
在可能的实现方式中,与第一业务相关的传输路径上的设备在向业务分析装置发送业务流的性能数据的同时,还可以向业务分析装置发送用于指示该业务流的流指示信息(例如二元组、三元组或五元组等)以及用于指示本设备的设备指示信息。
示例地,某个上报周期内与第一业务相关的传输路径上的某个设备向业务分析装置发送的数据如表1所示,关于数据的具体内容和含义请参考S501中的相关描述。
S1106.业务分析装置接收与第一业务相关的传输路径上的设备发送的属于第一业务的业务流的性能数据。
对应于与第一业务相关的传输路径上的设备向业务分析装置发送属于第一业务的业务流的性能数据,业务分析装置接收与第一业务相关的传输路径上的设备发送的属于第一业务的业务流的性能数据。例如,业务分析装置接收如表1所示的数据。
S1107.业务分析装置在接收到异常分析请求之后,获取与第一业务相关的第一统计信息,第一统计信息包括属于第一业务的n条业务流的统计信息,属于第一业务的n条业务流的统计信息根据属于第一业务的业务流的性能数据确定。
业务分析装置在接收到异常分析请求之后,可以获取与第一业务相关的第一统计信息,业务分析装置获取第一统计信息的实现过程可以参考S501中的相关描述,这里不再赘述。
S1108.业务分析装置确定与第一业务相关的第一逻辑拓扑,第一逻辑拓扑包括与第一业务相关的网络实体以及所述网络实体之间的连接关系。
在一种可能实现方式,业务控制装置存储有与第一业务相关的部署信息和/或承载第一业务的通信网络的网络拓扑。业务控制装置在接收到异常通知消息之后,确定与第一业务相关的部署信息和/或承载第一业务的通信网络的网络拓扑,并向业务分析装置发送与第一业务相关的部署信息和/或承载第一业务的通信网络的网络拓扑。业务分析装置接收到业务控制装置发送的与第一业务相关的部署信息和/或承载第一业务的通信网络的网络拓扑之后,根据与第一业务相关的部署信息和承载第一业务的通信网络的网络拓扑,确定与第一业务相关的网络实体以及所述网络实体之间的连接关系,根据与第一业务相关的网络实体以及所述网络实体之间的连接关系确定第一逻辑拓扑。
另一种可能实现方式,业务分析装置的存储介质中存储有与第一业务相关的部署信息。业务分析装置在接收到异常分析请求之后,从该存储介质中获取与第一业务相关的部署信息和承载第一业务的通信网络的网络拓扑,根据与第一业务相关的部署信息和承载第一业务的通信网络的网络拓扑,确定与第一业务相关的网络实体以及所述网络实体之间的连接关系,根据与第一业务相关的网络实体以及所述网络实体之间的连接关系确定第一逻辑拓扑。
业务分析装置确定第一逻辑拓扑的实现过程可以参考S502,这里不再赘述。
S1109.业务分析装置根据第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体。
S1109的实现过程可以参考S503的实现过程,这里不再赘述。
S1110.业务分析装置在第一逻辑拓扑对应的可视图中标识出引发第一业务发生异常的根因网络实体。
S1110的实现过程可以参考S506的实现过程,这里不再赘述。
S1111.业务分析装置在第一逻辑拓扑对应的可视图中标识出与所述根因网络实体关联的目标路径。
其中,目标路径用于第一业务的传输。
S1111的实现过程可以参考S508的实现过程,这里不再赘述。
综上所述,本申请实施例提供的业务异常的根因确定方法,业务控制装置在接收到用于指示第一业务发生异常的异常通知消息之后,向业务分析装置发送异常分析请求,业务分析装置在接收到异常分析请求之后,获取与第一业务相关的第一统计信息,并确定与第一业务相关的第一逻辑拓扑,根据第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体,也即是,确定第一业务发生异常的根因。本申请实施例提供的技术方案,通过由业务分析装置根据与业务相关的统计信息以及与业务相关的逻辑拓扑确定业务发生异常的根因,有助于满足确定业务异常的根因的时效性,提高确定业务异常的根因的效率。
以上是对本申请方法实施例的介绍,下面介绍本申请的装置以及系统实施例,本申请的装置和/或系统可以用于执行本申请的方法。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图12,其示出了本申请实施例提供的一种业务分析系统1200的结构示意图。参见图12,业务分析系统1200包括但不限于:
获取模块1210,用于在第一业务发生异常之后,获取与第一业务相关的第一统计信息。获取模块1210的功能实现请参考前述S501或S1107中的相关描述。
第一确定模块1220,用于确定与第一业务相关的第一逻辑拓扑,第一逻辑拓扑包括与第一业务相关的网络实体以及所述网络实体之间的连接关系,第一逻辑拓扑中的网络实体包括服务器、网络设备、接口、VM和进程中的至少一种。第一确定模块1220的功能实现请参考前述S502或S1108中的相关描述。
第二确定模块1230,用于根据第一统计信息和第一逻辑拓扑,确定引发第一业务发生异常的根因网络实体。第二确定模块1230功能实现请参考前述S503或S1109中的相关描述。
可选地,第一统计信息包括属于第一业务的n条业务流的统计信息,第二确定模块1230,具体用于:根据所述n条业务流的统计信息和第一逻辑拓扑,确定与第一业务相关的第二逻辑拓扑,第二逻辑拓扑包括n个流实体、所述n条业务流在第一逻辑拓扑所经过的网络实体、所述网络实体之间的连接关系以及所述流实体与所述网络实体之间的连接关系,所述n个流实体与所述n条业务流一一对应,所述n个流实体至少包括异常流实体,每个异常流实体对应所述n条业务流中的一条异常业务流;根据第二逻辑拓扑,确定引发第一业务发生异常的根因网络实体。
可选地,所述n个流实体还包括正常流实体,每个正常流实体对应所述n条业务流中的一条正常业务流。
可选地,第二确定模块1230,具体用于根据所述n条业务流的统计信息,从所述n条业务流中确定正常业务流和异常业务流。
可选地,第二逻辑拓扑中还包括状态实体,所述状态实体包括异常状态实体,异常状态实体与异常流实体相关,根据第二逻辑拓扑,确定引发第一业务发生异常的根因网络实体,包括:采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度;根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
可选地,第二逻辑拓扑中的状态实体还包括正常状态实体,正常状态实体与第二逻辑拓扑中的正常流实体相关。例如,正常状态实体与正常流实体连接。
可选地,采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,包括:采用基于图的推理算法确定异常状态实体与第二逻辑拓扑中的网络实体的相关度,以及,正常状态实体与第二逻辑拓扑中的网络实体的相关度;
根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体,包括:根据异常状态实体与第二逻辑拓扑中的网络实体的相关度,以及,正常状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
可选地,根据异常状态实体与第二逻辑拓扑中的网络实体的相关度,以及,正常状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体,包括:将第一相关度对应的网络实体确定为引发第一业务发生异常的根因网络实体;其中,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的最大相关度;或者,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的一个相关度,第一相关度大于第一阈值,第一相关度对应的网络实体与正常状态实体的相关度小于第二阈值,第二阈值小于或等于第一阈值。
可选地,第二逻辑拓扑中的网络实体包括产生异常事件的异常网络实体,
采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,包括:采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度;
根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体,包括:根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
可选地,第二逻辑拓扑中还包括异常事件对应的异常事件实体,异常事件实体与产生异常事件的异常网络实体相关,例如,异常事件实体与产生异常事件的异常网络实体相关连接。
可选地,异常事件包括告警日志或异常KPI中的至少一种。
可选地,所述n条业务流的统计信息是根据与第一业务相关的传输路径上的设备发送的属于第一业务的业务流的性能数据确定的,请参考图12,业务分析系统1200还包括:
第三确定模块1240,用于在获取与第一业务相关的第一统计信息之前,在承载第一业务的通信网络中确定与第一业务相关的传输路径。第三确定模块1240的功能实现请参考上述S504中的相关描述。
第一发送模块1250,用于向所述传输路径上的设备发送检测任务,以指示所述设备采集属于第一业务的业务流的性能数据。第一发送模块1250的功能实现请参考上述S505中的相关描述。
可选地,业务分析系统1200还包括:第一标识模块1260,用于在第一逻辑拓扑对应的可视图中标识出根因网络实体。第一标识模块1260的功能实现请参考上述S506中的相关描述。或者,第二发送模块1270,用于发送指示根因网络实体的指示信息。第二发送模块1270的功能实现请参考上述S507中的相关描述。
可选地,业务分析系统1200还包括:第二标识模块1280,用于在第一逻辑拓扑对应的可视图中标识出与所述根因网络实体关联的目标路径,目标路径用于第一业务的传输。第二标识模块1280的功能实现请参考上述S508中的相关描述。
综上所述,本申请实施例提供的业务分析系统,业务分析系统在第一业务发生异常之后,获取与第一业务相关的第一统计信息并确定与第一业务相关的第一逻辑拓扑,根据第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体,也即是,确定第一业务发生异常的根因。本申请实施例提供的技术方案,通过由业务分析系统根据与业务相关的统计信息以及与业务相关的逻辑拓扑确定业务发生异常的根因,有助于满足确定业务异常的根因的时效性,提高确定业务异常的根因的效率。
本申请实施例提供的业务分析系统所包括的模块可以位于相同设备(也即是同一设备)或不同设备中,所述业务分析系统还可以采用专用集成电路(application-specificintegrated circuit,ASIC)或可编程逻辑器件(programmable logic device,PLD)实现,上述PLD可以是复杂程序逻辑器件(complex programmable logical device,CPLD),现场可编程门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic arraylogic,GAL)或其任意组合。也可以通过软件实现上述方法实施例提供的业务异常的根因确定方法,当通过软件实现上述方法实施例提供的业务异常的根因确定方法时,业务分析系统中的各个模块也可以为软件模块。
本申请实施例提供了一种业务分析装置,包括存储器和处理器。存储器用于存储计算机程序。处理器用于执行存储器中存储的计算机程序以使得该业务分析装置执行如上述方法实施例提供的业务异常的根因确定方法的全部或部分步骤。
示例地,请参考图13,其示出了本申请实施例提供的一种业务分析装置1300的结构示意图。业务分析装置1300包括处理器1302、存储器1304、通信接口1306和总线1308,处理器1302、存储器1304和通信接口1306通过总线1308彼此通信连接。图13所示的处理器1302、存储器1304和通信接口1306之间的连接方式仅仅是示例性的,处理器1302、存储器1304和通信接口1306也可以采用除了总线1308之外的其他连接方式彼此通信连接。
其中,存储器1304可以用于存储计算机程序13042,计算机程序13042可以包括指令和数据。在本申请实施例中,存储器1304可以是各种类型的存储介质,例如随机存取存储器(random access memory,RAM)、只读存储器(read-only memory,ROM)、非易失性RAM(non-volatile RAM,NVRAM)、可编程ROM(programmable ROM,PROM)、可擦除PROM(erasablePROM,EPROM)、电可擦除PROM(electrically erasable PROM,EEPROM)、闪存、光存储器和寄存器等。
其中,处理器1302可以是通用处理器,通用处理器可以是通过读取并执行存储器(例如存储器1304)中存储的计算机程序(例如计算机程序13042)来执行特定步骤和/或操作的处理器,通用处理器在执行上述步骤和/或操作的过程中可能用到存储在存储器(例如存储器1304)中的计算机程序。该存储的计算机程序例如可以被执行以实现前述获取模块1210、第一确定模块1220、第二确定模块1230、第三确定模块1240、第一标识模块1260以及第二标识模块1280的相关功能。通用处理器可以是,例如但不限于中央处理器(centralprocessing unit,CPU)。此外,处理器1302也可以是专用处理器,专用处理器可以是专门设计的用于执行特定步骤和/或操作的处理器,专用处理器可以是,例如但不限于,数字信号处理器(digital signal processor,DSP)、专用集成电路(application-specificintegrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)等。此外,处理器1302还可以是多个处理器的组合,例如多核处理器。处理器1302可以包括至少一个电路,以执行上述实施例提供的业务异常的根因确定方法的全部或部分步骤。
其中,通信接口1306可以包括输入/输出(input/output,I/O)接口、物理接口和逻辑接口等用于实现业务分析装置1300内部的器件互连的接口,以及用于实现业务分析装置1300与其他设备(例如网络设备、服务器等)互连的接口。物理接口可以是千兆的以太接口(gigabit Ethernet,GE),其可以用于实现业务分析装置1300与其他设备互连,逻辑接口是业务分析装置1300内部的接口,其可以用于实现业务分析装置1300内部的器件互连。通信接口1306可以用于业务分析装置1300与其他设备通信,例如,通信接口1306用于业务分析装置1300与其他设备之间信息的发送和接收,通信接口1306可以实现前述第一发送模块1250及其第二发送模块1270的相关功能。此外,通信接口1306还可以包括收发器以进行信息的收发,该收发器同样可以实现前述第一发送模块1250及其第二发送模块1270的相关功能。
其中,总线1308可以是任何类型的,用于实现处理器1302、存储器1304和通信接口1306互连的通信总线,例如系统总线。
上述器件可以分别设置在彼此独立的芯片上,也可以至少部分的或者全部的设置在同一块芯片上。将各个器件独立设置在不同的芯片上,还是整合设置在一个或者多个芯片上,往往取决于产品设计的需要。本申请实施例对上述器件的具体实现形式不做限定。
图13所示的业务分析装置1300仅仅是示例性的,在实现过程中,业务分析装置1300还可以包括其他组件,本文不再一一列举。图13所示的业务分析装置1300可以通过执行上述实施例提供的业务异常的根因确定方法的全部或部分步骤确定引发业务发生异常的根因网络实体,以确定业务异常的根因。
本申请实施例提供了一种业务分析系统,包括如图13所示的业务分析装置,该业务分析装置通过执行如上述实施例提供的业务异常的根因确定方法的全部或部分步骤确定引发第一业务发生异常的根因网络实体。该业务分析系统还可以包括业务控制装置。
示例地,请参考图14,其示出了本申请实施例提供的另一种业务分析系统1400的结构示意图。参见图14,业务分析系统1400包括业务控制装置1410和业务分析装置1420,业务控制装置1410与业务分析装置1420连接。
业务控制装置1410用于:在接收到用于指示第一业务发生异常的异常通知消息之后,向业务分析装置1420发送异常分析请求,异常分析请求中携带第一业务的指示信息;
业务分析装置1420用于:在接收到异常分析请求之后,获取与第一业务相关的第一统计信息,并确定与第一业务相关的第一逻辑拓扑,根据第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体,第一逻辑拓扑包括与第一业务相关的网络实体以及所述网络实体之间的连接关系,第一逻辑拓扑中的网络实体包括服务器、网络设备、接口、VM和进程中的至少一种。
可选地,第一统计信息包括属于第一业务的n条业务流的统计信息,n为正整数,
业务控制装置1410还用于:在接收到异常通知消息之后,在承载第一业务的通信网络中确定与第一业务相关的传输路径,并向所述传输路径上的设备发送检测任务,以指示所述传输路径上的设备采集属于第一业务的业务流的性能数据;
业务分析装置1420具体用于:接收所述传输路径上的设备发送的属于第一业务的业务流的性能数据,根据所述传输路径上的设备发送的属于第一业务的业务流的性能数据,确定属于第一业务的所述n条业务流的统计信息。
可选地,业务控制装置1410还用于:在接收到异常通知消息之后,确定与第一业务相关的部署信息并向业务分析装置1420发送该部署信息,该部署信息至少包括与第一业务相关的VM的部署位置和部署网段;
业务分析装置1420具体用于:根据该部署信息确定与第一业务相关的网络实体以及所述网络实体之间的连接关系,根据与第一业务相关的网络实体以及所述网络实体之间的连接关系确定第一逻辑拓扑。
可选地,业务分析装置1420具体用于:在接收到异常分析请求之后,确定与第一业务相关的部署信息,根据该部署信息确定与第一业务相关的网络实体以及所述网络实体之间的连接关系,根据与第一业务相关的网络实体以及所述网络实体之间的连接关系确定第一逻辑拓扑。
可选地,第一统计信息包括属于第一业务的n条业务流的统计信息,业务分析装置1420具体用于:根据所述n条业务流的统计信息和第一逻辑拓扑,确定与第一业务相关的第二逻辑拓扑,第二逻辑拓扑包括n个流实体、所述n条业务流在第一逻辑拓扑所经过的网络实体、所述网络实体之间的连接关系以及所述流实体与所述网络实体之间的连接关系,所述n个流实体与所述n条业务流一一对应,所述n个流实体至少包括异常流实体,每个异常流实体对应所述n条业务流中的一条异常业务流;根据第二逻辑拓扑,确定引发第一业务发生异常的根因网络实体。
可选地,所述n个流实体还包括正常流实体,每个正常流实体对应所述n条业务流中的一条正常业务流。
可选地,业务分析装置1420具体用于:根据所述n条业务流的统计信息,从所述n条业务流中确定正常业务流和异常业务流。
可选地,第二逻辑拓扑中还包括状态实体,所述状态实体包括异常状态实体,异常状态实体与异常流实体相关,业务分析装置1420具体用于:采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度;根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
可选地,第二逻辑拓扑中的状态实体还包括正常状态实体,正常状态实体与第二逻辑拓扑中的正常流实体相关。
可选地,业务分析装置1420具体用于:采用基于图的推理算法确定异常状态实体与第二逻辑拓扑中的网络实体的相关度,以及,正常状态实体与第二逻辑拓扑中的网络实体的相关度;根据异常状态实体与第二逻辑拓扑中的网络实体的相关度,以及,正常状态实体与第二逻辑拓扑中的网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
可选地,业务分析装置1420具体用于:将第一相关度对应的网络实体确定为引发第一业务发生异常的根因网络实体;其中,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的最大相关度;或者,第一相关度为异常状态实体与第二逻辑拓扑中的网络实体的相关度中的一个相关度,第一相关度大于第一阈值且第一相关度对应的网络实体与正常状态实体的相关度小于第二阈值,第二阈值小于或等于第一阈值。
可选地,第二逻辑拓扑中的网络实体包括产生异常事件的异常网络实体,业务分析装置1420具体用于:采用基于图的推理算法确定第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度;根据第二逻辑拓扑中的状态实体与第二逻辑拓扑中的异常网络实体的相关度,确定引发第一业务发生异常的根因网络实体。
可选地,第二逻辑拓扑中还包括异常事件对应的异常事件实体,异常事件实体与产生异常事件的异常网络实体相关。
可选地,异常事件包括告警日志或异常KPI中的至少一种。
可选地,业务分析装置1420还用于:在第一逻辑拓扑对应的可视图中标识出根因网络实体;或,发送指示所述根因网络实体的指示信息。
可选地,业务分析装置1420还用于:在第一逻辑拓扑对应的可视图中标识出与根因网络实体关联的目标路径,目标路径用于第一业务的传输。
综上所述,本申请实施例提供的业务分析系统,业务控制装置在接收到用于指示第一业务发生异常的异常通知消息之后,向业务分析装置发送异常分析请求,业务分析装置在接收到异常分析请求之后,获取与第一业务相关的第一统计信息,并确定与第一业务相关的第一逻辑拓扑,根据第一统计信息和第一逻辑拓扑确定引发第一业务发生异常的根因网络实体,也即是,确定第一业务发生异常的根因。本申请实施例提供的技术方案,通过由业务分析装置根据与业务相关的统计信息以及与业务相关的逻辑拓扑确定业务发生异常的根因,有助于满足确定业务异常的根因的时效性,提高确定业务异常的根因的效率。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被执行(例如被业务分析装置、业务控制装置或业务分析系统执行)时,实现如上述方法实施例提供的方法的全部或部分步骤。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括程序或代码,该程序或代码被执行(例如被业务分析装置、业务控制装置或业务分析系统执行)时,实现如上述方法实施例提供的方法的全部或部分步骤。
本申请实施例提供了一种芯片,该芯片包括可编程逻辑电路和/或程序指令,该芯片运行时用于实现如上述方法实施例提供的方法的全部或部分步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机的可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储装置。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质,或者半导体介质(例如固态硬盘)等。
应当理解的是,本申请中的“至少一个”指一个或多个,“多个”指两个或两个以上。“至少两个”指两个或两个以上。本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,为了便于清楚描述,在本申请中,采用了“第一”、“第二”、“第三”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”、“第三”等字样并不对数量和执行次序进行限定。
本申请实施例提供的方法实施例和装置实施例等不同类型的实施例均可以相互参考,本申请实施例对此不做限定。本申请实施例提供的方法实施例操作的先后顺序能够进行适当调整,操作也能够根据情况进行响应增减,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
在本申请提供的相应实施例中,应该理解到,所揭露的装置等可以通过其它的构成方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元描述的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络设备(例如终端设备)上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述,仅为本申请的示例性实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (17)
1.一种业务异常的根因确定方法,其特征在于,所述方法包括:
在第一业务发生异常之后,获取与所述第一业务相关的第一统计信息;
确定与所述第一业务相关的第一逻辑拓扑,所述第一逻辑拓扑包括与所述第一业务相关的网络实体以及所述网络实体之间的连接关系,所述第一逻辑拓扑中的网络实体包括服务器、网络设备、接口、虚拟机VM和进程中的至少一种;
根据所述第一统计信息和所述第一逻辑拓扑,确定引发所述第一业务发生异常的根因网络实体。
2.根据权利要求1所述的方法,其特征在于,所述第一统计信息包括属于所述第一业务的n条业务流的统计信息,所述根据所述第一统计信息和所述第一逻辑拓扑,确定引发所述第一业务发生异常的根因网络实体,包括:
根据所述n条业务流的统计信息和所述第一逻辑拓扑,确定与所述第一业务相关的第二逻辑拓扑,所述第二逻辑拓扑包括n个流实体、所述n条业务流在所述第一逻辑拓扑所经过的网络实体、所述网络实体之间的连接关系以及所述流实体与所述网络实体之间的连接关系,所述n个流实体与所述n条业务流一一对应,所述n个流实体至少包括异常流实体,每个所述异常流实体对应所述n条业务流中的一条异常业务流;
根据所述第二逻辑拓扑,确定引发所述第一业务发生异常的根因网络实体。
3.根据权利要求2所述的方法,其特征在于,所述n个流实体还包括正常流实体,每个所述正常流实体对应所述n条业务流中的一条正常业务流。
4.根据权利要求2或3所述的方法,其特征在于,所述第二逻辑拓扑还包括状态实体,所述状态实体包括异常状态实体,所述异常状态实体与所述异常流实体相关,所述根据所述第二逻辑拓扑,确定引发所述第一业务发生异常的根因网络实体,包括:
采用基于图的推理算法确定所述第二逻辑拓扑中的状态实体与所述第二逻辑拓扑中的网络实体的相关度;
根据所述第二逻辑拓扑中的状态实体与所述第二逻辑拓扑中的网络实体的相关度,确定引发所述第一业务发生异常的根因网络实体。
5.根据权利要求4所述的方法,其特征在于,所述第二逻辑拓扑中的状态实体还包括正常状态实体,所述正常状态实体与所述第二逻辑拓扑中的正常流实体相关。
6.根据权利要求2至5任一项所述的方法,其特征在于,所述n条业务流的统计信息是根据与所述第一业务相关的传输路径上的设备发送的属于所述第一业务的业务流的性能数据确定的,在获取与所述第一业务相关的第一统计信息之前,所述方法还包括:
在承载所述第一业务的通信网络中确定与所述第一业务相关的传输路径;
向所述传输路径上的设备发送检测任务,以指示所述设备采集属于所述第一业务的业务流的性能数据。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
在所述第一逻辑拓扑对应的可视图中标识出所述根因网络实体;或,
发送指示所述根因网络实体的指示信息。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
在所述第一逻辑拓扑对应的可视图中标识出与所述根因网络实体关联的目标路径,所述目标路径用于所述第一业务的传输。
9.一种业务分析系统,其特征在于,包括:
获取模块,用于在第一业务发生异常之后,获取与所述第一业务相关的第一统计信息;
第一确定模块,用于确定与所述第一业务相关的第一逻辑拓扑,所述第一逻辑拓扑包括与所述第一业务相关的网络实体以及所述网络实体之间的连接关系,所述第一逻辑拓扑中的网络实体包括服务器、网络设备、接口、虚拟机VM和进程中的至少一种;
第二确定模块,用于根据所述第一统计信息和所述第一逻辑拓扑,确定引发所述第一业务发生异常的根因网络实体。
10.根据权利要求9所述的业务分析系统,其特征在于,所述第一统计信息包括属于所述第一业务的n条业务流的统计信息,所述第二确定模块,具体用于:
根据所述n条业务流的统计信息和所述第一逻辑拓扑,确定与所述第一业务相关的第二逻辑拓扑,所述第二逻辑拓扑包括n个流实体、所述n条业务流在所述第一逻辑拓扑所经过的网络实体、所述网络实体之间的连接关系以及所述流实体与所述网络实体之间的连接关系,所述n个流实体与所述n条业务流一一对应,所述n个流实体至少包括异常流实体,每个所述异常流实体对应所述n条业务流中的一条异常业务流;
根据所述第二逻辑拓扑,确定引发所述第一业务发生异常的根因网络实体。
11.根据权利要求10所述的业务分析系统,其特征在于,所述n个流实体还包括正常流实体,每个所述正常流实体对应所述n条业务流中的一条正常业务流。
12.根据权利要求10或11所述的业务分析系统,其特征在于,所述第二逻辑拓扑还包括状态实体,所述状态实体包括异常状态实体,所述异常状态实体与所述异常流实体相关,所述根据所述第二逻辑拓扑,确定引发所述第一业务发生异常的根因网络实体,包括:
采用基于图的推理算法确定所述第二逻辑拓扑中的状态实体与所述第二逻辑拓扑中的网络实体的相关度;
根据所述第二逻辑拓扑中的状态实体与所述第二逻辑拓扑中的网络实体的相关度,确定引发所述第一业务发生异常的根因网络实体。
13.根据权利要求12所述的业务分析系统,其特征在于,所述第二逻辑拓扑中的状态实体还包括正常状态实体,所述正常状态实体与所述第二逻辑拓扑中的正常流实体相关。
14.根据权利要求10至13任一项所述的业务分析系统,其特征在于,所述n条业务流的统计信息是根据与所述第一业务相关的传输路径上的设备发送的属于所述第一业务的业务流的性能数据确定的,所述业务分析系统还包括:
第三确定模块,用于在获取与所述第一业务相关的第一统计信息之前,在承载所述第一业务的通信网络中确定与所述第一业务相关的传输路径;
第一发送模块,用于向所述传输路径上的设备发送检测任务,以指示所述设备采集属于所述第一业务的业务流的性能数据。
15.根据权利要求9至14任一项所述的业务分析系统,其特征在于,所述业务分析系统还包括:
第一标识模块,用于在所述第一逻辑拓扑对应的可视图中标识出所述根因网络实体;或,
第二发送模块,用于发送指示所述根因网络实体的指示信息。
16.根据权利要求9至15任一项所述的业务分析系统,其特征在于,所述业务分析系统还包括:第二标识模块,用于在所述第一逻辑拓扑对应的可视图中标识出与所述根因网络实体关联的目标路径,所述目标路径用于所述第一业务的传输。
17.一种业务分析装置,其特征在于,包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器中存储的计算机程序以使得所述业务分析装置执行如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518393.5A CN115348146A (zh) | 2021-05-12 | 2021-05-12 | 业务异常的根因确定方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518393.5A CN115348146A (zh) | 2021-05-12 | 2021-05-12 | 业务异常的根因确定方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115348146A true CN115348146A (zh) | 2022-11-15 |
Family
ID=83947057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110518393.5A Pending CN115348146A (zh) | 2021-05-12 | 2021-05-12 | 业务异常的根因确定方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115348146A (zh) |
-
2021
- 2021-05-12 CN CN202110518393.5A patent/CN115348146A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11641319B2 (en) | Network health data aggregation service | |
US20210119890A1 (en) | Visualization of network health information | |
US10243820B2 (en) | Filtering network health information based on customer impact | |
US10911263B2 (en) | Programmatic interfaces for network health information | |
CN113328872B (zh) | 故障修复方法、装置和存储介质 | |
EP3211831A1 (en) | N-tiered eurt breakdown graph for problem domain isolation | |
US10601688B2 (en) | Method and apparatus for detecting fault conditions in a network | |
US10153950B2 (en) | Data communications performance monitoring | |
WO2017064766A1 (ja) | 管理装置、管理方法、および、管理プログラム | |
US20080016115A1 (en) | Managing Networks Using Dependency Analysis | |
US9923782B1 (en) | Computer network virtual entity pathway visualization system | |
CN111934922B (zh) | 一种网络拓扑的构建方法、装置、设备、存储介质 | |
WO2006028808A2 (en) | Method and apparatus for assessing performance and health of an information processing network | |
US10552513B1 (en) | Computer system entity rendering system | |
US20200099570A1 (en) | Cross-domain topological alarm suppression | |
CN111884859B (zh) | 一种网络故障诊断方法、装置及可读存储介质 | |
CN111796956A (zh) | 分布式系统故障诊断方法、装置、设备及存储介质 | |
US10547524B2 (en) | Diagnostic transparency for on-premise SaaS platforms | |
Amaral et al. | Inference of network anomaly propagation using spatio-temporal correlation | |
US10567238B1 (en) | Server system ring topology user interface system | |
CN109997337B (zh) | 网络健康信息的可视化 | |
CN111835595B (zh) | 流量数据的监控方法、装置、设备及计算机存储介质 | |
JP2017199250A (ja) | 計算機システム、データの分析方法、及び計算機 | |
CN115348146A (zh) | 业务异常的根因确定方法、装置及系统 | |
EP2887579A1 (en) | Data communications performance monitoring using principal component analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |