CN117170963A - 一种基于pinpoint的故障监控方法、系统、设备及介质 - Google Patents
一种基于pinpoint的故障监控方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117170963A CN117170963A CN202310962011.7A CN202310962011A CN117170963A CN 117170963 A CN117170963 A CN 117170963A CN 202310962011 A CN202310962011 A CN 202310962011A CN 117170963 A CN117170963 A CN 117170963A
- Authority
- CN
- China
- Prior art keywords
- component
- information
- system components
- service system
- dag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013507 mapping Methods 0.000 claims abstract description 31
- 238000004590 computer program Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 abstract description 14
- 230000000712 assembly Effects 0.000 abstract 1
- 238000000429 assembly Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000012423 maintenance Methods 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 239000000806 elastomer Substances 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Abstract
本申请公开了一种基于pinpoint的故障监控方法、系统、设备及介质,涉及云计算技术领域。该方法包括:将获取到的N个业务系统组件的组件信息执行聚类操作,得到组件列表,该组件列表包括了N个业务系统组件的标识信息;将该N个业务系统组件的标识信息分别与云端的地址信息进行映射,得到映射关系信息;然后,根据数字孪生的算法模型对该映射关系信息进行仿真拓扑,得到拓扑后的DAG;最后,对DAG进行故障监控,确定出N个业务系统组件中存在故障的目标组件,用以对整个业务系统实现全方位故障监控,并提高故障处理的效率。
Description
技术领域
本申请涉及云计算技术领域,尤其涉及一种基于pinpoint的故障监控方法、系统、设备及介质。
背景技术
随着数字化技术的发展,各行各业逐渐进入数字化时代。为了更高效地实现数字化改造,大部分企业会采用分布式系统实现业务的管理和处理。然而,随着业务系统的节点(或组件)、微服务数量不断增加,以及云端各监控对象间的关系复杂(例如,数据分片、异地存储等),给整个业务系统的运维带来了极大的挑战,例如,跨系统、跨层(如云计算的基础设施即服务、平台即服务、软件即服务等)、跨域都需要大量的运维人员来解决运营监控问题,运维成本居高不下。
目前对于故障监控主要是针对烟囱式架构下的业务系统。烟囱式架构是以一个核心系统为中心向外延伸,形成多个垂直的模块,且每个模块都是独立开发、部署和维护的。而对于这种分布式架构下的业务系统进行故障监控,会存在跨系统、跨层、跨域故障处理慢,甚至无法对整个业务系统实现全方位故障监控等问题。
发明内容
本申请提供了一种基于pinpoint的故障监控方法,用以对整个业务系统实现全方位故障监控,并提高故障处理的效率。
第一方面,提供一种基于pinpoint的故障监控方法,包括:
获取N个业务系统组件的组件信息;其中,所述N为大于0的整数;
按照聚类规则对所述N个业务系统组件的组件信息执行聚类操作,得到组件列表;其中,所述组件列表包括所述N个业务系统组件的标识信息;
将所述N个业务系统组件的标识信息分别与云端的地址信息进行映射,得到映射关系信息;
采用数字孪生的算法模型对所述映射关系信息进行仿真拓扑,得到拓扑后的DAG;
对所述DAG进行故障监控,确定出所述N个业务系统组件中存在故障的目标组件。
可选的,所述对所述DAG故障监控,确定出所述N个业务系统组件中存在故障的目标组件,包括:
基于pinpoint中Collector收集的网络监控指令对所述DAG进行验证;
当验证出所述DAG存在故障时,根据设定的系统监控指标,在所述DAG中确定出存在故障的系统节点;
根据设定的SaaS指标,从所述系统节点开始检测,在所述DAG中确定出存在故障的SaaS组件;
根据设定的PaaS指标,从所述SaaS组件开始检测,在所述DAG中确定出存在故障的PaaS组件;
根据设定的IaaS指标,从所述PaaS组件开始检测,在所述DAG中确定出存在故障的所述目标组件。
可选的,所述获取N个业务系统组件的组件信息之后,还包括:
分析第一组件信息所使用的初始协议;其中,所述第一组件信息是所述N个业务系统组件中任意一个业务系统组件的组件信息;
若确定出所述初始协议不符合标准协议要求,则从标准协议库中任选一种标准协议,并将所述第一组件信息按照所述标准协议进行转换,得到转换后的第一组件信息。
可选的,所述确定出所述初始协议不符合标准协议要求,包括:
在所述初始协议与所述标准协议库中存储的所有标准协议均不匹配的情况下,确定出所述初始协议不符合标准协议要求。
可选的,所述按照聚类规则对所述N个业务系统组件的组件信息执行聚类操作,包括:
按照所述N个业务系统组件各自所属的功能类型,对所述N个业务系统组件的组件信息执行聚类操作;或者按照所述N个业务系统组件各自的依赖关系,对所述N个业务系统组件的组件信息执行聚类操作;或者按照所述N个业务系统组件各自对应的交互对象,对所述N个业务系统组件的组件信息执行聚类操作。
可选的,所述在所述DAG中确定出存在故障的所述目标组件之后,还包括:
分析所述目标组件的故障原因;
根据所述故障原因生成告警信息,并输出所述告警信息;其中,所述告警信息至少包括所述目标组件的标识信息,以及所述故障原因。
第二方面,提供一种基于pinpoint的故障监控系统,包括:
Collector,用于获取N个业务系统组件的组件信息;其中,所述N为大于0的整数;并按照聚类规则对所述N个业务系统组件的组件信息执行聚类操作,得到组件列表;其中,所述组件列表包括所述N个业务系统组件的标识信息;以及,将所述N个业务系统组件的标识信息分别与云端的地址信息进行映射,得到映射关系信息;
数模拓扑模块,用于采用数字孪生的算法模型对所述映射关系信息进行仿真拓扑,得到拓扑后的DAG;
故障监控模块,用于对所述DAG进行故障监控,确定出所述N个业务系统组件中存在故障的目标组件。
可选的,所述故障监控模块,具体用于:
基于所述Collector收集的网络监控指令对所述DAG进行验证;
当验证出所述DAG存在故障时,根据设定的系统监控指标,在所述DAG中确定出存在故障的系统节点;
根据设定的SaaS指标,从所述系统节点开始检测,在所述DAG中确定出存在故障的SaaS组件;
根据设定的PaaS指标,从所述SaaS组件开始检测,在所述DAG中确定出存在故障的PaaS组件;
根据设定的IaaS指标,从所述PaaS组件开始检测,在所述DAG中确定出存在故障的所述目标组件。
可选的,所述系统还包括协议转换模块;
所述协议转换模块,用于分析第一组件信息所使用的初始协议;其中,所述第一组件信息是所述N个业务系统组件中任意一个业务系统组件的组件信息;若确定出所述初始协议不符合标准协议要求,则从标准协议库中任选一种标准协议,并将所述第一组件信息按照所述标准协议进行转换,得到转换后的第一组件信息。
可选的,所述协议转换模块,具体用于:
在所述初始协议与所述标准协议库中存储的所有标准协议均不匹配的情况下,确定出所述初始协议不符合标准协议要求。
可选的,所述Collector,具体用于:
按照所述N个业务系统组件各自所属的功能类型,对所述N个业务系统组件的组件信息执行聚类操作;或者按照所述N个业务系统组件各自的依赖关系,对所述N个业务系统组件的组件信息执行聚类操作;或者按照所述N个业务系统组件各自对应的交互对象,对所述N个业务系统组件的组件信息执行聚类操作。
可选的,所述故障监控模块,还用于:
分析所述目标组件的故障原因;
根据所述故障原因生成告警信息,并输出所述告警信息;其中,所述告警信息至少包括所述目标组件的标识信息,以及所述故障原因。
第三方面,提供一种电子设备,包括:
存储器,用于存放计算机程序;处理器,用于执行所述存储器上所存放的计算机程序时,实现第一方面中任一项所述的方法步骤。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法步骤。
本申请实施例中,将获取到的N个业务系统组件的组件信息执行聚类操作,得到组件列表,该组件列表包括了N个业务系统组件的标识信息;将该N个业务系统组件的标识信息分别与云端的地址信息进行映射,得到映射关系信息;然后,根据数字孪生的算法模型对该映射关系信息进行仿真拓扑,得到拓扑后的DAG;最后,对DAG进行故障监控,确定出N个业务系统组件中存在故障的目标组件。上述方法是基于各业务系统组件的标识信息与云端地址之间的映射关系,生成关联性强且准确的DAG,再基于仿真拓扑得到的DAG进行整个业务系统的故障监控,因此,整个业务系统中各业务系统组件的运营状态都可反映在该DAG上,相较于现有技术,对整个业务系统实现全方位故障监控,善于解决跨系统、跨层、跨域的端到端监控,也提高了故障处理的效率。
上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明,这里不再重复赘述。
附图说明
图1为本申请实施例提供的一种基于pinpoint的故障监控方法的流程图;
图2为本申请实施例提供的一种实现对业务系统故障监控的逻辑示意图;
图3为本申请实施例提供的一种基于pinpoint的故障监控系统的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。需要说明的是,在本申请的描述中“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。A与B连接,可以表示:A与B直接连接和A与B通过C连接这两种情况。另外,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
为了更好地理解本申请实施例,下面首先对本申请实施例中所涉及的技术术语进行解释说明。
(1)基础设施即服务(Infrastructure as a Server,IaaS),属于云计算的第一层,IT系统的基础设施层作为服务出租。举例来讲,IaSS把IT系统的基础设施建设好,对计算设备进行池化,然后直接对外出租硬件服务器、虚拟主机、存储或网络设施(例如,负载均衡器、防火墙、公网IP地址等基础服务)。
(2)平台即服务(Platform as a Server,PaaS)属于云计算的第二层,IT系统的平台软件层作为服务出租出去。举例来讲,PaaS云服务提供商需要准备机房、不好网络、购买设备、安装操作系统、数据库、中间件,并在平台软件层划分成“小块”对外出租,在用户使用的时候,用户只需要在这个搭建好的平台上下载、安装并使用自己需要的软件即可。
(3)软件即服务(Software as a Server,SaaS)属于云计算的第三层,软件部署在云端,用户可通过网络来使用它,举例来讲,SaaS云服务提供商把IT系统的应用软件层作为服务出租,消费者(用户)可以使用任何云终端设备接入计算机网络,并通过网页浏览器或者编程接口使用云端的软件。
(4)数字孪生可以将实际物理系统(对应下文的业务系统)的数据(信息)与数字模型相结合,从而实现对物理系统的仿真和预测。数字孪生的算法模型是数字孪生技术的核心,它可以将实际物理系统的数据(信息)转化为数字模型,并通过模型的分析和预测来优化物理系统的运行。
(5)有向无环图(Directed Acyclic Graph,DAG)它由有限个顶点和“有向边”组成,从任意顶点出发,经过若干条有向边,都无法回到该顶点,这种图就是有向无环图。
(6)拓扑结构是引用拓扑学中研究与大小,形状无关的点、线关系的方法。把网络中的计算机和设备抽象为一个点,把传输介质抽象为一条线,由点和线组成的几何图形就是计算机网络的拓扑结构。网络的拓扑结构反映出网中各实体的结构关系,是建设计算机网络的第一步,是实现各种网络协议的基础,它对网络的性能,系统的可靠性与通信费用都有重大影响。拓扑在计算机网络中即是指连接各结点的形式与方法。
(7)应用性能管理工具,如Pinpoint,它可以帮助分析系统的总体结构以及分布式应用程序的组件之间是如何进行数据互联的,实现分布式交易追踪,追踪分布式系统中穿梭的消息。目前,Pinpoint主要由三个组件外加开源数据库(如HBase)组成,三个组件分别为:代理(Agent)器、日志收集(Collector)器和监控展示(Web UI)器;Agent主要用于在用户端进行埋点来获取到数据;Collector主要用于接收Agent发送的数据,并将该数据存储至HBase数据库中;Web UI主要将Collector的数据进行可视化展示。
(8)远程字典服务(Remote Dictionary Server,Redis)是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的应用程序编程接口(Application Programming Interface,API)。
(9)Elasticsearch(简称Es)是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可按照实施例或者附图所示的方法顺序执行或者并执行。
图1为本申请实施例提供的一种基于pinpoint的故障监控方法的流程图。该流程可由基于pinpoint的故障监控系统所执行,用以对整个业务系统实现全方位故障监控,并提高故障处理的效率。如图1所示,该流程包括如下步骤:
101:获取N个业务系统组件的组件信息。
可选的,该N为大于0的整数,各业务系统组件的组件信息可包括各业务系统组件各自所在的地址、名称、类型、版本等信息;进一步,该N个业务系统组件可包括整个业务系统中不同层甚至不同域所包括的组件、系统节点、接口等。
可选的,可以是pinpoint中agent接入源系统采集到N个业务系统组件的组件信息,从而无需对源系统进行修改,且能够对整个业务系统中的组件进行全方位监控,便于后续帮助运维人员快速定位到出错的组件(或接口)、重现调用参数、发现系统瓶颈,从而大幅度提升故障诊断的效率。
进一步的,在获取到该N个业务系统组件的组件信息之后,还可分析各组件信息具体使用的哪种协议,并将不符合用户设定的标准协议要求的组件信息进行转换。
以第一组件信息为例,该第一组件信息是上述N个业务系统组件中任意一个业务系统组件的组件信息,具体可包括如下过程:分析第一组件信息所使用的初始协议;若确定出该初始协议不符合标准协议要求,则从标准协议库中任选一种标准协议,并将第一组件信息按照所述标准协议进行转换,得到转换后的第一组件信息。该标准协议库用于存储用户设定的至少一种标准协议,可根据实际需求进行定期增加或删减。
可选的,确定出该初始协议不符合标准协议要求,具体可以是:在该初始协议与标准协议库中存储的所有标准协议均不匹配的情况下,确定出该初始协议不符合标准协议要求;否则,表明该第一组件的初始协议符合标准协议要求,便可对N个业务系统组件中另一个业务系统组件的组件信息进行标准协议判断。
同理,其他组件信息也可按照上述方式进行标准协议转换,直至该N个业务系统组件的组件信息均符合标准协议要求,便于后续进行故障分析,在此不再重复描述。
在一些实施例中,还可将上述组件信息,或转换后的组件信息存储到数据仓库中,便于后续可随时查看以及使用。该数据仓库可以是有多种类型的数据库组成的,例如,可包括Kafka、Neo4j图形数据库、Redis、Es等,具体的,Kafka可用于存储原始的组件信息以及转换后的组件信息;Neo4j图形数据库可用于存储后续的拓扑结构(如,DAG);Redis可用于存储后续聚类后的组件列表,以及用户的登录信息等;Es可用于存储后续用户在用户界面中查询到的各种信息(例如,监控到的故障原因等)。
102:按照聚类规则对上述N个业务系统组件的组件信息执行聚类操作,得到组件列表。
可选的,可包括N个业务系统组件的标识信息,例如,各业务系统组件的媒体访问控制地址(Media Access Control address,MAC)地址,还可包括其他信息,例如,N个业务系统组件的类型、名称、版本、功能等,便于后续拓扑的DAG所覆盖的内容更丰富,从而有利于对整个业务系统的故障监控。该组件列表是基于pinpoint中Collector生成的,例如,该Collector通过对接协议,聚类各业务系统组件的组件信息,并按照聚类规则进行聚类。
可选的,按照聚类规则对上述N个业务系统组件的组件信息执行聚类操作,具体可从以下任意一个或多个方面来实现:
方面1:按照N个业务系统组件各自所属的功能类型,对N个业务系统组件的组件信息执行聚类操作。举例来讲,假设将负责通信传输的业务系统组件设为中间件,将负责数据存储的业务系统组件设为数据组件,将负责业务处理的业务系统组件设为业务组件,以此为依据,将对N个业务系统组件的组件信息进行聚类。
方面2:按照N个业务系统组件各自的依赖关系,对N个业务系统组件的组件信息执行聚类操作。举例来讲,假设将上层依赖的业务系统组件划为中间件,而被依赖的业务系统组件划为业务组件等,以此为依据,将对N个业务系统组件的组件信息进行聚类。
方面3:按照上述N个业务系统组件各自对应的交互对象,对N个业务系统组件的组件信息执行聚类操作。举例来讲,假设与外部系统交互的业务系统组件划为中间件,在内部系统进行转换处理的业务系统组件划为数据组件,面向用户的业务系统组件划为业务组件,以此为依据,将对N个业务系统组件的组件信息进行聚类。
需要说明的是,上述几个方面的聚类规则只是一种示例,在实际聚类过程中,可根据实际需求,采用其他的一种或多种聚类规则对上述N个业务系统组件的组件信息进行聚类,在此不做具体限制。
103:将上述N个业务系统组件的标识信息分别与云端的地址信息进行映射,得到映射关系信息。
该步骤中,以该N个业务系统组件的MAC地址为例,可以是Collector基于网络检测指令,或者发送数据包等方式,与每一个业务系统组件进行交互,在交互过程中,可映射出各业务系统组件各自的MAC地址分别与云端的地址信息之间的映射关系信息。该网络检测指令是用于检测网络状态和连接性的一系列命令,例如,通过参数ping用于测试网络的连通性,再例如,通过traceroute用于显示数据包到业务系统组件间的路径等。
104:采用数字孪生的算法模型对上述映射关系信息进行仿真拓扑,得到拓扑后的DAG。
可选的,数字孪生的算法模型具体可采用过滤式、包裹式、嵌入式、主线分析、线性判别分析等某种方式对上述映射关系信息进行仿真拓扑,从而得到拓扑后的DAG。
在另一些实施例中,还可通过一些网络拓扑描绘工具,手工描绘出该DAG。
105:对该DAG进行故障监控,确定出N个业务系统组件中存在故障的目标组件。
可选的,确定出N个业务系统组件中存在故障的目标组件,具体可以是:
基于Collector收集的网络监控指令(或采用发送监控数据包的方式)对上述DAG进行验证,当验证出该DAG存在故障时,根据设定的系统监控指标,在DAG中确定出存在故障的系统节点;根据设定的SaaS指标,从系统节点开始检测,在DAG中确定出存在故障的SaaS组件;根据设定的PaaS指标,从SaaS组件开始检测,在DAG中确定出存在故障的PaaS组件;根据设定的IaaS指标,从该PaaS组件开始检测,在DAG中确定出存在故障的目标组件。
上述该网络监控指令是用于持续监测网络状态和流量的一系列命令,例如,通过参数iftop监控网络流量,实时显示上述各组件或端口的带宽流量使用情况;再例如,通过netstat实时监控网络连接的变化,从而可以实时监控网络状态、质量、带宽使用等信息,对整个业务系统的运行状态持续保持视听,及时检测出异常。
可选的,上述各种指标,可以是通过监控整个业务系统服务器的CPU、内存、磁盘等使用情况,从而得到吞吐量、容量等指标;也可以是通过整个业务系统的应用日志、操作日志等,对其进行分析得到访问量、响应时间、错误率等指标。
可选的,在确定出该目标组件之后,还可对其进行警示,具体可以是:分析目标组件的故障原因;根据该故障原因生成告警信息,并输出该告警信息,该告警信息至少包括该目标组件的标识信息,以及故障原因,还可包括该目标组件所关联的主机,便于辅助运维人员采取相应的措施进行维护。
通过对上述DAG进行故障监控,可将整个业务系统中涉及的组件划分成IaaS、PaaS、SaaS等多层,并对其进行逐层故障监控,从而可掌握整个业务系统的运行情况,实时发现故障,并精准定位与告警,辅助运维人员定位故障根因。
本申请实施例中,上述方法是基于各业务系统组件的标识信息与云端地址之间的映射关系,生成关联性强且准确的DAG,再基于仿真拓扑得到的DAG进行整个业务系统的故障监控,因此,整个业务系统中各业务系统组件的运营状态都可反映在该DAG上,相较于现有技术,对整个业务系统实现全方位故障监控,善于解决跨系统、跨层、跨域的端到端监控,也提高了故障处理的效率。
基于上述图1所示的方法,图2为本申请提供的一种实现对业务系统故障监控的逻辑示意图。如图2所示,首先,将获取到的整个业务系统200中业务系统组件(1,2,3…,N)按照聚类规则进行聚类,得到组件列表201;其次,结合该业务系统组件(1,2,3…,N)各自的MAC地址分别与云端地址(也称网络地址)进行映射,得到映射关系信息;再采用数字孪生的算法模型对该映射关系信息进行仿真拓扑,拓扑得到、DAG 202;最后,根据设定的系统监控指标,在该DAG 202中确定出存在故障的系统节点(对应业务系统组件2),根据设定的SaaS指标,从业务系统组件2开始检测,在DAG中确定出存在故障的SaaS组件(对应业务系统组件6),根据设定的PaaS指标,从该业务系统组件6开始检测,在DAG中确定出存在故障的PaaS组件(对应业务系统组件8),根据设定的IaaS指标,从业务系统组件8开始检测,在DAG中确定出存在故障的目标组件(对应业务系统组件3)。
基于相同的技术构思,本申请实施例中还提供了一种基于pinpoint的故障监控系统,该系统可实现本申请实施例中上述基于pinpoint的故障监控方法流程。
图3为本申请实施例提供的一种基于pinpoint的故障监控系统的结构示意图。该结构包括:Collector 301、数模拓扑模块302、故障监控模块303,进一步还可包括协议转换模块304。
Collector 301,用于获取N个业务系统组件的组件信息;其中,所述N为大于0的整数;并按照聚类规则对所述N个业务系统组件的组件信息执行聚类操作,得到组件列表;其中,所述组件列表包括所述N个业务系统组件的标识信息;以及,将所述N个业务系统组件的标识信息分别与云端的地址信息进行映射,得到映射关系信息。
数模拓扑模块302,用于采用数字孪生的算法模型对所述映射关系信息进行仿真拓扑,得到拓扑后的DAG;
故障监控模块303,用于对所述DAG进行故障监控,确定出所述N个业务系统组件中存在故障的目标组件。
协议转换模块304,用于分析第一组件信息所使用的初始协议;其中,所述第一组件信息是所述N个业务系统组件中任意一个业务系统组件的组件信息;若确定出所述初始协议不符合标准协议要求,则从标准协议库中任选一种标准协议,并将所述第一组件信息按照所述标准协议进行转换,得到转换后的第一组件信息。
可选的,故障监控模块303,具体用于:
基于所述Collector收集的网络监控指令对所述DAG进行验证;当验证出所述DAG存在故障时,根据设定的系统监控指标,在所述DAG中确定出存在故障的系统节点;根据设定的SaaS指标,从所述系统节点开始检测,在所述DAG中确定出存在故障的SaaS组件;根据设定的PaaS指标,从所述SaaS组件开始检测,在所述DAG中确定出存在故障的PaaS组件;根据设定的IaaS指标,从所述PaaS组件开始检测,在所述DAG中确定出存在故障的所述目标组件。
可选的,故障监控模块303,还用于:
分析所述目标组件的故障原因;根据所述故障原因生成告警信息,并输出所述告警信息;其中,所述告警信息至少包括所述目标组件的标识信息,以及所述故障原因。
可选的,协议转换模块304,具体用于:
在所述初始协议与所述标准协议库中存储的所有标准协议均不匹配的情况下,确定出所述初始协议不符合标准协议要求。
可选的,Collector 301,具体用于:
按照所述N个业务系统组件各自所属的功能类型,对所述N个业务系统组件的组件信息执行聚类操作;或者按照所述N个业务系统组件各自的依赖关系,对所述N个业务系统组件的组件信息执行聚类操作;或者按照所述N个业务系统组件各自对应的交互对象,对所述N个业务系统组件的组件信息执行聚类操作。
在此需要说明的是,本申请实施例提供的上述系统,能够实现上述方法实施例中的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
基于相同的技术构思,本申请实施例中还提供了一种电子设备,所述电子设备可以实现前述一种基于pinpoint的故障监控装置的功能。
图4为本申请实施例提供的电子设备的结构示意图。
至少一个处理器401,以及与至少一个处理器401连接的存储器402,本申请实施例中不限定处理器401与存储器402之间的具体连接介质,图4中是以处理器401和存储器402之间通过总线400连接为例。总线400在图4中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线400可以分为地址总线、数据总线、控制总线等,为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。或者,处理器401也可以称为控制器,对于名称不做限制。
在本申请实施例中,存储器402存储有可被至少一个处理器401执行的指令,至少一个处理器401通过执行存储器402存储的指令,可以执行前文论述的一种基于pinpoint的故障监控方法。处理器401可以实现图3所示的系统中各个模块的功能。
其中,处理器401是该系统的控制中心,可以利用各种接口和线路连接整个该控制设备的各个部分,通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据,该系统的各种功能和处理数据,从而对该系统进行整体监控。
在一种可能的设计中,处理器401可包括一个或多个处理单元,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。在一些实施例中,处理器401和存储器402可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器401可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的一种基于pinpoint的故障监控方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器401进行设计编程,可以将前述实施例中介绍的一种基于pinpoint的故障监控方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行图1所示的实施例的一种基于pinpoint的故障监控方法。如何对处理器401进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
在此需要说明的是,本申请实施例提供的上述通电子设备,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行上述实施例中的一种基于pinpoint的故障监控方法。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在被计算机调用时,使得所述计算机执行上述实施例中的一种基于pinpoint的故障监控方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (14)
1.一种基于pinpoint的故障监控方法,其特征在于,所述方法包括:
获取N个业务系统组件的组件信息;其中,所述N为大于0的整数;
按照聚类规则对所述N个业务系统组件的组件信息执行聚类操作,得到组件列表;其中,所述组件列表包括所述N个业务系统组件的标识信息;
将所述N个业务系统组件的标识信息分别与云端的地址信息进行映射,得到映射关系信息;
采用数字孪生的算法模型对所述映射关系信息进行仿真拓扑,得到拓扑后的有向无环图DAG;
对所述DAG进行故障监控,确定出所述N个业务系统组件中存在故障的目标组件。
2.如权利要求1所述的方法,其特征在于,所述对所述DAG故障监控,确定出所述N个业务系统组件中存在故障的目标组件,包括:
基于pinpoint中日志收集器Collector收集的网络监控指令对所述DAG进行验证;
当验证出所述DAG存在故障时,根据设定的系统监控指标,在所述DAG中确定出存在故障的系统节点;
根据设定的软件即服务SaaS指标,从所述系统节点开始检测,在所述DAG中确定出存在故障的SaaS组件;
根据设定的平台即服务PaaS指标,从所述SaaS组件开始检测,在所述DAG中确定出存在故障的PaaS组件;
根据设定的基础设施即服务IaaS指标,从所述PaaS组件开始检测,在所述DAG中确定出存在故障的所述目标组件。
3.如权利要求1所述的方法,其特征在于,所述获取N个业务系统组件的组件信息之后,还包括:
分析第一组件信息所使用的初始协议;其中,所述第一组件信息是所述N个业务系统组件中任意一个业务系统组件的组件信息;
若确定出所述初始协议不符合标准协议要求,则从标准协议库中任选一种标准协议,并将所述第一组件信息按照所述标准协议进行转换,得到转换后的第一组件信息。
4.如权利要求3所述的方法,其特征在于,所述确定出所述初始协议不符合标准协议要求,包括:
在所述初始协议与所述标准协议库中存储的所有标准协议均不匹配的情况下,确定出所述初始协议不符合标准协议要求。
5.如权利要求1所述的方法,其特征在于,所述按照聚类规则对所述N个业务系统组件的组件信息执行聚类操作,包括:
按照所述N个业务系统组件各自所属的功能类型,对所述N个业务系统组件的组件信息执行聚类操作;或者
按照所述N个业务系统组件各自的依赖关系,对所述N个业务系统组件的组件信息执行聚类操作;或者
按照所述N个业务系统组件各自对应的交互对象,对所述N个业务系统组件的组件信息执行聚类操作。
6.如权利要求1-4任一项所述的方法,其特征在于,所述在所述DAG中确定出存在故障的所述目标组件之后,还包括:
分析所述目标组件的故障原因;
根据所述故障原因生成告警信息,并输出所述告警信息;其中,所述告警信息至少包括所述目标组件的标识信息,以及所述故障原因。
7.一种基于pinpoint的故障监控系统,其特征在于,包括:
日志收集器Collector,用于获取N个业务系统组件的组件信息;其中,所述N为大于0的整数;并按照聚类规则对所述N个业务系统组件的组件信息执行聚类操作,得到组件列表;其中,所述组件列表包括所述N个业务系统组件的标识信息;以及,将所述N个业务系统组件的标识信息分别与云端的地址信息进行映射,得到映射关系信息;
数模拓扑模块,用于采用数字孪生的算法模型对所述映射关系信息进行仿真拓扑,得到拓扑后的有向无环图DAG;
故障监控模块,用于对所述DAG进行故障监控,确定出所述N个业务系统组件中存在故障的目标组件。
8.如权利要求7所述的系统,其特征在于,所述故障监控模块,具体用于:
基于所述Collector收集的网络监控指令对所述DAG进行验证;
当验证出所述DAG存在故障时,根据设定的系统监控指标,在所述DAG中确定出存在故障的系统节点;
根据设定的软件即服务SaaS指标,从所述系统节点开始检测,在所述DAG中确定出存在故障的SaaS组件;
根据设定的平台即服务PaaS指标,从所述SaaS组件开始检测,在所述DAG中确定出存在故障的PaaS组件;
根据设定的基础设施即服务IaaS指标,从所述PaaS组件开始检测,在所述DAG中确定出存在故障的所述目标组件。
9.如权利要求7所述的系统,其特征在于,所述系统还包括协议转换模块;
所述协议转换模块,用于分析第一组件信息所使用的初始协议;其中,所述第一组件信息是所述N个业务系统组件中任意一个业务系统组件的组件信息;若确定出所述初始协议不符合标准协议要求,则从标准协议库中任选一种标准协议,并将所述第一组件信息按照所述标准协议进行转换,得到转换后的第一组件信息。
10.如权利要求9所述的系统,其特征在于,所述协议转换模块,具体用于:
在所述初始协议与所述标准协议库中存储的所有标准协议均不匹配的情况下,确定出所述初始协议不符合标准协议要求。
11.如权利要求7所述的系统,其特征在于,所述Collector,具体用于:
按照所述N个业务系统组件各自所属的功能类型,对所述N个业务系统组件的组件信息执行聚类操作;或者
按照所述N个业务系统组件各自的依赖关系,对所述N个业务系统组件的组件信息执行聚类操作;或者
按照所述N个业务系统组件各自对应的交互对象,对所述N个业务系统组件的组件信息执行聚类操作。
12.如权利要求7-11任一项所述的系统,其特征在于,所述故障监控模块,还用于:
分析所述目标组件的故障原因;
根据所述故障原因生成告警信息,并输出所述告警信息;其中,所述告警信息至少包括所述目标组件的标识信息,以及所述故障原因。
13.一种电子设备,其特征在于,包括:
存储器,用于存放计算机程序;
处理器,用于执行所述存储器上所存放的计算机程序时,实现权利要求1-6中任一项所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6中任一项中所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310962011.7A CN117170963A (zh) | 2023-08-01 | 2023-08-01 | 一种基于pinpoint的故障监控方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310962011.7A CN117170963A (zh) | 2023-08-01 | 2023-08-01 | 一种基于pinpoint的故障监控方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117170963A true CN117170963A (zh) | 2023-12-05 |
Family
ID=88940265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310962011.7A Pending CN117170963A (zh) | 2023-08-01 | 2023-08-01 | 一种基于pinpoint的故障监控方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117170963A (zh) |
-
2023
- 2023-08-01 CN CN202310962011.7A patent/CN117170963A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7340649B2 (en) | System and method for determining fault isolation in an enterprise computing system | |
CN110351150B (zh) | 故障根源确定方法及装置、电子设备和可读存储介质 | |
US20120099478A1 (en) | Method and Device for Auto-Generating Goose Signal Connection Topology from Substation Level | |
EP2609714A1 (en) | Isolation of problems in a virtual environment | |
US20220147408A1 (en) | Automation solutions for event logging and debugging on kubernetes | |
CN109039787A (zh) | 日志处理方法、装置及大数据集群 | |
WO2021086523A1 (en) | Support ticket platform for improving network infrastructures | |
CN111259073A (zh) | 基于日志、流量和业务访问的业务系统运行状态智能研判系统 | |
CN112737800A (zh) | 服务节点故障定位方法、调用链生成方法及服务器 | |
CN116166505B (zh) | 金融行业双态it架构的监控平台、方法、存储介质及设备 | |
CN114745295A (zh) | 数据采集方法、装置、设备和可读存储介质 | |
CN114553672B (zh) | 一种应用系统性能瓶颈确定方法、装置、设备、介质 | |
CN117041029A (zh) | 网络设备故障处理方法、装置、电子设备及存储介质 | |
US11599404B2 (en) | Correlation-based multi-source problem diagnosis | |
KR20230029762A (ko) | 도메인-스페이스 분석 및 머신 러닝 기법들을 사용하는 크로스-환경 이벤트 상관 | |
CN116566873A (zh) | 一种基于elk的自动化日志分析方法、系统及存储介质 | |
CN117170963A (zh) | 一种基于pinpoint的故障监控方法、系统、设备及介质 | |
CN110515758A (zh) | 一种故障定位方法、装置、计算机设备及存储介质 | |
CN110413500A (zh) | 基于大数据融合的故障分析方法及装置 | |
CN109710487A (zh) | 一种监控方法和装置 | |
CN113315769B (zh) | 工控资产信息收集方法及装置 | |
CN114756301A (zh) | 日志处理方法、装置和系统 | |
CN113572639A (zh) | 一种载波网络故障的诊断方法、系统、设备和介质 | |
CN114285756A (zh) | 服务调用依赖关系分析方法及相关装置 | |
CN112380091A (zh) | 一种服务运行情况监控方法、装置和相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |