CN116302862B - 一种微服务架构下监控告警方法和系统 - Google Patents
一种微服务架构下监控告警方法和系统 Download PDFInfo
- Publication number
- CN116302862B CN116302862B CN202310560684.XA CN202310560684A CN116302862B CN 116302862 B CN116302862 B CN 116302862B CN 202310560684 A CN202310560684 A CN 202310560684A CN 116302862 B CN116302862 B CN 116302862B
- Authority
- CN
- China
- Prior art keywords
- information
- data
- micro
- service
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 230000004044 response Effects 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 238000004140 cleaning Methods 0.000 claims abstract description 6
- 230000002159 abnormal effect Effects 0.000 claims description 54
- 230000005856 abnormality Effects 0.000 claims description 11
- 238000007405 data analysis Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 7
- 239000000523 sample Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0209—Architectural arrangements, e.g. perimeter networks or demilitarized zones
- H04L63/0218—Distributed architectures, e.g. distributed firewalls
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种微服务架构下监控告警方法和系统,所述方法包括:采集微服务系统运行时所关联的网络设备硬件层的运行状态数据、微服务系统运行时的服务器操作系统层的资源使用数据、微服务系统的微服务组件运行时的状态数据和调用链数据,以及,微服务应用系统层的访问响应数据;将采集的数据基于预设数据过滤模式进行清洗并存储,其中,清洗后的数据至少包括含有特征值的数据、非20XHTTP状态码信息、Warning信息和ERROR信息;对存储的数据依次基于特殊字符判定、状态码和调用链宽度搜索匹配进行异常监控信息分析,判定异常节点,并进行告警通知。本发明提供了四位一体监控告警方法,可进一步提升微服务系统监控告警能力。
Description
技术领域
本发明涉及微服务系统监控告警领域,尤其涉及一种微服务架构下监控告警方法和系统。
背景技术
微服务架构是基于分布式的系统,由于分布式系统是跨进程、跨网络的调用,构建分布式系统必然会带来额外的开销,受网络延迟和带宽的影响比较大。由于高度依赖于网络状况,任何一次的远程调用都有可能失败,随着服务的增多还会出现更多的潜在故障点。因此,如何提高系统的可靠性、降低因网络引起的故障率,是系统构建的一大挑战。由此可见,监控在微服务过程中的重要性是不言而喻的。
在传统微服务监控中,往往都是对微服务系统中各微服务、调用链等进行监控,忽略了微服务运行时所处物理环境、用户交互方向的监控,导致无法实现针对微服务系统的全面监控,难以进一步提升微服务系统的可靠性。
发明内容
本发明为了克服以上技术的不足,提供了一种从网络设备硬件层、服务器操作系统层、微服务系统服务层、微服务系统应用层的四位一体监控告警方法,可进一步提升微服务系统监控告警能力。
本发明克服其技术问题所采用的技术方案是:
本发明的第一方面提供一种微服务架构下监控告警方法,包括:
采集微服务系统运行时所关联的网络设备硬件层的运行状态数据、微服务系统运行时的服务器操作系统层的资源使用数据、微服务系统的微服务组件运行时的状态数据和调用链数据,以及,微服务应用系统层的访问响应数据;
将采集的数据基于预设数据过滤模式进行清洗并存储,其中,清洗后的数据至少包括含有特征值的数据、非20XHTTP状态码信息、Warning信息和ERROR信息;
对存储的数据依次基于特殊字符判定、状态码和调用链宽度搜索匹配进行异常监控信息分析,判定异常节点,并进行告警通知。
进一步的,对存储的数据基于特殊字符判定进行异常监控信息分析,具体包括:
实时监测如下异常信息:
网络设备硬件层中设备断连的特征值;
服务器操作系统层资源剩余占比率的Warning信息;
PING请求指令的返回值为“请求超时”的特征值;
TELNET请求指令的返回值为“无法打开到主机的连接”或者“连接失败”的特征值或ERROR信息;
若监测到上述任一异常信息,则判定异常并确定异常节点,否则转入状态码分析。
进一步的,对存储的数据基于状态码进行异常监控信息分析,具体包括:
判断存储的数据是否包括非20X HTTP状态码信息,
若包括非20X HTTP状态码信息且该状态码信息为预设异常状态码信息,则判定异常并告警,否则转入调用链宽度搜索匹配分析。
进一步的,根据预设异常状态码信息判定异常并确定异常节点具体包括:
若异常状态码信息为401,则遍历查询各微服务组件与数据库的连通性信息,获取异常信息;判断异常信息中是否包括数据库不可达或者统一认证AD域不可达,若不包括数据库不可达或者统一认证AD域不可达,则判断用户密码输入错误,否则,将分别对应数据库不可达或者统一认证AD域不可达的异常信息进行告警通知;
若异常状态码信息为404,则判定发生网站页面丢失,将对应URL作为告警信息进行告警通知;
若异常状态码信息为491或493,则判定请求被安全设备拦截,进行告警通知;
若异常状态码信息为5XX,则判定系统服务端错误,进行告警通知。
进一步的,对存储的数据基于调用链宽度搜索匹配进行异常监控信息分析,具体包括:
建立以服务注册发现及配置中心、微服务、中间件、数据库为节点,具有通信关系的服务为边的有向图;
根据Warning信息和ERROR信息,获取错误节点的节点名称;
以错误节点为根节点进行宽度搜索,递归搜索该错误节点的所有关联节点,通过如下方式匹配告警信息:
基于该错误节点的Warning信息或ERROR信息的时间戳,匹配该时间戳前若干秒的日志信息,如果出现与所述Warning信息或ERROR信息匹配的值,则将对应的节点信息写入至结果列表中;当队列为空时,退出搜索,并将结果列表进行告警通知。
进一步的,所述的采集微服务系统运行时所关联的网络设备硬件层的运行状态数据,具体包括:
通过SNMP协议获取网络设备中的流量数据和通过HTTP协议获取安全防护设备中的拦截数据;
其中,所述网络设备中的流量数据至少包括交换机、路由器的端口进流量和端口出流量,所述安全防护设备中的拦截数据至少包括请求方法、请求URL、匹配字段MatchData和拦截信息。
进一步的,所述的采集微服务运行时的服务器操作系统层的资源使用数据,具体包括:
在微服务系统的每台服务器上部署运行数据采集器,实时获取服务器操作系统层的资源使用数据,至少包括服务器主机名称、设备UUID、物理地址、CPU型号、CPU的使用率、内存使用率、磁盘使用率和网络吞吐量。
进一步的,所述的采集微服务系统的微服务组件运行时的状态数据和调用链数据,具体包括:
基于嵌入式SDK埋点的方式,获取微服务组件调用链数据,以及采用非侵入式探针的方式获取微服务组件运行过程中所使用的CPU、内存、磁盘和网络流量。
进一步的,所述的采集微服务系统应用层的访问响应数据,具体包括:
基于ICMP和HTTP协议实时对在线的微服务业务系统进行监控;
通过wget及curl命令方式获取网页首页index.html的内容,并通过title字段判断网面是否正常。
进一步的,将将采集的数据基于预设数据过滤模式进行清洗具体包括:
基于预设关键字和异常状态码信息对采集的数据进行过滤,所述预设关键字至少包括“不可达”、“连接超时”、“Exception”、“Warning”和“ERROR”;所述预设异常状态码信息至少包括401、404、491、493或5XX。
本发明的第二方面还提供一种微服务架构下监控告警系统,用于实现如上述第一方面所述的方法,包括高可用数据库、监控信息收集模块、数据分析模块和实时告警模块;
所述监控信息收集模块用于采集微服务系统运行时所关联的网络设备硬件层的运行状态数据、微服务系统运行时的服务器操作系统层的资源使用数据、微服务系统的微服务组件运行时的状态数据和调用链数据,以及,微服务应用系统层的访问响应数据;
所述高可用数据库包括高可用关系型数据库和高可用时序数据库,所述高可用关系型数据用于存储服务器集群信息、微服务系统组件的关联关系、微服务组件基本信息、微服务组件运行与服务器的关联信息和联系人信息,所述高可用时序数据库用于存储清洗后的数据;
所述数据分析模块用于对存储的数据进行异常监控信息分析,判定异常节点,并生成告警信息;
所述实时告警模块用于基于数据分析模块的分析结果,进行分析建议和多模式告警消息推送。
本发明的有益效果是:
1、能够实现网络设备硬件层、服务器操作系统层、微服务系统服务层、微服务应用系统层的四位一体监控告警能力。
2、实现在网络及安全设备监控告警能力,在服务器操作系统层面包括CPU、内存、磁盘、I\O资源使用的情况的监控和预警,在微服务系统各组件间的连通性、健康状况的监控和告警能力,同时在微服务系统应用层连通性上监控告警的能力。
3、本发明能够实现微服务系统故障点排错及修复建议,在出现告警信息时,通过对报错信息的特性进行分析,采用特殊字符判定算法、状态码分析算法、调用链宽度搜索匹配算法来确定故障节点,减轻技术人员问题排查的难度和节省时间。
4、对微服务治理提供优化建议,通过对告警信息及修复方案的数据持久化处理,对时间间隔内频繁出现的告警进行统计,对微服务系统的治理,包括服务的弹性伸缩、网络带宽的调节提供优化建议。
附图说明
图1为本发明实施例的一种微服务架构所应用的系统示意图;
图2为本发明一种微服务架构下监控告警方法的实施例的流程示意图;
图3为本发明微服务架构下监控告警方法的实施例的数据获取示意图;
图4为本发明实施例中异常监控信息分析流程示意图;
图5为发明实施例中宽度搜索匹配算法示意图;
图6为发明实施例中微服务节点存储转换图;
图7为本发明实施例的一种微服务架构下监控告警系统的结构框图。
具体实施方式
为了进一步理解本发明,首先对本发明提到的部分术语进行解释:
微服务架构:是一种架构概念,旨在通过将功能分解到各个离散的服务中以实现对解决方案的解耦。相比于传统的单体大应用,微服务架构对单体应用进行解耦,将应用程序分解成数个或者数十个的功能微服务,提供了灵活的服务支持能力。
微服务系统:指基于微服务架构进行开发的应用系统。
微服务组件:往往包括配置及注册中心、多类中间件、各类数据库、API网关、各个功能模块形成的微型服务。
侵入式SDK埋点:通过添加代码、配置拦截器等方式实现数据采集。
非侵入式探针:通过修改字节码的方式实现数据采集。
Kubernetes:微服务系统上线时,往往采用容器化方式进行封装,对于容器的编排,业内常用Kubernetes进行,用于微服务系统部署及治理。
为了便于本领域人员更好的理解本发明,下面结合附图和具体实施例对本发明做进一步详细说明,下述仅是示例性的不限定本发明的保护范围。
如图1所示,为一种微服务架构所应用的系统示意图,微服务系统上线后,为了确保安全,都会在网络出口处加上防火墙等安全防护设备,同时为了确保微服务系统的高可用基本上都采用分布式集群及微服务组件多副本部署的模式。当防火墙因某些原因拦截了系统访问请求后,在用户客户端上的现象是系统无法访问,因为网站无法正常返回数据。现有情况下,当接收到用户反馈后,运维工程师通常会直接排查微服务系统的问题,而忽略网络设备硬件层面的问题,从而在花费很多人力、物力、精力后,还是无法快速定位问题。本发明提供的网络硬件层、服务器操作系统层、微服务系统服务层、微服务应用系统层的四位一体监控告警能力,能够大大提升用户体验,快速定位和修复问题,实现用户问题反馈的快速闭环。
下面以本发明的一种微服务架构下监控告警方法应用在图1所示的系统中为例,对如图2所示的本发明的一种微服务架构下监控告警方法进行说明。
本实施例示出的一种微服务架构下监控告警方法包括以下步骤:
第一步,采集微服务系统运行时所关联的网络设备硬件层的运行状态数据、微服务系统运行时的服务器操作系统层的资源使用数据、微服务系统的微服务组件运行时的状态数据和调用链数据,以及,微服务应用系统层的访问响应数据。
下面以图3所示为例,对采集网络硬件层、服务器操作系统层、微服务系统服务层、微服务应用系统层数据的具体方式进行说明。
在一示出实例中,采集网络设备硬件层的运行状态数据,包括通过SNMP协议获取网络设备中的流量数据和通过HTTP协议获取安全防护设备中拦截数据。具体包括:
通过SNMP协议获取不同网络设备中的流量数据,至少包括交换机、路由器、防火墙、AP、软路由等的端口进流量ifInOctets和端口出流量ifOutOctets。
通过HTTP协议获取安全防护设备中的拦截数据,包括请求方法、请求URL、匹配字段MatchData和拦截信息等。
例如,{‘request_url’:‘http://xxx.xx.xx/cmp-smpuplad/uploadModelFile’,‘request_method’:‘PSOT’,‘MatchData’:‘CREATETABLESmUserInfo(……)’,‘type’:‘SQL注入攻击’}。
在一示出实例中,通过埋点方式获取微服务运行时的服务器操作系统层的资源使用数据。具体包括:
在微服务系统所运行服务器集群的每台服务器上部署运行一个数据收集器Agent。
实时获取服务器操作系统所使用资源信息,采集包括服务器主机名称、设备UUID编号、物理地址、CPU型号、CPU过去1分钟使用率、CPU过去5分钟使用率、CPU过去15分钟使用率、内存使用率、磁盘使用率以及网络吞吐量的数据。
在一示出实例中,通过侵入式SDK埋点和非侵入式探针结合的方式获取微服务组件运行时状态数据及调用链信息数据,具体步骤如下:
(1)侵入式SDK埋点:通过SDK手动埋点,生成Trace,获取微服务调用链信息,包括请求响应时间和连通性,即在程序中加入数据过滤的代码获取自定义的数据信息。
(2)非侵入式探针方式:
在本发明的一个实施例中,通过运行微服务系统所承载的编排调度集群Kubernetes,收集各微服务、中间件、内置虚拟网络连通性信息,至少包括微服务名称、cpu使用率、内存使用率、副本个数和通信端口信息。
在本发明的另一个实施例中,通过在微服务组件启动时运行Agent的模式,获取字节码信息。
在本发明的另一个实施例中,采用javaagent技术来实现非侵入式埋点。
在本发明的一个实施例中,在微服务系统组件启动时运行-javaagent或者运行时使用attach方式就可将探针包导入应用程序。
在一示出实例中,通过连续请求的方法获取微服务应用系统层的访问响应数据,具体步骤如下:
通过站点监控配置平台,收集微服务系统应用层通信信息,收集Web网站入口、服务注册发现及配置中心、API网关、中间件及数据库连通信息,记录HTTP状态码、响应时间、请求方法、URL信息。
基于ICMP和HTTP协议对实时在线的业务系统进行监控,通过ping命令获取服务器的连通性状态,通过telnet命令确认端口的连通状态;通过wget及curl命令方式获取网页首页index.html的内容,并通过title字段判断网面是否正常。
第二步,将采集的数据基于预设数据过滤模式进行清洗并存储。
在一示出实例中,预设关键字至少包括“不可达”、“连接超时”、“Exception”、“Warning”和“ERROR”;预设异常状态码信息至少包括401、404、491、493或5XX。
清洗后的数据至少包括含有特征值的数据、非20XHTTP状态码信息、Warning信息和ERROR信息,将其存入时序数据库Elasticsearch中,并完成数据持久化。
第三步,如图4所示,对存储的数据依次基于特殊字符判定、状态码和调用链宽度搜索匹配进行异常监控信息分析,从而得到异常发生的节点。
在一示出实例中,基于特殊字符判定进行异常监控信息分析具体包括:
实时监测如下异常信息:
网络设备硬件层中设备断连的特征值,包括connection refuse、connectiontimeout之类的关键字;
服务器操作系统层资源剩余占比率的Warning信息,比如Free disk space isless than 10%;
PING请求指令的返回值为“请求超时”的特征值;
TELNET请求指令的返回值为“无法打开到主机的连接”或者“连接失败”的特征值或ERROR信息;
若监测到上述任一告警或返回值信息,则判定异常并确定异常节点,否则转入状态码分析。
在一示出实例中,对存储的数据基于状态码进行异常监控信息分析,具体包括以下步骤:
判断存储的数据是否包括非20X HTTP状态码信息,若包括非20X HTTP状态码信息且该状态码信息为预设异常状态码信息,则判定异常并确定异常发生的节点,否则转入调用链宽度搜索匹配分析。
具体的,本实施例中,预设异常状态码信息包括状态码为491(Request Pending)和493(Undecipherable)的告警信息、状态码为404的告警信息、状态码为401的告警信息以及状态码为5XX的告警消息。
根据预设异常状态码信息判定异常并确定异常节点具体包括以下步骤:
若异常状态码信息为401,则遍历查询各微服务组件与数据库的连通性信息,获取异常信息;判断异常信息中是否包括数据库不可达或者统一认证AD域不可达,若不包括数据库不可达或者统一认证AD域不可达,则判断用户密码输入错误,否则,将分别对应数据库不可达或者统一认证AD域不可达的异常信息进行告警通知;
若异常状态码信息为404,则判定发生网站页面丢失,将对应URL作为告警信息进行告警通知;
若异常状态码信息为491或493,则判定请求被安全设备拦截,进行告警通知;
若异常状态码信息为5XX,则判定系统服务端端错误,进行告警通知。
在一示出实例中,对存储的数据基于调用链宽度搜索匹配进行异常监控信息分析,具体包括以下步骤:
对于微服务系统各服务间调用链的告警信息,采用宽度搜索匹配算法对调用链错误节点进行分析,如图5所示,具体步骤为:
1)预先建立以服务注册发现及配置中心、各微服务、中间件、数据库为节点,具有通信关系的服务为边的有向图。
在一个具体示例中,如图6所示,以微服务service_name作为节点名称,建立有向图。以图6所示的微服务应用为例,包括节点MicroService_1、MicroService_2、MicroService_3、MicroService_4、MicroService_5和MicroService_6”,服务网关Api_gateway,服务注册发现及配置中心Nacos,中间件kafka和rocketmq,数据库Ms1_db和Ms2_db。节点进行存储转换后的存储结构体为:{"service_name":"MicroService_1","warning_info": "","warning_timestamp":"","links_service":[nacos,kafka,ms1_db],"is_visited":false}。
2)根据Warning信息和ERROR信息,基于service_name字段获取错误节点的节点名称。
3)以错误节点为根节点进行宽度搜索,将错误节点加入到队列中,队首节点出队后,将此节点的is_visited标记为true,然后将关联节点links_service字段全部加入到队尾,其中当待加入节点的is_vistied为true时不加入队列。
在一个具体示例中,如图6所示,假设最初出现告警信息的是MicroService_1节点,将MicroService_1节点加入对列中:
当队列不为空一直循环。
① 队首节点出队,即第一次循环中MicroService_1节点出队;
② 队首节点的关联节点links_service字段的节点列表加入到队列中,即第一次循环MicroService_1关联节点links_service字段中的kafka、ms1_db、nacos加入到队列;
③ 当前出队的节点is_visited变量标记为true,证明已经访问过。
4)基于该错误节点的Warning信息或ERROR信息的时间戳,匹配该时间戳前3秒的日志信息,如果出现与Warning信息或ERROR信息匹配的值,则将对应的节点信息写入至结果列表中;当队列为空时,退出搜索,并将结果列表进行告警通知。
由于服务间的通信速度很快,本实施例中通过回溯3秒告警信息来增加信息匹配的数据量,提高报警匹配的准确率。当出现匹配waring_info的值后,证明找到了问题节点,可以将其加入到结果列表中,与最初节点越近的节点,在结果列表中的优先级越高。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
本发明的另一个实施例为一种微服务架构下监控告警系统,用于实现上述实施例中的微服务架构下监控告警方法。如图7所示,其包括高可用数据库、监控信息收集模块、数据分析模块和实时告警模块。
其中,监控信息收集模块用于采集微服务系统运行时所关联的网络设备硬件层的运行状态数据、微服务系统运行时的服务器操作系统层的资源使用数据、微服务系统的微服务组件运行时的状态数据和调用链数据,以及,微服务应用系统层的访问响应数据;
高可用数据库包括高可用关系型数据库和高可用时序数据库,所述高可用关系型数据用于存储服务器集群信息、微服务系统组件的关联关系、微服务组件基本信息、微服务组件运行与服务器的关联信息和联系人信息,所述高可用时序数据库用于存储清洗后的数据;
数据分析模块用于对存储的数据进行异常监控信息分析,判定异常节点,并生成告警信息;
实时告警模块用于基于数据分析模块的分析结果,进行分析建议和多模式告警消息推送。
在一些示例中,告警消息推送包括通过短信、邮件、钉钉等方式将告警信息和分析结果反馈至用户。比如:
(1)对于网络设备中设备断连的告警信息,第一时间通知至网络管理员;
(2)对于服务器操作系统层资源剩余占比率的告警信息,通知至服务器管理员调整资源量;
(3)对于PING请求指令的返回值为“请求超时”,通知服务器管理员服务器处于丢失IP状态或者宕机异常状态;
(4)对于TELNET请求指令的返回值为“无法打开到主机的连接”或者“连接失败”时,通知服务器管理员服务端口不可达;
(5)对于HTTP状态码为491(Request Pending)和493(Undecipherable)的告警信息将消息通知至安全管理员;
(6)对于状态码为404的告警信息,属于是网站页面丢失状况,将对应URL发送至研发及运维负责人排查网站的状态;
(7)对于状态码为401的告警信息,遍历并递归查询各微服务组件的连通性信息,判断告警信息中是否含有“数据库不可达”或者“统一认证AD域不可达”,若含有数据库不可达信息,将告警消息发送至研发及配置管理员;若统一认证AD域不可达,则将告警信息发送至AD域管理员和研发负责人;若无对应告警消息,则反馈用户是否输入有误的密码;
(8)对于状态码为50x的告警消息,属于系统server端错误,将告警日志发送至研发及运维负责人。
需要说明的是,本发明提出的一种微服务架构下监控告警方法和系统,除了对于故障的排查,还可以对微服务治理提供优化建议。例如上午9:00-10:00间流量处于尖峰时,系统压力比较大,需要扩容以满足需求,就可以提前启动多个微服务副本已应对压力,同样在压力减少时回收资源。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
Claims (7)
1.一种微服务架构下监控告警方法,其特征在于,包括:
采集微服务系统运行时所关联的网络设备硬件层的运行状态数据,具体包括:通过SNMP协议获取网络设备中的流量数据和通过HTTP协议获取安全防护设备中的拦截数据,其中,所述网络设备中的流量数据至少包括交换机、路由器的端口进流量和端口出流量,所述安全防护设备中的拦截数据至少包括请求方法、请求URL、匹配字段MatchData和拦截信息;
采集微服务系统运行时的服务器操作系统层的资源使用数据,具体包括:在微服务系统的每台服务器上部署运行数据采集器,实时获取服务器操作系统层的资源使用数据,至少包括服务器主机名称、设备UUID、物理地址、CPU型号、CPU的使用率、内存使用率、磁盘使用率和网络吞吐量;
采集微服务系统的微服务组件运行时的状态数据和调用链数据,具体包括:基于嵌入式SDK埋点的方式,获取微服务组件调用链数据,以及采用非侵入式探针的方式获取微服务组件运行过程中所使用的CPU、内存、磁盘和网络流量;
以及,采集微服务应用系统层的访问响应数据,具体包括;基于ICMP和HTTP协议实时对在线的微服务业务系统进行监控,通过wget及curl命令方式获取网页首页index.html的内容,并通过title字段判断网面是否正常;
将采集的数据基于预设数据过滤模式进行清洗并存储,其中,清洗后的数据至少包括含有特征值的数据、非20XHTTP状态码信息、Warning信息和ERROR信息;
对存储的数据依次基于特殊字符判定、状态码和调用链宽度搜索匹配进行异常监控信息分析,判定异常节点,并进行告警通知。
2.根据权利要求1所述的一种微服务架构下监控告警方法,其特征在于,对存储的数据基于特殊字符判定进行异常监控信息分析,具体包括:
实时监测如下异常信息:
网络设备硬件层中设备断连的特征值;
服务器操作系统层资源剩余占比率的Warning信息;
PING请求指令的返回值为“请求超时”的特征值;
TELNET请求指令的返回值为“无法打开到主机的连接”或者“连接失败”的特征值或ERROR信息;
若监测到上述任一异常信息,则判定异常并确定异常节点,否则转入状态码分析。
3.根据权利要求2所述的一种微服务架构下监控告警方法,其特征在于,对存储的数据基于状态码进行异常监控信息分析,具体包括:
判断存储的数据是否包括非20X HTTP状态码信息,
若包括非20X HTTP状态码信息且该状态码信息为预设异常状态码信息,则判定异常并告警,否则转入调用链宽度搜索匹配分析。
4.根据权利要求3所述的一种微服务架构下监控告警方法,其特征在于,根据预设异常状态码信息判定异常并确定异常节点具体包括:
若异常状态码信息为401,则遍历查询各微服务组件与数据库的连通性信息,获取异常信息;判断异常信息中是否包括数据库不可达或者统一认证AD域不可达,若不包括数据库不可达或者统一认证AD域不可达,则判断用户密码输入错误,否则,将分别对应数据库不可达或者统一认证AD域不可达的异常信息进行告警通知;
若异常状态码信息为404,则判定发生网站页面丢失,将对应URL作为告警信息进行告警通知;
若异常状态码信息为491或493,则判定请求被安全设备拦截,进行告警通知;
若异常状态码信息为5XX,则判定系统服务端错误,进行告警通知。
5.根据权利要求3所述的一种微服务架构下监控告警方法,其特征在于,对存储的数据基于调用链宽度搜索匹配进行异常监控信息分析,具体包括:
建立以服务注册发现及配置中心、微服务、中间件、数据库为节点,具有通信关系的服务为边的有向图;
根据Warning信息和ERROR信息,获取错误节点的节点名称;
以错误节点为根节点进行宽度搜索,递归搜索该错误节点的所有关联节点,通过如下方式匹配告警信息:
基于该错误节点的Warning信息或ERROR信息的时间戳,匹配该时间戳前若干秒的日志信息,如果出现与所述Warning信息或ERROR信息匹配的值,则将对应的节点信息写入至结果列表中;当队列为空时,退出搜索,并将结果列表进行告警通知。
6.根据权利要求3-5任一项所述的一种微服务架构下监控告警方法,其特征在于,将采集的数据基于预设数据过滤模式进行清洗具体包括:
基于预设关键字和异常状态码信息对采集的数据进行过滤,所述预设关键字至少包括“不可达”、“连接超时”、“Exception”、“Warning”和“ERROR”;所述预设异常状态码信息至少包括401、404、491、493或5XX。
7.一种微服务架构下监控告警系统,用于实现如权利要求1-6任一项所述的方法,其特征在于,包括高可用数据库、监控信息收集模块、数据分析模块和实时告警模块;
所述监控信息收集模块用于采集微服务系统运行时所关联的网络设备硬件层的运行状态数据、微服务系统运行时的服务器操作系统层的资源使用数据、微服务系统的微服务组件运行时的状态数据和调用链数据,以及,微服务应用系统层的访问响应数据;
所述高可用数据库包括高可用关系型数据库和高可用时序数据库,所述高可用关系型数据用于存储服务器集群信息、微服务系统组件的关联关系、微服务组件基本信息、微服务组件运行与服务器的关联信息和联系人信息,所述高可用时序数据库用于存储清洗后的数据;
所述数据分析模块用于对存储的数据进行异常监控信息分析,判定异常节点,并生成告警信息;
所述实时告警模块用于基于数据分析模块的分析结果,进行分析建议和多模式告警消息推送。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310560684.XA CN116302862B (zh) | 2023-05-18 | 2023-05-18 | 一种微服务架构下监控告警方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310560684.XA CN116302862B (zh) | 2023-05-18 | 2023-05-18 | 一种微服务架构下监控告警方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116302862A CN116302862A (zh) | 2023-06-23 |
CN116302862B true CN116302862B (zh) | 2023-08-11 |
Family
ID=86827282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310560684.XA Active CN116302862B (zh) | 2023-05-18 | 2023-05-18 | 一种微服务架构下监控告警方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116302862B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194176B (zh) * | 2023-11-03 | 2024-06-04 | 中国电子科技集团公司第十五研究所 | 非侵入式运行监测方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108512689A (zh) * | 2017-12-15 | 2018-09-07 | 中国平安财产保险股份有限公司 | 微服务业务监控方法及服务器 |
CN108833137A (zh) * | 2018-05-18 | 2018-11-16 | 南京南瑞信息通信科技有限公司 | 一种柔性微服务监控框架架构 |
CN110535722A (zh) * | 2019-08-27 | 2019-12-03 | 江苏瑞中数据股份有限公司 | 一种跨安全区域的微服务全链路运行监控方法 |
CN110688277A (zh) * | 2019-09-12 | 2020-01-14 | 上海易点时空网络有限公司 | 用于微服务框架的数据监控方法及装置 |
WO2021008031A1 (zh) * | 2019-07-16 | 2021-01-21 | 平安普惠企业管理有限公司 | 基于微服务实现监控智能化的处理方法及电子装置 |
CN112653586A (zh) * | 2019-10-12 | 2021-04-13 | 苏州工业园区测绘地理信息有限公司 | 基于全链路监控的时空大数据平台应用性能管理方法 |
CN113535513A (zh) * | 2021-07-02 | 2021-10-22 | 厦门点触科技股份有限公司 | 一种基于微服务架构的全球后台服务端运行状态监控系统及方法 |
CN113704052A (zh) * | 2021-07-21 | 2021-11-26 | 郑州云海信息技术有限公司 | 一种微服务架构的运维系统、方法、设备及介质 |
CN113778985A (zh) * | 2021-08-19 | 2021-12-10 | 上海东普信息科技有限公司 | 微服务架构监控方法、装置、计算机设备和存储介质 |
CN114328124A (zh) * | 2021-12-31 | 2022-04-12 | 中企链信(北京)科技有限公司 | 用于业务监控的方法以及装置、存储介质、电子装置 |
-
2023
- 2023-05-18 CN CN202310560684.XA patent/CN116302862B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108512689A (zh) * | 2017-12-15 | 2018-09-07 | 中国平安财产保险股份有限公司 | 微服务业务监控方法及服务器 |
CN108833137A (zh) * | 2018-05-18 | 2018-11-16 | 南京南瑞信息通信科技有限公司 | 一种柔性微服务监控框架架构 |
WO2021008031A1 (zh) * | 2019-07-16 | 2021-01-21 | 平安普惠企业管理有限公司 | 基于微服务实现监控智能化的处理方法及电子装置 |
CN110535722A (zh) * | 2019-08-27 | 2019-12-03 | 江苏瑞中数据股份有限公司 | 一种跨安全区域的微服务全链路运行监控方法 |
CN110688277A (zh) * | 2019-09-12 | 2020-01-14 | 上海易点时空网络有限公司 | 用于微服务框架的数据监控方法及装置 |
CN112653586A (zh) * | 2019-10-12 | 2021-04-13 | 苏州工业园区测绘地理信息有限公司 | 基于全链路监控的时空大数据平台应用性能管理方法 |
CN113535513A (zh) * | 2021-07-02 | 2021-10-22 | 厦门点触科技股份有限公司 | 一种基于微服务架构的全球后台服务端运行状态监控系统及方法 |
CN113704052A (zh) * | 2021-07-21 | 2021-11-26 | 郑州云海信息技术有限公司 | 一种微服务架构的运维系统、方法、设备及介质 |
CN113778985A (zh) * | 2021-08-19 | 2021-12-10 | 上海东普信息科技有限公司 | 微服务架构监控方法、装置、计算机设备和存储介质 |
CN114328124A (zh) * | 2021-12-31 | 2022-04-12 | 中企链信(北京)科技有限公司 | 用于业务监控的方法以及装置、存储介质、电子装置 |
Non-Patent Citations (1)
Title |
---|
面向微服务系统的服务调用链路监控与分析;李鹏;中国优秀硕士学位论文全文数据库 (信息科技辑);I138-459 * |
Also Published As
Publication number | Publication date |
---|---|
CN116302862A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6813634B1 (en) | Network fault alerting system and method | |
US20040205689A1 (en) | System and method for managing a component-based system | |
US6430613B1 (en) | Process and system for network and system management | |
CN105282772B (zh) | 无线网数通设备监控系统及设备监控方法 | |
US8676945B2 (en) | Method and system for processing fault alarms and maintenance events in a managed network services system | |
CN103414916B (zh) | 一种故障诊断系统及方法 | |
CN104219091A (zh) | 一种网络运行故障检测系统及其方法 | |
US20060230309A1 (en) | System for remote fault management in a wireless network | |
JP2004021549A (ja) | ネットワーク監視システムおよびプログラム | |
CN101582807A (zh) | 一种基于北向接口实现网络管理的方法及系统 | |
CN116302862B (zh) | 一种微服务架构下监控告警方法和系统 | |
CN101312405A (zh) | 一种告警处理方法及网管系统 | |
CN107635003A (zh) | 系统日志的管理方法、装置及系统 | |
CN100499502C (zh) | 陷阱解析与预处理系统及方法 | |
CN113612647A (zh) | 一种告警处理方法及装置 | |
CN101267335B (zh) | 一种保证简单网络管理协议告警成功收发的方法 | |
CN100505643C (zh) | 一种网络管理系统及其通信方法 | |
CN105024863A (zh) | 网络告警的处理方法、告警服务器和网络告警处理系统 | |
CN100413248C (zh) | 一种基于流量进行计费的改进方法和系统 | |
KR100964392B1 (ko) | 망 관리에서의 장애 관리 시스템 및 그 방법 | |
CN115835275A (zh) | 一种5g cpe故障诊断的方法及装置 | |
CN106301826A (zh) | 一种故障检测方法及装置 | |
CN103248505B (zh) | 基于视图的网络监控方法及装置 | |
CN113285937A (zh) | 一种基于传统变电站配置文件和iec103协议流量的安全审计方法及系统 | |
KR19980026888A (ko) | 비동기식전송방식(atm) 장치에서 단순망관리규약(snmp)을 사용한 원격지에서의 장애관리방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |