CN110086682B - 基于tcp的服务链路调用关系视图和故障根因定位方法 - Google Patents
基于tcp的服务链路调用关系视图和故障根因定位方法 Download PDFInfo
- Publication number
- CN110086682B CN110086682B CN201910427429.1A CN201910427429A CN110086682B CN 110086682 B CN110086682 B CN 110086682B CN 201910427429 A CN201910427429 A CN 201910427429A CN 110086682 B CN110086682 B CN 110086682B
- Authority
- CN
- China
- Prior art keywords
- data
- information
- alarm
- calling
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/065—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/22—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明属于信息技术领域,提供了基于TCP的服务链路调用关系视图和故障根因定位方法,本发明的目的在于针对上述缺陷,提供提供一种能确定故障影响的范围的方法。其主要方案包括:对服务器所在主机进行netstat采集数据,得到服务器之间原始调用信息,并对原始数据进行数据清洗并存入数据库;分别从数据库读取IP调用关系信息和IP详细属性;根据IP调用关系信息,获得服务间调用关系和服务的详细属性存入redis;获取原始告警并进行分析,得到关联服务的告警数据并存入redis;从redis中获取步骤4存入的数据和告警数据,在可视化链路图中的链路中将对应告警服务标红并改变节点形状,然后在详情中展示告警信息。
Description
技术领域
本发明展示服务之间调用关系,属于信息技术、软件开发技术领域,适用于服务之间调用关系展示和故障根因分析。
背景技术
目前已知的故障定位技术方案有:网络层面的数据包加以分析,获取故障节点地址,再进一步分析故障发生源头;通过跟踪应用之间的调用关系来进行监控。
现有的与本提案相关的的技术方案是,【CN107294780A】基于网络监听的资源类互联网故障定位方法,采用网络监听技术捕获计算机所传输的数据帧并对其加以分析,获取故障IP,最后通过路由跟踪定位出互联网业务故障的源地址厂商。
该技术方案和本提案的技术方案的不同在于,一是该技术方案只定位单节点故障,本提案除了定位单节点故障,还会通过链路调用链图分析出该故障节点可能影响的其他节点;二是该技术方案是通过网络监听技术获取数据包判断故障节点,本提案是通过监控服务端口和进程是否存活定位到故障节点,并展示到链路调用链图,如果发生服务故障,可以根据链路调用关系确定该故障影响的范围,并调用告警平台接口通知相关业务人员该故障可能带来的影响。
该技术方案有以下缺点:一是不能确定故障影响的范围,没有链路调用展示图;二是监控手段单一,仅从网络层面做了故障分析。本提案有多种采集数据的手段,结合告警系统做了链路调用展示图,以及告警通知,可以直观的看到故障的影响范围。
发明内容
本发明的目的在于针对上述缺陷,提供一种基于TCP的服务链路调用关系视图和故障根因定位方法。
本发明为解决上述问题提供以下技术方案:
基于TCP的服务链路调用关系视图和故障根因定位方法,包括以下步骤:
步骤1:对服务器所在主机进行netstat采集数据,得到服务器之间原始调用信息,并对原始数据进行数据清洗,调用数据存储接口将数据存入数据库;
步骤1包括以下步骤:
步骤1.1:纳入监控的所有主机分别获取与自己通信的IP和端口信息;
步骤1.2:对获取的IP端口信息进行初步分析,根据本地端口是否在本地监听的端口列表来判断上下游关系,得到包含其上下游调用关系的IP调用关系信息,然后调用数据存储接口将IP调用关系信息存入数据库;
步骤2:分别从数据库读取IP调用关系信息和IP详细属性;
步骤2包括以下步骤:
步骤2.1:从数据库获取IP调用关系信息;
步骤2.2:根据IP调用关系信息,通过配置管理数据库获取IP的详细属性,IP的详细属性包括所属服务、服务类型。
步骤3:链路数据初步分析,根据IP调用关系信息,通过CMDB(配置管理数据库),获得服务间调用关系和服务的详细属性(应用名,系统名,子系统名,机房分布信息,主机的资源使用情况包括cpu,内存),得到服务信息,将服务信息数据存入redis(key-value存储系统);
步骤3包括以下步骤:
步骤3.1:根据之前步骤获取到IP详细属性、IP调用关系信息、机房分布信息,资源使用情况信息;
步骤3.2:将包含服务之间的调用关系和服务的详细属性的服务信息,存入redis;
步骤4:获取原始告警并进行分析,得到关联服务的告警数据并存入redis;
步骤4包括以下步骤:
步骤4.1:设置cron任务,每分钟采集一次告警数据;
步骤4.2:获取静态资源数据,将告警数据与服务的详细属性匹配;告警数据通过告警平台API采集,采集到的数据中会有IP信息,通过IP信息去CMDB中查询相关的应用、系统名称,构造{系统名:告警数据}的k-v结构;
步骤4.3:将匹配到的数据带上时间标志,push到redislist结构中,结构类似于[{timestamp:xxxx,data:{}},{timestamp:xxx,data:{}}],保存最近30分钟数据,每次获取告警。
步骤5:获取后台返回格式化数据(从redis中获取步骤四存入的数据),绘制链路图形;
步骤5包括以下步骤:
步骤5.1:配置charts可视化库,获取后台数据;
步骤5.2:遍历节点数据(数据节点是子系统、系统和应用,子系统之间是调用关系,子系统与对应的系统、应用之间是所属关系。子系统与系统、应用对应关系从CMDB中获取),将对应的服务信息存放入服务列表(服务列表是echarts绘图需要的一个list。代码中的变量),绘制出可视化链路图;
链路关系和redis中的告警信息是解耦的,对于一个链路关系图,加载到浏览器中基本的节点信息和关系信息就不会发生改变,而告警信息需要实时展示。告警数据获取是数据流,不是一次初始化加载的数据。为此本发明还提供了步骤6:从redis中获取告警数据,在可视化链路图中的链路中将对应告警服务标红并改变节点形状,然后在详情中展示告警信息。
步骤6包括以下步骤:
步骤6.1:后台通过redis,获取告警数据进行遍历;
步骤6.2:将告警数据与服务列表进行匹配,并将告警标志展示在时间选择框上;步骤4.2是告警和IP匹配,但是对于一个链路图来说,一个链路图中的IP不一定会有告警的IP。这里主要是匹配链路图中服务的IP是否有告警,并展示出来。
步骤6.3:对于可视化链路图,将告警的节点重新绘制,颜色标红并且改变样式;
步骤6.4:在节点详情中展示告警信息。
因为本发明采用以上技术方案,因此具备以下有益效果:
一、针对现有技术方案不能确定故障影响范围,本提案通过TCP调用关系,能够绘制出服务的调用关系视图,可视化展示链路关系,由于存在服务直接的链路调用关系,当单个服务出现故障的时候,如果存在和其他服务直接的调用关系,那么该故障可能会影响存在调用关系的其他服务,可以在告警发生的时候能够确定告警影响范围。
二、采用的技术手段:通过netstat和ss命令采集主机上TCP调用信息;然后过滤无用信息,关联对应的服务,初步分析存入redis中。
三、丰富数据采集手段,与单一网络层面故障分析不同,本提案通过TCP采集数据进行服务调用关系梳理和展示,并通过接入告警信息进行红盘展示。能够确定服务上下游信息和数据大盘可视化。
四、采用的技术手段:监控打点,前端echarts库进行可视化展示,使用UI库进行前端设计。
附图说明
图1是本发明的平台基本架构图;
图2是本发明的数据流向图;
图3是本发明的效果展示图。
具体实施方式
基于TCP的服务链路调用关系视图和故障根因定位方法,包括以下步骤:
步骤1:对服务器所在主机进行netstat采集数据,得到服务器之间原始调用信息,如下表1所示,并对原始数据进行数据清洗,调用数据存储接口将数据存入数据库;
步骤1包括以下步骤:
步骤1.1:纳入监控的所有主机分别获取与自己通信的IP和端口信息;
步骤1.2:对获取的IP端口信息进行初步分析,根据本地端口是否在本地监听的端口列表来判断上下游关系,得到其上下游调用关系,然后调用数据存储接口存入数据库;
步骤2:分别从数据库读取IP调用关系信息和服务IP信息;
步骤2包括以下步骤:
步骤2.1:从数据库获取IP调用关系信息;
步骤2.2:根据IP信息,通过配置管理数据库获取IP的详细属性,包括所属服务、服务类型。
步骤3:链路数据初步分析,根据IP调用关系信息IP,通过CMDB(配置管理数据库),获得服务间调用关系和服务的详细属性,完成数据格式化,将格式化后的数据存入redis(key-value存储系统);
步骤3包括以下步骤:
步骤3.1:根据之前步骤获取到IP信息、tcp调用关系、告警信息、服务信息、机房分布信息,资源使用情况信息;
步骤3.2:将服务之间的调用关系和服务的详细属性,存入redis;
步骤4:获取原始告警并进行分析,得到关联服务的告警数据并存入redis;
步骤4包括以下步骤:
步骤4.1:设置cron任务,每分钟采集一次告警数据;
步骤4.2:获取静态资源数据,将告警数据与服务信息匹配;告警数据通过告警平台API采集,采集到的数据中会有IP信息,通过IP信息去CMDB中查询相关的应用、系统名称,构造{系统名:告警数据}的k-v结构;
步骤4.3:将匹配到的数据带上时间标志,push到redislist结构中,结构类似于[{timestamp:xxxx,data:{}},{timestamp:xxx,data:{}}],保存最近30分钟数据,每次获取告警。
步骤5:获取后台返回格式化数据,绘制链路图形;
步骤5包括以下步骤:
步骤5.1:导入echarts可视化库,获取后台数据;
步骤5.2:遍历节点数据,将对应的服务存放入服务列表,绘制出可视化链路图;
步骤6:从redis中获取告警数据,在链路中将对应告警服务标红并改变节点形状,然后在详情中展示告警信息。
步骤6包括以下步骤:
步骤6.1:后台通过redis,获取告警数据进行遍历;
步骤6.2:将告警数据与服务列表进行匹配,并将告警标志展示在时间选择框上;
步骤6.3:对于可视化链路图,将告警的节点重新绘制,颜色标红并且改变样式。
Claims (5)
1.基于TCP的服务链路调用关系视图和故障根因定位方法,包括以下步骤:
步骤1:对服务器所在主机进行netstat采集数据,得到服务器之间原始调用信息,并对原始数据进行数据清洗,调用数据存储接口将数据存入数据库;
步骤2:分别从数据库读取IP调用关系信息和IP详细属性;
步骤3:链路数据初步分析,根据IP调用关系信息,通过CMDB,获得服务间调用关系和服务的详细属性,得到服务信息,将服务信息数据存入redis;
步骤4:获取原始告警并进行分析,得到关联服务的告警数据并存入redis;
步骤5:从redis中获取步骤4存入的数据;
步骤6:从redis中获取告警数据,在可视化链路图中的链路中将对应告警服务标红并改变节点形状,然后在详情中展示告警信息;
步骤1包括以下步骤:
步骤1.1:纳入监控的所有主机分别获取与自己通信的IP和端口信息;
步骤1.2:对获取的IP端口信息进行初步分析,根据本地端口是否在本地监听的端口列表来判断上下游关系,得到包含其上下游调用关系的IP调用关系信息,然后调用数据存储接口将IP调用关系信息存入数据库;
步骤4包括以下步骤:
步骤4.1:设置cron任务,每分钟采集一次告警数据;
步骤4.2:获取静态资源数据,将告警数据与服务的详细属性匹配;告警数据通过告警平台API采集,采集到的数据中会有IP信息,通过IP信息去CMDB中查询相关的应用、系统名称,构造{系统名:告警数据}的k-v结构;
步骤4.3:将匹配到的数据带上时间标志,push到redislist结构中,保存最近30分钟数据,每次获取告警。
2.一种根据权利要求1所述的基于TCP的服务链路调用关系视图和故障根因定位方法,步骤2包括以下步骤:
步骤2.1:从数据库获取IP调用关系信息;
步骤2.2:根据IP调用关系信息,通过配置管理数据库获取IP的详细属性,IP的详细属性包括所属服务、服务类型。
3.一种根据权利要求1所述的基于TCP的服务链路调用关系视图和故障根因定位方法,步骤3包括以下步骤:
步骤3.1:根据之前步骤获取到IP信息、IP调用关系、机房分布信息,资源使用情况信息;
步骤3.2:将包含服务之间的调用关系和服务的详细属性的服务信息,存入redis。
4.一种根据权利要求1所述的基于TCP的服务链路调用关系视图和故障根因定位方法,步骤5包括以下步骤:
步骤5.1:配置charts可视化库,获取后台数据;
步骤5.2:遍历节点数据,将对应的服务信息存放入服务列表,绘制出可视化链路图。
5.一种根据权利要求1所述的基于TCP的服务链路调用关系视图和故障根因定位方法,步骤6包括以下步骤:
步骤6.1:后台通过redis,获取告警数据进行遍历;
步骤6.2:将告警数据与服务列表进行匹配,并将告警标志展示在时间选择框上;
步骤6.3:对于可视化链路图,将告警的节点重新绘制,颜色标红并且改变样式;步骤6.4:在节点详情中展示告警信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910427429.1A CN110086682B (zh) | 2019-05-22 | 2019-05-22 | 基于tcp的服务链路调用关系视图和故障根因定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910427429.1A CN110086682B (zh) | 2019-05-22 | 2019-05-22 | 基于tcp的服务链路调用关系视图和故障根因定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110086682A CN110086682A (zh) | 2019-08-02 |
CN110086682B true CN110086682B (zh) | 2022-06-24 |
Family
ID=67421196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910427429.1A Active CN110086682B (zh) | 2019-05-22 | 2019-05-22 | 基于tcp的服务链路调用关系视图和故障根因定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110086682B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988432A (zh) * | 2019-12-02 | 2021-06-18 | 上海宝信软件股份有限公司 | 使用诊断分析大盘定位故障方法、系统及介质 |
CN110943867B (zh) * | 2019-12-05 | 2022-08-16 | 上交所技术有限责任公司 | 一种通过网络关系推演应用架构信息的系统及方法 |
CN111405049A (zh) * | 2020-03-19 | 2020-07-10 | 北京金山云网络技术有限公司 | 云存储系统的服务调用信息确定方法、装置及系统 |
CN111782737B (zh) * | 2020-08-12 | 2024-05-28 | 中国工商银行股份有限公司 | 信息处理方法、装置、设备及存储介质 |
CN112866010B (zh) * | 2021-01-04 | 2023-01-20 | 聚好看科技股份有限公司 | 一种故障定位方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103001811A (zh) * | 2012-12-31 | 2013-03-27 | 北京启明星辰信息技术股份有限公司 | 故障定位方法和装置 |
CN107124299A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 基于资源拓扑的资源预警方法及系统 |
CN107193669A (zh) * | 2017-05-09 | 2017-09-22 | 千寻位置网络有限公司 | 基于混合云或大规模集群的维护接口的系统和设计方法 |
CN108599977A (zh) * | 2018-02-13 | 2018-09-28 | 南京途牛科技有限公司 | 基于统计方法监控系统可用性的系统及方法 |
CN109120448A (zh) * | 2018-08-24 | 2019-01-01 | 武汉思普崚技术有限公司 | 一种告警方法及系统 |
CN109144829A (zh) * | 2018-08-30 | 2019-01-04 | 深圳供电局有限公司 | 故障处理方法、装置、计算机设备和存储介质 |
CN109165141A (zh) * | 2018-08-10 | 2019-01-08 | 武汉优品楚鼎科技有限公司 | 一种计算机系统运维可视化监控方法、系统及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6816461B1 (en) * | 2000-06-16 | 2004-11-09 | Ciena Corporation | Method of controlling a network element to aggregate alarms and faults of a communications network |
-
2019
- 2019-05-22 CN CN201910427429.1A patent/CN110086682B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103001811A (zh) * | 2012-12-31 | 2013-03-27 | 北京启明星辰信息技术股份有限公司 | 故障定位方法和装置 |
CN107124299A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 基于资源拓扑的资源预警方法及系统 |
CN107193669A (zh) * | 2017-05-09 | 2017-09-22 | 千寻位置网络有限公司 | 基于混合云或大规模集群的维护接口的系统和设计方法 |
CN108599977A (zh) * | 2018-02-13 | 2018-09-28 | 南京途牛科技有限公司 | 基于统计方法监控系统可用性的系统及方法 |
CN109165141A (zh) * | 2018-08-10 | 2019-01-08 | 武汉优品楚鼎科技有限公司 | 一种计算机系统运维可视化监控方法、系统及装置 |
CN109120448A (zh) * | 2018-08-24 | 2019-01-01 | 武汉思普崚技术有限公司 | 一种告警方法及系统 |
CN109144829A (zh) * | 2018-08-30 | 2019-01-04 | 深圳供电局有限公司 | 故障处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110086682A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110086682B (zh) | 基于tcp的服务链路调用关系视图和故障根因定位方法 | |
US11921791B2 (en) | Cardinality of time series | |
US20190123988A1 (en) | Anomaly detection service | |
US20200125433A1 (en) | Anomaly detection for data stream processing | |
US20190146960A1 (en) | Data enrichment and augmentation | |
JP5886712B2 (ja) | 分散環境におけるトランザクション別に区別されたメトリックの効率的収集 | |
CN105608517B (zh) | 基于流的业务交易性能管理及可视化方法和装置 | |
JP5913145B2 (ja) | ログ可視化装置及び方法及びプログラム | |
US11676345B1 (en) | Automated adaptive workflows in an extended reality environment | |
CN111343029B (zh) | 一种基于数据转发节点拓扑监控的监控平台及方法 | |
CN106209455A (zh) | 一种跨系统弱耦合的关联业务故障定位方法及系统 | |
JP2010146306A (ja) | 構成監視システム及び構成監視方法 | |
CN109254901A (zh) | 一种指标监测方法及系统 | |
CN107872351B (zh) | 一种数据采集系统及采集方法 | |
CN107404417A (zh) | 一种监控数据的处理方法、处理装置及处理系统 | |
CN116232963A (zh) | 一种链路跟踪方法及系统 | |
CN111624970A (zh) | 一种信息上报方法、装置、设备及生产控制系统 | |
CN112052134A (zh) | 一种业务数据的监控方法及装置 | |
CN116562848B (zh) | 一种运维管理平台 | |
CN112910696A (zh) | 一种网络拓扑自动化建模分析方法 | |
TW201525917A (zh) | 交互應用中標記可操作圖示的方法和裝置 | |
US11615363B2 (en) | Digital chat conversation and virtual agent analytics | |
US20210156401A1 (en) | Vehicle with a Boom Comprising a Hydraulic Control Circuit with a Load Control Valve | |
CN113010208A (zh) | 一种版本信息的生成方法、装置、设备及存储介质 | |
CN107301125A (zh) | 一种寻找根源错误的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |