CN105991340B - 一种故障访问链路筛选方法及装置 - Google Patents

一种故障访问链路筛选方法及装置 Download PDF

Info

Publication number
CN105991340B
CN105991340B CN201510100136.4A CN201510100136A CN105991340B CN 105991340 B CN105991340 B CN 105991340B CN 201510100136 A CN201510100136 A CN 201510100136A CN 105991340 B CN105991340 B CN 105991340B
Authority
CN
China
Prior art keywords
access link
server
called
alarm information
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510100136.4A
Other languages
English (en)
Other versions
CN105991340A (zh
Inventor
黄浩宇
聂鑫
梁定安
黄兆鹏
霍特
杨波
陶凛然
赵子青
黄伟俊
曹凤龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510100136.4A priority Critical patent/CN105991340B/zh
Publication of CN105991340A publication Critical patent/CN105991340A/zh
Application granted granted Critical
Publication of CN105991340B publication Critical patent/CN105991340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种故障访问链路筛选方法与装置,其中该方法包括:接收第一访问链路告警信息;根据该第一访问链路告警信息中的主调服务器与该被调服务器的标识信息,从业务网络的所有访问链路中筛选出目标访问链路,所述目标访问链路包含有所述第一访问链路告警信息指示的主调服务器和被调服务器所对应的链路;当系统时间到达该第一访问链路告警信息所在时间窗的终止时间时,根据该时间窗内接收过的该目标访问链路中包含的被调服务器,以及,被调服务器之下各层级的其他服务器发送的所有第二访问链路告警信息,从该目标访问链路中逐层级地筛选出包含各该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。

Description

一种故障访问链路筛选方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种故障访问链路筛选方法及装置。
背景技术
随着互联网技术的发展,业务网络的访问结构也越来越复杂,访问层级也越来越多。由于访问结构复杂,位于各层级的设备多种多样,告警系统每天都要接收到大量的访问链路告警信息,现有技术中常见的告警模式包括:设备的基础告警、进程告警、业务访问告警等,其中基础告警、进程告警等只是针对自身业务的告警,但通常导致告警的根源往往不在告警业务本身,而是其它相关业务影响导致。业务访问告警,是访问服务器在访问被访问服务器时,发生业务访问故障,而由该访问服务器进行的告警。告警系统只能从访问链路告警信息中获知访问服务器与被访问服务器之间的那段访问链路发生了业务访问故障,而对于包含被访问服务器之后的其他服务器的访问链路是否可能也存在业务访问故障则不可知,报警系统需要对被访问服务器之后的其他服务器逐一查找,才能定位出该故障访问链路,定位效率较为低下。
发明内容
有鉴于此,本发明提供一种故障访问链路筛选方法及装置,可提高定位故障访问链路的效率。
本发明实施例提供的一种故障访问链路筛选方法,包括:
接收第一访问链路告警信息,所述第一访问链路告警信息中包含主调服务器与被调服务器的标识信息,以及,所述主调服务器与所述被调服务器之间的主被调关系;
根据所述主调服务器与所述被调服务器的标识信息,从业务网络的所有访问链路中筛选出目标访问链路,所述目标访问链路包含有所述第一访问链路告警信息指示的主调服务器和被调服务器所对应的链路;
获取所述第一访问链路告警信息所在时间窗的起始时间与终止时间;
当系统时间到达所述终止时间时,获取所述时间窗内接收过的所述目标访问链路中包含的被调服务器,以及,被调服务器之下各层级的其他服务器发送的所有第二访问链路告警信息,并按照各所述第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从所述目标访问链路中逐层级地筛选出包含各所述第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。
本发明实施例提供的一种故障访问链路筛选装置,包括:
接收模块,用于接收第一访问链路告警信息,所述第一访问链路告警信息中包含主调服务器与被调服务器的标识信息,以及,所述主调服务器与所述被调服务器之间的主被调关系;
筛选模块,用于根据所述接收模块接收的所述第一访问链路告警信息中的所述主调服务器与所述被调服务器的标识信息,从业务网络的所有访问链路中筛选出目标访问链路,所述目标访问链路包含有所述第一访问链路告警信息指示的主调服务器和被调服务器所对应的链路;
获取模块,用于获取所述第一访问链路告警信息所在时间窗的起始时间与终止时间;
时间检测模块,用于检测系统时间是否到达所述获取模块获取的所述终止时间;
所述获取模块,还用于当所述检测模块检测到所述系统时间到达所述终止时间时,获取所述时间窗内接收过的所述目标访问链路中包含的被调服务器,以及,被调服务器之下各层级的其他服务器发送的所有第二访问链路告警信息;
所述筛选模块,还用于按照所述获取模块获取的各所述第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从所述目标访问链路中逐层级地筛选出包含各所述第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。
本发明实施例提供的故障访问链路筛选方法及装置,通过改变告警模式,在告警访问链路发生业务访问故障的同时上报发生故障的访问链路中的各服务器之间的主被调关系,并根据当前时间窗内的与被调服务器有访问关系的不同层级的其他服务器上报的访问链路告警信息,对访问链路进行逐层筛选,降低了原先复杂的访问链路的维度,将其快速降维到可以精准定位的少量访问链路,可有效缩小定位范围,提高故障访问链路的定位效率。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
图1为本发明实施例提供的故障访问链路筛选方法及装置的应用环境图;
图2示出了一种服务器的结构示意图;
图3为本发明第一实施例提供的故障访问链路筛选方法的流程示意图;
图4为本发明第一实施例提供的故障访问链路筛选方法中筛选前访问链路的示意图;
图5为本发明第一实施例提供的故障访问链路筛选方法中筛选出目标访问链路的示意图;
图6为本发明第一实施例提供的故障访问链路筛选方法中对目标访问链路再次进行筛选的示意图;
图7为本发明第二实施例提供的故障访问链路筛选方法的流程示意图;
图8为本发明第二实施例提供的故障访问链路筛选方法中故障访问链路的一筛选示意图;
图9为本发明第二实施例提供的故障访问链路筛选方法中故障访问链路的又一筛选示意图;
图10为本发明第二实施例提供的故障访问链路筛选方法中故障访问链路的另一筛选示意图;
图11为本发明第二实施例提供的故障访问链路筛选方法中故障访问链路的再一筛选示意图;
图12为本发明第三实施例提供的故障访问链路筛选装置的结构示意图;
图13为本发明第四实施例提供的故障访问链路筛选装置的结构示意图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。
图1为本发明实施例提供的故障访问链路筛选方法及装置的应用环境图。如图1所示,业务网络中各层中的业务服务器100与告警系统所在的告警服务器200位于有线或无线网络中,通过该有线网络或无线网络,业务服务器100与告警服务器200进行数据交互。上述各服务器可以是单独一台服务器,也可以是可提供相同业务的具有相同功能的多台服务器构成的服务器集群。
该业务网络可以依次包括:接入层、逻辑层、缓存(Cache)层以及数据(DataBase,DB)层。其中,接入层负责发送服务请求,用于网络接入、路由计算、数据分发、权限校验、流量控制等。逻辑层是系统的业务逻辑实现层,是系统最核心的部分,是实现各种业务功能的逻辑实体。Cache层用于读写操作。DB层用于存放并管理各种系统数据,提供对各种数据库和数据源的访问。上述各层的功能可分别通过各自对应的服务器或服务器集群实现。
具体地,告警服务器200接收业务服务器100发送的第一访问链路告警信息,该第一访问链路告警信息中包含主调服务器与被调服务器的标识信息,以及,该主调服务器与该被调服务器之间的主被调关系;根据该主调服务器与该被调服务器的标识信息,从业务网络的所有访问链路中筛选出包含该主调服务器和该被调服务器的目标访问链路(也即目标访问链路包含有所述第一访问链路告警信息指示的主调服务器和被调服务器所对应的链路);获取该第一访问链路告警信息所在时间窗的起始时间与终止时间;当系统时间到达该终止时间时,获取该时间窗内接收过的该目标访问链路中包含的被调服务器,以及,被调服务器之下各层级的其他服务器发送的所有第二访问链路告警信息,并按照各该第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从该目标访问链路中逐层级地筛选出包含各该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。
其中,该标识信息包括IP地址(Internet Protocol Address,互联网协议地址)。进一步地,该第一访问链路告警信息与该第二访问链路告警信息中包含一个主调服务器的互联网协议地址与多个被调服务器的互联网协议地址,以及,该主调服务器分别与各该被调服务器之间的主被调关系。
较佳地,告警服务器200可对业务网络中的所有访问链路做两次筛选。具体地,当该系统时间到达该终止时间时,获取该时间窗内接收过的该第一访问链路告警信息中指示的被调服务器发送的第二访问链路告警信息;按照该第二访问链路告警信息中指示的主调服务器与被调服务器之间的主被调关系,从该目标访问链路中筛选出包含该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路。
或者,优选地,告警服务器200可对业务网络中的所有访问链路做两个层级的筛选。具体地,检测该第一访问链路告警信息中指示的主调服务器与被调服务器是否在同一层级;若是,则按照该第一访问链路告警信息中指示的被调服务器,以及,该目标访问链路中包含的该被调服务器同级以及下一层级的其他服务器发送的所有第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从该目标访问链路中逐层级地筛选出包含各该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路;若否,则按照该第一访问链路告警信息中指示的被调服务器,以及,该目标访问链路中包含的该被调服务器同级的其他服务器发送的第二访问链路告警信息中指示的主调服务器与被调服务器之间的主被调关系,从该目标访问链路中筛选出包含该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路。
图2为一种服务器的结构框图,适用于上述业务服务器100及告警服务器200。如图2所示,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在服务器上执行存储介质230中的一系列指令操作。服务器还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作系统241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。以下各图所示实施例中的由各服务器所执行的步骤可以基于该图2所示的服务器结构。
第一实施例
请参阅图3,图3为本发明第一实施例提供的故障访问链路筛选方法。如图3所示,该方法包括以下步骤:
S11、接收第一访问链路告警信息,该第一访问链路告警信息中包含主调服务器与被调服务器的标识信息,以及,该主调服务器与该被调服务器之间的主被调关系;
具体地,告警服务器200中的告警系统接收业务服务器发送的第一访问链路告警信息,该第一访问链路告警信息中包含主调服务器与被调服务器的标识信息,以及,该主调服务器与该被调服务器之间的主被调关系。其中,标识信息可以为服务器的IP地址。当主调服务器访问被调服务器,无法从该被调服务器获得业务数据或获取到错误数据时,可确认发生访问故障,则该主调服务器向告警系统上报访问链路告警信息。
主调服务器与被调服务器之间的主被调关系,也即,该主调服务器与该被调服务器之间的访问关系(即,IP关系)。例如:假定服务器A访问服务器D(A->D),则A为主调,D为被调。通过该主被调关系,可确定访问链路告警信息中指示的多个服务器中谁为主调服务器,谁为被调服务器。
进一步地,访问链路告警信息中可包含主调服务器与多个被调服务器的IP地址信息,以及该主调服务器分别与多个被调服务器之间的主被调关系。
S12、根据该主调服务器与该被调服务器的标识信息,从业务网络的所有访问链路中筛选出包含所述第一访问链路告警信息指示的主调服务器和被调服务器的目标访问链路,也即,从业务网络的所有访问链路中筛选出目标访问链路,所述目标访问链路包含有所述第一访问链路告警信息指示的主调服务器和被调服务器所对应的链路,例如,所述目标访问链路包含有所述第一访问链路告警信息指示的主调服务器和被调服务器所对应的所有链路。
可以理解地,告警系统中存储有整个业务网络的网络结构信息,可以但不限于包括:业务网络中的所有访问链路的标识信息,各访问链路中包含的业务服务器的标识信息,各业务服务器在业务网络中所处的层级等等。
当接收到第一访问链路告警信息后,告警系统根据该第一访问链路告警信息中的主调服务器与被调服务器的标识信息,以及存储的网络结构信息,从业务网络的所有访问链路中筛选出包含该第一访问链路告警信息指示的主调服务器和被调服务器所对应的链路,并将业务网络中包含该第一访问链路告警信息指示的主调服务器和被调服务器所对应的所有链路作为目标访问链路,也即,筛选出的目标访问链路中应包含该第一访问链路告警信息指示的主调服务器与被调服务器构成的访问链路。具体地,判断该被调服务器在整个业务网络中所处的层级,获取该层级中与该第一访问链路告警信息指示的被调服务器无访问关系的其他服务器,将包含该第一访问链路告警信息中的主调服务器和上述其他服务器中的任一服务器的访问链路从所有访问链路中滤除,剩下的即为目标访问链路。
请参考图4与图5,在一实际应用场景中,以接入层、逻辑层、Cache层以及DB层构成的四层结构的业务网络为例,假定接收到第一访问链路告警信息m1(A->D),m1对应的访问链路(即,被告警的访问链路)中包含服务器A与服务器D,根据该第一访问链路告警信息中包含的主被调关系可确定服务器A为主调服务器,服务器D为被调服务器,其中服务器A位于接入层,服务器D位于逻辑层,则获取位于逻辑层的除服务器D以外的与D无访问关系的其他服务器E、F,将包含主调服务器A和其他服务器E、F中的任一服务器的访问链路,即包含A与E或F中的任一者构成的访问链路A->E或A->F的访问链路A->E->H->L,A->E->I->L,A->E->I->M,A->E->J->L,A->E->J->M,A->F->H->L,A->F->I->L,A->F->I->M,A->F->K->M(图5中虚线箭头标示的访问链路)从所有访问链路中滤除,剩下的即为筛选出的目标访问链路。从图4到图5的变化可以看出,在过滤前,整个网络的拓扑复杂度是O(N^3),其中N为接入层之后的层数,过滤后,原有的4层业务链路拓扑复杂度降为O(N^2),此时的N为被调服务器D所处的逻辑层之后的层数,访问链路的维度降低。像这样,通过根据访问链路告警信息中的主被调关系,从所有访问链路中滤除与访问主调服务器和被调服务器无关的访问链路,可快速定位出可能存在故障的访问链路。
S13、获取该第一访问链路告警信息所在时间窗的起始时间与终止时间;
具体地,根据预置的定义规则,将指定时长的时间周期定义为一个时间窗(如:5分钟),当筛选出目标访问链路后,告警系统确定接收到第一访问链路告警信息时系统时间所在的时间窗,获取该时间窗的起始时间与终止时间。
S14、当系统时间到达该终止时间时,获取该时间窗内接收过的该目标访问链路中包含的被调服务器(这里,该被调服务器指的是目标访问链路中所对应的被调服务器,例如,以图5为例,该被调服务器可以具体为目标访问链路所包含的被调服务器D、被调服务器H、I、J、L和M,也就是说,此处被调服务器指的是所述目标访问链路所包含的所有被调服务器),以及,该被调服务器之下各层级的其他服务器(也即,与该被调服务器具有上下层级关系的相关联的服务器,例如,如图5所示,被调服务器D之下层级的服务器包括H、I和J,而H之下层级的其他服务器为L,I之下层级的其他服务器包括L和M,J之下层级的其他服务器包括L和M,所以,该被调服务器D之下各层级的其他服务器则包括:H、I、J、L和M)发送的所有第二访问链路告警信息,并按照各该第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从该目标访问链路中逐层级地筛选出包含各该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。
在一具体实施例中,当系统时间到达该终止时间时,告警系统检测并获取该时间窗内接收过的该目标访问链路中包含的第一访问链路告警信息中指示的被调服务器,以及,该第一访问链路告警信息中指示的被调服务器之下各层级的其他服务器发送的所有第二访问链路告警信息。例如:假定接收到第一访问链路告警信息A->D时的系统时间为5:23,其所在的时间窗为5:20~5:25,则当系统时间到达5:25时,告警系统检测并获取在5:20~5:25内接收过的被调服务器D,以及被调服务器D以下各层级的其他服务器发送的所有第二访问链路告警信息。
在本步骤中,按照各第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,继续逐层级地对上一步骤筛选出的目标访问链路进行进一步筛选。
具体地,首先按照第一访问链路告警信息中指示的被调服务器发送的访问链路告警信息,从通过上一步骤筛选出的目标访问链路中筛选出包含该访问链路告警信息指示的主调服务器和被调服务器的访问链路。可以理解地,此时,第一访问链路告警信息中指示的被调服务器,在该被调服务器发送的访问链路告警信息中转变为主调服务器。
请参考图5与图6,继续以上述4层结构的业务网络为例,假定在时间窗内,接收过逻辑层的服务器D发送的访问链路告警信息m2(D->I),此时,第一访问链路告警信息m1中的被调服务器D转变为m2中的主调服务器,m2中的被调服务器为I,则保留目标访问链路中(图5中实线箭头标示的访问链路中)与访问D和I有关的访问链路,滤除与访问D和I无关的访问链路(即,不包含D和I的访问链路),保留下的访问链路即为筛选出结果。具体地,首先从Cache层中确定出目标访问链路中与服务器I无访问关系的其他服务器H、J,然后将与访问D和H、J中的任一者相关的访问链路(即,包含D->H或D->J的访问链路)从目标访问链路中滤除,剩下的访问链路A->D->I->L与A->D->I->M(图6中实现箭头标示的访问链路)即为筛选出的可能存在业务访问故障的访问链路。
接着,告警系统继续根据当前时间窗内接收的该被调服务器所在层级同级的其他服务器(这里,同级的其他服务器可以具体指与被调服务器具有主被调关系的同级服务器,例如,以图5和6为例,假设同级服务器I和J之间存在主被调关系,此时,被调服务器I所在层级同级的其他服务器则具体指服务器J)以及之下的各层级中与该被调服务器有着直接或间接访问关系的其他服务器发送的访问链路告警信息,对目标访问链路进行层层筛选(即,最低可以将访问链路的维度降低为O(1)),具体筛选方法同上。例如:假定业务网络为五层结构,第一层的服务器发送了第一访问链路告警信息,则首先根据该报警信息从所有访问链路中筛选出目标访问链路;然后在系统时间到达时间窗的终止时间时,根据时间窗内接收的位于第二层的该第一访问链路告警信息中指示的第一被调服务器发送的第二访问链路告警信息,对目标访问链路进行筛选;接着根据该时间窗内接收的位于第三层的该第二访问链路告警信息中指示的第二被调服务器发送的第三访问链路告警信息,对筛选结果再一次进行筛选;最后根据时间窗内接收的位于第四层的该第三访问链路告警信息中指示的第三被调服务器发送的第四访问链路告警信息对上一次筛选结果进行最后一次筛选,将最终筛选出的访问链路保存为故障访问链路。
进一步地,由于每筛选一次,可能出现误差的机率就大一次,较佳的,只进行两次筛选,将两次筛选后的结果作为最终筛选结果保存。即,在筛选出目标访问链路之后,获取该第一访问链路告警信息所在时间窗的起始时间与终止时间,当系统时间到达该终止时间时,获取该时间窗内接收过的该第一访问链路告警信息中指示的被调服务器发送的第二访问链路告警信息,按照该第二访问链路告警信息中指示的主调服务器与被调服务器之间的主被调关系,从该目标访问链路中筛选出包含该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。也即,将上例中的访问链路A->D->I->L与A->D->I->M作为最终筛选结果保存为故障访问链路。
于其他实施例中,也可只进行两个层级的筛选,即,将整个业务网络的拓扑复杂度降低两个维度,具体实施方式请参考第二实施例的具体内容,此处不再赘述。
在另一具体实施例中,步骤S14中在确定第二访问链路告警信息的过程中,还可以将与被调服务器所处同级的且具有主被调关系的其他服务器发送的告警信息作为所述第二访问链路告警信息;具体地,步骤S14包括:
当系统时间到达该终止时间时,获取该时间窗内接收过的该目标访问链路中包含的被调服务器(这里,该被调服务器指的是目标访问链路中所对应的被调服务器,例如,以图5为例,该被调服务器可以具体为目标访问链路所包含的被调服务器D、被调服务器H、I、J、L和M,也就是说,此处被调服务器指的是所述目标访问链路所包含的所有被调服务器),以及,该与被调服务器所处同级的且与该被调服务器具有主被调关系的其他服务器(例如,以图5和6为例,假设同级服务器I和J之间存在主被调关系,此时,被调服务器I所在层级同级的其他服务器则具体指服务器J),以及该被调服务器之下各层级的其他服务器(也即,与该被调服务器具有上下层级关系的相关联的服务器,例如,如图5所示,被调服务器D之下层级的服务器包括H、I和J,而H之下层级的其他服务器为L,I之下层级的其他服务器包括L和M,J之下层级的其他服务器包括L和M,所以,该被调服务器D之下各层级的其他服务器则包括:H、I、J、L和M)发送的所有第二访问链路告警信息,并按照各该第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从该目标访问链路中逐层级地筛选出包含各该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。
本发明实施例提供的故障访问链路筛选方法,通过改变告警模式,在告警访问链路发生业务访问故障的同时上报发生故障的访问链路中的各服务器之间的主被调关系,并根据当前时间窗内的与被调服务器有访问关系的不同层级的其他服务器上报的访问链路告警信息,对访问链路进行逐层筛选,降低了原先复杂的访问链路的维度,将其快速降维到可以精准定位的少量访问链路,可有效缩小定位范围,提高故障访问链路的定位效率。
第二实施例
请参阅图7,图7为本发明第二实施例提供的故障访问链路筛选方法。如图7所示,该方法包括以下步骤:
S21、接收第一访问链路告警信息,该第一访问链路告警信息中包含主调服务器与被调服务器的标识信息,以及,该主调服务器与该被调服务器之间的主被调关系;
S22、根据该主调服务器与该被调服务器的标识信息,从业务网络的所有访问链路中筛选出包含该第一访问链路告警信息指示的主调服务器和被调服务器的目标访问链路;
S23、获取该第一访问链路告警信息所在时间窗的起始时间与终止时间;
S24、当系统时间到达该终止时间时,获取该时间窗内接收过的该目标访问链路中被调服务器,以及,该被调服务器同级以及之下各层级的其他服务器发送的所有第二访问链路告警信息;
步骤S21至步骤S24具体可参考第一实施例的相关内容,此处不再赘述。
S25、检测该第一访问链路告警信息中指示的主调服务器与被调服务器是否在同一层级;
根据第一访问链路告警信息中的主调服务器与被调服务器的标识信息,以及,告警系统中存储的网络结构信息,检测该主调服务器与被调服务器在业务网络中是否位于同一层级,若位于同一层级,则执行步骤S26,若不位于同一层级,则执行步骤27。
S26、按照该第一访问链路告警信息中指示的被调服务器,以及,该目标访问链路中包含的该被调服务器同级以及下一层级的其他服务器发送的所有该第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从该目标访问链路中逐层级地筛选出包含该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路;
若第一访问链路告警信息中指示的主调服务器与被调服务器在同一层级,则首先按照该第一访问链路告警信息中指示的被调服务器发送的访问链路告警信息,从目标访问链路中筛选出包含该访问链路告警信息指示的主调服务器和被调服务器的访问链路。此时,第一访问链路告警信息中指示的被调服务器在该访问链路告警信息中为主调服务器。
接着,按照目标访问链路中包含的该第一访问链路告警信息中指示的被调服务器同级以及下一层级的其他服务器发送的访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从上一步骤筛选出的访问链路中逐层级地再筛选出包含该访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。
请参考图8与图9,以上述4层结构的业务网络为例,假定第一访问链路告警信息m1(A->B),其中包含主调服务器A与被调服务器B,则根据该告警信息m1可从所有访问链路中筛选出包含主调服务器A与被调服务器B的目标访问链路:A->B->D->H->L、A->B->D->I->L、A->B->D->I->M、A->B->F->I->L、A->B->F->I->M、A->B->F->K->M(如图8中实线箭头标示的访问链路)。然后,获取时间窗内被调服务器B,以及,该目标访问链路中包含的被调服务器B同级(如与被调服务器B具有主被调关系的服务器A)以及B的下一层级的其他服务器D、F发送的第二访问链路告警信息,假定B发送了访问链路告警信息m2(B->D),D发送了访问链路告警信息m3(D->I),则从该目标访问链路中筛选出包含B、D的访问链路以及包含D、I的访问链路:A->B->D->I->L与A->B->D->I->M(如图9中实线箭头标示的访问链路)作为最终筛选结果保存为故障访问链路。
S27、按照该第一访问链路告警信息中指示的被调服务器,以及,该目标访问链路中包含的该被调服务器同级的其他服务器发送的该第二访问链路告警信息中指示的主调服务器与被调服务器之间的主被调关系,从该目标访问链路中筛选出包含该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。
请参考图10与图11,以上述4层结构的业务网络为例,假定第一访问链路告警信息m1(A->D),m1中的主调服务器A在接入层、被调服务器D在逻辑层,在时间窗内,接收过被调服务器D发送的访问链路告警信息m21(D->I),以及,目标访问链路(如图10中实线箭头标示的访问链路)中包含的与服务器D同层级的且具有主被调关系的服务器E发送的访问链路告警信息m22(E->J),则根据m21与m22对目标访问链路进行筛选,滤除该目标访问链路中不包含D和I以及不包含E和I的访问链路,将剩下的访问链路A>D->I->L、A->D->I->M、A->D->E->J->L(如图11中实线箭头标示的访问链路)作为最终筛选结果保存为故障访问链路。
本实施例的目的在于通过对自第一访问链路告警信息中指示的主调服务器所在的层级始,向下两个层级的筛选(以图8至图11为例,即筛选到Cache层),也即,将整个业务网络的拓扑复杂度降低两个维度,获得最佳的定位结果。
本发明实施例提供的故障访问链路筛选方法,通过改变告警模式,在告警访问链路发生业务访问故障的同时上报发生故障的访问链路中的各服务器之间的主被调关系,并根据当前时间窗内的与被调服务器有访问关系的不同层级的其他服务器上报的访问链路告警信息,对访问链路进行逐层筛选,降低了原先复杂的访问链路的维度,将其快速降维到可以精准定位的少量访问链路,可有效缩小定位范围,提高故障访问链路的定位效率。
第三实施例
请参阅图12,图12为本发明第三实施例提供的故障访问链路筛选装置30的结构示意图,本实施例中的故障访问链路筛选装置30可应用于图1所示告警服务器200中,以实现上述各实施例提供的故障访问链路筛选方法。如图12所示,故障访问链路筛选装置30包括:
接收模块31,用于接收第一访问链路告警信息,该第一访问链路告警信息中包含主调服务器与被调服务器的标识信息,以及,该主调服务器与该被调服务器之间的主被调关系;
筛选模块32,用于根据接收模块31接收的该第一访问链路告警信息中的该主调服务器与该被调服务器的标识信息,从业务网络的所有访问链路中筛选出目标访问链路,所述目标访问链路包含有所述第一访问链路告警信息指示的主调服务器和被调服务器所对应的链路;
获取模块33,用于获取该第一访问链路告警信息所在时间窗的起始时间与终止时间;
时间检测模块34,用于检测系统时间是否到达获取模块33获取的该终止时间;
获取模块33,还用于当该检测模块检测到该系统时间到达该终止时间时,获取该时间窗内接收过的该目标访问链路中包含的被调服务器,以及,被调服务器之下各层级的其他服务器发送的所有第二访问链路告警信息;
筛选模块32,还用于按照获取模块33获取的各该第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从该目标访问链路中逐层级地筛选出包含各该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。
本实施例中的故障访问链路筛选装置30中的各模块执行各自功能的过程,参见上述图1至图11中各实施例的描述,此处不再赘述。
本发明实施例提供的故障访问链路筛选装置,通过改变告警模式,在告警访问链路发生业务访问故障的同时上报发生故障的访问链路中的各服务器之间的主被调关系,并根据当前时间窗内的与被调服务器有访问关系的不同层级的其他服务器上报的访问链路告警信息,对访问链路进行逐层筛选,降低了原先复杂的访问链路的维度,将其快速降维到可以精准定位的少量访问链路,可有效缩小定位范围,提高故障访问链路的定位效率。
第四实施例
请参阅图13,图13为本发明第四实施例提供的故障访问链路筛选装置40的结构示意图,本实施例提供的故障访问链路筛选装置40可应用于图1所示告警服务器200中,以实现上述各实施例提供的故障访问链路筛选方法。如图13所示,故障访问链路筛选装置40包括:
接收模块31,用于接收第一访问链路告警信息,该第一访问链路告警信息中包含主调服务器与被调服务器的标识信息,以及,该主调服务器与该被调服务器之间的主被调关系;
筛选模块32,用于根据接收模块31接收的该第一访问链路告警信息中的该主调服务器与该被调服务器的标识信息,从业务网络的所有访问链路中筛选出目标访问链路,所述目标访问链路包含有所述第一访问链路告警信息指示的主调服务器和被调服务器所对应的链路;
获取模块33,用于获取该第一访问链路告警信息所在时间窗的起始时间与终止时间;
时间检测模块34,用于检测系统时间是否到达获取模块33获取的该终止时间;
获取模块33,还用于当该检测模块检测到该系统时间到达该终止时间时,获取该时间窗内接收过的该目标访问链路中包含的被调服务器,以及,被调服务器之下各层级的其他服务器发送的所有第二访问链路告警信息;
筛选模块32,还用于按照获取模块33获取的各该第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从该目标访问链路中逐层级地筛选出包含各该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。
进一步地,获取模块33,还用于当该系统时间到达该终止时间时,获取该时间窗内接收过的该第一访问链路告警信息中指示的被调服务器发送的该第二访问链路告警信息;
筛选模块32,还用于按照该第二访问链路告警信息中指示的主调服务器与被调服务器之间的主被调关系,从该目标访问链路中筛选出包含该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路。
进一步地,故障访问链路筛选装置40还包括:
层级检测模块45,用于检测该第一访问链路告警信息中指示的主调服务器与被调服务器是否在同一层级;
筛选模块32,还用于若该第一访问链路告警信息中指示的主调服务器与被调服务器在同一层级,则按照该第一访问链路告警信息中指示的被调服务器,以及,该目标访问链路中包含的该被调服务器同级以及下一层级的其他服务器发送的所有该第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从该目标访问链路中逐层级地筛选出包含各该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路;
筛选模块32,还用于若该第一访问链路告警信息中指示的主调服务器与被调服务器不在同一层级,则按照该第一访问链路告警信息中指示的被调服务器,以及,该目标访问链路中包含的该被调服务器同级的其他服务器发送的所有该第二访问链路告警信息中指示的主调服务器与被调服务器之间的主被调关系,从该目标访问链路中筛选出包含各该第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路。
进一步地,该业务网络依次包括接入层、逻辑层、缓存层以及数据层。
进一步地,该标识信息包括互联网协议地址。
进一步地,该第一访问链路告警信息与该第二访问链路告警信息中包含一个主调服务器的互联网协议地址与多个被调服务器的互联网协议地址,以及,该主调服务器分别与各该被调服务器之间的主被调关系。
本实施例中的故障访问链路筛选装置40中的各模块执行各自功能的过程,参见上述图1至图11中各实施例的描述,此处不再赘述。
本发明实施例提供的故障访问链路筛选装置,通过改变告警模式,在告警访问链路发生业务访问故障的同时上报发生故障的访问链路中的各服务器之间的主被调关系,并根据当前时间窗内的与被调服务器有访问关系的不同层级的其他服务器上报的访问链路告警信息,对访问链路进行逐层筛选,降低了原先复杂的访问链路的维度,将其快速降维到可以精准定位的少量访问链路,可有效缩小定位范围,提高故障访问链路的定位效率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种故障访问链路筛选方法,其特征在于,包括:
接收第一访问链路告警信息,所述第一访问链路告警信息中包含主调服务器与被调服务器的标识信息,以及,所述主调服务器与所述被调服务器之间的主被调关系;
根据所述主调服务器与所述被调服务器的标识信息,从业务网络的所有访问链路中筛选出目标访问链路,所述目标访问链路包含有所述第一访问链路告警信息指示的主调服务器和被调服务器所对应的链路;
获取所述第一访问链路告警信息所在时间窗的起始时间与终止时间;
当系统时间到达所述终止时间时,获取所述时间窗内接收过的所述目标访问链路中包含的被调服务器,以及,被调服务器之下各层级的其他服务器发送的所有第二访问链路告警信息,并按照各所述第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从所述目标访问链路中逐层级地筛选出包含各所述第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
检测所述第一访问链路告警信息中指示的主调服务器与被调服务器是否在同一层级;
若是,则按照所述第一访问链路告警信息中指示的被调服务器,以及,所述目标访问链路中包含的所述被调服务器同级以及下一层级的其他服务器发送的所有所述第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从所述目标访问链路中逐层级地筛选出包含各所述第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路;
若否,则按照所述第一访问链路告警信息中指示的被调服务器,以及,所述目标访问链路中包含的所述被调服务器同级的其他服务器发送的所述第二访问链路告警信息中指示的主调服务器与被调服务器之间的主被调关系,从所述目标访问链路中筛选出包含所述第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路。
3.根据权利要求1或2所述的方法,其特征在于,所述业务网络由上至下依次包括接入层、逻辑层、缓存层以及数据层。
4.根据权利要求3所述的方法,其特征在于,所述标识信息包括互联网协议地址。
5.根据权利要求4所述的方法,其特征在于,所述第一访问链路告警信息与所述第二访问链路告警信息中包含一个主调服务器的互联网协议地址与多个被调服务器的互联网协议地址,以及,所述主调服务器分别与各所述被调服务器之间的主被调关系。
6.一种故障访问链路筛选装置,其特征在于,包括:
接收模块,用于接收第一访问链路告警信息,所述第一访问链路告警信息中包含主调服务器与被调服务器的标识信息,以及,所述主调服务器与所述被调服务器之间的主被调关系;
筛选模块,用于根据所述接收模块接收的所述第一访问链路告警信息中的所述主调服务器与所述被调服务器的标识信息,从业务网络的所有访问链路中筛选出目标访问链路,所述目标访问链路包含有所述第一访问链路告警信息指示的主调服务器和被调服务器所对应的链路;
获取模块,用于获取所述第一访问链路告警信息所在时间窗的起始时间与终止时间;
时间检测模块,用于检测系统时间是否到达所述获取模块获取的所述终止时间;
所述获取模块,还用于当所述检测模块检测到所述系统时间到达所述终止时间时,获取所述时间窗内接收过的所述目标访问链路中包含的被调服务器,以及,被调服务器之下各层级的其他服务器发送的所有第二访问链路告警信息;
所述筛选模块,还用于按照所述获取模块获取的各所述第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从所述目标访问链路中逐层级地筛选出包含各所述第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路,并保存为故障访问链路。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
层级检测模块,用于检测所述第一访问链路告警信息中指示的主调服务器与被调服务器是否在同一层级;
所述筛选模块,还用于若所述第一访问链路告警信息中指示的主调服务器与被调服务器在同一层级,则按照所述第一访问链路告警信息中指示的被调服务器,以及,所述目标访问链路中包含的所述被调服务器同级以及下一层级的其他服务器发送的所有所述第二访问链路告警信息中指示的主调服务器与被调服务器之间逐级的主被调关系,从所述目标访问链路中逐层级地筛选出包含各所述第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路;
所述筛选模块,还用于若所述第一访问链路告警信息中指示的主调服务器与被调服务器不在同一层级,则按照所述第一访问链路告警信息中指示的被调服务器,以及,所述目标访问链路中包含的所述被调服务器同级的其他服务器发送的所有所述第二访问链路告警信息中指示的主调服务器与被调服务器之间的主被调关系,从所述目标访问链路中筛选出包含各所述第二访问链路告警信息中指示的主调服务器和被调服务器的访问链路。
8.根据权利要求6或7所述的装置,其特征在于,所述业务网络由上至下依次包括接入层、逻辑层、缓存层以及数据层。
9.根据权利要求8所述的装置,其特征在于,所述标识信息包括互联网协议地址。
10.根据权利要求9所述的装置,其特征在于,所述第一访问链路告警信息与所述第二访问链路告警信息中包含一个主调服务器的互联网协议地址与多个被调服务器的互联网协议地址,以及,所述主调服务器分别与各所述被调服务器之间的主被调关系。
CN201510100136.4A 2015-03-06 2015-03-06 一种故障访问链路筛选方法及装置 Active CN105991340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510100136.4A CN105991340B (zh) 2015-03-06 2015-03-06 一种故障访问链路筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510100136.4A CN105991340B (zh) 2015-03-06 2015-03-06 一种故障访问链路筛选方法及装置

Publications (2)

Publication Number Publication Date
CN105991340A CN105991340A (zh) 2016-10-05
CN105991340B true CN105991340B (zh) 2020-01-10

Family

ID=57040084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510100136.4A Active CN105991340B (zh) 2015-03-06 2015-03-06 一种故障访问链路筛选方法及装置

Country Status (1)

Country Link
CN (1) CN105991340B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112491594B (zh) * 2020-11-12 2022-11-04 苏州浪潮智能科技有限公司 一种多级链路故障定位的方法、系统及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE495607T1 (de) * 2007-02-08 2011-01-15 Ericsson Telefon Ab L M Fehlerlokalisierung in architekturen auf mehrfach-spanning-tree-basis
CN101707537B (zh) * 2009-11-18 2012-01-25 华为技术有限公司 故障链路定位方法、告警根因分析方法及设备、系统
CN102158360B (zh) * 2011-04-01 2013-10-30 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN102739445B (zh) * 2012-06-18 2017-12-22 中兴通讯股份有限公司 一种环网故障快速定位的方法和系统

Also Published As

Publication number Publication date
CN105991340A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
US11586673B2 (en) Data writing and reading method and apparatus, and cloud storage system
US10402293B2 (en) System for virtual machine risk monitoring
US11269718B1 (en) Root cause detection and corrective action diagnosis system
EP2561444B1 (en) Automated recovery and escalation in complex distributed applications
CN103259688A (zh) 一种分布式存储系统的故障诊断方法与装置
CN114301972B (zh) 一种基于云边协同的区块链节点分级部署方法和系统
US10078655B2 (en) Reconciling sensor data in a database
CN107453932B (zh) 一种分布式存储系统管理方法及其装置
CN113347037B (zh) 一种数据中心访问方法及装置
CN107992491A (zh) 一种分布式文件系统、数据访问和数据存储的方法及装置
US20220138036A1 (en) Safely recovering workloads within a finite timeframe from unhealthy cluster nodes
CN108600284B (zh) 一种基于Ceph的虚拟机高可用实现方法及系统
CN112256498A (zh) 一种故障处理的方法和装置
CN108509296B (zh) 一种处理设备故障的方法和系统
CN113126925B (zh) 一种成员列表确定方法、装置、设备及可读存储介质
CN105991340B (zh) 一种故障访问链路筛选方法及装置
CN111950640B (zh) 交换机故障处理方法及装置
CN108228272B (zh) Web容器生成处理方法、设备以及服务器
WO2016067299A1 (en) Location aware failover solution
CN112269690A (zh) 一种数据备份的方法和装置
CN108156061B (zh) esb监控服务平台
CN107291575B (zh) 一种数据中心故障时的处理方法和设备
CN115150253B (zh) 一种故障根因确定方法、装置及电子设备
US8799926B1 (en) Active node detection in a failover computing environment
CN108833914A (zh) Cob拼接墙的故障检测方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231221

Address after: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right