CN109688198B - 分布式系统及故障检测方法 - Google Patents

分布式系统及故障检测方法 Download PDF

Info

Publication number
CN109688198B
CN109688198B CN201811405290.2A CN201811405290A CN109688198B CN 109688198 B CN109688198 B CN 109688198B CN 201811405290 A CN201811405290 A CN 201811405290A CN 109688198 B CN109688198 B CN 109688198B
Authority
CN
China
Prior art keywords
signaling
server
information interaction
interaction system
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811405290.2A
Other languages
English (en)
Other versions
CN109688198A (zh
Inventor
杨亚峰
贾屹
王立瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Jiuzhou Electric Group Co Ltd
Original Assignee
Sichuan Jiuzhou Electric Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Jiuzhou Electric Group Co Ltd filed Critical Sichuan Jiuzhou Electric Group Co Ltd
Priority to CN201811405290.2A priority Critical patent/CN109688198B/zh
Publication of CN109688198A publication Critical patent/CN109688198A/zh
Application granted granted Critical
Publication of CN109688198B publication Critical patent/CN109688198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种分布式系统及故障检测方法,分布式系统包括:信令同步服务器;以及信息交互系统,其与所述信令同步服务器通信连接,以向所述信令同步服务器发送该信息交互系统内部产生的所有信令,以使所述信令同步服务器根据来自所述信息交互系统的所有信令以及各个信令被所述信令同步服务器接收的同步端接收时间来检测所述信息交互系统中的通信故障。本发明能够快速且清晰地检测通信故障,能够精准监控信息交互系统中各程序间信令交互状态,全面记录系统中信令收发流程,便于开发和运行维护中问题定位。

Description

分布式系统及故障检测方法
技术领域
本发明涉及故障检测技术领域,具体涉及一种分布式系统,还涉及用于对该分布式系统中的信息交互系统进行故障检测的方法。
背景技术
在分布式软件开发和运行维护环节,当出现问题时,当前故障定位方式是查询各服务器日志文件或集中收集日志文件进行对比分析。这种分析需要对各日志文件进行对比,从而找出问题所在,可见,此种方式存在问题定位效率低下、流程不清晰等问题。
具体地,假若一个系统包括多个客户端和多个服务程序,其中一个客户端的一个操作导致异常输出或服务之间存在日志报错或服务异常退出情况,当前故障定位方法是复现问题或通过日志进行排查,这种方式需要收集相关日志进行对比分析,从而找出异常现象出现的原因。
可见,现有故障定位方法存在以下问题:(1)各服务时间不同步导致日志对比困难或由此引发的异常问题;(2)由于系统不可能为同一人开发,对于流程清晰度将在日志分析过程中产生极大困难,而日志不能完整且完善地反映整个系统的运行流程,这个需要相关人员进行逐步排序,而排序过程一般按照时间排序,从而导致问题(1)所涉及情况的出现;(3)日志完善程度也存在偏差,日志是执行过程和返回结果的一种记录,这种记录的详细程度依赖于开发人员的个人见解,记录格式也依赖于开发人员的个人喜好,从而导致其他开发人员读取对方日志信息时产生较大困难或歧义;(4)由于日志的庞杂性,无论是对日志的分开阅读或集中后阅读,再对照设定的流程图都将耗费大量的人力,特别是一些关键日志的缺失(如开发人员没注意到的细节,没有进行日志输出)将导致灾难性或费力重现后果。
基于上述分析,亟需一种能够快速且准确检测故障的分布式系统及故障检测方法。
发明内容
为解决上述技术问题,本发明提供了一种分布式系统及故障检测方法。
根据本发明的第一个方面,提供了一种分布式系统,其包括:
信令同步服务器;以及
信息交互系统,其与所述信令同步服务器通信连接,以向所述信令同步服务器发送该信息交互系统内部产生的所有信令,以使所述信令同步服务器根据来自所述信息交互系统的所有信令以及各个信令被所述信令同步服务器接收的同步端接收时间来检测所述信息交互系统中的通信故障。
优选的是,所述信息交互系统包括彼此通信连接的客户端与服务器,
所述客户端将发送给服务器的信令和接收的来自所述服务器的信令同步发送给所述信令同步服务器,
所述服务器将发送给客户端的信令和接收的来自所述客户端的信令同步发送给所述信令同步服务器。
优选的是,所述客户端发送给服务器的信令以及所述服务器发送给客户端的信令均包括发送方、接收方、数据包和信令发送时间;
所述客户端接收的来自服务器的信令以及所述服务器接收的来自客户端的信令均包括发送方、接收方、数据包和信令接收时间。
优选的是,所信令还包括数据包涉及的参数信息。
根据本发明的第二个方面,提供了用于对上述分布式系统中的信息交互系统进行故障检测的方法,其包括:
信令同步服务器接收来自所述信息交互系统的该信息交互系统内部产生的所有信令,并记录本地接收每个信令的同步端接收时间;
所述信令同步服务器基于接收的信令以及每个信令对应的同步端接收时间,构建信令记录表;
所述信令同步服务器基于所述信令记录表,检测所述信息交互系统中的通信故障。
优选的是,所述信令记录表包括多条记录,每条记录对应一个信令,所述记录包括所述信息交互系统中与该记录对应的信令的发送方与接收方、所述信息交互系统中与该记录对应的信令的发送/接收时间、与该记录对应的信令的数据包以及与该记录对应的信令对应的同步端接收时间。
优选的是,所述记录中包括的信令的发送方与接收方、发送/接收时间以及数据包是由所述信令同步服务器从该信令中提取的。
优选的是,在所述信令记录表中,各条记录按照信令对应的同步端接收时间排序。
优选的是,所述信令同步服务器基于所述信令记录表,检测所述信息交互系统中的通信故障,包括:
所述信令同步服务器根据所述信令记录表中的记录,确定所述信息交互系统中设备的实际运行流程;
所述信令同步服务器对所述实际运行流程和预设运行流程进行比较;
所述信令同步服务器在比较结果指示不一致的情况下,确定所述信息交互系统出现通信故障。
优选的是,上述故障检测方法还包括:所述信令同步服务器在确定所述信息交互系统出现通信故障的情况下,根据所述信令记录表中的记录确定所述信息交互系统中出现通信故障的设备。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
应用本发明,能够快速且清晰地检测通信故障,能够精准监控信息交互系统中各程序间信令交互状态,全面记录系统中信令收发流程,便于开发和运行维护中问题定位。
附图说明
通过结合附图阅读下文示例性实施例的详细描述可更好地理解本公开的范围。其中所包括的附图是:
图1示出了根据本发明实施例的分布式系统的结构示意图;
图2示出了根据本发明实施例的用于对分布式系统中的信息交互系统进行故障检测的方法的流程示意图;以及
图3示出了本发明实施中信令同步服务器基于信令记录表来检测信息交互系统中的通信故障的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下将结合附图及实施例来详细说明本发明的实施方法,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。
在现有技术中,分布式系统的故障定位方法是复现问题或通过日志进行排查,其通过人工地收集相关日志进行对比分析来找出异常现象出现的原因。可见,现有的故障定位方法存在以下问题:
(1)各服务时间不同步导致日志对比困难或由此引发的异常问题;
(2)由于系统不可能为同一人开发,对于流程清晰度将在日志分析过程中产生极大困难,而日志不能完整且完善地反映整个系统的运行流程,这个需要相关人员进行逐步排序,而排序过程一般按照时间排序,从而导致问题(1)所涉及情况的出现;
(3)日志完善程度也存在偏差,日志是执行过程和返回结果的一种记录,这种记录的详细程度依赖于开发人员的个人见解,记录格式也依赖于开发人员的个人喜好,从而导致其他开发人员读取对方日志信息时产生较大困难或歧义;
(4)由于日志的庞杂性,无论是对日志的分开阅读或集中后阅读,再对照设定的流程图都将耗费大量的人力,特别是一些关键日志的缺失(如开发人员没注意到的细节,没有进行日志输出)将导致灾难性或费力重现后果。
基于上述分析,亟需一种能够快速且准确检测故障的分布式系统及故障检测方法。
实施例一
本实施例提供了一种分布式系统。图1示出了根据本发明实施例的分布式系统的结构示意图。如图1所示,本发明实施例的分布式系统包括信令同步服务器10和信息交互系统20。信令同步服务器10与信息交互系统20通信连接。
具体地,信息交互系统20内部包括多个硬件设备,设备之间存在数据交互。信息交互系统20向信令同步服务器10发送该信息交互系统20内部产生的所有信令。举例来说,参照图1,信息交互系统20包括客户端21、第一服务器22、第二服务器23和第二服务器23。客户端21与第一服务器22通信连接,第一服务器22、第二服务器23和第二服务器23两两之间通信连接。
具体地,客户端21可以向第一服务器22发送信令,也可以接收来自的第一服务器22的信令。反过来,第一服务器22可以向客户端21发送信令,也可以接收来自客户端21的信令。特别地,客户端21在向第一服务器22发送信令的同时,将该发送的信令同步备份至信令同步服务器10。客户端21在接收来自第一服务器22的信令的同时,将该接收的信令同步备份至信令同步服务器10。第一服务器22在向客户端21发送信令的同时,将该发送的信令同步备份至信令同步服务器10。第一服务器22在接收来自客户端21的信令的同时,将该接收的信令同步备份至信令同步服务器10。
第一服务器22、第二服务器23和第三服务器24的通信过程类似,下面以第一服务器22为例进行说明。第一服务器22可以向第二服务器23和第三服务器24发送信令,也可以接收来自的第二服务器23和第二服务器23的信令。反过来,第二服务器23可以第一服务器22发送信令,也可以接收来自第一服务器22的信令。第三服务器24可以第一服务器22发送信令,也可以接收来自第一服务器22的信令。特别地,第一服务器22在向第二服务器23和第三服务器24发送信令的同时,将该发送的信令同步备份至信令同步服务器10。第一服务器22在接收来自第二服务器23的信令的同时,将该接收的信令同步备份至信令同步服务器10。第一服务器22在接收来自第三服务器24的信令的同时,将该接收的信令同步备份至信令同步服务器10。第二服务器23在向第一服务器22发送信令的同时,将该发送的信令同步备份至信令同步服务器10。第二服务器23在接收来自第一服务器22的信令的同时,将该接收的信令同步备份至信令同步服务器10。第三服务器24在向第一服务器22发送信令的同时,将该发送的信令同步备份至信令同步服务器10。第三服务器24在接收来自第一服务器22的信令的同时,将该接收的信令同步备份至信令同步服务器10。
在一优选的实施例中,上述信令可以包括以下内容:发送方、接收方、数据包、发送/接收时间以及可选的数据包的参数信息。
具体地,客户端21发送给第一服务器22的信令可包括发送方(客户端21)、接收方(第一服务器22)、数据包、发送时间(客户端本地发送时间)以及可选的数据包的参数信息。客户端21接收的来自第一服务器22的信令可包括发送方(第一服务器22)、接收方(客户端21)、数据包、接收时间(客户端本地接收时间)以及可选的数据包的参数信息。类似地,第一服务器22发送给客户端21的信令可包括发送方(第一服务器22)、接收方(客户端21)、数据包、发送时间(第一服务器本地发送时间)以及可选的数据包的参数信息。第一服务器22接收的来自客户端21的信令可包括发送方(客户端21)、接收方(第一服务器22)、数据包、接收时间(第一服务器本地接收时间)以及可选的数据包的参数信息。
同样地,第一服务器22、第二服务器23和第三服务器24的通信信令类似,下面以第一服务器22为例进行说明。第一服务器22发送给第二服务器23/第三服务器24的信令可包括发送方(第一服务器22)、接收方(第二服务器23/第三服务器24)、数据包、发送时间(第一服务器本地发送时间)以及可选的数据包的参数信息。第二服务器23/第二服务器23接收的来自第一服务器22的信令可包括发送方(第一服务器22)、接收方(第二服务器23/第三服务器24)、数据包、接收时间(第二服务器/第三服务器本地接收时间)以及可选的数据包的参数信息。第二服务器23/第三服务器24发送给第一服务器22的信令可包括发送方(第二服务器23/第三服务器24)、接收方(第一服务器22)、数据包、发送时间(第二服务器/第三服务器本地发送时间)以及可选的数据包的参数信息。第一服务器22接收的来自第二服务器23/第三服务器24的信令可包括发送方(第二服务器23/第三服务器24)、接收方(第一服务器22)、数据包、接收时间(第一服务器本地接收时间)以及可选的数据包的参数信息。
信令同步服务器10在汇集来自信息交互系统20的所有信令后,根据这些信令以及各个信令被信令同步服务器10接收的同步端接收时间,来检测信息交互系统20中的通信故障。
应用本实施例,能够快速且清晰地检测通信故障,能够精准监控信息交互系统20中各程序间信令交互状态,全面记录系统中信令收发流程,便于开发和运行维护中问题定位。
实施例二
本实施例涉及用于对实施例一的分布式系统中的信息交互信息进行故障检测的方法。图2示出了根据本发明实施例的用于对分布式系统中的信息交互系统20进行故障检测的方法的流程示意图。如图2所示,本实施例的故障检测方法主要包括步骤S101至步骤S103。
在步骤S101中,信令同步服务器10接收来自信息交互系统20的该信息交互系统20内部产生的所有信令,并记录本地接收每个信令的同步端接收时间。
在步骤S102中,信令同步服务器10基于接收的信令以及每个信令对应的同步端接收时间,构建信令记录表。
具体地,信令同步服务器10从接收的信令中提取出与该信令对应的发送方、接收方、该信令被信息交互系统20中的设备发送/接收的时间、该信令的数据包以及可选地该数据包的参数信息。随后,信令同步服务器10将上述提取出来的信息以及与该信令对应的同步端接收时间,保存为与该信令相对应的记录。信令同步服务器10针对接收到的来自信息交互系统20中设备的每个信令,都保存为这样的记录,信令同步服务器10还根据信令的同步端接收时间对这些记录进行排序,从而构成了信令记录表。
可以看出,构建的信令记录表包括多条记录,其中每条记录对应一个信令。每个记录包括信息交互系统20中与该记录对应的信令的发送方与接收方、信息交互系统20中与该记录对应的信令的发送/接收时间、与该记录对应的信令的数据包以及与该记录对应的信令对应的同步端接收时间。可选地,每个记录还包括与该记录相对应的信令的同步端接收时间、以及与该记录对应的信令的备份信息(如该信令的功能)。
下列表1为本实施例一优选实施例的信令记录表。
表1
Figure BDA0001877212120000071
Figure BDA0001877212120000081
Figure BDA0001877212120000091
在步骤S103中,信令同步服务器10基于信令记录表,检测信息交互系统20中的通信故障。
具体地,参照图3,信令同步服务器10基于信令记录表来检测信息交互系统20中的通信故障,主要包括步骤S201至步骤S205。
在步骤S201中,信令同步服务器10根据信令记录表中的记录,确定信息交互系统20中设备的实际运行流程。
在步骤S202中,信令同步服务器10对实际运行流程和预设运行流程进行比较。
在步骤S203,判断实际运行流程和预设运行流程是否一致。
在步骤S204中,在步骤S203判断出比较结果指示不一致的情况下,确定信息交互系统20出现通信故障。
在步骤S205中,在步骤S203判断出比较结果指示一致的情况下,确定信息交互系统20未出现通信故障。
举例来讲,信令的预设运行流程显然有信令在信息交互系统20中的发送时间应早于或者等于该信令的同步端接收时间。然而,上述表1中的记录1-5涉及的实际运行流程显然与该预设运行流程不一致。
具体地,针对记录1,信令在信息交互系统20中的发送时间为16:13:22,而该信令在信令同步服务器10处同步端接收时间为16:13:20(如表1中粗体字所示),前者晚于后者,两运行流程明显不一致,从而可确定信息交互系统20中与该信令相关的设备出现了通信故障。针对记录2,信令在信息交互系统20中的发送时间为16:14:12(如表1中粗体字所示),而该信令在信令同步服务器10处同步端接收时间为16:13:21,前者晚于后者,两运行流程显然不一致,从而可确定信息交互系统20中与该信令相关的设备出现通信故障。针对记录3,信令在信息交互系统20中的发送时间为16:14:22(如表1中粗体字所示),而该信令在信令同步服务器10处同步端接收时间为16:13:31,前者晚于后者,两运行流程显然不一致,从而可确定信息交互系统20中与该信令相关的设备出现通信故障。针对记录4,信令在信息交互系统20中的发送时间为16:14:25(如表1中粗体字所示),而该信令在信令同步服务器10处同步端接收时间为16:13:34,前者晚于后者,两运行流程显然不一致,从而可确定信息交互系统20中与该信令相关的设备出现通信故障。针对记录5,信令在信息交互系统20中的发送时间为16:16:25(如表1中粗体字所示),而该信令在信令同步服务器10处同步端接收时间为16:16:23,前者晚于后者,两运行流程显然不一致,从而可确定信息交互系统20中与该信令相关的设备出现通信故障。
针对记录6,信令在信息交互系统20中的发送时间为16:16:24,而该信令在信令同步服务器10处同步端接收时间为16:16:24,前者与后者同步,两运行流程一致,从而可确定信息交互系统20中与该信令相关的设备通信正常,未出现通信故障。
在本发明一优选的实施例中,上述故障检测方法还包括:信令同步服务器10在确定信息交互系统20出现通信故障的情况下,根据信令记录表中的记录确定信息交互系统20中出现通信故障的设备。
可见,本发明实施例提供一种针对分布式系统快速且清晰的故障检测方法(即问题快速且清晰定位的方法),其具有以下优点:
(1)该方法首先要建立一台信令同步服务器10,用于收集其它服务程序(例如服务器)和客户端21发送的所有信令及其所携带参数;
(2)按照信令同步服务器10本地时间(即同步端接收时间)对所有信令进行同步接收和排序,从而达到时间精确。也就是说,信令记录表中的每条记录以信令同步服务器10本地接收时间(即同步端接收时间)为准,有效规避了信息交互系统20中各设备间的时间误差。另外,信令记录表的同步记录格式固定统一、便于阅读分析;
(3)各服务程序和客户端21程序需要在各自信令发送模块添加到信令同步服务器10的信令备份代码,以便在各自信令发出同时将该信令的原文、发送时间和服务器地址等信息同步备份到信令同步服务器10,通过该方法达到信令记录格式统一,规避日志遗漏或过简问题,便于开发人员阅读;
(4)在信令服务器对接收到的信令信息填入相应的表格,形成完整的信令流程记录,从而可以很容易判断出信令到达先后顺序,是否存在间隔时间短或并发引起的互斥,是否上一级服务程序信令未得到响应等等,这样就可以高效清晰判断出流程是否出错。具体地,通过查看信令列表中信令顺序和其内容可以很容易发现那个步骤出现问题,如信令错误、信令未得到响应、信令集中爆发引起并发问题、信令流程和设计流程不匹配等等。
综上所述,应用本实施例所述的分布式系统及故障检测方法,能够快速且清晰地检测通信故障,能够精准监控信息交互系统20中各程序间信令交互状态,全面记录系统中信令收发流程,便于开发和运行维护中问题定位。众所周知,系统越复杂,应用分布越广泛,流程越繁琐,问题快速精准定位难度越高,该方法可将信令信息按照接收时间记录排序,完整展现信令和设计流程的匹配关系,更便于问题快速精准定位,从而避免了日志不全、各程序日志重新集合匹配、各程序所在服务器时间不同步、高并发下信令到达先后顺序模糊等等引发的定位困难。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (9)

1.一种分布式系统,其特征在于,包括:
信令同步服务器;以及
信息交互系统,其与所述信令同步服务器通信连接,以向所述信令同步服务器发送该信息交互系统内部产生的所有信令,以使所述信令同步服务器根据来自所述信息交互系统的所有信令的发出时间以及各个信令被所述信令同步服务器接收的同步端接收时间来检测所述信息交互系统中的通信故障,其中,所述信息交互系统包括彼此通信连接的客户端与服务器,所述客户端将发送给服务器的信令和接收的来自所述服务器的信令同步发送给所述信令同步服务器,所述服务器将发送给客户端的信令和接收的来自所述客户端的信令同步发送给所述信令同步服务器。
2.根据权利要求1所述分布式系统,其特征在于,
所述客户端发送给服务器的信令以及所述服务器发送给客户端的信令均包括发送方、接收方、数据包和信令发送时间;
所述客户端接收的来自服务器的信令以及所述服务器接收的来自客户端的信令均包括发送方、接收方、数据包和信令接收时间。
3.根据权利要求1所述的分布式系统,其特征在于,所述信令还包括数据包涉及的参数信息。
4.用于对如权利要求1至3中任一项所述的分布式系统中的信息交互系统进行故障检测的方法,其特征在于,包括:
信令同步服务器接收来自所述信息交互系统的该信息交互系统内部产生的所有信令,并记录本地接收每个信令的同步端接收时间;
所述信令同步服务器基于接收的信令以及每个信令对应的同步端接收时间,构建信令记录表;
所述信令同步服务器基于所述信令记录表,检测所述信息交互系统中的通信故障。
5.根据权利要求4所述的方法,其特征在于,所述信令记录表包括多条记录,每条记录对应一个信令,所述记录包括所述信息交互系统中与该记录对应的信令的发送方与接收方、所述信息交互系统中与该记录对应的信令的发送/接收时间、与该记录对应的信令的数据包以及与该记录对应的信令对应的同步端接收时间。
6.根据权利要求5所述的方法,其特征在于,所述记录中包括的信令的发送方与接收方、发送/接收时间以及数据包是由所述信令同步服务器从该信令中提取的。
7.根据权利要求6所述的方法,其特征在于,在所述信令记录表中,各条记录按照信令对应的同步端接收时间排序。
8.根据权利要求4至7中任一项所述的方法,其特征在于,所述信令同步服务器基于所述信令记录表,检测所述信息交互系统中的通信故障,包括:
所述信令同步服务器根据所述信令记录表中的记录,确定所述信息交互系统中设备的实际运行流程;
所述信令同步服务器对所述实际运行流程和预设运行流程进行比较;
所述信令同步服务器在比较结果指示不一致的情况下,确定所述信息交互系统出现通信故障。
9.根据权利要求8所述的方法,其特征在于,还包括:所述信令同步服务器在确定所述信息交互系统出现通信故障的情况下,根据所述信令记录表中的记录确定所述信息交互系统中出现通信故障的设备。
CN201811405290.2A 2018-11-23 2018-11-23 分布式系统及故障检测方法 Active CN109688198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811405290.2A CN109688198B (zh) 2018-11-23 2018-11-23 分布式系统及故障检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811405290.2A CN109688198B (zh) 2018-11-23 2018-11-23 分布式系统及故障检测方法

Publications (2)

Publication Number Publication Date
CN109688198A CN109688198A (zh) 2019-04-26
CN109688198B true CN109688198B (zh) 2022-05-13

Family

ID=66185521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811405290.2A Active CN109688198B (zh) 2018-11-23 2018-11-23 分布式系统及故障检测方法

Country Status (1)

Country Link
CN (1) CN109688198B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101163265A (zh) * 2007-11-20 2008-04-16 中兴通讯股份有限公司 基于分布式数据库的彩信日志查询方法与系统
EP2097824A2 (en) * 2006-12-28 2009-09-09 Arcsight, Inc. Storing log data efficiently while supporting querying to assist in computer network security
CN102752404A (zh) * 2012-07-25 2012-10-24 高旭磊 一种新型的灾难备份恢复方法与系统
CN105740102A (zh) * 2016-02-02 2016-07-06 北京京东尚科信息技术有限公司 用于数据备份的设备及其中的方法
CN108599973A (zh) * 2018-01-05 2018-09-28 阿里巴巴集团控股有限公司 一种日志关联方法、装置及设备
CN108845896A (zh) * 2018-07-10 2018-11-20 中国建设银行股份有限公司 灾难后数据追踪系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100499699C (zh) * 2005-11-28 2009-06-10 华为技术有限公司 一种通信系统中信令信息的收集系统和方法
CN101925083A (zh) * 2009-06-09 2010-12-22 中兴通讯股份有限公司 一种呼叫过程分析系统及方法
CN108243029B (zh) * 2016-12-23 2021-02-19 北京国双科技有限公司 还原日志的生成时间的方法、客户端及服务器
CN106685737B (zh) * 2017-02-17 2019-07-26 国网山东省电力公司信息通信公司 基于ip电话的ims故障分析运维系统、方法及服务器
CN207802396U (zh) * 2017-10-19 2018-08-31 南京欣网通信科技股份有限公司 基于客户感知的端到端信令分析平台
CN108459939B (zh) * 2018-01-08 2020-06-23 平安科技(深圳)有限公司 一种日志收集方法、装置、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2097824A2 (en) * 2006-12-28 2009-09-09 Arcsight, Inc. Storing log data efficiently while supporting querying to assist in computer network security
CN101163265A (zh) * 2007-11-20 2008-04-16 中兴通讯股份有限公司 基于分布式数据库的彩信日志查询方法与系统
CN102752404A (zh) * 2012-07-25 2012-10-24 高旭磊 一种新型的灾难备份恢复方法与系统
CN105740102A (zh) * 2016-02-02 2016-07-06 北京京东尚科信息技术有限公司 用于数据备份的设备及其中的方法
CN108599973A (zh) * 2018-01-05 2018-09-28 阿里巴巴集团控股有限公司 一种日志关联方法、装置及设备
CN108845896A (zh) * 2018-07-10 2018-11-20 中国建设银行股份有限公司 灾难后数据追踪系统及方法

Also Published As

Publication number Publication date
CN109688198A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN110022221B (zh) 一种系统接口数据的监控方法、装置及系统
CN108052408B (zh) 基于告警信息内容的告警工单快速提交方法及系统
CN110716842B (zh) 集群故障检测方法和装置
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN108965049B (zh) 提供集群异常解决方案的方法、设备、系统及存储介质
CN102479113A (zh) 异常自适应处理方法及系统
CN103414916A (zh) 一种故障诊断系统及方法
CN111934936A (zh) 网络状态检测方法、装置、电子设备及存储介质
CN111737207A (zh) 展示、归集分布式系统中服务节点的日志的方法和装置
CN111221807A (zh) 一种面向云服务的工业设备大数据质量的测试方法及架构
CN109688198B (zh) 分布式系统及故障检测方法
CN112235128B (zh) 一种交易路径分析方法、装置、服务器及存储介质
US20130160030A1 (en) Method for centralizing events for a multilevel hierarchical computer management system
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN115086381B (zh) 标签数据采集方法、装置、采集设备及标签数据采集系统
EP3099012A1 (en) A method for determining a topology of a computer cloud at an event date
CN116192607A (zh) 故障告警方法及装置
CN114124646A (zh) 一种WebSocket方式的综合网络管理系统及方法
CN105099742B (zh) 一种采集数据的方法、装置、系统及终端
CN115220992A (zh) 接口变更监控方法、装置、计算机设备和存储介质
CN111385157B (zh) 一种服务器异常检测方法及装置
CN112463572B (zh) 一种跨境多服务拨测的软件测试系统及其方法
CN110830281B (zh) 一种基于网状网络结构的热备方法及系统
CN103188309A (zh) 一种分布式系统中服务获取方法
CN101651574B (zh) 确定业务信息并利用该业务信息进行报警的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant