CN116708528B - 节点间tcp长连接的监控方法及装置 - Google Patents

节点间tcp长连接的监控方法及装置 Download PDF

Info

Publication number
CN116708528B
CN116708528B CN202310963098.XA CN202310963098A CN116708528B CN 116708528 B CN116708528 B CN 116708528B CN 202310963098 A CN202310963098 A CN 202310963098A CN 116708528 B CN116708528 B CN 116708528B
Authority
CN
China
Prior art keywords
long connection
time
node
tcp
tcp long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310963098.XA
Other languages
English (en)
Other versions
CN116708528A (zh
Inventor
刘金松
施扬
申习之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhuozhou Technology Co ltd
Original Assignee
Chengdu Zhuozhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhuozhou Technology Co ltd filed Critical Chengdu Zhuozhou Technology Co ltd
Priority to CN202310963098.XA priority Critical patent/CN116708528B/zh
Publication of CN116708528A publication Critical patent/CN116708528A/zh
Application granted granted Critical
Publication of CN116708528B publication Critical patent/CN116708528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/141Setup of application sessions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/163In-band adaptation of TCP data exchange; In-band control procedures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种节点间TCP长连接的监控方法及装置,该方法应用于节点进程,该节点进程能够管理与其它节点进程间的TCP长连接。响应启动操作,向控制台进程进行发起注册请求,以建立与控制台进程间的TCP长连接;基于与控制台进程间的TCP长连接,接收控制台进程发送的监控请求,监控请求能够指示待监控的目标TCP长连接;检测节点进程的进程运行时长和目标TCP长连接的长连接时长,并基于与控制台进程间的TCP长连接将检测结果发送给控制台进程,以使控制台进程基于检测结果进行故障分析。本发明通过对节点进程的进程运行时长和TCP长连接的长连接时长进行实时检测来实现控制台进程对大量节点进程的监控。

Description

节点间TCP长连接的监控方法及装置
技术领域
本发明涉及计算机网络的运维管理技术领域,更具体地说,涉及一种节点间TCP长连接的监控方法及装置。
背景技术
现阶段,运维系统常使用控制台来管理不同的节点,控制台中运行控制台进程、节点中运行各自的节点进程。节点进程之间、以及控制台进程与节点进程之间均使用TCP(Transmission Control Protocol,传输控制协议)长连接来通讯,而控制台进程则基于与节点进程之间的TCP长连接来进行监控。
目前,对节点进程进行监控时常由人工通过查看日志的形式来实现。但是,当节点进程数量较多后,排查问题的时间就会太长,对于偶然发生的故障也无法很快排查。
发明内容
有鉴于此,为解决上述问题,本发明提供一种节点间TCP长连接的监控方法及装置,技术方案如下:
一种节点间TCP长连接的监控方法,所述方法应用于节点进程,所述节点进程能够管理与其它节点进程间的TCP长连接,所述方法包括:
响应启动操作,向控制台进程进行发起注册请求,以建立与所述控制台进程间的TCP长连接;
基于与所述控制台进程间的TCP长连接,接收所述控制台进程发送的监控请求,所述监控请求能够指示待监控的目标TCP长连接;
检测所述节点进程的进程运行时长和所述目标TCP长连接的长连接时长,并基于与所述控制台进程间的TCP长连接将检测结果发送给所述控制台进程,以使所述控制台进程基于所述检测结果进行故障分析。
优选的,所述方法还包括:
响应启动操作,生成内存全局变量,所述内存全局变量用于记录当前时间为进程启动时间。
优选的,所述检测所述节点进程的进程运行时长和所述目标TCP长连接的长连接时长,包括:
在当前时间晚于所述进程启动时间的情况下,根据当前时间与所述进程启动时间输出所述进程运行时长;
在当前时间早于所述进程启动时间的情况下,对所述节点进程进行时间同步;时间同步后若当前时间早于所述进程启动时间,将所述进程启动时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于所述进程启动时间,根据当前时间与所述进程启动时间输出所述进程运行时长;
在所述目标TCP长连接不存在的情况下,返回报错码作为所述长连接时长;
在所述目标TCP长连接存在的情况下,获取所述目标TCP长连接的长连接开始时间;在当前时间晚于所述长连接开始时间的情况下,根据当前时间和所述长连接开始时间输出所述长连接时长;在当前时间早于所述长连接开始时间的情况下,对所述节点进程进行时间同步;时间同步后若当前时间早于所述长连接开始时间,将所述长连接开始时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于所述长连接开始时间,根据当前时间和所述长连接开始时间输出所述长连接时长。
一种节点间TCP长连接的监控装置,应用于节点进程,所述节点进程能够管理与其它节点进程间的TCP长连接,所述装置包括:
第一长连接建立模块,用于响应启动操作,向控制台进程进行发起注册请求,以建立与所述控制台进程间的TCP长连接;
检测模块,用于基于与所述控制台进程间的TCP长连接,接收所述控制台进程发送的监控请求,所述监控请求能够指示待监控的目标TCP长连接;检测所述节点进程的进程运行时长和所述目标TCP长连接的长连接时长,并基于与所述控制台进程间的TCP长连接将检测结果发送给所述控制台进程,以使所述控制台进程基于所述检测结果进行故障分析。
优选的,所述装置还包括:
变量生成模块,用于响应启动操作,生成内存全局变量,所述内存全局变量用于记录当前时间为进程启动时间。
优选的,用于检测所述节点进程的进程运行时长和所述目标TCP长连接的长连接时长的所述检测模块,具体用于:
在当前时间晚于所述进程启动时间的情况下,根据当前时间与所述进程启动时间输出所述进程运行时长;
在当前时间早于所述进程启动时间的情况下,对所述节点进程进行时间同步;时间同步后若当前时间早于所述进程启动时间,将所述进程启动时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于所述进程启动时间,根据当前时间与所述进程启动时间输出所述进程运行时长;
在所述目标TCP长连接不存在的情况下,返回报错码作为所述长连接时长;
在所述目标TCP长连接存在的情况下,获取所述目标TCP长连接的长连接开始时间;在当前时间晚于所述长连接开始时间的情况下,根据当前时间和所述长连接开始时间输出所述长连接时长;在当前时间早于所述长连接开始时间的情况下,对所述节点进程进行时间同步;时间同步后若当前时间早于所述长连接开始时间,将所述长连接开始时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于所述长连接开始时间,根据当前时间和所述长连接开始时间输出所述长连接时长。
一种节点间TCP长连接的监控方法,其所述方法应用于控制台进程,所述方法包括:
接收节点进程响应其启动操作所发起的注册请求,以建立与所述节点进程间的TCP长连接,所述节点进程能够管理与其它节点进程间的TCP长连接;
基于与所述节点进程间的TCP长连接,向所述节点进程发送监控请求,所述监控请求能够指示待监控的目标TCP长连接;
基于与所述节点进程间的TCP长连接,接收所述节点进程所发送的检测结果,所述检测结果是所述节点进程通过检测其进程运行时长和所述目标TCP长连接的长连接时长所获得的;
基于所述检测结果进行故障分析。
优选的,所述基于所述检测结果进行故障分析,包括:
对与所述节点进程间的TCP长连接进行网络连接的监测;若监测到网络连接失败,则以报错码作为所述进程运行时长和所述长连接时长;若监测到网络连接成功,则根据所述检测结果中的所述进程运行时长和所述长连接时长输出故障结论。
可选的,所述根据所述检测结果中的所述进程运行时长和所述长连接时长输出故障结论,包括:
如果所述检测结果中包含报错信息,则确定故障现象为所述节点进程已启动但是所述节点进程时间存在问题、与所述节点进程间的TCP长连接状态未知,以及故障原因为解决时间问题;
如果所述检测结果中所述进程运行时长为报错码,则确定故障现象为所述节点进程未启动或者所述节点进程无法与所述控制台进程通讯,以及故障原因为网络波动或所述节点进程反复重启;
如果所述检测结果中所述进程运行时长大于0、小于1分钟,并且所述长连接时长大于0,则确定故障现象为节点进程启动时间不足一分钟并且当前与所述节点进程间的TCP长连接正常,以及故障原因为所述节点进程反复重启或计划内重启;
如果所述检测结果中所述进程运行时长大于0、小于1分钟,并且所述长连接时长为报错码,则确定故障现象为所述节点进程启动时间不足1分钟并且当前与所述节点进程间的TCP长连接网络通讯不正常,以及故障原因为所述节点进程反复重启或系统刚启动;
如果所述检测结果中所述进程运行时长大于1分钟,并且所述长连接时长为报错码,则确定故障现象为所述节点进程正常并且当前与所述节点进程间的TCP长连接网络通讯不正常;
如果所述检测结果中所述进程运行时长大于1分钟,并且所述长连接时长大于0、小于1分钟,则确定故障现象为所述节点进程正常并且最近1分钟内与所述节点进程间的TCP长连接网络通讯不正常,以及故障原因为网络波动;
如果所述检测结果中所述进程运行时长大于1分钟,并且所述长连接时长大于1分钟,则确定故障现象为正常。
一种节点间TCP长连接的监控装置,应用于控制台进程,所述装置包括:
第二长连接建立模块,用于接收节点进程响应其启动操作所发起的注册请求,以建立与所述节点进程间的TCP长连接,所述节点进程能够管理与其它节点进程间的TCP长连接;
故障分析模块,用于基于与所述节点进程间的TCP长连接,向所述节点进程发送监控请求,所述监控请求能够指示待监控的目标TCP长连接;基于与所述节点进程间的TCP长连接,接收所述节点进程所发送的检测结果,所述检测结果是所述节点进程通过检测其进程运行时长和所述目标TCP长连接的长连接时长所获得的;基于所述检测结果进行故障分析。
相较于现有技术,本发明实现的有益效果为:
本发明提供一种节点间TCP长连接的监控方法及装置,该方法应用于节点进程,该节点进程能够管理与其它节点进程间的TCP长连接。具体的,响应启动操作,向控制台进程进行发起注册请求,以建立与控制台进程间的TCP长连接;基于与控制台进程间的TCP长连接,接收控制台进程发送的监控请求,监控请求能够指示待监控的目标TCP长连接;检测节点进程的进程运行时长和目标TCP长连接的长连接时长,并基于与控制台进程间的TCP长连接将检测结果发送给控制台进程,以使控制台进程基于检测结果进行故障分析。本发明通过对节点进程的进程运行时长和TCP长连接的长连接时长进行实时检测来实现控制台进程对大量节点进程的监控,由此可以减少调试时的无效猜测,快速定位故障原因。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的节点间TCP长连接的监控方法的方法流程图;
图2为本发明实施例提供的节点间TCP长连接的监控装置的结构示意图;
图3为本发明实施例提供的节点间TCP长连接的监控装置的另一结构示意图;
图4为本发明实施例提供的节点间TCP长连接的监控方法的另一方法流程图;
图5为本发明实施例提供的节点间TCP长连接的监控装置的再一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图1,图1为本发明实施例提供的节点间TCP长连接的监控方法的方法流程图。如图1所示,该节点间TCP长连接的监控方法应用于节点进程,其中,节点进程能够管理与其它节点进程间的TCP长连接,该方法包括如下步骤:
S101,响应启动操作,向控制台进程进行发起注册请求,以建立与控制台进程间的TCP长连接。
本发明实施例中,节点进程启动后,其可以通过读取配置文件与控制台进程建立通讯,以此向控制台进程注册自身的进程信息和所管理的TCP长连接的连接信息,在控制台进程验证通过后,控制台进程即与节点进程建立TCP长连接。具体的,节点进程向控制台进程所注册的进程信息包括该节点进程的标识信息和令牌信息,以便该节点进程向控制台进行认证,以实现控制台进程区分不同的节点进程;节点进程向控制台进行所注册的连接信息包括该节点进程所关联的各TCP长连接的标识信息和用途信息。
本发明实施例中,对于节点进程与控制台进程间的TCP长连接可以设置如下的网络连接协议要求:
1)该连接至少有一端以小于3秒每次的间隔向对面ping,对面收到ping之后立刻回复;
2)该连接两端均在收到对方上一个包的时间大于 30秒之后,认为该连接断线,直接关闭连接,删除连接引用;
3)TCP的read调用收到网络报错,应该关掉连接,删除连接引用;
4)TCP的write调用收到网络报错,应该关闭连接,删除连接引用。
需要说明的是,本发明实施例中控制台进行是一个中心监控进程,必要时可以做负载均衡,由多个控制台进程同时分摊监控流量。
还需要说明的是,节点进程是实际建立大量TCP长连接的进程。可能是 微服务的一个服务、也可能是很多反向代理进程,需要和其他节点进程进行通讯。可以分布在多个设备上,可以在同一个设备上。
在具体应用过程中,节点进程响应启动操作后,生成内存全局变量,该内存全局变量用于记录当前时间为进程启动时间,也就是说,节点进程使用一个内存全局变量将其启动的当前时间作为进程启动时间。本发明中使用内存全局变量来记录进程启动时间的原因在于:内存全局变量与节点进程的生命周期一致(比如,节点进程挂了/退出了/重启了,则内存全局变量也不存在),可以保证进程启动时间被准确记录,由此后续可以准确计算进程运行时长。
S102,基于与控制台进程间的TCP长连接,接收控制台进程发送的监控请求,监控请求能够指示待监控的目标TCP长连接。
本发明实施例中,控制台进程基于与节点进程间的TCP长连接,可以向节点进程请求监控目标TCP长连接,该目标TCP长连接可以为节点进程与控制台进程间的TCP长连接、还可以为节点进程所管理的一个或多个TCP长连接,本发明实施例对此不做限定。
需要说明的是,在一些场景下,控制台进程与节点进程间还可以建立除TCP长连接以外的连接方式,比如http协议或者udp协议,相应的,目标TCP长连接则为节点进程所管理的一个或多个TCP长连接。
S103,检测节点进程的进程运行时长和目标TCP长连接的长连接时长,并基于与控制台进程间的TCP长连接将检测结果发送给控制台进程,以使控制台进程基于检测结果进行故障分析。
本发明实施例中,节点进程响应控制台进行的监控请求,可以检测自身的进程运行时长、以及目标TCP长连接的长连接时长,将检测结果发送给控制台进程,由控制台进程基于该检测结果进行故障分类,其中,进程运行时长的数据类型可以为64位有符号整数(int64)、单位为毫秒(ms);长连接时长的数据类型可以为64位有符号整数(int64)、单位为毫秒(ms)。
具体实现过程中,步骤S30“检测节点进程的进程运行时长和目标TCP长连接的长连接时长”可以采用如下步骤:
在当前时间晚于进程启动时间的情况下,根据当前时间与进程启动时间输出进程运行时长;
在当前时间早于进程启动时间的情况下,对节点进程进行时间同步;时间同步后若当前时间早于进程启动时间,将进程启动时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于进程启动时间,根据当前时间与进程启动时间输出进程运行时长;
在目标TCP长连接不存在的情况下,返回报错码作为长连接时长;
在目标TCP长连接存在的情况下,获取目标TCP长连接的长连接开始时间;在当前时间晚于长连接开始时间的情况下,根据当前时间和长连接开始时间输出长连接时长;在当前时间早于长连接开始时间的情况下,对节点进程进行时间同步;时间同步后若当前时间早于长连接开始时间,将长连接开始时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于长连接开始时间,根据当前时间和长连接开始时间输出长连接时长。
本发明实施例中,一方面,节点进程比较当前时间与进程启动时间。如果当前时间晚于进程启动时间,则将当前时间与进程启动时间的差值作为进程运行时长。如果当前时间早于进程启动时间,则表明节点进程的系统时间存在问题,此时,节点进程可以尝试与NTP(Network Time Protocol,网络时间协议)服务器或者控制台进行通讯以同步时间;同步时间后,如果当前时间依然早于进程启动时间,则将进程启动时间调整为当前时间,本地调用向控制台进程报错“节点进程时间存在问题”;同步时间后,如果当前时间晚于进程启动时间,则将当前时间与进程启动时间的差值作为进程运行时长。
另一方面,节点进程检测目标TCP长连接是否存在。如果目标TCP长连接不存在,则将长连接时长返回-1。如果目标TCP长连接存在,则获取该目标TCP长连接的长连接开始时间,进而比较当前时间与长连接开始时间;如果当前时间晚于长连接开始时间,则将当前时间与长连接开始时间的差值作为长连接时长;如果当前时间早于长连接开始时间,则表明节点进程的系统时间存在问题,此时,节点进程可以尝试与NTP(Network Time Protocol,网络时间协议)服务器或者控制台进行通讯以同步时间;同步时间后,如果当前时间依然早于长连接开始时间,则将长连接开始时间调整为当前时间,本地调用向控制台进程报错“节点进程时间存在问题”;同步时间后,如果当前时间晚于长连接开始时间,则将当前时间与长连接开始时间的差值作为长连接时长。
对于上述检测结果,节点进程可以基于其与控制台进行间的TCP长连接输出给控制台。控制台则基于该检测结果对目标TCP长连接进行故障分析,对于目标TCP长连接可能输出的故障结论可以包括如下几种:
1)c1节点进程未启动或者节点进程无法与控制台进程通讯。(网络波动或节点进程反复重启)
2)c2节点进程启动时间不足1分钟并且当前与节点进程间的TCP长连接正常。(节点进程反复重启或计划内重启)
3)c3 节点进程启动时间不足1分钟并且当前与节点进程间的TCP长连接网络通讯不正常。(节点进程反复重启或系统刚启动)
4)c4节点进程正常并且当前与节点进程间的TCP长连接网络通讯不正常。
5)c5节点进程正常并且最近1分钟内与节点进程间的TCP长连接网络通讯不正常。(网络波动)
6)c6节点进程正常并且最近1分钟内与节点进程间的TCP长连接网络通讯正常。(正常,即不存在故障)
7)c7节点进程已启动但是节点进程时间存在问题、与节点进程间的TCP长连接状态未知。(此时应该先解决时间问题)
以上述 “c1节点进程未启动或者节点进程无法与控制台进程通讯。(网络波动或节点进程反复重启)”为例来说明。“c1”为状态编号、“节点进程未启动或者节点进程无法与控制台进程通讯”为问题的现象(即故障现象)、“网络波动或节点进程反复重启”为可能原因(即故障原因)。
对此,监控进程基于检测结果进行故障分析可以采用如下步骤:
对与节点进程间的TCP长连接进行网络连接的监测;若监测到网络连接失败,则以报错码作为进程运行时长和长连接时长;若监测到网络连接成功,则根据检测结果中的进程运行时长和长连接时长输出故障结论。
本发明实施例中,控制台实时获取与节点进程间的TCP长连接的网络连接时,与节点进程通讯获取该节点进程的进程运行时长和目标TCP长连接的长连接时长。
如果控制台进程确定与节点进程间的TCP长连接的网络连接失败,则进程运行时长返回-1、长连接时长返回-1。
控制台进程确定与节点进程间的TCP长连接的网络连接成功,则以节点进行返回的报错信息、进程运行时长和长连接时长为准,并以此输出故障结论:
1)如果收到报错信息“节点进程时间存在问题”,则得到故障结论c7;
2)如果进程运行时长为-1,则得到故障结论c1;
3)如果进程运行时长大于0 、小于1分钟,并且长连接时长大于0,则得到故障结论c2;
4)如果进程运行时长大于0 、小于1分钟,并且长连接时长为-1,则得到故障结论c3;
5)如果进程运行时长大于1分钟,并且长连接时长为-1,则得到故障结论c4;
6)如果进程运行时长大于1分钟,并且长连接时长大于0 、小于1分钟,则得到故障结论c5;
7)如果进程运行时长大于1分钟,并且长连接时长大于1分钟,则得到故障结论c6。
由此,本发明可以定位两类故障原因 "网络波动" 和 "进程反复重启"。将遇见概率最高的两类故障原因进行了监控。
需要说明的是,本发明中以一个节点进程上的一个TCP长连接的监控流程来说明,实施应用中可扩展为对一个节点进程的多个TCP长连接进行监控,或者多个节点进程的多个TCP长连接进行监控。
本发明实施例提供的节点间TCP长连接的监控方法,通过对节点进程的进程运行时长和TCP长连接的长连接时长进行实时检测来实现控制台进程对大量节点进程的监控,由此可以减少调试时的无效猜测,快速定位故障原因。通过本发明开发人员和运维人员可以在复杂网络环境和网络连接方式下,以及快速迭代的软件版本的情况下,快速找到故障点,尽快修复相关的故障。
基于上述实施例提供的节点间TCP长连接的监控方法,本发明实施例则对应提供执行上述节点间TCP长连接的监控方法的装置,应用于节点进程,该节点进程能够管理与其它节点进程间的TCP长连接,该装置的结构示意图如图2所示,包括:
第一长连接建立模块101,用于响应启动操作,向控制台进程进行发起注册请求,以建立与控制台进程间的TCP长连接;
检测模块102,用于基于与控制台进程间的TCP长连接,接收控制台进程发送的监控请求,监控请求能够指示待监控的目标TCP长连接;检测节点进程的进程运行时长和目标TCP长连接的长连接时长,并基于与控制台进程间的TCP长连接将检测结果发送给控制台进程,以使控制台进程基于检测结果进行故障分析。
可选的,如图3所示的结构示意图,上述装置还包括:
变量生成模块103,用于响应启动操作,生成内存全局变量,内存全局变量用于记录当前时间为进程启动时间。
可选的,用于检测节点进程的进程运行时长和目标TCP长连接的长连接时长的检测模块102,具体用于:
在当前时间晚于进程启动时间的情况下,根据当前时间与进程启动时间输出进程运行时长;
在当前时间早于进程启动时间的情况下,对节点进程进行时间同步;时间同步后若当前时间早于进程启动时间,将进程启动时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于进程启动时间,根据当前时间与进程启动时间输出进程运行时长;
在目标TCP长连接不存在的情况下,返回报错码作为长连接时长;
在目标TCP长连接存在的情况下,获取目标TCP长连接的长连接开始时间;在当前时间晚于长连接开始时间的情况下,根据当前时间和长连接开始时间输出长连接时长;在当前时间早于长连接开始时间的情况下,对节点进程进行时间同步;时间同步后若当前时间早于长连接开始时间,将长连接开始时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于长连接开始时间,根据当前时间和长连接开始时间输出长连接时长。
需要说明的是,本发明实施例中各模块的细化功能可以参见上述节点间TCP长连接的监控方法实施例对应公开部分,在此不再赘述。
基于上述实施例提供的节点间TCP长连接的监控方法,本发明实施例还提供另一节点间TCP长连接的监控方法,该方法应用于控制台进程,包括如下步骤,方法流程图如图4所示:
S201,接收节点进程响应其启动操作所发起的注册请求,以建立与节点进程间的TCP长连接,节点进程能够管理与其它节点进程间的TCP长连接。
S202,基于与节点进程间的TCP长连接,向节点进程发送监控请求,监控请求能够指示待监控的目标TCP长连接。
S203,基于与节点进程间的TCP长连接,接收节点进程所发送的检测结果,检测结果是节点进程通过检测其进程运行时长和目标TCP长连接的长连接时长所获得的。
S204,基于检测结果进行故障分析。
可选的,S204基于检测结果进行故障分析的过程,包括:
对与节点进程间的TCP长连接进行网络连接的监测;若监测到网络连接失败,则以报错码作为进程运行时长和长连接时长;若监测到网络连接成功,则根据检测结果中的进程运行时长和长连接时长输出故障结论。
可选的,根据检测结果中的进程运行时长和长连接时长输出故障结论,包括:
如果检测结果中包含报错信息,则确定故障现象为节点进程已启动但是节点进程时间存在问题、与节点进程间的TCP长连接状态未知,以及故障原因为解决时间问题;
如果检测结果中进程运行时长为报错码,则确定故障现象为节点进程未启动或者节点进程无法与控制台进程通讯,以及故障原因为网络波动或节点进程反复重启;
如果检测结果中进程运行时长大于0、小于1分钟,并且长连接时长大于0,则确定故障现象为节点进程启动时间不足一分钟并且当前与节点进程间的TCP长连接正常,以及故障原因为节点进程反复重启或计划内重启;
如果检测结果中进程运行时长大于0、小于1分钟,并且长连接时长为报错码,则确定故障现象为节点进程启动时间不足1分钟并且当前与节点进程间的TCP长连接网络通讯不正常,以及故障原因为节点进程反复重启或系统刚启动;
如果检测结果中进程运行时长大于1分钟,并且长连接时长为报错码,则确定故障现象为节点进程正常并且当前与节点进程间的TCP长连接网络通讯不正常;
如果检测结果中进程运行时长大于1分钟,并且长连接时长大于0、小于1分钟,则确定故障现象为节点进程正常并且最近1分钟内与节点进程间的TCP长连接网络通讯不正常,以及故障原因为网络波动;
如果检测结果中进程运行时长大于1分钟,并且长连接时长大于1分钟,则确定故障现象为正常。
需要说明的是,本发明实施例中各步骤的具体实现可以参见上述节点间TCP长连接的监控方法实施例对应公开部分,在此不再赘述。
基于上述实施例提供的节点间TCP长连接的监控方法,本发明实施例则对应提供执行上述节点间TCP长连接的监控方法的装置,应用于控制台进程,该装置的结构示意图如图5所示,包括:
第二长连接建立模块201,用于接收节点进程响应其启动操作所发起的注册请求,以建立与节点进程间的TCP长连接,节点进程能够管理与其它节点进程间的TCP长连接;
故障分析模块202,用于基于与节点进程间的TCP长连接,向节点进程发送监控请求,监控请求能够指示待监控的目标TCP长连接;基于与节点进程间的TCP长连接,接收节点进程所发送的检测结果,检测结果是节点进程通过检测其进程运行时长和目标TCP长连接的长连接时长所获得的;基于检测结果进行故障分析。
可选的,用于基于检测结果进行故障分析的故障分析模块202,具体用于:
对与节点进程间的TCP长连接进行网络连接的监测;若监测到网络连接失败,则以报错码作为进程运行时长和长连接时长;若监测到网络连接成功,则根据检测结果中的进程运行时长和长连接时长输出故障结论。
可选的,用于根据检测结果中的进程运行时长和长连接时长输出故障结论的故障分析模块202,具体用于:
如果检测结果中包含报错信息,则确定故障现象为节点进程已启动但是节点进程时间存在问题、与节点进程间的TCP长连接状态未知,以及故障原因为解决时间问题;
如果检测结果中进程运行时长为报错码,则确定故障现象为节点进程未启动或者节点进程无法与控制台进程通讯,以及故障原因为网络波动或节点进程反复重启;
如果检测结果中进程运行时长大于0、小于1分钟,并且长连接时长大于0,则确定故障现象为节点进程启动时间不足一分钟并且当前与节点进程间的TCP长连接正常,以及故障原因为节点进程反复重启或计划内重启;
如果检测结果中进程运行时长大于0、小于1分钟,并且长连接时长为报错码,则确定故障现象为节点进程启动时间不足1分钟并且当前与节点进程间的TCP长连接网络通讯不正常,以及故障原因为节点进程反复重启或系统刚启动;
如果检测结果中进程运行时长大于1分钟,并且长连接时长为报错码,则确定故障现象为节点进程正常并且当前与节点进程间的TCP长连接网络通讯不正常;
如果检测结果中进程运行时长大于1分钟,并且长连接时长大于0、小于1分钟,则确定故障现象为节点进程正常并且最近1分钟内与节点进程间的TCP长连接网络通讯不正常,以及故障原因为网络波动;
如果检测结果中进程运行时长大于1分钟,并且长连接时长大于1分钟,则确定故障现象为正常。
需要说明的是,本发明实施例中各模块的细化功能可以参见上述节点间TCP长连接的监控方法实施例对应公开部分,在此不再赘述。
以上对本发明所提供的一种节点间TCP长连接的监控方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种节点间TCP长连接的监控方法,其特征在于,所述方法应用于节点进程,所述节点进程能够管理与其它节点进程间的TCP长连接,所述方法包括:
响应启动操作,向控制台进程进行发起注册请求,以建立与所述控制台进程间的TCP长连接;
基于与所述控制台进程间的TCP长连接,接收所述控制台进程发送的监控请求,所述监控请求能够指示待监控的目标TCP长连接;
检测所述节点进程的进程运行时长和所述目标TCP长连接的长连接时长,并基于与所述控制台进程间的TCP长连接将检测结果发送给所述控制台进程,以使所述控制台进程基于所述检测结果进行故障分析。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应启动操作,生成内存全局变量,所述内存全局变量用于记录当前时间为进程启动时间。
3.根据权利要求2所述的方法,其特征在于,所述检测所述节点进程的进程运行时长和所述目标TCP长连接的长连接时长,包括:
在当前时间晚于所述进程启动时间的情况下,根据当前时间与所述进程启动时间输出所述进程运行时长;
在当前时间早于所述进程启动时间的情况下,对所述节点进程进行时间同步;时间同步后若当前时间早于所述进程启动时间,将所述进程启动时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于所述进程启动时间,根据当前时间与所述进程启动时间输出所述进程运行时长;
在所述目标TCP长连接不存在的情况下,返回报错码作为所述长连接时长;
在所述目标TCP长连接存在的情况下,获取所述目标TCP长连接的长连接开始时间;在当前时间晚于所述长连接开始时间的情况下,根据当前时间和所述长连接开始时间输出所述长连接时长;在当前时间早于所述长连接开始时间的情况下,对所述节点进程进行时间同步;时间同步后若当前时间早于所述长连接开始时间,将所述长连接开始时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于所述长连接开始时间,根据当前时间和所述长连接开始时间输出所述长连接时长。
4.一种节点间TCP长连接的监控装置,其特征在于,应用于节点进程,所述节点进程能够管理与其它节点进程间的TCP长连接,所述装置包括:
第一长连接建立模块,用于响应启动操作,向控制台进程进行发起注册请求,以建立与所述控制台进程间的TCP长连接;
检测模块,用于基于与所述控制台进程间的TCP长连接,接收所述控制台进程发送的监控请求,所述监控请求能够指示待监控的目标TCP长连接;检测所述节点进程的进程运行时长和所述目标TCP长连接的长连接时长,并基于与所述控制台进程间的TCP长连接将检测结果发送给所述控制台进程,以使所述控制台进程基于所述检测结果进行故障分析。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
变量生成模块,用于响应启动操作,生成内存全局变量,所述内存全局变量用于记录当前时间为进程启动时间。
6.根据权利要求5所述的装置,其特征在于,用于检测所述节点进程的进程运行时长和所述目标TCP长连接的长连接时长的所述检测模块,具体用于:
在当前时间晚于所述进程启动时间的情况下,根据当前时间与所述进程启动时间输出所述进程运行时长;
在当前时间早于所述进程启动时间的情况下,对所述节点进程进行时间同步;时间同步后若当前时间早于所述进程启动时间,将所述进程启动时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于所述进程启动时间,根据当前时间与所述进程启动时间输出所述进程运行时长;
在所述目标TCP长连接不存在的情况下,返回报错码作为所述长连接时长;
在所述目标TCP长连接存在的情况下,获取所述目标TCP长连接的长连接开始时间;在当前时间晚于所述长连接开始时间的情况下,根据当前时间和所述长连接开始时间输出所述长连接时长;在当前时间早于所述长连接开始时间的情况下,对所述节点进程进行时间同步;时间同步后若当前时间早于所述长连接开始时间,将所述长连接开始时间调整为当前时间,并生成相匹配的报错信息;时间同步后若当前时间晚于所述长连接开始时间,根据当前时间和所述长连接开始时间输出所述长连接时长。
7.一种节点间TCP长连接的监控方法,其特征在于,所述方法应用于控制台进程,所述方法包括:
接收节点进程响应其启动操作所发起的注册请求,以建立与所述节点进程间的TCP长连接,所述节点进程能够管理与其它节点进程间的TCP长连接;
基于与所述节点进程间的TCP长连接,向所述节点进程发送监控请求,所述监控请求能够指示待监控的目标TCP长连接;
基于与所述节点进程间的TCP长连接,接收所述节点进程所发送的检测结果,所述检测结果是所述节点进程通过检测其进程运行时长和所述目标TCP长连接的长连接时长所获得的;
基于所述检测结果进行故障分析。
8.根据权利要求7所述的方法,其特征在于,所述基于所述检测结果进行故障分析,包括:
对与所述节点进程间的TCP长连接进行网络连接的监测;若监测到网络连接失败,则以报错码作为所述进程运行时长和所述长连接时长;若监测到网络连接成功,则根据所述检测结果中的所述进程运行时长和所述长连接时长输出故障结论。
9.根据权利要求8所述的方法,其特征在于,所述根据所述检测结果中的所述进程运行时长和所述长连接时长输出故障结论,包括:
如果所述检测结果中包含报错信息,则确定故障现象为所述节点进程已启动但是所述节点进程时间存在问题、与所述节点进程间的TCP长连接状态未知,以及故障原因为解决时间问题;
如果所述检测结果中所述进程运行时长为报错码,则确定故障现象为所述节点进程未启动或者所述节点进程无法与所述控制台进程通讯,以及故障原因为网络波动或所述节点进程反复重启;
如果所述检测结果中所述进程运行时长大于0、小于1分钟,并且所述长连接时长大于0,则确定故障现象为节点进程启动时间不足一分钟并且当前与所述节点进程间的TCP长连接正常,以及故障原因为所述节点进程反复重启或计划内重启;
如果所述检测结果中所述进程运行时长大于0、小于1分钟,并且所述长连接时长为报错码,则确定故障现象为所述节点进程启动时间不足1分钟并且当前与所述节点进程间的TCP长连接网络通讯不正常,以及故障原因为所述节点进程反复重启或系统刚启动;
如果所述检测结果中所述进程运行时长大于1分钟,并且所述长连接时长为报错码,则确定故障现象为所述节点进程正常并且当前与所述节点进程间的TCP长连接网络通讯不正常;
如果所述检测结果中所述进程运行时长大于1分钟,并且所述长连接时长大于0、小于1分钟,则确定故障现象为所述节点进程正常并且最近1分钟内与所述节点进程间的TCP长连接网络通讯不正常,以及故障原因为网络波动;
如果所述检测结果中所述进程运行时长大于1分钟,并且所述长连接时长大于1分钟,则确定故障现象为正常。
10.一种节点间TCP长连接的监控装置,其特征在于,应用于控制台进程,所述装置包括:
第二长连接建立模块,用于接收节点进程响应其启动操作所发起的注册请求,以建立与所述节点进程间的TCP长连接,所述节点进程能够管理与其它节点进程间的TCP长连接;
故障分析模块,用于基于与所述节点进程间的TCP长连接,向所述节点进程发送监控请求,所述监控请求能够指示待监控的目标TCP长连接;基于与所述节点进程间的TCP长连接,接收所述节点进程所发送的检测结果,所述检测结果是所述节点进程通过检测其进程运行时长和所述目标TCP长连接的长连接时长所获得的;基于所述检测结果进行故障分析。
CN202310963098.XA 2023-08-02 2023-08-02 节点间tcp长连接的监控方法及装置 Active CN116708528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310963098.XA CN116708528B (zh) 2023-08-02 2023-08-02 节点间tcp长连接的监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310963098.XA CN116708528B (zh) 2023-08-02 2023-08-02 节点间tcp长连接的监控方法及装置

Publications (2)

Publication Number Publication Date
CN116708528A CN116708528A (zh) 2023-09-05
CN116708528B true CN116708528B (zh) 2023-10-03

Family

ID=87836073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310963098.XA Active CN116708528B (zh) 2023-08-02 2023-08-02 节点间tcp长连接的监控方法及装置

Country Status (1)

Country Link
CN (1) CN116708528B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008031297A1 (fr) * 2006-09-08 2008-03-20 Zte Corporation Procédé de localisation de position de panne de communication du système de surveillance de dispositif
CN103259688A (zh) * 2013-06-04 2013-08-21 北京搜狐新媒体信息技术有限公司 一种分布式存储系统的故障诊断方法与装置
CN105681116A (zh) * 2016-04-14 2016-06-15 北京中电万联科技股份有限公司 一种车载设备供电系统后台监控管理平台
CN108710349A (zh) * 2018-05-16 2018-10-26 珠海格力电器股份有限公司 一种故障数据采集方法及故障数据处理系统
CN113032139A (zh) * 2020-12-30 2021-06-25 瑞庭网络技术(上海)有限公司 请求处理方法、装置、计算机可读存储介质及电子设备
CN114024834A (zh) * 2021-10-21 2022-02-08 济南浪潮数据技术有限公司 故障定位方法、装置、电子设备及可读存储介质
CN114268640A (zh) * 2020-09-16 2022-04-01 上海交通大学 云边协同的工业物联网智能路由系统
CN114296938A (zh) * 2021-12-30 2022-04-08 上海洛轲智能科技有限公司 车载系统的进程监控方法、装置及设备
CN115190052A (zh) * 2022-07-12 2022-10-14 中国工商银行股份有限公司 一种长连接的管理方法、系统和控制单元

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10567250B2 (en) * 2016-09-21 2020-02-18 Oracle International Corporation End-to-end tracing providers and session management
US10382290B2 (en) * 2017-05-02 2019-08-13 Netscout Systems, Inc Service analytics

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008031297A1 (fr) * 2006-09-08 2008-03-20 Zte Corporation Procédé de localisation de position de panne de communication du système de surveillance de dispositif
CN103259688A (zh) * 2013-06-04 2013-08-21 北京搜狐新媒体信息技术有限公司 一种分布式存储系统的故障诊断方法与装置
CN105681116A (zh) * 2016-04-14 2016-06-15 北京中电万联科技股份有限公司 一种车载设备供电系统后台监控管理平台
CN108710349A (zh) * 2018-05-16 2018-10-26 珠海格力电器股份有限公司 一种故障数据采集方法及故障数据处理系统
CN114268640A (zh) * 2020-09-16 2022-04-01 上海交通大学 云边协同的工业物联网智能路由系统
CN113032139A (zh) * 2020-12-30 2021-06-25 瑞庭网络技术(上海)有限公司 请求处理方法、装置、计算机可读存储介质及电子设备
CN114024834A (zh) * 2021-10-21 2022-02-08 济南浪潮数据技术有限公司 故障定位方法、装置、电子设备及可读存储介质
CN114296938A (zh) * 2021-12-30 2022-04-08 上海洛轲智能科技有限公司 车载系统的进程监控方法、装置及设备
CN115190052A (zh) * 2022-07-12 2022-10-14 中国工商银行股份有限公司 一种长连接的管理方法、系统和控制单元

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Li Zichang et.al.An Identification Method for Asymmetric Faults With Line Breaks Based on Low-Voltage Side Data in Distribution Networks.《IEEE Transactions on Power Delivery 》.2020,第36卷(第06期),3629-3639. *
刘保帅.大规模边缘计算设备资源调度管理研究.《中国优秀硕士学位论文全文数据库(信息科技辑)》.2023,(第07期),全文. *

Also Published As

Publication number Publication date
CN116708528A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
US10491671B2 (en) Method and apparatus for switching between servers in server cluster
US6625648B1 (en) Methods, systems and computer program products for network performance testing through active endpoint pair based testing and passive application monitoring
US20140032173A1 (en) Information processing apparatus, and monitoring method
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN111030873A (zh) 一种故障诊断方法及装置
CN103414916A (zh) 一种故障诊断系统及方法
CN109714202A (zh) 一种客户端离线原因判别方法和集群式安全管理系统
CN109273045B (zh) 存储设备在线检测方法、装置、设备及可读存储介质
CN114268532A (zh) 一种基于Raft协议的竞选方法、分布式系统及存储介质
CN109245953A (zh) 一种网络配置方法和装置
CN116708528B (zh) 节点间tcp长连接的监控方法及装置
CN108509296B (zh) 一种处理设备故障的方法和系统
CN113472577A (zh) 一种集群巡检方法、装置及系统
CN107959595B (zh) 一种异常检测的方法、装置及系统
CN100421381C (zh) 一种获取网络设备运行和故障状态信息的方法及装置
JP2016066303A (ja) サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法
CN103532748B (zh) 一种drbd脑裂的处理方法及装置
KR100619424B1 (ko) 동적 번랙 모니터 리스너 서버
CN111092956A (zh) 资源同步方法、装置、存储介质及设备
CN111064613A (zh) 一种网络故障检测方法及装置
CN113890880A (zh) 一种多节点间的数据同步方法、系统、设备及存储介质
CN107864057B (zh) 一种基于联网状态的联机自动检查及告警方法
CN110995495A (zh) 网络故障检测方法、装置、电子设备及存储介质
JP2001036552A (ja) クライアントサーバシステム監視装置および方法
CN114285863B (zh) 通过更新执行状态判断装置运作状况的系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant