CN106656584A - 一种分布式系统无效节点判定方法 - Google Patents

一种分布式系统无效节点判定方法 Download PDF

Info

Publication number
CN106656584A
CN106656584A CN201611108759.7A CN201611108759A CN106656584A CN 106656584 A CN106656584 A CN 106656584A CN 201611108759 A CN201611108759 A CN 201611108759A CN 106656584 A CN106656584 A CN 106656584A
Authority
CN
China
Prior art keywords
node
message
safety message
network
distributed system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611108759.7A
Other languages
English (en)
Other versions
CN106656584B (zh
Inventor
陆俊
钱锋
陆鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NR Engineering Co Ltd
Original Assignee
NR Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NR Electric Co Ltd filed Critical NR Electric Co Ltd
Priority to CN201611108759.7A priority Critical patent/CN106656584B/zh
Publication of CN106656584A publication Critical patent/CN106656584A/zh
Application granted granted Critical
Publication of CN106656584B publication Critical patent/CN106656584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/508Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement
    • H04L41/5096Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement wherein the managed service relates to distributed or central networked applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开一种分布式系统无效节点判定方法,包括如下内容:(1)各节点的进程启动时在网络中间件中注册信息,退出时清理注册信息,网络中间件之间实时同步本节点的进程状态信息;(2)各节点的系统管理进程定时发送系统管理平安报文,由管理节点的系统管理进程接收并进行节点状态更新;(3)管理节点的系统管理进程对工作节点依次进行状态检测,判定节点是否正常工作,对于无法正常工作的节点进行退出处理。此种方法可达到更加精准判定节点状态的目标。

Description

一种分布式系统无效节点判定方法
技术领域
本发明涉及一种分布式系统无效节点判定方法。
背景技术
分布式系统(Distributed System)有很多不同的定义,一般认为:“一个分布式系统是一些独立的计算机集合,但是对这个系统的用户来说,系统就像一台计算机一样”。这个定义有两方面的含义:第一,从硬件角度来讲,每台计算机都是自主的;第二,从软件角度来讲,用户将整个系统看做是一台计算机。这两者都是必需的,缺一不可。在一个分布式系统中,一组独立的计算机节点展现给用户的是一个统一的整体,系统拥有多种通用的物理和逻辑资源,可以动态地分配任务,分散的物理和逻辑资源通过计算机网络实现信息交换。主频可达到GHZ的功能强大的微处理器的开发和高速计算机网络的出现是分布式系统的产生的基础。
分布式系统通常由一个管理节点与多个工作节点组成,节点管理是分布式系统系统管理的核心功能之一。管理节点的系统管理进程实时对工作节点的状态进行监督,判断工作节点能否正常工作,将其加入或排除出系统。由于节点自身运行状态和网络传输的可靠性等问题(例如报文只能单向传输),异常的工作节点给系统带来众多不确定性问题,如数据不一致、返回超时等,快速准确的节点管理策略已成为系统管理的难点问题。
发明内容
本发明的目的,在于提供一种分布式系统无效节点判定方法,其可达到更加精准判定节点状态的目标。
为了达成上述目的,本发明的解决方案是:
一种分布式系统无效节点判定方法,包括如下内容:
(1)各节点的进程启动时在网络中间件中注册信息,退出时清理注册信息,网络中间件之间实时同步本节点的进程状态信息;
(2)各节点的系统管理进程定时发送系统管理平安报文,由管理节点的系统管理进程接收并进行节点状态更新;
(3)管理节点的系统管理进程对工作节点依次进行状态检测,判定节点是否正常工作,对于无法正常工作的节点进行退出处理。
上述内容(1)中,当节点退出时,主动注销或被动由网络中间件清理注册信息。
上述内容(1)中,网络中间件之间通过网络平安报文实时同步本节点的进程状态信息,并为上层系统管理模块提供查询接口。
上述网络平安报文包括整体平安报文和变化平安报文,整体平安报文周期性发送,记录了本节点的所有注册引用进程信息;变化平安报文在本节点注册应用程序变化的时候发送。
上述内容(2)中,当系统管理平安报文出现超时,管理节点的系统管理进程向目标节点的系统管理进程主动请求应答,进行进一步确认。
上述内容(3)的详细内容是:管理节点的系统管理程序通过网络中间件访问接口检查对方节点管理进程是否在线:如不在线,再对节点的投运状态进行判断,对于未投运的节点直接判断该节点为故障,做节点退出处理;对于投运的节点进行进一步故障计数,超过阈值判断节点故障,做节点退出处理;如在线,则验证系统管理平安报文是否超时,如超时则请求对方发送系统管理平安报文,若在更长一些的时间段内仍然还收不到,则判断该节点为故障,做节点退出处理;如不超时说明一切正常,将故障计数清零。
采用上述方案后,本发明采用基于网络中间件同步信息和系统管理通讯状态的综合判定方法,管理节点的系统管理进程定期对工作节点的状态进行维护,通过综合网络中间件同步的进程状态信息与管理进程间通讯状态信息,判定节点是否正常工作,使得管理节点可以准确判断工作节点是否处于正常工作状态,及时将异常节点退出系统操作,达到保证系统可靠性与可用性的效果。
附图说明
图1是本发明中分布式系统的层次结构图;
图2是本发明网络中间件间信息同步示意图;
图3是本发明工作节点状态维护流程图。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
首先,对本发明涉及的分布式系统的架构进行说明,如图1所示,自底向上依次是网络层、应用层和系统管理层。其中,网络层屏蔽操作系统差异,对上统一提供网络服务;应用层负责处理具体的应用事务;系统管理层利用网络层对应用服务、网络节点等进行管理。
本发明提供一种分布式系统无效节点判定方法,包括网络中间件间的信息同步技术,系统管理平安报文和探测技术,以及基于这两项技术的工作节点状态判定策略,下面分别介绍。
第一,网络中间件进程注册信息同步功能
节点内部应用进程启动时需要在网络中间件中注册进程信息,退出时主动注销或被动由网络中间件清理注册信息。网络中间件之间实时同步本节点的进程状态信息,并为上层系统管理模块提供查询接口,系统管理模块可以实时获得系统内任意节点及进程的当前状态。如图2所示,网络中间件之间通过平安报文维持各节点中的注册应用进程信息的同步,网络平安报文包括整体平安报文和变化平安报文。
整体平安报文周期性发送,记录了本节点的所有注册引用进程信息。发送整体平安报文的目的是为了让新加入的节点能很快知道本节点的注册应用进程信息,同时不至于因为丢包而使各个节点上保存的注册应用信息不一致。定时发送的报文都是整体平安报文。
变化平安报文在本节点注册应用程序变化的时候发送。注册应用进程变化是指本节点有新的应用程序注册、本节点有应用进程注销、本节点有应用进程的事件订阅信息发生了变化。
通过平安报文维持各节点中的注册应用进程信息的同步的内容包括:节点状态信息、应用进程信息以及注册事件信息,如下所示:
1)节点信息包括:现场名、节点名、节点IP、节点组号、节点状态、链路连接信息等。
2)应用进程信息包括:进程编号、进程注册信息(现场名、节点名、进程注册名);
3)注册事件信息包括:事件数量、注册事件号、事件屏蔽码等。
第二,系统管理平安报文及探测机制
分布式系统内各节点的系统管理进程定时发送系统管理平安报文(可设定为约30秒发送一次),系统管理平安报文由管理节点的系统管理进程接收并进行节点状态更新,用于维护系统管理间通讯状态。系统管理平安报文用于报告当前节点系统管理进程状态,内容包括:报文进程类型标识、报文类型以及时标等。
当系统管理平安报文出现超时,通过主动请求应答的探测技术对目标节点系统管理工作状态进行进一步确认。
第三,工作节点状态判定策略
管理节点的系统管理进程对工作节点依次进行状态检测,如图3所示,具体流程如下所示:
管理节点的系统管理程序通过网络中间件访问接口检查对方节点管理进程是否在线:
1)不在线,说明当前已无法通过网络中间件访问到目标节点,为了避免网络抖动造成误判,还对节点的投运状态进行判断:
a)未投运,说明节点前状态已经是离线,直接判断该节点为故障,做节点退出处理;
b)已投运,说明节点在稍早前的一段时间内还是处于正常运行的状态,为了避免网络抖动造成误判,在此增加故障计数验证,当前故障计数加1,且如果计数超过阈值判断节点故障,做节点退出处理。
2)在线,说明可以通过网络中间件访问到目标节点,但为了避免网络单向传输或不稳定的故障,还需要进一步验证系统管理平安报文的状态,验证目标节点系统管理平安报文是否超时:
a)超时,请求对方发送平安报文,若在更长一些的时间段内仍然还收不到,则判断该节点为故障,做节点退出处理;
b)不超时,说明一切正常,将故障计数清零。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (6)

1.一种分布式系统无效节点判定方法,其特征在于包括如下内容:
(1)各节点的进程启动时在网络中间件中注册信息,退出时清理注册信息,网络中间件之间实时同步本节点的进程状态信息;
(2)各节点的系统管理进程定时发送系统管理平安报文,由管理节点的系统管理进程接收并进行节点状态更新;
(3)管理节点的系统管理进程对工作节点依次进行状态检测,判定节点是否正常工作,对于无法正常工作的节点进行退出处理。
2.如权利要求1所述的一种分布式系统无效节点判定方法,其特征在于:所述内容(1)中,当节点退出时,主动注销或被动由网络中间件清理注册信息。
3.如权利要求1所述的一种分布式系统无效节点判定方法,其特征在于:所述内容(1)中,网络中间件之间通过网络平安报文实时同步本节点的进程状态信息,并为上层系统管理模块提供查询接口。
4.如权利要求3所述的一种分布式系统无效节点判定方法,其特征在于:所述网络平安报文包括整体平安报文和变化平安报文,整体平安报文周期性发送,记录了本节点的所有注册引用进程信息;变化平安报文在本节点注册应用程序变化的时候发送。
5.如权利要求1所述的一种分布式系统无效节点判定方法,其特征在于:所述内容(2)中,当系统管理平安报文出现超时,管理节点的系统管理进程向目标节点的系统管理进程主动请求应答,进行进一步确认。
6.如权利要求1所述的一种分布式系统无效节点判定方法,其特征在于:所述内容(3)的详细内容是:管理节点的系统管理程序通过网络中间件访问接口检查对方节点管理进程是否在线:如不在线,再对节点的投运状态进行判断,对于未投运的节点直接判断该节点为故障,做节点退出处理;对于投运的节点进行进一步故障计数,超过阈值判断节点故障,做节点退出处理;如在线,则验证系统管理平安报文是否超时,如超时则请求对方发送系统管理平安报文,若在更长一些的时间段内仍然还收不到,则判断该节点为故障,做节点退出处理;如不超时说明一切正常,将故障计数清零。
CN201611108759.7A 2016-12-06 2016-12-06 一种分布式系统无效节点判定方法 Active CN106656584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611108759.7A CN106656584B (zh) 2016-12-06 2016-12-06 一种分布式系统无效节点判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611108759.7A CN106656584B (zh) 2016-12-06 2016-12-06 一种分布式系统无效节点判定方法

Publications (2)

Publication Number Publication Date
CN106656584A true CN106656584A (zh) 2017-05-10
CN106656584B CN106656584B (zh) 2020-09-04

Family

ID=58818959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611108759.7A Active CN106656584B (zh) 2016-12-06 2016-12-06 一种分布式系统无效节点判定方法

Country Status (1)

Country Link
CN (1) CN106656584B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109412890A (zh) * 2018-10-17 2019-03-01 哈尔滨工业大学 基于dds的联合试验平台中间件节点状态检测方法
CN109981782A (zh) * 2019-03-28 2019-07-05 山东浪潮云信息技术有限公司 用于集群脑裂的远端存储异常处理方法及系统
WO2019237531A1 (zh) * 2018-06-14 2019-12-19 平安科技(深圳)有限公司 一种网络节点的监测方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001809A (zh) * 2012-12-25 2013-03-27 曙光信息产业(北京)有限公司 用于云存储系统的服务节点状态监控方法
CN104994166A (zh) * 2015-07-10 2015-10-21 李德毅 智能车分布式进程虚拟交换机通信方法
EP2953295A1 (en) * 2014-06-06 2015-12-09 Nokia Solutions and Networks Oy Automatic delta event synchronization in multiple manager-agent environments

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001809A (zh) * 2012-12-25 2013-03-27 曙光信息产业(北京)有限公司 用于云存储系统的服务节点状态监控方法
EP2953295A1 (en) * 2014-06-06 2015-12-09 Nokia Solutions and Networks Oy Automatic delta event synchronization in multiple manager-agent environments
CN104994166A (zh) * 2015-07-10 2015-10-21 李德毅 智能车分布式进程虚拟交换机通信方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019237531A1 (zh) * 2018-06-14 2019-12-19 平安科技(深圳)有限公司 一种网络节点的监测方法与系统
CN109412890A (zh) * 2018-10-17 2019-03-01 哈尔滨工业大学 基于dds的联合试验平台中间件节点状态检测方法
CN109412890B (zh) * 2018-10-17 2020-09-08 哈尔滨工业大学 基于dds的联合试验平台中间件节点状态检测方法
CN109981782A (zh) * 2019-03-28 2019-07-05 山东浪潮云信息技术有限公司 用于集群脑裂的远端存储异常处理方法及系统
CN109981782B (zh) * 2019-03-28 2022-03-22 浪潮云信息技术股份公司 用于集群脑裂的远端存储异常处理方法及系统

Also Published As

Publication number Publication date
CN106656584B (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN103019866B (zh) 基于消息队列的分布式方法和系统
CN105912618B (zh) 基于区块链的充电桩充电交易通讯方法及装置
US9774697B2 (en) Method, apparatus, and system for pushing notification
CN106130766A (zh) 一种基于sdn技术实现自动化网络故障分析的系统和方法
CN106130767A (zh) 一种业务路径故障监控及故障解决的系统和方法
CN101188527B (zh) 一种心跳检测方法和装置
CN106656584A (zh) 一种分布式系统无效节点判定方法
CN103270721A (zh) 协议事件管理的方法和装置
CN103810076B (zh) 数据复制的监控方法及装置
CN102929773A (zh) 信息采集方法和装置
CN101777020A (zh) 一种用于分布式程序的容错方法和系统
CN103166773A (zh) 监测服务器运行状态的方法与系统
CN107332859A (zh) 一种工业控制系统风险识别方法及装置
CN107395717A (zh) 一种应用于运维审计系统的空闲超时自动断开的方法
CN112468592A (zh) 一种基于电力信息采集的终端在线状态侦测方法及系统
CN102025728A (zh) 客户端/服务端架构下的调度方法和服务器
CN103870349A (zh) 用于数据处理系统的配置管理装置及方法
CN116302862A (zh) 一种微服务架构下监控告警方法和系统
CN103618665A (zh) 一种向客户端推送消息的方法
CN104486047B (zh) 自助终端监控方法、装置以及系统
CN103440189A (zh) 一种基于进程强制运行控制的软件抗死锁方法
CN101175315A (zh) 一种控制移动台进行更新的方法及其系统
CN110224872A (zh) 一种通信方法、装置及存储介质
CN104348676B (zh) 一种基于操作管理维护oam的链路检测方法及设备
CN107896176A (zh) 一种计算节点的处理方法、智能终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190730

Address after: 211102 Jiangning, Jiangsu, Jiangsu Province, the source of the road No. 69

Applicant after: Nanrui Relay Protection Electricity Co., Ltd., Nanjing

Applicant after: Nanjing Nari-Relays Engineering Technology Co., Ltd.

Address before: 211102 Jiangning, Jiangsu, Jiangsu Province, the source of the road No. 69

Applicant before: Nanrui Relay Protection Electricity Co., Ltd., Nanjing

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant