CN112596991A - 一种基于机器健康状态的热备倒切方法 - Google Patents

一种基于机器健康状态的热备倒切方法 Download PDF

Info

Publication number
CN112596991A
CN112596991A CN202011571515.9A CN202011571515A CN112596991A CN 112596991 A CN112596991 A CN 112596991A CN 202011571515 A CN202011571515 A CN 202011571515A CN 112596991 A CN112596991 A CN 112596991A
Authority
CN
China
Prior art keywords
machine
health
standby
value
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011571515.9A
Other languages
English (en)
Other versions
CN112596991B (zh
Inventor
杨照路
李建全
钱江
闫哲
宋诗超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casco Signal Ltd
Original Assignee
Casco Signal Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casco Signal Ltd filed Critical Casco Signal Ltd
Priority to CN202011571515.9A priority Critical patent/CN112596991B/zh
Publication of CN112596991A publication Critical patent/CN112596991A/zh
Application granted granted Critical
Publication of CN112596991B publication Critical patent/CN112596991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Hardware Redundancy (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种基于机器健康状态的热备倒切方法,该方法根据配置的统计指标计算运行机器当前的健康状态值,其中健康状态值是对当前运行机器状态做出的综合评估,主备机间健康状态值通过消息互传,主备机根据彼此健康状态值决定是否实现自动倒机。与现有技术相比,本发明具有解决了项目现场这种网络短时间通断的机器硬件故障,增加更多倒机场景,将硬件故障影响降低到最小等优点。

Description

一种基于机器健康状态的热备倒切方法
技术领域
本发明涉及城轨调度指挥系统,尤其是涉及一种基于机器健康状态的热备倒切方法。
背景技术
随着城市轨道交通快速发展,乘客对运营安全、效率、服务质量等提出了严格的要求。但地铁线路在实际运营过程中却偶有发生控制中心工作站和车站工作站监控界面灰显,中控及站控都不可操作的故障,导致进路无法排列,严重影响现场的正常运营,给乘客出行带来不便。通过分析发现主要有以下几个问题:
(1)维护人员长时间对现场机器不进行维护重启,机器上的硬件包括网卡,硬盘等会出现无法预知的异常情况,进而会影响机器上运行的应用软件;
(2)既有的智能列车监控系统产品中双机热备冗余仅考虑了网络连接中断、机器死机、软件卡死等特殊情况下的自动倒机,对不定时短时间网络中断的异常无法捕获;
(3)既有热备冗余逻辑未能充分考虑运行机器的健康状态,比如读取或处理数据流速率降低时不会发生自动倒机;
(4)增加新的倒机场景对既有的软件改动较大,无形中增加开发和测试的工作量,同时加大产品不稳定性的风险。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于机器健康状态的热备倒切方法。
本发明的目的可以通过以下技术方案来实现:
根据本发明的一个方面,提供了一种基于机器健康状态的热备倒切方法,该方法根据配置的统计指标计算运行机器当前的健康状态值,其中健康状态值是对当前运行机器状态做出的综合评估,主备机间健康状态值通过消息互传,主备机根据彼此健康状态值决定是否实现自动倒机。
作为优选的技术方案,所述的统计指标包括CPU占用率、内存使用率、硬盘使用率、单网通断次数、双网通断次数、消息队列处理率、线程资源使用率和应用连接状态。
作为优选的技术方案,该方法具体包括以下步骤:
步骤S1、读取配置文件初始化统计指标及统计时长参数;
步骤S2、根据各统计指标及统计时长计算主备机器的健康状态值;
步骤S3、主备机根据当前的健康状态值并根据配置中的告警阈值在调度台弹出维护告警,确认当前机器需要持续观察还是立即维护检查;
步骤S4、主备机计算出健康状态值后通过消息同步给对方;
步骤S5、当主机收到备机发过来的健康状态值后,双机间的健康值之差根据配置的阈值决定是否自动倒机。
作为优选的技术方案,所述的步骤S1具体为:
步骤S11、读取配置文件中决定是否启用机器健康状态值的处理逻辑;
步骤S12、读取配置文件中各统计指标及所占比例;
步骤S13、读取配置文件中其它阈值。
作为优选的技术方案,对步骤S12读取的所占比例的有效性进行检查。
作为优选的技术方案,如果配置文件中未配置则提供默认值。
作为优选的技术方案,所述的步骤S2具体为:
步骤S21,根据统计指标及所占比例计算每一秒的健康状态点值;
步骤S22,根据配置的统计时长取该时长内所有点值的平均值作为该机器的健康状态值。
作为优选的技术方案,未达到统计时长的健康状态值采用默认值,即机器状态良好。
作为优选的技术方案,所述的默认值为100。
作为优选的技术方案,该方法在实际应用过程中需扩展统计指标时,仅需提供该指标的统计方法即可。
与现有技术相比,本发明具有以下优点:
1)本发明有效的解决了项目现场这种网络短时间通断的机器硬件故障,增加更多倒机场景,将硬件故障影响降低到最小;
2)本发明通过机器健康状态管理实现双机热备冗余的自动切换逻辑更加合理,更能准确反应当前运行机器的实际状态,给类似产品或使用热备冗余的其它系统提供思路和解决方案;
3)本发明定义了可扩展的统计模型,对以后指标扩展修改的软件代码和数据配置做了充分的考虑,将影响降低到最小,大大减少了开发和测试的工作量;
4)本发明提供了用户维护告警提示,对可能存在问题的机器早关注,早介入,早维护,能够更好的保障项目现场稳定、有序的运行。
附图说明
图1为本发明的流程图;
图2为本发明整体计算的流程图;
图3为本发明实现的UML图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本发明一种可扩展统计指标的双机热备冗余方法,根据配置的统计指标计算运行机器当前的健康状态值。统计指标包括CPU占用率、内存使用率、硬盘使用率、单网通断次数、双网通断次数、消息队列处理率、线程资源使用率,应用连接状态等。健康状态值是对当前运行机器状态做出的综合评估,主备机间健康状态值通过消息互传。双机根据彼此健康状态值决定是否实现自动倒机。同时考虑避免机器短时间异常波动导致的双机来回自动切换造成系统的不稳定。在实际应用过程中需扩展统计指标时,仅需提供该指标的统计方法即可,整体运算框架保持不变,具备良好的可扩展性。
因此本发明提出的健康状态值是对当前机器运行情况做出的综合评估,不仅可以包括应用软件,也可包括硬件设备。在能够准确预防软件故障的前提下同时考虑机器硬件故障、老化导致的异常错误,在项目的实际应用中更有意义;同时项目的日常维护过程中通过告警提示信息,可提前发现问题,将可能发生的故障扼杀在摇篮里。软件界面显示了各统计指标的健康值,有助于观察、分析各个指标,一旦出现问题能够快速定位,找出根本原因。
图1所示为本发明中健康状态点值的计算流程。下面以一次计算为例,结合图1对以下步骤进行详细描述:
步骤501,读取配置文件中配置的参数,包含各指标名称、阈值、占比、统计时长等,同时检查配置参数的有效性,检查不通过时直接结束健康状态的计算,认为软件热备冗余切换逻辑中不包含这个功能;
步骤502,每秒获取机器当前状态值,比如CPU使用率、内存占用率及配置文件中配置的其它指标;
步骤503,还有一些需要软件实时统计的指标,比如与该软件网络连接的其它节点间的单网通断次数、双网通断次数及配置文件中配置的其它指标;
步骤504、505,每秒获取所有指标的值后,判断每个指标是否超过阈值,任一指标超过阈值,该秒健康状态点值为0;
步骤506,判断每个指标都没有超过阈值后,按照公式:指标n点值=(阈值-统计值)*占比/阈值的计算公式计算得到该秒的健康状态点值;
步骤507,计算公式为health_value_point=指标1点值+指标2点值+…+指标n点值。
参考图2与技术方案中描述的步骤一致。
参考图3介绍本发明的具体实现逻辑,每个指标的不同点仅是计算方法的不一致,符合设计模式中策略模式的使用场景。创建一个统计指标的HealthBase接口类和实现了HealthBase接口的实体策略类PollingHealth,SignalNetHealth,DoubleNetHealth,CPUHealth,MemoryHealth等。HealthValueEveryCycle是该策略类的引用,最终给客户端调用。主要实现代码如下:
Figure BDA0002862872920000041
Figure BDA0002862872920000051
Figure BDA0002862872920000061
采用可扩展的设计思路,在后续项目中根据实际需求增加统计指标,不会改变客户端实现及其它指标的具体实现,很好的展现了各类间的高内聚、低耦合。有效的解决了因硬件故障、机器性能等问题导致运行不稳定,进而影响产品使用,为项目现场稳定运营提供了良好的保障。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于机器健康状态的热备倒切方法,其特征在于,该方法根据配置的统计指标计算运行机器当前的健康状态值,其中健康状态值是对当前运行机器状态做出的综合评估,主备机间健康状态值通过消息互传,主备机根据彼此健康状态值决定是否实现自动倒机。
2.根据权利要求1所述的一种基于机器健康状态的热备倒切方法,其特征在于,所述的统计指标包括CPU占用率、内存使用率、硬盘使用率、单网通断次数、双网通断次数、消息队列处理率、线程资源使用率和应用连接状态。
3.根据权利要求1所述的一种基于机器健康状态的热备倒切方法,其特征在于,该方法具体包括以下步骤:
步骤S1、读取配置文件初始化统计指标及统计时长参数;
步骤S2、根据各统计指标及统计时长计算主备机器的健康状态值;
步骤S3、主备机根据当前的健康状态值并根据配置中的告警阈值在调度台弹出维护告警,确认当前机器需要持续观察还是立即维护检查;
步骤S4、主备机计算出健康状态值后通过消息同步给对方;
步骤S5、当主机收到备机发过来的健康状态值后,双机间的健康值之差根据配置的阈值决定是否自动倒机。
4.根据权利要求3所述的一种基于机器健康状态的热备倒切方法,其特征在于,所述的步骤S1具体为:
步骤S11、读取配置文件中决定是否启用机器健康状态值的处理逻辑;
步骤S12、读取配置文件中各统计指标及所占比例;
步骤S13、读取配置文件中其它阈值。
5.根据权利要求4所述的一种基于机器健康状态的热备倒切方法,其特征在于,对步骤S12读取的所占比例的有效性进行检查。
6.根据权利要求4所述的一种基于机器健康状态的热备倒切方法,其特征在于,如果配置文件中未配置则提供默认值。
7.根据权利要求4所述的一种基于机器健康状态的热备倒切方法,其特征在于,所述的步骤S2具体为:
步骤S21,根据统计指标及所占比例计算每一秒的健康状态点值;
步骤S22,根据配置的统计时长取该时长内所有点值的平均值作为该机器的健康状态值。
8.根据权利要求7所述的一种基于机器健康状态的热备倒切方法,其特征在于,未达到统计时长的健康状态值采用默认值,即机器状态良好。
9.根据权利要求8所述的一种基于机器健康状态的热备倒切方法,其特征在于,所述的默认值为100。
10.根据权利要求1所述的一种基于机器健康状态的热备倒切方法,其特征在于,该方法在实际应用过程中需扩展统计指标时,仅需提供该指标的统计方法即可。
CN202011571515.9A 2020-12-27 2020-12-27 一种基于机器健康状态的热备倒切方法 Active CN112596991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011571515.9A CN112596991B (zh) 2020-12-27 2020-12-27 一种基于机器健康状态的热备倒切方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011571515.9A CN112596991B (zh) 2020-12-27 2020-12-27 一种基于机器健康状态的热备倒切方法

Publications (2)

Publication Number Publication Date
CN112596991A true CN112596991A (zh) 2021-04-02
CN112596991B CN112596991B (zh) 2023-09-08

Family

ID=75202825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011571515.9A Active CN112596991B (zh) 2020-12-27 2020-12-27 一种基于机器健康状态的热备倒切方法

Country Status (1)

Country Link
CN (1) CN112596991B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8516174B2 (en) * 2007-05-25 2013-08-20 Robert Bosch Gmbh Data transmission method between master and slave devices
CN103647668A (zh) * 2013-12-16 2014-03-19 上海证券交易所 一种高可用集群内主机群体决策系统及切换方法
CN108847984A (zh) * 2018-06-27 2018-11-20 北京云端智度科技有限公司 一种基于snmp的健康算法的cdn全局负载均衡策略
CN109194514A (zh) * 2018-09-11 2019-01-11 上海思源弘瑞自动化有限公司 一种双机监测方法、装置、服务器及存储介质
CN109542742A (zh) * 2018-11-14 2019-03-29 国网江苏省电力有限公司信息通信分公司 基于专家模型的数据库服务器硬件健康评估方法
WO2019080477A1 (zh) * 2017-10-24 2019-05-02 北京全路通信信号研究设计院集团有限公司 一种计算机联锁系统及其冗余切换方法
CN111083005A (zh) * 2018-10-22 2020-04-28 瞻博网络公司 针对网络设备的健康数据的可扩展可视化

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8516174B2 (en) * 2007-05-25 2013-08-20 Robert Bosch Gmbh Data transmission method between master and slave devices
CN103647668A (zh) * 2013-12-16 2014-03-19 上海证券交易所 一种高可用集群内主机群体决策系统及切换方法
WO2019080477A1 (zh) * 2017-10-24 2019-05-02 北京全路通信信号研究设计院集团有限公司 一种计算机联锁系统及其冗余切换方法
CN108847984A (zh) * 2018-06-27 2018-11-20 北京云端智度科技有限公司 一种基于snmp的健康算法的cdn全局负载均衡策略
CN109194514A (zh) * 2018-09-11 2019-01-11 上海思源弘瑞自动化有限公司 一种双机监测方法、装置、服务器及存储介质
CN111083005A (zh) * 2018-10-22 2020-04-28 瞻博网络公司 针对网络设备的健康数据的可扩展可视化
CN109542742A (zh) * 2018-11-14 2019-03-29 国网江苏省电力有限公司信息通信分公司 基于专家模型的数据库服务器硬件健康评估方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SRIKANT SHARMA ET AL.: "Duplex: A Reusable Fault Tolerance Extension Framework for Network Access Devices", 2003 INTERNATIONAL CONFERENCE ON DEPENDABLE SYSTEMS AND NETWORKS, pages 1 - 10 *
程诗佳 等: "计算机联锁系统中可靠冗余结构的研究", 《工业控制计算机》, 31 August 2016 (2016-08-31), pages 78 - 79 *
程诗佳: "计算机联锁系统中可靠冗余结构的研究" *
程诗佳: "计算机联锁系统中可靠冗余结构的研究", pages 78 - 79 *

Also Published As

Publication number Publication date
CN112596991B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN101753357A (zh) 一种网络服务器集中监控系统和方法
CN110569988B (zh) 一种支付机具故障处理系统及处理方法
CN106817278B (zh) 一种用于智能终端设备的数据采集上报装置及方法
CN108470193A (zh) 电能表故障诊断方法、系统及终端设备
CN109215330A (zh) 一种停电上报系统及方法
US20180191552A1 (en) Network monitor and method for event based prediction of radio network outages and their root cause
CN104518914B (zh) 链路切换方法和设备
CN111752805A (zh) 一种云服务器资源监控及告警系统
CN111200526A (zh) 网络设备的监控系统及方法
CN106789239A (zh) 面向电力业务的信息应用系统故障趋势预测方法及装置
EP4167530A1 (en) Network monitoring method, electronic device and storage medium
CN112596991A (zh) 一种基于机器健康状态的热备倒切方法
CN107026762B (zh) 一种基于分布式集群的容灾系统及方法
CN110224872B (zh) 一种通信方法、装置及存储介质
CN116760655A (zh) Sd-wan应用中提供cpe最优接入的pop点方法
CN102195824B (zh) 数据业务系统退服告警的方法、装置及系统
CN115883340A (zh) 一种基于hplc和hrf双模通信故障处理方法和设备
CN113391611B (zh) 动力环境监控系统的预警方法、装置及系统
CN109144800A (zh) 一种服务器故障信息的收集方法、装置及相关设备
CN109035746A (zh) 一种集抄终端的机能判断方法和系统
CN103546331A (zh) 监控信息的获取方法、装置及系统
CN112738835A (zh) 一种无线通信终端状态监控系统、方法、装置和设备
CN112072191A (zh) 一种动车组电池管理方法、设备以及存储介质
CN106789495B (zh) 一种单控制器主从式网络总线控制器在线切换方法
CN112039214B (zh) 一种变电站分布式事故总信号的一致性方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40041423

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant