CN114356615A - 基于物联网轨道交通软件与应用故障自愈的解决方法 - Google Patents

基于物联网轨道交通软件与应用故障自愈的解决方法 Download PDF

Info

Publication number
CN114356615A
CN114356615A CN202111483988.8A CN202111483988A CN114356615A CN 114356615 A CN114356615 A CN 114356615A CN 202111483988 A CN202111483988 A CN 202111483988A CN 114356615 A CN114356615 A CN 114356615A
Authority
CN
China
Prior art keywords
healing
self
fault
internet
rail transit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111483988.8A
Other languages
English (en)
Inventor
蔡昌俊
俞军燕
陆桥
彭伟泽
张�杰
罗伟庭
林德辉
张芃
黎志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Metro Group Co Ltd
Original Assignee
Guangzhou Metro Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Metro Group Co Ltd filed Critical Guangzhou Metro Group Co Ltd
Priority to CN202111483988.8A priority Critical patent/CN114356615A/zh
Publication of CN114356615A publication Critical patent/CN114356615A/zh
Priority to PCT/CN2023/072647 priority patent/WO2023104219A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/10Detection; Monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及软件与应用故障自愈领域,尤其涉及基于物联网轨道交通软件与应用故障自愈的解决方法。包括故障自愈运行流程如下:故障自愈后台监测各个进程运行状态;判断进程运行情况;根据对各个进程的故障状态进行判断;进程异常,启动自恢复脚本,并通知运维人员,形成回复的记录。包括故障自愈配置实施过程如下:录入平台运行的进程信息;生成进程结构化信息以及恢复脚本;设置监控周期;配置进程故障自愈监测状态;配置告警策略;故障自愈后台运行。本发明的目的在于提出了一种可以解决软件与应用故障的基于物联网轨道交通软件与应用故障自愈的解决方法。

Description

基于物联网轨道交通软件与应用故障自愈的解决方法
技术领域
本发明涉及软件与应用故障自愈领域,尤其涉及基于物联网轨道交通软件与应用故障自愈的解决方法。
背景技术
物联网轨道交通系统,其上运行了大量的应用软件与进程,与传统的轨道交通信息化软件相比,除了带来了用户体验和性价比提升外,也存在如下两个迫切需要解决和攻关的问题:大量应用软件运行在虚拟机之上,运行过程中,故障解决与日常维护对站务人员的专业技能要求比较高。只靠培训和上机演练,运维的效果实际无法保证。如果增加专业人员进行维护,代价比较高,而且增加了人力负担;物联网轨道交通的应用软件,具有软件版本更新迭代快,软件运行与其他系统关联度高的特点。往往一个点出现问题,需要综合多个部门进行联合调试与会商,这就给运维工作无形中增加了巨大的成本和负担。
发明内容
本发明的目的在于提出了一种可以解决软件与应用故障的基于物联网轨道交通软件与应用故障自愈的解决方法。
本发明所采用的技术方案为:基于物联网轨道交通软件与应用故障自愈的解决方法,其特征在于:包括故障自愈运行流程如下:
步骤一:故障自愈后台监测各个进程运行状态;
步骤二:判断进程运行情况;
步骤三:根据对各个进程的故障状态进行判断;
步骤四:进程异常,启动自恢复脚本,并通知运维人员,形成回复的记录。
包括故障自愈配置实施过程如下:
步骤一:录入平台运行的进程信息:采集边缘网关、设备联动、设备管理、消息管理、逻辑引擎、站务管理后台服务相关的每台服务器上运行的具体进程,并将相关信息输入到故障自愈的功能模块中;
步骤二:生成进程结构化信息以及恢复脚本:进程的结构化信息由故障自愈模块自动生成,采集每个进程维护的特定脚本并输入到故障自愈的功能模块中;
步骤三:设置监控周期:设置故障自愈的监控功能和进程的监测周期;
步骤四:配置进程故障自愈监测状态:配置每个进程的故障自愈监测状态;
步骤五:配置告警策略:配置告警策略、触发告警的阈值、告警统治规则;
步骤六:故障自愈后台运行:当故障达到阈值之后,自动触发告警分发机制,相关责任人收到告警处理信息,故障自愈模块自动运行故障恢复的脚本让故障尽快完成处理。
所述录入平台运行的进程信息包括进程状态自定义采集与定义进程表结构,采集进程的名称、内存占用、CPU占用、运行时间、关联监控项录入平台。
所述脚本为:
Figure BDA0003396728310000021
Figure BDA0003396728310000022
所述监控周期为1分钟,数据保存时间为5天。
所述进程故障自愈监测状态包括监控配置与基础配置。
所述告警策略的触发条件设置为:配置进程的告警范围和告警级别,设置阈值,当进程运行参数超过阈值时,调用进程维护的脚本实现进程的自恢复。
所述故障自愈后台运行包括通知方式设置与接入故障自愈,所述通知方式在进程运行出现问题时,设定统治的方式,实现对责任通知;用户在接入故障自愈时可以设置通知方式。
本发明的有益效果:本发明通过软件方式,对日常运行的车站内应用程序构建物模型,抽象并实时提取应用程序的CPU占有率,内存与硬盘使用率等运行信息,通过后台配置的方式,提前确定联动规则,在出现应用异常的时候,物联网轨道交通系统自动切换应用程序运行,并将故障进行自动恢复。通过这些手段,可以大大降低运维人员的手动参与,减少人力投入,并确保维护操作的准确性,充分适应物联网应用虚拟化,以及应用快速迭代的特定。
附图说明
图1是本发明基于物联网轨道交通软件与应用故障自愈的解决方法的运行流程图;
图2是本发明基于物联网轨道交通软件与应用故障自愈的解决方法的配置实施过程图;
图3是本发明基于物联网轨道交通软件与应用故障自愈的解决方法的模块结构图;
图4是本发明基于物联网轨道交通软件与应用故障自愈的解决方法的进程状态自定义采集图;
图5是本发明基于物联网轨道交通软件与应用故障自愈的解决方法的定义进程表结构图;
图6是本发明基于物联网轨道交通软件与应用故障自愈的解决方法的监控配置图;
图7是本发明基于物联网轨道交通软件与应用故障自愈的解决方法的基础配置图;
图8是本发明基于物联网轨道交通软件与应用故障自愈的解决方法的告警配置图;
图9是本发明基于物联网轨道交通软件与应用故障自愈的解决方法的通知方式设置图;
图10是本发明基于物联网轨道交通软件与应用故障自愈的解决方法的故障自愈接入图;
图11是本发明基于物联网轨道交通软件与应用故障自愈的解决方法的故障自愈场景图。
具体实施方式
本发明不受下述实施例的限制,可根据本发明的技术方案与实际情况来确定具体的实施方式。
基于物联网轨道交通软件与应用故障自愈的解决方法,其特征在于:包括故障自愈运行流程如下:
步骤一:故障自愈后台监测各个进程运行状态;
步骤二:判断进程运行情况;
步骤三:根据对各个进程的故障状态进行判断;
步骤四:进程异常,启动自恢复脚本,并通知运维人员,形成回复的记录。
包括故障自愈配置实施过程如下:
步骤一:录入平台运行的进程信息:采集边缘网关、设备联动、设备管理、消息管理、逻辑引擎、站务管理后台服务相关的每台服务器上运行的具体进程,并将相关信息输入到故障自愈的功能模块中;
步骤二:生成进程结构化信息以及恢复脚本:进程的结构化信息由故障自愈模块自动生成,采集每个进程维护的特定脚本并输入到故障自愈的功能模块中;
步骤三:设置监控周期:设置故障自愈的监控功能和进程的监测周期;
步骤四:配置进程故障自愈监测状态:配置每个进程的故障自愈监测状态;
步骤五:配置告警策略:配置告警策略、触发告警的阈值、告警统治规则;
步骤六:故障自愈后台运行:当故障达到阈值之后,自动触发告警分发机制,相关责任人收到告警处理信息,故障自愈模块自动运行故障恢复的脚本让故障尽快完成处理。
所述录入平台运行的进程信息包括进程状态自定义采集与定义进程表结构,采集进程的名称、内存占用、CPU占用、运行时间、关联监控项录入平台。
所述脚本为:
Figure BDA0003396728310000031
Figure BDA0003396728310000032
Figure BDA0003396728310000041
所述监控周期为1分钟,数据保存时间为5天。
所述进程故障自愈监测状态包括监控配置与基础配置。
所述告警策略的触发条件设置为:配置进程的告警范围和告警级别,设置阈值,当进程运行参数超过阈值时,调用进程维护的脚本实现进程的自恢复。
所述故障自愈后台运行包括通知方式设置与接入故障自愈,所述通知方式在进程运行出现问题时,设定统治的方式,实现对责任通知;用户在接入故障自愈时可以设置通知方式。
本发明的具体实施方式:
本发明故障自愈运行流程的具体步骤为:故障自愈后台监测各个进程运行状态;判断进程运行情况;根据对各个进程的故障状态(静态+动态)进行判断;进程异常,启动自恢复脚本,并通知运维人员,形成回复的记录。
本发明故障自愈配置实施过程为:采集边缘网关,设备联动,设备管理,消息管理,逻辑引擎,站务管理后台服务相关的每台服务器上运行的具体进程,将相关信息输入到故障自愈的功能模块中;进程的结构化信息由故障自愈模块自动生成,采集每个进程维护的特定脚本并输入到故障自愈的功能模块中;设置故障自愈的监控功能,包括对进程的监测周期等;配置每个进程的故障自愈监测状态;配置告警策略等信息,包括触发告警的阈值,以及告警统治的规则;当故障达到阈值之后,自动触发告警分发机制,相关责任人收到告警处理信息,故障自愈模块自动运行故障恢复的脚本让故障尽快完成处理。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (8)

1.基于物联网轨道交通软件与应用故障自愈的解决方法,其特征在于:包括故障自愈运行流程如下:
步骤一:故障自愈后台监测各个进程运行状态;
步骤二:判断进程运行情况;
步骤三:根据对各个进程的故障状态进行判断;
步骤四:进程异常,启动自恢复脚本,并通知运维人员,形成回复的记录。
2.根据权利要求1所述的基于物联网轨道交通软件与应用故障自愈的解决方法,其特征在于:包括故障自愈配置实施过程如下:
步骤一:录入平台运行的进程信息:采集边缘网关、设备联动、设备管理、消息管理、逻辑引擎、站务管理后台服务相关的每台服务器上运行的具体进程,并将相关信息输入到故障自愈的功能模块中;
步骤二:生成进程结构化信息以及恢复脚本:进程的结构化信息由故障自愈模块自动生成,采集每个进程维护的特定脚本并输入到故障自愈的功能模块中;
步骤三:设置监控周期:设置故障自愈的监控功能和进程的监测周期;
步骤四:配置进程故障自愈监测状态:配置每个进程的故障自愈监测状态;
步骤五:配置告警策略:配置告警策略、触发告警的阈值、告警统治规则;
步骤六:故障自愈后台运行:当故障达到阈值之后,自动触发告警分发机制,相关责任人收到告警处理信息,故障自愈模块自动运行故障恢复的脚本让故障尽快完成处理。
3.根据权利要求2所述的基于物联网轨道交通软件与应用故障自愈的解决方法,其特征在于:所述录入平台运行的进程信息包括进程状态自定义采集与定义进程表结构,采集进程的名称、内存占用、CPU占用、运行时间、关联监控项录入平台。
4.根据权利要求2所述的基于物联网轨道交通软件与应用故障自愈的解决方法,其特征在于:所述脚本为:
Figure FDA0003396728300000011
Figure FDA0003396728300000012
5.根据权利要求2所述的基于物联网轨道交通软件与应用故障自愈的解决方法,其特征在于:所述监控周期为1分钟,数据保存时间为5天。
6.根据权利要求2所述的基于物联网轨道交通软件与应用故障自愈的解决方法,其特征在于:所述进程故障自愈监测状态包括监控配置与基础配置。
7.根据权利要求2所述的基于物联网轨道交通软件与应用故障自愈的解决方法,其特征在于:所述告警策略的触发条件设置为:配置进程的告警范围和告警级别,设置阈值,当进程运行参数超过阈值时,调用进程维护的脚本实现进程的自恢复。
8.根据权利要求2所述的基于物联网轨道交通软件与应用故障自愈的解决方法,其特征在于:所述故障自愈后台运行包括通知方式设置与接入故障自愈,所述通知方式在进程运行出现问题时,设定统治的方式,实现对责任通知;用户在接入故障自愈时可以设置通知方式。
CN202111483988.8A 2021-12-07 2021-12-07 基于物联网轨道交通软件与应用故障自愈的解决方法 Pending CN114356615A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111483988.8A CN114356615A (zh) 2021-12-07 2021-12-07 基于物联网轨道交通软件与应用故障自愈的解决方法
PCT/CN2023/072647 WO2023104219A1 (zh) 2021-12-07 2023-01-17 基于物联网轨道交通软件与应用故障自愈的解决方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111483988.8A CN114356615A (zh) 2021-12-07 2021-12-07 基于物联网轨道交通软件与应用故障自愈的解决方法

Publications (1)

Publication Number Publication Date
CN114356615A true CN114356615A (zh) 2022-04-15

Family

ID=81096939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111483988.8A Pending CN114356615A (zh) 2021-12-07 2021-12-07 基于物联网轨道交通软件与应用故障自愈的解决方法

Country Status (2)

Country Link
CN (1) CN114356615A (zh)
WO (1) WO2023104219A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023104219A1 (zh) * 2021-12-07 2023-06-15 广州地铁集团有限公司 基于物联网轨道交通软件与应用故障自愈的解决方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550056A (zh) * 2015-12-11 2016-05-04 中国航空工业集团公司西安航空计算技术研究所 一种基于系统重构的故障自愈系统及其实现方法
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置
CN111858176A (zh) * 2020-07-22 2020-10-30 欧冶云商股份有限公司 一种远程监控故障自愈系统和方法
CN113553242A (zh) * 2021-08-16 2021-10-26 中煤科工集团重庆研究院有限公司 基于Zabbix的煤矿联网系统故障处置方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100588580C (zh) * 2006-12-28 2010-02-10 上海轨道交通设备发展有限公司 一种轨道交通综合监控系统及方法
KR101103237B1 (ko) * 2009-12-30 2012-01-10 텔코웨어 주식회사 서비스 프로세스 관리방법 및 시스템, 및 이를 위한 기록매체
CN105550100A (zh) * 2015-12-11 2016-05-04 国家电网公司 一种信息系统故障自动恢复的方法及系统
CN109343987A (zh) * 2018-08-20 2019-02-15 科大国创软件股份有限公司 It系统故障诊断及修复方法、装置、设备、存储介质
CN111181767A (zh) * 2019-12-10 2020-05-19 中国航空工业集团公司成都飞机设计研究所 一种面向复杂系统的监控和故障自愈系统及其方法
CN114356615A (zh) * 2021-12-07 2022-04-15 广州地铁集团有限公司 基于物联网轨道交通软件与应用故障自愈的解决方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550056A (zh) * 2015-12-11 2016-05-04 中国航空工业集团公司西安航空计算技术研究所 一种基于系统重构的故障自愈系统及其实现方法
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置
CN111858176A (zh) * 2020-07-22 2020-10-30 欧冶云商股份有限公司 一种远程监控故障自愈系统和方法
CN113553242A (zh) * 2021-08-16 2021-10-26 中煤科工集团重庆研究院有限公司 基于Zabbix的煤矿联网系统故障处置方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
网友: "《【蓝鲸智云】监控告警是如何产生的以及如何配置监控策略》", 《HTTPS://CLOUD.TENCENT.COM.CN/DEVELOPER/VIDEO/24779》, 31 August 2021 (2021-08-31) *
网友: "《使用蓝鲸自愈平台完成java项目程序的自愈机制》", 《HTTPS://BLOG.51CTO.COM/JIANGXL/4634838》, 19 November 2021 (2021-11-19) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023104219A1 (zh) * 2021-12-07 2023-06-15 广州地铁集团有限公司 基于物联网轨道交通软件与应用故障自愈的解决方法

Also Published As

Publication number Publication date
WO2023104219A1 (zh) 2023-06-15

Similar Documents

Publication Publication Date Title
EP3798846B1 (en) Operation and maintenance system and method
CN109501834B (zh) 一种道岔转辙机故障预测方法及装置
CN109656793A (zh) 一种基于多源异构数据融合的信息系统性能立体监测方法
CN114244687B (zh) 基于AIOps网络故障自愈可操作性判断方法
CN107357730B (zh) 一种系统故障诊断修复方法及装置
CN102857371B (zh) 一种面向集群系统的动态配置管理方法
CN102279905B (zh) 一种电网故障诊断中的数据流快速约简方法
CN104777827A (zh) 高速铁路信号系统车载设备故障诊断方法
CN113176948A (zh) 边缘网关、边缘计算系统及其配置方法
CN104252401A (zh) 一种基于权重的设备状态判断方法及其系统
CN105117315A (zh) 基于cep的告警处理系统及方法
CN114356615A (zh) 基于物联网轨道交通软件与应用故障自愈的解决方法
CN104579771B (zh) 一种对用户登录登出应用系统的行为轨迹的分析方法
JP2019049802A (ja) 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
CN111767324B (zh) 一种智能关联的自适应数据分析方法及装置
CN113436420A (zh) 一种水电调一体化监控的智能报警系统
CN109522349B (zh) 跨类型数据计算及共享方法、系统、设备
CN107194471A (zh) 一种基于信息技术的设备管理系统
CN111894798A (zh) 一种风机运行状态确定方法及系统
CN109359800B (zh) 一种配电自动化主站系统运行状态的评价方法及系统
CN116467592A (zh) 一种基于深度学习的生产设备故障智能监测方法及系统
CN110399261A (zh) 一种基于共现图的系统告警聚类分析方法
CN109993840A (zh) 针对铁路自动售检票设备监控状态的大数据分析系统
CN111538886B (zh) 一种基于人工智能的大数据采集存储系统及方法
CN114281465A (zh) 一种应用于配电房的数据显示与快速处理方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination