CN112583634A - 基于监控系统的公路门架容灾恢复方法 - Google Patents

基于监控系统的公路门架容灾恢复方法 Download PDF

Info

Publication number
CN112583634A
CN112583634A CN202011276464.7A CN202011276464A CN112583634A CN 112583634 A CN112583634 A CN 112583634A CN 202011276464 A CN202011276464 A CN 202011276464A CN 112583634 A CN112583634 A CN 112583634A
Authority
CN
China
Prior art keywords
industrial personal
personal computer
monitoring system
portal
cluster monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011276464.7A
Other languages
English (en)
Other versions
CN112583634B (zh
Inventor
成旭恒
王维
张超
史晶
郭俊余
雷飞涛
孔金珠
陈梦侠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kirin Software Co Ltd
Original Assignee
Kirin Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kirin Software Co Ltd filed Critical Kirin Software Co Ltd
Priority to CN202011276464.7A priority Critical patent/CN112583634B/zh
Publication of CN112583634A publication Critical patent/CN112583634A/zh
Application granted granted Critical
Publication of CN112583634B publication Critical patent/CN112583634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07BTICKET-ISSUING APPARATUS; FARE-REGISTERING APPARATUS; FRANKING APPARATUS
    • G07B15/00Arrangements or apparatus for collecting fares, tolls or entrance fees at one or more control points
    • G07B15/06Arrangements for road pricing or congestion charging of vehicles or vehicle users, e.g. automatic toll systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于监控系统的公路门架容灾恢复方法,包括如下步骤:前期配置阶段:在每台工控机上安装集群监控客户端,提供与各工控机上的集群监控客户端信息连接的集群监控系统,并且,在公路的每个机房内配置至少一台备用工控机;监控及备份阶段:各工控机上的集群监控客户端每隔预定时间向集群监控系统上报工控机运行状态,同时,工控机每隔预定时间整理备份所有配置文件上传至集群监控系统;集群监控系统根据所获取的工控机运行状态判断工控机状态,在判断工控机出现故障时,寻找距离宕机工控机物理距离最近的备用工控机,并启动容灾修复流程。本发明能够及时发现工控机故障,并第一时间启动容灾恢复流程,将损失降至最低。

Description

基于监控系统的公路门架容灾恢复方法
技术领域
本发明涉及公路故障智能恢复技术领域,具体涉及一种基于监控系统的公路门架容灾恢复方法。
背景技术
我国幅员辽阔,高速公路的里程极长,在2020年初取消省界收费站后,高速公路的ETC收费方式,由从出入口收费站计算最短路里程收费,改成了每经过一个龙门架时收取该龙门架管辖范围内的费用。高速公路门架收费带来了诸多便利:车辆通过收费站的速度更快、跨省长途的车辆各省清账更加方便。然而门架工控机放置在每个门架下面的小型露天机柜中,工控机有可能会因为特殊天气或其它不可抗力而导致物理性损坏。损坏后的门架必须修复该工控机或者重新部署一台全新的工控机才能恢复该ETC门架的收费系统。
目前,高速公路门架系统将每个门架下的工控机作为一个节点去管理,门架上运行的收费软件是用Kubernetes部署的一系列Docker容器。高速公路系统安装新门架时,门架的工控机需要手动配置并安装Kubernetes客户端,然后即可启动门架收费软件。
目前,高速公路的门架工控机损坏所带来的问题在于:(1)工控机发生损坏后,相关负责人无法及时发现;(2)工控机发生损坏后需要重新部署一台全新的工控机,而现有技术方案是手动配置一台新的工控机恢复生产,即安装好操作系统,做好初始配置,按照新节点注册Kubernetes,启动门架收费程序。手动配置工控机的流程如下(如图1):
1、工控机连接电源、网线,安装操作系统。
2、固定配置:关闭防火墙、关闭SELinux、修改TCP连接数、修改句柄数、设置时区、配置DNS服务器、安装Docker CE、载入门架业务系统的Docker镜像。
3、各工控机不同的配置:配置网卡和 IP 地址、配置计算机名、将门架服务器的IP 地址写入 Hosts 文件、配置NTP授时服务器。
4、在Kubernetes服务端上注册该工控机。
5、在Kubernetes上启动门架收费软件。
在实际操作中,安装系统和固定配置可以在没有发生工控机损坏时提前做好备用。提前做好前两个步骤,准备好备用的工控机,可以有效地减少工控机损坏后门架的宕机时间。
步骤3和门架编号、IP地址等有关,由于每台机器的配置文件不同,因此需要在发生工控机损坏后才能进行步骤3,按照损坏工控机的配置信息设置新的工控机,即工控机损坏后的修复过程中比较耗时的工作主要是后三个步骤。
在现有技术方案中,当有工控机发生损坏后,没有快速快速修复工控机的技术方案,而是由工程师去手动安装一台新的工控机。由于各机器配置不同,必须在工控机出现损坏后才能进行,无法提前准备好机器,并且手动配置过程比较繁琐,速度慢,容易出差错,即使是刚刚损坏就会有工程师前去救援也会使门架下线较长一段时间,在流量较大的路段,收费中断会导致不小的损失。
并且,在晚上、节假日等站点可能没有工程师值守的时段即使能得知发生了工控机损坏,也难以前去维修该门架。
对ETC系统来说,重要的是尽快恢复对过路车辆的记录和收费。在工控机发生损坏时,检查损坏原因并进行修复的时间成本过高,而且配置一台新的工控机是一个比较繁琐的过程,因此完成对各个龙门架下的工控机配置文件的自动备份以保证在发生灾难时能够自动在新的工控机上启动门架收费软件,是当前的一个迫切的需求。
发明内容
为解决已有技术存在的不足,本发明提供了一种基于监控系统的公路门架容灾恢复方法,包括如下步骤:
步骤S1,前期配置阶段:在每台工控机上安装集群监控客户端,提供与各工控机上的集群监控客户端信息连接的集群监控系统,并且,在公路的每个机房内配置至少一台备用工控机;
步骤S2,监控及备份阶段:各工控机上的集群监控客户端每隔预定时间向集群监控系统上报工控机运行状态,同时,工控机每隔预定时间整理备份所有配置文件上传至集群监控系统;
步骤S3:集群监控系统根据步骤S2中所获取的工控机运行状态判断工控机状态,在判断工控机出现故障时,寻找距离宕机工控机物理距离最近的备用工控机,并启动容灾修复流程;
步骤S4,人工操作阶段:工程师将备用工控机送往宕机工控机所在门架下部署,即时恢复生产。
其中,所述步骤S1中,各备用工控机中预装操作系统、通用性配置及集群监控客户端。
其中,所述步骤S3中,判断工控机状态的方法为:若同一路段有多个物理位置连续的门架工控机失联,则判断该路段网络中断;若一个路段有一台或数台不连续门架工控机失联,则判断失联工控机发生故障,此时启动容灾恢复流程。
其中,所述步骤S3中,容灾恢复流程包括如下步骤:
步骤S31:将宕机工控机的IP发给所选择的备用工控机;
步骤S32:备用工控机填写好固定IP后,集群监控系统从服务器上下载备用工控机的配置文件并删除其自身未初始化标记;
步骤S33:使用宕机工控机的客户端证书使备用工控机连接Kubernetes服务端,启动门架收费软件。
本发明提供的基于监控系统的公路门架容灾恢复方法,能够及时发现工控机故障,并第一时间启动容灾恢复流程,将损失降至最低。
附图说明
图1:已有技术的手动配置工控机操作流程图。
图2:本发明的公路门架容灾恢复方法的工控机配置文件备份流程图。
图3:本发明的公路门架容灾恢复方法的故障检测流程图。
图4:本发明的公路门架容灾恢复方法的容灾恢复流程图。
图5:本发明的公路门架容灾恢复方法的备用工控机投入使用流程图。
具体实施方式
为了对本发明的技术方案及有益效果有更进一步的了解,下面结合附图详细说明本发明的技术方案及其产生的有益效果。
本发明针对已有技术中工控机发生损坏后难以被发现,以及重新部署需要通过人工操作更换新的工控机,重新进行配置、注册等操作所带来的过程繁琐、响应效率低下且无法保证任何时候发生工控机损坏都有条件维修的问题,提出了一种将大部分人工参与的流程改为自动化处理的技术方案:由集群监控系统监控门架的工作状态。在线的工控机会将所有门架收费软件必需的配置文件备份在集群监控的服务器上。通过备份门架的配置文件来保证发生自然灾害时门架的关键配置文件不会丢失。当有门架发生损坏时,能够第一时间得知有工控机发生损坏并自动启动容灾流程来恢复生产,在无人值守时可以先运行起收费软件,工程师只需要将新的工控机送往门架下安装和在管理平台上启动门架收费软件即可。有效的减小了备用工控机部署时间,将损失最小化。
具体的执行方法如下:
一、前期配置阶段
在机房中架设一台服务器,安装集群监控系统服务端,用于监控各个工控机的运行情况。所有的门架工控机上均已安装集群监控客户端软件,用于备份数据和故障检测。
在每台工控机上安装集群监控客户端,提供与各工控机上的集群监控客户端信息连接的集群监控系统,并且,在公路的每个机房内配置至少一台备用工控机,通常每个路段的机房中架设两台备用工控机,工控机操作系统预装好集群监控客户端软件、装操作系统及通用性配置,用于在门架工控机损坏后在备用工控机上快速容灾恢复。
二、监控及备份阶段
各工控机上的集群监控客户端每隔预定时间向集群监控系统上报工控机运行状态,供集群监控系统自动检查门架的在线情况,及时发现故障。
同时,工控机每隔预定时间整理备份所有配置文件上传至集群监控系统。具体的,备份流程以小时为单位,工控机在每个整点整理备份所有和业务相关的配置文件上传至集群监控系统,集群监控系统使用工控机的计算机名 (工控机的计算机名等同于门架的编号)作为定位主键,将工控机的配置文件压缩后存储 (如图 2)。对生产环境中健康运行状态的工控机,会在每个整点进行一次备份。
三、故障判断阶段
集群监控系统根据所获取的工控机运行状态判断工控机状态:当集群监控服务器发现有工控机失联时,自动判断是网络中断还是工控机损坏。工控机和机房之间使用光纤通信,有时会因为第三方的因素导致光纤损坏等问题。一般网络中断的现象是从某一个门架开始所有门架全部离线。如果同一路段有数个物理位置连续的门架掉线则可以说明是网络中断;如果一个路段只有一台或数台不连续门架掉线,则可以确定是工控机发生了损坏,故障检测的流程如图3。
因此,如果系统发现同一条路段有物理位置连续的多个门架离线,则会通过短信和邮件去通知管理员和工程师尽快修复网络。如果整条路上只有一个门架离线,则可以确定为工控机发生损坏,系统会自动触发工控机的容灾修复流程,及时恢复生产。
在判断工控机出现故障时,寻找距离宕机工控机物理距离最近的备用工控机,并启动容灾修复流程;如图4及图5所示:
将宕机工控机的IP下发给备用的工控机。填写好固定IP的工控机连接上集群监控系统时会自动从服务器上下载原工控机的配置文件并删除其自身未初始化标记,使用原客户端证书连接Kubernetes服务端,启动门架收费软件。
四、人工操作阶段
请继续参阅图4及图5所示,备用工控机执行完恢复流程并且启动了收费软件后,将由工程师负责将初始化完成的工控机送往门架下进行正式安装,安装完成后即为正式的恢复生产。
因此,在雷击、高温、暴雨等天灾导致运行中的门架工控机发生硬件损坏时,本发明可通过集群监控服务器及时发现故障工控机并在备用工控机上拉起门架收费软件,同时通知工程师前往门架安装工控机,可以将高速公路收费系统损失减少。
相对于传统的安装方式,本发明可通过如下技术手段快速解决高速门架工控机损坏后的问题:
1、保护好业务关键配置文件,保证其在发生自然灾害时不会因为工控机损坏而丢失,从而使得自动化容灾修复成为可能。
2、当有门架离线时,自动判断是工控机损坏还是门架网络中断,可以以最快的速度将备用工控机初始化,使得门架可以尽快恢复生产。
3、减少了工控机损坏时的人工介入,避免了由于人工误操作导致的问题。
4、如果在无人值守时段发生工控机损坏,在机房中的备用工控机会自动启动该门架的收费软件,即使没有工程师在现场可以将其送往门架下,也可以正常收费。
这一系列技术效果使得高速公路的门架工控机在发生损坏时得到更敏捷、更妥善的处理,将损失最小化,并使门架尽快恢复生产。
本发明中,所谓的“Kubernetes”是一个用于容器集群的自动化部署、扩容以及运维的开源平台。
本发明中,所谓的“SELinux”,为内核型的加强性防火墙,对系统中的文件和资源添加标签,提高对系统的安全保护。
虽然本发明已利用上述较佳实施例进行说明,然其并非用以限定本发明的保护范围,任何本领域技术人员在不脱离本发明的精神和范围之内,相对上述实施例进行各种变动与修改仍属本发明所保护的范围,因此本发明的保护范围以权利要求书所界定的为准。

Claims (4)

1.一种基于监控系统的公路门架容灾恢复方法,其特征在于,包括如下步骤:
步骤S1,前期配置阶段:在每台工控机上安装集群监控客户端,提供与各工控机上的集群监控客户端信息连接的集群监控系统,并且,在公路的每个机房内配置至少一台备用工控机;
步骤S2,监控及备份阶段:各工控机上的集群监控客户端每隔预定时间向集群监控系统上报工控机运行状态,同时,工控机每隔预定时间整理备份所有配置文件上传至集群监控系统;
步骤S3:集群监控系统根据步骤S2中所获取的工控机运行状态判断工控机状态,在判断工控机出现故障时,寻找距离宕机工控机物理距离最近的备用工控机,并启动容灾修复流程;
步骤S4,人工操作阶段:工程师将备用工控机送往宕机工控机所在门架下部署,即时恢复生产。
2.如权利要求1所述的基于监控系统的公路门架容灾恢复方法,其特征在于,所述步骤S1中,各备用工控机中预装操作系统、通用性配置及集群监控客户端。
3.如权利要求1所述的基于监控系统的公路门架容灾恢复方法,其特征在于,所述步骤S3中,判断工控机状态的方法为:若同一路段有多个物理位置连续的门架工控机失联,则判断该路段网络中断;若一个路段有一台或数台不连续门架工控机失联,则判断失联工控机发生故障,此时启动容灾恢复流程。
4.如权利要求3所述的基于监控系统的公路门架容灾恢复方法,其特征在于,所述步骤S3中,容灾恢复流程包括如下步骤:
步骤S31:将宕机工控机的IP发给所选择的备用工控机;
步骤S32:备用工控机填写好固定IP后,集群监控系统从服务器上下载备用工控机的配置文件并删除其自身未初始化标记;
步骤S33:使用宕机工控机的客户端证书使备用工控机连接Kubernetes服务端,启动门架收费软件。
CN202011276464.7A 2020-11-16 2020-11-16 基于监控系统的公路门架容灾恢复方法 Active CN112583634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011276464.7A CN112583634B (zh) 2020-11-16 2020-11-16 基于监控系统的公路门架容灾恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011276464.7A CN112583634B (zh) 2020-11-16 2020-11-16 基于监控系统的公路门架容灾恢复方法

Publications (2)

Publication Number Publication Date
CN112583634A true CN112583634A (zh) 2021-03-30
CN112583634B CN112583634B (zh) 2022-03-18

Family

ID=75122637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011276464.7A Active CN112583634B (zh) 2020-11-16 2020-11-16 基于监控系统的公路门架容灾恢复方法

Country Status (1)

Country Link
CN (1) CN112583634B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416122A (zh) * 2021-12-30 2022-04-29 山东奥邦交通设施工程有限公司 Etc门架系统软件自动批量安装的方法及系统
CN117234802A (zh) * 2023-09-15 2023-12-15 中工数保(北京)科技有限公司 一种工业控制设备替换和配置数据迁移方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105141456A (zh) * 2015-08-25 2015-12-09 山东超越数控电子有限公司 一种高可用集群资源监控方法
CN106375342A (zh) * 2016-10-21 2017-02-01 用友网络科技股份有限公司 一种基于zookeeper技术的系统集群方法及系统
CN108400886A (zh) * 2018-01-17 2018-08-14 山东超越数控电子股份有限公司 一种机房服务器监控系统及方法
CN110377459A (zh) * 2019-06-28 2019-10-25 苏州浪潮智能科技有限公司 一种容灾系统、容灾处理方法、监控节点和备份集群

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105141456A (zh) * 2015-08-25 2015-12-09 山东超越数控电子有限公司 一种高可用集群资源监控方法
CN106375342A (zh) * 2016-10-21 2017-02-01 用友网络科技股份有限公司 一种基于zookeeper技术的系统集群方法及系统
CN108400886A (zh) * 2018-01-17 2018-08-14 山东超越数控电子股份有限公司 一种机房服务器监控系统及方法
CN110377459A (zh) * 2019-06-28 2019-10-25 苏州浪潮智能科技有限公司 一种容灾系统、容灾处理方法、监控节点和备份集群

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
翟纪东: "基于Web的路灯远程监控系统的研究", 《中国优秀博硕士学位论文全文数据库(硕士)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416122A (zh) * 2021-12-30 2022-04-29 山东奥邦交通设施工程有限公司 Etc门架系统软件自动批量安装的方法及系统
CN117234802A (zh) * 2023-09-15 2023-12-15 中工数保(北京)科技有限公司 一种工业控制设备替换和配置数据迁移方法及装置

Also Published As

Publication number Publication date
CN112583634B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN112583634B (zh) 基于监控系统的公路门架容灾恢复方法
CN105610625A (zh) 一种机器人终端网络异常的自恢复方法和装置
CN107948302B (zh) 一种物联网嵌入式设备的生命周期管理方法及系统
CN1933416A (zh) 一种具有自恢复功能的远程在线升级方法
CN109654666B (zh) 一种调试机组的方法、装置及设备
CN105468475A (zh) 数据库的备份方法及备份装置
CN102291262B (zh) 一种容灾的方法、装置及系统
CN105550056A (zh) 一种基于系统重构的故障自愈系统及其实现方法
CN115499775A (zh) 一种设备离线处理方法及装置
CN116028094A (zh) 一种bmc的升级方法和装置
CN112631831A (zh) 一种业务系统的裸机恢复方法和系统
CN109262653A (zh) 故障机器人自动恢复方法及装置
CN115268976A (zh) 一种多数据中心采集Agent版本自动升级方法及其系统
CN112532418A (zh) 电动运具的充电设备及其自动排除故障的方法
CN115811356B (zh) 一种通信主备光纤数字控制切换系统及方法
CN109982284B (zh) 用于线路巡检的通讯系统及方法
CN113580983B (zh) 充电桩运行维修远程管理方法及系统
CN114124684B (zh) 一种运用u盘实现零接触全自动部署网元的方法
CN109522023A (zh) 适用轨道交通信号系统现场部署与回退的系统及方法
CN114860494A (zh) 一种sas拓展器配置自适应系统
CN107590647A (zh) 船舶管理系统的伺服监管系统
CN107368053B (zh) 一种基于集散控制系统的生产线停机反馈系统
CN110727447A (zh) 一种列车自动监督系统的自动升级方法及系统
CN112968956A (zh) 一种混凝土泵车远程参数回传方法及其系统
CN112667449B (zh) 一种集群管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant