CN111308990B - 一种舰用电站控制系统双cpu混成式故障检测系统及方法 - Google Patents
一种舰用电站控制系统双cpu混成式故障检测系统及方法 Download PDFInfo
- Publication number
- CN111308990B CN111308990B CN202010178802.7A CN202010178802A CN111308990B CN 111308990 B CN111308990 B CN 111308990B CN 202010178802 A CN202010178802 A CN 202010178802A CN 111308990 B CN111308990 B CN 111308990B
- Authority
- CN
- China
- Prior art keywords
- cpu
- fault detection
- fault
- main cpu
- slave
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0259—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
- G05B23/0286—Modifications to the monitored process, e.g. stopping operation or adapting control
- G05B23/0291—Switching into safety or degraded mode, e.g. protection and supervision after failure
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B9/00—Safety arrangements
- G05B9/02—Safety arrangements electric
- G05B9/03—Safety arrangements electric with multiple-channel loop, i.e. redundant control systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/40—Bus networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/40—Bus networks
- H04L2012/40208—Bus networks characterized by the use of a particular bus standard
- H04L2012/40215—Controller Area Network CAN
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Environmental & Geological Engineering (AREA)
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种舰用电站控制系统双CPU混成式故障检测系统及方法,其系统包括:集控台、CPU和底层设备;其中所述CPU包括两个,分别为主CPU和从CPU;所述集控台与所述CPU之间通过网线互连;所述主CPU与所述从CPU之间也通过网线互连;所述底层设备与所述CPU之间通过CAN总线互连;所述底层设备与所述CPU之间还通过IO扩展芯片互连,用于舰船系统底层设备的各个控制器的IO信号及状态量的通信;其方法包括:网络故障检测与第三方监控心跳相结合的混成式检测方法,用于双CPU热备冗余模式下的故障检测。本发明的有益效果是:利用网络故障检测法和第三方监控心跳法,形成混成式故障检测机制,以便快速且可靠检测出故障CPU,从而提高舰船电站控制系统的可靠性。
Description
技术领域
本发明涉及故障检测领域,尤其涉及一种舰用电站控制系统双CPU混成式故障检测系统及方法。
背景技术
舰船电站是现代舰船的重要组成部分,为全船提供电能。舰船电站工作的可靠性和稳定性直接影响舰船电力系统的生命力。随着舰船大型化和自动化水平的不断提高,为了确保舰船安全经济地运行,对舰船电站的可靠性也有了更高的要求。当人们在设计舰船电站控制系统时,不能忽视可靠性这个重要的性能指标。而双CPU冗余技术作为提高系统可靠性的有效技术之一,因为可以极大地提高系统运行的可靠性,所以被广泛应用于舰船电站控制系统中。
双CPU冗余技术不是一项新技术,目前在航空、航天等领域中均引入了该冗余技术。双CPU冗余技术就是当工作中的CPU发生故障时,能够快速的切换到备用CPU,避免系统停机从而造成损失。由此可知,故障检测是保证双CPU冗余系统正常可靠运行的前提。只有及时地检查出故障,才达到冗余容错的目的。传统的故障检测多数都是利用一根通信线通过心跳检测或者看门狗方式检测CPU状态,检测方式单一、可靠性不高,且容易出现“双主机现象”。
发明内容
有鉴于此,针对上述问题,本发明提供了一种舰用电站控制系统双CPU混成式故障检测系统及方法,即将网络故障检测法和第三方监控心跳法集成一体,以适应舰船电站设备多、工况繁杂的情况。且将两种检测方法相结合,形成混成式故障检测机制,以提高检测出故障CPU的速度与精确性,从而提高舰船电站控制系统的可靠性。
本发明提供一种舰用电站控制系统双CPU混成式故障检测系统及方法,所述故障检测系统具体包括:
集控台、CPU和底层设备;所述CPU包括主CPU和从CPU;
所述集控台与所述主CPU、所述从CPU之间均通过网线互连,形成第一以太网,以构建所述集控台与所述主CPU、所述从CPU之间的双向通信数据回路;
所述主CPU与所述从CPU之间也通过网线互连,形成第二以太网,以构建所述主CPU与所述从CPU之间的双向通信数据回路;
所述底层设备与所述主CPU、所述从CPU之间分别通过CAN总线互连,形成同一路CAN总线,以构建所述主CPU、所述从CPU与所述底层设备之间的双向通信数据回路;
所述底层设备与所述主CPU、所述从CPU之间还通过IO扩展芯片互连,形成同一路I2C总线,以构建所述主CPU、所述从CPU与所述底层设备的各个控制器的IO信号和状态量之间的双向通信数据回路;
所述第一以太网、所述第二以太网、所述CAN总线和所述I2C总线共同组成所述底层设备与所述集控台之间的通信网络;
在所述通信网络正常情况下,所述主CPU和所述从CPU均接收指令和数据,但只有所述主CPU会发出指令,所述从CPU不发出指令,仅处于备份状态;所述主CPU和所述从CPU同时参与故障检测并实时准备故障切换;所述故障切换,具体指,当所述主CPU出现故障时,所述从CPU从备机状态转由承担舰船电站系统的控制任务。
一种舰用电站控制系统双CPU混成式故障检测方法,应用于所述故障检测系统,具体包括:网络故障检测法和第三方监控心跳法;所述网络故障检测法和所述第三方监控心跳法形成混成式故障检测机制,用于所述主CPU和所述从CPU热备冗余模式下的故障检测。
进一步地,所述网络故障检测法,用于根据预设的网络故障的检测周期TFault定期对舰用电站控制系统进行网络故障检测;所述第三方监控心跳法,用于根据预设的第三方监控心跳的检测周期THeart实时对舰用电站控制系统进行故障检测;所述网络故障检测法与所述第三方监控心跳法均采用定时器,运用定时器中断的形式进行故障检测,且TFault≥THeart。
在所述故障检测系统上电初始阶段,利用所述网络故障检测法对所述通信网络进行初始通信检查,随后通过预设不同检测周期TFault和THeart的定时器,采用所述网络故障检测法和所述第三方监控心跳法混成式的对所述故障检测系统进行故障检测。
进一步地,所述网络故障检测法具体为:
将所述故障检测系统中的所述主CPU、所述从CPU、所述集控台和所述底层设备均设置为通信网络中的一个节点;其中所述主CPU和所述从CPU为主节点,所述集控台和所述底层设备为从节点;利用式(1)对通信网络是否产生故障进行判断,式(1)如下:
式(1)中,a表示主CPU节点状态;b表示从CPU节点状态;c表示集控台节点状态;d表示底层设备节点状态;λ1a表示所述集控台和所述主CPU之间的第一以太网连线状态;λ2表示所述主CPU和所述从CPU之间的第二以太网连线状态;λ3a表示所述底层设备和所述主CPU之间的CAN总线连线状态;λ4a表示所述底层设备和所述主CPU之间的I2C总线连线状态;λ1b表示所述集控台和所述从CPU之间的第一以太网连线状态;λ3b表示所述底层设备和所述从CPU之间的CAN总线连线状态;λ4b表示所述底层设备和所述从CPU之间的第一以太网连线状态;其中a、b、c、d、λ1a、λ2、λ3a、λ4a、λ1b、λ3b、λ4b中的任意一个为0时表示对应的该节点状态或者连线状态正常,为1时表示对应的该节点状态或者连线状态故障;
所述网络故障检测法,通过检测各节点状态判断通信是否故障,在故障的前提下,进一步通过各连线状态判断故障具体位置。
进一步地,所述第三方监控心跳法为:所述主CPU和所述从CPU之间通过第二以太网进行心跳信号通信,具体为:所述主CPU在向所述从CPU发送心跳信号的同时,也向所述集控台同步发送心跳信号;所述心跳信号包括心跳信息与更新时间;若所述从CPU在预设时间tSet1内未收到所述主CPU发送的心跳信号,则所述从CPU主动向所述集控台查询所述主CPU是否向所述集控台发送心跳信号;若所述从CPU无法向所述集控台查询得到所述主CPU的心跳信号,则确定所述主CPU故障,否则无法确定所述主CPU故障;若确定所述主CPU出现故障,则立即切换为所述从CPU进行控制任务;若无法确定所述主CPU故障,则标记对应通信线路故障,即第二以太网连线故障。
进一步地,所述网络故障检测法的故障检测分为三类,分别为:通信线故障检测、CPU故障检测和外设故障检测;外设包括所述集控台和所述底层设备。
进一步地,所述通信线路故障检测具体为:
所述主CPU和所述从CPU均通过相应的总线i向所述外设发送数据,若两个网络故障检测周期内收到来自所述外设的正确应答,则将该总线i对应的连线状态λ置0,表示该通信线正常;否则将该总线i对应的连线状态λ置1,表示该通信线故障;
所述CPU故障检测具体为:
所述主CPU和所述从CPU依次通过相应的总线i向所述外设发送数据,若两个网络故障的检测周期TFault内与所有的外设均通信失败,即未收到应答或未收到正确的应答,则表明所述主CPU或者所述从CPU故障,其对应的节点状态a或者b置1;
所述外设故障检测具体为:
若所述主CPU和所述从CPU均收不到任何与所述外设互连的总线i的数据,则该外设故障,其对应的节点状态c或者d置1,若所述主CPU和所述从CPU仅有一个收不到与所述外设互连的总线i数据,则表明对应的总线i故障,将该总线i对应的连线状态λ置1;
所述总线i包括CAN总线和I2C总线;所述连线状态λ包括:λ1a、λ1b、λ3a、λ4a、λ3b和λ4b。
所述第三方监控心跳法,具体为:
在所述故障检测系统上电后,所述主CPU在每个心跳检测周期向所述从CPU发送心跳信号;同时,所述主CPU也会向集控台同步心跳信号;
所述从CPU若能够定时接收所述主CPU的心跳信号,则继续保持备机状态;若从CPU连续两个第三方监控心跳的检测周期THeart内收不到来自所述主CPU发送的心跳信号或者收到来自所述主CPU的错误数据,则所述从CPU主动查询集控台中主CPU心跳同步信息;若查询到主CPU同步信息正常,则判定为CPU间通信线故障;若查询到主CPU最近一次的同步时间大于一个THeart,则将所述主CPU进行复位,同时所述从CPU获得控制权,开始承担舰船系统的控制任务;
复位后的所述主CPU通过所述网络故障检测法检测其是否仍故障;若仍故障则进行更换,无故障则处于备机状态。
本发明提供的技术方案带来的有益效果是:利用网络故障检测法和第三方监控心跳法,形成混成式故障检测机制,以提高检测出故障CPU的速度与精确性,从而提高舰船电站控制系统的可靠性。
附图说明
图1是本发明一种舰用电站控制系统双CPU混成式故障检测系统及方法的流程图;
图2是本发明一种舰用电站控制系统双CPU混成式故障检测方法中的网络故障检测法示意图;
图3是本发明一种舰用电站控制系统双CPU混成式故障检测方法中的网络故障检测法的通信线路故障检测的流程图;
图4是本发明一种舰用电站控制系统双CPU混成式故障检测方法中的第三方心跳监控法的示意图;
图5是本发明一种舰用电站控制系统双CPU混成式故障检测方法中的第三方心跳监控法的流程图
图6是本发明实施中双CPU主板原理框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,本发明的实施例提供了一种舰用电站控制系统双CPU混成式故障检测系统,具体包括:
集控台、CPU和底层设备;所述CPU包括主CPU和从CPU;
所述集控台与所述主CPU、所述从CPU之间均通过网线互连,形成第一以太网,以构建所述集控台与所述主CPU、所述从CPU之间的双向通信数据回路;
所述主CPU与所述从CPU之间也通过网线互连,形成第二以太网,以构建所述主CPU与所述从CPU之间的双向通信数据回路;
所述底层设备与所述主CPU、所述从CPU之间分别通过CAN总线互连,形成同一路CAN总线,以构建所述主CPU、所述从CPU与所述底层设备之间的双向通信数据回路;
所述底层设备与所述主CPU、所述从CPU之间还通过IO扩展芯片互连,形成同一路I2C总线,以构建所述主CPU、所述从CPU与所述底层设备的各个控制器的IO信号和状态量之间的双向通信数据回路;
所述第一以太网、所述第二以太网、所述CAN总线和所述I2C总线共同组成所述底层设备与所述集控台之间的通信网络;
在所述通信网络正常情况下,所述主CPU和所述从CPU均接收指令和数据,但只有所述主CPU会发出指令,所述从CPU不发出指令,仅处于备份状态;所述主CPU和所述从CPU同时参与故障检测并实时准备故障切换;所述故障切换,具体指,当所述主CPU出现故障时,所述从CPU从备机状态转由承担舰船电站系统的控制任务。
一种舰用电站控制系统双CPU混成式故障检测方法,应用于所述故障检测系统,具体包括:网络故障检测法和第三方监控心跳法;所述网络故障检测法和所述第三方监控心跳法形成混成式故障检测机制,用于所述主CPU和所述从CPU热备冗余模式下的故障检测。
所述网络故障检测法,用于根据预设的网络故障的检测周期TFault定期对舰用电站控制系统进行网络故障检测;所述第三方监控心跳法,用于根据预设的第三方监控心跳的检测周期THeart实时对舰用电站控制系统进行故障检测;所述网络故障检测法与所述第三方监控心跳法均采用定时器,运用定时器中断的形式进行故障检测,且TFault≥THeart;其中TFault和THeart受到舰船电站系统的控制任务数量N的限制;既要兼顾故障检测的快速性,又要考虑检测系统的响应能力,还要满足舰船电站系统的控制任务数量N顺利执行的要求,因此在实际状况下,TFault和THeart依据经验进行调整。
在所述故障检测系统上电初始阶段,利用所述网络故障检测法对所述通信网络进行初始通信检查,随后通过预设不同检测周期TFault和THeart的定时器,采用所述网络故障检测法和所述第三方监控心跳法混成式的对所述故障检测系统进行故障检测。
请参考图2,图2为本发明中网络故障检测法示意图。所述网络故障检测法具体为:
将所述故障检测系统中的所述主CPU、所述从CPU、所述集控台和所述底层设备均设置为通信网络中的一个节点;其中所述主CPU和所述从CPU为主节点,所述集控台和所述底层设备为从节点;利用式(1)对通信网络是否产生故障进行判断,式(1)如下:
式(1)中,a表示主CPU节点状态;b表示从CPU节点状态;c表示集控台节点状态;d表示底层设备节点状态;λ1a表示所述集控台和所述主CPU之间的第一以太网连线状态;λ2表示所述主CPU和所述从CPU之间的第二以太网连线状态;λ3a表示所述底层设备和所述主CPU之间的CAN总线连线状态;λ4a表示所述底层设备和所述主CPU之间的I2C总线连线状态;λ1b表示所述集控台和所述从CPU之间的第一以太网连线状态;λ3b表示所述底层设备和所述从CPU之间的CAN总线连线状态;λ4b表示所述底层设备和所述从CPU之间的第一以太网连线状态;其中a、b、c、d、λ1a、λ2、λ3a、λ4a、λ1b、λ3b、λ4b中的任意一个为0时表示对应的该节点状态或者连线状态正常,为1时表示对应的该节点状态或者连线状态故障;
所述网络故障检测法,通过检测各节点状态判断通信是否故障,在故障的前提下,进一步通过各连线状态判断故障具体位置。
进一步地,所述第三方监控心跳法为:所述主CPU和所述从CPU之间通过第二以太网进行心跳信号通信,具体为:所述主CPU在向所述从CPU发送心跳信号的同时,也向所述集控台同步发送心跳信号;所述心跳信号包括心跳信息与更新时间;若所述从CPU在预设时间tSet1内未收到所述主CPU发送的心跳信号,则所述从CPU主动向所述集控台查询所述主CPU是否向所述集控台发送心跳信号;若所述从CPU无法向所述集控台查询得到所述主CPU的心跳信号,则确定所述主CPU故障,否则无法确定所述主CPU故障;若确定所述主CPU出现故障,则立即切换为所述从CPU进行控制任务;若无法确定所述主CPU故障,则标记对应通信线路故障,即第二以太网连线故障。
所述网络故障检测法的故障检测分为三类,分别为:通信线故障检测、CPU故障检测和外设故障检测;外设包括所述集控台和所述底层设备。
请参考图3,图3是本发明中通信线路故障检测的流程图。所述通信线路故障检测具体为:
所述通信线路故障检测具体为:
所述主CPU和所述从CPU均通过相应的总线i向所述外设发送数据,若两个网络故障检测周期内收到来自所述外设的正确应答,则将该总线i对应的连线状态λ置0,表示该通信线正常;否则将该总线i对应的连线状态λ置1,表示该通信线故障;
所述CPU故障检测具体为:
所述主CPU和所述从CPU依次通过相应的总线i向所述外设发送数据,若两个网络故障的检测周期TFault内与所有的外设均通信失败,即未收到应答或未收到正确的应答,则表明所述主CPU或者所述从CPU故障,其对应的节点状态a或者b置1;
所述外设故障检测具体为:
若所述主CPU和所述从CPU均收不到任何与所述外设互连的总线i的数据,则该外设故障,其对应的节点状态c或者d置1,若所述主CPU和所述从CPU仅有一个收不到与所述外设互连的总线i数据,则表明对应的总线i故障,将该总线i对应的连线状态λ置1;
所述总线i包括CAN总线和I2C总线;所述连线状态λ包括:λ1a、λ1b、λ3a、λ4a、λ3b和λ4b。
请参考图4和图5,图4是本发明中第三方监控心跳法的示意图,图5是本发明中第三方监控心跳发的流程图。所述第三方监控心跳法,具体为:
在所述故障检测系统上电后,所述主CPU在每个心跳检测周期向所述从CPU发送心跳信号;同时,所述主CPU也会向集控台同步心跳信号;
所述从CPU若能够定时接收所述主CPU的心跳信号,则继续保持备机状态;若从CPU连续两个第三方监控心跳的检测周期THeart内收不到来自所述主CPU发送的心跳信号或者收到来自所述主CPU的错误数据,则所述从CPU主动查询集控台中主CPU心跳同步信息;若查询到主CPU同步信息正常,则判定为CPU间通信线故障;若查询到主CPU最近一次的同步时间大于一个THeart,则将所述主CPU进行复位,同时所述从CPU获得控制权,开始承担舰船系统的控制任务;
复位后的所述主CPU通过所述网络故障检测法检测其是否仍故障;若仍故障则进行更换,无故障则处于备机状态。
本发明实施例中,所采用的CPU芯片为STM32F417ZGT6,该芯片是一款由ST公司发行的基于ARM Cortex-M4内核的32位处理器。其最大的优势就是带有硬件FPU单元以及DSP指令集,且其主频频率高达168MHz。它的资源也特别丰富,拥有多达15个通信接口,包括3路SPI,2个CAN以及3个I2C。本通信装置的CAN和以太网均外接了隔离芯片,且以太网使用的是4芯的接插件。
故障检测系统一共有五块PCB板,分别为两个CPU主板、一块DI板和两块DO板。两个CPU不在一个PCB板上,而是单独放在两个主板上。主板上还有通信模块、复位模块、电源模块和存储模块。请参考图6,图6表示本发明实施例中双CPU主板的原理框图。两块主板分别都要外接相同的DI、DO板,所以主板采用了双层物理架构,既方便对外接线,又方便装拆和维修。在硬件电路基础上,按照现场装置实际运行要求编写主程序,并依据故障检测软件设计思路编写故障检测子程序。主程序为基本的装置初始化,DI、DO的开入开出和对外通信。同时通过设置周期中断,在中断服务函数中完成装置的定时故障检测与判断。
为了验证所述故障检测系统的可靠性,即发生故障时能否及时发现并对故障进行处理,本发明将人为制造故障并同时监测系统运行情况。为简化测试,搭建了一个简易测试平台,即两个CPU均通过一路CAN与电脑互连,电脑通过CANMonitor软件对CAN通信进行监测。由于本系统的核心是双CPU冗余,所以本文的测试方法为在系统上电运行一段时间tSet2后对正在工作的主CPU进行人工复位,并通过对CAN通信的监测来判断CAN通信是否会受到影响。若CAN通信未受到影响能持续通信,则表明此系统能够及时切换CPU。
修改CAN通信相关程序,将主CPU的CAN帧ID设为0x06,从CPU设为0x92。主CPU发送02 04 08 16 32 64 B1 B6的八位数据,从CPU若接替工作,就发送A5 5A 05 82 00 03 0001的八位数据。上电后主CPU向电脑发送数据,从CPU处于监测状态。
经过现场实际测试与长时间拷机运行,在主CPU发送了一段时间tSet3的数据后,从CPU接替其工作,保证了在主CPU出现故障后,CAN通信不会出现中断的情况。
本发明提出的由两种故障检测方式相结合的故障检测机制,可以很好的检查并定位双CPU冗余系统中的故障。第三方监控心跳法则更有针对性,可以很好的检测CPU自身的故障情况。且在没有增加硬件的情况下,实现了双重心跳检测保障,从而避免了“双主机现象”。从硬件维护的角度可以发现第三方监控心跳法在保障能正确检测出故障的前提下减少了硬件维修的工作量与维护难度,这对于舰船特殊的环境条件是很有优势的。将两种不同特点的故障检测方式相结合,就构成了一个比较完备的故障检测体系。
本发明的有益效果是:利用网络故障检测法和第三方监控心跳法,形成混成式故障检测机制,以提高检测出故障CPU的速度与精确性,从而提高舰船电站控制系统的可靠性。
在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种舰用电站控制系统双CPU混成式故障检测方法,应用于一种舰用电站控制系统双CPU混成式故障检测系统,其特征在于:
所述一种舰用电站控制系统双CPU混成式故障检测系统,包括:集控台、CPU和底层设备;所述CPU包括主CPU和从CPU;
所述集控台与所述主CPU、所述从CPU之间均通过网线互连,形成第一以太网,以构建所述集控台与所述主CPU、所述从CPU之间的双向通信数据回路;
所述主CPU与所述从CPU之间也通过网线互连,形成第二以太网,以构建所述主CPU与所述从CPU之间的双向通信数据回路;
所述底层设备与所述主CPU、所述从CPU之间分别通过CAN总线互连,形成同一路CAN总线,以构建所述主CPU、所述从CPU与所述底层设备之间的双向通信数据回路;
所述底层设备与所述主CPU、所述从CPU之间还通过IO扩展芯片互连,形成同一路I2C总线,以构建所述主CPU、所述从CPU与所述底层设备的各个控制器的IO信号和状态量之间的双向通信数据回路;
所述第一以太网、所述第二以太网、所述CAN总线和所述I2C总线共同组成所述底层设备与所述集控台之间的通信网络;
在所述通信网络正常情况下,所述主CPU和所述从CPU均接收指令和数据,但只有所述主CPU会发出指令,所述从CPU不发出指令,仅处于备机状态;所述主CPU和所述从CPU同时参与故障检测并实时准备故障切换;所述故障切换,具体指,当所述主CPU出现故障时,所述从CPU从备机状态转由承担舰船电站系统的控制任务;
所述一种舰用电站控制系统双CPU混成式故障检测方法,具体包括:网络故障检测法和第三方监控心跳法;
所述网络故障检测法和所述第三方监控心跳法形成混成式故障检测机制,用于所述主CPU和所述从CPU热备冗余模式下的故障检测;
所述网络故障检测法,用于根据预设的网络故障的检测周期TFault定期对舰用电站控制系统进行网络故障检测;所述第三方监控心跳法,用于根据预设的第三方监控心跳的检测周期THeart实时对舰用电站控制系统进行故障检测;所述网络故障检测法与所述第三方监控心跳法均采用定时器,运用定时器中断的形式进行故障检测,且TFault≥THeart;
在所述故障检测系统上电初始阶段,利用所述网络故障检测法对所述通信网络进行初始通信检查,随后通过预设不同检测周期TFault和THeart的定时器,采用所述网络故障检测法和所述第三方监控心跳法混成式的对所述故障检测系统进行故障检测;
所述网络故障检测法具体为:
将所述故障检测系统中的所述主CPU、所述从CPU、所述集控台和所述底层设备均设置为通信网络中的一个节点;其中所述主CPU和所述从CPU为主节点,所述集控台和所述底层设备为从节点;利用式(1)对通信网络是否产生故障进行判断,式(1)如下:
式(1)中,a表示主CPU节点状态;b表示从CPU节点状态;c表示集控台节点状态;d表示底层设备节点状态;λ1a表示所述集控台和所述主CPU之间的第一以太网连线状态;λ2表示所述主CPU和所述从CPU之间的第二以太网连线状态;λ3a表示所述底层设备和所述主CPU之间的CAN总线连线状态;λ4a表示所述底层设备和所述主CPU之间的I2C总线连线状态;λ1b表示所述集控台和所述从CPU之间的第一以太网连线状态;λ3b表示所述底层设备和所述从CPU之间的CAN总线连线状态;λ4b表示所述底层设备和所述从CPU之间的第一以太网连线状态;其中a、b、c、d、λ1a、λ2、λ3a、λ4a、λ1b、λ3b、λ4b中的任意一个为0时表示对应的该节点状态或者连线状态正常,为1时表示对应的该节点状态或者连线状态故障;
所述网络故障检测法,通过检测各节点状态判断通信是否故障,在节点故障的前提下,进一步通过各连线状态判断故障具体位置,即故障定位处理;
所述网络故障检测法的故障检测分为三类,分别为:通信线故障检测、CPU故障检测和外设故障检测;外设包括所述集控台和所述底层设备;
所述通信线故障检测具体为:
所述主CPU和所述从CPU均通过相应的总线i向所述外设发送数据,若两个网络故障检测周期内收到来自所述外设的正确应答,则将该总线i对应的连线状态λ置0,表示该通信线正常;否则将该总线i对应的连线状态λ置1,表示该通信线故障;
所述CPU故障检测具体为:
所述主CPU和所述从CPU依次通过相应的总线i向所述外设发送数据,若两个网络故障的检测周期TFault内与所有的外设均通信失败,即未收到应答或未收到正确的应答,则表明所述主CPU或者所述从CPU故障,其对应的节点状态a或者b置1;
所述外设故障检测具体为:
若所述主CPU和所述从CPU均收不到任何与所述外设互连的总线i的数据,则该外设故障,其对应的节点状态c或者d置1,若所述主CPU和所述从CPU仅有一个收不到与所述外设互连的总线i数据,则表明对应的总线i故障,将该总线i对应的连线状态λ置1;
所述总线i包括CAN总线和I2C总线;所述连线状态λ包括:λ1a、λ1b、λ3a、λ4a、λ3b和λ4b。
2.如权利要求1所述的一种舰用电站控制系统双CPU混成式故障检测方法,其特征在于:所述第三方监控心跳法为:所述主CPU和所述从CPU之间通过第二以太网进行心跳信号通信,具体为:所述主CPU在向所述从CPU发送心跳信号的同时,也向所述集控台同步发送心跳信号;所述心跳信号包括心跳信息与更新时间;若所述从CPU在预设时间tSet1内未收到所述主CPU发送的心跳信号,则所述从CPU主动向所述集控台查询所述主CPU是否向所述集控台发送心跳信号;若所述从CPU无法向所述集控台查询得到所述主CPU的心跳信号,则确定所述主CPU故障,否则无法确定所述主CPU故障;若确定所述主CPU出现故障,则立即切换为所述从CPU进行控制任务;若无法确定所述主CPU故障,则标记对应通信线路故障,即第二以太网连线故障。
3.如权利要求2所述的一种舰用电站控制系统双CPU混成式故障检测方法,其特征在于:所述第三方监控心跳法,具体为:
在所述故障检测系统上电后,所述主CPU在每个心跳检测周期向所述从CPU发送心跳信号;同时,所述主CPU也会向集控台同步心跳信号;
所述从CPU若能够定时接收所述主CPU的心跳信号,则继续保持备机状态;若从CPU连续两个第三方监控心跳的检测周期THeart内收不到来自所述主CPU发送的心跳信号或者收到来自所述主CPU的错误数据,则所述从CPU主动查询集控台中主CPU心跳同步信息;若查询到主CPU同步信息正常,则判定为CPU间通信线故障;若查询到主CPU最近一次的同步时间大于一个THeart,则将所述主CPU进行复位,同时所述从CPU获得控制权,开始承担舰船系统的控制任务;
复位后的所述主CPU通过所述网络故障检测法检测其是否仍故障;若仍故障则进行更换,无故障则处于备机状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010178802.7A CN111308990B (zh) | 2020-03-15 | 2020-03-15 | 一种舰用电站控制系统双cpu混成式故障检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010178802.7A CN111308990B (zh) | 2020-03-15 | 2020-03-15 | 一种舰用电站控制系统双cpu混成式故障检测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111308990A CN111308990A (zh) | 2020-06-19 |
CN111308990B true CN111308990B (zh) | 2021-03-23 |
Family
ID=71145648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010178802.7A Active CN111308990B (zh) | 2020-03-15 | 2020-03-15 | 一种舰用电站控制系统双cpu混成式故障检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111308990B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112147928B (zh) * | 2020-09-15 | 2022-02-25 | 北京神州飞航科技有限责任公司 | 一种双can总线多冗余热备份飞控计算机系统及方法 |
CN117032188B (zh) * | 2023-09-01 | 2024-08-30 | 深圳市怡亚通供应链股份有限公司 | 一种汽车安全监控系统、方法及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102103532A (zh) * | 2011-01-26 | 2011-06-22 | 中国铁道科学研究院通信信号研究所 | 列控车载设备的安全冗余计算机系统 |
CN201909961U (zh) * | 2010-05-18 | 2011-07-27 | 北京捷世伟业电子科技有限公司 | 一种冗余控制系统 |
CN102546233A (zh) * | 2011-11-28 | 2012-07-04 | 中标软件有限公司 | 一种高可用集群中串口心跳的实现方法 |
CN109857034A (zh) * | 2019-03-01 | 2019-06-07 | 中国航空无线电电子研究所 | 实时热备份综合数据处理系统 |
CN110048889A (zh) * | 2019-04-18 | 2019-07-23 | 山东超越数控电子股份有限公司 | 一种高可靠的机柜管理系统 |
CN110321265A (zh) * | 2019-05-09 | 2019-10-11 | 苏州浪潮智能科技有限公司 | 一种服务器监控管理装置、方法及系统 |
-
2020
- 2020-03-15 CN CN202010178802.7A patent/CN111308990B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201909961U (zh) * | 2010-05-18 | 2011-07-27 | 北京捷世伟业电子科技有限公司 | 一种冗余控制系统 |
CN102103532A (zh) * | 2011-01-26 | 2011-06-22 | 中国铁道科学研究院通信信号研究所 | 列控车载设备的安全冗余计算机系统 |
CN102546233A (zh) * | 2011-11-28 | 2012-07-04 | 中标软件有限公司 | 一种高可用集群中串口心跳的实现方法 |
CN109857034A (zh) * | 2019-03-01 | 2019-06-07 | 中国航空无线电电子研究所 | 实时热备份综合数据处理系统 |
CN110048889A (zh) * | 2019-04-18 | 2019-07-23 | 山东超越数控电子股份有限公司 | 一种高可靠的机柜管理系统 |
CN110321265A (zh) * | 2019-05-09 | 2019-10-11 | 苏州浪潮智能科技有限公司 | 一种服务器监控管理装置、方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111308990A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110361979B (zh) | 一种铁路信号领域的安全计算机平台 | |
CN107733684B (zh) | 一种基于龙芯处理器的多控制器计算冗余集群 | |
CN107347018B (zh) | 一种三冗余1553b总线动态切换方法 | |
CN101916218B (zh) | 基于解析冗余机制的双cpu冗余控制系统 | |
CN111308990B (zh) | 一种舰用电站控制系统双cpu混成式故障检测系统及方法 | |
CN110376876B (zh) | 一种双系同步的安全计算机平台 | |
CN102724083A (zh) | 基于软件同步的可降级三模冗余计算机系统 | |
CN110427283B (zh) | 一种双余度的燃油管理计算机系统 | |
CN210129215U (zh) | 一种双余度机电管理计算机架构 | |
WO2024011906A1 (zh) | 一种主从冗余控制系统及控制方法 | |
CN105045164A (zh) | 可降级的三冗余同步表决计算机控制系统及方法 | |
WO2011137797A1 (zh) | 以太网中的数据传输方法和系统 | |
CN106950820B (zh) | 一种多冗余仲裁的动力定位控制系统及方法 | |
CN113791937B (zh) | 一种数据同步冗余系统及其控制方法 | |
KR20090056124A (ko) | 듀얼 프로세서 제어 장치의 고장 안전 구조 | |
CN110879549B (zh) | 一种基于交叉互比方法的余度测量架构及余度管理方法 | |
CN215987302U (zh) | 国产高性能的水声信息处理设备 | |
CN116089176A (zh) | 一种用于auv的热备双冗余计算机控制系统 | |
CN103095739A (zh) | 机柜服务器系统及其节点通信方法 | |
CN112147928B (zh) | 一种双can总线多冗余热备份飞控计算机系统及方法 | |
CN107885621B (zh) | 一种基于飞腾平台的热备计算机 | |
US8717882B2 (en) | Repurposing data lane as clock lane by migrating to reduced speed link operation | |
JP5488693B2 (ja) | マルチクラスタシステム | |
Nath et al. | Distributed node fault detection and tolerance algorithm for controller area networks | |
CN109271274B (zh) | 一种嵌入式系统的双机热备方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |