CN105556407A - 故障容限工业自动化控制系统 - Google Patents

故障容限工业自动化控制系统 Download PDF

Info

Publication number
CN105556407A
CN105556407A CN201480033906.1A CN201480033906A CN105556407A CN 105556407 A CN105556407 A CN 105556407A CN 201480033906 A CN201480033906 A CN 201480033906A CN 105556407 A CN105556407 A CN 105556407A
Authority
CN
China
Prior art keywords
main frame
fault
control system
industrial automation
key component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480033906.1A
Other languages
English (en)
Other versions
CN105556407B (zh
Inventor
E·弗兰蒂
M·奥里奥尔
M·瓦勒
T·德戈伊杰
T·加梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ABB Technology AG
Original Assignee
ABB T&D Technology AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ABB T&D Technology AG filed Critical ABB T&D Technology AG
Publication of CN105556407A publication Critical patent/CN105556407A/zh
Application granted granted Critical
Publication of CN105556407B publication Critical patent/CN105556407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0208Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the configuration of the monitoring system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及一种基于组件的自动化框架、基于软件的冗余模式和分布式的可靠运行时间管理器的组合,并且能够在运行时间时检测主机故障以及触发系统的重新配置。这种组合的解决方案通过使用备份应急预案,并且无需操作员干预或者立即硬件更换,在发生故障情况下保持系统运行,并且另外,自动恢复容错。因此提供一种故障容限的容错机制,其在故障已发生之后,自动并且立即恢复容错的原始等级,即,无需必须等待故障实体的维修或更换。简言之,本发明对于操作者或工程师通过自动适配新的环境来在降低的成本以及复杂性下实现增加可用性或正常运行时间。

Description

故障容限工业自动化控制系统
技术领域
本发明涉及在一种工业自动化与控制系统IACS中配置和运行控制应用的领域。特别是,其涉及在这类系统中的改进容错。
背景技术
在工业系统或过程中,工厂停机的成本通常是相当高的。因而,不能接受的停机成本提倡对应的工业自动化控制系统的增加可靠性和高可用性。后者通常依赖于冗余,其中对控制系统的关键部分或关键的控制应用进行复制,并且该控制系统的容错产生于冗余和错误检测机制,诸如监督、看门狗(watchdog)或心跳(heartbeat)的组合。
现有的冗余模式,例如备用冗余(StandbyRedundancy)或者三重模块化冗余(TMR),能够为自动化控制系统提供容错。但是,一旦故障已发生,这些容错机制失去或降低容错。例如,TMR模式容许单个故障。如同大多数其他模式一样,直到故障实体被替换,原始容错才会恢复。在该期间,在发生第二个故障时,TMR通常启动安全关机。也能够使用更多副本(replica)来部署冗余以容许多个故障。这造成更高的成本并且增加的复杂性,并且因此极少这样做。
在专利申请EP12182884.2中,用于控制工业主系统或过程的工业自动化与控制系统IACS中的控制应用或用于控制工业主系统或过程的工业自动化与控制系统IACS的控制应用,以最佳方式配置和部署。该IACS包含多个运行主机,例如单核或多核CPU的CPU核,并且该控制应用由多个组件或子应用组成。这些组件可以相互关联并且至少部分地并行运行。最后,组件可根据特定约束,例如相关组件运行定时,按照预定运行顺序个别地指派给运行主机用于运行。所得到的基于组件的软件架构提供了依靠静态调度的循环实时系统框架,其在运行时间时允许加载组件并且修改调度。
发明内容
本发明的目的是改进工业自动化控制系统IACS中的容错。这个目的通过如独立权利要求所述的方法来实现。优选的实施例从从属专利权利要求中是明显的。
根据本发明,暂时容错降级在工业自动化与控制系统IACS中被阻止,该系统包含多个主机或控制器,连接到通信总线用于向至少一些主机以并行的方式提供输入数据。每个主机以循环方式并且按照配置来运行作为控制应用的一部分的多个组件。该配置包含数据结构,该数据结构包括静态顺序调度以及组件间通信通道映射,其中组件在运行时间时可加载并且其中调度在运行时间时可修改。对于故障的容限,例如对于影响至少一个关键组件的主机故障的容限,通过运行下列步骤来提供:
-在第一主机上运行关键组件的活动实例或副本,并且使在第二主机上实体化的关键组件的冗余第一备用实例的状态与该活动组件同步,
-利用错误检测机制,例如监督、看门狗(watchdog)或心跳(heartbeat),在先前组件运行循环中检测第一主机的故障;
-在下一个组件运行循环之前,激活第一备份配置,或第一应急预案,其包含运行作为在第二主机上的关键组件的当前活动实例的第一备用实例,以及包含使在第三主机上实体化或加载到第三主机的关键组件的冗余第二备用实例的状态与第一备用实例同步。
换言之,本发明包含基于组件的自动化框架、基于软件的冗余模式和分布式的可靠运行时间管理器的组合,并且能够在运行时间时检测主机故障以及触发系统重新配置。这种解决方案通过在可用主机上创建和调度关键组件的新备用实例,并且无需操作员干预或者立即硬件更换,在发生故障的情况下保持系统运行,并且另外,针对进一步的单个控制器故障自动恢复容错。因此提供了一种故障容限的容错机制,其在故障已发生之后,自动并且立即恢复容错的原始等级,即,无需必须等待故障实体的维修或更换。简言之,本发明通过自动适应新环境来在降低成本以及复杂性下实现系统增加的可用性或正常运行时间。
在本发明的优选变型中,提供第二或下一级备份配置,其包含调度,在第二主机故障的情况下,调度涉及指派给第四主机并且预计在第四主机上实体化的关键组件的冗余第三备用实例。提供或推导第二备份配置涉及计算关键组件的冗余实例的部署以及限定鉴于第二或次级故障的调度和组件间通信通道的变化。第二备份配置可以在运行时间时准备并且在第一备份配置激活之后,即,脱离实际上所激活的第一备份配置并且忽略所有其他未激活的第一备份配置。备选地,第二备份配置可以提前,即在第一故障发生之前准备或导出。由于必须考虑至少等于主机数量的第一备份配置的数量的事实,并且还结合类似数量的次级故障主机,这种解决方案在计算上更昂贵。
在本发明的有利实施例中,每个主机在初始化期间提供有第一备份配置。所有进一步工作或者剩余的主机然后分别地检测第一主机的故障,并且对应或者预见第一主机的故障而瞬间激活第一备份配置。这种方法依赖于分散、分布式架构,其中所有主机或节点具有关于涵盖所有可想像出的第一故障的备份配置计划的必要信息。当特定主机的故障发生时,该故障被检测出,并且在下一组件运行循环之前,该故障所牵涉到的每个剩余主机采取适当的行动。
本发明还涉及一种计算机程序产品,其包含计算机程序代码,用于控制工业自动化控制系统的一个或多个处理器,工业自动化控制系统包含连接到通信总线的多个运行主机,特别是涉及一种计算机程序产品,包含在其中含有计算机程序代码的计算机可读媒介。
附图说明
本发明的主题将在下面文本中参照附图中示出的优选示例性实施例来详细解释,其中:
图1示出了热备用冗余概念;
图2描绘一种工业控制应用的简化示例,以及
图3示出了一种工业自动化与控制系统的四主机动行环境,以及三个对应的组件运行配置调度。
具体实施方式
图1呈现一种具有涉及两个实例或副本的热备用冗余的单个关键组件的常规部署,其中A1为活动副本,A1’为备用副本,其与活动副本永久同步。现有上下文中的“同步”包含两个实例的状态同步,其中活动实例A1的状态逐步地或持续地传送,或复制给备用实例A1’,如垂直箭头所示。在活动副本A1故障的情况下,因此备用副本A1’准备瞬间激活。两个运行副本的主机之间的监督通信实现这种自动切换。
图2示出了一种工业控制应用的简化示例,该应用读取某一输入变量,执行计算(如级联反馈回路),并且最后将某一输出写入现场总线I/O接口。该应用以对应于大约500ms的示例性循环时间的给定的控制频率循环运行,并且由三个组件(大圆角矩形)组成,这些组件也是保有状态数据的组织单元。在示例中,输入变量的新的数值,例如波形,由传感器组件在每个循环的开始时读取或获取。实际控制算法由控制组件实现,控制组件执行一些转换输入波形的简单计算。该控制组件的计算输出馈送到致动器组件,其准备并且将输出值写入而输出到现场总线I/O接口。
图3在顶部部分中示出了一种热备用系统的示例,其具有四个主机H1,H2,H3,H4,通过支持广播通信的通信总线连接。通过该总线,每个主机以规则间隔发送心跳。如果某主机的心跳缺失(例如,由于主机故障或网络故障),其他主机能够立即对该故障做出反应。在这个示例中,主机运行总共五个不同组件,其中一个组件视为关键组件,并且因此作为实例A1和A1’在主机H1和H2上冗余地运行,见下文。
配置是数据结构,其含有静态顺序调度以及组件间通信通道映射。多个配置能够在每个主机上存储,但是至多一个配置是活动的,即被执行的。其他配置称为备份配置。在正常操作期间,全局活动配置由此限定哪些组件要在哪些主机上运行。主机能够在每个循环的开始时以无间断方式从活动配置切换到任何备份配置。具有多个配置的可能性用于存储多个备份配置,每个配置涵盖系统中单个主机的故障。这种方法能够延伸到多个相关的主机故障(即,在相同时间点发生的故障)。
图3在底部部分中描绘顺序激活和/或创建的示例性配置调度。在初始调度中,关键组件A1在主机H1(副本A1活动)和主机H2(副本A1’备用)上的热备用设置中冗余地运行,同时非关键组件实例A2-A5分别在主机H1-H4上运行。在特定故障发生时可选择性地有效的大量第一备份配置中,示例性的第一备份配置对主机H1的故障提供容错,并且为实现此,涉及在主机H2上激活备用副本A1’。同时,通过调度即通过加载或实体化(如若需要)以及使主机H3上关键组件的第二备用副本A1”同步来恢复主机H2的示例性故障的初始单个主机容错。另外,针对主机H3的故障而为关键组件提供容错的第二备份配置被创建,其又包含对指派给主机H4并且预知要在主机H4上实体化的第三备用副本A”’的调度。
为使本方法中新备用副本能够创建,自动化过程中相关的I/O信号需要在该新备用副本的位置处可用。对于这个问题的若干解决方案可预见连同本发明一起使用,例如使用I/O单元直接或通过代理(例如,路由器或中继器)进行无线通信以及基于以太网的广播。这两种通信技术能够使用诸如VLAN或VPN的技术来安全化。示例性循环时间大约是500ms。关于实现本发明的更多细节在ManuelOriol等人撰写的会议论文“Fault-tolerantFaultToleranceforComponent-BasedAutomationSystems”中公开,该论文发表于2013年在加拿大温哥华召开的第四届InternationalACMSIGSOFTSymposiumonArchitectingCriticalSystems(ISARCS2013)的会议录上。
虽然在附图与上述描述中对本发明进行了详细描述,但这种描述应视为说明性的或示例性的,而不是限制性的。本领域技术人员能够理解并且实现对所公开实施例的变更以及通过研究附图、公开和所附权利要求书实施本发明。在权利要求中,单词“包括”不排除其他元件或步骤,并且不定冠词“一”不排除复数。在不同权利要求中记载某些元件或步骤的仅有事实不表明这些元件或步骤的组合不能有利地使用,特别是,除了实际的权利要求的从属性外,任何进一步有意义的权利要求组合都应视为已公开。

Claims (4)

1.一种在工业自动化与控制系统IACS中提供容错的方法,所述工业自动化与控制系统IACS包含连接到通信总线的多个主机,其中每个主机根据配置循环运行多个组件,所述方法包括:
-在第一主机(H1)上运行关键组件的活动实例(A1),并且使在第二主机(H2)上实体化的所述关键组件的第一备用实例(A1’)与所述活动实例(A1)同步,
-检测所述第一主机(H1)的故障,
-激活第一备份配置,包含运行作为所述第二主机(H2)上所述关键组件的当前活动实例的所述第一备用实例(A1’),以及包含使在第三主机(H3)上实体化的所述关键组件的第二备用实例(A1”)与所述第一备用实例(A1’)同步。
2.如权利要求1所述的方法,包括
-提供第二备份配置,包含将所述关键组件的第三备用实例(A1”’)指派给第四主机(H4)。
3.如权利要求1所述的方法,包括
-向每个主机(H1,H2,H3,H4)提供第一备份配置,
-由所有其他主机(H2,H3,H4)检测所述第一主机(H1)的故障,以及
-在所有其他主机处对应于所述第一主机(H1)的所述故障激活第一备份配置。
4.一种计算机程序产品,包含计算机程序代码,用于控制工业自动化控制系统IACS的一个或多个处理器,所述工业自动化控制系统IACS包含连接到通信总线的多个运行主机,以便执行如上述权利要求中一个所述的向所述IACS提供容错的方法。
CN201480033906.1A 2013-06-14 2014-06-13 故障容限工业自动化控制系统 Active CN105556407B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13172021.1 2013-06-14
EP13172021.1A EP2813912B1 (en) 2013-06-14 2013-06-14 Fault tolerant industrial automation control system
PCT/EP2014/062302 WO2014198860A1 (en) 2013-06-14 2014-06-13 Fault tolerant industrial automation control system

Publications (2)

Publication Number Publication Date
CN105556407A true CN105556407A (zh) 2016-05-04
CN105556407B CN105556407B (zh) 2019-06-04

Family

ID=48628326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480033906.1A Active CN105556407B (zh) 2013-06-14 2014-06-13 故障容限工业自动化控制系统

Country Status (4)

Country Link
US (1) US10073749B2 (zh)
EP (1) EP2813912B1 (zh)
CN (1) CN105556407B (zh)
WO (1) WO2014198860A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11159435B2 (en) 2019-11-07 2021-10-26 Abb Schweiz Ag Time-sensitive networking for industrial automation

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062264B (zh) * 2017-11-10 2020-07-03 北京全路通信信号研究设计院集团有限公司 操作表示机主备切换方法及装置、计算机存储介质
CN110535714B (zh) * 2018-05-25 2023-04-18 华为技术有限公司 一种仲裁方法及相关装置
US10901399B2 (en) * 2018-09-28 2021-01-26 Rockwell Automation Technologies, Inc. High availability industrial automation controller and method of operating the same
US10691528B1 (en) * 2019-07-23 2020-06-23 Core Scientific, Inc. Automatic repair of computing devices in a data center
EP4012515A1 (en) * 2020-12-09 2022-06-15 ABB Schweiz AG Preventive controller switchover
EP4063974A1 (en) * 2021-03-23 2022-09-28 ABB Schweiz AG Controlling an industrial process using virtualized instances of control software
CN115037674B (zh) * 2022-05-16 2023-08-22 郑州小鸟信息科技有限公司 一种中央控制系统单机及多设备冗余备份方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007536634A (ja) * 2004-05-04 2007-12-13 フィッシャー−ローズマウント・システムズ・インコーポレーテッド プロセス制御システムのためのサービス指向型アーキテクチャ
CN101542885A (zh) * 2007-05-14 2009-09-23 Abb技术有限公司 高压输电系统中的冗余电流阀控制
US20110022574A1 (en) * 2009-07-21 2011-01-27 Vmware, Inc. System and Method for Replicating Disk Images in a Cloud Computing Based Virtual Machine File System
CN102591331A (zh) * 2012-03-14 2012-07-18 桂林中昊力创机电设备有限公司 自动化设备故障可视化诊断系统
CN102902262A (zh) * 2011-07-27 2013-01-30 通用电气公司 使用网络客户机的分布式控制系统中的指定的控制器的自动检测

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2771526B1 (fr) * 1997-11-27 2004-07-23 Bull Sa Architecture pour la gestion de donnees vitales dans une machine multi-modulaire et procede pour la mise en oeuvre d'une telle architecture
US7194655B2 (en) * 2003-06-12 2007-03-20 International Business Machines Corporation Method and system for autonomously rebuilding a failed server and a computer system utilizing the same
US7302608B1 (en) * 2004-03-31 2007-11-27 Google Inc. Systems and methods for automatic repair and replacement of networked machines
TW200849001A (en) * 2007-06-01 2008-12-16 Unisvr Global Information Technology Corp Multi-server hot-backup system and fault tolerant method
US7849178B2 (en) * 2008-04-11 2010-12-07 International Business Machines Corporation Grid computing implementation
US8010594B2 (en) * 2008-06-18 2011-08-30 Time Warner Cable Inc. System and method for billing system interface failover resolution
US8369968B2 (en) * 2009-04-03 2013-02-05 Dell Products, Lp System and method for handling database failover
US8578202B2 (en) * 2010-07-29 2013-11-05 Ca, Inc. System and method for providing high availability for distributed application
US9240937B2 (en) * 2011-03-31 2016-01-19 Microsoft Technology Licensing, Llc Fault detection and recovery as a service
EP2703918A1 (en) 2012-09-04 2014-03-05 ABB Research Ltd. Configuration of control applications on multi-host controllers

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007536634A (ja) * 2004-05-04 2007-12-13 フィッシャー−ローズマウント・システムズ・インコーポレーテッド プロセス制御システムのためのサービス指向型アーキテクチャ
CN101542885A (zh) * 2007-05-14 2009-09-23 Abb技术有限公司 高压输电系统中的冗余电流阀控制
US20110022574A1 (en) * 2009-07-21 2011-01-27 Vmware, Inc. System and Method for Replicating Disk Images in a Cloud Computing Based Virtual Machine File System
CN102902262A (zh) * 2011-07-27 2013-01-30 通用电气公司 使用网络客户机的分布式控制系统中的指定的控制器的自动检测
CN102591331A (zh) * 2012-03-14 2012-07-18 桂林中昊力创机电设备有限公司 自动化设备故障可视化诊断系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FERNANDO J.BARROS: "《An evolving hierarchical & modular approach to reshlient software》", 《2008 RISE/EFTS JOINT INTERNATIONAL WORKSHOP ON SOFTWARE ENGINEERING FOR RESILIENT SYSTEMS,SERENE "08》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11159435B2 (en) 2019-11-07 2021-10-26 Abb Schweiz Ag Time-sensitive networking for industrial automation

Also Published As

Publication number Publication date
US10073749B2 (en) 2018-09-11
US20160085642A1 (en) 2016-03-24
CN105556407B (zh) 2019-06-04
EP2813912A1 (en) 2014-12-17
WO2014198860A1 (en) 2014-12-18
EP2813912B1 (en) 2019-08-07

Similar Documents

Publication Publication Date Title
CN105556407A (zh) 故障容限工业自动化控制系统
US8924498B2 (en) Method and system for process control network migration
US8132042B2 (en) Method and device for exchanging data on the basis of the OPC communications protocol between redundant process automation components
US7877627B1 (en) Multiple redundant computer system combining fault diagnostics and majority voting with dissimilar redundancy technology
CN104133734B (zh) 分布式综合模块化航空电子系统混合式动态重构系统与方法
EP3316052B1 (en) Multi-protocol gateway with several cores in a process control system
EP1190320B1 (en) System and method of monitoring a distributed fault tolerant computer system
CN106062646A (zh) 控制装置
AU2003294628A1 (en) Redundant automation system for controlling a technical device, and method for operating one such automation system
CN112477919B (zh) 一种适用于列车控制系统平台的动态冗余备份方法及系统
CN110138611A (zh) 自动化运维方法及系统
US7373542B2 (en) Automatic startup of a cluster system after occurrence of a recoverable error
CN207731148U (zh) 基于虚拟技术的工业控制系统
CN109324818A (zh) 虚拟化服务器上位机系统及相关升级技术
Lyu et al. Software fault tolerance in a clustered architecture: Techniques and reliability modeling
Oriol et al. Fault-tolerant fault tolerance for component-based automation systems
CN108958183A (zh) 一种新型故障容限工业自动化控制系统
CN111338456B (zh) 一种bbu掉电保护实现方法及系统
JPH03132861A (ja) マルチプロセッサ・システムの再構成制御方式
Adlemo et al. Fault tolerance in flexible manufacturing systems parameters
CN109995560A (zh) 云资源池管理系统及方法
Brennan et al. Managing fault monitoring and recovery in distributed real-time control systems
Popovich A. Systems with Repair
CN116795820A (zh) 联机服务集群迁移方法、装置、设备及存储介质
Fu et al. Research on rtos-integrated tmr for fault tolerant systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180514

Address after: Baden, Switzerland

Applicant after: ABB TECHNOLOGY LTD.

Address before: Zurich

Applicant before: ABB T & D Technology Ltd.

GR01 Patent grant
GR01 Patent grant