CN108153648B - 一种实现灵活调度的多冗余计算机的方法 - Google Patents

一种实现灵活调度的多冗余计算机的方法 Download PDF

Info

Publication number
CN108153648B
CN108153648B CN201711445190.8A CN201711445190A CN108153648B CN 108153648 B CN108153648 B CN 108153648B CN 201711445190 A CN201711445190 A CN 201711445190A CN 108153648 B CN108153648 B CN 108153648B
Authority
CN
China
Prior art keywords
board
cpu board
cpu
monitoring module
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711445190.8A
Other languages
English (en)
Other versions
CN108153648A (zh
Inventor
刘升
王一凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XI'AN KEYWAY TECHNOLOGY CO LTD
Original Assignee
XI'AN KEYWAY TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XI'AN KEYWAY TECHNOLOGY CO LTD filed Critical XI'AN KEYWAY TECHNOLOGY CO LTD
Priority to CN201711445190.8A priority Critical patent/CN108153648B/zh
Publication of CN108153648A publication Critical patent/CN108153648A/zh
Application granted granted Critical
Publication of CN108153648B publication Critical patent/CN108153648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

本发明涉及一种灵活调度的多冗余计算机系统系统的设计方法,包括:监控模块,所述监控模块设置于CPU板与网络交换板之间,其分配并调度网络交换板向CPU板发送的任务,监控CPU板的工作状态;当CPU板故障时,将任务切换至另外的CPU板;对故障CPU板复位;本发明所述一种实现灵活调度的多冗余计算机的方法,通过监控模块对系统中的CPU板实现灵活调度,在对故障任务切换CPU板的同时,及时复位故障CPU板,以减少CPU板的占用,使系统中CPU板时刻保持在正常状态,有力地保障了系统任务可靠性,减少了板卡冗余数量,同时系统结构简洁,利于备货和维修,系统成本低。

Description

一种实现灵活调度的多冗余计算机的方法
技术领域
本发明涉及一种灵活调度的多冗余计算机系统系统的设计方法,通过对系统中多个CPU板资源灵活调度,实现对任意故障CPU板的切换,在保障系统任务可靠性的同时,显著减少冗余CPU板的数量。
背景技术
高可靠性要求的场合大多采用多冗余计算机系统来增加系统的任务可靠性。目前业界使用的多冗余计算机系统大多为双冗余或三二表决系统。其中工作CPU资源和冗余CPU资源要按1:1或1:2的数量配置,冗余资源数量多,由于其替换关系固定,某一CPU板只能由其备份板替换,不具有灵活性。
发明内容
本发明提出一种实现灵活调度的多冗余计算机的方法,同时提出一种可灵活调度的多冗余计算机系统的设计方法,通过对各块CPU板进行灵活的调度,从而实现故障CPU板切换,减少冗余CPU板的数量。
本发明所述一种实现灵活调度的多冗余计算机的方法,其包括:IO接口单元、网络交换板、监控模块和若干个CPU板,所述监控模块设置于CPU板与网络交换板之间,其分配并调度网络交换板向CPU板发送的任务,监控CPU板的工作状态;当CPU板故障时,将任务切换至另外的CPU板,同时对故障CPU板复位;
其具体设计方法为:
(1)CPU板通电后自检,并将自检结果反馈至监控模块;
(2)自检成功的CPU板排队通过监控模块分发来自网络交换板的任务;自检失败的CPU板通过监控模块复位,复位后的CPU板进入等待队列;
(3)分配到任务的CPU板执行任务,未分配到任务的CPU板作为冗余备份,继续排队等待任务分发;
(4)监控模块监控执行任务的CPU板的运行状态;
(5)执行任务的CPU 板故障时,监控模块向网络交换板发送指令,网络交换板终止该任务,并新建该任务,经监控模块分发至等待队列的CPU板;同时监控模块将对故障CPU板通过IO接口单元对每一块故障CPU板进行复位;
(6)CPU板任务执行完毕后,通过网络交换板将操作要求发送至IO接口单元,由IO接口单元执行操作。
优选地,所述网络交换板有两块,每一个CPU板均设有两个网口,两个网口分别连接两个不同的网络交换板。
进一步地,还包括电源板,用于为CPU板、网络交换板和监控模块供电。
本发明所述一种实现灵活调度的多冗余计算机的方法,通过监控模块对系统中的CPU板实现灵活调度,在对故障任务切换CPU板的同时,及时复位故障CPU板,以减少CPU板的占用,使系统中CPU板时刻保持在正常状态,有力地保障了系统任务可靠性,减少了板卡冗余数量,同时系统结构简洁,利于备货和维修,系统成本低。
附图说明
图1是发明的原理框图。
具体实施方式
本发明所述一种实现灵活调度的多冗余计算机的方法,其包括:IO接口单元、网络交换板、监控模块和若干个CPU板,所述监控模块在CPU板与网络交换板之间,分配并调度网络交换板向CPU板发送的任务,监控CPU板的工作状态;当CPU板故障时,将任务切换至另外的CPU板,同时对故障CPU板复位;本发明所述网络交换板有两块,CPU板有若干个,每一个CPU板均设有两个网口,两个网口分别连接两块不同的网络交换板,本发明设定CPU板默认第一网口连接的第一网络交换板同外部通讯,第二网口连接的第二网络交换板作为冗余通讯,当该第一网口或第一网络交换板故障时,则从第二网口经第二网络交换板通讯。
其具体设计方法为:
(1)CPU板通电后先自检,并将自检结果反馈至监控模块;
(2)自检成功的CPU板排队通过监控模块分发来自网络交换板的任务;自检失败的CPU板通过监控模块复位,复位后的CPU板进入等待队列;
(3)分配到任务的CPU板执行任务,未分配到任务的CPU板作为冗余备份,继续排队等待任务分发;
(4)监控模块监控正在执行任务的CPU板的运行状态;
(5)当执行任务的CPU 板故障时,监控模块向网络交换板发送指令,网络交换板终止该任务,并新建该任务,经监控模块分发至等待队列的CPU板;同时监控模块将对故障CPU板通过IO接口单元对每一块故障CPU板进行复位;
(6)CPU板任务执行完毕后,通过网络交换板将操作要求发送至IO接口单元,由IO接口单元执行操作。
本发明还包括电源板,用于为CPU板、网络交换板和监控模块供电。

Claims (3)

1.一种实现灵活调度的多冗余计算机的方法,其特征在于包括:IO接口单元、网络交换板、监控模块和若干个CPU板,所述监控模块设置于CPU板与网络交换板之间,其分配并调度网络交换板向CPU板发送的任务,监控CPU板的工作状态;当CPU板故障时,将任务切换至另外的CPU板;对故障CPU板复位;
其具体设计方法为:
(1)CPU板通电后自检,并将自检结果反馈至监控模块;
(2)自检成功的CPU板排队通过监控模块分发来自网络交换板的任务;自检失败的CPU板通过监控模块复位,复位后的CPU板进入等待队列;
(3)分配到任务的CPU板执行任务,未分配到任务的CPU板作为冗余CPU继续等待任务分发;
(4)监控模块监控执行任务的CPU板的运行状态;
(5)执行任务的CPU 板故障时,监控模块向网络交换板发送指令,网络交换板终止该任务,并新建该任务,经监控模块分发至等待队列的CPU板;同时监控模块将对故障CPU板通过IO接口单元对每一块故障CPU板进行复位;
(6)CPU板任务执行完毕后,通过网络交换板将操作要求发送至IO接口单元,由IO接口单元执行操作。
2.如权利要求1所述一种实现灵活调度的多冗余计算机的方法,其特征在于所述网络交换板有两块,每一个CPU板均设有两个网口,两个网口分别连接两个不同的网络交换板。
3.如权利要求2所述一种实现灵活调度的多冗余计算机的方法,其特征在于还包括电源板,用于为CPU板、网络交换板和监控模块供电。
CN201711445190.8A 2017-12-27 2017-12-27 一种实现灵活调度的多冗余计算机的方法 Active CN108153648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711445190.8A CN108153648B (zh) 2017-12-27 2017-12-27 一种实现灵活调度的多冗余计算机的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711445190.8A CN108153648B (zh) 2017-12-27 2017-12-27 一种实现灵活调度的多冗余计算机的方法

Publications (2)

Publication Number Publication Date
CN108153648A CN108153648A (zh) 2018-06-12
CN108153648B true CN108153648B (zh) 2021-04-20

Family

ID=62463358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711445190.8A Active CN108153648B (zh) 2017-12-27 2017-12-27 一种实现灵活调度的多冗余计算机的方法

Country Status (1)

Country Link
CN (1) CN108153648B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE69346T1 (de) * 1986-03-12 1991-11-15 Siemens Ag Fehlergesicherte, hochverfuegbare multiprozessor- zentralsteuereinheit eines vermittlungssystemes und verfahren zum speicherkonfigurationsbetrieb dieser zentralsteuereinheit.
JPH05250222A (ja) * 1992-03-05 1993-09-28 Nec Eng Ltd Cpu監視装置
US5923830A (en) * 1997-05-07 1999-07-13 General Dynamics Information Systems, Inc. Non-interrupting power control for fault tolerant computer systems
CN1294488C (zh) * 2003-12-31 2007-01-10 英业达股份有限公司 多处理器计算机系统的开机切换方法
CN101324855B (zh) * 2008-08-12 2011-05-04 杭州华三通信技术有限公司 辅助cpu工作状态的检测方法、系统、组件及多cpu设备
US9405637B2 (en) * 2011-01-18 2016-08-02 Texas Instruments Incorporated Locking/unlocking CPUs to operate in safety mode or performance mode without rebooting
US9886357B2 (en) * 2015-10-11 2018-02-06 International Business Machines Corporation Selecting master time of day for maximum redundancy
CN105808391A (zh) * 2016-04-05 2016-07-27 浪潮电子信息产业股份有限公司 一种热替换cpu节点的方法及装置
CN106844113B (zh) * 2017-03-10 2020-09-29 苏州浪潮智能科技有限公司 一种采用冗余pch的服务器故障恢复系统及方法

Also Published As

Publication number Publication date
CN108153648A (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN102521044B (zh) 一种基于消息中间件的分布式任务调度方法及系统
CN100541444C (zh) 多主板系统之管理系统
US20080046774A1 (en) Blade Clustering System with SMP Capability and Redundant Clock Distribution Architecture Thereof
CN102457906B (zh) 一种消息队列的负载均衡控制方法及系统
CN100562850C (zh) 多处理器负载分配调整方法
CN103019889A (zh) 分布式文件系统及其故障处理方法
CN103853622A (zh) 一种互为备份的双余度控制方法
CN105183549A (zh) 基于任务分配的自动出票系统
CN108762994A (zh) 一种基于多机备份的星载计算机系统及该系统的切机方法
CN103076869A (zh) 一种rack机柜系统带电维护的设计方法
WO2018130105A1 (zh) 一种多路服务器时钟系统、多路服务器及其控制方法
CN112506624A (zh) 定时任务调度系统、方法及相应计算机设备和存储介质
CN105138488A (zh) 基于模块间交叉冗余的星载电子设备
CN101482829A (zh) 集群系统、处理装置及集群系统冗余方法
CN108153648B (zh) 一种实现灵活调度的多冗余计算机的方法
CN104123183A (zh) 集群作业调度方法和装置
CN111930573B (zh) 一种基于管理平台的任务级双机热备系统及其方法
CN104951346A (zh) 一种用于嵌入式系统的进程管理方法及系统
Sharma et al. An optimal task allocation model through clustering with inter-processor distances in heterogeneous distributed computing systems
CN105681424A (zh) 一种桌面云系统
CN116132470B (zh) 一种基于安全云平台的ats系统及处理方法
CN105278651A (zh) 一种冗余控制系统
JP2008003735A (ja) 無停電電源装置に接続された情報処理システムの自動停止方式
CN106933692A (zh) 一种基于处理器阵列的航天器星载计算机系统及故障处理方法
CN217606351U (zh) 硬件集群装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant