CN114860342A - 一种多节点系统的启动方法、系统、设备以及存储介质 - Google Patents

一种多节点系统的启动方法、系统、设备以及存储介质 Download PDF

Info

Publication number
CN114860342A
CN114860342A CN202210575978.5A CN202210575978A CN114860342A CN 114860342 A CN114860342 A CN 114860342A CN 202210575978 A CN202210575978 A CN 202210575978A CN 114860342 A CN114860342 A CN 114860342A
Authority
CN
China
Prior art keywords
cpld
storage system
heartbeat signal
response
timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210575978.5A
Other languages
English (en)
Inventor
刘汉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210575978.5A priority Critical patent/CN114860342A/zh
Publication of CN114860342A publication Critical patent/CN114860342A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4411Configuring for operating with peripheral devices; Loading of device drivers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种多节点系统的启动方法,包括以下步骤:响应于接收到开机指令,进入BIOS引导阶段并计时;响应于在第一预设时间段内,所述BIOS的完成引导,结束计时,进入存储系统引导阶段并再次重新计时;响应于在第二预设时间段内,所述存储系统完成引导,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测;利用配对的两个节点之间的CPLD互相向对方发送CPLD的心跳信号;响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启本发明提出的方案能够在当MCS存储出现异常、死机、启动异常等情况后,实现自动处理、免去人工现场处理,大大提高存储的可用性、可靠性。

Description

一种多节点系统的启动方法、系统、设备以及存储介质
技术领域
本发明涉及存储领域,具体涉及一种多节点系统的启动方法、系统、设备以及存储介质。
背景技术
在存储领域中,存储系统的高可靠性一直是关注的重点;现在的存储无特殊情况均7*24小时不间断运行;而存储涉及到部件众多,加上不可避免的外在因素温度、供电、以及用户运行业务;不可避免会出现极小概率性的死机、启动异常等情况,导致用户业务异常;因此如何避免此类情况的发生是衡量存储稳定性最重要的标准之一;
当出现死机、启动异常的情况后,一般需要客户现场通过强制重启、断电的方法来恢复;存在处理时间不及时,人工处理效率低等以及影响业务运行等问题。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种多节点系统的启动方法,包括以下步骤:
响应于接收到开机指令,进入BIOS引导阶段并计时;
响应于在第一预设时间段内,所述BIOS的完成引导,结束计时,进入存储系统引导阶段并再次重新计时;
响应于在第二预设时间段内,所述存储系统完成引导,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测;
利用配对的两个节点之间的CPLD互相向对方发送CPLD的心跳信号;
响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启。
在一些实施例中,还包括:
响应于在所述第一预设时间段内所述BIOS引导未成功,触发断电重启。
在一些实施例中,响应于接收到开机指令,进入BIOS引导阶段并计时,进一步包括:
响应于检测到进入BIOS设置界面,停止计时,并在检测到退出所述这时界面时,继续计时。
在一些实施例中,还包括:
响应于在所述第二预设时间段内所述存储系统引导未成功,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述CPLD无法接收到所述存储系统的心跳信号,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述存储系统触发预设动作,向所述CPLD发送关闭监测指令,以使所述CPLD停止对所述存储系统监测。
在一些实施例中,响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启,进一步包括:
等待第三时间段后,重新检测对方CPLD发送的心跳信号。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种用于多节点系统的启动的系统,包括:
第一引导模块,配置为响应于接收到开机指令,进入BIOS引导阶段并计时;
第二引导模块,配置为响应于在第一预设时间段内,所述BIOS的完成引导,结束计时,进入存储系统引导阶段并再次重新计时;
监测模块,配置为响应于在第二预设时间段内,所述存储系统完成引导,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测;
发送模块,配置为利用配对的两个节点之间的CPLD互相向对方发送CPLD的心跳信号;
控制模块,配置为响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启。
在一些实施例中,第一引导模块,还配置为:
响应于在所述第一预设时间段内所述BIOS引导未成功,触发断电重启。
在一些实施例中,第一引导模块,还配置为:
响应于检测到进入BIOS设置界面,停止计时,并在检测到退出所述这时界面时,继续计时。
在一些实施例中,第二引导模块还配置为:
响应于在所述第二预设时间段内所述存储系统引导未成功,触发断电重启。
在一些实施例中,监测模块还配置为:
响应于所述CPLD无法接收到所述存储系统的心跳信号,触发断电重启。
在一些实施例中,监测模块还配置为:
响应于所述存储系统触发预设动作,向所述CPLD发送关闭监测指令,以使所述CPLD停止对所述存储系统监测。
在一些实施例中,控制模块,还配置为:
等待第三时间段后,重新检测对方CPLD发送的心跳信号。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行以下步骤:
响应于接收到开机指令,进入BIOS引导阶段并计时;
响应于在第一预设时间段内,所述BIOS的完成引导,结束计时,进入存储系统引导阶段并再次重新计时;
响应于在第二预设时间段内,所述存储系统完成引导,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测;
利用配对的两个节点之间的CPLD互相向对方发送CPLD的心跳信号;
响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启。
在一些实施例中,还包括:
响应于在所述第一预设时间段内所述BIOS引导未成功,触发断电重启。
在一些实施例中,响应于接收到开机指令,进入BIOS引导阶段并计时,进一步包括:
响应于检测到进入BIOS设置界面,停止计时,并在检测到退出所述这时界面时,继续计时。
在一些实施例中,还包括:
响应于在所述第二预设时间段内所述存储系统引导未成功,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述CPLD无法接收到所述存储系统的心跳信号,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述存储系统触发预设动作,向所述CPLD发送关闭监测指令,以使所述CPLD停止对所述存储系统监测。
在一些实施例中,响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启,进一步包括:
等待第三时间段后,重新检测对方CPLD发送的心跳信号。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行以下步骤:
响应于接收到开机指令,进入BIOS引导阶段并计时;
响应于在第一预设时间段内,所述BIOS的完成引导,结束计时,进入存储系统引导阶段并再次重新计时;
响应于在第二预设时间段内,所述存储系统完成引导,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测;
利用配对的两个节点之间的CPLD互相向对方发送CPLD的心跳信号;
响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启。
在一些实施例中,还包括:
响应于在所述第一预设时间段内所述BIOS引导未成功,触发断电重启。
在一些实施例中,响应于接收到开机指令,进入BIOS引导阶段并计时,进一步包括:
响应于检测到进入BIOS设置界面,停止计时,并在检测到退出所述这时界面时,继续计时。
在一些实施例中,还包括:
响应于在所述第二预设时间段内所述存储系统引导未成功,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述CPLD无法接收到所述存储系统的心跳信号,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述存储系统触发预设动作,向所述CPLD发送关闭监测指令,以使所述CPLD停止对所述存储系统监测。
在一些实施例中,响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启,进一步包括:
等待第三时间段后,重新检测对方CPLD发送的心跳信号。
本发明具有以下有益技术效果之一:本发明提出的方案能够在当MCS存储出现异常、死机、启动异常等情况后,实现自动处理、免去人工现场处理,大大提高存储的可用性、可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明的实施例提供的多节点系统的启动方法的流程示意图;
图2为本发明的实施例提供的双节点系统的结构图;
图3为本发明的实施例提供的多节点系统的启动方法的流程框图;
图4为本发明的实施例提供的多节点系统的启动方法的另一流程框图;
图5为本发明的实施例提供的用于多节点系统启动的系统的结构示意图;
图6为本发明的实施例提供的计算机设备的结构示意图;
图7为本发明的实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
在本发明的实施例中,MCS:multi controller system多控制器系统;
BIOS:Basic Input Output System基本输入输出系统;
CPLD:Complex Programmable logic device复杂可编程逻辑器件;
GPIO:General-purpose input/output通用型之输入输出。
根据本发明的一个方面,本发明的实施例提出一种多节点系统的启动方法,如图1所示,其可以包括步骤:
S1,响应于接收到开机指令,进入BIOS引导阶段并计时;
S2,响应于在第一预设时间段内,所述BIOS的完成引导,结束计时,进入存储系统引导阶段并再次重新计时;
S3,响应于在第二预设时间段内,所述存储系统完成引导,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测;
S4,利用配对的两个节点之间的CPLD互相向对方发送CPLD的心跳信号;
S5,响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启。
本发明提出的方案能够在当MCS存储出现异常、死机、启动异常等情况后,实现自动处理、免去人工现场处理,大大提高存储的可用性、可靠性。
在一些实施例中,还包括:
响应于在所述第一预设时间段内所述BIOS引导未成功,触发断电重启。
在一些实施例中,响应于接收到开机指令,进入BIOS引导阶段并计时,进一步包括:
响应于检测到进入BIOS设置界面,停止计时,并在检测到退出所述这时界面时,继续计时。
在一些实施例中,还包括:
响应于在所述第二预设时间段内所述存储系统引导未成功,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述CPLD无法接收到所述存储系统的心跳信号,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述存储系统触发预设动作,向所述CPLD发送关闭监测指令,以使所述CPLD停止对所述存储系统监测。
在一些实施例中,响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启,进一步包括:
等待第三时间段后,重新检测对方CPLD发送的心跳信号。
下面结合图2-4以2个控制器节点为例详细说明本发明提出的多节点系统的启动方法。
如图2-4所示,在每一个控制器节点内,系统启动时会经过BIOS引导阶段,存储系统引导阶段,然后进行后续监测,具体如下:
BIOS引导阶段:BIOS开始引导时,CPLD开始计时,若在规定的T1时间内,BIOS完成引导并成功,BIOS将通过GPIO通知CPLD、CPLD将停止计时;控制器将进入存储系统OS引导阶段;
若在BIOS引导阶段,用户手工进入BIOS设置界面,此时BIOS通过GPIO通知CPLD,停止计时;当用户退出BIOS设置界面时,BIOS将通过GPIO通知CPLD、CPLD重新计时,BIOS继续引导;
当BIOS引导失败时,即在规定的T1时间内CPLD未收到BIOS完成引导信息,则CPLD将触发控制器上定时器(定时器控制者PSU的主供电(给主板供电)),定时器将使控制器的主板断电,并会重新给主板上电。此时BIOS将进行重新引导;
存储系统OS引导阶段:BIOS引导完成后,将进入存储系统OS引导,CPLD开始计时,若在规定的T2时间内,OS完成引导并运行成功,OS将通过GPIO通知CPLD、CPLD将停止计时;此后存储系统OS运行;
当控制器系统OS引导出现异常,即在规定的T2时间内CPLD未收到OS完成引导信息,则CPLD将触发控制器CPU使控制器重启;
存储系统OS运行正常阶段:OS将通过GPIO实时的发送心跳信息给CPLD;此时CPLD无动作;
当控制器系统OS因温度、供电、以及运行业务异常等原因导致控制器系统OS出现死机等异常时,此时CPLD将无法接收到OS的心跳信息;此时CPLD将触发控制器CPU使控制器重启;
如有特殊情况,比如升级存储系统OS,或者升级上次业务模块等,可以提前通过OS向CPLD发送是关闭CPLD看护信号,达到避免因CPLD看护导致的异常情况;
而在控制器节点之间,两个控制器间的CPLD通过GPIO相互发送心跳信号,以判断对端的控制器是否运行正常;
当某一个控制器2因某些原因出现异常时,导致CPLD工作异常的情况时,此时控制器1的CPLD收不到另外一个控制器的2的CPLD心跳,则判断控制器2异常,此时控制器1CPLD将触发控制器2上的定时器(定时器控制者PSU的主供电(给主板供电)),定时器将使控制器2的主板断电,并会重新给主板上电;等待缓存时间T4(控制器CPLD重新启动的时间)后,将重新检测控制器间的心跳信号。
本发明提出的方案能够在当MCS存储出现异常、死机、启动异常等情况后,实现自动处理、免去人工现场处理,大大提高存储的可用性、可靠性。具有稳定性高,可靠性强等优势。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种用于多节点系统的启动的系统400,如图5所示,包括:
第一引导模块401,配置为响应于接收到开机指令,进入BIOS引导阶段并计时;
第二引导模块402,配置为响应于在第一预设时间段内,所述BIOS的完成引导,结束计时,进入存储系统引导阶段并再次重新计时;
监测模块403,配置为响应于在第二预设时间段内,所述存储系统完成引导,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测;
发送模块404,配置为利用配对的两个节点之间的CPLD互相向对方发送CPLD的心跳信号;
控制模块405,配置为响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启。
本发明提出的方案能够在当MCS存储出现异常、死机、启动异常等情况后,实现自动处理、免去人工现场处理,大大提高存储的可用性、可靠性。
在一些实施例中,第一引导模块401,还配置为:
响应于在所述第一预设时间段内所述BIOS引导未成功,触发断电重启。
在一些实施例中,第一引导模块401,还配置为:
响应于检测到进入BIOS设置界面,停止计时,并在检测到退出所述这时界面时,继续计时。
在一些实施例中,第二引导模块402还配置为:
响应于在所述第二预设时间段内所述存储系统引导未成功,触发断电重启。
在一些实施例中,监测模块403还配置为:
响应于所述CPLD无法接收到所述存储系统的心跳信号,触发断电重启。
在一些实施例中,监测模块403还配置为:
响应于所述存储系统触发预设动作,向所述CPLD发送关闭监测指令,以使所述CPLD停止对所述存储系统监测。
在一些实施例中,控制模块405,还配置为:
等待第三时间段后,重新检测对方CPLD发送的心跳信号。
本发明提出的方案能够在当MCS存储出现异常、死机、启动异常等情况后,实现自动处理、免去人工现场处理,大大提高存储的可用性、可靠性。
基于同一发明构思,根据本发明的另一个方面,如图6所示,本发明的实施例还提供了一种计算机设备501,包括:
至少一个处理器520;以及
存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行以下步骤:
S1,响应于接收到开机指令,进入BIOS引导阶段并计时;
S2,响应于在第一预设时间段内,所述BIOS的完成引导,结束计时,进入存储系统引导阶段并再次重新计时;
S3,响应于在第二预设时间段内,所述存储系统完成引导,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测;
S4,利用配对的两个节点之间的CPLD互相向对方发送CPLD的心跳信号;
S5,响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启。
在一些实施例中,还包括:
响应于在所述第一预设时间段内所述BIOS引导未成功,触发断电重启。
在一些实施例中,响应于接收到开机指令,进入BIOS引导阶段并计时,进一步包括:
响应于检测到进入BIOS设置界面,停止计时,并在检测到退出所述这时界面时,继续计时。
在一些实施例中,还包括:
响应于在所述第二预设时间段内所述存储系统引导未成功,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述CPLD无法接收到所述存储系统的心跳信号,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述存储系统触发预设动作,向所述CPLD发送关闭监测指令,以使所述CPLD停止对所述存储系统监测。
在一些实施例中,响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启,进一步包括:
等待第三时间段后,重新检测对方CPLD发送的心跳信号。
本发明提出的方案能够在当MCS存储出现异常、死机、启动异常等情况后,实现自动处理、免去人工现场处理,大大提高存储的可用性、可靠性。
基于同一发明构思,根据本发明的另一个方面,如图7所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序610,计算机程序610被处理器执行时执行以下步骤:
S1,响应于接收到开机指令,进入BIOS引导阶段并计时;
S2,响应于在第一预设时间段内,所述BIOS的完成引导,结束计时,进入存储系统引导阶段并再次重新计时;
S3,响应于在第二预设时间段内,所述存储系统完成引导,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测;
S4,利用配对的两个节点之间的CPLD互相向对方发送CPLD的心跳信号;
S5,响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启。
本发明提出的方案能够在当MCS存储出现异常、死机、启动异常等情况后,实现自动处理、免去人工现场处理,大大提高存储的可用性、可靠性。
在一些实施例中,还包括:
响应于在所述第一预设时间段内所述BIOS引导未成功,触发断电重启。
在一些实施例中,响应于接收到开机指令,进入BIOS引导阶段并计时,进一步包括:
响应于检测到进入BIOS设置界面,停止计时,并在检测到退出所述这时界面时,继续计时。
在一些实施例中,还包括:
响应于在所述第二预设时间段内所述存储系统引导未成功,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述CPLD无法接收到所述存储系统的心跳信号,触发断电重启。
在一些实施例中,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述存储系统触发预设动作,向所述CPLD发送关闭监测指令,以使所述CPLD停止对所述存储系统监测。
在一些实施例中,响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启,进一步包括:
等待第三时间段后,重新检测对方CPLD发送的心跳信号。
本发明提出的方案能够在当MCS存储出现异常、死机、启动异常等情况后,实现自动处理、免去人工现场处理,大大提高存储的可用性、可靠性。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种多节点系统的启动方法,其特征在于,包括以下步骤:
响应于接收到开机指令,进入BIOS引导阶段并计时;
响应于在第一预设时间段内,所述BIOS的完成引导,结束计时,进入存储系统引导阶段并再次重新计时;
响应于在第二预设时间段内,所述存储系统完成引导,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测;
利用配对的两个节点之间的CPLD互相向对方发送CPLD的心跳信号;
响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启。
2.如权利要求1所述的方法,其特征在于,还包括:
响应于在所述第一预设时间段内所述BIOS引导未成功,触发断电重启。
3.如权利要求1所述的方法,其特征在于,响应于接收到开机指令,进入BIOS引导阶段并计时,进一步包括:
响应于检测到进入BIOS设置界面,停止计时,并在检测到退出所述这时界面时,继续计时。
4.如权利要求1所述的方法,其特征在于,还包括:
响应于在所述第二预设时间段内所述存储系统引导未成功,触发断电重启。
5.如权利要求1所述的方法,其特征在于,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述CPLD无法接收到所述存储系统的心跳信号,触发断电重启。
6.如权利要求1所述的方法,其特征在于,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测,进一步:
响应于所述存储系统触发预设动作,向所述CPLD发送关闭监测指令,以使所述CPLD停止对所述存储系统监测。
7.如权利要求1所述的方法,其特征在于,响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启,进一步包括:
等待第三时间段后,重新检测对方CPLD发送的心跳信号。
8.一种用于多节点系统的启动的系统,其特征在于,包括:
第一引导模块,配置为响应于接收到开机指令,进入BIOS引导阶段并计时;
第二引导模块,配置为响应于在第一预设时间段内,所述BIOS的完成引导,结束计时,进入存储系统引导阶段并再次重新计时;
监测模块,配置为响应于在第二预设时间段内,所述存储系统完成引导,将存储系统的心跳信号实时发送到CPLD以使所述CPLD根据所述存储系统的心跳信号进行监测;
发送模块,配置为利用配对的两个节点之间的CPLD互相向对方发送CPLD的心跳信号;
控制模块,配置为响应于其中一个节点的CPLD未收到对方CPLD发送的心跳信号,控制对方触发断电重启。
9.一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-7任意一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1-7任意一项所述的方法的步骤。
CN202210575978.5A 2022-05-24 2022-05-24 一种多节点系统的启动方法、系统、设备以及存储介质 Withdrawn CN114860342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210575978.5A CN114860342A (zh) 2022-05-24 2022-05-24 一种多节点系统的启动方法、系统、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210575978.5A CN114860342A (zh) 2022-05-24 2022-05-24 一种多节点系统的启动方法、系统、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN114860342A true CN114860342A (zh) 2022-08-05

Family

ID=82638481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210575978.5A Withdrawn CN114860342A (zh) 2022-05-24 2022-05-24 一种多节点系统的启动方法、系统、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114860342A (zh)

Similar Documents

Publication Publication Date Title
US7975188B2 (en) Restoration device for BIOS stall failures and method and computer program product for the same
CN113064747A (zh) 一种服务器启动过程中的故障定位方法、系统及装置
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
US7428660B2 (en) Starting control method, duplex platform system, and information processor
CN115237644B (zh) 系统故障处理方法、中央运算单元以及车辆
US20150046748A1 (en) Information processing device and virtual machine control method
CN113360347A (zh) 一种服务器及其控制方法
CN114116280A (zh) 交互式bmc自恢复方法、系统、终端及存储介质
CN114860322A (zh) 一种基板管理控制器、控制方法及电子设备
JP2015185159A (ja) コンピュータシステム及びその動作方法
WO2000051000A1 (fr) Systeme informatique et procede pour gerer les perturbations affectant un systeme informatique
CN114860342A (zh) 一种多节点系统的启动方法、系统、设备以及存储介质
US5914874A (en) Automatic application restarting system and method
CN111078452A (zh) 一种bmc固件镜像恢复方法与装置
KR102023164B1 (ko) 알티오에스 마이컴의 오에스 태스크의 모니터링 방법
CN116185510A (zh) 分区切换启动方法、阵列服务器和计算机可读存储介质
CN114237722B (zh) 一种系统的启动方法、装置、设备及工程车辆
CN110069272A (zh) 逻辑文件升级的方法和电子设备
US9529581B2 (en) Circuit and method for writing program codes of basic input/output system
CN114860292A (zh) 终端设备固件升级控制方法、装置、计算机设备及介质
JPH06318107A (ja) プログラマブルコントローラおよびそれを用いた分散制御システムにおける特定他局のリセット方法、他局のリセット要因検出方法、異常局監視方法、同期起動方法および同期停止方法
CN113238779A (zh) 一种由多模块组成的单嵌入式装置的高可靠性升级方法
JP6424134B2 (ja) 計算機システム及び計算機システムの制御方法
KR102262942B1 (ko) 무선 네트워크 시스템의 무선 브리지에 의한 게이트웨이 자가 복구방법
CN116991637B (zh) 嵌入式系统的运行控制方法及装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220805

WW01 Invention patent application withdrawn after publication