CN110928726A - 一种基于看门狗及pxe的嵌入式系统自恢复方法及系统 - Google Patents

一种基于看门狗及pxe的嵌入式系统自恢复方法及系统 Download PDF

Info

Publication number
CN110928726A
CN110928726A CN201910950262.7A CN201910950262A CN110928726A CN 110928726 A CN110928726 A CN 110928726A CN 201910950262 A CN201910950262 A CN 201910950262A CN 110928726 A CN110928726 A CN 110928726A
Authority
CN
China
Prior art keywords
pxe
watchdog
starting
equipment
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910950262.7A
Other languages
English (en)
Inventor
高险俊
陈龙
胡俊普
徐必伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongtong Lehang Network Technology (shenzhen) Co Ltd
Original Assignee
Zhongtong Lehang Network Technology (shenzhen) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongtong Lehang Network Technology (shenzhen) Co Ltd filed Critical Zhongtong Lehang Network Technology (shenzhen) Co Ltd
Priority to CN201910950262.7A priority Critical patent/CN110928726A/zh
Publication of CN110928726A publication Critical patent/CN110928726A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及网络通信技术理领域,具体涉及一种基于看门狗及PXE的嵌入式系统自恢复方法及系统,采用看门狗技术与PXE(preboot execute environment,预启动执行环境)网络启动技术相结合,看门狗程序检测到设备系统没有正常启动后,自动使用PXE网络启动技术启动到内存系统,在内存系统中开通局域网访问功能并从正常工作的设备中下载相关修复软件,修复当前设备后重新启动设备到正常工作模式。

Description

一种基于看门狗及PXE的嵌入式系统自恢复方法及系统
技术领域
本发明涉及网络通信技术领域,具体涉及一种基于看门狗及PXE的嵌入式系统自恢复方法及系统。
背景技术
由于高铁动车等轨道交通车辆的安全性要求,每天收车后都要在相应的车辆处所进行检修维护,维护过程中无可避免要进行多次随机的上电下电操作,这些上电下电操作将有一定机率导致车载设备中的存储设备如SSD产生错误,导致设备自带的操作系统无法启动,设备不能正常工作。
现有的方案中,要么使用只读存储器保证数据不改写而避免非正常掉电导致数据错误,或者采用车辆自带的UPS进行供电(安全性要求设备自身不能带UPS电池)。由于数据存储要求多种多样,不是所有设备都能只使用只读存储器;另外车辆UPS容量有限,不能接入所有的车载设备。因此需要有更方便易用的解决方案,本发明正是基于此技术背景下,用于解决设备存储出错导致系统无法启动从而设备失效的问题。
因此,为解决以上问题,需要一种基于看门狗及PXE的嵌入式系统自恢复方法及系统。
发明内容
有鉴于此,本发明的目的是克服现有技术中的缺陷,提供一种基于看门狗及PXE的嵌入式系统自恢复方法及系统,采用看门狗技术与PXE(preboot execute environment,预启动执行环境)网络启动技术相结合,看门狗程序检测到设备系统没有正常启动后,自动使用PXE网络启动技术启动到内存系统,在内存系统中开通局域网访问功能并从正常工作的设备中下载相关修复软件,修复当前设备后重新启动设备到正常工作模式。
看门狗程序直接写入主板BIOS中,它是一个只读的存储器,可避免由于异常掉电导致程序不能正常工作。PXE服务程序运行在每个设备中,进行多点备份,只要有一个设备能正常工作,同一局域网的所有设备都能自动恢复。
本发明的一种基于看门狗及PXE的嵌入式系统自恢复方法,其特征在于,所述方法步骤包括:
步骤一:设备通电,看门狗程序检测设备操作系统是否正常启动;
步骤二:如一定时间内设备操作系统未正常启动,看门狗程序控制相关元器件重新启动设备;
步骤三:看门狗程序统计设备操作系统连续启动失败次数,到达指定阈值后,看门狗程序通知设备主板的BIOS加载网卡启动固件,进入预启动执行环境PXE网络启动流程;
步骤四:局域网内正常运行的设备提供PXE服务,包括DHCP、TFTP、系统文件等;预启动执行环境PXE启动系统后,系统内置程序自动检测并下载相关修复软件,对本地设备进行存储器检测修复,并修复操作系统后重启设备;
步骤五:操作系统被修复正常启动后,启用喂狗程序通讯看门狗系统已恢复正常,并同时启动PXE服务,包括DHCP、TFTP等服务;如果系统仍未正常启动,执行步骤二。
进一步,所述设备主板的BIOS中集成看门狗程序。
进一步,所述设备操作系统与所述看门狗程序维持心跳,当心跳失效时,所述看门狗程序自动对设备重新加电。
进一步,所述PXE网络启动后自动修复存储器文件系统,并自动修复操作系统;当存储器无法修复时,网络启动的系统可直接代替原操作系统工作。
进一步,所述PXE网络启动后对系统修复成功,自动恢复设备正常的启动流程。
本发明的一种基于看门狗及PXE的嵌入式系统自恢复系统,其特征在于,包括
失败次数监测模块,实时监测机顶盒应用程序启动失败的次数并存储;
失败次数判断模块,在机顶盒重启后,控制引导加载程序首先获取失败次数并判断失败次数是否超过阈值;
自恢复模块,若失败次数超过阈值,则控制引导加载程序自动引导进入PXE网络启动系统,操作完成后将失败次数重置为0;若失败次数未超过阈值,则控制引导加载程序引导进入应用程序,如果应用程序启动失败则将失败次数加1后重启,如果应用程序完全启动,则将失败次数重置为0。
进一步,所述失败次数监测模块在所监测设备的存储设备中固定地址预留一小的存储空间,用于存放应用程序启动失败的次数。
进一步,所述失败次数判断模块统计设备每次的重启次数,然后计算平均值,将平均值设定为阈值。
进一步,所述阈值不大于5。
进一步,若失败次数超过阈值,所述自恢复模块则控制引导加载程序进入PXE网络启动系统,PXE网络启动后自动修复存储器文件系统,并自动修复操作系统;当存储器无法修复时,网络启动的系统可直接代替原操作系统工作。
本发明的有益效果是:本发明公开的一种基于看门狗及PXE的嵌入式系统自恢复方法及系统,通过采用看门狗技术与PXE(preboot execute environment,预启动执行环境)网络启动技术相结合,看门狗程序检测到设备系统没有正常启动后,自动使用PXE网络启动技术启动到内存系统,在内存系统中开通局域网访问功能并从正常工作的设备中下载相关修复软件,修复当前设备后重新启动设备到正常工作模式。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的流程示意图。
具体实施方式
图1为本发明的流程示意图,如图所示,本实施例中的一种基于看门狗及PXE的嵌入式系统自恢复方法,步骤包括:
步骤一:设备通电,看门狗程序检测设备操作系统是否正常启动;
步骤二:如一定时间内设备操作系统未正常启动,看门狗程序控制相关元器件重新启动设备;
步骤三:看门狗程序统计设备操作系统连续启动失败次数,到达指定阈值后,看门狗程序通知设备主板的BIOS加载网卡启动固件,进入预启动执行环境PXE网络启动流程;
步骤四:局域网内正常运行的设备提供PXE服务,包括DHCP、TFTP、系统文件等;预启动执行环境PXE启动系统后,系统内置程序自动检测并下载相关修复软件,对本地设备进行存储器检测修复,并修复操作系统后重启设备;
步骤五:操作系统被修复正常启动后,启用喂狗程序通讯看门狗系统已恢复正常,并同时启动PXE服务,包括DHCP、TFTP等服务;如果系统仍未正常启动,执行步骤二。
本实施例中,设备主板的BIOS中集成看门狗程序。
本实施例中,设备操作系统与所述看门狗程序维持心跳,当心跳失效时,所述看门狗程序自动对设备重新加电。
本实施例中,PXE网络启动后自动修复存储器文件系统,并自动修复操作系统;当存储器无法修复时,网络启动的系统可直接代替原操作系统工作。
本实施例中,PXE网络启动后对系统修复成功,自动恢复设备正常的启动流程。
本实施例一种基于看门狗及PXE的嵌入式系统自恢复系统,包括
失败次数监测模块,实时监测机顶盒应用程序启动失败的次数并存储;
失败次数判断模块,在机顶盒重启后,控制引导加载程序首先获取失败次数并判断失败次数是否超过阈值;
自恢复模块,若失败次数超过阈值,则控制引导加载程序自动引导进入PXE网络启动系统,操作完成后将失败次数重置为0;若失败次数未超过设定值,则控制引导加载程序引导进入应用程序,如果应用程序启动失败则将失败次数加1后重启,如果应用程序完全启动,则将失败次数重置为0。
本实施例中,所述失败次数监测模块在所监测设备的存储设备中固定地址预留一小的存储空间,用于存放应用程序启动失败的次数。
本实施例中,失败次数判断模块统计设备每次的重启次数,然后计算平均值,将平均值设定为阈值。
本实施例中,阈值不大于5。
本实施例中,若失败次数超过阈值,所述自恢复模块则控制引导加载程序进入PXE网络启动系统,PXE网络启动后自动修复存储器文件系统,并自动修复操作系统;当存储器无法修复时,网络启动的系统可直接代替原操作系统工作。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于看门狗及PXE的嵌入式系统自恢复方法,其特征在于,所述方法步骤包括:
步骤一:设备通电,看门狗程序检测设备操作系统是否正常启动;
步骤二:如一定时间内设备操作系统未正常启动,看门狗程序控制相关元器件重新启动设备;
步骤三:看门狗程序统计设备操作系统连续启动失败次数,到达指定阈值后,看门狗程序通知设备主板的BIOS加载网卡启动固件,进入预启动执行环境PXE网络启动流程;
步骤四:局域网内正常运行的设备提供PXE服务,包括DHCP、TFTP、系统文件等;预启动执行环境PXE启动系统后,系统内置程序自动检测并下载相关修复软件,对本地设备进行存储器检测修复,并修复操作系统后重启设备;
步骤五:操作系统被修复正常启动后,启用喂狗程序通讯看门狗系统已恢复正常,并同时启动PXE服务,包括DHCP、TFTP等服务;如果系统仍未正常启动,执行步骤二。
2.根据权利要求1所述的一种基于看门狗及PXE的嵌入式系统自恢复方法,其特征在于,所述设备主板的BIOS中集成看门狗程序。
3.根据权利要求1所述的一种基于看门狗及PXE的嵌入式系统自恢复方法,其特征在于,所述设备操作系统与所述看门狗程序维持心跳,当心跳失效时,所述看门狗程序自动对设备重新加电。
4.根据权利要求1所述的一种基于看门狗及PXE的嵌入式系统自恢复方法,其特征在于,所述PXE网络启动后自动修复存储器文件系统,并自动修复操作系统;当存储器无法修复时,网络启动的系统可直接代替原操作系统工作。
5.根据权利要求1所述的一种基于看门狗及PXE的嵌入式系统自恢复方法,其特征在于,所述PXE网络启动后对系统修复成功,自动恢复设备正常的启动流程。
6.一种基于看门狗及PXE的嵌入式系统自恢复系统,其特征在于,包括
失败次数监测模块,实时监测机顶盒应用程序启动失败的次数并存储;
失败次数判断模块,在机顶盒重启后,控制引导加载程序首先获取失败次数并判断失败次数是否超过阈值;
自恢复模块,若失败次数超过阈值,则控制引导加载程序自动引导进入PXE网络启动系统,操作完成后将失败次数重置为0;若失败次数未超过阈值,则控制引导加载程序引导进入应用程序,如果应用程序启动失败则将失败次数加1后重启,如果应用程序完全启动,则将失败次数重置为0。
7.根据权利要求6所述一种基于看门狗及PXE的嵌入式系统自恢复系统,其特征在于:所述失败次数监测模块在所监测设备的存储设备中固定地址预留一小的存储空间,用于存放应用程序启动失败的次数。
8.根据权利要求6所述一种基于看门狗及PXE的嵌入式系统自恢复系统,其特征在于,所述失败次数判断模块统计设备每次的重启次数,然后计算平均值,将平均值设定为阈值。
9.根据权利要求8所述的一种基于看门狗及PXE的嵌入式系统自恢复系统,其特征在于,所述阈值不大于5。
10.根据权利要求6所述一种基于看门狗及PXE的嵌入式系统自恢复系统,其特征在于,若失败次数超过阈值,所述自恢复模块则控制引导加载程序进入PXE网络启动系统,PXE网络启动后自动修复存储器文件系统,并自动修复操作系统;当存储器无法修复时,网络启动的系统可直接代替原操作系统工作。
CN201910950262.7A 2019-10-08 2019-10-08 一种基于看门狗及pxe的嵌入式系统自恢复方法及系统 Pending CN110928726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910950262.7A CN110928726A (zh) 2019-10-08 2019-10-08 一种基于看门狗及pxe的嵌入式系统自恢复方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910950262.7A CN110928726A (zh) 2019-10-08 2019-10-08 一种基于看门狗及pxe的嵌入式系统自恢复方法及系统

Publications (1)

Publication Number Publication Date
CN110928726A true CN110928726A (zh) 2020-03-27

Family

ID=69849028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910950262.7A Pending CN110928726A (zh) 2019-10-08 2019-10-08 一种基于看门狗及pxe的嵌入式系统自恢复方法及系统

Country Status (1)

Country Link
CN (1) CN110928726A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767172A (zh) * 2020-06-29 2020-10-13 深圳市宽宏科技有限公司 一种基于看门狗及bootloader的机顶盒自修复办法
CN114911650A (zh) * 2022-07-19 2022-08-16 浩鲸云计算科技股份有限公司 基于ramos系统进行可回退的安全加固的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101232397A (zh) * 2008-02-22 2008-07-30 华为技术有限公司 多控制器系统修复的方法和装置
US20080276132A1 (en) * 2007-05-02 2008-11-06 Honeywell International Inc. Microprocessor supervision in a special purpose computer system
CN103885847A (zh) * 2014-02-08 2014-06-25 京信通信系统(中国)有限公司 一种基于嵌入式系统的喂狗方法及装置
US20170322816A1 (en) * 2016-05-04 2017-11-09 American Megatrends, Inc. Bmc firmware recovery

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080276132A1 (en) * 2007-05-02 2008-11-06 Honeywell International Inc. Microprocessor supervision in a special purpose computer system
CN101232397A (zh) * 2008-02-22 2008-07-30 华为技术有限公司 多控制器系统修复的方法和装置
CN103885847A (zh) * 2014-02-08 2014-06-25 京信通信系统(中国)有限公司 一种基于嵌入式系统的喂狗方法及装置
US20170322816A1 (en) * 2016-05-04 2017-11-09 American Megatrends, Inc. Bmc firmware recovery

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767172A (zh) * 2020-06-29 2020-10-13 深圳市宽宏科技有限公司 一种基于看门狗及bootloader的机顶盒自修复办法
CN114911650A (zh) * 2022-07-19 2022-08-16 浩鲸云计算科技股份有限公司 基于ramos系统进行可回退的安全加固的方法和系统
CN114911650B (zh) * 2022-07-19 2022-10-18 浩鲸云计算科技股份有限公司 基于ramos系统进行可回退的安全加固的方法和系统

Similar Documents

Publication Publication Date Title
CN102385535B (zh) 处理从非易失性存储器进行设备引导期间的错误
US20240012706A1 (en) Method, system and apparatus for fault positioning in starting process of server
CN100517246C (zh) 一种计算机远程控制方法及系统
CN105930236A (zh) 一种基于BMS Bootloader升级的应用程序版本回退方法
CN113064757B (zh) 一种服务器固件自恢复系统及服务器
CN103513993A (zh) 固件更新系统及方法
CN109032632A (zh) 一种fota升级方法、无线通信终端及存储介质
US11314665B2 (en) Information processing system, information processing device, BIOS updating method for information processing device, and BIOS updating program for information processing device
CN101556547A (zh) 一种安全远程升级嵌入式Linux内核的方法及系统
CN104915226A (zh) 一种网络设备软件启动方法、装置及网络设备
CN111767172A (zh) 一种基于看门狗及bootloader的机顶盒自修复办法
CN112612524A (zh) Linux系统启动的方法、装置、设备及存储介质
CN108345464A (zh) 一种安卓系统的启动方法及安卓车机
CN111552592A (zh) 一种双备份启动方法及系统
CN103970564A (zh) 嵌入式操作系统自动修复升级功能的方法及其系统
CN109582332B (zh) 互联网摄像机的系统升级方法及装置
CN103902399A (zh) 软件系统修复处理方法及装置
CN110928726A (zh) 一种基于看门狗及pxe的嵌入式系统自恢复方法及系统
CN112433769A (zh) 一种bmc启动方法、装置、计算机设备及存储介质
CN113934471A (zh) 计算机系统的基板管理控制器和启动方法
CN111124749A (zh) 紧耦合高性能计算机系统bmc系统自动修复方法及修复系统
US11740969B2 (en) Detecting and recovering a corrupted non-volatile random-access memory
KR100832269B1 (ko) 무선 통신 단말의 프로그램 갱신 방법 및 시스템
CN112394965A (zh) 电池管理系统升级和运行方法,控制器,电池管理系统及存储介质
US9529581B2 (en) Circuit and method for writing program codes of basic input/output system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327

RJ01 Rejection of invention patent application after publication