CN118409908A - 协处理器、主处理器、宕机检测方法和电子设备 - Google Patents

协处理器、主处理器、宕机检测方法和电子设备 Download PDF

Info

Publication number
CN118409908A
CN118409908A CN202310103009.4A CN202310103009A CN118409908A CN 118409908 A CN118409908 A CN 118409908A CN 202310103009 A CN202310103009 A CN 202310103009A CN 118409908 A CN118409908 A CN 118409908A
Authority
CN
China
Prior art keywords
response
processor
handshake request
coprocessor
downtime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310103009.4A
Other languages
English (en)
Inventor
严利根
葛士建
吕子豪
彭亮
张宇
王剑
聂海涛
李琛琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202310103009.4A priority Critical patent/CN118409908A/zh
Priority to PCT/CN2024/071883 priority patent/WO2024156257A1/zh
Priority to US18/417,955 priority patent/US20240256373A1/en
Publication of CN118409908A publication Critical patent/CN118409908A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开的实施例涉及协处理器、主处理器、宕机检测方法和电子设备。在该方法中,协处理器向能够运行操作系统的主处理器发送握手请求。主处理器执行握手请求所触发的操作。如果操作成功,主处理器向协处理器发送针对握手请求的肯定响应;如果操作失败,主处理器向协处理器发送针对握手请求的否定响应或不发送响应。协处理器监测来自主处理器的针对握手请求的响应,并且至少基于对该响应的监测结果,确定与操作系统相关联的硬件宕机的检测结果。由此,可以有利地实现准确可靠的硬件宕机检测。

Description

协处理器、主处理器、宕机检测方法和电子设备
技术领域
本公开的示例实施例总体涉及计算机领域,特别地涉及协处理器、主处理器、宕机检测方法和电子设备。
背景技术
随着信息技术的发展,具有运行操作系统的能力的各类处理器可以被应用于多种多样的场景。宕机是指操作系统无法从一个严重系统错误中恢复过来或系统硬件层面出问题,以致系统长时间无响应而不得不重新启动计算机的现象。根据造成宕机的原因,宕机可以分为软件宕机和硬件宕机。期望能够准确地检测宕机。
发明内容
在本公开的第一方面,提供了一种协处理器。该协处理器包括:至少一个电路,至少一个电路被配置为:向第一主处理器发送第一握手请求,第一主处理器具有运行操作系统的能力;监测来自第一主处理器的针对第一握手请求的第一响应;以及至少基于对第一响应的监测结果,确定与操作系统相关联的硬件宕机的检测结果。
在本公开的第二方面,提供了一种主处理器。该主处理器具有运行操作系统的能力,并且包括:至少一个电路,至少一个电路被配置为:从协处理器接收握手请求;执行握手请求所触发的操作;以及基于操作的结果,向协处理器发送针对握手请求的响应,以供协处理器检测与操作系统相关联的硬件宕机。
在本公开的第三方面,提供了一种宕机检测方法。该方法包括:在协处理器处向第一主处理器发送第一握手请求,第一主处理器具有运行操作系统的能力;监测来自第一主处理器的针对第一握手请求的第一响应;以及至少基于对第一响应的监测结果,确定与操作系统相关联的硬件宕机的检测结果。
在本公开的第四方面,提供了一种宕机检测方法。该方法包括:在主处理器处从协处理器接收握手请求;执行握手请求所触发的操作;以及基于操作的结果,向协处理器发送针对握手请求的响应,以供协处理器检测与操作系统相关联的硬件宕机。
在本公开的第五方面,提供了一种电子设备。该电子设备至少包括第一方面的协处理器,以及至少一个第二方面的主处理器。
在本公开的第六方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序可由协处理器执行以实现第三方面的方法。
在本公开的第七方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序可由主处理器执行以实现第四方面的方法。
应当理解,本内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的实施例的用于宕机检测的信令流的示意图;
图3示出了根据本公开的一些实施例的针对单个主处理器的硬件宕机检测的示例信令流的示意图;
图4示出了根据本公开的一些实施例的针对单个主处理器的硬件宕机检测的另一示例信令流的示意图;
图5示出了根据本公开的一些实施例的针对多个主处理器的硬件宕机检测的示例信令流的示意图;
图6示出了根据本公开的一些实施例的针对多个主处理器的硬件宕机检测的另一示例信令流的示意图;
图7示出根据本公开的一些实施例的在协处理器处实现的用于宕机检测的过程的流程图;
图8示出根据本公开的一些实施例的在主处理器处实现的用于宕机检测的过程的流程图;以及
图9示出了可以包括根据本公开的多个实施例的协处理器和主处理器的设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
本公开的实施例中可能涉及用户的数据、数据的获取和/或使用等。这些方面均遵循相应的法律法规及相关规定。在本公开的实施例中,所有数据的采集、获取、处理、加工、转发、使用等,都是在用户知晓并且确认的前提下进行的。相应地,在实现本公开的各实施例时,均应根据相关法律法规通过适当的方式,将可能所涉及的数据或信息的类型、使用范围、使用场景等告知用户并获得用户的授权。具体的告知和/或授权方式可以根据实际情况和应用场景而变化,本公开的范围在此方面不受限制。
本说明书及实施例中所述方案,如涉及个人信息处理,则均会在具备合法性基础(例如征得个人信息主体同意,或者为履行合同所必需等)的前提下进行处理,且仅会在规定或者约定的范围内进行处理。用户拒绝处理基本功能所需必要信息以外的个人信息,不会影响用户使用基本功能。
如前文所简要提及的,操作系统有时会出现宕机的情况。传统上,一种宕机检测的方案是人为查看操作系统是否正常运行的方式。然而,这种方案所需的人力成本过高且无法做到硬件宕机的检测。随着技术的发展,出现了软件宕机检测方案。通过部署在操作系统层面的软件宕机检测(例如基于ping访问检测)来判断操作系统是否处于宕机状态。具体地,当操作系统无法响应检测设备发出的ping指令时可以断定该操作系统处于宕机状态。然而,软件宕机检测受到较多其他因素的影响。例如,当检测设备处于网络连接不稳定状态时或者操作系统在执行某个紧急事件时,操作系统也无法响应检测设备发出ping指令。在这种情况下,操作系统被误检测为处于宕机状态,即出现假性宕机。因此,软件宕机检测方案无法做到实时检测,并且可能出现假性宕机。因假性宕机而重启设备则可能引起巨大的损失。这些传统方案不能进行硬件宕机检测。
本公开的实施例提出了一种宕机检测的方案。根据该公开的实施例,协处理器对运行操作系统的主处理器进行握手来实现硬件宕机检测。具体地,协处理器向主处理器发送握手请求。主处理器响应于握手请求,执行握手请求所触发的操作。根据操作的执行情况,主处理器向协处理器发送响应或不进行响应。协处理器监测主处理器的响应,并且根据监测结果确定与操作系统相关联的硬件宕机的检测结果。
在本公开的实施例中,可以利用处于同一设备(例如,同一芯片)内的主处理器和协处理器之间的交互,实现硬件宕机检测。以此方式,可以有利地实现准确可靠的硬件宕机检测。
示例环境和握手机制
图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。如图1所示,环境100可以包括协处理器110和至少一个处理器,诸如主处理器120-1、120-2、120-3、……、120-N,其也统称或单独称为主处理器120,其中N是大于等于1的正整数。
主处理器120可以包括任何适当类型的处理器,包括但不限于中央处理器、图像处理器、神经网络处理器和和基带芯片等中的一种或几种的组合。在本公开的实施例中,主处理器120具有运行操作系统的能力,也即能够运行操作系统。特别地,每个主处理器120能够单独运行操作系统。主处理器120包括至少一个电路,该至少一个电路被配置为执行下文相对于主处理器而描述的操作。例如,该至少一个电路被配置为接收协处理器110发送的握手请求并执行相应操作,以及向协处理器110发送针对握手请求的响应。
协处理器110可以协助主处理器120完成其无法执行或执行效率、效果低下的处理工作,例如设备间的信号传输、接入设备的管理、图形处理以及声频处理等。协处理器110还可以与主处理器120交互。在本公开的实施例中,协处理器110包括至少一个电路,该至少一个电路被配置为执行下文相对于协处理器所描述的操作。例如,该至少一个电路被配置为向主处理器120发送握手请求,并根据来自主处理器120的响应的监测结果确定与操作系统相关联的硬件宕机的检测结果。
在本公开的实施例中,协处理器110和主处理器120之间可以通过任何适当的连接进行通信。在一些实施例中,协处理器110与主处理器120之间可以通过共享存储器通信机制、Mailbox硬件通信机制、DMA数据搬运通信机制、串口主从模式通信机制和硬线连接等方式建立通信连接。协处理器110与主处理器120可以通过二者之间建立的通信连接实现信令交互。应当理解,主处理器120和协处理器110可以被实现在同一电子设备中,例如同一芯片内。与需要通过网络或使用网卡进行通信的情况相比,在这种情况下主处理器120与协处理器110之间的通信的干扰因素大大减少,因而更为可靠。这有利于硬件宕机的正确检测。
在一些实施例中,电子设备可以包括协处理器110和至少一个主处理器120。附加地,在一些实施例中,电子设备还可以包括中断控制器。
在一些实施例中,协处理器110发送的握手请求可以包括用于触发主处理器120执行中断处理的中断信号。在这种实施例中,环境100还可以包括中断控制器。协处理器110可以将握手请求发送至中断控制器,进而中断控制器将握手请求转发给主处理器120。
在一些实施例中,中断控制器可以将来自协处理器110的用于宕机检测的握手请求设置为优先级最高的中断信号。即中断控制器在接收到多个中断信号时,可以优先将握手请求转发给主处理器120。
在一些实施例中,中断控制器可以控制将来自协处理器110的握手请求转发给多个主处理器120中的哪一个主处理器。例如,在由主处理器120-1运行中断处理任务的情况下,中断控制器可以将握手请求转发给主处理器120-1。在由主处理器120-2运行中断处理任务的情况下,中断控制器将握手请求转发给主处理器120-2。
应当理解,仅出于示例性的目的描述环境100的结构和功能,而不暗示对于本公开的范围的任何限制。
图2示出了根据本公开的实施例的用于宕机检测的信令流200的示意图。信令流200涉及环境100中的协处理器110和主处理器120。主处理器120可以是图1所示的主处理器120-1、120-2、120-3、……、120-N中的任一个。
在信令流200中,协处理器110向主处理器120发送(205)握手请求。该握手请求可以用于触发主处理器执行一个或多个操作。在一些实施例中,该握手情况可以用于触发主处理器120执行中断处理。备选地或附加地,该握手请求可以用于确定主处理器120是否存在正在执行的程序、操作、线程、进程、指令等。
该握手请求可以是周期地或定期地发送地。例如,协处理器110可以通过定时器或启动任务机制定时向主处理器120发送握手请求。协处理器110可以通过与主处理器120之间的直接连接向主处理器120发送握手请求,或者可以通过控制器(诸如中断控制器)将握手请求转发给主处理器。
相应地,主处理器120直接地或通过转发从协处理器110接收(210)握手请求。主处理器120执行(215)该握手请求所触发的操作。在一些实施例中,如果握手请求包括用于触发主处理器120执行中断处理的中断信号,在接收到握手请求后,主处理器120可以暂时中断当前正在执行的操作而转去对中断信号进行处理。换言之,在接收到握手请求后,主处理器120可以进入对应的中断函数中对中断信号进行处理。在一些实施例中,如果握手请求用于确定主处理器120是否存在正在执行的程序、操作、线程、进程、指令等,在接收到握手请求后,主处理器120可以确定自身是否存在正在执行的程序、操作、线程、进程、指令等。
在一些实施例中,主处理器120可以基于操作的结果,向协处理器110发送(220)针对握手请求的响应,以供协处理器110检测与操作系统相关联的硬件宕机。在一些实施例中,如果主处理器120无法执行或无法完成握手请求所触发的操作,主处理器120可以不向协处理器110发送任何响应。
在一些实施例中,如果握手请求用于触发主处理器120执行中断处理,主处理器120可以基于是否成功执行中断处理来向协处理器110发送不同的响应。例如,如果成功执行中断处理,主处理器120可以向协处理器110发送(220)指示肯定反馈的响应,其也称为“肯定响应”。如果执行中断处理失败,主处理器120可以向协处理器110发送指示否定反馈的响应(其也称为否定响应),或者可以不发送任何响应。肯定响应例如可以是预定的应答信号,而否定响应可以是与预定的应答信号不同的错误应答信号。例如,应答信号可以是高电平信号,而错误应答信号可以是低电平信号。但这仅是示例,本公开的实施例在此方面不受限制。能否执行中断处理可以比较准确地反映主处理器的状态。因此,在这种实施例中,通过触发中断处理,可以进一步提高硬件宕机检测的准确性。
在一些实施例中,如果握手请求用于确定主处理器120是否存在正在执行的程序、操作、线程、进程、指令等,主处理器120可以确定正在执行的程序、操作、线程、进程、指令等的数目。如果该数目大于或等于阈值数目(诸如,1),主处理器120可以向协处理器110发送肯定响应。如果该数目小于阈值数目,主处理器120可以向协处理器110发送否定响应或者不发送任何响应。
响应于握手请求的发送,协处理器110监测来自主处理器120的针对握手请求的响应。在一些实施例中,为保证宕机检测的效率,协处理器110可以设置监测的时长阈值。协处理器110向主处理器120发送握手请求后开始计时,并在时长达到时长阈值的情况下,不再监测来自主处理器120的针对握手请求的响应。例如,响应于握手请求的发送,协处理器110可以启动计时器以监测针对握手请求的响应。
至少基于对响应的监测结果,协处理器110确定(230)与操作系统相关联的硬件宕机的检测结果。也即,根据是否接收到响应和响应的具体内容,可以检测与操作系统相关联的硬件宕机。
如果接收到肯定响应(例如,应答信号),可以确定主处理器120未处于宕机状态。这意味着至少存在一个能够运行操作系统的处理器。相应地,可以确定未检测到硬件宕机。
如果接收到否定响应(例如,错误应答信号),则意味着主处理器可能处于宕机状态。如果协处理器110在一段时间内未接收到针对握手请求的响应,也意味着主处理器120可能处于宕机状态。例如,用于监测响应的计时器已到期,而未接收到针对握手请求的响应,可以意味着主处理器120可能处于宕机状态。在一些实施例中,可以进一步确认主处理器120是否处于宕机状态,例如,如下文参考图4所描述的。如果确认主处理器120处于宕机状态,取决于能够运行操作系统的主处理器的数目,可以使用不同的检测策略来确定硬件宕机的检测结果,例如,如下文参考图4和图6所描述的。
以上参考图2描述了利用主协处理器之间的握手来检测硬件宕机的总体过程。下面来描述针对不同数目主处理器的检测策略。
针对单个主处理器的握手机制
在一些实施例中,可以存在能够运行操作系统的单个主处理器。在这种实施例中,该主处理器的宕机将引起操作系统的宕机。图3示出了根据本公开的一些实施例的针对单个主处理器的硬件宕机检测的示例信令流300的示意图。作为示例,信令流300涉及环境100中的协处理器110和一个主处理器120-1。在该示例中,N=1,也即仅主处理器120-1能够运行操作系统。在图3的示例中,以握手请求触发中断操作为例进行说明,也即握手请求可以是中断信号。但这仅是示例性的,并且适用于握手请求所触发的其他类型操作。
在信令流300中,协处理器110向主处理器120-1发送(305)握手请求,在该示例中可以为中断信号。响应于握手请求的发送,协处理器110可以监测针对该握手请求的响应。
主处理器120-1接收(310)该握手请求,并执行(315)握手请求所指示的中断处理。例如,主处理器120-1在接收到握手请求后,进入对应的中断处理函数。在该示例中,主处理器120-1成功执行中断处理。相应地,主处理器120-1向协处理器110发送(320)肯定响应,例如预定的应答信号。
协处理器110接收(325)肯定响应。有鉴于接收到肯定响应,协处理器110确定主处理器120-1未处于宕机状态。由于主处理器120-1具有运行操作系统的能力,协处理器110确定(330)未检测到硬件宕机。
以上描述了肯定响应的情况。如上文参考图2所简要提及的,如果协处理器110接收到否定响应或在一段时间内(例如,在计时器过期前)未接收到响应,则可以确定主处理器120可能处于宕机状态。
在一些实施例中,为进一步确保检测结果的准确性,协处理器110可以向主处理器120重新发送握手请求。协处理器110进而可以监测来自主处理器120的针对本次握手请求的响应(也称为第二响应)。进而基于第二响应的监测结果,确定硬件宕机的检测结果。
如果第二响应是肯定响应,则可以确定主处理器120未处于宕机状态,从而未发生硬件宕机。如果第二响应是否定响应,或者在一段时间内未接收到第二响应,则可以确定主处理器120处于宕机状态。在单个主处理器210能够运行操作系统的情况下,协处理器110可以基于主处理器120处于宕机状态,确定检测到硬件宕机。
参考图4描述这样的一个示例。图4示出了根据本公开的一些实施例的针对单个主处理器的硬件宕机检测的信令流400的示意图。作为示例,信令流400涉及环境100中的协处理器110和一个主处理器120-1。在该示例中,N=1,也即仅主处理器120-1能够运行操作系统。在图4的示例中,以握手请求触发中断操作为例进行说明,也即握手请求可以是中断信号。但这仅是示例性的,并且适用于握手请求所触发的其他类型操作。
在信令流400中,协处理器110向主处理器120-1发送(405)握手请求,在该示例中可以为中断信号。响应于握手请求的发送,协处理器110可以监测针对该握手请求的响应。
主处理器120-1接收(410)该握手请求,并执行握手请求所指示的中断处理。例如,主处理器120-1在接收到握手请求后,进入对应的中断处理函数。在该示例中,主处理器120-1执行中断处理失败(415),例如无法中断跳转或跳转错误。相应地,主处理器120-1向协处理器110发送(420)否定响应或者不发送响应。
协处理器110接收(425)否定响应,或者未监测到响应(例如,等待超时,在图中示出为无响应)。为了确认主处理器的状态,协处理器110向主处理器120-1重新发送(430)握手请求。主处理器120-1接收(435)该重新发送的握手请求,并执行握手请求所指示的中断处理。在该示例中,主处理器120-1再次执行中断处理失败(440),例如无法中断跳转或跳转错误。相应地,主处理器120-1向协处理器110发送(445)否定响应(诸如,错误应答信号)或者不发送响应。
协处理器110接收(450)否定响应,或者未监测到响应(例如,等待超时)。有鉴于再次接收到否定响应或响应超时,协处理器110可以确定主处理器120-1处于宕机状态。由于单个主处理器120-1能够运行操作系统,协处理器110可以确定(455)检测到硬件宕机。
以上结合图3和图4描述了仅包括一个主处理器120-1的若干实施例。
针对多个主处理器的握手机制
在一些实施例中,可以存在多个主处理器120,且多个主处理器120各自具有运行操作系统的能力。例如,随着芯片制造工艺的不断进步,多处理器芯片在芯片市场中越来越多,并且多处理器芯片中每个主处理器均能够独立运行整个操作系统。
在多处理器芯片运行操作系统的场景下,操作系统宕机时并不意味着芯片内所有处理器都处于宕机状态,很可能部分处理器依然能够稳定运行系统任务,因此通过上文提及的软件宕机检测虽然能够检测操作系统是否正常运行,但是无法做到对整个芯片的硬件宕机状态进行检测。
与之相比,在本公开的一些实施例中,利用主处理器与协处理器之间的握手机制,不仅能够确定整体的硬件宕机状态,而且能够确定各个主处理器的宕机状态。
在具有多个主处理器的实施例中,协处理器的握手机制也可以相应调整。例如,多个主处理器中的一个主处理器可以被指定为与协处理110进行握手以检测硬件宕机。这样的主处理器也可以称为目标处理器。仍以中断作为示例,多处理器芯片可以采用某个主处理器来执行中断处理任务。当该主处理器发生故障或被关闭时,中断处理任务可以由另外的主处理器来执行。相应地,协处理器110可以与另外的主处理器进行握手以进行硬件宕机检测。
在一些实施例中,如果原本负责与协处理器110进行握手的主处理器被禁用,转而由另一主处理器负责握手,则协处理器110可以切换成向该另一主处理器发送握手请求。协处理器110进而可以监测来自该另一主处理器的针对握手请求的响应,并至少基于对该响应的监测结果,确定硬件宕机的检测结果。
参考图5,图5示出了根据本公开的一些实施例的针对多个主处理器的硬件宕机检测的示例信令流500的示意图。信令流500涉及环境100中的协处理器110、主处理器120-1和主处理器120-2。在该示例中,N大于等于2,也即存在至少两个能够运行操作系统的主处理器。在图5的示例中,以握手请求触发中断操作为例进行说明,也即握手请求可以是中断信号。但这仅是示例性的,并且适用于握手请求所触发的其他类型操作。
在信令流500中,初始地,由主处理器120-1负责执行终端处理任务。协处理器110向主处理器120-1发送(505)握手请求。主处理器120-1接收(510)握手请求,并且执行中断处理。在该示例中,终端处理成功。相应地,主处理器120-1向协处理器110发送(515)肯定响应。协处理器110接收(520)来自主处理器120-1的肯定响应,从而可以确定主处理器120-1未处于宕机状态。在这种情况下,至少主处理器120-1能够运行操作系统,因而未出现硬件宕机。
后续地,主处理器120-1被禁用,并且中断处理任务被迁移至主处理器120-2。例如,操作系统关闭主处理器120-1,并且将中断处理任务迁移至主处理器120-2。相应地,协处理器110切换成与主处理器120-2握手以进行硬件宕机检测。例如,在存在中断控制器的情况下,中断控制器中存储的用于中断处理的主处理器的标识可以被设置成主处理器120-2的标识。具体地,协处理器110向主处理器120-2发送(525)握手请求,并监测来自主处理器120-2的针对握手请求的响应。协处理器110可以基于对该响应的监测结果确定主处理器120-2是否处于宕机状态,从而进行硬件宕机检测。
在图5的示例中,主处理器120-2接收(530)握手请求,并且执行中断处理。在中断处理成功的情况下,主处理器120-2向协处理器110发送(535)肯定响应。协处理器110接收(540)该肯定响应,从而确定未出现硬件宕机。后续地,协处理器110继续与主处理器120-2握手以进行硬件宕机检测。
以上描述了目标主处理器切换的示例过程。在多处理器情况下,如果原本进行握手的主处理器处于宕机状态,协处理器110可以主动切换进行握手的主处理器。
在一些实施例中,如果确定主处理器120-1处于宕机状态,协处理器110可以向除主处理器120-1之外的其他主处理器(例如主处理器120-2至120-N)发送握手请求,以确定其他主处理器是否处于宕机状态。如果其他主处理器120均处于宕机状态,可以确定检测到硬件宕机。如果协处理器110接收到来自某一主处理器(例如主处理器120-3)的肯定响应,协处理器110可以将该主处理器标识为握手的目标主处理器。后续地,协处理器110可以与该主处理器握手以检测硬件宕机。
在一些实施例中,为了避免多次目标主处理器而导致程序或操作的运行受到影响,协处理器110在确定某个主处理器未处于宕机状态后,将不再向其他主处理器发送握手请求。直到该处理器被禁用或者处于宕机状态,协处理器110才会继续向其他主处理器发送握手请求。
参考图6描述一个示例。图6示出了根据本公开的一些实施例的针对多个主处理器的硬件宕机检测的另一示例信令流600的示意图。信令流600涉及环境100中的协处理器110和主处理器120-1至主处理器120-N。多个主处理器120各自具有运行操作系统的能力。
在信令流600中,协处理器110向主处理器120-1发送(603)握手请求。主处理器120-1接收(606)握手请求并且执行中断处理失败。相应地,主处理器120-1向协处理器110发送(609)否定响应或不发送响应。协处理器110接收(612)否定响应或未接收到响应。为进一步确认主处理器120-1的状态,协处理器110向主处理器120-1发送(615)握手请求。主处理器120-1接收(618)握手请求并且执行中断处理失败。相应地,主处理器120-1向协处理器110发送(621)否定响应或不发送响应。协处理器110接收(324)否定响应或未接收到响应,从而确定主处理器120-1处于宕机状态。
协处理器110自动轮询与其他处理器握手。如图6所示,协处理器110向主处理器120-2发送(627)握手请求。主处理器120-2接收(630)握手请求并且执行中断处理失败。相应地,主处理器120-2向协处理器110发送(633)否定响应或不发送响应。协处理器110接收(636)到否定响应或未接收到响应,从而确定主处理器120-2处于宕机状态。在这种实施例中,由于已经确定主处理器120-1处于宕机状态,可以不对处理器120-2进行进一步确认,也即可以不再次发送握手请求。
协处理器110继续自动轮询。具体地,协处理器110向主处理器120-3发送(639)握手请求。主处理器120-3接收(642)握手请求并且执行中断处理成功。相应地,主处理器120-3向协处理器110发送(645)肯定响应。协处理器110接收(648)肯定响应,从而确定主处理器120-3未处于宕机状态。相应地,协处理器110将主处理器120-3标识(651)为目标主处理器。例如,协处理器110可以将中断控制器中存储的用于中断处理任务的主处理器的标识修改为主处理器120-3的标识。
后续地,协处理器110将主处理器120-3作为握手的目标主处理器,来进行硬件宕机检测。在后续检测过程中,协处理器110向主处理器120-3发送(654)握手请求。主处理器120-3接收(657)握手请求并且执行中断处理失败。相应地,主处理器120-3向协处理器110发送(660)否定响应或不发送响应。协处理器110接收(663)否定响应或未接收到响应,从而确定主处理器120-3处于宕机状态。相应地,协处理器110取消将主处理器120-3标识为目标主处理器,并继续自动轮询,以向剩余的主处理器发送握手请求。
如果在轮询过程中,没有主处理器反馈肯定响应,意味着多个主处理器120均处于宕机状态。相应地,协处理器110确定(666)与操作系统相关联的硬件宕机的检测结果,在该示例确定出现硬件宕机。例如,如果在自动轮询握手过程中没有主处理器响应协处理器发出的握手请求,则认为多处理器芯片内的所有处理器已全部发送宕机,整个芯片硬件宕机。
在一些实施例中,在确定检测结果后,协处理器110可以将检测结果提供给其他的处理器,以便其他处理器执行后续处理。
在以上描述的实施例中,对于多个主处理器的情况,协处理器110在确定某个主处理器未处于宕机状态后,将不再向其他主处理器发送握手请求。但这不是不需的。备选地,在一些实施例中,为了确定多个主处理器120各自是否处于宕机状态,协处理器110可以依次向所有主处理器120发送握手请求,以确定多个主处理器120各自的状态。也即,确定哪个或哪些主处理器处于宕机状态,哪个或哪些主处理器未处于宕机状态。
根据本公开实施例的硬件宕机检测方案能够有效的快速识别处理器硬件宕机。特别地,在多处理器芯片应用中能够更好的识别整个芯片是否处于彻底宕机状态,为操作系统假死或者软件宕机提供了更全面的宕机检测。
示例过程
图7示出根据本公开的一些实施例的用于宕机检测的过程700的流程图。过程700可以在协处理器110处实现。为便于讨论,将参考图1的环境100来描述过程700。
在框710,协处理器110向第一主处理器发送第一握手请求,第一主处理器具有运行操作系统的能力。第一主处理器可以是图1中的任一主处理器。
在框720,协处理器110监测来自第一主处理器的针对第一握手请求的第一响应。
在框730,协处理器110至少基于对第一响应的监测结果,确定与操作系统相关联的硬件宕机的检测结果。
在一些实施例中,确定检测结果包括:响应于接收到第一响应并且第一响应指示肯定反馈,确定未检测到硬件宕机。
在一些实施例中,确定检测结果包括:响应于接收到第一响应并且第一响应指示否定反馈,和/或在一段时间内未接收到第一响应,向第一主处理器重新发送第一握手请求;监测来自第一处理器的针对重新发送的第一握手请求的第二响应;响应于接收到第二响应并且第二响应指示否定反馈,和/或在一段时间内未接收到第二响应,确定第一主处理器处于宕机状态;以及至少基于第一主处理器处于宕机状态,确定检测到硬件宕机。
在一些实施例中,确定检测到硬件宕机包括:确定多个主处理器中除第一主处理器之外的其他主处理器是否处于宕机状态,多个主处理器各自具有运行操作系统的能力;以及响应于确定其他主处理器处于宕机状态,确定检测到硬件宕机。
在一些实施例中,确定其他主处理器是否处于宕机状态包括:向多个主处理器中的第二主处理器发送第二握手请求,第二主处理器不同于第一主处理器;监测来自第二主处理器的针对第二握手请求的第三响应;响应于接收到第三响应并且第三响应指示否定反馈,和/或在一段时间内未接收到第三响应,确定第二主处理器处于宕机状态。
在一些实施例中,确定检测结果包括:响应于基于监测结果确定第一主处理器处于宕机状态,向不同于第一主处理器的第三处理器发送第三握手请求;响应于接收到来自第三处理器的针对第三握手请求的肯定响应,将第三处理器标识为握手的目标主处理器;向第三处理器再次发送第三握手请求;监测来自第三主处理器的针对再次发送的第三握手请求的第四响应;以及进一步基于对第四响应的监测结果,确定检测结果。
在一些实施例中,过程700还包括:响应于第一主处理器被禁用,向第四主处理器发送第四握手请求,而禁用向第一主处理器发送第一握手请求;监测来自第四主处理器的针对第四握手请求的第五响应;以及至少基于对第五响应的监测结果,确定检测结果。
在一些实施例中,第一握手请求用于触发第一主处理器执行中断处理。
图8示出根据本公开的一些实施例的用于宕机检测的过程800的流程图。过程800可以在图1所示的任一主处理器120处实现。为便于讨论,将参考图1的环境100来描述过程800。
在框810,主处理器120从协处理器110接收握手请求。
在框820,主处理器120执行握手请求所触发的操作。
在框830,主处理器120基于操作的结果,向协处理器110发送针对握手请求的响应,以供协处理器110检测与操作系统相关联的硬件宕机。
在一些实施例中,握手请求用于触发主处理器120执行中断处理,并且发送响应包括:响应于中断处理被成功执行,向协处理器110发送指示肯定反馈的肯定响应;以及响应于中断处理失败,向协处理器110发送指示否定反馈的否定响应。
示例设备
图9示出了其中可以包括根据本公开的一个或多个实施例的协处理器110和主处理器120的电子设备900的框图。应当理解,图9所示出的电子设备900仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。
如图9所示,电子设备900是通用电子设备或计算设备的形式。电子设备900的组件可以包括但不限于一个或多个处理器或处理单元910、存储器920、存储设备930、一个或多个通信单元940、一个或多个输入设备950以及一个或多个输出设备960。处理单元910可以是实际或虚拟处理器并且能够根据存储器920中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高电子设备900的并行处理能力。
电子设备900通常包括多个计算机存储介质。这样的介质可以是电子设备900可访问的任何可以获取的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器920可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备930可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在电子设备900内被访问。
电子设备900可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图9中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器920可以包括计算机程序产品925,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
通信单元940实现通过通信介质与其他电子设备进行通信。附加地,电子设备900的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,电子设备900可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
输入设备950可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备960可以是一个或多个输出设备,例如显示器、扬声器、打印机等。电子设备900还可以根据需要通过通信单元940与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与电子设备900交互的设备进行通信,或者与使得电子设备900与一个或多个其他电子设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被协处理器执行以实现上文参考协处理器110描述的方法或过程。根据本公开的示例性实现方式,还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被协处理器执行以实现上文参考主处理器120描述的方法或过程。根据本公开的示例性实现方式,提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文参考协处理器110描述的方法或过程。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文参考主处理器120描述的方法或过程。
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims (20)

1.一种协处理器,包括:
至少一个电路,所述至少一个电路被配置为:
向第一主处理器发送第一握手请求,所述第一主处理器具有运行操作系统的能力;
监测来自所述第一主处理器的针对所述第一握手请求的第一响应;以及
至少基于对所述第一响应的监测结果,确定与所述操作系统相关联的硬件宕机的检测结果。
2.根据权利要求1所述的协处理器,其中确定所述检测结果包括:
响应于接收到所述第一响应并且所述第一响应指示肯定反馈,确定未检测到所述硬件宕机。
3.根据权利要求1所述的协处理器,其中确定所述检测结果包括:
响应于以下之一,向所述第一主处理器重新发送所述第一握手请求:
接收到所述第一响应并且所述第一响应指示否定反馈,或
在一段时间内未接收到所述第一响应;
监测来自所述第一处理器的针对重新发送的所述第一握手请求的第二响应;
响应于以下之一,确定所述第一主处理器处于宕机状态:
接收到所述第二响应并且所述第二响应指示否定反馈,或
在一段时间内未接收到所述第二响应;以及
至少基于所述第一主处理器处于宕机状态,确定检测到所述硬件宕机。
4.根据权利要求3所述的协处理器,其中确定检测到所述硬件宕机包括:
确定多个主处理器中除所述第一主处理器之外的其他主处理器是否处于宕机状态,所述多个主处理器各自具有运行所述操作系统的能力;以及
响应于确定所述其他主处理器处于宕机状态,确定检测到所述硬件宕机。
5.根据权利要求4所述的协处理器,其中确定所述其他主处理器是否处于宕机状态包括:
向所述多个主处理器中的第二主处理器发送第二握手请求,所述第二主处理器不同于所述第一主处理器;
监测来自所述第二主处理器的针对所述第二握手请求的第三响应;
响应于以下之一,确定所述第二主处理器处于宕机状态:
接收到所述第三响应并且所述第三响应指示否定反馈,或
在一段时间内未接收到所述第三响应。
6.根据权利要求1所述的协处理器,其中确定所述检测结果包括:
响应于基于所述监测结果确定所述第一主处理器处于宕机状态,向不同于所述第一主处理器的第三处理器发送第三握手请求;
响应于接收到来自所述第三处理器的针对所述第三握手请求的肯定响应,将所述第三处理器标识为握手的目标主处理器;
向所述第三处理器再次发送所述第三握手请求;
监测来自所述第三主处理器的针对再次发送的所述第三握手请求的第四响应;以及
进一步基于对所述第四响应的监测结果,确定所述检测结果。
7.根据权利要求1所述的协处理器,其中所述至少一个电路进一步被配置为:
响应于所述第一主处理器被禁用,向第四主处理器发送第四握手请求,而禁用向所述第一主处理器发送所述第一握手请求;
监测来自所述第四主处理器的针对所述第四握手请求的第五响应;以及
至少基于对所述第五响应的监测结果,确定所述检测结果。
8.一种主处理器,所述主处理器具有运行操作系统的能力,并且包括:
至少一个电路,所述至少一个电路被配置为:
从协处理器接收握手请求;
执行所述握手请求所触发的操作;以及
基于所述操作的结果,向所述协处理器发送针对所述握手请求的响应,以供所述协处理器检测与所述操作系统相关联的硬件宕机。
9.根据权利要求8所述的主处理器,其中所述握手请求用于触发所述主处理器执行中断处理,并且发送所述响应包括:
响应于所述中断处理被成功执行,向所述协处理器发送指示肯定反馈的肯定响应;以及
响应于所述中断处理失败,向所述协处理器发送指示否定反馈的否定响应。
10.一种宕机检测方法,包括:
在协处理器处向第一主处理器发送第一握手请求,所述第一主处理器具有运行操作系统的能力;
监测来自所述第一主处理器的针对所述第一握手请求的第一响应;以及
至少基于对所述第一响应的监测结果,确定与所述操作系统相关联的硬件宕机的检测结果。
11.根据权利要求10所述的方法,其中确定所述检测结果包括:
响应于接收到所述第一响应并且所述第一响应指示肯定反馈,确定未检测到所述硬件宕机。
12.根据权利要求10所述的方法,其中确定所述检测结果包括:
响应于以下之一,向所述第一主处理器重新发送所述第一握手请求:
接收到所述第一响应并且所述第一响应指示否定反馈,或
在一段时间内未接收到所述第一响应;
监测来自所述第一处理器的针对重新发送的所述第一握手请求的第二响应;
响应于以下之一,确定所述第一主处理器处于宕机状态:
接收到所述第二响应并且所述第二响应指示否定反馈,或
在一段时间内未接收到所述第二响应;以及
至少基于所述第一主处理器处于宕机状态,确定检测到所述硬件宕机。
13.根据权利要求12所述的方法,其中确定检测到所述硬件宕机包括:
确定多个主处理器中除所述第一主处理器之外的其他主处理器是否处于宕机状态,所述多个主处理器各自具有运行所述操作系统的能力;以及
响应于确定所述其他主处理器处于宕机状态,确定检测到所述硬件宕机。
14.根据权利要求13所述的方法,其中确定所述其他主处理器是否处于宕机状态包括:
向所述多个主处理器中的第二主处理器发送第二握手请求,所述第二主处理器不同于所述第一主处理器;
监测来自所述第二主处理器的针对所述第二握手请求的第三响应;
响应于以下之一,确定所述第二主处理器处于宕机状态:
接收到所述第三响应并且所述第三响应指示否定反馈,或
在一段时间内未接收到所述第三响应。
15.根据权利要求10所述的方法,其中确定所述检测结果包括:
响应于基于所述监测结果确定所述第一主处理器处于宕机状态,向不同于所述第一主处理器的第三处理器发送第三握手请求;
响应于接收到来自所述第三处理器的针对所述第三握手请求的肯定响应,将所述第三处理器标识为握手的目标主处理器;
向所述第三处理器再次发送所述第三握手请求;
监测来自所述第三主处理器的针对再次发送的所述第三握手请求的第四响应;以及
进一步基于对所述第四响应的监测结果,确定所述检测结果。
16.根据权利要求10所述的方法,还包括:
响应于所述第一主处理器被禁用,向第四主处理器发送第四握手请求,而禁用向所述第一主处理器发送所述第一握手请求;
监测来自所述第四主处理器的针对所述第四握手请求的第五响应;以及
至少基于对所述第五响应的监测结果,确定所述检测结果。
17.一种宕机检测方法,包括:
在主处理器处从协处理器接收握手请求;
执行所述握手请求所触发的操作;以及
基于所述操作的结果,向所述协处理器发送针对所述握手请求的响应,以供所述协处理器检测与所述操作系统相关联的硬件宕机。
18.一种电子设备,包括:
根据权利要求1至7任一项所述的协处理器;以及
至少一个根据权利要求8至9任一项所述的主处理器。
19.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被协处理器执行以实现根据权利要求10至16任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被主处理器执行以实现根据权利要求17所述的方法。
CN202310103009.4A 2023-01-29 2023-01-29 协处理器、主处理器、宕机检测方法和电子设备 Pending CN118409908A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202310103009.4A CN118409908A (zh) 2023-01-29 2023-01-29 协处理器、主处理器、宕机检测方法和电子设备
PCT/CN2024/071883 WO2024156257A1 (zh) 2023-01-29 2024-01-11 协处理器、主处理器、宕机检测方法和电子设备
US18/417,955 US20240256373A1 (en) 2023-01-29 2024-01-19 Coprocessor, host processor, crash detection method and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310103009.4A CN118409908A (zh) 2023-01-29 2023-01-29 协处理器、主处理器、宕机检测方法和电子设备

Publications (1)

Publication Number Publication Date
CN118409908A true CN118409908A (zh) 2024-07-30

Family

ID=91964648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310103009.4A Pending CN118409908A (zh) 2023-01-29 2023-01-29 协处理器、主处理器、宕机检测方法和电子设备

Country Status (3)

Country Link
US (1) US20240256373A1 (zh)
CN (1) CN118409908A (zh)
WO (1) WO2024156257A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3325785B2 (ja) * 1996-10-28 2002-09-17 三菱電機株式会社 計算機の故障検出・回復方式
US6389568B1 (en) * 1998-12-23 2002-05-14 Maxtor Corporation Method and apparatus for detecting handshaking protocol errors on an asynchronous data bus
CN102136921A (zh) * 2010-01-22 2011-07-27 总装备部工程设计研究总院 一种快速检测计算机宕机的方法及含有该方法的计算机系统
CN104506392B (zh) * 2015-01-04 2018-10-30 华为技术有限公司 一种宕机检测方法及设备
CN106982148B (zh) * 2016-01-19 2020-02-18 中国移动通信集团浙江有限公司 一种服务器宕机的监测方法、装置及系统
CN110659500A (zh) * 2019-08-13 2020-01-07 平安国际智慧城市科技股份有限公司 服务器安全检测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2024156257A1 (zh) 2024-08-02
US20240256373A1 (en) 2024-08-01

Similar Documents

Publication Publication Date Title
EP1668509B1 (en) Method and apparatus for monitoring and resetting a co-processor
US7783794B2 (en) Remote USB access method
EP3142011A1 (en) Anomaly recovery method for virtual machine in distributed environment
CN102761439B (zh) Pon接入系统中基于看门狗的异常检测记录装置及方法
CN111324494A (zh) 处理器控制方法、装置和存储介质
CN110865900A (zh) 增强嵌入式系统健壮性的一种方法
CN117130832B (zh) 多核异构系统的监控复位方法、系统、芯片及电子设备
CN113535448B (zh) 一种多重看门狗控制方法及其控制系统
CN115904793B (zh) 一种基于多核异构系统的内存转存方法、系统及芯片
CN118409908A (zh) 协处理器、主处理器、宕机检测方法和电子设备
JP2007334731A (ja) Usb機器、ホスト装置、およびusb接続システム
US20180129624A1 (en) Method and apparatus for handling outstanding interconnect transactions
WO2018018853A1 (zh) 外设总线的控制装置及方法
KR102438148B1 (ko) 임베디드 컴퓨팅 모듈의 이상을 감지하는 이상 감지 장치, 시스템 및 방법
CN111142813A (zh) 打印机连接状态的检测方法及装置
CN114257492B (zh) 智能网卡的故障处理方法、装置、计算机设备和介质
US9176806B2 (en) Computer and memory inspection method
KR101300806B1 (ko) 다중 프로세스 시스템에서 오동작 처리 장치 및 방법
CN110519098B (zh) 一种异常单板的处理方法及装置
CN107729170B (zh) 一种hba卡生成转存文件的方法及装置
CN113711209A (zh) 电子控制装置
CN117234787B (zh) 系统级芯片运行状态监控方法及系统
CN114020561B (zh) 故障上报方法、系统、装置、计算机设备及存储介质
JP6475056B2 (ja) インタフェース障害検出装置、インタフェース障害検出システム、インタフェース障害検出方法、及びインタフェース障害検出プログラム
KR20020065188A (ko) 컴퓨터 시스템의 장애관리 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination