CN109828855B - 多处理器错误检测系统及其方法 - Google Patents

多处理器错误检测系统及其方法 Download PDF

Info

Publication number
CN109828855B
CN109828855B CN201811382713.3A CN201811382713A CN109828855B CN 109828855 B CN109828855 B CN 109828855B CN 201811382713 A CN201811382713 A CN 201811382713A CN 109828855 B CN109828855 B CN 109828855B
Authority
CN
China
Prior art keywords
error detection
processors
time
error
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811382713.3A
Other languages
English (en)
Other versions
CN109828855A (zh
Inventor
金起范
金荣奭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Mobis Co Ltd
Original Assignee
Hyundai Mobis Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Mobis Co Ltd filed Critical Hyundai Mobis Co Ltd
Publication of CN109828855A publication Critical patent/CN109828855A/zh
Application granted granted Critical
Publication of CN109828855B publication Critical patent/CN109828855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]

Abstract

提供了一种多处理器错误检测系统及其方法。该错误检测系统包括:用于基于外部输入设置系统操作请求时间的输入单元;用于执行预定操作的多个处理器;以及用于检测多个处理器中的每一个处理器的错误的错误检测处理器。错误检测处理器向多个处理器中的预定的第一处理器发送错误检测信号,从多个处理器中的预定的第二处理器接收更新的错误检测信号,并基于更新的错误检测信号确定在操作请求时间内多个处理器的操作处理时间是否被处理。

Description

多处理器错误检测系统及其方法
技术领域
本发明涉及一种多处理器检测系统及其方法,并且更具体地,涉及一种用于检测多个处理器中的错误和错误原因的多处理器检测系统和方法。
背景技术
看门狗定时器(WDT)是一种用于检测计算机故障并从计算机故障中恢复的电子定时器。为了防止时间流逝或超时,正常运行中的计算机系统定期重新启动WDT。
当计算机由于硬件缺陷或程序错误无法重新启动WDT时,定时器会随着时间的推移生成超时信号。该超时信号用于采取若干校正动作。这种校正动作通常涉及将计算机系统保持于安全状态并使其恢复正常操作。
WDT通常存在于计算机控制设备中,这使人类难以以及时的方式访问或响应错误。当软件停止时,许多嵌入式系统可能并不仅仅依赖于用户的重新启动。因此,这些嵌入式系统必须是自给的。例如,远程嵌入式系统(例如空间探测器)可能无法由人类操作员物理地访问。当系统无法自动恢复错误时,它们可能会永久损坏。WDT通常用在这种情况下。
图1示出了处理器的传统错误检测系统的框图。
过去,为了监视处理核(或处理器)的正常操作,在看门狗处理器200中可变地设置WDT,并且当在对应时间内从处理核100接收到WDT脉冲信号时,确定在处理核100的操作中没有问题。
当在WDT中设置的时间内没有从处理核100接收到WDT脉冲信号时,看门狗处理器200重置处理核100。在用于处理核100的传统错误检测技术中,不可能掌握在多核系统中哪个核存在问题。
此外,在具有看门狗处理器和任意数量处理器的传统多核系统中,看门狗处理器执行操作以监视其他处理器。然而,当在特定处理器中发生错误时,错误检测技术不能掌握错误发生的具体原因。例如,看门狗处理器可能无法确定在特定处理器上发生的错误是算法错误还是通信错误。
发明内容
本发明提供了一种用于检测多个处理器中的每一个处理器的错误和错误原因的多处理器检测系统和方法,以及在其上记录有用于执行该方法的程序的计算机可读记录介质。
根据一个实施方式,一种错误检测系统包括:输入单元,用于基于外部输入设置系统操作请求时间;多个处理器,用于执行预定操作;以及错误检测处理器,用于检测多个处理器中的每一个处理器的错误,其中错误检测处理器向多个处理器中的预定的第一处理器发送错误检测信号,从多个处理器中的预定的第二处理器接收更新的错误检测信号,并且基于更新的错误检测信号确定在操作请求时间内多个处理器的操作处理时间是否被处理。
当在操作请求时间内操作处理时间未被处理时,错误检测处理器可以将错误计数以预定值递增,并且在错误计数超过预定阈值时将错误发生信号发送到多个处理器中的至少一个处理器。
操作处理时间可以是多个处理器中的每一个处理器的操作执行消耗时间与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间的总和。
当错误基于操作执行消耗时间时,错误计数可以是通过加权预定值获得的值。
当错误基于通信时间时,错误计数可以是通过加权预定值获得的值。
操作处理时间可以是通过将预定权重分配给多个处理器中的每一个处理器的操作执行消耗时间而获得的值和从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间的总和。
操作处理时间可以是多个处理器中的每一个处理器的操作执行消耗时间与通过将预定权重分配给从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间而获得的值的总和。
更新的错误检测信号可以包括由多个处理器中的每一个处理器记录的操作执行消耗时间。
操作执行消耗时间可以是通过测量在多个处理器中的每一个处理器中开始预定操作的时间点与完成预定操作的时间点之间的差而获得的值。
错误发生信号可以包括包含指示错误发生的标志值的信号和重置信号。
错误检测系统还可以包括将多个处理器和错误检测处理器互连的总线。
根据另一实施方式,一种错误检测方法包括:基于外部输入设置系统操作请求时间;由错误检测处理器向预定的第一处理器发送错误检测信号,由多个处理器中的每一个处理器执行预定操作;由多个处理器中的每一个处理器更新错误检测信号;由错误检测处理器从多个处理器中的预定的第二处理器接收更新的错误检测信号;以及由错误检测处理器基于更新的错误检测信号确定在操作请求时间内多个处理器的操作处理时间是否被处理。
该方法还可以包括:当在操作请求时间内未处理操作处理时间时,将错误计数以预定值递增;以及当错误计数超过预定阈值时,向多个处理器中的至少一个处理器发送错误发生信号。
操作处理时间可以是多个处理器中的每一个处理器的操作执行消耗时间与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间的总和。
当错误基于操作执行消耗时间时,错误计数是通过加权预定值获得的值。
当错误基于通信时间时,错误计数可以是通过加权预定值获得的值。
操作处理时间可以是通过将预定权重分配给多个处理器中的每一个处理器的操作执行消耗时间而获得的值和从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间的总和。
操作处理时间可以是多个处理器中的每一个处理器的操作执行消耗时间与通过将预定权重分配给从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间而获得的值的总和。
更新的错误检测信号可以包括由多个处理器中的每一个处理器记录的操作执行消耗时间。
操作执行消耗时间可以是通过测量在多个处理器中的每一个处理器中开始预定操作的时间点与完成预定操作的时间点之间的差而获得的值。
错误发生信号可以包括包含指示错误发生的标志值的信号和重置信号。
多个处理器和错误检测处理器可以通过总线互连。
附图说明
从结合附图的以下描述可以更详细地理解实施方式,其中:
图1示出了处理器的传统错误检测系统的框图;
图2是根据本发明实施方式的多处理器检测系统的框图;
图3示出了根据本发明实施方式的多处理器检测系统的操作;
图4是根据本发明实施方式的多处理器错误检测方法的流程图;以及
图5是根据本发明实施方式的多处理器错误检测方法的流程图。
具体实施方式
在下文中,将参考附图详细描述本发明的优选实施方式。在附图中,相同的附图标记表示相同的元件,并且为了解释的清楚,可以夸大附图中的每个组件的尺寸。
图2是根据本发明实施方式的多处理器检测系统的框图。
根据本发明实施方式的错误检测系统200包括输入单元220、错误检测处理器210和多个处理器230至250。
根据本发明实施方式的错误检测系统200还包括将多个处理器230至250和错误检测处理器210互连的总线。
输入单元220基于外部输入设置系统操作请求时间。
多个处理器230至250中的每一个处理器执行预定操作。
错误检测处理器210检测多个处理器230至250中的每一个处理器的错误。具体地,错误检测处理器210向多个处理器230至250中的预定的第一处理器发送错误检测信号。
预定的第一处理器执行预定操作并更新错误检测信号以包括执行预定操作所需的操作执行消耗时间。操作执行消耗时间指的是作为在包括预定的第一处理器的多个处理器230至250中的每一个处理器中执行预定操作的时间点与完成预定操作的时间点之间的差所测量的值。
多个处理器230至250顺序地执行上述预定操作并更新错误检测信号。
错误检测处理器210从多个处理器230至250中的预定的第二处理器接收更新的错误检测信号。更新的错误检测信号包括由多个处理器230至250中的每一个处理器记录的每个操作执行消耗时间。
错误检测处理器210基于更新的错误检测信号确定在操作请求时间内多个处理器230至250的操作处理时间是否被处理。操作处理时间是指将多个处理器230至250中的每一个处理器的操作执行消耗时间与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间相加。
当在操作请求时间内未处理操作处理时间时,错误检测处理器210将错误计数以预定值递增。当错误计数超过预定阈值时,错误检测处理器210向引起多个处理器230至250的错误的至少一个处理器发送错误发生信号。错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
当根据本发明的实施方式的错误检测系统200是其中操作速度重要的系统并且由于操作执行消耗时间而在操作请求时间内未处理操作处理时间时,错误检测处理器210将错误计数以加权的预定值递增。
当根据本发明的实施方式的错误检测系统200是其中通信速度重要的系统并且在操作请求时间内未处理操作处理时间的原因是基于通信时间的错误时,错误检测处理器210将错误计数以加权的预定值递增。
当根据本发明的另一实施方式的错误检测系统是其中操作速度重要的系统时,错误检测处理器通过将通过将预定权重添加到多个处理器中的每一个处理器的操作执行消耗时间而获得的值与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间相加,来计算操作处理时间。当在操作请求时间内未处理操作处理时间时,错误检测处理器将错误计数以预定值递增。当错误计数超过预定阈值时,错误检测处理器向引起多个处理器的错误的至少一个处理器发送错误发生信号。错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
当根据本发明的另一实施方式的错误检测系统是其中通信速度重要的系统时,错误检测处理器通过将通过将预定权重分配给从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间而获得的值与多个处理器中的每一个处理器的操作执行消耗时间相加,来计算操作处理时间。当在操作请求时间内未处理操作处理时间时,错误检测处理器将错误计数以预定值递增。当错误计数超过预定阈值时,错误检测处理器向引起多个处理器的错误的至少一个处理器发送错误发生信号。错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
图3示出了根据本发明实施方式的多处理器检测系统的操作。
在所示示例中,错误检测系统包括错误检测处理器310和三个处理器320至340。虽然在所示示例中示出了三个处理器,但是对于本领域技术人员来说将显而易见的是,根据系统设计,错误检测系统可以包括任意数量的处理器。
根据本发明实施方式的错误检测处理器310向第一处理器320发送错误检测信号。通过使用预定通信数据协议的“保留”区域、使用预定通信数据协议中的数据位、将一些位添加到预定通信数据协议或将附加引脚分配给错误检测系统的方法来生成错误检测信号。
根据本发明实施方式的第一处理器320执行操作#1,操作#1是预定操作。第一处理器320更新错误检测信号以包括执行操作#1所需的操作执行消耗时间2。操作执行消耗时间2是通过测量第一处理器320开始执行操作#1的时间点与完成操作#1的时间点之间的差而获得的值。第一处理器320向第二处理器330发送更新的错误检测信号。
如上所述,根据本发明实施方式的第二处理器330和第三处理器340更新每个错误检测信号以执行预定操作和每个操作执行,并且包括操作执行消耗时间3和4。
第三处理器340向错误检测处理器310发送更新的错误检测信号。
错误检测处理器310从第三处理器340接收更新的错误检测信号。更新的错误检测信号包括由多个处理器320至340中的每一个处理器记录的每个操作执行消耗时间。
错误检测处理器310基于更新的错误检测信号确定在操作请求时间内多个处理器320至340的操作处理时间是否被处理。操作处理时间是指将多个处理器320至340中的每一个处理器的操作执行消耗时间与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间相加。在所示示例中,操作执行消耗时间指“2+3+4”,并且通信时间指“1+5”。
当在操作请求时间内未处理操作处理时间时,错误检测处理器310将错误计数以预定值递增。当错误计数超过预定阈值时,错误检测处理器310向引起多个处理器320至340的错误的至少一个处理器发送错误发生信号。错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
当错误检测系统是其中操作速度重要的系统并且由于操作执行消耗时间而在操作请求时间内未处理操作处理时间时,错误检测处理器310将错误计数以加权的预定值递增。
当错误检测系统是其中通信速度重要的系统并且在操作请求时间内未处理操作处理时间的原因是基于通信时间的错误时,错误检测处理器310将错误计数以加权的预定值递增。
图4是根据本发明实施方式的多处理器错误检测方法的流程图。
在步骤410中,错误检测系统200基于外部输入设置系统操作请求时间。
在步骤420中,错误检测系统200通过错误检测处理器向多个处理器中的预定的第一处理器发送错误检测信号。
在步骤430中,错误检测系统200通过多个处理器中的每一个处理器执行预定操作。
在步骤440中,错误检测系统200更新错误检测信号,以包括由多个处理器中的每一个处理器执行预定操作所需的操作执行消耗时间。操作执行消耗时间是通过测量多个处理器中的每一个处理器开始执行预定操作的时间点与完成预定操作的时间点之间的差而获得的值。
在步骤450中,错误检测系统200通过错误检测处理器从多个处理器中的预定的第二处理器接收更新的错误检测信号。更新的错误检测信号包括由多个处理器中的每一个处理器记录的操作执行消耗时间。
在步骤460中,错误检测系统200通过错误检测处理器基于更新的错误检测信号确定在操作请求时间内多个处理器的操作处理时间是否被处理。操作处理时间是指将多个处理器中的每一个处理器的操作执行消耗时间与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间相加。
当在操作请求时间内未处理操作处理时间时(步骤510),错误检测系统200前进到步骤520,并且稍后将参考图5描述步骤520。
多个处理器和错误检测处理器通过总线互连。
图5是根据本发明实施方式的多处理器错误检测方法的流程图。
在步骤520中,错误检测系统200将错误计数以预定值递增。
当错误检测系统200是其中操作速度重要的系统并且由于操作执行消耗时间而在操作请求时间内未处理操作处理时间时,错误检测系统200将错误计数以加权的预定值递增。
当错误检测系统200是其中通信速度重要的系统并且在操作请求时间内未处理操作处理时间的原因是基于通信时间的错误时,错误检测系统200将错误计数以加权的预定值递增。
在步骤530中,当错误计数超过预定阈值时,错误检测系统200向多个处理器中的至少一个处理器发送错误发生信号。错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
例如,根据本发明的实施方式的设备可以包括耦接到如图所示的设备的每个单元的总线和耦接到总线的至少一个处理器,并且可以包括存储器,该存储器耦接到总线以存储命令、接收的消息或生成的消息,并且耦接到至少一个处理器以执行上述命令。
根据本发明,不仅可以识别在多核系统中发生问题的处理核,而且可以识别问题的原因是操作错误还是通信错误。
因此,根据本发明的多核错误检测设备不仅保证了系统操作的安全性,而且还提高了用于解决所识别的问题的工作性能。
虽然已经参考具体实施方式描述了多处理器检测系统及其方法,但是它们不限于此。因此,本领域技术人员将容易理解,在不脱离所附权利要求限定的本发明的精神和范围的情况下,可以对其进行各种修改和改变。

Claims (20)

1.一种错误检测系统,包括:
输入单元,用于基于外部输入设置系统的操作请求时间;
串联连接的多个处理器,每个处理器用于顺序地执行预定操作以更新错误检测信号;以及
错误检测处理器,用于检测所述多个处理器中的每一个处理器的错误,
其中,所述错误检测处理器:
向第一处理器发送错误检测信号,所述第一处理器是所述多个处理器当中的第一个处理器,
从第二处理器接收更新的错误检测信号,所述第二处理器是所述多个处理器当中的最后一个处理器,并且
基于所述更新的错误检测信号,确定在所述操作请求时间内所述多个处理器的操作处理时间是否被处理,
其中,所述更新的错误检测信号包括由所述多个处理器中的每一个处理器记录的全部的操作执行消耗时间。
2.根据权利要求1所述的错误检测系统,其中,当在所述操作请求时间内未处理所述操作处理时间时,所述错误检测处理器将错误计数以预定值递增,并且在所述错误计数超过预定阈值时将错误发生信号发送到所述多个处理器中的至少一个处理器。
3.根据权利要求2所述的错误检测系统,其中,所述操作处理时间是所述多个处理器中的每一个处理器的所述操作执行消耗时间与从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间的总和。
4.根据权利要求3所述的错误检测系统,其中,当错误基于所述操作执行消耗时间时,所述错误计数是通过将所述预定值加权而获得的值。
5.根据权利要求3所述的错误检测系统,其中,当错误基于所述通信时间时,所述错误计数是通过将所述预定值加权而获得的值。
6.根据权利要求2所述的错误检测系统,其中,所述操作处理时间是通过将预定权重分配给所述多个处理器中的每一个处理器的操作执行消耗时间而获得的值与从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间的总和。
7.根据权利要求2所述的错误检测系统,其中,所述操作处理时间是所述多个处理器中的每一个处理器的操作执行消耗时间与通过将预定权重分配给从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间而获得的值的总和。
8.根据权利要求3所述的错误检测系统,其中,所述操作执行消耗时间是通过测量在所述多个处理器中的每一个处理器中开始预定操作的时间点与完成所述预定操作的时间点之间的差而获得的值。
9.根据权利要求2所述的错误检测系统,其中,所述错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
10.根据权利要求1所述的错误检测系统,还包括将所述多个处理器和所述错误检测处理器互连的总线。
11.一种错误检测方法,包括:
基于外部输入设置系统的操作请求时间;
由错误检测处理器向第一处理器发送错误检测信号,所述第一处理器是串联连接的多个处理器当中的第一个处理器,
由所述多个处理器中的每一个处理器顺序地执行预定操作;
由所述多个处理器中的每一个处理器更新错误检测信号;
由错误检测处理器从第二处理器接收更新的错误检测信号,所述第二处理器是所述多个处理器当中的最后一个处理器;以及
通过错误检测处理器基于所述更新的错误检测信号确定在所述操作请求时间内所述多个处理器的操作处理时间是否被处理,
其中,所述更新的错误检测信号包括由所述多个处理器中的每一个处理器记录的全部的操作执行消耗时间。
12.根据权利要求11所述的方法,还包括:
当在所述操作请求时间内未处理所述操作处理时间时,将错误计数以预定值递增;以及
当所述错误计数超过预定阈值时,向所述多个处理器中的至少一个发送错误发生信号。
13.根据权利要求12所述的方法,其中,所述操作处理时间是所述多个处理器中的每一个处理器的所述操作执行消耗时间与从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间的总和。
14.根据权利要求13所述的方法,其中,当错误基于所述操作执行消耗时间时,所述错误计数是通过将所述预定值加权而获得的值。
15.根据权利要求13所述的方法,其中,当错误基于所述通信时间时,所述错误计数是通过将所述预定值加权而获得的值。
16.根据权利要求13所述的方法,其中,所述操作处理时间是通过将预定权重分配给所述多个处理器中的每一个处理器的操作执行消耗时间而获得的值与从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间的总和。
17.根据权利要求13所述的方法,其中,所述操作处理时间是所述多个处理器中的每一个的操作执行消耗时间与通过将预定权重分配给从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间而获得的值的总和。
18.根据权利要求13所述的方法,其中,所述操作执行消耗时间是通过测量在所述多个处理器中的每一个处理器中开始预定操作的时间点与完成所述预定操作的时间点之间的差而获得的值。
19.根据权利要求12所述的方法,其中,所述错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
20.根据权利要求11所述的方法,其中,所述多个处理器和所述错误检测处理器通过总线互连。
CN201811382713.3A 2017-11-23 2018-11-20 多处理器错误检测系统及其方法 Active CN109828855B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170157535A KR102030461B1 (ko) 2017-11-23 2017-11-23 복수의 프로세서 오류 감지 시스템 및 그 방법
KR10-2017-0157535 2017-11-23

Publications (2)

Publication Number Publication Date
CN109828855A CN109828855A (zh) 2019-05-31
CN109828855B true CN109828855B (zh) 2022-07-22

Family

ID=66336383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811382713.3A Active CN109828855B (zh) 2017-11-23 2018-11-20 多处理器错误检测系统及其方法

Country Status (4)

Country Link
US (1) US10891180B2 (zh)
KR (1) KR102030461B1 (zh)
CN (1) CN109828855B (zh)
DE (1) DE102018219764A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102030462B1 (ko) * 2017-12-08 2019-10-10 현대오트론 주식회사 복수의 차량용 멀티 코어 프로세서 오류 모니터링 장치 및 그 방법
DE102020205146A1 (de) * 2020-04-23 2021-10-28 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zur Steuerung eines technischen Systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1625155A (zh) * 2003-12-02 2005-06-08 三星电子株式会社 互联网协议分组错误处理设备及其方法和计算机可读介质
CN101006430A (zh) * 2004-08-20 2007-07-25 皇家飞利浦电子股份有限公司 借助数据处理系统和外围设备的错误响应
US8819313B1 (en) * 2013-07-19 2014-08-26 Superior Traffic Systems, LLC Traffic management system

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19601618A1 (de) * 1996-01-18 1997-07-24 Zahnradfabrik Friedrichshafen Sicherheitssystem für ein Automatgetriebe
KR100499908B1 (ko) * 2000-12-27 2005-07-07 (주)동아엘텍 오류 감시 장치 및 이를 운용하는 방법
EP1604281B1 (en) * 2003-03-20 2006-08-09 ARM Limited Systematic and random error detection and recovery within processing stages of an integrated circuit
JP4073415B2 (ja) * 2004-03-30 2008-04-09 三洋電機株式会社 情報抽出方法、情報抽出装置及びコンピュータプログラム
US20060229777A1 (en) * 2005-04-12 2006-10-12 Hudson Michael D System and methods of performing real-time on-board automotive telemetry analysis and reporting
US7243048B2 (en) * 2005-11-28 2007-07-10 Honeywell International, Inc. Fault detection system and method using multiway principal component analysis
DE102006017824B4 (de) * 2006-04-13 2018-10-11 Dspace Digital Signal Processing And Control Engineering Gmbh Methode zum Konstruieren einer Diagnosefunktion
US7986149B2 (en) * 2008-08-19 2011-07-26 Infineon Technologies Austria Ag System and method for adaptive load fault detection
JP5653332B2 (ja) * 2011-10-28 2015-01-14 株式会社東芝 周期エラー検出方法および周期エラー検出回路
JP5653391B2 (ja) * 2012-06-13 2015-01-14 三菱電機株式会社 データポーリング方法及びその方法を用いた原子力プラントのディジタル計装制御システム
KR20140134376A (ko) * 2013-05-14 2014-11-24 한국전자통신연구원 오류감지가 가능한 프로세서 및 이를 이용한 프로세서 코어 오류 감지 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1625155A (zh) * 2003-12-02 2005-06-08 三星电子株式会社 互联网协议分组错误处理设备及其方法和计算机可读介质
CN101006430A (zh) * 2004-08-20 2007-07-25 皇家飞利浦电子股份有限公司 借助数据处理系统和外围设备的错误响应
US8819313B1 (en) * 2013-07-19 2014-08-26 Superior Traffic Systems, LLC Traffic management system

Also Published As

Publication number Publication date
KR20190059683A (ko) 2019-05-31
CN109828855A (zh) 2019-05-31
KR102030461B1 (ko) 2019-10-10
US10891180B2 (en) 2021-01-12
US20190155679A1 (en) 2019-05-23
DE102018219764A1 (de) 2019-05-23

Similar Documents

Publication Publication Date Title
US7672247B2 (en) Evaluating data processing system health using an I/O device
US9442786B2 (en) Determining and correcting software server error conditions
US8122176B2 (en) System and method for logging system management interrupts
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US11953976B2 (en) Detecting and recovering from fatal storage errors
CN109828855B (zh) 多处理器错误检测系统及其方法
US20160321147A1 (en) Dynamic Service Fault Detection and Recovery Using Peer Services
US8504875B2 (en) Debugging module to load error decoding logic from firmware and to execute logic in response to an error
US20160147545A1 (en) Real-Time Optimization of Many-Core Systems
US9529656B2 (en) Computer recovery method, computer system, and storage medium
US20140143597A1 (en) Computer system and operating method thereof
CN113656211A (zh) 一种基于双cpu多核系统的看门狗控制方法及系统
US20150074808A1 (en) Rootkit Detection in a Computer Network
US20050033952A1 (en) Dynamic scheduling of diagnostic tests to be performed during a system boot process
US20170052841A1 (en) Management apparatus, computer and non-transitory computer-readable recording medium having management program recorded therein
KR102438148B1 (ko) 임베디드 컴퓨팅 모듈의 이상을 감지하는 이상 감지 장치, 시스템 및 방법
US20220398144A1 (en) Custom baseboard management controller (bmc) firmware stack watchdog system and method
US9405629B2 (en) Information processing system, method for controlling information processing system, and storage medium
JP2016167107A (ja) 制御装置、バス回路、方法、及び、プログラム
JP2019191942A (ja) 制御装置および機能検査方法
US20200233748A1 (en) Management method, structure monitoring device, and structure monitoring system
CN107451035B (zh) 用于计算机装置的错误状态数据提供方法
KR102020798B1 (ko) 자동화 테스트 수행 방법 및 시스템
EP4007954A1 (en) Systems and methods for monitoring and responding to bus bit error ratio events
CN111666231A (zh) 于丛集式系统中维持存储器共享方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210310

Address after: Seoul, South Kerean

Applicant after: HYUNDAI MOBIS Co.,Ltd.

Address before: Seoul, South Kerean

Applicant before: HYUNDAI AUTRON Co.,Ltd.

GR01 Patent grant
GR01 Patent grant