CN109828855A - 多处理器错误检测系统及其方法 - Google Patents

多处理器错误检测系统及其方法 Download PDF

Info

Publication number
CN109828855A
CN109828855A CN201811382713.3A CN201811382713A CN109828855A CN 109828855 A CN109828855 A CN 109828855A CN 201811382713 A CN201811382713 A CN 201811382713A CN 109828855 A CN109828855 A CN 109828855A
Authority
CN
China
Prior art keywords
processor
error
time
mistake
detection signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811382713.3A
Other languages
English (en)
Other versions
CN109828855B (zh
Inventor
金起范
金荣奭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Mobis Co Ltd
Original Assignee
Hyundai Autron Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Autron Co Ltd filed Critical Hyundai Autron Co Ltd
Publication of CN109828855A publication Critical patent/CN109828855A/zh
Application granted granted Critical
Publication of CN109828855B publication Critical patent/CN109828855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

提供了一种多处理器错误检测系统及其方法。该错误检测系统包括:用于基于外部输入设置系统操作请求时间的输入单元;用于执行预定操作的多个处理器;以及用于检测多个处理器中的每一个处理器的错误的错误检测处理器。错误检测处理器向多个处理器中的预定的第一处理器发送错误检测信号,从多个处理器中的预定的第二处理器接收更新的错误检测信号,并基于更新的错误检测信号确定在操作请求时间内多个处理器的操作处理时间是否被处理。

Description

多处理器错误检测系统及其方法
技术领域
本发明涉及一种多处理器检测系统及其方法,并且更具体地,涉及一种用于检测多个处理器中的错误和错误原因的多处理器检测系统和方法。
背景技术
看门狗定时器(WDT)是一种用于检测计算机故障并从计算机故障中恢复的电子定时器。为了防止时间流逝或超时,正常运行中的计算机系统定期重新启动WDT。
当计算机由于硬件缺陷或程序错误无法重新启动WDT时,定时器会随着时间的推移生成超时信号。该超时信号用于采取若干校正动作。这种校正动作通常涉及将计算机系统保持于安全状态并使其恢复正常操作。
WDT通常存在于计算机控制设备中,这使人类难以以及时的方式访问或响应错误。当软件停止时,许多嵌入式系统可能并不仅仅依赖于用户的重新启动。因此,这些嵌入式系统必须是自给的。例如,远程嵌入式系统(例如空间探测器)可能无法由人类操作员物理地访问。当系统无法自动恢复错误时,它们可能会永久损坏。WDT通常用在这种情况下。
图1示出了处理器的传统错误检测系统的框图。
过去,为了监视处理核(或处理器)的正常操作,在看门狗处理器200中可变地设置WDT,并且当在对应时间内从处理核100接收到WDT脉冲信号时,确定在处理核100的操作中没有问题。
当在WDT中设置的时间内没有从处理核100接收到WDT脉冲信号时,看门狗处理器200重置处理核100。在用于处理核100的传统错误检测技术中,不可能掌握在多核系统中哪个核存在问题。
此外,在具有看门狗处理器和任意数量处理器的传统多核系统中,看门狗处理器执行操作以监视其他处理器。然而,当在特定处理器中发生错误时,错误检测技术不能掌握错误发生的具体原因。例如,看门狗处理器可能无法确定在特定处理器上发生的错误是算法错误还是通信错误。
发明内容
本发明提供了一种用于检测多个处理器中的每一个处理器的错误和错误原因的多处理器检测系统和方法,以及在其上记录有用于执行该方法的程序的计算机可读记录介质。
根据一个实施方式,一种错误检测系统包括:输入单元,用于基于外部输入设置系统操作请求时间;多个处理器,用于执行预定操作;以及错误检测处理器,用于检测多个处理器中的每一个处理器的错误,其中错误检测处理器向多个处理器中的预定的第一处理器发送错误检测信号,从多个处理器中的预定的第二处理器接收更新的错误检测信号,并且基于更新的错误检测信号确定在操作请求时间内多个处理器的操作处理时间是否被处理。
当在操作请求时间内操作处理时间未被处理时,错误检测处理器可以将错误计数以预定值递增,并且在错误计数超过预定阈值时将错误发生信号发送到多个处理器中的至少一个处理器。
操作处理时间可以是多个处理器中的每一个处理器的操作执行消耗时间与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间的总和。
当错误基于操作执行消耗时间时,错误计数可以是通过加权预定值获得的值。
当错误基于通信时间时,错误计数可以是通过加权预定值获得的值。
操作处理时间可以是通过将预定权重分配给多个处理器中的每一个处理器的操作执行消耗时间而获得的值和从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间的总和。
操作处理时间可以是多个处理器中的每一个处理器的操作执行消耗时间与通过将预定权重分配给从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间而获得的值的总和。
更新的错误检测信号可以包括由多个处理器中的每一个处理器记录的操作执行消耗时间。
操作执行消耗时间可以是通过测量在多个处理器中的每一个处理器中开始预定操作的时间点与完成预定操作的时间点之间的差而获得的值。
错误发生信号可以包括包含指示错误发生的标志值的信号和重置信号。
错误检测系统还可以包括将多个处理器和错误检测处理器互连的总线。
根据另一实施方式,一种错误检测方法包括:基于外部输入设置系统操作请求时间;由错误检测处理器向预定的第一处理器发送错误检测信号,由多个处理器中的每一个处理器执行预定操作;由多个处理器中的每一个处理器更新错误检测信号;由错误检测处理器从多个处理器中的预定的第二处理器接收更新的错误检测信号;以及由错误检测处理器基于更新的错误检测信号确定在操作请求时间内多个处理器的操作处理时间是否被处理。
该方法还可以包括:当在操作请求时间内未处理操作处理时间时,将错误计数以预定值递增;以及当错误计数超过预定阈值时,向多个处理器中的至少一个处理器发送错误发生信号。
操作处理时间可以是多个处理器中的每一个处理器的操作执行消耗时间与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间的总和。
当错误基于操作执行消耗时间时,错误计数是通过加权预定值获得的值。
当错误基于通信时间时,错误计数可以是通过加权预定值获得的值。
操作处理时间可以是通过将预定权重分配给多个处理器中的每一个处理器的操作执行消耗时间而获得的值和从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间的总和。
操作处理时间可以是多个处理器中的每一个处理器的操作执行消耗时间与通过将预定权重分配给从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间而获得的值的总和。
更新的错误检测信号可以包括由多个处理器中的每一个处理器记录的操作执行消耗时间。
操作执行消耗时间可以是通过测量在多个处理器中的每一个处理器中开始预定操作的时间点与完成预定操作的时间点之间的差而获得的值。
错误发生信号可以包括包含指示错误发生的标志值的信号和重置信号。
多个处理器和错误检测处理器可以通过总线互连。
附图说明
从结合附图的以下描述可以更详细地理解实施方式,其中:
图1示出了处理器的传统错误检测系统的框图;
图2是根据本发明实施方式的多处理器检测系统的框图;
图3示出了根据本发明实施方式的多处理器检测系统的操作;
图4是根据本发明实施方式的多处理器错误检测方法的流程图;以及
图5是根据本发明实施方式的多处理器错误检测方法的流程图。
具体实施方式
在下文中,将参考附图详细描述本发明的优选实施方式。在附图中,相同的附图标记表示相同的元件,并且为了解释的清楚,可以夸大附图中的每个组件的尺寸。
图2是根据本发明实施方式的多处理器检测系统的框图。
根据本发明实施方式的错误检测系统200包括输入单元220、错误检测处理器210和多个处理器230至250。
根据本发明实施方式的错误检测系统200还包括将多个处理器230至250和错误检测处理器210互连的总线。
输入单元220基于外部输入设置系统操作请求时间。
多个处理器230至250中的每一个处理器执行预定操作。
错误检测处理器210检测多个处理器230至250中的每一个处理器的错误。具体地,错误检测处理器210向多个处理器230至250中的预定的第一处理器发送错误检测信号。
预定的第一处理器执行预定操作并更新错误检测信号以包括执行预定操作所需的操作执行消耗时间。操作执行消耗时间指的是作为在包括预定的第一处理器的多个处理器230至250中的每一个处理器中执行预定操作的时间点与完成预定操作的时间点之间的差所测量的值。
多个处理器230至250顺序地执行上述预定操作并更新错误检测信号。
错误检测处理器210从多个处理器230至250中的预定的第二处理器接收更新的错误检测信号。更新的错误检测信号包括由多个处理器230至250中的每一个处理器记录的每个操作执行消耗时间。
错误检测处理器210基于更新的错误检测信号确定在操作请求时间内多个处理器230至250的操作处理时间是否被处理。操作处理时间是指将多个处理器230至250中的每一个处理器的操作执行消耗时间与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间相加。
当在操作请求时间内未处理操作处理时间时,错误检测处理器210将错误计数以预定值递增。当错误计数超过预定阈值时,错误检测处理器210向引起多个处理器230至250的错误的至少一个处理器发送错误发生信号。错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
当根据本发明的实施方式的错误检测系统200是其中操作速度重要的系统并且由于操作执行消耗时间而在操作请求时间内未处理操作处理时间时,错误检测处理器210将错误计数以加权的预定值递增。
当根据本发明的实施方式的错误检测系统200是其中通信速度重要的系统并且在操作请求时间内未处理操作处理时间的原因是基于通信时间的错误时,错误检测处理器210将错误计数以加权的预定值递增。
当根据本发明的另一实施方式的错误检测系统是其中操作速度重要的系统时,错误检测处理器通过将通过将预定权重添加到多个处理器中的每一个处理器的操作执行消耗时间而获得的值与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间相加,来计算操作处理时间。当在操作请求时间内未处理操作处理时间时,错误检测处理器将错误计数以预定值递增。当错误计数超过预定阈值时,错误检测处理器向引起多个处理器的错误的至少一个处理器发送错误发生信号。错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
当根据本发明的另一实施方式的错误检测系统是其中通信速度重要的系统时,错误检测处理器通过将通过将预定权重分配给从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间而获得的值与多个处理器中的每一个处理器的操作执行消耗时间相加,来计算操作处理时间。当在操作请求时间内未处理操作处理时间时,错误检测处理器将错误计数以预定值递增。当错误计数超过预定阈值时,错误检测处理器向引起多个处理器的错误的至少一个处理器发送错误发生信号。错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
图3示出了根据本发明实施方式的多处理器检测系统的操作。
在所示示例中,错误检测系统包括错误检测处理器310和三个处理器320至340。虽然在所示示例中示出了三个处理器,但是对于本领域技术人员来说将显而易见的是,根据系统设计,错误检测系统可以包括任意数量的处理器。
根据本发明实施方式的错误检测处理器310向第一处理器320发送错误检测信号。通过使用预定通信数据协议的“保留”区域、使用预定通信数据协议中的数据位、将一些位添加到预定通信数据协议或将附加引脚分配给错误检测系统的方法来生成错误检测信号。
根据本发明实施方式的第一处理器320执行操作#1,操作#1是预定操作。第一处理器320更新错误检测信号以包括执行操作#1所需的操作执行消耗时间2。操作执行消耗时间2是通过测量第一处理器320开始执行操作#1的时间点与完成操作#1的时间点之间的差而获得的值。第一处理器320向第二处理器330发送更新的错误检测信号。
如上所述,根据本发明实施方式的第二处理器330和第三处理器340更新每个错误检测信号以执行预定操作和每个操作执行,并且包括操作执行消耗时间3和4。
第三处理器340向错误检测处理器310发送更新的错误检测信号。
错误检测处理器310从第三处理器340接收更新的错误检测信号。更新的错误检测信号包括由多个处理器320至340中的每一个处理器记录的每个操作执行消耗时间。
错误检测处理器310基于更新的错误检测信号确定在操作请求时间内多个处理器320至340的操作处理时间是否被处理。操作处理时间是指将多个处理器320至340中的每一个处理器的操作执行消耗时间与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间相加。在所示示例中,操作执行消耗时间指“2+3+4”,并且通信时间指“1+5”。
当在操作请求时间内未处理操作处理时间时,错误检测处理器310将错误计数以预定值递增。当错误计数超过预定阈值时,错误检测处理器310向引起多个处理器320至340的错误的至少一个处理器发送错误发生信号。错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
当错误检测系统是其中操作速度重要的系统并且由于操作执行消耗时间而在操作请求时间内未处理操作处理时间时,错误检测处理器310将错误计数以加权的预定值递增。
当错误检测系统是其中通信速度重要的系统并且在操作请求时间内未处理操作处理时间的原因是基于通信时间的错误时,错误检测处理器310将错误计数以加权的预定值递增。
图4是根据本发明实施方式的多处理器错误检测方法的流程图。
在步骤410中,错误检测系统200基于外部输入设置系统操作请求时间。
在步骤420中,错误检测系统200通过错误检测处理器向多个处理器中的预定的第一处理器发送错误检测信号。
在步骤430中,错误检测系统200通过多个处理器中的每一个处理器执行预定操作。
在步骤440中,错误检测系统200更新错误检测信号,以包括由多个处理器中的每一个处理器执行预定操作所需的操作执行消耗时间。操作执行消耗时间是通过测量多个处理器中的每一个处理器开始执行预定操作的时间点与完成预定操作的时间点之间的差而获得的值。
在步骤450中,错误检测系统200通过错误检测处理器从多个处理器中的预定的第二处理器接收更新的错误检测信号。更新的错误检测信号包括由多个处理器中的每一个处理器记录的操作执行消耗时间。
在步骤460中,错误检测系统200通过错误检测处理器基于更新的错误检测信号确定在操作请求时间内多个处理器的操作处理时间是否被处理。操作处理时间是指将多个处理器中的每一个处理器的操作执行消耗时间与从错误检测信号的发送时间点到更新的错误检测信号的接收时间点的通信时间相加。
当在操作请求时间内未处理操作处理时间时(步骤510),错误检测系统200前进到步骤520,并且稍后将参考图5描述步骤520。
多个处理器和错误检测处理器通过总线互连。
图5是根据本发明实施方式的多处理器错误检测方法的流程图。
在步骤520中,错误检测系统200将错误计数以预定值递增。
当错误检测系统200是其中操作速度重要的系统并且由于操作执行消耗时间而在操作请求时间内未处理操作处理时间时,错误检测系统200将错误计数以加权的预定值递增。
当错误检测系统200是其中通信速度重要的系统并且在操作请求时间内未处理操作处理时间的原因是基于通信时间的错误时,错误检测系统200将错误计数以加权的预定值递增。
在步骤530中,当错误计数超过预定阈值时,错误检测系统200向多个处理器中的至少一个处理器发送错误发生信号。错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
例如,根据本发明的实施方式的设备可以包括耦接到如图所示的设备的每个单元的总线和耦接到总线的至少一个处理器,并且可以包括存储器,该存储器耦接到总线以存储命令、接收的消息或生成的消息,并且耦接到至少一个处理器以执行上述命令。
根据本发明,不仅可以识别在多核系统中发生问题的处理核,而且可以识别问题的原因是操作错误还是通信错误。
因此,根据本发明的多核错误检测设备不仅保证了系统操作的安全性,而且还提高了用于解决所识别的问题的工作性能。
虽然已经参考具体实施方式描述了多处理器检测系统及其方法,但是它们不限于此。因此,本领域技术人员将容易理解,在不脱离所附权利要求限定的本发明的精神和范围的情况下,可以对其进行各种修改和改变。

Claims (22)

1.一种错误检测系统,包括:
输入单元,用于基于外部输入设置系统的操作请求时间;
多个处理器,用于执行预定操作;以及
错误检测处理器,用于检测所述多个处理器中的每一个处理器的错误,
其中,所述错误检测处理器:
向所述多个处理器中的预定的第一处理器发送错误检测信号,
从所述多个处理器中的预定的第二处理器接收更新的错误检测信号,并且
基于所述更新的错误检测信号,确定在所述操作请求时间内所述多个处理器的操作处理时间是否被处理。
2.根据权利要求1所述的错误检测系统,其中,当在所述操作请求时间内未处理所述操作处理时间时,所述错误检测处理器将错误计数以预定值递增,并且在所述错误计数超过预定阈值时将错误发生信号发送到所述多个处理器中的至少一个处理器。
3.根据权利要求2所述的错误检测系统,其中,所述操作处理时间是所述多个处理器中的每一个处理器的操作执行消耗时间与从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间的总和。
4.根据权利要求3所述的错误检测系统,其中,当错误基于所述操作执行消耗时间时,所述错误计数是通过将所述预定值加权而获得的值。
5.根据权利要求3所述的错误检测系统,其中,当错误基于所述通信时间时,所述错误计数是通过将所述预定值加权而获得的值。
6.根据权利要求2所述的错误检测系统,其中,所述操作处理时间是通过将预定权重分配给所述多个处理器中的每一个处理器的操作执行消耗时间而获得的值与从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间的总和。
7.根据权利要求2所述的错误检测系统,其中,所述操作处理时间是所述多个处理器中的每一个处理器的操作执行消耗时间与通过将预定权重分配给从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间而获得的值的总和。
8.根据权利要求3所述的错误检测系统,其中,所述更新的错误检测信号包括由所述多个处理器中的每一个处理器记录的所述操作执行消耗时间。
9.根据权利要求8所述的错误检测系统,其中,所述操作执行消耗时间是通过测量在所述多个处理器中的每一个处理器中开始预定操作的时间点与完成所述预定操作的时间点之间的差而获得的值。
10.根据权利要求2所述的错误检测系统,其中,所述错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
11.根据权利要求1所述的错误检测系统,还包括将所述多个处理器和所述错误检测处理器互连的总线。
12.一种错误检测方法,包括:
基于外部输入设置系统的操作请求时间;
通过错误检测处理器向多个处理器中的预定的第一处理器发送错误检测信号,
由所述多个处理器中的每一个处理器执行预定操作;
由所述多个处理器中的每一个处理器更新错误检测信号;
通过错误检测处理器从所述多个处理器中的预定的第二处理器接收更新的错误检测信号;以及
通过错误检测处理器基于所述更新的错误检测信号确定在所述操作请求时间内所述多个处理器的操作处理时间是否被处理。
13.根据权利要求12所述的方法,还包括:
当在所述操作请求时间内未处理所述操作处理时间时,将错误计数以预定值递增;以及
当所述错误计数超过预定阈值时,向所述多个处理器中的至少一个发送错误发生信号。
14.根据权利要求13所述的方法,其中,所述操作处理时间是所述多个处理器中的每一个处理器的操作执行消耗时间与从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间的总和。
15.根据权利要求14所述的方法,其中,当错误基于所述操作执行消耗时间时,所述错误计数是通过将所述预定值加权而获得的值。
16.根据权利要求14所述的方法,其中,当错误基于所述通信时间时,所述错误计数是通过将所述预定值加权而获得的值。
17.根据权利要求14所述的方法,其中,所述操作处理时间是通过将预定权重分配给所述多个处理器中的每一个处理器的操作执行消耗时间而获得的值与从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间的总和。
18.根据权利要求14所述的方法,其中,所述操作处理时间是所述多个处理器中的每一个的操作执行消耗时间与通过将预定权重分配给从所述错误检测信号的发送时间点到所述更新的错误检测信号的接收时间点的通信时间而获得的值的总和。
19.根据权利要求14所述的方法,其中,所述更新的错误检测信号包括由所述多个处理器中的每一个处理器记录的所述操作执行消耗时间。
20.根据权利要求19所述的方法,其中,所述操作执行消耗时间是通过测量在所述多个处理器中的每一个处理器中开始预定操作的时间点与完成所述预定操作的时间点之间的差而获得的值。
21.根据权利要求13所述的方法,其中,所述错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
22.根据权利要求12所述的方法,其中,所述多个处理器和所述错误检测处理器通过总线互连。
CN201811382713.3A 2017-11-23 2018-11-20 多处理器错误检测系统及其方法 Active CN109828855B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170157535A KR102030461B1 (ko) 2017-11-23 2017-11-23 복수의 프로세서 오류 감지 시스템 및 그 방법
KR10-2017-0157535 2017-11-23

Publications (2)

Publication Number Publication Date
CN109828855A true CN109828855A (zh) 2019-05-31
CN109828855B CN109828855B (zh) 2022-07-22

Family

ID=66336383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811382713.3A Active CN109828855B (zh) 2017-11-23 2018-11-20 多处理器错误检测系统及其方法

Country Status (4)

Country Link
US (1) US10891180B2 (zh)
KR (1) KR102030461B1 (zh)
CN (1) CN109828855B (zh)
DE (1) DE102018219764A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102030462B1 (ko) * 2017-12-08 2019-10-10 현대오트론 주식회사 복수의 차량용 멀티 코어 프로세서 오류 모니터링 장치 및 그 방법
DE102020205146A1 (de) * 2020-04-23 2021-10-28 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zur Steuerung eines technischen Systems

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1625155A (zh) * 2003-12-02 2005-06-08 三星电子株式会社 互联网协议分组错误处理设备及其方法和计算机可读介质
CN101006430A (zh) * 2004-08-20 2007-07-25 皇家飞利浦电子股份有限公司 借助数据处理系统和外围设备的错误响应
US20130111276A1 (en) * 2011-10-28 2013-05-02 Kabushiki Kaisha Toshiba Periodic error detection method and periodic error detection circuit
US20130339791A1 (en) * 2012-06-13 2013-12-19 Mitsubishi Electric Corporation Data polling method and digital instrumentation and control system for atomic power plant using the method
US8819313B1 (en) * 2013-07-19 2014-08-26 Superior Traffic Systems, LLC Traffic management system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19601618A1 (de) * 1996-01-18 1997-07-24 Zahnradfabrik Friedrichshafen Sicherheitssystem für ein Automatgetriebe
KR100499908B1 (ko) * 2000-12-27 2005-07-07 (주)동아엘텍 오류 감시 장치 및 이를 운용하는 방법
DE602004001869T2 (de) * 2003-03-20 2007-05-03 Arm Ltd., Cherry Hinton Fehlererkennung und fehlerbehebung für systematische und zufällige fehler innerhalb einer verarbeitungsstufe einer integrierten schaltung
JP4073415B2 (ja) * 2004-03-30 2008-04-09 三洋電機株式会社 情報抽出方法、情報抽出装置及びコンピュータプログラム
US20060229777A1 (en) * 2005-04-12 2006-10-12 Hudson Michael D System and methods of performing real-time on-board automotive telemetry analysis and reporting
US7243048B2 (en) * 2005-11-28 2007-07-10 Honeywell International, Inc. Fault detection system and method using multiway principal component analysis
DE102006017824B4 (de) * 2006-04-13 2018-10-11 Dspace Digital Signal Processing And Control Engineering Gmbh Methode zum Konstruieren einer Diagnosefunktion
US7986149B2 (en) * 2008-08-19 2011-07-26 Infineon Technologies Austria Ag System and method for adaptive load fault detection
KR20140134376A (ko) * 2013-05-14 2014-11-24 한국전자통신연구원 오류감지가 가능한 프로세서 및 이를 이용한 프로세서 코어 오류 감지 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1625155A (zh) * 2003-12-02 2005-06-08 三星电子株式会社 互联网协议分组错误处理设备及其方法和计算机可读介质
CN101006430A (zh) * 2004-08-20 2007-07-25 皇家飞利浦电子股份有限公司 借助数据处理系统和外围设备的错误响应
US20130111276A1 (en) * 2011-10-28 2013-05-02 Kabushiki Kaisha Toshiba Periodic error detection method and periodic error detection circuit
US20130339791A1 (en) * 2012-06-13 2013-12-19 Mitsubishi Electric Corporation Data polling method and digital instrumentation and control system for atomic power plant using the method
US8819313B1 (en) * 2013-07-19 2014-08-26 Superior Traffic Systems, LLC Traffic management system

Also Published As

Publication number Publication date
DE102018219764A1 (de) 2019-05-23
KR102030461B1 (ko) 2019-10-10
US10891180B2 (en) 2021-01-12
KR20190059683A (ko) 2019-05-31
CN109828855B (zh) 2022-07-22
US20190155679A1 (en) 2019-05-23

Similar Documents

Publication Publication Date Title
CN105357038B (zh) 监控虚拟机集群的方法和系统
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
CN103354924B (zh) 用于监视性能指标的方法和系统
EP2523115A1 (en) Operation management device, operation management method, and program storage medium
CN108121630A (zh) 电子装置、重新启动方法及记录媒介
US9319284B2 (en) Operation delay monitoring method, operation management apparatus, and operation management program
CN108388507A (zh) 批量脚本测试方法及装置
US9910710B2 (en) Prioritising event processing based on system workload
EP3935503B1 (en) Capacity management in a cloud computing system using virtual machine series modeling
US8122176B2 (en) System and method for logging system management interrupts
EP2400392A1 (en) Heartbeat system
CN109117298A (zh) 一种硬件故障修复方法、装置及设备
JP2007323193A (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
CN109828855A (zh) 多处理器错误检测系统及其方法
US20170063622A1 (en) Information processing apparatus, computer-readable recording medium, and information processing system
CN109324959B (zh) 一种自动转移数据的方法、服务器及计算机可读存储介质
CN110673973B (zh) 应用程序编程接口api的异常确定方法和装置
US20140280860A1 (en) Method and system for signal categorization for monitoring and detecting health changes in a database system
US8910125B2 (en) Monitoring software performance
Sun et al. R 2 C: Robust rolling-upgrade in clouds
BR102015000309A2 (pt) método para um sistema de estimativa da vida útil restante
JP7038629B2 (ja) 機器状態監視装置及びプログラム
RU2018134973A (ru) Виртуальный рынок для распределяемых инструментальных средств в среде предприятия
CN112907040B (zh) 一种事件处理方法、装置、设备及存储介质
CN115314289A (zh) 受攻击执行体识别方法、输出表决器、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210310

Address after: Seoul, South Kerean

Applicant after: HYUNDAI MOBIS Co.,Ltd.

Address before: Seoul, South Kerean

Applicant before: HYUNDAI AUTRON Co.,Ltd.

GR01 Patent grant
GR01 Patent grant