CN110008078B - 多核处理器错误监控系统和方法 - Google Patents

多核处理器错误监控系统和方法 Download PDF

Info

Publication number
CN110008078B
CN110008078B CN201811485854.8A CN201811485854A CN110008078B CN 110008078 B CN110008078 B CN 110008078B CN 201811485854 A CN201811485854 A CN 201811485854A CN 110008078 B CN110008078 B CN 110008078B
Authority
CN
China
Prior art keywords
error
time
processor
communication
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811485854.8A
Other languages
English (en)
Other versions
CN110008078A (zh
Inventor
金起范
金荣奭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Mobis Co Ltd
Original Assignee
Hyundai Mobis Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Mobis Co Ltd filed Critical Hyundai Mobis Co Ltd
Publication of CN110008078A publication Critical patent/CN110008078A/zh
Application granted granted Critical
Publication of CN110008078B publication Critical patent/CN110008078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3013Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is an embedded system, i.e. a combination of hardware and software dedicated to perform a certain function in mobile devices, printers, automotive or aircraft systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0736Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
    • G06F11/0739Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function in a data processing system embedded in automotive or aircraft systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes

Abstract

提供了一种多核处理器错误监控系统和方法,该系统包括:第一和第二多核处理器;以及错误监控处理器,错误监控处理器配置成监控第一和第二多核处理器。错误监控处理器包括监控模块以及第一缓冲区和第二缓冲区。监控模块通过不穿过第一缓冲区的第一路径和穿过第一缓冲区的第二路径连接到第一多核处理器。监控模块在通过第一路径与第一多核处理器连接的旁路模式下计算并监控与第一多核处理器的包括通信速度和延迟率的通信特性。监控模块在通过第二路径与第一多核处理器连接的QoS模式下测量第一缓冲区的读取和写入时间,以计算与第一多核处理器的通信时间。

Description

多核处理器错误监控系统和方法
相关申请的交叉引用
本申请要求2017年12月8日提交的韩国专利申请第10-2017-0168624号的优先权,其全部内容通过引用并入本文。
技术领域
本发明涉及一种多汽车多核处理器错误监控设备和方法,并且更具体地,涉及一种用于监控多个车辆多核处理器中的每一个中的错误和错误原因的多汽车多核处理器错误监控系统和方法。
背景技术
当前,越来越多具有内置微控制器单元的电子控制设备应用到汽车中。车辆中的微控制器单元在控制车辆的每个设备的功能方面起着重要作用。
然而,有时由于微控制器单元中的故障或异常信号的出现,会出现功能停止的情况。由于微控制器单元的故障可能会严重影响乘车人的安全,因此其应始终正常运行。因此,有必要定期检查微控制器单元是否正常运行。
通常,使用看门狗来监控微控制器单元的异常。例如,存在定期检查触发信号的周期看门狗、带有触发信号的时间窗的窗口看门狗、以及回答给定问题的问答看门狗。
更具体地说,在正常运行期间,系统定期向微处理器发送询问,并定期启动看门狗计时器,以防止响应时间推移或超时。
如果处理器由于硬件缺陷或程序错误而无法重新启动看门狗,则计时器会随时间产生超时信号。该超时信号用于采取若干纠正措施。这种纠正措施通常包括将系统保持在安全状态,并使其恢复正常运行。
看门狗计时器通常存在于计算机控制设备中,这给人类访问或及时响应错误增加了难度。如果软件停止,许多嵌入式系统可能不仅仅依靠用户重启。因此,这些嵌入式系统必须是自支持的。例如,诸如空间探测器之类的远程嵌入式系统可能不会由人类操作员在物理上访问。如果系统无法自动修正错误,它们可能会永久损坏。这种情况下通常会用到看门狗计时器。
图1示出了根据现有技术的处理器的错误监控系统的框图。
过去,为了监控处理内核(或处理器)的正常运行,看门狗计时器在看门狗处理器200中可变地设置,并且在对应时间内从处理内核100接收到看门狗计时器(WDT)脉冲信号后,确定处理内核100的运行没有问题。
如果在WDT中设置的时间内没有从处理内核100接收到WDT脉冲信号,则看门狗处理器200重置处理内核100。在传统的处理内核100错误监控技术中,无法确定多核系统中的哪个内核有问题。
此外,在具有多个看门狗处理器和任意数量处理器的传统多核系统中,看门狗处理器执行操作以监控其他处理器。然而,如果错误发生在特定的处理器中,则错误监控技术无法确定错误发生的具体原因。例如,看门狗处理器可能无法确定特定处理器上发生的错误是算术错误还是通信错误。
发明内容
已做出本发明来解决上述技术问题,并且本发明的目的是充分解决因现有技术的限制和缺点引起的各种问题,并且本发明提供了一种多处理器错误监控系统和方法,用于监控多个处理器中的每一个的错误和错误原因,并提供了一种其上记录有用于执行该方法的程序的计算机可读记录介质。
本发明构思的实施方式提供了一种多核处理器错误监控系统,包括:第一和第二多核处理器;以及错误监控处理器,配置成监控第一和第二多核处理器,其中,错误监控处理器包括监控模块以及第一缓冲区和第二缓冲区,其中,监控模块通过不穿过第一缓冲区的第一路径和穿过第一缓冲区的第二路径连接到第一多核处理器,其中,监控模块在通过第一路径与第一多核处理器连接的旁路模式下计算并监控与第一多核处理器的包括通信速度和延迟率的通信特性,其中,监控模块在通过第二路径与第一多核处理器连接的服务质量(QoS)模式下测量第一缓冲区的读取和写入时间,以计算与第一多核处理器的通信时间。
在一个实施方式中,错误监控处理器可以向第一多核处理器发送错误检测信号,并将发送时间点存储为数据处理请求时间点,其中,第一多核处理器可以包括第一处理器和第二处理器,并且将由第一处理器和第二处理器基于错误检测信号执行而获得的预定数据处理结果作为响应发送给错误监控处理器,其中,错误监控处理器可以存储预定数据处理结果的响应接收时间,并且基于响应接收时间和数据处理请求时间点计算实际操作处理时间,以监控通信特性。
在一个实施方式中,错误监控处理器可以基于在QoS模式下计算的实际操作处理时间和通信时间来计算操作时间和通信时间,并将操作时间和通信时间与预定操作请求时间和通信请求时间进行比较,以检查是操作错误还是通信错误。
在一个实施方式中,在操作错误或通信错误的情况下,错误监控处理器可以增加错误计数。
在一个实施方式中,错误监控处理器可以通过根据操作错误或通信错误改变权重来增加错误计数。
在一个实施方式中,如果实际操作处理时间大于预定操作请求时间,则错误监控处理器可以将旁路模式转换为QoS模式,并执行错误监控。
在一个实施方式中,旁路模式下的延迟率可以基于实际操作处理时间和从特定时间点起对数据处理请求的响应数量来计算。
在一个实施方式中,旁路模式下的通信速度可以基于系统操作频率、从特定时间点起对数据处理请求的响应数量、输入数据的数据位以及监控所需的时间来计算。
在一个实施方式中,在QoS模式下,通信时间可以基于在错误监控处理器需要监控从第一多核处理器接收的数据时第一缓冲区上溢的时间点来计算。
在一个实施方式中,在QoS模式下,通信时间可以基于在错误监控处理器需要监控第一多核处理器的数据读取操作时第一缓冲区下溢的时间点来计算。
附图说明
附图是为了提供对本发明构思的进一步理解,并且附图结合在本说明书中并构成本说明书的一部分。附图示出了本发明构思的实施方式,并与说明书一起用于解释本发明构思的原理。在附图中,
图1示出了根据现有技术的处理器的错误监控系统的框图;
图2是根据本发明的实施方式的多处理器错误监控系统的框图;
图3和图4示出了根据本发明的实施方式的多处理器错误监控系统的操作;以及
图5是根据本发明的实施方式的多处理器错误监控方法的流程图。
具体实施方式
以下内容仅仅说明了本发明的原理。因此,本领域技术人员将能够设计各种本文没有明确描述或图示的设备,这些设备也体现了本发明的原理,并且包括在本发明的构思和范围内。此外,本文列出的所有条件术语和实施方式原则上旨在纯粹用于理解本发明的构思,而不应被解释为限于具体列举的实施方式和条件。
下面将参考附图详细描述上述目的、特征和优点,由此本领域技术人员可以容易地实现本发明的技术思想。
图2是根据本发明的实施方式的多处理器错误监控系统的框图。
根据本发明的实施方式的错误监控系统200包括输入单元220、错误监控处理器210以及多个多核处理器230和240。
根据本发明的实施方式的错误监控系统200还包括用于将多个多核处理器230和240与错误监控处理器210互连的通信装置。通信装置可以是例如串行外围接口(SPI)、控制器局域网(CAN)总线或本地互连网络(LIN)的通信装置。
输入单元220可以从外部接收监控所需的数据,例如系统操作请求时间、系统操作频率和通信数据。这是因为,当监控多个系统时,每个系统可能包括对每个多核处理器的不同操作要求。
多个多核处理器230和240可以包括例如第一多核处理器230和第二多核处理器240。
在这种情况下,多个多核处理器可以是控制不同系统的处理器。例如,第一多核处理器230可以是混合动力车辆(HEV)的电机控制器的多核处理器230,并且第二多核处理器240可以是汽车发动机控制器的多核处理器240。可替换地,第一多核处理器230可以是电动车辆(EV)的车辆控制器(VCU)的处理器,并且第二多核处理器240可以是电动车辆(EV)的微控制器单元(MCU)。
此外,第一多核处理器230可以包括第一多个处理器320和330,并且第二多核处理器240可以包括第二多个处理器340和350。在这种情况下,第一多个处理器320和330以及第二多个处理器340和350可以是相应多核处理器230和240的多个内核。
参考图3,错误监控处理器210监控多个多核处理器230和240的错误。具体地,错误监控处理器210向多个多核处理器230和240发送包括询问的错误监控信号。
多个多核处理器230和240对每个询问执行操作,并将数据处理结果作为错误监控响应返回给错误监控处理器。优选地,多核处理器230和240中的每个处理器320、330、340和350对每个询问执行操作。
出于简单描述的目的,下面将描述第一多核处理器230。由于第二多核处理器240的监控操作和配置与第一多核处理器230的监控操作和配置相同,因此将省略对第二多核处理器的描述。然而,本领域技术人员将能够参照第一多核处理器230的操作和配置来实现第二多核处理器240的操作。
根据本发明的实施方式的错误监控处理器210向第一处理器320发送错误监控信号。错误监控信号通过使用预定通信数据协议的“保留”区域、使用预定通信数据协议中的数据位、向预定通信数据协议添加一些位或者向错误监控系统分配附加引脚的方法来生成。
第一多核处理器230从错误监控处理器210接收包括询问的错误监控信号,并且在第一处理器320和第二处理器330中的每一个中对询问执行操作之后,将数据处理结果发送到错误监控处理器210。
在这种情况下,错误监控处理器210可以将错误监控处理器210的通信数据输入时间点和输出时间点存储为时间戳。此外,错误监控处理器210将数据处理请求时间点(任务请求,参见图3中的a和1)和数据处理请求的响应时间点(任务响应,参见图3中的d和4)存储为第一多核处理器230中的时间戳。
最后,错误监控处理器210至少存储输入/输出到监控系统的数据的时间点、数据处理请求时间、数据处理结果响应时间点和错误输出时间点,并基于此监控通信速度、延迟率和服务质量(QoS)。
下面将参照图4描述根据本发明的实施方式的错误监控处理器210的详细操作。
根据本发明的实施方式的错误监控处理器210可以包括监控模块410以及缓冲区420和430。
监控模块410可以包括监控单元413和存储单元415。此时,监控单元413可以通过以下两种模式监控多核处理器230和240中的每一个。此外,存储单元415可以从外部源接收监控所需的数据,例如预定的系统操作请求时间、系统操作频率和通信数据,并将其存储。
此时,系统操作请求时间包括总响应请求时间(图3中的1+2+3+4)之间的参考时间,例如,从上述数据处理请求时间到数据处理请求响应时间点。此外,系统操作请求时间可以包括整个响应请求时间期间的通信请求时间1和4以及计算请求时间(2+3)。
同时,缓冲区420和430用于测量如下所述的QoS模式下的通信时间,并且可以优选地是二维(2D)缓冲区。
监控模块410和多个多核处理器230和240通过两条路径连接。出于简单描述的目的,下面将描述第一多核处理器230。由于第二多核处理器240的监控操作和配置与第一多核处理器230的监控操作和配置相同,因此将省略对第二多核处理器的描述。然而,本领域技术人员将能够参照第一多核处理器230的操作和配置来实现第二多核处理器240的操作。
监控模块410和第一多核处理器230可以通过第一路径450和第二路径453连接。在这种情况下,第二路径453穿过缓冲区430以监控第一多核处理器230,而第一路径450不穿过缓冲区430。
通过上述配置,监控模块410可以以两种模式操作。
第一种模式是旁路模式。在旁路模式下,它可以通过第一路径450连接在监控模块410和第一多核处理器230之间,而不穿过缓冲区430。
在旁路模式下,错误监控处理器210可以基于输入通信数据时的输入数据的数据位、监控所需的时间(数据处理请求时间点(任务请求)和响应信号接收时间点(任务响应)之间的差)以及系统操作频率,来监控包括通信速度(或通量)和延迟性的通信特性。
通信速度(或通量)可以通过以下等式1来计算。
(等式1)
通信速度=(fsⅹN任务响应ⅹN数据位)/T监控
这里,fs表示系统操作频率。N任务响应表示从特定时间点起对数据处理请求的任务响应数量。N数据位表示输入数据的数据位。T监控表示监控所需的时间(即从数据由错误监控处理器传输到第一多核处理器230的时间点到从错误监控处理器接收到数据处理响应的时间点所花费的时间)。
另一方面,延迟率可以由下面的等式2计算。
(等式2)
延迟率=数据处理时间/N任务响应
这里,数据处理时间是指数据处理请求时间(见图3中的a和1)和对数据处理请求的响应时间点(任务响应,见图3中的d和4)之间的差。
另一方面,在服务质量模式(QoS模式)下,当出现问题时,监控模块410可以检测问题是由通信错误还是操作错误引起的。
在QoS模式下,监控模块410和第一多核处理器230经由第二路径453通过缓冲区430连接。
在QoS模式下,当错误监控处理器210需要监控从第一多核处理器230接收的数据时,第一多核处理器230的数据被写入缓冲区430。此时,错误监控处理器210测量缓冲区430被填充的速度,即数据上溢出缓冲区430的时间点,并确定该时间点是否小于预定的通信请求时间。
在QoS模式下,当错误监控处理器210需要监控第一多核处理器230的数据读取操作时,缓冲区430中的数据被清空。此时,错误监控处理器210测量缓冲区430被清空的速度,即数据下溢出缓冲区430的时间点,并确定该时间点是否小于预定的通信请求时间。
因为在第一多核处理器230的情况下,总操作时间(总响应请求时间)是指操作时间+通信时间,即图4中的1+2+3+4,所以通信时间(即1和4)可以通过QoS模式获知。
简而言之,通过QoS模式,错误监控处理器210测量上述缓冲区的读取/写入操作时间,使得可以仅计算出通信时间,而操作时间可以通过从数据处理时间(从开始时间点1到接收完成时间点4)减去通信时间来计算。特别地,可以检查在通信时间内是发生写入错误还是读取错误。
因此,错误监控处理器210可以通过简单的方法来确定是通信错误还是操作错误,而无需获得多个处理器中的每一个的处理时间。
另一方面,当在操作请求时间内没有处理从数据处理请求时间点到响应时间点的实际操作处理时间时,错误监控处理器210可以将错误计数增加预定值。
如果错误计数超过预定阈值,则错误监控处理器210可以向多个处理器230和240中发生错误的多核处理器发送错误发生信号。错误发生信号可以是指示错误发生的标志信号和重置信号。
当根据本发明的实施方式的错误监控系统200是通信速度很重要的系统并且未在操作请求时间内处理操作处理时间的原因是由于操作性能消耗时间时,错误监控处理器210通过加权预定值来增加错误计数。例如,当确定计算时间重要时,错误监控处理器210可以在通信错误时将错误计数增加1,在操作错误时将错误计数增加2。也就是说,操作错误可以比通信错误使错误计数增加更多。
同时,当根据本发明的实施方式的错误监控系统200是通信速度很重要的系统并且未在操作请求时间内处理操作处理时间的原因是由于通信时间造成的错误时,错误监控处理器210通过加权预定值来增加错误计数。
此外,如果根据本发明另一实施方式的错误监控系统是操作速度很重要的系统,则错误监控处理器通过将预定权重加到多个处理器中的每一个的操作性能消耗时间所获得的值与从错误监控信号发送时间点到更新的错误监控信号接收时间点的通信时间相加来计算操作处理时间。如果在操作请求时间内没有处理操作处理时间,则错误监控处理器将错误计数增加预定值。
如果错误计数超过预定阈值,则错误监控处理器向导致多个处理器错误的至少一个处理器发送错误发生信号。错误发生信号包括包含指示错误发生的标志值的信号和重置信号。
如果根据本发明另一实施方式的错误监控系统是操作速度很重要的系统,则错误监控处理器通过将使预定权重分配给从错误监控信号发送时间点到更新的错误监控信号接收时间点的通信时间而获得的值与多个处理器中的每一个的操作性能消耗时间相加,来计算操作处理时间。如果在操作请求时间内没有处理操作处理时间,则错误监控处理器将错误计数增加预定值。如果错误计数超过预定阈值,则错误监控处理器向导致多个处理器错误的至少一个处理器发送错误发生信号。错误发生信号可以包括包含指示错误发生的标志值的信号和重置信号。
图5是根据本发明的实施方式的错误监控方法的流程图。
在步骤S510中,错误监控系统200可以从外部源接收监控所需的数据,例如预定的系统操作请求时间、系统操作频率和通信数据,并将其存储。
在步骤S520中,错误监控系统200可以选择一个模式。在这种情况下,模式包括旁路模式和QoS模式。例如,在先前操作中在监控旁路模式的错误之后,如果延迟率或通信速度存在错误,则可以选择QoS模式并优先使用。可替换地,旁路模式和QoS模式可以重复执行。
在步骤S530中,当进行到旁路模式时,错误监控系统200向错误监控处理器210中的多核处理器230和240的第一处理器320和340发送包括询问的错误检测信号,并存储发送时间。
在步骤S540中,错误监控系统200通过多个处理器中的每一个执行预定操作,并且错误监控处理器210接收执行的操作的结果并存储接收时间。
在步骤S550中,错误监控系统200基于错误检测信号发送时间和计算结果接收时间来获得包括通信速度和延迟率的通信特性。此时,确认通信速度和延迟率是否满足操作请求时间。当通信速度和延迟率不满足操作请求时间时,可以在下次模式选择中选择QoS模式。
另一方面,在步骤S560中,错误监控系统200选择QoS模式,使用错误监控处理器210中的缓冲区计算读取/写入时间,并计算通信时间。
此外,在步骤S570中,错误监控系统200可以计算从总操作时间排除通信时间后的操作时间,并且在步骤S580中,确定每个时间(操作时间和通信时间)是否满足每个操作请求时间。
在步骤S590中,如果不满足每个操作请求时间,则错误监控系统200执行错误计数,并且如果错误计数的数量超过预定阈值,则可以向对应的多核处理器发送错误标志或者重置对应的多核处理器。
在重置或错误标志发送之后,错误监控系统200可以再次输入所需的数据,例如系统操作请求时间,并重复监控。
根据本发明,不仅可以识别多核系统中出现问题的处理内核,还可以识别问题的原因是操作错误还是通信错误。
因此,根据本发明的多核错误监控设备不仅确保了系统操作的安全性,而且提高了解决所识别问题的工作性能。
虽然已经参考附图中所示的实施方式描述了本发明,但是这仅仅是说明性的,本领域技术人员将理解,在不脱离本发明范围的情况下,可以进行各种改变和修改。因此,本发明的真正范围应该由所附权利要求的技术思想来确定。

Claims (20)

1.一种多核处理器错误监控系统,包括:
第一多核处理器和第二多核处理器;以及
错误监控处理器,配置成监控所述第一多核处理器和第二多核处理器,
其中,所述错误监控处理器包括监控模块以及第一缓冲区和第二缓冲区,
其中,所述监控模块通过不穿过所述第一缓冲区的第一路径和穿过所述第一缓冲区的第二路径连接到所述第一多核处理器,
其中,所述监控模块在通过所述第一路径与所述第一多核处理器连接的旁路模式下计算并监控与所述第一多核处理器的包括通信速度和延迟率的通信特性,
其中,所述监控模块在通过所述第二路径与所述第一多核处理器连接的服务质量模式下测量所述第一缓冲区的读取和写入时间,以计算与所述第一多核处理器的通信时间。
2.根据权利要求1所述的系统,其中,所述错误监控处理器向所述第一多核处理器发送错误检测信号,并将发送时间点存储为数据处理请求时间点,
其中,所述第一多核处理器包括第一处理器和第二处理器,并且将由所述第一处理器和所述第二处理器基于所述错误检测信号执行而获得的预定数据处理结果作为响应发送给所述错误监控处理器,
其中,所述错误监控处理器存储所述预定数据处理结果的响应接收时间,并且基于所述响应接收时间和所述数据处理请求时间点计算实际操作处理时间,以监控所述通信特性。
3.根据权利要求2所述的系统,其中,所述错误监控处理器基于在所述服务质量模式下计算的所述实际操作处理时间和通信时间来计算操作时间和所述通信时间,并将所述操作时间和所述通信时间与预定操作请求时间和通信请求时间进行比较,以检查是操作错误还是通信错误。
4.根据权利要求3所述的系统,其中,在所述操作错误或所述通信错误的情况下,所述错误监控处理器增加错误计数。
5.根据权利要求4所述的系统,其中,所述错误监控处理器通过根据所述操作错误或所述通信错误改变权重来增加所述错误计数。
6.根据权利要求2所述的系统,其中,如果所述实际操作处理时间大于预定操作请求时间,则所述错误监控处理器将旁路模式转换为服务质量模式,并执行错误监控。
7.根据权利要求2所述的系统,其中,所述旁路模式下的所述延迟率基于所述实际操作处理时间和从数据处理请求时间点起对数据处理请求的响应数量来计算。
8.根据权利要求1所述的系统,其中,所述旁路模式下的所述通信速度基于系统操作频率、从数据处理请求时间点起对数据处理请求的响应数量、输入数据的数据位、以及监控所需的时间来计算。
9.根据权利要求1所述的系统,其中,在所述服务质量模式下,所述通信时间基于在所述错误监控处理器需要监控从所述第一多核处理器接收的数据时所述第一缓冲区上溢的时间点来计算。
10.根据权利要求1所述的系统,其中,在所述服务质量模式下,所述通信时间基于在所述错误监控处理器需要监控所述第一多核处理器的数据读取操作时所述第一缓冲区下溢的时间点来计算。
11.一种多核处理器错误监控方法,包括:
输入监控所需的数据,所述数据包括系统操作请求时间;
选择旁路模式和服务质量模式中的任一项;
由错误监控处理器在所述旁路模式下向第一多核处理器发送错误检测信号;
由所述第一多核处理器在所述旁路模式下执行预定操作,并然后发送对所述错误检测信号的响应;
由所述错误监控处理器在所述旁路模式下基于响应时间点获得包括通信速度和延迟率的通信特性,并然后检查所述通信特性是否对应于操作请求特性;
在所述服务质量模式下使用第一缓冲区计算与所述第一多核处理器的通信时间;以及
基于所述通信时间确定是通信错误还是操作错误。
12.根据权利要求11所述的方法,其中,在所述旁路模式下发送所述错误检测信号包括由所述错误监控处理器向所述第一多核处理器发送所述错误检测信号,并将发送时间点存储为数据处理请求时间点,
其中,在所述旁路模式下发送对所述错误检测信号的响应包括:由所述第一多核处理器将由所述第一多核处理器的第一处理器和第二处理器基于所述错误检测信号执行的预定数据处理结果作为响应发送到所述错误监控处理器,
其中,在确定所述通信特性之后检查其是否对应于所述操作请求特性包括:由所述错误监控处理器存储所述预定数据处理结果的响应接收时间,并且基于所述响应接收时间和所述数据处理请求时间点计算实际操作处理时间,以监控所述通信特性。
13.根据权利要求12所述的方法,还包括由所述错误监控处理器基于在所述服务质量模式下计算的所述实际操作处理时间和通信时间来计算操作时间和所述通信时间,并将所述操作时间和所述通信时间与预定操作请求时间和通信请求时间进行比较,以检查是操作错误还是通信错误。
14.根据权利要求13所述的方法,还包括在所述操作错误或所述通信错误的情况下,由所述错误监控处理器增加错误计数。
15.根据权利要求14所述的方法,其中,增加所述错误计数包括:由所述错误监控处理器通过根据所述操作错误或所述通信错误改变权重来增加所述错误计数。
16.根据权利要求12所述的方法,还包括如果所述实际操作处理时间大于预定操作请求时间,则由所述错误监控处理器将旁路模式转换为服务质量模式,并执行错误监控。
17.根据权利要求12所述的方法,其中,所述旁路模式下的所述延迟率基于所述实际操作处理时间和从数据处理请求时间点起对数据处理请求的响应数量来计算。
18.根据权利要求11所述的方法,其中,所述旁路模式下的所述通信速度基于系统操作频率、从数据处理请求时间点起对数据处理请求的响应数量、输入数据的数据位、以及监控所需的时间来计算。
19.根据权利要求11所述的方法,其中,在所述服务质量模式下,所述通信时间基于在所述错误监控处理器需要监控从所述第一多核处理器接收的数据时所述第一缓冲区上溢的时间点来计算。
20.根据权利要求11所述的方法,其中,在所述服务质量模式下,所述通信时间基于在所述错误监控处理器需要监控所述第一多核处理器的数据读取操作时所述第一缓冲区下溢的时间点来计算。
CN201811485854.8A 2017-12-08 2018-12-06 多核处理器错误监控系统和方法 Active CN110008078B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0168624 2017-12-08
KR1020170168624A KR102030462B1 (ko) 2017-12-08 2017-12-08 복수의 차량용 멀티 코어 프로세서 오류 모니터링 장치 및 그 방법

Publications (2)

Publication Number Publication Date
CN110008078A CN110008078A (zh) 2019-07-12
CN110008078B true CN110008078B (zh) 2023-06-23

Family

ID=66629289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811485854.8A Active CN110008078B (zh) 2017-12-08 2018-12-06 多核处理器错误监控系统和方法

Country Status (4)

Country Link
US (1) US10789114B2 (zh)
KR (1) KR102030462B1 (zh)
CN (1) CN110008078B (zh)
DE (1) DE102018220820A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6679201B1 (ja) * 2019-02-05 2020-04-15 三菱電機株式会社 情報処理装置、情報処理システム、プログラム及び情報処理方法
US11036573B2 (en) * 2019-05-16 2021-06-15 Ford Global Technologies, Llc Control processor unit (CPU) error detection by another CPU via communication bus
US10936397B2 (en) * 2019-05-23 2021-03-02 Ford Global Technologies, Llc Hybrid control module status communication system and method
JP7278205B2 (ja) * 2019-12-12 2023-05-19 三菱電機株式会社 演算装置および演算装置の監視方法
KR102418059B1 (ko) 2020-12-08 2022-07-06 현대오토에버 주식회사 차량의 이종 제어기간 통신 응답시간 추정 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4411577A (en) * 1980-03-07 1983-10-25 Rapistan Division, Lear Siegler, Inc. Vehicle sensor monitoring system
CN104731667A (zh) * 2013-12-19 2015-06-24 现代自动车株式会社 监控多个微核心的设备和方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7349691B2 (en) * 2001-07-03 2008-03-25 Microsoft Corporation System and apparatus for performing broadcast and localcast communications
KR100726332B1 (ko) * 2004-04-21 2007-06-11 인하대학교 산학협력단 무선 통신망에서 무선 차별화 서비스를 제공하기 위한패킷 스케줄링 방법 및 장치
KR100611104B1 (ko) * 2004-11-11 2006-08-09 한국전자통신연구원 이더넷 라인 인터페이스 장치
DE102006008958A1 (de) * 2005-03-10 2006-09-28 Continental Teves Ag & Co. Ohg Elektronisches Kraftfahrzeugbremsensteuergerät
US20060229777A1 (en) * 2005-04-12 2006-10-12 Hudson Michael D System and methods of performing real-time on-board automotive telemetry analysis and reporting
US7243048B2 (en) * 2005-11-28 2007-07-10 Honeywell International, Inc. Fault detection system and method using multiway principal component analysis
DE102006017824B4 (de) * 2006-04-13 2018-10-11 Dspace Digital Signal Processing And Control Engineering Gmbh Methode zum Konstruieren einer Diagnosefunktion
US8032804B2 (en) * 2009-01-12 2011-10-04 Micron Technology, Inc. Systems and methods for monitoring a memory system
KR101356541B1 (ko) * 2012-01-09 2014-01-29 한국과학기술원 멀티 코어 프로세서, 이를 포함하는 멀티 코어 시스템, 전자 장치 및 멀티 코어 프로세서의 캐시 공유 방법
DE102012017386B4 (de) * 2012-09-01 2020-10-15 Volkswagen Aktiengesellschaft Verfahren zum Überwachen einer mit einem Kommunikationskanal verbundenen Vorrichtung
US10261817B2 (en) * 2014-07-29 2019-04-16 Nxp Usa, Inc. System on a chip and method for a controller supported virtual machine monitor
KR101646210B1 (ko) * 2014-09-23 2016-08-05 국민대학교산학협력단 기능 안전성을 고려한 모터 제어 시스템
EP3220681B1 (en) * 2016-03-18 2020-07-15 Nokia Technologies Oy Adaptive and dynamic qos/qoe enforcement
JP7346401B2 (ja) * 2017-11-10 2023-09-19 エヌビディア コーポレーション 安全で信頼できる自動運転車両のためのシステム及び方法
KR102030461B1 (ko) * 2017-11-23 2019-10-10 현대오트론 주식회사 복수의 프로세서 오류 감지 시스템 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4411577A (en) * 1980-03-07 1983-10-25 Rapistan Division, Lear Siegler, Inc. Vehicle sensor monitoring system
CN104731667A (zh) * 2013-12-19 2015-06-24 现代自动车株式会社 监控多个微核心的设备和方法

Also Published As

Publication number Publication date
KR20190068330A (ko) 2019-06-18
US10789114B2 (en) 2020-09-29
CN110008078A (zh) 2019-07-12
KR102030462B1 (ko) 2019-10-10
DE102018220820A1 (de) 2019-06-13
US20190179693A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
CN110008078B (zh) 多核处理器错误监控系统和方法
EP3724763B1 (en) System and method for online functional testing for error-correcting code function
EP3306475A2 (en) System and method for predicting disk failure
US11640247B2 (en) Providing service address space for diagnostics collection
CN111258493B (zh) 控制器、存储器控制器、存储设备以及操作控制器的方法
WO2014027276A1 (en) Handling intermittent recurring errors in network
US11068337B2 (en) Data processing apparatus that disconnects control circuit from error detection circuit and diagnosis method
CN112713964B (zh) 数据校验加速方法、装置、计算机设备及存储介质
US10387233B2 (en) Information processing device and method of testing
US10528408B2 (en) Symmetric connectivity over SCSI where the initiator and target are symmetric
JP5381109B2 (ja) 通信装置及びその制御プログラム
CN116382839A (zh) 虚拟机的状态检测方法、装置、电子设备及存储介质
CN112804115B (zh) 一种虚拟网络功能的异常检测方法、装置及设备
US7779179B2 (en) Interface controller, method for controlling the interface controller, and a computer system
KR102476933B1 (ko) 인터커넥트 및 인터커넥트의 작동방법
JP5371123B2 (ja) 障害検出方法、制御装置、マルチプロセッサシステム
US11093346B2 (en) Uninterrupted backup operation using a time based approach
US20200379851A1 (en) Uninterrupted restore operation using a time based approach
WO2010061482A1 (ja) 試験装置、シリアル伝送システム、プログラム、および、記録媒体
CN116339205A (zh) 诊断信息同步方法、装置、电子设备及存储介质
KR101045956B1 (ko) 데이터 전송성능 진단 시스템 및 방법과, 그 방법을 실행하기 위한 프로그램이 기록된 기록매체
JP2003281087A (ja) メモリターゲット装置及びデータ転送システム
CN115422111A (zh) 总线通信方法、设备及存储介质
JP2009098884A (ja) 半導体モニタ装置、半導体モニタ装置の通信条件設定方法、及びシミュレーションシステム
KR20140068766A (ko) 메시지의 제공 및 전송을 위한 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210312

Address after: Seoul, South Kerean

Applicant after: HYUNDAI MOBIS Co.,Ltd.

Address before: Seoul, South Kerean

Applicant before: HYUNDAI AUTRON Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant