CN117472639A - 一种多芯片互连系统及方法 - Google Patents

一种多芯片互连系统及方法 Download PDF

Info

Publication number
CN117472639A
CN117472639A CN202311820906.3A CN202311820906A CN117472639A CN 117472639 A CN117472639 A CN 117472639A CN 202311820906 A CN202311820906 A CN 202311820906A CN 117472639 A CN117472639 A CN 117472639A
Authority
CN
China
Prior art keywords
fault
chip
risk
module
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311820906.3A
Other languages
English (en)
Other versions
CN117472639B (zh
Inventor
王嘉诚
张少仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongcheng Hualong Computer Technology Co Ltd
Original Assignee
Zhongcheng Hualong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongcheng Hualong Computer Technology Co Ltd filed Critical Zhongcheng Hualong Computer Technology Co Ltd
Priority to CN202311820906.3A priority Critical patent/CN117472639B/zh
Publication of CN117472639A publication Critical patent/CN117472639A/zh
Application granted granted Critical
Publication of CN117472639B publication Critical patent/CN117472639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种多芯片互连系统及方法,涉及芯片技术领域,包括芯片故障历史数据收集模块、芯片故障评估模块、芯片故障监测模块、数据储存模块以及任务调度模块,所述芯片故障评估模块包括有芯片故障分级模块、芯片故障判断模块以及芯片故障预警处理模块,其中,各个模块之间电性连接;所述芯片故障历史数据收集模块,用于预先收集芯片运行过程中的历史故障数据,并将历史故障数据发送至芯片故障分级模块。本发明根据故障的严重性和影响程度进行划分,将芯片故障分为不同的级别,并针对不同级别的故障采取不同的控制和修复措施,检测到芯片故障时,可根据芯片故障严重状况,重新分配任务和资源,降低故障芯片对整体系统的影响程度。

Description

一种多芯片互连系统及方法
技术领域
本发明涉及芯片技术领域,具体涉及一种多芯片互连系统及方法。
背景技术
多芯片互连是指多个芯片通过总线互连协同工作,对外表现为一个完整的系统,随着科学、工程、商业和日常生活中的应用场景越来越复杂,涉及到的计算、存储和通信需求也不断增长,在面对复杂应用、单片芯片性能限制以及追求更高效能、更低成本等多重因素推动下,多芯片互连模式被逐渐发展及应用在各个领域行业中。
目前多芯片系统中不同芯片并发操作,一个芯片出现故障可能影响整个系统的稳定,使得整个系统的数据传输存在安全隐患,因此,如何对多芯片互连系统中芯片的故障问题进行风险等级的预测评估并分级管理控制,是亟需解决的问题,为此,提出一种多芯片互连系统及方法。
发明内容
本发明目的在于提供一种多芯片互连系统及方法,以解决上述背景技术中提出的问题。
为解决上述技术问题,本发明所采用的技术方案是:
第一方面,一种多芯片互连系统,包括芯片故障历史数据收集模块、芯片故障评估模块、芯片故障监测模块、数据储存模块以及任务调度模块,所述芯片故障评估模块包括有芯片故障分级模块、芯片故障判断模块以及芯片故障预警处理模块,其中,各个模块之间电性连接;
所述芯片故障历史数据收集模块,用于预先收集芯片运行过程中的历史故障数据,并将历史故障数据发送至芯片故障分级模块;
所述芯片故障分级模块,用于根据芯片故障严重性和影响程度进行风险等级划分,获取故障风险分类表和芯片故障等级;
所述芯片故障判断模块,基于故障风险评估表及相关历史故障数据,获取故障判断指数并评估芯片故障的对应风险等级,将评估结果发送至芯片故障预警理模块;
所述芯片故障监测模块,用于对多芯片互连系统的各个芯片进行监控,收集芯片的故障数据;
所述芯片故障预警处理模块,用于根据故障评估结果与芯片故障监测模块收集的芯片故障数据的影响程度指数比对,基于芯片故障风险等级,采取措施处理故障,包括重新分配任务、绕过故障芯片、限制故障影响范围;
所述数据储存模块,用于储存芯片故障历史数据以及故障风险评估表;
所述任务调度模块,用于基于芯片故障预警处理模块的处理措施,安排芯片的任务分配,避免使用故障芯片或减少其使用频率。
本发明技术方案的进一步改进在于:所述芯片运行的历史故障数据收集过程为,
步骤101,建立芯片故障数据库,获取芯片运行过程中的历史故障类型,芯片故障数据库数据来源为互联网、行业报告、芯片行业网站和论坛;
步骤102,对于获取的芯片历史故障类型,采集芯片发生的错误类型、故障影响范围、持续时间以及修复难度数据,并基于故障事件日志提取故障的描述、诊断结果以及处理措施数据;
步骤103,对提取的芯片运行历史故障数据,进行数据处理后并采用数据储存模块储存相关数据。
本发明技术方案的进一步改进在于:所述故障风险分类表和芯片故障等级的获取过程为,
步骤201,基于芯片运行的历史故障数据,根据芯片故障严重性和影响程度划分风险等级;
步骤202,设定三级故障等级标准,一级风险,低风险,对系统无危害影响,不需要采取任何措施,由于芯片出现了一些轻微的异常情况,但对系统运行没有任何影响,对于这种风险,可以暂时忽略不计,但需要定期进行监测和观察,以确保不会对系统造成潜在的危害;二级风险,中度风险,对系统存在轻微影响,由于芯片出现轻微故障或对系统运行产生一定影响导致的,可以采取一些修复或维护措施来解决问题,或者暂时采取一些替代措施以保证系统的正常运行;三级风险,高风险,需立刻整改,无法继续作业,该风险通常是由于芯片出现致命故障或严重影响系统运行的情况导致的,当出现这种风险时,需要立即采取措施进行修复或替换芯片,以避免对系统造成更大的损失;
步骤203,对芯片故障数据进行标记,并获取故障风险分类表;
步骤204,将故障风险分类表储存到数据储存模块中。
本发明技术方案的进一步改进在于:所述故障判断指数的获取过程为
步骤301,根据芯片历史故障数据总量,获取故障的发生频率、影响程度指数以及不同风险等级的故障数量;
步骤302,基于影响范围权重、持续时间权重以及修复难度权重决定获取影响程度指数;
步骤303,根据芯片历史故障数据总量、故障的发生频率、影响程度指数以及不同风险等级的故障数量,获取故障判断指数并评估芯片故障的对应风险等级;
步骤304,设定芯片故障风险等级的预设阈值,判断故障等级。
本发明技术方案的进一步改进在于:所述故障判断指数的计算公式为:
;
其中,表示故障判断指数,/>表示故障的发生次数,/>表示该风险等级的故障数量,/>表示故障发生次数的历史平均值,/>表示该风险等级故障数量的历史平均值,/>表示历史数据的总量,/>为故障时间间隔,/>表示影响范围权重,/>表示持续时间权重,/>表示修复难度权重。
本发明技术方案的进一步改进在于:所述影响范围权重,基于故障影响的芯片数量决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值;
持续时间权重,基于故障持续时间的长短决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值;
修复难度权重,基于修复难易程度决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值。
本发明技术方案的进一步改进在于:所述故障等级的判断过程为,
步骤401,基于故障判断指数,设定故障等级阈值
步骤402,设定一级风险阈值范围、二级风险阈值范围以及三级风险阈值范围;
步骤403,根据风险等级判断故障等级,采取措施处理故障。
本发明技术方案的进一步改进在于:所述一级风险阈值范围为
所述二级风险阈值范围为
所述三级风险阈值范围为
本发明技术方案的进一步改进在于:所述处理措施为,
对于一级风险的故障,记录故障状态,定期进行监测和观察;
对于二级风险的故障,均衡芯片负载,减少故障芯片的任务执行量,限制故障影响范围,将任务分配至其他芯片;
对于三级风险的故障,采取紧急处理措施及优先处理措施,停止故障芯片的使用,绕过故障芯片,根据芯片的工作状态和任务的重要性,设定不同的任务优先级,当多个任务需要执行时,优先执行优先级高的任务,延迟执行或使用其他正常芯片执行优先级低的任务。
一种多芯片互连方法,包括以下步骤:
步骤1,收集并处理芯片运行过程中的历史故障数据;
步骤2,根据芯片故障严重性和影响程度进行风险等级划分,获取故障风险分类表和芯片故障等级;
步骤3,基于故障风险评估表及相关历史故障数据,获取故障判断指数并评估芯片故障的对应风险等级;
步骤4,对多芯片互连系统的各个芯片进行监控,收集芯片的故障数据,并根据故障评估结果与收集的芯片故障数据的影响程度指数比对,基于芯片故障风险等级,采取措施处理故障。
由于采用了上述技术方案,本发明相对现有技术来说,取得的技术进步是:
1、本发明提供一种多芯片互连系统及方法,根据故障的严重性和影响程度进行划分,将芯片故障分为不同的级别,并针对不同级别的故障采取不同的控制和修复措施,检测到芯片故障时,可根据芯片故障严重状况,重新分配任务和资源,降低故障芯片对整体系统的影响程度。
2、本发明提供一种多芯片互连系统及方法,通过各个模块的协同工作,多芯片互连系统能够有效地监测和管理芯片故障,并根据故障的严重性和影响程度采取适当的控制和修复措施,降低故障对整体系统的影响程度,有效地安排芯片的任务分配,避免使用故障芯片或减少其使用频率,从而提高系统的可靠性和稳定性。
3、本发明提供一种多芯片互连系统及方法,根据故障判断指数评估芯片故障的对应风险等级,基于芯片故障风险等级采取措施处理故障,并进行芯片的任务分配,从而提高多芯片互连系统的运行安全及稳定性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的模块图;
图2为本发明芯片运行的历史故障数据收集流程图;
图3为本发明故障风险分类表和芯片故障等级的获取流程图;
图4为本发明故障判断指数的获取流程图;
图5为本发明的方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1,如图1-4所示,本发明提供了一种多芯片互连系统,包括芯片故障历史数据收集模块、芯片故障评估模块、芯片故障监测模块、数据储存模块以及任务调度模块,芯片故障评估模块包括有芯片故障分级模块、芯片故障判断模块以及芯片故障预警处理模块,其中,各个模块之间电性连接;
芯片故障历史数据收集模块,用于预先收集芯片运行过程中的历史故障数据,并将历史故障数据发送至芯片故障分级模块,建立芯片故障数据库,获取芯片运行过程中的历史故障类型;芯片故障数据库数据来源为互联网、行业报告、芯片行业网站和论坛,对于获取的芯片历史故障类型,采集芯片发生的错误类型、故障影响范围、持续时间以及修复难度数据,并基于故障事件日志提取故障的描述、诊断结果以及处理措施数据,对提取的芯片运行历史故障数据,进行数据处理后并采用数据储存模块储存相关数据;
芯片故障分级模块,用于根据芯片故障严重性和影响程度进行风险等级划分,获取故障风险分类表和芯片故障等级,基于芯片运行的历史故障数据,根据芯片故障严重性和影响程度划分风险等级;设定三级故障等级标准,一级风险,低风险,对系统无危害影响,不需要采取任何措施,由于芯片出现了一些轻微的异常情况,但对系统运行没有任何影响,对于这种风险,可以暂时忽略不计,但需要定期进行监测和观察,以确保不会对系统造成潜在的危害;二级风险,中度风险,对系统存在轻微影响,由于芯片出现轻微故障或对系统运行产生一定影响导致的,可以采取一些修复或维护措施来解决问题,或者暂时采取一些替代措施以保证系统的正常运行;三级风险,高风险,需立刻整改,无法继续作业,该风险通常是由于芯片出现致命故障或严重影响系统运行的情况导致的,当出现这种风险时,需要立即采取措施进行修复或替换芯片,以避免对系统造成更大的损失;对芯片故障数据进行标记,并获取故障风险分类表,将故障风险分类表储存到数据储存模块中;
芯片故障判断模块,基于故障风险评估表及相关历史故障数据,获取故障判断指数并评估芯片故障的对应风险等级,将评估结果发送至芯片故障预警理模块,根据芯片历史故障数据总量,获取故障的发生频率、影响程度指数以及不同风险等级的故障数量,基于影响范围权重、持续时间权重以及修复难度权重决定获取影响程度指数,根据芯片历史故障数据总量、故障的发生频率、影响程度指数以及不同风险等级的故障数量,获取故障判断指数并评估芯片故障的对应风险等级,设定芯片故障风险等级的预设阈值,判断故障等级;
故障判断指数的计算公式为:
;
其中,表示故障判断指数,/>表示故障的发生次数,/>表示该风险等级的故障数量,/>表示故障发生次数的历史平均值,/>表示该风险等级故障数量的历史平均值,/>表示历史数据的总量,/>为故障时间间隔,/>表示影响范围权重,/>表示持续时间权重,/>表示修复难度权重;影响范围权重/>,基于故障影响的芯片数量决定,影响范围越大,权重越高,将影响范围分为局部影响、中等影响和全局影响三个等级,并为每个等级分别赋予0.2、0.3、0.4的权重值;持续时间权重/>,基于故障持续时间的长短决定,持续时间越长,权重越高,将故障持续时间分为短暂、中等和持续三个等级,并为每个等级分别赋予0.2、0.3、0.4的权重值;修复难度权重/>,基于修复难易程度决定,修复难度越大,权重越高,将修复难度分为容易、中等和困难三个等级,并为每个等级分别赋予0.2、0.3、0.4的权重值;基于故障判断指数,设定故障等级阈值/>,设定一级风险阈值范围、二级风险阈值范围以及三级风险阈值范围,根据风险等级判断故障等级,采取措施处理故障,一级风险阈值范围为;二级风险阈值范围为/>;三级风险阈值范围为/>
芯片故障监测模块,用于对多芯片互连系统的各个芯片进行监控,收集芯片的故障数据;
芯片故障预警处理模块,用于根据故障评估结果与芯片故障监测模块收集的芯片故障数据的影响程度指数比对,基于芯片故障风险等级,采取措施处理故障,包括重新分配任务、绕过故障芯片、限制故障影响范围;
数据储存模块,用于储存芯片故障历史数据以及故障风险评估表;
任务调度模块,用于基于芯片故障预警处理模块的处理措施,安排芯片的任务分配,避免使用故障芯片或减少其使用频率,对于一级风险的故障,记录故障状态,定期进行监测和观察;对于二级风险的故障,均衡芯片负载,减少故障芯片的任务执行量,限制故障影响范围,将任务分配至其他芯片;对于三级风险的故障,采取紧急处理措施及优先处理措施,停止故障芯片的使用,绕过故障芯片,根据芯片的工作状态和任务的重要性,设定不同的任务优先级,当多个任务需要执行时,优先执行优先级高的任务,延迟执行或使用其他正常芯片执行优先级低的任务。
实施例2,如图5所示,在实施例1的基础上,本发明提供了一种多芯片互连方法,包括以下步骤:
步骤1,收集并处理芯片运行过程中的历史故障数据;
步骤2,根据芯片故障严重性和影响程度进行风险等级划分,获取故障风险分类表和芯片故障等级;
步骤3,基于故障风险评估表及相关历史故障数据,获取故障判断指数并评估芯片故障的对应风险等级;
步骤4,对多芯片互连系统的各个芯片进行监控,收集芯片的故障数据,并根据故障评估结果与收集的芯片故障数据的影响程度指数比对,基于芯片故障风险等级,采取措施处理故障。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种多芯片互连系统,其特征在于:包括芯片故障历史数据收集模块、芯片故障评估模块、芯片故障监测模块、数据储存模块以及任务调度模块,所述芯片故障评估模块包括有芯片故障分级模块、芯片故障判断模块以及芯片故障预警处理模块,其中,各个模块之间电性连接;
所述芯片故障历史数据收集模块,用于预先收集芯片运行过程中的历史故障数据,并将历史故障数据发送至芯片故障分级模块;
所述芯片故障分级模块,用于根据芯片故障严重性和影响程度进行风险等级划分,获取故障风险分类表和芯片故障等级;
所述芯片故障判断模块,基于故障风险评估表及相关历史故障数据,获取故障判断指数并评估芯片故障的对应风险等级,将评估结果发送至芯片故障预警理模块;
所述芯片故障监测模块,用于对多芯片互连系统的各个芯片进行监控,收集芯片的故障数据;
所述芯片故障预警处理模块,用于根据故障评估结果与芯片故障监测模块收集的芯片故障数据的影响程度指数比对,基于芯片故障风险等级,采取措施处理故障;
所述数据储存模块,用于储存芯片故障历史数据以及故障风险评估表;
所述任务调度模块,用于基于芯片故障预警处理模块的处理措施,安排芯片的任务分配。
2.根据权利要求1所述的一种多芯片互连系统,其特征在于:所述芯片运行的历史故障数据收集过程为,
步骤101,建立芯片故障数据库,获取芯片运行过程中的历史故障类型;
步骤102,对于获取的芯片历史故障类型,采集芯片发生的错误类型、故障影响范围、持续时间以及修复难度数据,并基于故障事件日志提取故障的描述、诊断结果以及处理措施数据;
步骤103,对提取的芯片运行历史故障数据,进行数据处理后并采用数据储存模块储存相关数据。
3.根据权利要求2所述的一种多芯片互连系统,其特征在于:所述故障风险分类表和芯片故障等级的获取过程为,
步骤201,基于芯片运行的历史故障数据,根据芯片故障严重性和影响程度划分风险等级;
步骤202,设定三级故障等级标准,一级风险,低风险,对系统无危害影响;二级风险,中度风险,对系统存在轻微影响;三级风险,高风险,需立刻整改,无法继续作业;
步骤203,对芯片故障数据进行标记,并获取故障风险分类表;
步骤204,将故障风险分类表储存到数据储存模块中。
4.根据权利要求3所述的一种多芯片互连系统,其特征在于:所述故障判断指数的获取过程为,
步骤301,根据芯片历史故障数据总量,获取故障的发生频率、影响程度指数以及不同风险等级的故障数量;
步骤302,基于影响范围权重、持续时间权重以及修复难度权重决定获取影响程度指数;
步骤303,根据芯片历史故障数据总量、故障的发生频率、影响程度指数以及不同风险等级的故障数量,获取故障判断指数并评估芯片故障的对应风险等级;
步骤304,设定芯片故障风险等级的预设阈值,判断故障等级。
5.根据权利要求4所述的一种多芯片互连系统,其特征在于:所述故障判断指数的计算公式为:
;
其中,表示故障判断指数,/>表示故障的发生次数,/>表示该风险等级的故障数量,表示故障发生次数的历史平均值,/>表示该风险等级故障数量的历史平均值,/>表示历史数据的总量,/>为故障时间间隔,/>表示影响范围权重,/>表示持续时间权重,/>表示修复难度权重。
6.根据权利要求5所述的一种多芯片互连系统,其特征在于:所述影响范围权重,基于故障影响的芯片数量决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值;
持续时间权重,基于故障持续时间的长短决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值;
修复难度权重,基于修复难易程度决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值。
7.根据权利要求6所述的一种多芯片互连系统,其特征在于:所述故障等级的判断过程为,
步骤401,基于故障判断指数,设定故障等级阈值
步骤402,设定一级风险阈值范围、二级风险阈值范围以及三级风险阈值范围;
步骤403,根据风险等级判断故障等级,采取措施处理故障。
8.根据权利要求7所述的一种多芯片互连系统,其特征在于:所述一级风险阈值范围为
所述二级风险阈值范围为
所述三级风险阈值范围为
9.根据权利要求8所述的一种多芯片互连系统,其特征在于:所述处理措施为,
对于一级风险的故障,记录故障状态,定期进行监测和观察;
对于二级风险的故障,均衡芯片负载,减少故障芯片的任务执行量,限制故障影响范围,将任务分配至其他芯片;
对于三级风险的故障,采取紧急处理措施及优先处理措施,停止故障芯片的使用,绕过故障芯片,根据芯片的工作状态和任务的重要性,设定不同的任务优先级,当多个任务需要执行时,优先执行优先级高的任务,延迟执行或使用其他正常芯片执行优先级低的任务。
10.一种多芯片互连方法,用于实现权利要求1-9任一项所述的一种多芯片互连系统,其特征在于:包括以下步骤:
步骤1,收集并处理芯片运行过程中的历史故障数据;
步骤2,根据芯片故障严重性和影响程度进行风险等级划分,获取故障风险分类表和芯片故障等级;
步骤3,基于故障风险评估表及相关历史故障数据,获取故障判断指数并评估芯片故障的对应风险等级;
步骤4,对多芯片互连系统的各个芯片进行监控,收集芯片的故障数据,并根据故障评估结果与收集的芯片故障数据的影响程度指数比对,基于芯片故障风险等级,采取措施处理故障。
CN202311820906.3A 2023-12-27 2023-12-27 一种多芯片互连系统及方法 Active CN117472639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311820906.3A CN117472639B (zh) 2023-12-27 2023-12-27 一种多芯片互连系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311820906.3A CN117472639B (zh) 2023-12-27 2023-12-27 一种多芯片互连系统及方法

Publications (2)

Publication Number Publication Date
CN117472639A true CN117472639A (zh) 2024-01-30
CN117472639B CN117472639B (zh) 2024-03-12

Family

ID=89638257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311820906.3A Active CN117472639B (zh) 2023-12-27 2023-12-27 一种多芯片互连系统及方法

Country Status (1)

Country Link
CN (1) CN117472639B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818622A (zh) * 2021-01-06 2021-05-18 武汉大学 一种多芯片并联igbt模块可靠性综合评价方法及系统
US20210240823A1 (en) * 2017-12-18 2021-08-05 Nuvoton Technology Corporation System and method for coping with fault injection attacks
CN115437886A (zh) * 2022-09-09 2022-12-06 中国电信股份有限公司 基于存算一体芯片的故障预警方法、装置、设备及存储
CN115576738A (zh) * 2022-12-08 2023-01-06 中诚华隆计算机技术有限公司 一种基于芯片分析实现设备故障确定的方法及系统
CN116340072A (zh) * 2023-05-25 2023-06-27 中诚华隆计算机技术有限公司 一种多芯粒芯片的故障检测方法和装置
WO2023241703A1 (zh) * 2022-06-17 2023-12-21 中兴通讯股份有限公司 故障处理方法、装置和计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210240823A1 (en) * 2017-12-18 2021-08-05 Nuvoton Technology Corporation System and method for coping with fault injection attacks
CN112818622A (zh) * 2021-01-06 2021-05-18 武汉大学 一种多芯片并联igbt模块可靠性综合评价方法及系统
WO2023241703A1 (zh) * 2022-06-17 2023-12-21 中兴通讯股份有限公司 故障处理方法、装置和计算机可读存储介质
CN115437886A (zh) * 2022-09-09 2022-12-06 中国电信股份有限公司 基于存算一体芯片的故障预警方法、装置、设备及存储
CN115576738A (zh) * 2022-12-08 2023-01-06 中诚华隆计算机技术有限公司 一种基于芯片分析实现设备故障确定的方法及系统
CN116340072A (zh) * 2023-05-25 2023-06-27 中诚华隆计算机技术有限公司 一种多芯粒芯片的故障检测方法和装置

Also Published As

Publication number Publication date
CN117472639B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN106600095B (zh) 一种基于可靠性的维修评估方法
CN109766334B (zh) 用于电力设备在线监测异常数据的处理方法及系统
US20110093157A1 (en) System and method for selecting a maintenance operation
US8301328B2 (en) Method for servicing a vehicle
US11644812B2 (en) Machine tool management method, machine tool management system and medium
CN113553210A (zh) 告警数据的处理方法、装置、设备及存储介质
CN108665164A (zh) 基于运行质量数据的多态制造系统任务可靠性评估方法
CN114021846A (zh) 工业企业设备状态预警方法及系统
CN115169038B (zh) 基于fmeca的海上浮式风机可靠性分析方法及装置
CN107403279A (zh) 一种输油泵工况自适应状态预警系统及方法
CN111915192A (zh) 电力设备故障管理系统的建立方法和系统、计算机设备
CN110705787A (zh) 一种飞机维修任务优化方法
CN110210722A (zh) 一种核电厂系统监督方案的开发方法
CN114738132A (zh) 基于实船数据的增压器转速传感器故障诊断方法及系统
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
CN117472639B (zh) 一种多芯片互连系统及方法
CN113805564A (zh) 一种基于cep的设备故障预警以及诊断系统
CN116258482B (zh) 一种自动选择维修方案的方法、服务器、电子设备
CN117763432A (zh) 通讯故障预测方法、装置、设备及存储介质
CN117708637A (zh) 基于改进k均值聚类分析的风电机组叶片故障诊断方法
CN109409758B (zh) 水电站设备健康状态评价方法及系统
CN116976865A (zh) 基于大数据分析的船舶维修器件调配管理系统
CN114577470A (zh) 用于风机主轴承的故障诊断方法及系统
CN116304636A (zh) 一种基于故障树的电梯冲顶事故动态预测方法及系统
CN113052716B (zh) 风力发电机组主轴承的异常预警方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant