CN113568790B - 芯片的检测方法、检测装置和电子设备 - Google Patents
芯片的检测方法、检测装置和电子设备 Download PDFInfo
- Publication number
- CN113568790B CN113568790B CN202010349706.4A CN202010349706A CN113568790B CN 113568790 B CN113568790 B CN 113568790B CN 202010349706 A CN202010349706 A CN 202010349706A CN 113568790 B CN113568790 B CN 113568790B
- Authority
- CN
- China
- Prior art keywords
- chip
- core
- chains
- cores
- failed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 238000004364 calculation method Methods 0.000 claims abstract description 162
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 71
- 230000004807 localization Effects 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 15
- 230000002159 abnormal effect Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 7
- 230000017525 heat dissipation Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
- G06F11/2236—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
- G06F11/2242—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors in multi-processor systems, e.g. one processor becoming the test master
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2273—Test methods
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
本申请公开一种芯片的检测方法、检测装置和电子设备,能够定位计算系统中的故障,提高计算系统的算力以及计算的正确率。该芯片的检测方法应用于包括M个芯片的计算系统,M个芯片形成有N条链,N条链中每条链包括分别位于M个芯片的M个核,每条链上的M个核用于共同处理一个计算任务,其中,M、N为大于1的正整数;该检测方法包括:全开M个芯片中的核;关闭M个芯片中一个芯片中的至少一个核;根据关闭一个芯片中的至少一个核前后,N条链中计算任务失败的链的变化情况,进行故障定位。采用该检测方法,能够在生产阶段对故障进行维修,提高生产良率,也能够在应用阶段,采用其他手段替代故障部件进行计算,提高计算系统的算力和正确率。
Description
技术领域
本申请涉及芯片技术领域,并且更为具体的,涉及一种芯片的检测方法、检测装置和电子设备。
背景技术
随着信息技术的发展,在人工智能(Artificial Intelligence,AI)、数字凭证处理、超算等领域中,对进行数据运算的处理设备的运行效率、运行速度的要求越来越高。
目前,为了加快数据处理的速度,采用分布式并行计算(Distributed ParallelComputing)系统进行数据处理以完成计算任务,其中,分布式并行计算系统中包括多个计算芯片,多个芯片中的每个芯片均参与数据运算,以得到最终的计算结果,但是,若多个芯片中存在性能不达标的故障芯片或者故障核,会造成最终的计算结果错误或者没有计算结果输出,影响整个系统的算力以及计算的正确率。
因此,如何定位分布式并行计算系统中的故障,提高系统的算力以及计算的正确率,是一项亟待解决的问题。
发明内容
本申请实施例提供了一种芯片的检测方法、检测装置和电子设备,能够定位计算系统中的故障,提高计算系统的算力以及计算的正确率。
第一方面,提供一种芯片的检测方法,应用于包括M个芯片的计算系统,该M个芯片形成有N条链,该N条链中每条链包括分别位于该M个芯片的M个核,每条链上的M个核用于共同处理一个计算任务,其中,M、N为大于1的正整数;该检测方法包括:全开该M个芯片中的核;关闭该M个芯片中一个芯片中的至少一个核;根据关闭该一个芯片中的至少一个核前后,该N条链中计算任务失败的链的变化情况,进行故障定位。
通过本申请实施例的方案,关闭一个芯片中的至少一个核后,可以根据N条链中计算任务失败的链的变化情况,或者也可以根据计算任务成功的链的变化情况判断故障核是否在该芯片中,从而进行故障定位,确定M个芯片中的故障芯片,因此便于在生产阶段对故障芯片进行维修或者更换,提高生产良率。也便于在实际应用阶段,采用其他手段替代故障芯片或者故障核进行计算,提高计算系统的算力和正确率,从而提高计算系统的整体性能。
在一种可能的实施方式中,该关闭该M个芯片中一个芯片上的至少一个核,包括:关闭该M个芯片中第一芯片中的第一部分核;该根据关闭该一个芯片中的至少一个核前后,该N条链中计算任务失败的链的变化情况,进行故障定位,包括:根据关闭该第一芯片中的第一部分核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片是否为故障芯片。
在一种可能的实施方式中,该根据关闭该第一芯片中的第一部分核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片是否为故障芯片,包括:关闭该第一芯片中的第一部分核前后,若除该第一芯片中的第一部分核所在的链以外,其它链中计算任务失败的链的数量减少,确定该第一芯片为故障芯片;或者,关闭该第一芯片中的第一部分核前后,若除该第一芯片中的第一部分核所在的链以外,其它链中计算任务失败的链的数量不变,关闭该第一芯片中的第二部分核直到关闭该第一芯片中的最后一部分核,根据关闭该第一芯片中的最后一部分核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片是否为故障芯片。
在一种可能的实施方式中,该根据关闭该第一芯片中的最后一部分核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片是否为故障芯片,包括:关闭该第一芯片中的最后一部分核前后,若除该最后一部分核所在的链以外,其它链中计算任务失败的链的数量减少,确定该第一芯片为故障芯片;或者,关闭该第一芯片中的最后一部分核前后,若除该最后一部分核所在的链以外,其它链中计算任务失败的链的数量不变,确定该第一芯片不为故障芯片。
在一种可能的实施方式中,若该第一芯片不为故障芯片,该关闭该M个芯片中一个芯片上的至少一个核,还包括:关闭该M个芯片中第二芯片中的第一部分核;该根据关闭该一个芯片中的至少一个核前后,该N条链中计算任务失败的链的变化情况,进行故障定位,还包括:根据关闭该第二芯片中的第一部分核前后,该N条链中计算任务失败的链的变化情况,确定该第二芯片是否为故障芯片。
在一种可能的实施方式中,该第一芯片中的每部分核数量相等。
在一种可能的实施方式中,该其它条链中计算任务失败的链的数量减少,确定该第一芯片为故障芯片,包括:该其它条链中计算任务失败的链的数量小于预设阈值,确定该第一芯片为故障芯片。
在一种可能的实施方式中,该预设阈值等于3。
在一种可能的实施方式中,该关闭该M个芯片中一个芯片上的至少一个核,包括:关闭该第一芯片中的第一核;该根据关闭该一个芯片中的至少一个核前后,该N条链中计算任务失败的链的变化情况,进行故障定位,包括:根据关闭该第一芯片中的第一核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片中的第一核是否为故障核。
在一种可能的实施方式中,该根据关闭该第一芯片中的第一核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片中的第一核是否为故障核,包括:关闭该第一芯片中的第一核前后,若除该第一芯片中的第一核所在的链以外,该N条链中计算任务失败的链的数量减少,确定该第一核为故障核;或者,关闭该第一芯片中的第一核前后,若除该第一芯片中的第一核所在的链以外,该N条链中计算任务失败的链的数量不变,确定该第一核不为故障核。
在一种可能的实施方式中,关闭该第一芯片中的第一核前后,若除该第一芯片中的第一核所在的链以外,该N条链中计算任务失败的链的数量不变,该检测方法还包括:关闭该第一芯片中的第二核直到关闭该第一芯片中的最后一个核;关闭该第一芯片中的最后一个核前后,若除该最后一个核所在的链以外,该N条链中计算任务失败的链的数量减少,确定该最后一个核为故障核;或者,关闭该第一芯片中的最后一个核前后,若除该最后一个核所在的链以外,该N条链中计算任务失败的链的数量不变,确定该最后一个核不为故障核。
在一种可能的实施方式中,若确定该最后一个核不为故障核,该检测方法还包括:关闭该M个芯片中第二芯片中的一个核,根据关闭该第二芯片中的一个核前后,该N条链中计算任务失败的链的变化情况,确定该第二芯片中的一个核是否为故障核。
在一种可能的实施方式中,若确定该第一芯片中的一个核为故障核,该检测方法还包括:控制该第一芯片中的备用核替代该故障核处理计算任务。
在一种可能的实施方式中,该关闭该M个芯片中一个芯片中的至少一个核,包括:按照排列顺序遍历该M个芯片,以关闭该M个芯片中一个芯片中的至少一个核。
在一种可能的实施方式中,该M个芯片中每条链上的M个核相互串联,用于进行哈希运算;若该M个芯片中一条链的哈希运算结果在预设阈值内,则计算任务成功,若一条链的哈希运算结果在预设阈值外或者未输出计算结果,则计算任务失败。
第二方面,提供一种芯片的检测装置,包括控制单元,用于对包括M个芯片的计算系统进行故障定位,其中,该M个芯片形成有N条链,该N条链中每条链包括分别位于该M个芯片的M个核,每条链上的M个核用于共同处理一个计算任务,M、N为大于1的正整数;该控制单元用于:全开该M个芯片中的核;关闭该M个芯片中一个芯片中的至少一个核;根据关闭该一个芯片中的至少一个核前后,该N条链中计算任务失败的链的变化情况,进行故障定位。
在一种可能的实施方式中,该控制单元具体用于:关闭该M个芯片中第一芯片中的第一部分核;根据关闭该第一芯片中的第一部分核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片是否为故障芯片。
在一种可能的实施方式中,该控制单元具体用于:关闭该第一芯片中的第一部分核前后,若除该第一芯片中的第一部分核所在的链以外,其它链中计算任务失败的链的数量减少,确定该第一芯片为故障芯片;或者,关闭该第一芯片中的第一部分核前后,若除该第一芯片中的第一部分核所在的链以外,其它链中计算任务失败的链的数量不变,关闭该第一芯片中的第二部分核直到关闭该第一芯片中的最后一部分核,根据关闭该第一芯片中的最后一部分核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片是否为故障芯片。
在一种可能的实施方式中,该控制单元具体用于:关闭该第一芯片中的最后一部分核前后,若除该最后一部分核所在的链以外,其它链中计算任务失败的链的数量减少,确定该第一芯片为故障芯片;或者,关闭该第一芯片中的最后一部分核前后,若除该最后一部分核所在的链以外,其它链中计算任务失败的链的数量不变,确定该第一芯片不为故障芯片。
在一种可能的实施方式中,若该第一芯片不为故障芯片,该控制单元还用于:关闭该M个芯片中第二芯片中的第一部分核;根据关闭该第二芯片中的第一部分核前后,该N条链中计算任务失败的链的变化情况,确定该第二芯片是否为故障芯片。
在一种可能的实施方式中,该第一芯片中的每部分核数量相等。
在一种可能的实施方式中,该控制单元具体用于:该其它条链中计算任务失败的链的数量小于预设阈值,确定该第一芯片为故障芯片。
在一种可能的实施方式中,该预设阈值等于3。
在一种可能的实施方式中,该控制单元具体用于:关闭该第一芯片中的第一核;根据关闭该第一芯片中的第一核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片中的第一核是否为故障核。
在一种可能的实施方式中,该控制单元具体用于:关闭该第一芯片中的第一核前后,若除该第一芯片中的第一核所在的链以外,该N条链中计算任务失败的链的数量减少,确定该第一核为故障核;或者,关闭该第一芯片中的第一核前后,若除该第一芯片中的第一核所在的链以外,该N条链中计算任务失败的链的数量不变,确定该第一核不为故障核。
在一种可能的实施方式中,关闭该第一芯片中的第一核前后,若除该第一芯片中的第一核所在的链以外,该N条链中计算任务失败的链的数量不变,该控制单元还用于:关闭该第一芯片中的第二核直到关闭该第一芯片中的最后一个核;关闭该第一芯片中的最后一个核前后,若除该最后一个核所在的链以外,该N条链中计算任务失败的链的数量减少,确定该最后一个核为故障核;或者,关闭该第一芯片中的最后一个核前后,若除该最后一个核所在的链以外,该N条链中计算任务失败的链的数量不变,确定该最后一个核不为故障核。
在一种可能的实施方式中,若确定该最后一个核不为故障核,该控制单元还用于:关闭该M个芯片中第二芯片中的一个核,根据关闭该第二芯片中的一个核前后,该N条链中计算任务失败的链的变化情况,确定该第二芯片中的一个核是否为故障核。
在一种可能的实施方式中,若确定该第一芯片中的一个核为故障核,该控制单元还用于:控制该第一芯片中的备用核替代该故障核处理计算任务。
采用本实施方式的方法,能够定位出故障芯片中的故障核,提高故障定位的精度,既能够采用维修的手段对故障核所在的故障芯片进行维修,也可以不采用维修手段,而采用故障芯片中的备用核替代故障核工作,更为快速、便捷的修复故障芯片,提高整个计算系统的算力和正确率。
在一种可能的实施方式中,该控制单元具体用于:按照排列顺序遍历该M个芯片,以关闭该M个芯片中一个芯片中的至少一个核。
在一种可能的实施方式中,该M个芯片中每条链上的M个核相互串联,用于进行哈希运算;若该M个芯片中一条链的哈希运算结果在预设阈值内,则计算任务成功,若一条链的哈希运算结果在预设阈值外或者未输出计算结果,则计算任务失败。
第三方面,提供一种电子设备,包括芯片的检测装置和M个芯片;该M个芯片形成有N条链,该N条链中每条链包括分别位于该M个芯片的M个核,每条链上的M个核用于共同处理一个计算任务,其中,M、N为大于1的正整数;该检测装置为第二方面或第二方面的任一可能的实施方式中的检测装置,用于对包括M个芯片的计算系统进行故障定位。
在一种可能的实施方式中,该M个芯片中每条链上的M个核相互串联,用于进行哈希运算;若该M个芯片中一条链的哈希运算结果在预设阈值内,则计算任务成功,若一条链的哈希运算结果在预设阈值外或者未输出计算结果,则计算任务失败。
第四方面,提供一种计算机可读存储介质,其特征在于,用于存储程序代码,该程序代码用于执行第一方面或第一方面的任一可能的实施方式中的检测方法。
附图说明
图1是本申请可以适用的电子设备的平面示意图;
图2是根据本申请实施例的一种计算系统的示意性结构图;
图3是根据本申请实施例的一种芯片的检测方法的示意性流程框图;
图4是根据本申请实施例的另一计算系统的示意性结构图;
图5是根据本申请实施例的另一芯片的检测方法的示意性流程框图;
图6是根据本申请实施例的另一芯片的检测方法的示意性流程框图;
图7是根据本申请实施例的另一计算系统的示意性结构图;
图8是根据本申请实施例的一种芯片的检测装置的示意性框图;
图9是根据本申请实施例的一种电子设备的示意性框图。
具体实施方式
下面将结合附图,对本申请实施例中的技术方案进行描述。
应理解,本文中的具体的例子只是为了帮助本领域技术人员更好地理解本申请实施例,而非限制本申请实施例的范围。
还应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
还应理解,本说明书中描述的各种实施方式,既可以单独实施,也可以组合实施,本申请实施例对此并不限定。
除非另有说明,本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本申请的范围。本申请所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。
首先,介绍能够执行本申请实施例提供的电子设备的逻辑结构。
该电子设备可以为数字凭证的处理设备,也可以为其它用于针对专用业务进行运算处理的电子设备,例如计算服务器、通信设备、高性能个人计算机、超算设备等等,本申请实施例对此不做限定。
如图1所示,电子设备10可以包括电源模块110、处理模块120、控制模块130、存储模块140、接口模块150以及散热模块160。应当理解,电子设备10的组件可以比图示具有更少或更多的组件,或者具有不同的组件配置。图1所示的各种组件可以用硬件、软件或软硬件的组合来实现,包括一个或多个信号处理和/或专用集成电路。
电源模块110用于为电子设备10中的其它模块提供电源,可以包括交流-直流转换器(AC to DC converter)、直流-直流转换器(DC to DC converter)以及低压差线性稳压器(Low Dropout Regulator,LDO),用于输出不同的直流电压,以满足不同芯片和电路的电压需求。
处理模块120为用于专用计算的计算处理模块,其可以包括多个用于运行计算的计算芯片。当电子模块10为数字凭证的处理设备时,该处理模块120可以包括一块或者多块算力板(也称之为运算板),多个芯片(chip),也称为集成电路(integrated circuit,IC)呈阵列排列在一块或者多块算力板的电路板(Printed Circuit Board,PCB)上,用于进行哈希(hash)运算求解哈希值,从而获取数字凭证。
在算力板上,多个芯片的数据线串联连接,前一个芯片的运算结果通过数据线传输给后一个芯片,作为后一个芯片的输入,后一个芯片基于该输入继续进行数据运算。因此,多个芯片共同运算得到的数据通过该数据线传输给控制模块130。
此外,在算力板上,多个芯片分布在多个电压域上,而不是分布在同一个电压域上,同一个电压域上的芯片并联连接,不同的电压域串联连接。采用该多个电压域的设计方式,使得不同电压域上的芯片不相互影响,提高多个芯片工作的稳定性和可靠性。
可选地,该算力板上的芯片可以为计算芯片或者其它专用类型的芯片,例如可以为专用集成电路(Application Specific Integrated Circuit,ASIC)芯片、图形处理器(Graphics Processing Unit,GPU)芯片、中央处理器(Central Processing Unit,CPU)芯片、现场可编程门阵列(Field Programmable Gate Array,FPGA)芯片中的任意一种,本申请实施例对此不做限定。
可选地,算力板上的计算芯片可以为多核(Core)芯片,计算芯片之间,或者说计算芯片的核之间通过串行器/解串器(Serializer/Deserializer,SerDes)接口进行连接以传输数据,提高数据传输效率。且通过多核芯片进行数据运算,能够并行处理多个计算任务,从而提高数据处理的效率,提高算力板的算力。
控制模块130可以为一种控制板,包括一种系统级芯片(System on a Chip,SOC),用于连接控制电子设备10中的其它模块,保证各个模块间的有序进行和数据通信。该控制模块130可以包括微控制器(Microcontroller Unit,MCU),微处理器(Microprocessor),数字信号处理器(Digital Signal Processor,DSP)、模拟数字转换器(Analog-to-digitalconverter,ADC)、数字模拟转换器(Digital to analog converter,DAC)以及提供时间脉冲信号的振荡器(Electronic Oscillator)和锁相环电路(Phase Locked Loops,PLL)等等。
其中,控制模块130可以通过锁相环等时钟电路产生不同的时钟信号,从而控制处理模块120中的多个芯片工作在不同的工作频率。此外,控制模块130还可以通过微控制器以及微处理器等电路产生测试数据,并传输给处理模块120中的多个芯片,并接收多个芯片产生的随机数据并进行处理。换言之,控制模块130可以用于控制处理模块120中多个芯片的工作以及接收处理该多个芯片的数据。
此外,控制模块130还可以通过网口与外部网络连接,通过网络设置控制模块130,从而控制电子设备10的运行。
存储模块140可以包括一个或多个双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDR SDRAM),闪存(flash)等存储单元,用于存储运算中的数据以及软件程序等等。其中,软件程序用于控制电子设备10中的硬件模块运行。
具体地,存储模块140中的软件程序包括操作系统(Operating System,OS)以及通信指令集等等,其中,操作系统用于控制和管理常规系统任务,例如内存管理、存储控制以及电源管理等等,以及有助于各种软硬件之间通信的各种软件组件和/或驱动器。该操作系统包括但不限于:Linux,Unix,Windows或者Vxworks等嵌入式操作系统。通信指令集包括用于处理经过接口模块150接收的数据的软件组件,有助于经接口模块与其它设备进行通信。
接口模块150可以包括不同的连线接口,例如通用串行总线(Universal SerialBus,USB)、以太网(Ethernet,ETH)、通用异步收发传输(Universal AsynchronousReceiver/Transmitter,UATR)和串行外设接口(Serial Peripheral Interface Bus,SPI)等,用于直接或者经网络连接多种不同的外部设备。
此外,电子设备10还包括散热模块160,该散热模块160可以为风扇(Fan),水冷系统或者其它用于对电子设备10散热的装置。电源模块110用于给该散热模块160供电,并且控制模块130用于控制该散热模块160工作。
在电子设备10中,对计算任务的处理速度和处理能力取决于处理模块120。特别地,在数字凭证的处理设备中,该设备的系统性能绝大部分取决于算力板的算力和计算正确率。算力板上每一个芯片,乃至每一个核都会影响算力板的算力和计算正确率,从而影响设备整体的系统性能。
图2示出了一种包括多个多核芯片的计算系统,该计算系统可以为上述处理模块120,具体可以为一块算力板。
如图2所示,计算系统包括M个计算芯片,每个计算芯片包括N个核,M个芯片中M个核相互串联,形成一条链,因而该M个芯片形成有N条链,N条链中每条链上的M个核用于共同处理一个计算任务,其中,M、N为大于1的正整数。
具体地,一条链上,前一个核的数据线连接至下一个核中,若前一个核发生异常,无法输出计算结果或者输出的计算结果错误,则会造成下一个核也无法输出计算结果或者输出的计算结果错误,因此,在本申请实施例中,若一条链上存在一个核发生异常,则位于该核之后的全部核均会发生异常,从而导致该条链为一条异常链,无法输出计算结果或者输出的计算结果错误,造成该条链的计算任务失败。换言之,当且仅当一条链上的全部核均为正常核,均能够输出正确的计算结果时,该条链才为一条正常链,能够输出正确的计算结果,处理的计算任务成功。
具体地,上述发生异常的核可能为故障核,即硬件性能不达标的核,其运行结果必然会产生异常。此外,上述发生异常的核也可能为受到故障核影响而发生异常的正常核,此处,可以将其称之为疑似故障核,该疑似故障核为硬件性能达标的核,其与故障核位于同一芯片中,在其单独运行的情况下,可以输出正确的计算结果,但若与故障核共同运行,则会受到故障核的影响,输出错误的计算结果或者不输出计算结果。
因此,若计算系统中存在一个故障核,该故障核引发其所在芯片中的正常核发生异常,形成疑似故障核,造成疑似故障核和故障核所在的多条链均发生异常,导致多条链的计算任务失败,进而极大的影响了计算系统整体的算力以及正确率。
基于上述问题,本申请提出一种芯片的检测方法、检测装置以及电子设备,能够检测定位计算系统中故障芯片乃至故障核的位置,在计算系统的生产制造过程中,便于维修该故障芯片或者故障核,提高计算系统的生产良率。在实际的使用过程中,能够采用备用核取代故障核进行数据运算,提高计算系统的算力和正确率,提升计算系统的整体性能。
图3示出了一种芯片的检测方法100的示意性流程框图。
该芯片的检测方法100适用于上述图2中的包括M个芯片的计算系统。
该检测方法的执行主体可以为一种控制装置或者检测装置,用于获取上述计算系统中M个芯片的计算结果,例如,该检测方法的执行主体可以为上述图1中的控制模块130,在控制计算系统中M个芯片运行的同时,还可以检测M个芯片的运行结果。
如图3所示,该芯片的检测方法100可以包括以下步骤。
S110:全开M个芯片中的核。
S120:关闭M个芯片中一个芯片上的至少一个核。
S130:根据关闭至少一个核前后,N条链中计算任务失败的链的变化情况,进行故障定位。
在本申请实施例中,检测装置可以控制M个芯片中的每个核开启或关闭,N条链用于运行计算N个计算任务,例如,可以用于执行哈希运算,得到N个计算结果。检测装置可以检测该N条链中每条链的计算结果,换言之,该N条链中每条链的计算结果可以输出或者返回给检测装置。
具体地,全开M个芯片中的核时,其中的故障核可能会引起其所在的芯片中的一部分正常核发生异常,而另一部分正常核不会受到故障核的影响,则此时,N条链中存在部分正常链和部分异常链。
在另一些情况下,故障核也可能会引起所在的芯片中全部正常核发生异常,则此时,N条链全部为计算任务失败的异常链。
全开M个芯片中的核,检测N条链的计算结果,确定其中计算任务成功的正常链和计算任务失败的异常链后,关闭其中一个芯片上的至少一个核后,再次检测N条链的计算结果,检测其中计算任务成功的链以及计算任务失败的链。
若关闭的至少一个核中存在故障核,则关闭该至少一个核后,该至少一个核中的故障核对其所在芯片中其它正常核的影响消失,使得之前发生异常的正常核恢复正常,因此,之前发生异常的链也恢复正常,在N条链中,除了该至少一个核所在的链无法输出计算结果以外,其它链中的正常链数量增多,异常链数量减少。在一些情况下,其它链均为正常链,异常链的数量减少为0。
若关闭的至少一个核中不存在故障核,则关闭该至少一个核后,计算系统的故障核仍在运行,仍然会对其所在芯片中其它正常核产生影响,之前的异常链处理的计算任务仍然失败,在N条链中,除了该至少一个核所在的链无法输出计算结果以外,其它链中的异常链数量不变。
作为示例,如图4所示,全开M个芯片中的核之后,若芯片1中的核1为故障核,则该核1会影响其所在的链1计算任务失败,形成一条异常链,表现为无计算结果输出或者输出错误的计算结果。且与此同时,该核1也会影响芯片1中的其它部分核,例如核N出现异常,造成链N的计算任务也失败,表现为无计算结果输出或者输出错误的计算结果。
关闭该故障核核1后,链1无法输出计算结果,但与此同时,该故障核核1对芯片1中其它核的影响也消失,例如,对核N的影响消失,使得核N恢复正常,链N的计算任务成功。
因此,通过本申请实施例的方案,关闭一个芯片中的至少一个核后,可以根据N条链中计算任务失败的链的变化情况,或者也可以根据计算任务成功的链的变化情况判断故障核是否在该芯片中,从而进行故障定位,确定M个芯片中的故障芯片,因此便于在生产阶段对故障芯片进行维修或者更换,提高生产良率。也便于在实际应用阶段,采用其他手段替代故障芯片或者故障核进行计算,提高计算系统的算力和正确率,从而提高计算系统的整体性能。
图5示出了另一种芯片的检测方法100的示意性流程框图。
如图5所示,上述步骤S120包括:
S121:关闭M个芯片中第一芯片(一个芯片的一例)中的第一部分核。
该第一芯片可以为M个芯片中任意一个芯片,本申请实施例对该第一芯片的具体位置不做具体限定。
在本申请实施例中,第一芯片中包括N个芯片,第一芯片中第一部分核的数量为X,其中,1≤X<N,X为正整数,本申请实施例对第一部分核的数量以及第一部分核在第一芯片中的位置不做具体限定。
上述步骤S130可以包括以下步骤。
S131:若关闭第一芯片中的第一部分核前后,除第一部分核所在的链以外,其它链中计算任务失败的链的数量减少。
S132:确定第一芯片为故障芯片。
具体地,参见上述S130中的描述,在关闭第一芯片中第一部分核前,即全开M个芯片中的核时,N条链中包括部分正常链以及部分异常链。若关闭该第一部分核后,在N条链中,除了该第一部分核所在的X条链无法输出计算结果以外,其它N-X条链中的正常链数量增多,异常链数量减少,则可以确定故障核位于该第一芯片的第一部分核中,该第一芯片为故障芯片。
可选地,在本申请实施例中,若其它N-X条链中异常链的数量小于预设阈值,确定故障核位于第一部分核中,第一芯片为故障芯片。其中,该预设阈值包括但不限于是3,本申请实施例对具体的预设阈值不做限定。
S133:若关闭第一芯片中的第一部分核前后,除第一部分核所在的链以外,其它链中计算任务失败的链的数量不变。
具体地,参见上述S130的描述,若关闭该第一部分核后,在N条链中,除了该第一部分核所在的Y条链无法输出计算结果以外,其它N-X条链中的异常链和正常链的数量不变,则可以确定该第一部分核中不存在故障核。
S134:关闭第一芯片中第二部分核。
S135:根据关闭第一芯片中第二部分核前后,其它链中计算任务失败的链的变化情况,进行故障定位。
若第一芯片中的第一部分核中不存在故障核,则继续关闭该第一芯片中第二部分核,确定故障核是否在第二部分核中,具体地,该第二部分核的数量为Y,其中,1≤Y<N,Y为正整数,本申请实施例对第二部分核的数量以及第二部分核在第一芯片中的位置不做具体限定。
类似地,若关闭该第二部分核后,在N条链中,除了该第二部分核所在的Y条链无法输出计算结果以外,其它N-Y条链中的正常链数量增多,异常链数量减少,则可以确定故障核位于该第一芯片的第二部分核中,确定该第一芯片为故障芯片。可选地,若其它N-Y条链中异常链的数量小于预设阈值,确定故障核位于第二部分核中,第一芯片为故障芯片。
若关闭该第二部分核后,在N条链中,除了该第二部分核所在的Y条链无法输出计算结果以外,其它N-Y条链中的异常链和正常链的数量不变,则可以确定该第二部分核中不存在故障核。
同样地,在确定第二部分核中不存在故障核的情况下,可以继续对第一芯片中的第三部分核进行故障定位,直到确定第一芯片为故障芯片或者第一芯片中的全部核完成故障定位为止。
此处需要说明的是,若通过步骤S133和步骤S134确定故障核不在第一芯片中的第一部分核之后,可以重新开启该第一部分核,再关闭第二部分核;换言之,在步骤S134中,关闭第一芯片中第二部分核时,第一芯片中除第二部分核以外的其他核开启。
可选地,上述第一部分核的数量X和第二部分核的数量Y可以相等也可以不相等,本申请实施例对此不做具体限定。
采用上述方法,直到对第一芯片中的最后一部分核进行故障定位,换言之直到对第一芯片中的全部核进行故障定位后,确定第一芯片是否为故障芯片。具体地,该最后一部分核的数量为Z,其中,1≤Z<N,Z为正整数,本申请实施例对最后一部分核的数量以及最后一部分核在第一芯片中的位置同样不做具体限定。
具体地,对第一芯片中的最后一部分核进行故障定位的过程可以参见以上对第一芯片中第一部分核进行故障定位的过程,关闭第一芯片中的最后一部分核前后,若除最后一部分核所在的Z条链以外,其它N-Z条链中计算任务失败的链的数量减少,确定第一芯片为故障芯片;若除最后一部分核所在的Z条链以外,其它N-Z条链中计算任务失败的链的数量不变,确定第一芯片不为故障芯片。
一些情况下,在上述方法实施例中,可以第一芯片中的N个核等分成多部分,每部分包括相同数量的核,换言之,上述第一部分核的数量X、第二部分核的数量Y以及最后一部分核的数量Z均相等。例如,若N=16,则可以将16个核等分为4部分,每部分包括4个核,每次关闭第一芯片中的4个核,对该4个核进行故障定位,检测除该4个核所在的4条链外,其它12条链中计算失败的链的数量是否发生变化,从而确定第一芯片是否为故障芯片。
在对第一芯片中的全部核进行故障定位后,可以继续采用上述方法对M个芯片中的第二芯片进行故障定位,确定第二芯片是否为故障芯片,直至依次对M个芯片中的每个芯片都按照上述方法进行故障定位,检测出M个芯片中的故障芯片。其中,第二芯片为M个芯片中除第一芯片外的其它任意核。
作为示例,可以按照排列顺序依次对M个芯片中的每个芯片进行故障定位,即上述第一芯片可以为串联的M个芯片中的第一个芯片,第二芯片可以为串联的M个芯片中的第二个芯片。当然,本申请实施例中的检测顺序包括但不限于是排列顺序,还可以采用随机顺序、倒排列顺序等等其它任意顺序对M个芯片进行故障定位,本申请实施例对此不做具体限定。
采用本申请实施例的方法,能够在生产制造阶段,定位出计算系统中的故障芯片,从而对该故障芯片进行维修,提高生产的良率。
图6示出了另一种芯片的检测方法100的示意性流程框图。
如图6所示,上述步骤S121包括:
S1211:关闭M个芯片中第一芯片中的第一核。
在本申请实施例中,第一核可以理解为上述图5所示的方法中第一部分核的数量为1。该第一核可以为第一芯片的N个核中的任意一个核,本申请实施例对该第一核在第一芯片中的具体位置不做具体限定。
上述步骤S131和步骤S132包括:
S1311:若关闭第一芯片中的第一核前后,除第一核所在的链以外,其它链中计算任务失败的链的数量减少。
S1321:确定第一核为故障核。
参见上述S132中的描述,在关闭第一芯片中第一核前,即全开M个芯片中的核时,N条链中包括部分正常链以及部分异常链。若关闭该第一核后,在N条链中,除了该第一核所在的链无法输出计算结果以外,其它N-1条链中的正常链数量增多,异常链数量减少,则可以确定第一核即为故障核,且第一芯片为故障芯片。
可选地,在本申请实施例中,若其它N-1条链中异常链的数量小于预设阈值,确定第一核为故障核。其中,该预设阈值包括但不限于是3,本申请实施例对具体的预设阈值不做限定。
上述步骤S133至步骤S135包括:
S1331:若关闭第一芯片中的第一核前后,除第一部分核所在的链以外,其它链中计算任务失败的链的数量不变。
具体地,参见上述S133的描述,若关闭该第一部分核后,在N条链中,除了该第一核所在的链无法输出计算结果以外,其它N-1条链中的异常链和正常链的数量不变,则可以确定该第一核不是故障核。
S1341:关闭第一芯片中第二核。
S1351:根据关闭第一芯片中第二核前后,N条链中计算任务失败的链的变化情况,进行故障定位。
若第一芯片中的第一核中不存在故障核,则继续关闭该第一芯片中第二核,确定第二核是否为故障核。
在本申请实施例中,第二核可以理解为上述图5所示的方法中第二部分核的数量为1。该第二核可以为第一芯片的N个核中除第一核以外的任意一个核,本申请实施例对该第二核在第一芯片中的具体位置也不做具体限定。
类似地,若关闭该第二核后,在N条链中,除了该第二核所在的链无法输出计算结果以外,其它N-1条链中的正常链数量增多,异常链数量减少,则可以确定第二核为故障核。可选地,若其它N-1条链中异常链的数量小于预设阈值,确定第二核为故障核。
若关闭该第二核后,在N条链中,除了该第二核所在的链无法输出计算结果以外,其它链中的异常链和正常链的数量不变,则可以确定该第二核不是故障核。
同样地,在确定第二核中不是故障核的情况下,可以继续对第一芯片中的第三核进行故障定位,直到确定第一芯片中的故障核或者第一芯片中的全部核完成故障定位为止。
采用上述方法,直到对第一芯片中的最后一个核进行故障定位,换言之直到对第一芯片中的全部核进行故障定位后,确定第一芯片是否包括故障核,具体地,对第一芯片中的最后一个核进行故障定位的过程可以参见以上对第一芯片中第一个核进行故障定位的过程,此处不再赘述。
在对第一芯片中的全部核进行故障定位后,可以继续采用上述方法对M个芯片中的第二芯片进行故障定位,确定第二芯片中是否包括故障核,直至依次对M个芯片中的每个芯片都按照上述方法进行故障定位,检测出M个芯片中的故障核。其中,第二芯片为M个芯片中除第一芯片外的其它任意核。
作为示例,可以按照排列顺序依次对M个芯片中的每个芯片进行故障定位,即上述第一芯片可以为串联的M个芯片中的第一个芯片,第二芯片可以为串联的M个芯片中的第二个芯片。当然,本申请实施例中的检测顺序包括但不限于是排列顺序,还可以采用随机顺序、倒排列顺序等等其它任意顺序对M个芯片进行故障定位,本申请实施例对此不做具体限定。
可选地,如图6所示,该检测方法100还可以包括:
S140:控制第一芯片中的备用核替代第一核处理计算任务。
如图7所示,在本申请实施例中,计算系统的M个芯片中,每个芯片包括一个备用核,当检测出故障核后,可以通过控制故障所在芯片中的备用核替代故障核处理计算任务,从而恢复整个故障芯片,乃至整个计算系统的运行,提高计算系统的算力和准确率。
具体地,若通过上文中的故障定位方法定位出第一芯片中的第一核为故障核,则控制第一芯片中的备用核替代该第一核处理计算任务。同样的,若是定位出第一芯片中的其他核为故障核,则控制第一芯片中的备用核替代该其它核处理计算任务,或者是,若是定位出第二芯片或者其它芯片中的核为故障核,则控制第二芯片或者其它芯片中的备用核替代该故障核处理计算任务。
可以理解的是,计算系统中的每个芯片还可以包括多个备用核,以替代多个故障核工作,本申请实施例对备用核的具体数量不做限定。
采用本申请实施例的方法,除了能够在生产制造阶段,定位出计算系统中的故障芯片,从而对该故障芯片进行维修,提高生产的良率以外,还可以在实际的应用阶段,利用故障芯片中的备用核替代故障核进行任务计算,从而可以提高计算系统的算力和正确率。
上文结合图3至图7,详细描述了本申请的芯片检测方法实施例,下文结合图8,详细描述本申请的芯片检测装置实施例,应理解,装置实施例与方法实施例相互对应,类似的描述可以参照方法实施例。图8是根据本申请实施例的芯片的检测装置20的示意性框图。
如图8所示,该芯片的检测装置20包括:控制单元21,用于对包括M个芯片的计算系统进行故障定位,其中,该M个芯片形成有N条链,该N条链中每条链包括分别位于该M个芯片的M个核,每条链上的M个核用于共同处理一个计算任务,其中,M、N为大于1的正整数;
可选地,该控制单元21可以为图1中的控制模块130。
具体地,该控制单元21用于:全开该M个芯片中的核;关闭该M个芯片中一个芯片中的至少一个核;根据关闭该一个芯片中的至少一个核前后,该N条链中计算任务失败的链的变化情况,进行故障定位。
在一种可能的实施方式中,该控制单元21具体用于:关闭该M个芯片中第一芯片中的第一部分核;根据关闭该第一芯片中的第一部分核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片是否为故障芯片。
在一种可能的实施方式中,该控制单元21具体用于:关闭该第一芯片中的第一部分核前后,若除该第一芯片中的第一部分核所在的链以外,其它链中计算任务失败的链的数量减少,确定该第一芯片为故障芯片;或者,
关闭该第一芯片中的第一部分核前后,若除该第一芯片中的第一部分核所在的链以外,其它链中计算任务失败的链的数量不变,关闭该第一芯片中的第二部分核直到关闭该第一芯片中的最后一部分核,根据关闭该第一芯片中的最后一部分核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片是否为故障芯片。
在一种可能的实施方式中,该控制单元21具体用于:关闭该第一芯片中的最后一部分核前后,若除该最后一部分核所在的链以外,其它链中计算任务失败的链的数量减少,确定该第一芯片为故障芯片;或者,
关闭该第一芯片中的最后一部分核前后,若除该最后一部分核所在的链以外,其它链中计算任务失败的链的数量不变,确定该第一芯片不为故障芯片。
在一种可能的实施方式中,若该第一芯片不为故障芯片,该控制单元21还用于:关闭该M个芯片中第二芯片中的第一部分核;根据关闭该第二芯片中的第一部分核前后,该N条链中计算任务失败的链的变化情况,确定该第二芯片是否为故障芯片。
在一种可能的实施方式中,该第一芯片中的每部分核数量相等。
在一种可能的实施方式中,该控制单元21具体用于:该其它条链中计算任务失败的链的数量小于预设阈值,确定该第一芯片为故障芯片。
在一种可能的实施方式中,该预设阈值等于3。
在一种可能的实施方式中,该控制单元21具体用于:关闭该第一芯片中的第一核;根据关闭该第一芯片中的第一核前后,该N条链中计算任务失败的链的变化情况,确定该第一芯片中的第一核是否为故障核。
在一种可能的实施方式中,该控制单元21具体用于:关闭该第一芯片中的第一核前后,若除该第一芯片中的第一核所在的链以外,该N条链中计算任务失败的链的数量减少,确定该第一核为故障核;或者,
关闭该第一芯片中的第一核前后,若除该第一芯片中的第一核所在的链以外,该N条链中计算任务失败的链的数量不变,确定该第一核不为故障核。
在一种可能的实施方式中,关闭该第一芯片中的第一核前后,若除该第一芯片中的第一核所在的链以外,该N条链中计算任务失败的链的数量不变,该控制单元21还用于:关闭该第一芯片中的第二核直到关闭该第一芯片中的最后一个核;关闭该第一芯片中的最后一个核前后,若除该最后一个核所在的链以外,该N条链中计算任务失败的链的数量减少,确定该最后一个核为故障核;或者,
关闭该第一芯片中的最后一个核前后,若除该最后一个核所在的链以外,该N条链中计算任务失败的链的数量不变,确定该最后一个核不为故障核。
在一种可能的实施方式中,若确定该最后一个核不为故障核,该控制单元21还用于:关闭该M个芯片中第二芯片中的一个核,根据关闭该第二芯片中的一个核前后,该N条链中计算任务失败的链的变化情况,确定该第二芯片中的一个核是否为故障核。
在一种可能的实施方式中,若确定该第一芯片中的一个核为故障核,该控制单元21还用于:控制该第一芯片中的备用核替代该故障核处理计算任务。
在一种可能的实施方式中,该控制单元21具体用于:按照排列顺序遍历该M个芯片,以关闭该M个芯片中一个芯片中的至少一个核。
在一种可能的实施方式中,该M个芯片中每条链上的M个核相互串联,用于进行哈希运算;若该M个芯片中一条链的哈希运算结果在预设阈值内,则计算任务成功,若一条链的哈希运算结果在预设阈值外或者未输出计算结果,则计算任务失败。
本申请实施例还提供了一种电子设备,该电子设备可以包括上述本申请各种实施例的芯片的检测装置。可选地,在一种可能的实施方式中,该电子设备可以为图1中的电子设备10。
图9是根据本申请实施例的电子设备2的示意性框图。
如图9所示,该电子设备2包括:上述芯片检测装置20以及包括M个芯片的计算系统21。
具体地,该M个芯片形成有N条链,该N条链中每条链包括分别位于M个芯片的M个核,每条链上的M个核用于共同处理一个计算任务,其中,M、N为大于1的正整数。
芯片检测装置20用于对包括计算系统21进行故障定位。
可选地,该计算系统21可以为图2或者图7中的计算系统。
可选地,该M个芯片中每条链上的M个核相互串联,用于进行哈希运算;若M个芯片中一条链的哈希运算结果在预设阈值内,则计算任务成功,若一条链的哈希运算结果在预设阈值外或者未输出计算结果,则计算任务失败。
本申请实施例还提供一种芯片检测装置,包括处理器和存储器,该存储器用于存储程序代码,该处理器用于调用该程序代码执行上述方法实施例的芯片检测方法。
本申请实施例还提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机执行上述方法实施例的方法。
本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(Digital Video Disc,DVD))、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (31)
1.一种芯片的检测方法,其特征在于,应用于包括M个芯片的计算系统,所述M个芯片形成有N条链,所述N条链中每条链包括分别位于所述M个芯片的M个核,每条链上的M个核用于共同处理一个计算任务,其中,M、N为大于1的正整数;所述检测方法包括:
全开所述M个芯片中的核;
关闭所述M个芯片中一个芯片中的至少一个核;
根据关闭所述一个芯片中的至少一个核前后,所述N条链中计算任务失败的链的变化情况,进行故障定位;
所述关闭所述M个芯片中一个芯片上的至少一个核,包括:
关闭所述M个芯片中第一芯片中的第一部分核;
所述根据关闭所述一个芯片中的至少一个核前后,所述N条链中计算任务失败的链的变化情况,进行故障定位,包括:
根据关闭所述第一芯片中的第一部分核前后,所述N条链中计算任务失败的链的变化情况,确定所述第一芯片是否为故障芯片;
所述根据关闭所述第一芯片中的第一部分核前后,所述N条链中计算任务失败的链的变化情况,确定所述第一芯片是否为故障芯片,包括:
关闭所述第一芯片中的第一部分核前后,若除所述第一芯片中的第一部分核所在的链以外,其它链中计算任务失败的链的数量减少,确定所述第一芯片为故障芯片;或者,
关闭所述第一芯片中的第一部分核前后,若除所述第一芯片中的第一部分核所在的链以外,其它链中计算任务失败的链的数量不变,关闭所述第一芯片中的第二部分核。
2.根据权利要求1所述的检测方法,其特征在于,所述根据关闭所述第一芯片中的第一部分核前后,所述N条链中计算任务失败的链的变化情况,确定所述第一芯片是否为故障芯片,包括:若直到关闭所述第一芯片中的最后一部分核,根据关闭所述第一芯片中的最后一部分核前后,所述N条链中计算任务失败的链的变化情况,确定所述第一芯片是否为故障芯片。
3.根据权利要求1或2所述的检测方法,其特征在于,所述根据关闭所述第一芯片中的最后一部分核前后,所述N条链中计算任务失败的链的变化情况,确定所述第一芯片是否为故障芯片,包括:
关闭所述第一芯片中的最后一部分核前后,若除所述最后一部分核所在的链以外,其它链中计算任务失败的链的数量减少,确定所述第一芯片为故障芯片;或者,
关闭所述第一芯片中的最后一部分核前后,若除所述最后一部分核所在的链以外,其它链中计算任务失败的链的数量不变,确定所述第一芯片不为故障芯片。
4.根据权利要求1或2所述的检测方法,其特征在于,若所述第一芯片不为故障芯片,
所述关闭所述M个芯片中一个芯片上的至少一个核,还包括:
关闭所述M个芯片中第二芯片中的第一部分核;
所述根据关闭所述一个芯片中的至少一个核前后,所述N条链中计算任务失败的链的变化情况,进行故障定位,还包括:
根据关闭所述第二芯片中的第一部分核前后,所述N条链中计算任务失败的链的变化情况,确定所述第二芯片是否为故障芯片。
5.根据权利要求1或2所述的检测方法,其特征在于,所述第一芯片中的每部分核数量相等。
6.根据权利要求1或2所述的检测方法,其特征在于,其它条链中计算任务失败的链的数量减少,确定所述第一芯片为故障芯片,包括:
所述其它条链中计算任务失败的链的数量小于预设阈值,确定所述第一芯片为故障芯片。
7.根据权利要求6所述的检测方法,其特征在于,所述预设阈值等于3。
8.根据权利要求1所述的检测方法,其特征在于,所述关闭所述M个芯片中一个芯片上的至少一个核,包括:
关闭第一芯片中的第一核;
所述根据关闭所述一个芯片中的至少一个核前后,所述N条链中计算任务失败的链的变化情况,进行故障定位,包括:
根据关闭所述第一芯片中的第一核前后,所述N条链中计算任务失败的链的变化情况,确定所述第一芯片中的第一核是否为故障核。
9.根据权利要求8所述的检测方法,其特征在于,所述根据关闭所述第一芯片中的第一核前后,所述N条链中计算任务失败的链的变化情况,确定所述第一芯片中的第一核是否为故障核,包括:
关闭所述第一芯片中的第一核前后,若除所述第一芯片中的第一核所在的链以外,所述N条链中计算任务失败的链的数量减少,确定所述第一核为故障核;或者,
关闭所述第一芯片中的第一核前后,若除所述第一芯片中的第一核所在的链以外,所述N条链中计算任务失败的链的数量不变,确定所述第一核不为故障核。
10.根据权利要求9所述的检测方法,其特征在于,关闭所述第一芯片中的第一核前后,若除所述第一芯片中的第一核所在的链以外,所述N条链中计算任务失败的链的数量不变,所述检测方法还包括:
关闭所述第一芯片中的第二核直到关闭所述第一芯片中的最后一个核;
关闭所述第一芯片中的最后一个核前后,若除所述最后一个核所在的链以外,所述N条链中计算任务失败的链的数量减少,确定所述最后一个核为故障核;或者,
关闭所述第一芯片中的最后一个核前后,若除所述最后一个核所在的链以外,所述N条链中计算任务失败的链的数量不变,确定所述最后一个核不为故障核。
11.根据权利要求10所述的检测方法,其特征在于,若确定所述最后一个核不为故障核,所述检测方法还包括:
关闭所述M个芯片中第二芯片中的一个核,根据关闭所述第二芯片中的一个核前后,所述N条链中计算任务失败的链的变化情况,确定所述第二芯片中的一个核是否为故障核。
12.根据权利要求8至11中任一项所述的检测方法,其特征在于,若确定所述第一芯片中的一个核为故障核,所述检测方法还包括:
控制所述第一芯片中的备用核替代所述故障核处理计算任务。
13.根据权利要求1所述的检测方法,其特征在于,所述关闭所述M个芯片中一个芯片中的至少一个核,包括:
按照排列顺序遍历所述M个芯片,以关闭所述M个芯片中一个芯片中的至少一个核。
14.根据权利要求1所述的检测方法,其特征在于,所述M个芯片中每条链上的M个核相互串联,用于进行哈希运算;
若所述M个芯片中一条链的哈希运算结果在预设阈值内,则计算任务成功,若一条链的哈希运算结果在预设阈值外或者未输出计算结果,则计算任务失败。
15.一种芯片的检测装置,其特征在于,包括控制单元,用于对包括M个芯片的计算系统进行故障定位,其中,所述M个芯片形成有N条链,所述N条链中每条链包括分别位于所述M个芯片的M个核,每条链上的M个核用于共同处理一个计算任务,M、N为大于1的正整数;
所述控制单元用于:
全开所述M个芯片中的核;
关闭所述M个芯片中一个芯片中的至少一个核;
根据关闭所述一个芯片中的至少一个核前后,所述N条链中计算任务失败的链的变化情况,进行故障定位;
所述控制单元具体用于:
关闭所述M个芯片中第一芯片中的第一部分核;
根据关闭所述第一芯片中的第一部分核前后,所述N条链中计算任务失败的链的变化情况,确定所述第一芯片是否为故障芯片;
所述控制单元具体用于:
关闭所述第一芯片中的第一部分核前后,若除所述第一芯片中的第一部分核所在的链以外,其它链中计算任务失败的链的数量减少,确定所述第一芯片为故障芯片;或者,
关闭所述第一芯片中的第一部分核前后,若除所述第一芯片中的第一部分核所在的链以外,其它链中计算任务失败的链的数量不变,关闭所述第一芯片中的第二部分核。
16.根据权利要求15所述的检测装置,其特征在于,所述控制单元具体用于:若直到关闭所述第一芯片中的最后一部分核,根据关闭所述第一芯片中的最后一部分核前后,所述N条链中计算任务失败的链的变化情况,确定所述第一芯片是否为故障芯片。
17.根据权利要求16所述的检测装置,其特征在于,所述控制单元具体用于:
关闭所述第一芯片中的最后一部分核前后,若除所述最后一部分核所在的链以外,其它链中计算任务失败的链的数量减少,确定所述第一芯片为故障芯片;或者,
关闭所述第一芯片中的最后一部分核前后,若除所述最后一部分核所在的链以外,其它链中计算任务失败的链的数量不变,确定所述第一芯片不为故障芯片。
18.根据权利要求16或17所述的检测装置,其特征在于,若所述第一芯片不为故障芯片,
所述控制单元还用于:
关闭所述M个芯片中第二芯片中的第一部分核;
根据关闭所述第二芯片中的第一部分核前后,所述N条链中计算任务失败的链的变化情况,确定所述第二芯片是否为故障芯片。
19.根据权利要求16或17所述的检测装置,其特征在于,所述第一芯片中的每部分核数量相等。
20.根据权利要求16或17所述的检测装置,其特征在于,所述控制单元具体用于:
其它条链中计算任务失败的链的数量小于预设阈值,确定所述第一芯片为故障芯片。
21.根据权利要求20所述的检测装置,其特征在于,所述预设阈值等于3。
22.根据权利要求15所述的检测装置,其特征在于,所述控制单元具体用于:
关闭第一芯片中的第一核;
根据关闭所述第一芯片中的第一核前后,所述N条链中计算任务失败的链的变化情况,确定所述第一芯片中的第一核是否为故障核。
23.根据权利要求22所述的检测装置,其特征在于,所述控制单元具体用于:
关闭所述第一芯片中的第一核前后,若除所述第一芯片中的第一核所在的链以外,所述N条链中计算任务失败的链的数量减少,确定所述第一核为故障核;或者,
关闭所述第一芯片中的第一核前后,若除所述第一芯片中的第一核所在的链以外,所述N条链中计算任务失败的链的数量不变,确定所述第一核不为故障核。
24.根据权利要求23所述的检测装置,其特征在于,关闭所述第一芯片中的第一核前后,若除所述第一芯片中的第一核所在的链以外,所述N条链中计算任务失败的链的数量不变,所述控制单元还用于:
关闭所述第一芯片中的第二核直到关闭所述第一芯片中的最后一个核;
关闭所述第一芯片中的最后一个核前后,若除所述最后一个核所在的链以外,所述N条链中计算任务失败的链的数量减少,确定所述最后一个核为故障核;或者,
关闭所述第一芯片中的最后一个核前后,若除所述最后一个核所在的链以外,所述N条链中计算任务失败的链的数量不变,确定所述最后一个核不为故障核。
25.根据权利要求20所述的检测装置,其特征在于,若确定所述最后一个核不为故障核,所述控制单元还用于:
关闭所述M个芯片中第二芯片中的一个核,根据关闭所述第二芯片中的一个核前后,所述N条链中计算任务失败的链的变化情况,确定所述第二芯片中的一个核是否为故障核。
26.根据权利要求22至25中任一项所述的检测装置,其特征在于,若确定所述第一芯片中的一个核为故障核,所述控制单元还用于:
控制所述第一芯片中的备用核替代所述故障核处理计算任务。
27.根据权利要求15所述的检测装置,其特征在于,所述控制单元具体用于:
按照排列顺序遍历所述M个芯片,以关闭所述M个芯片中一个芯片中的至少一个核。
28.根据权利要求15所述的检测装置,其特征在于,所述M个芯片中每条链上的M个核相互串联,用于进行哈希运算;
若所述M个芯片中一条链的哈希运算结果在预设阈值内,则计算任务成功,若一条链的哈希运算结果在预设阈值外或者未输出计算结果,则计算任务失败。
29.一种电子设备,其特征在于,包括芯片的检测装置和M个芯片;
所述M个芯片形成有N条链,所述N条链中每条链包括分别位于所述M个芯片的M个核,每条链上的M个核用于共同处理一个计算任务,其中,M、N为大于1的正整数;
所述检测装置为如权利要求15至28中任一项所述的检测装置,用于对包括M个芯片的计算系统进行故障定位。
30.根据权利要求29所述的电子设备,其特征在于,所述M个芯片中每条链上的M个核相互串联,用于进行哈希运算;
若所述M个芯片中一条链的哈希运算结果在预设阈值内,则计算任务成功,若一条链的哈希运算结果在预设阈值外或者未输出计算结果,则计算任务失败。
31.一种计算机可读存储介质,其特征在于,用于存储程序代码,所述程序代码用于执行根据权利要求1至14中任一项所述的芯片的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010349706.4A CN113568790B (zh) | 2020-04-28 | 2020-04-28 | 芯片的检测方法、检测装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010349706.4A CN113568790B (zh) | 2020-04-28 | 2020-04-28 | 芯片的检测方法、检测装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113568790A CN113568790A (zh) | 2021-10-29 |
CN113568790B true CN113568790B (zh) | 2023-11-21 |
Family
ID=78157953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010349706.4A Active CN113568790B (zh) | 2020-04-28 | 2020-04-28 | 芯片的检测方法、检测装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113568790B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653411A (zh) * | 2015-12-28 | 2016-06-08 | 哈尔滨工业大学 | 支持局部永久故障恢复的多核处理器芯片可重构系统 |
US9864004B1 (en) * | 2016-03-17 | 2018-01-09 | Cadence Design Systems, Inc. | System and method for diagnosing failure locations in electronic circuits |
CN109901057A (zh) * | 2019-04-15 | 2019-06-18 | 苏州浪潮智能科技有限公司 | 一种故障定位方法、装置、设备及存储介质 |
CN110162440A (zh) * | 2019-04-12 | 2019-08-23 | 平安普惠企业管理有限公司 | 故障定位的方法、电子装置及计算机可读存储介质 |
CN110795385A (zh) * | 2019-10-29 | 2020-02-14 | 天津飞腾信息技术有限公司 | 片上系统的可信核与计算核核资源分配方法及装置 |
-
2020
- 2020-04-28 CN CN202010349706.4A patent/CN113568790B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653411A (zh) * | 2015-12-28 | 2016-06-08 | 哈尔滨工业大学 | 支持局部永久故障恢复的多核处理器芯片可重构系统 |
US9864004B1 (en) * | 2016-03-17 | 2018-01-09 | Cadence Design Systems, Inc. | System and method for diagnosing failure locations in electronic circuits |
CN110162440A (zh) * | 2019-04-12 | 2019-08-23 | 平安普惠企业管理有限公司 | 故障定位的方法、电子装置及计算机可读存储介质 |
CN109901057A (zh) * | 2019-04-15 | 2019-06-18 | 苏州浪潮智能科技有限公司 | 一种故障定位方法、装置、设备及存储介质 |
CN110795385A (zh) * | 2019-10-29 | 2020-02-14 | 天津飞腾信息技术有限公司 | 片上系统的可信核与计算核核资源分配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113568790A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109872150B (zh) | 具有时钟同步操作的数据处理系统 | |
JP6050083B2 (ja) | 半導体装置 | |
US9378098B2 (en) | Methods and systems for redundant data storage in a register | |
WO2020123159A1 (en) | Hardware lockstep checking within a fault detection interval in a system on chip | |
US10228744B2 (en) | Method and apparatus for detecting and managing overcurrent events | |
US7568138B2 (en) | Method to prevent firmware defects from disturbing logic clocks to improve system reliability | |
US20200117554A1 (en) | Ips soc pll monitoring and error reporting | |
CN112000211A (zh) | 一种冗余电源告警信号的处理方法及装置 | |
CN113568789B (zh) | 芯片的检测方法、检测装置和电子设备 | |
US8522076B2 (en) | Error detection and recovery in a shared pipeline | |
CN113568790B (zh) | 芯片的检测方法、检测装置和电子设备 | |
CN115617550A (zh) | 处理设备、控制单元、电子设备、方法和计算机程序 | |
US20150095734A1 (en) | Detecting hidden fault using fault detection circuit | |
US20140016259A1 (en) | Multi-motherboard power data communication architecture for power supplies | |
US7321948B1 (en) | Highly available system test mechanism | |
CN108872828B (zh) | 复位管理电路和用于复位管理电路的方法 | |
US20160091870A1 (en) | Redundancy-ready control apparatus, redundancy system and method for configuring redundant logics for assuring low power consumption and reliability at the same time | |
US20200065200A1 (en) | Counter circuitry and methods | |
CN116048192A (zh) | 时钟备份电路、控制方法、系统、装置、介质及服务器 | |
CN113866541B (zh) | 直流换流阀功率模块的过压保护试验方法、装置及设备 | |
CN113300909B (zh) | 并机ups通信异常检测方法、装置及并机ups系统 | |
US11334409B2 (en) | Method and system for fault collection and reaction in system-on-chip | |
US9170869B2 (en) | Switchable per-lane bit error count | |
WO2011144965A1 (en) | Integrated circuit device, signal processing system and method for managing power resources of a signal processing system | |
CN116722868B (zh) | 一种时钟保持系统、方法及存储设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |