CN116340072B

CN116340072B - 一种多芯粒芯片的故障检测方法和装置

Info

Publication number: CN116340072B
Application number: CN202310594052.5A
Authority: CN
Inventors: 王嘉诚; 张少仲; 张栩
Original assignee: Zhongcheng Hualong Computer Technology Co Ltd
Current assignee: Zhongcheng Hualong Computer Technology Co Ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-07-28
Anticipated expiration: 2043-05-25
Also published as: CN116340072A

Abstract

本发明提供了一种多芯粒芯片的故障检测方法和装置，涉及计算机芯片技术领域。该方法包括：获取目标多芯粒芯片的运行数据；对运行数据进行解析，确定目标多芯粒芯片中各芯粒之间的关联关系；其中，关联关系用于表征芯粒之间的通信连接关系；根据每个关联关系，确定包括位于芯粒上的待检测位点；基于预先训练的故障检测模型，根据运行数据对每个待检测位点进行故障检测，得到故障检测结果。本方案能有效实现多芯粒芯片的故障检测，精确定位故障芯粒。

Description

一种多芯粒芯片的故障检测方法和装置

技术领域

本发明涉及计算机芯片技术领域，特别涉及一种多芯粒芯片的故障检测方法和装置。

背景技术

目前的高性能计算芯片架构，由于考虑成本和扩展性而广泛使用了芯粒架构方式。根据不同芯片的性能需求，将多个裸芯片（即芯粒）封装到一起，再通过高速总线链接和扩展，组成性能不同的芯片。然而在基于芯粒架构得到的芯片封装后，其内会因芯粒间连接故障或运输中发生碰撞甚至长期运行损耗而导致一个或多个芯粒故障。同时现有故障检测方法在发现多芯粒芯片故障后，常将封装后的该芯片进行整体废弃，难以真正解决具体位置的故障修复问题，不仅提高了多芯粒芯片的制造成本，也降低了芯粒的利用率。

发明内容

本发明提供了一种多芯粒芯片的故障检测方法和装置，该方法能有效实现多芯粒芯片的故障检测，精确定位故障芯粒。

第一方面，本发明实施例提供了一种多芯粒芯片的故障检测方法，包括：

获取目标多芯粒芯片的运行数据；

对所述运行数据进行解析，确定所述目标多芯粒芯片中各芯粒之间的关联关系；其中，所述关联关系用于表征芯粒之间的通信连接关系；

根据每个所述关联关系，确定包括位于芯粒上的待检测位点；

基于预先训练的故障检测模型，根据所述运行数据对每个所述待检测位点进行故障检测，得到故障检测结果。

可选地，所述根据每个所述关联关系，确定包括位于芯粒上的待检测位点，包括：

针对每个所述关联关系，将所述待检测位点设置在该关联关系所包括的芯粒上以及该关联关系的通信连接上。

可选地，所述预先训练的故障检测模型通过如下方法训练得到：

获取所述目标多芯粒芯片的历史运行数据集；其中，所述历史运行数据集包括历史运行数据以及故障位点；

采用粒子群优化算法对深度信念网络进行优化，建立优化深度信念网络；

利用所述历史运行数据对所述优化深度信念网络进行训练，得到所述故障检测模型。

可选地，所述采用粒子群优化算法对深度信念网络进行优化，建立优化深度信念网络，包括：

S1：确定粒子群的规模、维数、预设迭代次数、初始化粒子群的位置、速度；

S2：构建深度信念网络，根据所述粒子群对所述深度信念网络的权值和网络隐藏节点数值进行初始化，得到初始化深度信念网络，将所述初始化深度信念网络作为当前的深度信念网络执行步骤S3；

S3：根据当前的深度信念网络，利用所述粒子群优化算法进行迭代，得到当前最优解；

S4：将所述当前最优解作为初始点，获取所述当前最优解的位置和速度；

S5：根据所述当前最优解的位置和速度，利用共轭梯度更新所述当前最优解的速度，得到全局最优解；

S6：根据所述全局最优解更新所述粒子群的位置、速度、所述深度信念网络的权值和网络隐藏节点数值，得到新的深度信念网络；判断当前迭代次数是否小于所述预设迭代次数；若是，将该新的深度信念网络作为当前的深度信念网络返回步骤S3；否则，将该新的深度信念网络输出为优化深度信念网络。

可选地，所述利用共轭梯度更新所述当前最优解的速度，包括：

所述速度的计算公式如下：

其中，用于表示第n次内部迭代后更新的粒子i在第j维的速度；/>用于表示第n次内部迭代前粒子i在第j维的位置；r₁用于表示随机数；p_g用于表示所述当前最优解；ε用于表示调整系数。

可选地，在所述得到故障检测结果之后，还包括：

在所述故障检测结果所包括的故障位点分别位于不同芯粒上时，针对每个故障芯粒，获取与该故障芯粒相同的正常芯粒；

利用该故障芯粒和所述正常芯粒分别运行目标硬件事件，得到由该故障芯粒输出的第一响应信号和由所述正常芯粒输出的第二响应信号；

对所述第一响应信号和所述第二响应信号进行相似度计算，得到对应该故障芯粒的相似度值；

对各故障芯粒的相似度值进行由大至小的排序，得到故障芯粒序列；

对所述故障芯粒序列中各故障芯粒标记由大至小的故障等级；其中，相似度值与故障等级呈正相关。

可选地，在所述得到故障检测结果之后，还包括：

获取所述故障检测结果所包括的故障位点；

根据所述故障位点确定故障芯粒的故障接口；

将所述故障接口对应的关联关系转移到该故障芯粒的其他可行接口上，实现对该故障芯粒的修复。

第二方面，本发明实施例还提供了一种多芯粒芯片的故障检测装置，包括：

获取模块，用于获取目标多芯粒芯片的运行数据；

预处理模块，用于对所述运行数据进行解析，确定所述目标多芯粒芯片中各芯粒之间的关联关系；其中，所述关联关系用于表征芯粒之间的通信连接关系；

位点确定模块，用于根据每个所述关联关系，确定包括位于芯粒上的待检测位点；

检测模块，用于基于预先训练的故障检测模型，根据所述运行数据对每个所述待检测位点进行故障检测，得到故障检测结果。

可选地，该装置还包括：模型训练模块；所述模型训练模块用于执行如下操作：

第三方面，本发明实施例还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现上述任一项所述的多芯粒芯片的故障检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项所述的多芯粒芯片的故障检测方法。

本发明实施例提供了一种多芯粒芯片的故障检测方法和装置，该方法针对包含多芯粒的芯片，首先获取目标多芯粒芯片的运行数据，通过对运行数据进行解析，确定其中表征各芯粒之间通信连接关系的关联关系，然后通过基于该关联关系确定位于芯粒上的待检测位点，使用预先训练的故障检测模型对每个待检测位点进行故障检测，得到故障检测结果，如此能有效实现多芯粒芯片的故障检测，精确定位故障芯粒，从而对该故障芯粒进行修复或替换，提高芯粒利用率的同时，也提高了该多芯粒芯片的利用率，减少了不必要的整体废弃。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种多芯粒芯片的故障检测方法的流程图；

图2是本发明一实施例提供的一种计算设备的硬件架构图；

图3是本发明一实施例提供的一种多芯粒芯片的故障检测装置结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种多芯粒芯片的故障检测方法，该方法包括：

步骤100，获取目标多芯粒芯片的运行数据；

步骤102，对运行数据进行解析，确定目标多芯粒芯片中各芯粒之间的关联关系；其中，关联关系用于表征芯粒之间的通信连接关系；

步骤104，根据每个关联关系，确定包括位于芯粒上的待检测位点；

步骤106，基于预先训练的故障检测模型，根据运行数据对每个待检测位点进行故障检测，得到故障检测结果。

本发明实施例中，首先获取目标多芯粒芯片的运行数据，通过对运行数据进行解析，确定其中表征各芯粒之间通信连接关系的关联关系，然后通过基于该关联关系确定位于芯粒上的待检测位点，使用预先训练的故障检测模型对每个待检测位点进行故障检测，得到故障检测结果，如此能有效实现多芯粒芯片的故障检测，精确定位故障芯粒，从而对该故障芯粒进行修复或替换，提高芯粒利用率的同时，也提高了该多芯粒芯片的利用率，减少了不必要的整体废弃。

下面描述图1所示的各个步骤的执行方式。

首先，针对步骤100，运行数据包括目前多芯粒芯片的运行参数、所运行的芯粒、所触发的硬件事件等。其中，步骤100还可以周期性地获取该运行数据，以实现对多芯粒的实时故障检测，及时发现故障芯粒，以保证目标芯片的有效运行。

在步骤104中，根据每个关联关系，确定包括位于芯粒上的待检测位点，包括：

针对每个关联关系，将待检测位点设置在该关联关系所包括的芯粒上以及该关联关系的通信连接上。

在本发明中，由于关联关系代表了两个芯粒之间的通信连接，而芯粒上或通信连接上的故障均会导致多芯粒芯片的故障，因此为了更精确地定位故障位点，基于关联关系确定待检测位点，以便后续通过对待检测位点的检测精确地定位故障位点。更具体地，待检测位点设置在该关联关系所包括的芯粒的接口上。

针对步骤106中的预先训练的故障检测模型，其通过如下方法训练得到：

获取目标多芯粒芯片的历史运行数据集；其中，历史运行数据集包括历史运行数据以及故障位点；

利用历史运行数据对优化深度信念网络进行训练，得到故障检测模型。

需要说明的是，在利用历史运行数据进行训练前，还包括对历史运行数据进行归一化预处理。

在本发明中，采用粒子群优化算法优化深度信念网络，能提高网络训练算法全局寻优能力和收敛速度，进而提高基于训练得到的故障检测模型的检测准确性。

在一个优选的实施方式中，采用粒子群优化算法对深度信念网络进行优化，建立优化深度信念网络，包括：

S2：构建深度信念网络，根据粒子群对深度信念网络的权值和网络隐藏节点数值进行初始化，得到初始化深度信念网络，将初始化深度信念网络作为当前的深度信念网络执行步骤S3；

S3：根据当前的深度信念网络，利用粒子群优化算法进行迭代，得到当前最优解；

S4：将当前最优解作为初始点，获取当前最优解的位置和速度；

S5：根据当前最优解的位置和速度，利用共轭梯度更新当前最优解的速度，得到全局最优解；

S6：根据全局最优解更新粒子群的位置、速度、深度信念网络的权值和网络隐藏节点数值，得到新的深度信念网络；判断当前迭代次数是否小于预设迭代次数；若是，将该新的深度信念网络作为当前的深度信念网络返回步骤S3；否则，将该新的深度信念网络输出为优化深度信念网络。

需要说明的是，在步骤S6中的当前迭代次数为截至当前步骤S3中的迭代次数的总和。在步骤S5中，直至满足预设内部迭代次数，得到全局最优解。

更具体地，初始化粒子群时，确定适应度函数，在步骤S3进行迭代过程中，计算粒子群中粒子的适应度，确定个体历史最佳位置和全局最佳位置，并采用标准粒子群优化算法更新粒子的速度和位置，计算更新后粒子的适应度，如此以通过迭代找到当前最优解；然后将该当前最优解作为初始点，获取该初始点的负梯度方向构造共轭方向，并沿共轭方向进行搜索，并更新每个粒子的速度，计算粒子的适应度，直至满足预设内部迭代次数，得到全局最优解，若此时粒子群优化算法的迭代次数达到预设迭代次数，则结束流程，得到优化的深度信念网络的权值和网络隐藏节点数值，并输出优化深度信念网络；但若此时粒子群优化算法的迭代次数小于预设迭代次数，则返回步骤S3继续进行迭代。

由于粒子群优化算法在寻优过程中存在过早陷入局部最优状态的情况，进而影响其收敛性和搜索精度，在本发明中，在确定当前最优解后，再利用共轭梯度进行进一步局部搜索，不仅能够加速收敛速度，还能提高收敛精度，进而提高基于该优化深度信念网络的故障检测模型的检测准确性。

在一个优选的实施方式中，利用共轭梯度更新当前最优解的速度，包括：

速度的计算公式如下：

其中，用于表示第n次内部迭代后更新的粒子i在第j维的速度；/>用于表示第n次内部迭代前粒子i在第j维的位置，即第n-1次内部迭代后更新的粒子i在第j维的位置；r₁用于表示随机数；p_g用于表示所述当前最优解；ε用于表示调整系数。

需要说明的是，n为整数；n-1-ε为整数，且n-1-ε≥0；用于表示惯性系数。n=1时，x_ij ⁰为第1次内部迭代前粒子i在第j维的位置，即为当前最优解中粒子i在第j维的位置；ν_ij ⁰为第1次内部迭代前粒子i在第j维的速度，即为当前最优解中粒子i在第j维的速度。粒子i为当前最优解中的粒子。

在一个优选的实施方式中，在得到故障检测结果之后，还包括：

在故障检测结果所包括的故障位点分别位于不同芯粒上时，针对每个故障芯粒，获取与该故障芯粒相同的正常芯粒；

利用该故障芯粒和正常芯粒分别运行目标硬件事件，得到由该故障芯粒输出的第一响应信号和由正常芯粒输出的第二响应信号；

对第一响应信号和第二响应信号进行相似度计算，得到对应该故障芯粒的相似度值；

对故障芯粒序列中各故障芯粒标记由大至小的故障等级；其中，相似度值与故障等级呈正相关。

需要说明的是，故障检测结果所包括的故障位点即为存在故障的待检测位点，故障芯粒为存在故障位点的芯粒；故障芯粒和正常芯粒为功能相同且规格完全相同的芯粒，目标硬件事件为实现该芯粒功能的硬件事件，且正常芯粒为确定无故障的芯粒。

在本发明中，通过对比正常芯粒和故障芯粒运行相同的硬件事件下的响应信号，进一步得到每个故障芯粒的响应信号与正常响应信号的相似度，对该相似度进行排序，对相似度更大的故障芯粒标记更高的故障等级，故障等级越高则该嫌疑芯粒越易故障，因此对目标芯片的性能影响更大，如此基于该故障等级能够方便用户优先对高故障等级的芯粒进行实时检测以维护目标芯片的正常运行，提高用户的使用体验。

获取故障检测结果所包括的故障位点；

根据故障位点确定故障芯粒的故障接口；

将故障接口对应的关联关系转移到该故障芯粒的其他可行接口上，实现对该故障芯粒的修复。

在本发明中，在确定故障芯粒之后，能够根据故障芯粒在出现异常芯粒前反馈的目标地址确定其故障接口，通过对该故障接口进行修复；或将该故障接口对应的关联关系转移到该故障芯粒的其他可行接口上，如此实现对该故障芯粒的修复。

获取故障检测结果所包括的故障位点；

屏蔽故障位点所在的故障芯粒或在该故障芯粒的位置更换功能相同的芯粒。

在本发明中，不仅实现了对多芯粒芯片的故障芯粒的定位，还能对该故障芯粒进行修复、屏蔽或更换，从而能避免芯片的整体废弃，提高了芯片的利用率。

如图2、图3所示，本发明实施例提供了一种多芯粒芯片的故障检测装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图2所示，为本发明实施例提供的一种多芯粒芯片的故障检测装置所在计算设备的一种硬件架构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的计算设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图3所示，作为一个逻辑意义上的装置，是通过其所在计算设备的CPU将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种多芯粒芯片的故障检测装置，包括：获取模块300、预处理模块302、位点确定模块304和检测模块306；

获取模块300，用于获取目标多芯粒芯片的运行数据；

预处理模块302，用于对运行数据进行解析，确定目标多芯粒芯片中各芯粒之间的关联关系；其中，关联关系用于表征芯粒之间的通信连接关系；

位点确定模块304，用于根据每个关联关系，确定包括位于芯粒上的待检测位点；

检测模块306，用于基于预先训练的故障检测模型，根据运行数据对每个待检测位点进行故障检测，得到故障检测结果。

在一些具体的实施方式中，获取模块300可用于执行上述步骤100，预处理模块302可用于执行上述步骤102，位点确定模块304可用于执行上述步骤104，检测模块306可用于执行上述步骤106。

在一些具体的实施方式中，位点确定模块304还用于执行如下操作：

在一些具体的实施方式中，该装置还包括：模型训练模块；模型训练模块用于执行如下操作：

在一些具体的实施方式中，模型训练模块用于执行如下操作：

S5：根据当前最优解的位置和速度，利用共轭梯度更新当前最优解的速度，直至满足预设内部迭代次数，得到全局最优解；

利用共轭梯度更新当前最优解的速度的计算公式如下：

其中，用于表示第n次内部迭代后更新的粒子i在第j维的速度；/>用于表示第n次内部迭代前粒子i在第j维的位置；r₁用于表示随机数；p_g用于表示当前最优解；ε用于表示调整系数；

在一些具体的实施方式中，该装置还包括故障等级确定模块，该故障等级确定模块用于执行如下操作：

在一个具体的实施方式中，该装置还包括修复模块，修复模块用于执行如下操作：

获取故障检测结果所包括的故障位点；

根据故障位点确定故障芯粒的故障接口；

在一些具体的实施方式中，修复模块还用于执行如下操作：

获取故障检测结果所包括的故障位点；

可以理解的是，本发明实施例示意的结构并不构成对一种多芯粒芯片的故障检测装置的具体限定。在本发明的另一些实施例中，一种多芯粒芯片的故障检测装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本发明任一实施例中的一种多芯粒芯片的故障检测方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器执行时，使所述处理器执行本发明任一实施例中的一种多芯粒芯片的故障检测方法。

具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机（或CPU或MPU）读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多芯粒芯片的故障检测方法，其特征在于，包括：

获取目标多芯粒芯片的运行数据；

根据每个所述关联关系，确定包括位于芯粒上的待检测位点；针对每个所述关联关系，将所述待检测位点设置在该关联关系所包括的芯粒上以及该关联关系的通信连接上；

基于预先训练的故障检测模型，根据所述运行数据对每个所述待检测位点进行故障检测，得到故障检测结果；

所述预先训练的故障检测模型通过如下方法训练得到：

利用所述历史运行数据对所述优化深度信念网络进行训练，得到所述故障检测模型；

所述采用粒子群优化算法对深度信念网络进行优化，建立优化深度信念网络，包括：

S6：根据所述全局最优解更新所述粒子群的位置、速度、所述深度信念网络的权值和网络隐藏节点数值，得到新的深度信念网络；判断当前迭代次数是否小于所述预设迭代次数；若是，将该新的深度信念网络作为当前的深度信念网络返回步骤S3；否则，将该新的深度信念网络输出为优化深度信念网络；

所述利用共轭梯度更新所述当前最优解的速度，包括：

所述速度的计算公式如下：

2.根据权利要求1所述的方法，其特征在于，在所述得到故障检测结果之后，还包括：

3.一种多芯粒芯片的故障检测装置，其特征在于，包括：

获取模块，用于获取目标多芯粒芯片的运行数据；

位点确定模块，用于根据每个所述关联关系，确定包括位于芯粒上的待检测位点；针对每个所述关联关系，将所述待检测位点设置在该关联关系所包括的芯粒上以及该关联关系的通信连接上；

检测模块，用于基于预先训练的故障检测模型，根据所述运行数据对每个所述待检测位点进行故障检测，得到故障检测结果；

还包括：模型训练模块；所述模型训练模块用于执行如下操作：

所述利用共轭梯度更新所述当前最优解的速度，包括：

所述速度的计算公式如下：

4.一种计算设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1或2所述的方法。

5.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1或2所述的方法。