CN117148117B - 一种Chiplet故障自动检测修复方法及系统 - Google Patents

一种Chiplet故障自动检测修复方法及系统 Download PDF

Info

Publication number
CN117148117B
CN117148117B CN202311408188.9A CN202311408188A CN117148117B CN 117148117 B CN117148117 B CN 117148117B CN 202311408188 A CN202311408188 A CN 202311408188A CN 117148117 B CN117148117 B CN 117148117B
Authority
CN
China
Prior art keywords
test
fault
core particle
chiplet
bist
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311408188.9A
Other languages
English (en)
Other versions
CN117148117A (zh
Inventor
王嘉诚
张少仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongcheng Hualong Computer Technology Co Ltd
Original Assignee
Zhongcheng Hualong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongcheng Hualong Computer Technology Co Ltd filed Critical Zhongcheng Hualong Computer Technology Co Ltd
Priority to CN202311408188.9A priority Critical patent/CN117148117B/zh
Publication of CN117148117A publication Critical patent/CN117148117A/zh
Application granted granted Critical
Publication of CN117148117B publication Critical patent/CN117148117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/28Testing of electronic circuits, e.g. by signal tracer
    • G01R31/2832Specific tests of electronic circuits not provided for elsewhere
    • G01R31/2834Automated test systems [ATE]; using microprocessors or computers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/28Testing of electronic circuits, e.g. by signal tracer
    • G01R31/2832Specific tests of electronic circuits not provided for elsewhere
    • G01R31/2836Fault-finding or characterising
    • G01R31/2846Fault-finding or characterising using hard- or software simulation or using knowledge-based systems, e.g. expert systems, artificial intelligence or interactive algorithms
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/28Testing of electronic circuits, e.g. by signal tracer
    • G01R31/2851Testing of integrated circuits [IC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L22/00Testing or measuring during manufacture or treatment; Reliability measurements, i.e. testing of parts without further processing to modify the parts as such; Structural arrangements therefor
    • H01L22/10Measuring as part of the manufacturing process
    • H01L22/12Measuring as part of the manufacturing process for structural parameters, e.g. thickness, line width, refractive index, temperature, warp, bond strength, defects, optical inspection, electrical measurement of structural dimensions, metallurgic measurement of diffusions
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L22/00Testing or measuring during manufacture or treatment; Reliability measurements, i.e. testing of parts without further processing to modify the parts as such; Structural arrangements therefor
    • H01L22/10Measuring as part of the manufacturing process
    • H01L22/14Measuring as part of the manufacturing process for electrical parameters, e.g. resistance, deep-levels, CV, diffusions by electrical means
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L22/00Testing or measuring during manufacture or treatment; Reliability measurements, i.e. testing of parts without further processing to modify the parts as such; Structural arrangements therefor
    • H01L22/20Sequence of activities consisting of a plurality of measurements, corrections, marking or sorting steps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Manufacturing & Machinery (AREA)
  • Theoretical Computer Science (AREA)
  • Power Engineering (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Tests Of Electronic Circuits (AREA)

Abstract

本发明公开了一种Chiplet故障自动检测修复方法及系统,涉及芯粒故障诊断技术领域,包括步骤:S1:传感器阵列和监控电路实时采集每个芯粒的温度T、功耗P、工作频率F、工作负载L、实时电压V,每个芯粒形成一个特征向量;S2:将形成的特征向量输入至训练好的改进隔离森林模型进行故障判断,若异常分数大于设定阈值则进入步骤S3,否则结束;S3:每个芯粒集成BIST自检测电路实现故障芯粒定位及修复;S4:结束。本申请通过改进隔离森林模型进行故障判断,结合芯粒特定进行异常分数计算,通过集成BIST自检测电路实现故障芯粒定位及修复,大大增强了自动化程度,提升了故障判断效率及准确率。

Description

一种Chiplet故障自动检测修复方法及系统
技术领域
本发明涉及芯粒故障诊断技术领域,具体涉及一种Chiplet故障自动检测修复方法及系统。
背景技术
随着半导体技术的快速发展,集成电路的规模逐年增长,而电路尺寸则持续缩小。在这种背景下,芯片设计和制造面临着许多挑战,特别是当考虑到缺陷和故障的可能性时。芯片的故障可能由各种原因引起,如材料缺陷、制程偏差或外部因素如温度和电源波动。为了应对这些挑战,研究者和工程师寻求了许多不同的方法来提高芯片的可靠性和性能。其中之一就是芯片技术的引入,它允许将多个独立的小芯片,或称为"芯粒"(即Chiplet),集成到一个更大的系统中。这种方法不仅可以提高生产效率,还可以降低单个组件的故障率,因为每个芯粒可以单独测试和优化。
但是,尽管有了这些优势,芯粒化技术也带来了新的挑战。当一个芯片由多个芯粒组成时,确保所有芯粒的正常工作变得尤为重要。此外,由于芯粒间的相互作用和依赖关系,一个芯粒的故障可能会影响到整个芯片的性能和功能。
为了解决这些问题,研究者开始探索自动故障检测和修复技术。传统的故障检测方法,如内建自测试 (BIST) 技术,虽然在单个芯片上效果良好,但在多芯粒系统中可能不够灵活和高效。且现有机器学习和数据驱动方法进行故障检测没有根据芯粒特性进行判断诊断的,导致故障诊断修复效率较低。
因此,芯粒化技术为集成电路设计和制造带来了新的机遇和挑战。为了确保这些复杂系统的可靠性和性能,开发高效、灵活和自适应的故障检测和修复方法变得至关重要。
发明内容
针对现有技术中提到的上述问题,为解决上述技术问题,本发明提供了一种Chiplet故障自动检测修复方法及系统,该方法通过将形成的特征向量输入至训练好的改进隔离森林模型进行故障判断,通过结合芯粒特定进行异常分数计算,若大于设定阈值则存在故障,对故障芯粒通过集成BIST自检测电路,启动测试实现故障芯粒定位及修复,根据问题类型针对性的修复,大大增强了Chiplet故障自动检测修复的自动化程度,提升了故障判断效率及准确率。
一种Chiplet故障自动检测修复方法,包括步骤:
S1:传感器阵列和监控电路,实时采集每个芯粒的温度T、功耗P、工作频率F、工作负载L、实时电压V,每个芯粒形成一个特征向量X=[T,P,F,L,V];
S2:将形成的特征向量输入至训练好的改进隔离森林模型进行故障判断,若异常分数大于设定阈值,则存在故障并进入步骤S3,否则结束;故障判断过程如下:首先,对于每个芯粒的特征向量/>,计算芯粒完成全部隔离的步骤数平均值/>
其中,是芯粒在第i次隔离时的步骤数;/>是芯粒中第j个特征的权重系数,N表示芯粒全部隔离完成需要总次数;
其次,计算异常分数
其中,表示芯粒完成全部隔离过程需要平均步骤数的期望值;
S3:每个芯粒集成BIST自检测电路,启动测试实现故障芯粒定位及修复;
S31:当Chiplet处于低功耗模式时,则不执行测试操作;当Chiplet温度大于设定阈值时,则BIST自动切换至热故障测试进行异常判断,若存在异常则进入步骤S32;当Chiplet工作负载大于设定阈值时,则BIST自动切换至多测试操作模式,若存在异常则进入步骤S33;
S32:降低当前芯粒的工作频率、工作电压以实现自我修复;
S33:判断如果逻辑门出现故障,使用汉明码纠正错误,不能通过汉明码修复的故障,则绕过故障电路;如果路径测试存在异常,则使用备用路径绕过损坏的路径或降低Chiplet的工作频率和电压以降低由损坏路径引起的性能下降;如果存储器测试存在异常,则使用错误纠正码ECC纠错存储器错误单元或将其标记不可用;
S4:结束并更新系统日志,将存储故障检测的类型、时间、芯粒编号至系统日志中。
优选地,所述热故障测试包括:静态电流测量,判断高温下是否有超过阈值的静态电流导致异常;晶体管开关速度测试,检测响应时间是否超出设定范围区间导致异常;存储单元读/写操作测试,检测保存和读取数据是否异常。
优选地,所述多测试操作模式,包括逻辑门测试,判断是否存在逻辑错误,比较逻辑门测试输出与预期输出,确定是否存在逻辑门异常;路径测试,对逻辑路径电路进行完整性测试,如果逻辑路径的输出与预期不一致,或者其响应时间超出设定范围,判断是否有异常路径电路;存储器测试,检测存储器的错误率,通过向存储器写入数据,并读取返回数据,检测存储器单元的错误率,判断错误率是否大于设定阈值导致异常。
优选地,所述芯粒集成BIST自检测电路,还包括跨Chiplet协同测试,分为通信接口测试、共享资源测试、系统级同步测试;通信接口测试包括BIST在一个Chiplet上生成发送模式,同时在接收Chiplet上进行监听,对比发送和接收的数据,判断数据是否完整和正确;共享资源测试包括,同时在多个Chiplet上启动BIST,生成对共享资源的访问请求,检查共享存储或计算单元的响应和性能,判断在并非条件下是否异常;系统级同步测试包括BIST在一个Chiplet上生成一个同步信号,同时在其他Chiplet上进行监听,检查其他Chiplet的响应时间和同步精度,确保整个系统的同步性。
优选地,在改进隔离森林模型进行故障判断,计算芯粒完成全部隔离的步骤数平均值 ,在每一步隔离中,选择芯粒的一个特征和一个随机阈值,将芯粒集分为两个子集,一个子集中的芯粒特征值小于阈值,另一个子集芯粒的特征值大于阈值即被分离,每次被分离芯粒步骤数加1,直至芯粒完全隔离。
本申请还提供一种Chiplet故障自动检测修复系统,包括:
数据采集模块,传感器阵列和监控电路,实时采集每个芯粒的温度T、功耗P、工作频率F、工作负载L、实时电压V,每个芯粒形成一个特征向量X=[T,P,F,L,V];
改进隔离森林模型计算模块,将形成的特征向量输入至训练好的改进隔离森林模型进行故障判断,若异常分数大于设定阈值,则存在故障则进入故障芯粒定位及修复模块,否则结束;故障判断过程如下:首先,对于每个芯粒的特征向量/>,计算芯粒完成全部隔离的步骤数平均值/>
其中,是芯粒在第i次隔离时的步骤数;/>是芯粒中第j个特征的权重系数,N表示芯粒全部隔离完成需要总次数;
其次,计算异常分数
其中,表示芯粒完成全部隔离过程需要平均步骤数的期望值;
故障芯粒定位及修复模块,每个芯粒集成BIST自检测电路,启动测试实现故障芯粒定位及修复;
集成BIST自检测电路测试判断模块,当Chiplet处于低功耗模式时,则不执行测试操作;当Chiplet温度大于设定阈值时,则BIST自动切换至热故障测试进行异常判断,若存在异常则进入频压修复模块;当Chiplet工作负载大于设定阈值时,则BIST自动切换至多测试操作模式,若存在异常则进入异常故障解决模块;
频压修复模块,降低当前芯粒的工作频率、工作电压以实现自我修复;
异常故障解决模块,判断如果逻辑门出现故障,使用汉明码纠正错误,不能通过汉明码修复的故障,则绕过故障电路;如果路径测试存在异常,则使用备用路径绕过损坏的路径或降低Chiplet的工作频率和电压以降低由损坏路径引起的性能下降;如果存储器测试存在异常,则使用错误纠正码ECC纠错存储器错误单元或将其标记不可用;
结束模块并更新系统日志,将存储故障检测的类型、时间、芯粒编号至系统日志中。
优选地,所述热故障测试包括:静态电流测量,判断高温下是否有超过阈值的静态电流导致异常;晶体管开关速度测试,检测响应时间是否超出设定范围区间导致异常;存储单元读/写操作测试,检测保存和读取数据是否异常。
优选地,所述多测试操作模式,包括逻辑门测试,判断是否存在逻辑错误,比较逻辑门测试输出与预期输出,确定是否存在逻辑门异常;路径测试,对逻辑路径电路进行完整性测试,如果逻辑路径的输出与预期不一致,或者其响应时间超出设定范围,判断是否有异常路径电路;存储器测试,检测存储器的错误率,通过向存储器写入数据,并读取返回数据,检测存储器单元的错误率,判断错误率是否大于设定阈值导致异常。
优选地,所述芯粒集成BIST自检测电路,还包括跨Chiplet协同测试,分为通信接口测试、共享资源测试、系统级同步测试;通信接口测试包括BIST在一个Chiplet上生成发送模式,同时在接收Chiplet上进行监听,对比发送和接收的数据,判断数据是否完整和正确;共享资源测试包括,同时在多个Chiplet上启动BIST,生成对共享资源的访问请求,检查共享存储或计算单元的响应和性能,判断在并非条件下是否异常;系统级同步测试包括BIST在一个Chiplet上生成一个同步信号,同时在其他Chiplet上进行监听,检查其他Chiplet的响应时间和同步精度,确保整个系统的同步性。
优选地,在改进隔离森林模型进行故障判断,计算芯粒完成全部隔离的步骤数平均值 ,在每一步隔离中,选择芯粒的一个特征和一个随机阈值,将芯粒集分为两个子集,一个子集中的芯粒特征值小于阈值,另一个子集芯粒的特征值大于阈值即被分离,每次被分离芯粒步骤数加1,直至芯粒完全隔离。
本发明提供了一种Chiplet故障自动检测修复方法及系统,所能实现的有益技术效果如下:
1、本申请通过通过将形成的特征向量输入至训练好的改进隔离森林模型进行故障判断,然后采用BIST自检测电路进行故障针对性定位和修复,将二者结合应用到芯粒故障诊断判断提升了自动化判断程度及准确度,此外通过将是芯粒中第j个特征的权重系数引入到隔离森林算法中,大大增强了隔离森林算法判断准确度,通过结合芯粒特定进行异常分数计算,若大于设定阈值则存在故障,对故障芯粒通过集成BIST自检测电路,启动测试实现故障芯粒定位及修复,根据问题类型针对性的修复,大大增强了Chiplet故障自动检测修复的自动化程度,提升了故障判断效率及准确率。
2、本发明对每个芯粒集成BIST自检测电路,启动测试实现故障芯粒定位及修复;根据芯粒不同状态模式进行针对性的策略调整,当Chiplet处于低功耗模式时,则不执行测试操作;当Chiplet温度大于设定阈值时,则BIST自动切换至热故障测试进行异常判断,若存在异常则进入步骤S32;当Chiplet工作负载大于设定阈值时,则BIST自动切换至多测试操作模式,若存在异常则进入步骤S33,通过故障类型的判断及针对性解决,大大增强了故障应对策略的合理选择及解决,大大提升了故障解决效率。
3、本发明通过降低当前芯粒的工作频率、工作电压以实现自我修复;判断如果逻辑门出现故障,使用汉明码纠正错误,不能通过汉明码修复的故障,则绕过故障电路;如果路径测试存在异常,则使用备用路径绕过损坏的路径或降低Chiplet的工作频率和电压以降低由损坏路径引起的性能下降;如果存储器测试存在异常,则使用错误纠正码ECC纠错存储器错误单元或将其标记不可用,给出了针对性解决方案,大大提升了故障解决速率及准确性。
4、本发明所述芯粒集成BIST自检测电路,还包括跨Chiplet协同测试,分为通信接口测试、共享资源测试、系统级同步测试;通信接口测试包括BIST在一个Chiplet上生成发送模式,同时在接收Chiplet上进行监听,对比发送和接收的数据,判断数据是否完整和正确;共享资源测试包括,同时在多个Chiplet上启动BIST,生成对共享资源的访问请求,检查共享存储或计算单元的响应和性能,判断在并非条件下是否异常;系统级同步测试包括BIST在一个Chiplet上生成一个同步信号,同时在其他Chiplet上进行监听,检查其他Chiplet的响应时间和同步精度,确保整个系统的同步性。跨Chiplet协同测试,大大提升了芯粒间的故障整体排查效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明的一种Chiplet故障自动检测修复方法步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:
针对现有技术中提到的上述问题,为解决上述技术问题,如附图1所示:一种Chiplet故障自动检测修复方法,包括步骤:
S1:传感器阵列和监控电路,实时采集每个芯粒的温度T、功耗P、工作频率F、工作负载L、实时电压V,每个芯粒形成一个特征向量X=[T,P,F,L,V];
在一些实施例中有一个芯粒,其特征向量为 x=[75°C,1.2W,2.5GHz,80]。
S2:将形成的特征向量输入至训练好的改进隔离森林模型进行故障判断,若异常分数大于设定阈值,则存在故障并进入步骤S3,否则结束;
对于每个芯粒,记录它在隔离过程中被隔离所需的步骤数,是芯粒在第i次隔离时的步骤数,每当根据某一特征(如温度、功耗等)和设定的阈值将芯粒被分离时,步骤数增加1,直至完全隔离,例如,在每一步,选择一个特征(如芯粒的温度)和一个随机阈值,然后,将芯粒集分为两个子集:一个子集中的芯粒特征值小于阈值,另一个子集中的芯粒特征值大于阈值。每次分组被分离时,/>增加1,直到芯粒x完全隔离或达到了预定义的步骤限制,这样芯粒异常值越大则被分离的越早。
隔离森林的核心思想是通过少量的随机选择的特征和阈值来隔离观察值。在芯粒的场景中,我们可以随机选择一个工作参数,如“温度”,并为它随机设置一个阈值,如“70°C”。然后,我们将所有温度高于70°C的芯粒和温度低于或等于70°C的芯粒分开。
接下来,我们再为上述两组芯粒分别随机选择另一个参数(或同一个参数的另一个阈值)进行进一步隔离。例如,我们可以选择“功耗”并设定一个阈值如“1.5W”。
重复上述隔离步骤,直到每个芯粒都被单独隔离开,或者达到了预设的最大隔离次数。
通过上述隔离过程,我们会得到每个芯粒被隔离所需的步骤数。这个步骤数可以被看作是一个评分或评价。
故障判断过程如下:首先,对于每个芯粒的特征向量,计算芯粒完成全部隔离的步骤数平均值/>;
其中,是芯粒在第i次隔离时的步骤数,通过统计计数得到;/>是芯粒中第j个特征的权重系数,N表示芯粒全部隔离完成需要总次数;
其次,计算异常分数
其中,表示芯粒完成全部隔离过程需要平均步骤数的期望值;
隔离森林算法的工作原理是这样的:它随机选择一个特征(例如温度、功耗等)和一个与该特征相关的阈值,然后根据芯粒的特征值将芯粒分配给左子节点或右子节点。每一次分割都将芯粒与其他芯粒进一步隔离,直到它到达叶节点。
在这种方法中,正常的芯粒(即那些没有故障的芯粒)通常需要更多的步骤才能被完全隔离,因为它们的行为与大多数其他芯粒相似。而异常或故障的芯粒会因其与众不同的行为而更快地被隔离。
例如,假设我们在监控温度和功耗。大多数芯粒的温度都在50°C到60°C之间,而功耗在1W到2W之间。但是,如果有一个芯粒的温度突然上升到90°C并且功耗增加到5W,那么这个芯粒的行为就与其他芯粒显著不同。因此,当我们应用隔离森林算法时,这个故障芯粒可能会在很少的步骤中到达叶节点,从而被识别为异常。
S3:每个芯粒集成BIST自检测电路,启动测试实现故障芯粒定位及修复;
BIST自检测电路主要结构包括:
BIST集中控制器:此控制器负责协调多个Chiplet的测试活动。它可以发送命令和同步信号,以确保所有的Chiplet同时开始和结束测试。
动态测试模式生成器:根据集中控制器的命令,动态生成适当的测试模式。这允许BIST根据不同的测试需求和场景进行动态配置。
输出响应分析器:此模块负责分析测试输出,并与预期输出进行比较。在协同测试中,它需要能够同时处理和分析来自多个Chiplet的输出。
通信模块:此模块允许BIST与其他Chiplets的BIST结构通信。这是实现协同测试的关键,因为它允许测试模式、同步信号和测试结果在Chiplets之间进行交换。
被测芯粒 (CUT):Chiplet内部的逻辑电路或存储器,需要进行测试。
预期输出数据:存储预期的测试输出,用于与实际输出进行比较。
时钟:提供时钟信号,同步BIST操作。
S31:当Chiplet处于低功耗模式时,则不执行测试操作;当Chiplet温度大于设定阈值时,则BIST自动切换至热故障测试进行异常判断,若存在异常则进入步骤S32;当Chiplet工作负载大于设定阈值时,则BIST自动切换至多测试操作模式,若存在异常则进入步骤S33;
S32:降低当前芯粒的工作频率、工作电压以实现自我修复;
S33:判断如果逻辑门出现故障,使用汉明码纠正错误,不能通过汉明码修复的故障,则绕过故障电路;如果路径测试存在异常,则使用备用路径绕过损坏的路径或降低Chiplet的工作频率和电压以降低由损坏路径引起的性能下降;如果存储器测试存在异常,则使用错误纠正码ECC纠错存储器错误单元或将其标记不可用;
S4:结束并更新系统日志,将存储故障检测的类型、时间、芯粒编号至系统日志中。
在一些实施例中,所述热故障测试包括:静态电流测量,判断高温下是否有超过阈值的静态电流导致异常;晶体管开关速度测试,检测响应时间是否超出设定范围区间导致异常;存储单元读/写操作测试,检测保存和读取数据是否异常。
在一些实施例中,所述多测试操作模式,包括逻辑门测试,判断是否存在逻辑错误,比较逻辑门测试输出与预期输出,确定是否存在逻辑门异常;路径测试,对逻辑路径电路进行完整性测试,如果逻辑路径的输出与预期不一致,或者其响应时间超出设定范围,判断是否有异常路径电路;存储器测试,检测存储器的错误率,通过向存储器写入数据,并读取返回数据,检测存储器单元的错误率,判断错误率是否大于设定阈值导致异常。
在一些实施例中,所述芯粒集成BIST自检测电路,还包括跨Chiplet协同测试,分为通信接口测试、共享资源测试、系统级同步测试;通信接口测试包括BIST在一个Chiplet上生成发送模式,同时在接收Chiplet上进行监听,对比发送和接收的数据,判断数据是否完整和正确;共享资源测试包括,同时在多个Chiplet上启动BIST,生成对共享资源的访问请求,检查共享存储或计算单元的响应和性能,判断在并非条件下是否异常;系统级同步测试包括BIST在一个Chiplet上生成一个同步信号,同时在其他Chiplet上进行监听,检查其他Chiplet的响应时间和同步精度,确保整个系统的同步性。
在一些实施例中,在改进隔离森林模型进行故障判断,计算芯粒完成全部隔离的步骤数平均值,在每一步隔离中,选择芯粒的一个特征和一个随机阈值,将芯粒集分为两个子集,一个子集中的芯粒特征值小于阈值,另一个子集芯粒的特征值大于阈值即被分离,每次被分离芯粒步骤数加1,直至芯粒完全隔离。
本申请还提供一种Chiplet故障自动检测修复系统,包括:
数据采集模块,传感器阵列和监控电路,实时采集每个芯粒的温度T、功耗P、工作频率F、工作负载L、实时电压V,每个芯粒形成一个特征向量X=[T,P,F,L,V];在一个实施例中有一个电路板,其上集成了4个芯粒。我们要对这些芯粒进行故障检测。每个芯粒都有一个传感器阵列,用于实时采集其温度、功耗、工作频率、工作负载和实时电压。
表1:各芯粒特征
参见表1,为收集到的各个芯粒的特征数据。基于收集到的数据,每个芯粒的特征向量可以被输入到改进的隔离森林模型进行故障判断。例如,芯粒2的特征向量为 [55,12, 2.4, 80, 1.1]。
改进隔离森林模型计算模块,将形成的特征向量输入至训练好的改进隔离森林模型进行故障判断,若异常分数大于设定阈值,则存在故障则进入故障芯粒定位及修复模块,否则结束;假设我们的模型预测出芯粒2可能存在故障,因为它的温度和功耗都相对较高。于是,芯粒2的BIST电路会启动,进一步确认这一预测。
在此实施例中,我们可能会发现芯粒2的某些逻辑门或路径在高温和高负载情况下表现异常。因此,修复策略可以是降低芯粒2的工作频率和电压,以避免进一步的故障。
此外,如果在协同测试中发现与其他芯粒的通信存在问题,我们还可以对芯粒2的通信接口进行修复或绕过。
隔离森林的工作原理如下:随机选择一个特征:从数据集的特征中随机选择一个。随机选择一个切分值:为所选特征选择一个随机切分值,该值位于最大值和最小值之间。根据切分值切分数据:数据被分为两部分,一部分特征值低于切分值,另一部分特征值大于切分值。重复上述步骤:对上述子集重复上述步骤,直到数据完全隔离或达到某个终止条件。建立森林:上述过程在多次迭代中重复,生成多个隔离树,从而形成一个隔离森林。
故障判断过程如下:首先,对于每个芯粒的特征向量,计算芯粒完成全部隔离的步骤数平均值/>;
其中,是芯粒在第i次隔离时的步骤数;/>是芯粒中第j个特征的权重系数,N表示芯粒全部隔离完成需要总次数;
其次,计算异常分数
其中,表示芯粒完成全部隔离过程需要平均步骤数的期望值;
故障芯粒定位及修复模块,每个芯粒集成BIST自检测电路,启动测试实现故障芯粒定位及修复;
集成BIST自检测电路测试判断模块,当Chiplet处于低功耗模式时,则不执行测试操作;当Chiplet温度大于设定阈值时,则BIST自动切换至热故障测试进行异常判断,若存在异常则进入频压修复模块;当Chiplet工作负载大于设定阈值时,则BIST自动切换至多测试操作模式,若存在异常则进入异常故障解决模块;
频压修复模块,降低当前芯粒的工作频率、工作电压以实现自我修复;
异常故障解决模块,判断如果逻辑门出现故障,使用汉明码纠正错误,不能通过汉明码修复的故障,则绕过故障电路;如果路径测试存在异常,则使用备用路径绕过损坏的路径或降低Chiplet的工作频率和电压以降低由损坏路径引起的性能下降;如果存储器测试存在异常,则使用错误纠正码ECC纠错存储器错误单元或将其标记不可用;
结束模块并更新系统日志,将存储故障检测的类型、时间、芯粒编号至系统日志中。
在一些实施例中,所述热故障测试包括:静态电流测量,判断高温下是否有超过阈值的静态电流导致异常;晶体管开关速度测试,检测响应时间是否超出设定范围区间导致异常;存储单元读/写操作测试,检测保存和读取数据是否异常。
在一些实施例中,所述多测试操作模式,包括逻辑门测试,判断是否存在逻辑错误,比较逻辑门测试输出与预期输出,确定是否存在逻辑门异常;路径测试,对逻辑路径电路进行完整性测试,如果逻辑路径的输出与预期不一致,或者其响应时间超出设定范围,判断是否有异常路径电路;存储器测试,检测存储器的错误率,通过向存储器写入数据,并读取返回数据,检测存储器单元的错误率,判断错误率是否大于设定阈值导致异常。
在一些实施例中,所述芯粒集成BIST自检测电路,还包括跨Chiplet协同测试,分为通信接口测试、共享资源测试、系统级同步测试;通信接口测试包括BIST在一个Chiplet上生成发送模式,同时在接收Chiplet上进行监听,对比发送和接收的数据,判断数据是否完整和正确;共享资源测试包括,同时在多个Chiplet上启动BIST,生成对共享资源的访问请求,检查共享存储或计算单元的响应和性能,判断在并非条件下是否异常;系统级同步测试包括BIST在一个Chiplet上生成一个同步信号,同时在其他Chiplet上进行监听,检查其他Chiplet的响应时间和同步精度,确保整个系统的同步性。
在一些实时例中,有一个由三个Chiplet组成的系统,其中两个Chiplet负责计算,另一个Chiplet是共享的存储器。为了进行协同测试,BIST首先在两个计算Chiplet上生成数据写入模式,同时向共享存储器写入数据。共享存储器的BIST捕获写入的数据,并与发送的数据进行对比,确保数据的完整性和正确性。接下来,BIST在一个计算Chiplet上生成一个同步信号,同时在另一个计算Chiplet上进行监听。BIST检查第二个Chiplet的响应时间和同步精度,确保两个Chiplet可以精确地同步工作。
这种跨Chiplet的协同测试方法不仅可以确保每个单独的Chiplet的可靠性,还可以确保整个系统在协同工作时的稳定性和性能。
在一些实施例中,在改进隔离森林模型进行故障判断,计算芯粒完成全部隔离的步骤数平均值,在每一步隔离中,选择芯粒的一个特征和一个随机阈值,将芯粒集分为两个子集,一个子集中的芯粒特征值小于阈值,另一个子集芯粒的特征值大于阈值即被分离,每次被分离芯粒步骤数加1,直至芯粒完全隔离。
本发明提供了一种Chiplet故障自动检测修复方法及系统,所能实现的有益技术效果如下:
1、本申请通过通过将形成的特征向量输入至训练好的改进隔离森林模型进行故障判断,然后采用BIST自检测电路进行故障针对性定位和修复,将二者结合应用到芯粒故障诊断判断提升了自动化判断程度及准确度,此外通过将是芯粒中第j个特征的权重系数引入到隔离森林算法中,大大增强了隔离森林算法判断准确度,通过结合芯粒特定进行异常分数计算,若大于设定阈值则存在故障,对故障芯粒通过集成BIST自检测电路,启动测试实现故障芯粒定位及修复,根据问题类型针对性的修复,大大增强了Chiplet故障自动检测修复的自动化程度,提升了故障判断效率及准确率。
2、本发明对每个芯粒集成BIST自检测电路,启动测试实现故障芯粒定位及修复;根据芯粒不同状态模式进行针对性的策略调整,当Chiplet处于低功耗模式时,则不执行测试操作;当Chiplet温度大于设定阈值时,则BIST自动切换至热故障测试进行异常判断,若存在异常则进入步骤S32;当Chiplet工作负载大于设定阈值时,则BIST自动切换至多测试操作模式,若存在异常则进入步骤S33,通过故障类型的判断及针对性解决,大大增强了故障应对策略的合理选择及解决,大大提升了故障解决效率。
3、本发明通过降低当前芯粒的工作频率、工作电压以实现自我修复;判断如果逻辑门出现故障,使用汉明码纠正错误,不能通过汉明码修复的故障,则绕过故障电路;如果路径测试存在异常,则使用备用路径绕过损坏的路径或降低Chiplet的工作频率和电压以降低由损坏路径引起的性能下降;如果存储器测试存在异常,则使用错误纠正码ECC纠错存储器错误单元或将其标记不可用,给出了针对性解决方案,大大提升了故障解决速率及准确性。
4、本发明所述芯粒集成BIST自检测电路,还包括跨Chiplet协同测试,分为通信接口测试、共享资源测试、系统级同步测试;通信接口测试包括BIST在一个Chiplet上生成发送模式,同时在接收Chiplet上进行监听,对比发送和接收的数据,判断数据是否完整和正确;共享资源测试包括,同时在多个Chiplet上启动BIST,生成对共享资源的访问请求,检查共享存储或计算单元的响应和性能,判断在并非条件下是否异常;系统级同步测试包括BIST在一个Chiplet上生成一个同步信号,同时在其他Chiplet上进行监听,检查其他Chiplet的响应时间和同步精度,确保整个系统的同步性。跨Chiplet协同测试,大大提升了芯粒间的故障整体排查效率。
以上对一种Chiplet故障自动检测修复方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想;同时,对于本领域的一般技术人员,依据本发明的思想和方法,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种Chiplet故障自动检测修复方法,其特征在于,包括步骤:
S1:传感器阵列和监控电路,实时采集每个芯粒的温度T、功耗P、工作频率F、工作负载L、实时电压V,每个芯粒形成一个特征向量X=[T,P,F,L,V];
S2:将形成的特征向量输入至训练好的改进隔离森林模型进行故障判断,若异常分数大于设定阈值,则存在故障并进入步骤S3,否则结束;故障判断过程如下:首先,对于每个芯粒的特征向量X,计算芯粒完成全部隔离的步骤数平均值/>
其中,是芯粒在第i次隔离时的步骤数;/>是芯粒中第j个特征的权重系数,N表示芯粒全部隔离完成需要总次数;
其次,计算异常分数
其中,表示芯粒完成全部隔离过程需要平均步骤数的期望值;
S3:每个芯粒集成BIST自检测电路,启动测试实现故障芯粒定位及修复;
具体包括:
S31:当Chiplet处于低功耗模式时,则不执行测试操作;当Chiplet温度大于设定阈值时,则BIST自动切换至热故障测试进行异常判断,若存在异常则进入步骤S32;当Chiplet工作负载大于设定阈值时,则BIST自动切换至多测试操作模式,若存在异常则进入步骤S33;
S32:降低当前芯粒的工作频率、工作电压以实现自我修复;
S33:判断如果逻辑门出现故障,使用汉明码纠正错误,如果不能通过汉明码修复的故障,则绕过故障电路;如果路径测试存在异常,则使用备用路径绕过损坏的路径或降低Chiplet的工作频率和电压以降低由损坏路径引起的性能下降;如果存储器测试存在异常,则使用错误纠正码ECC纠错存储器错误单元或将其标记不可用;
S4:结束并更新系统日志,将存储故障检测的类型、时间、芯粒编号至系统日志中。
2.如权利要求1所述的一种Chiplet故障自动检测修复方法,其特征在于,所述热故障测试包括:静态电流测量,判断高温下是否有超过阈值的静态电流导致异常;晶体管开关速度测试,检测响应时间是否超出设定范围区间导致异常;存储单元读/写操作测试,检测保存和读取数据是否异常。
3.如权利要求1所述的一种Chiplet故障自动检测修复方法,其特征在于,所述多测试操作模式,包括逻辑门测试,判断是否存在逻辑错误,比较逻辑门测试输出与预期输出,确定是否存在逻辑门异常;路径测试,对逻辑路径电路进行完整性测试,如果逻辑路径的输出与预期不一致,或者其响应时间超出设定范围,判断是否有异常路径电路;存储器测试,检测存储器的错误率,通过向存储器写入数据,并读取返回数据,检测存储器单元的错误率,判断错误率是否大于设定阈值导致异常。
4.如权利要求1所述的一种Chiplet故障自动检测修复方法,其特征在于,所述芯粒集成BIST自检测电路,还包括跨Chiplet协同测试,分为通信接口测试、共享资源测试、系统级同步测试;通信接口测试包括BIST在一个Chiplet上生成发送模式,同时在接收Chiplet上进行监听,对比发送和接收的数据,判断数据是否完整和正确;共享资源测试包括,同时在多个Chiplet上启动BIST,生成对共享资源的访问请求,检查共享存储或计算单元的响应和性能,判断在并非条件下是否异常;系统级同步测试包括BIST在一个Chiplet上生成一个同步信号,同时在其他Chiplet上进行监听,检查其他Chiplet的响应时间和同步精度,确保整个系统的同步性。
5.如权利要求1所述的一种Chiplet故障自动检测修复方法,其特征在于,在改进隔离森林模型进行故障判断,计算芯粒完成全部隔离的步骤数平均值,在每一步隔离中,选择芯粒的一个特征和一个随机阈值,将芯粒集分为两个子集,一个子集中的芯粒特征值小于阈值,另一个子集芯粒的特征值大于阈值即被分离,每次被分离芯粒步骤数加1,直至芯粒完全隔离。
6.一种Chiplet故障自动检测修复系统,其特征在于,包括:
数据采集模块,传感器阵列和监控电路,实时采集每个芯粒的温度T、功耗P、工作频率F、工作负载L、实时电压V,每个芯粒形成一个特征向量X=[T,P,F,L,V];
改进隔离森林模型计算模块,将形成的特征向量输入至训练好的改进隔离森林模型进行故障判断,若异常分数大于设定阈值,则存在故障则进入故障芯粒定位及修复模块,否则结束;故障判断过程如下:首先,对于每个芯粒的特征向量/>,计算芯粒完成全部隔离的步骤数平均值/>
其中,是芯粒在第i次隔离时的步骤数;/>是芯粒中第j个特征的权重系数,N表示芯粒全部隔离完成需要总次数;
其次,计算异常分数
其中,表示芯粒完成全部隔离过程需要平均步骤数的期望值;
故障芯粒定位及修复模块,每个芯粒集成BIST自检测电路,启动测试实现故障芯粒定位及修复;
集成BIST自检测电路测试判断模块,当Chiplet处于低功耗模式时,则不执行测试操作;当Chiplet温度大于设定阈值时,则BIST自动切换至热故障测试进行异常判断,若存在异常则进入频压修复模块;当Chiplet工作负载大于设定阈值时,则BIST自动切换至多测试操作模式,若存在异常则进入异常故障解决模块;
频压修复模块,降低当前芯粒的工作频率、工作电压以实现自我修复;
异常故障解决模块,判断如果逻辑门出现故障,使用汉明码纠正错误,如果不能通过汉明码修复的故障,则绕过故障电路;如果路径测试存在异常,则使用备用路径绕过损坏的路径或降低Chiplet的工作频率和电压以降低由损坏路径引起的性能下降;如果存储器测试存在异常,则使用错误纠正码ECC纠错存储器错误单元或将其标记不可用;
结束模块,并更新系统日志,将存储故障检测的类型、时间、芯粒编号至系统日志中。
7.如权利要求6所述的一种Chiplet故障自动检测修复系统,其特征在于,所述热故障测试包括:静态电流测量,判断高温下是否有超过阈值的静态电流导致异常;晶体管开关速度测试,检测响应时间是否超出设定范围区间导致异常;存储单元读/写操作测试,检测保存和读取数据是否异常。
8.如权利要求6所述的一种Chiplet故障自动检测修复系统,其特征在于,所述多测试操作模式,包括逻辑门测试,判断是否存在逻辑错误,比较逻辑门测试输出与预期输出,确定是否存在逻辑门异常;路径测试,对逻辑路径电路进行完整性测试,如果逻辑路径的输出与预期不一致,或者其响应时间超出设定范围,判断是否有异常路径电路;存储器测试,检测存储器的错误率,通过向存储器写入数据,并读取返回数据,检测存储器单元的错误率,判断错误率是否大于设定阈值导致异常。
9.如权利要求6所述的一种Chiplet故障自动检测修复系统,其特征在于,所述芯粒集成BIST自检测电路,还包括跨Chiplet协同测试,分为通信接口测试、共享资源测试、系统级同步测试;通信接口测试包括BIST在一个Chiplet上生成发送模式,同时在接收Chiplet上进行监听,对比发送和接收的数据,判断数据是否完整和正确;共享资源测试包括,同时在多个Chiplet上启动BIST,生成对共享资源的访问请求,检查共享存储或计算单元的响应和性能,判断在并非条件下是否异常;系统级同步测试包括BIST在一个Chiplet上生成一个同步信号,同时在其他Chiplet上进行监听,检查其他Chiplet的响应时间和同步精度,确保整个系统的同步性。
10.如权利要求6所述的一种Chiplet故障自动检测修复系统,其特征在于,在改进隔离森林模型进行故障判断,计算芯粒完成全部隔离的步骤数平均值,在每一步隔离中,选择芯粒的一个特征和一个随机阈值,将芯粒集分为两个子集,一个子集中的芯粒特征值小于阈值,另一个子集芯粒的特征值大于阈值即被分离,每次被分离芯粒步骤数加1,直至芯粒完全隔离。
CN202311408188.9A 2023-10-27 2023-10-27 一种Chiplet故障自动检测修复方法及系统 Active CN117148117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311408188.9A CN117148117B (zh) 2023-10-27 2023-10-27 一种Chiplet故障自动检测修复方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311408188.9A CN117148117B (zh) 2023-10-27 2023-10-27 一种Chiplet故障自动检测修复方法及系统

Publications (2)

Publication Number Publication Date
CN117148117A CN117148117A (zh) 2023-12-01
CN117148117B true CN117148117B (zh) 2023-12-29

Family

ID=88884648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311408188.9A Active CN117148117B (zh) 2023-10-27 2023-10-27 一种Chiplet故障自动检测修复方法及系统

Country Status (1)

Country Link
CN (1) CN117148117B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117517932B (zh) * 2023-12-29 2024-03-12 南京邮电大学 一种芯粒间tsv测试电路及测试方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181706A (zh) * 2020-10-23 2021-01-05 北京邮电大学 一种基于对数区间隔离的电力调度数据异常检测方法
CN115541053A (zh) * 2022-09-23 2022-12-30 中国电子科技集团公司第五十八研究所 一种2.5D Chiplet异构集成芯片的热场重构方法
CN115598495A (zh) * 2022-09-16 2023-01-13 深圳市奇普乐芯片技术有限公司(Cn) 芯片测试配置生成方法、测试方法、装置及电子设备
KR20230030542A (ko) * 2021-08-25 2023-03-06 주식회사 타키온테크 랜덤 컷 포레스트 알고리즘을 이용한 ai 기반의 설비 데이터 이상 감지 시스템과 그 방법
CN116302899A (zh) * 2023-05-18 2023-06-23 中诚华隆计算机技术有限公司 一种芯粒故障诊断方法和装置
CN116340072A (zh) * 2023-05-25 2023-06-27 中诚华隆计算机技术有限公司 一种多芯粒芯片的故障检测方法和装置
CN116400201A (zh) * 2023-06-06 2023-07-07 中诚华隆计算机技术有限公司 一种芯粒工作状态监测方法、装置、电子设备及存储介质
CN116629196A (zh) * 2023-05-11 2023-08-22 山东云海国创云计算装备产业创新中心有限公司 基于Chiplet架构的子芯片部署方法及相关组件
CN116718902A (zh) * 2023-08-11 2023-09-08 中诚华隆计算机技术有限公司 一种基于Chiplet的芯片内置自测试方法和系统
CN116932271A (zh) * 2023-09-14 2023-10-24 中诚华隆计算机技术有限公司 一种实现自组织的Chiplet的方法和芯片

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1624465A1 (en) * 2004-08-06 2006-02-08 STMicroelectronics S.r.l. Programmable multi-mode built-in self-test and self-repair structure for embedded memory arrays

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181706A (zh) * 2020-10-23 2021-01-05 北京邮电大学 一种基于对数区间隔离的电力调度数据异常检测方法
KR20230030542A (ko) * 2021-08-25 2023-03-06 주식회사 타키온테크 랜덤 컷 포레스트 알고리즘을 이용한 ai 기반의 설비 데이터 이상 감지 시스템과 그 방법
CN115598495A (zh) * 2022-09-16 2023-01-13 深圳市奇普乐芯片技术有限公司(Cn) 芯片测试配置生成方法、测试方法、装置及电子设备
CN115541053A (zh) * 2022-09-23 2022-12-30 中国电子科技集团公司第五十八研究所 一种2.5D Chiplet异构集成芯片的热场重构方法
CN116629196A (zh) * 2023-05-11 2023-08-22 山东云海国创云计算装备产业创新中心有限公司 基于Chiplet架构的子芯片部署方法及相关组件
CN116302899A (zh) * 2023-05-18 2023-06-23 中诚华隆计算机技术有限公司 一种芯粒故障诊断方法和装置
CN116340072A (zh) * 2023-05-25 2023-06-27 中诚华隆计算机技术有限公司 一种多芯粒芯片的故障检测方法和装置
CN116400201A (zh) * 2023-06-06 2023-07-07 中诚华隆计算机技术有限公司 一种芯粒工作状态监测方法、装置、电子设备及存储介质
CN116718902A (zh) * 2023-08-11 2023-09-08 中诚华隆计算机技术有限公司 一种基于Chiplet的芯片内置自测试方法和系统
CN116932271A (zh) * 2023-09-14 2023-10-24 中诚华隆计算机技术有限公司 一种实现自组织的Chiplet的方法和芯片

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
嵌入式存储器的内建自测试和内建自修复;江建慧 等;同济大学学报(自然科学版);第32卷(第8期);1050-1056 *

Also Published As

Publication number Publication date
CN117148117A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN117148117B (zh) 一种Chiplet故障自动检测修复方法及系统
US20070061637A1 (en) Process for conducting high-speed bitmapping of memory cells during production
CN110570896B (zh) 一种面向弱故障的低电压sram测试方法
KR20020093642A (ko) 메모리 테스트 정보를 저장하기 위한 방법 및 장치
CN109801665B (zh) Sram自测试系统、架构及方法、存储介质
CN110289041A (zh) 一种系统芯片中bist与ecc结合的存储器检测装置
US20210174892A1 (en) Error-Correcting Code-Assisted Memory Repair
CN100446129C (zh) 一种内存故障测试的方法及系统
CN101763901A (zh) 在片自测试自修复方法
US20240071557A1 (en) Failure analysis method, computer equipment, and storage medium
CN107516546B (zh) 一种随机存储器的在线检测装置及方法
WO2020132591A1 (en) Holdup self-tests for power loss operations on memory systems
CN115080446A (zh) 一种软件测试用测试实例生成方法及系统
CN113823349A (zh) 芯片失效模式的确定方法、终端
CN116705107B (zh) 存储地址传输电路、方法、装置、存储介质及电子设备
US7689880B2 (en) Test apparatus, test method, analyzing apparatus and computer readable medium
CN112927751A (zh) 存储器失效地址的输出方法及相关设备
CN117290165A (zh) 一种芯片测试的方法、系统、装置及存储介质
CN109215724B (zh) 存储器自动检测和修复的方法及装置
US7747912B2 (en) Semiconductor memory device capable of arbitrarily setting the number of memory cells to be tested and related test method
Lee et al. STRAIT: Self-Test and Self-Recovery for AI Accelerator
CN110729018B (zh) 基于识别动态故障模式的存储器诊断数据压缩方法
CN113722138A (zh) 一种降低软错误敏感性的高可靠fpga系统和方法
CN112148536A (zh) 检测深度学习芯片的方法、装置、电子设备和计算机存储介质
KR102483739B1 (ko) Bira cam 구조를 재활용한 dram 기반 포스트 실리콘 디버깅 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant