CN113360323A - 一种众核计算电路、堆叠芯片和容错控制方法 - Google Patents

一种众核计算电路、堆叠芯片和容错控制方法 Download PDF

Info

Publication number
CN113360323A
CN113360323A CN202110752151.2A CN202110752151A CN113360323A CN 113360323 A CN113360323 A CN 113360323A CN 202110752151 A CN202110752151 A CN 202110752151A CN 113360323 A CN113360323 A CN 113360323A
Authority
CN
China
Prior art keywords
storage unit
unit
operation unit
module
backup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110752151.2A
Other languages
English (en)
Inventor
左丰国
刘琦
王玉冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Unilc Semiconductors Co Ltd
Original Assignee
Xian Unilc Semiconductors Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Unilc Semiconductors Co Ltd filed Critical Xian Unilc Semiconductors Co Ltd
Priority to CN202110752151.2A priority Critical patent/CN113360323A/zh
Publication of CN113360323A publication Critical patent/CN113360323A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1456Hardware arrangements for backup

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及众核芯片技术领域,具体涉及一种众核计算电路、堆叠芯片和容错控制方法。该众核计算电路包括:运算单元模组,包括至少一个实例运算单元和至少一个备份运算单元;存储单元模组,包括至少一个实例存储单元和至少一个备份存储单元;片上总线模组,包括至少一组数据通道;其中,每组数据通道均包括对应设置的实例通道和备份通道;运算单元模组中的每个运算单元均通过片上总线模组中对应的数据通道分别连接存储单元模组中的每个存储单元。本发明能够独立实现运算单元、存储单元和数据通道的失效修复,提高了运算单元与存储单元之间的读写访问的可靠性,从而提高了众核芯片结构的出片良率。

Description

一种众核计算电路、堆叠芯片和容错控制方法
技术领域
本发明涉及众核芯片技术领域,具体涉及一种众核计算电路、堆叠芯片和容错控制方法。
背景技术
众核芯片结构一般包括多个PE(process engine,处理引擎/运算单元),每个PE通过NOC(network on chip,片上总线)访问不同的存储单元,完成运算。因此,众核芯片结构中PE和存储单元之间的读写访问可靠性能够影响众核芯片结构的出片良率。
现有技术采用ECC(Error Correcting Code,纠错码)技术,使PE和存储单元之间在进行读写时,能够容忍少量bit错误,提高了PE与存储单元之间读写通讯的可靠性,从而提高众核芯片结构的出片良率。
但是,随着众核芯片结构中芯片面积的增大,现有技术并不能有效提高众核芯片结构中PE和存储单元之间的整体的读写访问,造成众核芯片结构的出片良率过低。
因此,如何提高众核芯片结构的出片良率,是目前亟需解决的技术问题。
发明内容
本发明的目的是提供一种众核计算电路、堆叠芯片和容错控制方法,以提高众核芯片结构的出片良率。
为实现上述目的,本发明实施例提供了以下方案:
第一方面,本发明实施例提供了一种具有容错功能的众核计算电路,包括:
运算单元模组,包括至少一个实例运算单元和至少一个备份运算单元;
存储单元模组,包括至少一个实例存储单元和至少一个备份存储单元;
片上总线模组,包括至少一组数据通道;其中,每组数据通道均包括对应设置的实例通道和备份通道;
所述运算单元模组中的每个运算单元均通过所述片上总线模组中对应的数据通道分别连接所述存储单元模组中的每个存储单元;其中,所述每个运算单元包括所述至少一个实例运算单元和所述至少一个备份运算单元;所述每个存储单元包括所述至少一个实例存储单元和所述至少一个备份存储单元。
在一种可能的实施例中,所述数据通道,包括:第一选择器和第二选择器;
所述第一选择器的第一输出端连接所述第二选择器的第一输入端,以构建所述实例通道;
所述第一选择器的第二输出端连接所述第二选择器的第二输入端,以构建所述备份通道。
在一种可能的实施例中,所述运算单元,包括:
状态寄存器,用于存储表征所述运算单元是否处于正常状态的信息;
使能寄存器,用于存储表征所述运算单元是否处于激活状态的信息;
逻辑身份信息寄存器,用于存储表征所述众核计算电路工作时所述运算单元的逻辑身份信息。
在一种可能的实施例中,所述实例运算单元包括中央处理器、数字信号处理芯片、图形处理器和知识产权核心模组中的一种或多种;
所述备份运算单元包括中央处理器、数字信号处理芯片、图形处理器和知识产权核心模组中的一种或多种。
在一种可能的实施例中,所述存储单元模组中的每个存储单元均包括只读存储器和随机存取存储器中的一种或多种。
第二方面,本发明实施例提供了一种堆叠芯片,所述众核芯片包括如第一方面中任一所述的众核计算电路;
所述众核计算电路中的运算单元模组设置在第一晶圆上;所述众核计算电路中的存储单元模组设置在第二晶圆上;所述片上总线模组设置在所述第一晶圆上或所述第二晶圆上;
所述第一晶圆和所述第二晶圆堆叠设置。
在一种可能的实施例中,所述片上总线模组设置于第三晶圆上;
所述第一晶圆、所述第二晶圆和所述第三晶圆堆叠设置。
第三方面,本发明实施例提供了一种基于第一方面任一所述众核计算电路的容错控制方法,包括:
判断运算单元模组中是否存在失效的实例运算单元;
若存在失效的实例运算单元,则利用备份运算单元替换所述失效的实例运算单元,更新所述运算单元模组的实例运算单元序列;
判断存储单元模组中是否存在失效的实例存储单元;
若存在失效的实例存储单元,则利用所述存储单元模组中备份存储单元替换所述失效的实例存储单元,更新与所述实例运算单元序列对应的实例存储单元序列,以重组构成逻辑地址连续的存储空间;
判断片上总线模组的各组数据通道中是否存在失效的实例通道;
若存在失效的实例通道,则利用所述失效的实例通道对应的备份通道替换所述失效的实例通道,更新所述失效的实例通道对应的数据通道。
在一种可能的实施例中,所述利用备份运算单元替换所述失效的实例运算单元,更新所述运算单元模组的实例运算单元序列,包括:
在所述实例运算单元序列的运算单元映射关系中,去除所述失效的实例运算单元的物理身份信息,并增加所述备份运算单元的物理身份信息;
根据所述运算单元映射关系中现有的运算单元的物理身份信息,更新所述运算单元映射关系;其中,所述运算单元映射关系包括所述实例运算单元序列中各运算单元的物理身份信息与逻辑身份信息的映射关系。
在一种可能的实施例中,所述根据所述运算单元映射关系中现有的运算单元的物理身份信息,更新所述运算单元映射关系,包括:
将更新前的所述运算单元映射关系中的所述失效的实例运算单元的物理身份信息替换为所述备份运算单元的物理身份信息,获得更新后的所述运算单元映射关系;
或,
利用现有的运算单元的物理身份信息,匹配所述运算单元映射关系中预设的各运算单元的逻辑身份信息,获得更新后的所述运算单元映射关系。
在一种可能的实施例中,所述利用所述存储单元模组中备份存储单元替换所述失效的实例存储单元,更新与所述实例运算单元序列对应的实例存储单元序列,包括:
获取所述失效的实例存储单元的物理身份信息;
在将所述实例存储单元序列中的存储单元的物理身份信息映射至所述实例存储单元序列的存储单元映射关系时,跳过所述失效的实例存储单元的物理身份信息,以利用有效的实例存储单元的物理身份信息,生成所述存储单元映射关系;其中,所述存储单元映射关系包括所述存储单元模组中各实例存储单元的物理身份信息与逻辑身份信息的映射关系。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明中,运算单元模组设有实例运算单元和备份运算单元,当实例运算单元不能正常工作失效时,可以利用备份运算单元替代失效的实例运算单元,使运算单元模组能够正常工作;存储单元模组中设有实例存储单元和备份存储单元,当一个或多个实例存储单元不能正常工作失效时,存储单元模组依然能够提供足够数量的存储单元供运算单元读写访问;同时,片上总线模组中每组数据通道均设有实例通道和备份通道,当数据通道中的实例通道不能正常工作失效时,使用对应的备份通道替换该失效的实例通道,使数据通道正常工作。本发明能够独立实现运算单元、存储单元和数据通道的失效修复,提高了运算单元与存储单元之间的读写访问的可靠性,从而提高了众核芯片结构的出片良率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种具有容错功能的众核计算电路的结构示意图;
图2是本发明实施例提供的一种运算单元模组中一个运算单元与存储单元模组中的存储单元的连接示意图;
图3是本发明实施例提供的一种数据通道的结构示意图;
图4是本发明实施例提供的一种堆叠芯片的结构示意图;
图5是本发明实施例提供的一种容错控制方法的流程图;
图6是本发明实施例提供的实例运算单元均有效时运算单元映射关系的示意图;
图7是图6中存在一个失效的实例运算单元后的运算单元映射关系的示意图;
图8是图6中存在一个失效的实例运算单元后的运算单元映射关系的示意图。
附图标记说明:100为众核计算电路,110为运算单元模组,111为实例运算单元,112为备份运算单元,120为存储单元模组,121为实例存储单元,122为备份存储单元,130为片上总线模组,131为数据通道,132为实例通道,133为备份通道,134为第一选择器,135为第二选择器,200为堆叠芯片。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明实施例保护的范围。
请参阅图1,图1为本发明实施例提供的一种具有容错功能的众核计算电路的结构示意图,该众核计算电路100包括:运算单元模组110、存储单元模组120和片上总线模组130。
运算单元模组110中设置有至少一个实例运算单元111和至少一个备份运算单元112。
实例运算单元111和备份运算单元112均属于一种运算单元(process engine,PE),众核计算电路100中的运算单元能够通过片上总线(network on chip,NOC)访问不同的存储单元(实例运算单元111和/或备份运算单元112),来实现预设的计算功能。
在实际应用中,实例运算单元111可以采用中央处理器(Central ProcessingUnit,CPU)、数字信号处理芯片(Digital Signal Processing,DSP)、图形处理器(GraphicsProcessing Unit,GPU)和知识产权核心模组(Intellectual Property core,IP核)中的一种或多种来实现,备份运算单元112也可以采用中央处理器、数字信号处理芯片、图形处理器和知识产权核心模组中的一种或多种来实现。
具体的,IP核可以是用于ASIC(Application Specific Integrated Circuit,专用集成电路)或FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列)中的预先设计好的电路功能模块。
当然,实例运算单元111和备份运算单元112还可以根据实际需要,选择其他的处理器芯片,在此不予以限制。
在众核计算电路100正常工作时,需要将实例运算单元111接入电路中,实现预设的计算功能,当一个或多个实例运算单元111失效时,可以将备份运算单元112接入电路,替代失效的实例运算单元111,保证众核计算电路100的正常工作,实现了运算单元的失效修复功能,提高了运算单元与存储单元121之间的读写访问的可靠性,进而提高了堆叠芯片200的出片良率。
存储单元模组120,包括至少一个实例存储单元121和至少一个备份存储单元122,在众核计算电路100正常工作时,实例运算单元111和备份运算单元112均可以从实例存储单元121和备份存储单元122中对应配置0个、1个或多个实例存储单元121,用于实现该实例运算单元111的读写访问操作或相应设计功能。
实例存储单元121和备份存储单元122均可以采用只读存储器(Read-OnlyMemory,ROM)和随机存取存储器(Random Access Memory,RAM)中的一种或多种。
本实施例中,当一个或多个实例存储单元121不能正常工作失效时,存储单元模组120依然能够提供足够数量的存储单元供实例运算单元111读写访问,实现了存储单元的失效修复功能,提高了运算单元与存储单元之间的读写访问的可靠性,进而提高了堆叠芯片200的出片良率。
运算单元与存储单元通过片上总线实现连接。本实施例中,片上总线模组130设置有至少一组数据通道131。每组数据通道131均包括对应设置的实例通道132和备份通道133。
NOC是片上系统(System on Chip,SoC)上各核心之间实现连接的常用方案,具体可以选用国际上公开通用的总线结构,还可以根据特定领域自主开发片上总线。
常见的NOC可以为Wishbone总线或Avalon总线,也可以为地址总线、数据总线和控制总线中至少任意一种。
本实施例中,运算单元模组110中的每个运算单元均通过片上总线模组130中对应的数据通道131分别连接存储单元模组120中的每个存储单元(实例存储单元121和备份存储单元122)。如图2所示为本发明实施例提供的一种运算单元模组中一个运算单元与存储单元模组中的存储单元的连接示意图,每个运算单元均通过片上总线中不同的数据通道131连接存储单元模组120中所有的存储单元(实例存储单元121和备份存储单元122)。其中,每个运算单元包括运算单元模组110中的每一个实例存储单元121和备份存储单元122;每个存储单元包括存储单元模组120中的每一个实例存储单元121和备份存储单元122。
本实施例中,在实例通道132有效时,实例运算单元111通过实例通道132实现与对应实例存储单元121的读写访问;而当实例通道132失效时,实例运算单元111通过备份通道133实现与对应实例存储单元121的读写访问;实现了数据通道131的失效修复功能,提高了运算单元与存储单元之间的读写访问的可靠性,进而提高了堆叠芯片200的出片良率。
本实施例的工作原理为:
本实施例中,运算单元模组110设有实例运算单元111和备份运算单元112,当实例运算单元111不能正常工作失效时,可以利用备份运算单元112替代失效的实例运算单元111,使运算单元模组110能够正常工作;存储单元模组120中设有实例存储单元121和备份存储单元122,当一个或多个实例存储单元121不能正常工作失效时,存储单元模组120依然能够提供足够数量的存储单元供运算单元读写访问;同时,片上总线模组130中每组数据通道131均设有实例通道132和备份通道133,当数据通道131中的实例通道132不能正常工作失效时,使用对应的备份通道133替换该失效的实例通道132,使数据通道131正常工作。本实施例能够独立实现运算单元、实例存储单元121和数据通道131的失效修复,提高了运算单元与实例存储单元121之间的读写访问的可靠性,从而提高了堆叠芯片200的出片良率。
在实际应用中,可以利用选择器来实现片上总线模组130中数据通道131的搭建。如图3所示为本发明实施例提供的一种数据通道的结构示意图,该数据通道131包括第一选择器134和第二选择器135。
第一选择器134可以采用DEMUX(数据分离选择器)可以采用第二选择器135可以采用MUX(multiplexer,数据混流选择器)。
具体的,第一选择器134的第一输出端连接所述第二选择器135的第一输入端,以构建实例通道132;第一选择器134的第二输出端连接所述第二选择器135的第二输入端,以构建备份通道133。
图3中,与第一选择器134的输入端连接的NI(network interface,网络接口)为NOC的一个入口,运算单元可以通过该入口接入NOC;与第二选择器135的输出端连接的NI为NOC的一个出口,实例存储单元121可以通过该出口实现与运算单元的连接。具体的,NI可以选用AXI(Advanced eXtensible Interface)接口总线。
实际应用中,为了提高运算单元的失效修复效率,本实施例中为运算单元模组110中的每个运算单元配置了不同的寄存器,供在对运算单元进行失效修复时调用。
运算单元包括有状态寄存器、使能寄存器和逻辑身份信息寄存器。
状态寄存器,用于存储表征运算单元是否处于正常状态的信息,例如:利用0来代表该运算单元能够正常工作,处于有效状态;利用1来代表该运算单元不正常工作,处于失效状态。
使能寄存器,用于存储表征运算单元是否处于激活状态的信息,例如:利用0来代表该运算单元能够接入众核计算电路100中,处于激活状态;利用1来代表该运算单元不能够接入众核计算电路100中,处于未激活状态。
逻辑身份信息寄存器,用于存储表征众核计算电路100工作时运算单元的逻辑身份信息(Logic Identity Document,Logic ID)。运算单元的Logic ID用来在众核计算电路100中受控制器调用,实现预设的计算功能。与运算单元的Logic ID相对应的为运算单元的物理身份信息(Physical Identity Document,Physical ID),其可以为一个唯一代码,来指代该运算单元。
本实施例可以调取和/或更改上述寄存器中的信息,实现运算单元的失效修复。
基于与方法同样的发明构思,本发明实施例还提供了一种堆叠芯片,如图4所示为该堆叠芯片的结构示意图,该堆叠芯片200中,可以设有一个或多个上文任一所述的众核计算电路100。
众核计算电路100中的运算单元模组110设置在第一晶圆上;众核计算电路100中的存储单元模组120设置在第二晶圆上;众核计算电路100中的片上总线模组130设置在第一晶圆上或第二晶圆上;第一晶圆和第二晶圆堆叠设置。
当然,片上总线模组130可以设置于第三晶圆上;此时,第一晶圆、第二晶圆和第三晶圆堆叠设置。
该堆叠芯片200中,由于其中的众核计算电路100能够独立实现运算单元、实例存储单元121和数据通道131的失效修复,提高了运算单元与存储单元之间的读写访问的可靠性,从而提高了堆叠芯片200的出片良率。
基于与方法同样的发明构思,本发明实施例还提供了一种容错控制方法,该方法应用于上文任一所述众核计算电路100中,如图5所示为该方法实施例的流程图,具体包括步骤11至步骤16。
步骤11,判断运算单元模组110中是否存在失效的实例运算单元111。
具体的,可以使用确定有效的实例存储单元121向目标实例运算单元序列返回检测信息,当目标实例运算单元序列无法接收该检测信息或无法正确接收该检测信息时,即可认定该目标实例运算单元序列失效,无法正常工作。
步骤12,若存在失效的实例运算单元111,则利用备份运算单元112替换所述失效的实例运算单元111,更新所述运算单元模组110的实例运算单元序列。
在实际应用中,可以在堆叠芯片200设置主控芯片,获取众核计算电路100中各实例运算单元111的状态信息,并配置这些实例运算单元111,形成实例运算单元序列,实现该众核计算电路100的预设计算功能。当然,还可以在运算单元中配置自检模块,获取该运算单元的状态信息,并配置该运算单元。
当一个或多个实例运算单元111失效时,本步骤可以激活运算单元中的备份运算单元112,并切出失效的实例运算单元111,使得备份运算单元112替代该失效的实例运算单元111进行相应工作,保证众核计算电路100的正常工作。
在实际应用中,本实施例通过对运算单元映射关系的更新来实现运算单元的失效修复功能,具体包括步骤21至步骤22。
步骤21,在所述实例运算单元序列的运算单元映射关系中,去除所述失效的实例运算单元111的物理身份信息,并增加所述备份运算单元112的物理身份信息。
具体的,在众核计算电路100工作时,运算单元的逻辑身份信息(Logic IdentityDocument,Logic ID)用来在众核计算电路100中受控制器调用,实现预设的计算功能。与运算单元的Logic ID相对应的为运算单元的物理身份信息(Physical Identity Document,Physical ID),其可以为一个唯一代码,来指代该运算单元。
运算单元映射关系可以包括实例运算单元序列中各运算单元的Physical ID与Logic ID的映射关系,控制器可以通过运算单元的Logic ID来调用实际的运算单元(Physical ID)。
本步骤中去除失效的实例运算单元111的Physical ID,并增加备份运算单元112的Physical ID,实现了利用备份运算单元112替代失效的实例运算单元111的操作。
步骤22。根据所述运算单元映射关系中现有的运算单元的物理身份信息,更新所述运算单元映射关系。
其中,所述运算单元映射关系包括所述实例运算单元序列中各运算单元的物理身份信息与逻辑身份信息的映射关系。
具体的,在经过步骤21后,实例运算单元序列中的运算单元就发生了变化,这样在对运算单元序列中现有的运算单元的Physical ID分配Logic ID后,即可更新运算单元映射关系。
这里,本实施例提供两种运算单元映射关系的更新方案。
方案一包括:
步骤31,将更新前的所述运算单元映射关系中的所述失效的实例运算单元111的物理身份信息替换为所述备份运算单元112的物理身份信息,获得更新后的所述运算单元映射关系。
具体的,本步骤中,只改变运算单元映射关系中涉及失效的实例运算单元111的部分,直接将失效的实例运算单元111的Physical ID替换为备份运算单元112的PhysicalID,运算单元映射关系中失效的实例运算单元111对应的Logic ID保持不变,同时其他部分的Physical ID和Logic ID均保持不变,以此完成运算单元映射关系的更新。
如图6所示为本发明实施例提供的实例运算单元均有效时运算单元映射关系的示意图。如图7所示为图6中存在一个失效的实例运算单元后的运算单元映射关系的示意图。
方案二包括:
步骤41,利用现有的运算单元的物理身份信息,匹配所述运算单元映射关系中预设的各运算单元的逻辑身份信息,获得更新后的所述运算单元映射关系。
具体的,本步骤中,改变运算单元映射关系中部分或全部实例运算单元111的部分,利用实例运算单元序列中现有的运算单元(即:去除失效的实例运算单元111并增加备份运算单元112后的实例运算单元序列)对应的Physical ID,重新与预设的各运算单元的Logic ID进行匹配,进而实现对运算单元映射关系的更新。
如图8所示为图6中存在一个失效的实例运算单元后的运算单元映射关系的示意图。
步骤13,判断存储单元模组120中是否存在失效的实例存储单元121。
具体的,可以使用确定有效的运算单元向目标实例存储单元发送激励信息,当目标实例存储单元无法接收该激励信息或无法正确响应该激励信息时,即可认定该目标实例存储单元失效,无法正常工作。
步骤14,若存在失效的实例存储单元121,则利用所述存储单元模组120中备份存储单元122替换,更新与所述实例运算单元序列对应的实例存储单元序列,以重组构成逻辑地址连续的存储空间。
具体的,本步骤能够跳过失效的实例存储单元121,使得运算单元工作时,不访问失效的实例存储单元121。
这里,本实施例提供了一种步骤14的具体实现过程,包括步骤步骤51至步骤52。
步骤51,获取所述失效的实例存储单元121的物理身份信息。
具体的,在众核计算电路100工作时,实例存储单元121和备份存储单元122的逻辑身份信息(Logic Identity Document,Logic ID)用来在众核计算电路100中受控制器调用,实现运算单元与实例存储单元121之间的读写访问功能。与实例存储单元121的LogicID相对应的为实例存储单元121的物理身份信息(Physical Identity Document,PhysicalID),其可以为一个唯一代码,来指代该实例存储单元121。
存储单元映射关系可以包括实例存储单元序列中各实例存储单元121的PhysicalID与Logic ID的映射关系,控制器可以通过实例存储单元121的Logic ID来调用实际的实例存储单元121(Physical ID)。
步骤52,在将所述实例存储单元序列中的存储单元的物理身份信息映射至所述实例存储单元序列的存储单元映射关系时,跳过所述失效的实例存储单元121的物理身份信息,以利用有效的备份存储单元122的物理身份信息,生成所述存储单元映射关系。
其中,所述存储单元映射关系包括所述存储单元模组120中各实例存储单元121和备份存储单元122的物理身份信息与逻辑身份信息的映射关系。
具体的,本步骤在生成存储单元映射关系时,先去除失效的实例存储单元121的Physical ID,跳过了失效实例存储单元121的Physical ID,从而使得运算单元工作时,不访问失效的实例存储单元121。
步骤15,判断片上总线模组130的各组数据通道131中是否存在失效的实例通道132。
具体的,当实例通道132不能传输数据或不能正确传输数据时,即认定该实例通道132失效。
步骤16,若存在失效的实例通道132,则利用所述失效的实例通道132对应的备份通道133替换所述失效的实例通道132,更新所述失效的实例通道132对应的数据通道131。
具体的,可以基于图3所示的数据通道131来实现实例通道132和备份通道133的切换。
本发明实施例中提供的技术方案,至少具有如下技术效果或优点:
本发明实施例中,运算单元模组设有实例运算单元和备份运算单元,当实例运算单元不能正常工作失效时,可以利用备份运算单元替代失效的实例运算单元,使运算单元模组能够正常工作;存储单元模组中设有实例存储单元和备份存储单元,当一个或多个实例存储单元不能正常工作失效时,存储单元模组依然能够提供足够数量的存储单元供运算单元读写访问;同时,片上总线模组中每组数据通道均设有实例通道132和备份通道,当数据通道中的实例通道不能正常工作失效时,使用对应的备份通道替换该失效的实例通道,使数据通道正常工作。本发明实施例能够独立实现运算单元、存储单元和数据通道的失效修复,提高了运算单元与存储单元之间的读写访问的可靠性,从而提高了众核芯片结构的出片良率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修该或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (11)

1.一种具有容错功能的众核计算电路,其特征在于,包括:
运算单元模组,包括至少一个实例运算单元和至少一个备份运算单元;
存储单元模组,包括至少一个实例存储单元和至少一个备份存储单元;
片上总线模组,包括至少一组数据通道;其中,每组数据通道均包括对应设置的实例通道和备份通道;
所述运算单元模组中的每个运算单元均通过所述片上总线模组中对应的数据通道分别连接所述存储单元模组中的每个存储单元;其中,所述每个运算单元包括所述至少一个实例运算单元和所述至少一个备份运算单元;所述每个存储单元包括所述至少一个实例存储单元和所述至少一个备份存储单元。
2.根据权利要求1所述的众核计算电路,其特征在于,所述数据通道,包括:第一选择器和第二选择器;
所述第一选择器的第一输出端连接所述第二选择器的第一输入端,以构建所述实例通道;
所述第一选择器的第二输出端连接所述第二选择器的第二输入端,以构建所述备份通道。
3.根据权利要求1所述的众核计算电路,其特征在于,所述运算单元,包括:
状态寄存器,用于存储表征所述运算单元是否处于正常状态的信息;
使能寄存器,用于存储表征所述运算单元是否处于激活状态的信息;
逻辑身份信息寄存器,用于存储表征所述众核计算电路工作时所述运算单元的逻辑身份信息。
4.根据权利要求1至3任一所述的众核计算电路,其特征在于,所述实例运算单元包括中央处理器、数字信号处理芯片、图形处理器和知识产权核心模组中的一种或多种;
所述备份运算单元包括中央处理器、数字信号处理芯片、图形处理器和知识产权核心模组中的一种或多种。
5.根据权利要求1至3任一所述的众核计算电路,其特征在于,所述存储单元模组中的每个存储单元均包括只读存储器和随机存取存储器中的一种或多种。
6.一种堆叠芯片,其特征在于,所述众核芯片包括如权利要求1至5任一所述的众核计算电路;
所述众核计算电路中的运算单元模组设置在第一晶圆上;所述众核计算电路中的存储单元模组设置在第二晶圆上;所述众核计算电路中的片上总线模组设置在所述第一晶圆上或所述第二晶圆上;
所述第一晶圆和所述第二晶圆堆叠设置。
7.根据权利要求6所述的堆叠芯片,其特征在于,所述片上总线模组设置于第三晶圆上;
所述第一晶圆、所述第二晶圆和所述第三晶圆堆叠设置。
8.一种基于权利要求1至5任一项所述众核计算电路的容错控制方法,其特征在于,包括:
判断运算单元模组中是否存在失效的实例运算单元;
若存在失效的实例运算单元,则利用备份运算单元替换所述失效的实例运算单元,更新所述运算单元模组的实例运算单元序列;
判断存储单元模组中是否存在失效的实例存储单元;
若存在失效的实例存储单元,则利用所述存储单元模组中备份存储单元替换所述失效的实例存储单元,更新与所述实例运算单元序列对应的实例存储单元序列,以重组构成逻辑地址连续的存储空间;
判断片上总线模组的各组数据通道中是否存在失效的实例通道;
若存在失效的实例通道,则利用所述失效的实例通道对应的备份通道替换所述失效的实例通道,更新所述失效的实例通道对应的数据通道。
9.根据权利要求8所述的容错控制方法,其特征在于,所述利用备份运算单元替换所述失效的实例运算单元,更新所述运算单元模组的实例运算单元序列,包括:
在所述实例运算单元序列的运算单元映射关系中,去除所述失效的实例运算单元的物理身份信息,并增加所述备份运算单元的物理身份信息;
根据所述运算单元映射关系中现有的运算单元的物理身份信息,更新所述运算单元映射关系;其中,所述运算单元映射关系包括所述实例运算单元序列中各运算单元的物理身份信息与逻辑身份信息的映射关系。
10.根据权利要求9所述的容错控制方法,其特征在于,所述根据所述运算单元映射关系中现有的运算单元的物理身份信息,更新所述运算单元映射关系,包括:
将更新前的所述运算单元映射关系中的所述失效的实例运算单元的物理身份信息替换为所述备份运算单元的物理身份信息,获得更新后的所述运算单元映射关系;
或,
利用现有的运算单元的物理身份信息,匹配所述运算单元映射关系中预设的各运算单元的逻辑身份信息,获得更新后的所述运算单元映射关系。
11.根据权利要求8所述的容错控制方法,其特征在于,利用所述存储单元模组中备份存储单元替换所述失效的实例存储单元,更新与所述实例运算单元序列对应的实例存储单元序列,包括:
获取所述失效的实例存储单元的物理身份信息;
在将所述实例存储单元序列中的存储单元的物理身份信息映射至所述实例存储单元序列的存储单元映射关系时,跳过所述失效的实例存储单元的物理身份信息,以利用有效的实例存储单元的物理身份信息,生成所述存储单元映射关系;其中,所述存储单元映射关系包括所述存储单元模组中各实例存储单元的物理身份信息与逻辑身份信息的映射关系。
CN202110752151.2A 2021-07-02 2021-07-02 一种众核计算电路、堆叠芯片和容错控制方法 Pending CN113360323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110752151.2A CN113360323A (zh) 2021-07-02 2021-07-02 一种众核计算电路、堆叠芯片和容错控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110752151.2A CN113360323A (zh) 2021-07-02 2021-07-02 一种众核计算电路、堆叠芯片和容错控制方法

Publications (1)

Publication Number Publication Date
CN113360323A true CN113360323A (zh) 2021-09-07

Family

ID=77538077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110752151.2A Pending CN113360323A (zh) 2021-07-02 2021-07-02 一种众核计算电路、堆叠芯片和容错控制方法

Country Status (1)

Country Link
CN (1) CN113360323A (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4093985A (en) * 1976-11-05 1978-06-06 North Electric Company Memory sparing arrangement
US20080120515A1 (en) * 2006-11-21 2008-05-22 Microsoft Corporation Transparent replacement of a system processor
WO2010066207A1 (zh) * 2008-12-12 2010-06-17 上海芯豪微电子有限公司 在片自测试自修复方法
CN101751317A (zh) * 2008-12-12 2010-06-23 上海芯豪微电子有限公司 多运算单元/多核/众核系统的自测试自修复机制与结构
CN102177551A (zh) * 2008-08-08 2011-09-07 惠普开发有限公司 与标准存储器模块管脚兼容的存储器模块中的独立可控制和可重新配置的虚拟存储器设备
US20130031418A1 (en) * 2011-07-26 2013-01-31 International Business Machines Corporation Testing and operating a multiprocessor chip with processor redundancy
CN103019873A (zh) * 2012-12-03 2013-04-03 华为技术有限公司 一种存储器故障单元的替换方法及装置、数据存储系统
CN103235760A (zh) * 2013-01-31 2013-08-07 苏州国芯科技有限公司 基于CLB总线的高利用率NorFLASH存储接口芯片
CN108536642A (zh) * 2018-06-13 2018-09-14 北京比特大陆科技有限公司 大数据运算加速系统和芯片
CN111033438A (zh) * 2017-09-06 2020-04-17 株式会社半导体能源研究所 运算装置及电子设备
CN111258935A (zh) * 2018-11-30 2020-06-09 上海寒武纪信息科技有限公司 数据传输装置和方法
CN112559395A (zh) * 2020-12-18 2021-03-26 国电南瑞科技股份有限公司 基于双Soc存储系统异常处理机制的继电保护装置及方法
CN215910890U (zh) * 2021-07-02 2022-02-25 西安紫光国芯半导体有限公司 一种众核计算电路和堆叠芯片

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4093985A (en) * 1976-11-05 1978-06-06 North Electric Company Memory sparing arrangement
US20080120515A1 (en) * 2006-11-21 2008-05-22 Microsoft Corporation Transparent replacement of a system processor
CN102177551A (zh) * 2008-08-08 2011-09-07 惠普开发有限公司 与标准存储器模块管脚兼容的存储器模块中的独立可控制和可重新配置的虚拟存储器设备
WO2010066207A1 (zh) * 2008-12-12 2010-06-17 上海芯豪微电子有限公司 在片自测试自修复方法
CN101751317A (zh) * 2008-12-12 2010-06-23 上海芯豪微电子有限公司 多运算单元/多核/众核系统的自测试自修复机制与结构
US20130031418A1 (en) * 2011-07-26 2013-01-31 International Business Machines Corporation Testing and operating a multiprocessor chip with processor redundancy
CN103019873A (zh) * 2012-12-03 2013-04-03 华为技术有限公司 一种存储器故障单元的替换方法及装置、数据存储系统
CN103235760A (zh) * 2013-01-31 2013-08-07 苏州国芯科技有限公司 基于CLB总线的高利用率NorFLASH存储接口芯片
CN111033438A (zh) * 2017-09-06 2020-04-17 株式会社半导体能源研究所 运算装置及电子设备
CN108536642A (zh) * 2018-06-13 2018-09-14 北京比特大陆科技有限公司 大数据运算加速系统和芯片
CN111258935A (zh) * 2018-11-30 2020-06-09 上海寒武纪信息科技有限公司 数据传输装置和方法
CN112559395A (zh) * 2020-12-18 2021-03-26 国电南瑞科技股份有限公司 基于双Soc存储系统异常处理机制的继电保护装置及方法
CN215910890U (zh) * 2021-07-02 2022-02-25 西安紫光国芯半导体有限公司 一种众核计算电路和堆叠芯片

Similar Documents

Publication Publication Date Title
US9804794B2 (en) Techniques for providing data redundancy after reducing memory writes
US20220035719A1 (en) Hbm ras cache architecture
CN101369240B (zh) 用于在信息处理系统中管理存储错误的系统和方法
US9170878B2 (en) Memory buffer with data scrambling and error correction
US7107493B2 (en) System and method for testing for memory errors in a computer system
CN104572517A (zh) 提供被请求数据的方法、控制器以及计算机系统
CN112667445B (zh) 封装后的内存修复方法及装置、存储介质、电子设备
US20180276161A1 (en) PCIe VIRTUAL SWITCHES AND AN OPERATING METHOD THEREOF
CN117524279A (zh) 具有虚拟体化架构的sram及包括其的系统和方法
CN215910890U (zh) 一种众核计算电路和堆叠芯片
CN115168087A (zh) 一种确定内存故障的修复资源粒度的方法及装置
US9037948B2 (en) Error correction for memory systems
CN103902419A (zh) 一种缓存测试方法及装置
CN113504876A (zh) 数据写入方法及装置、数据读取方法及装置、电子设备
US11341073B2 (en) Redundant paths to single port storage devices
KR20150085301A (ko) 메모리 시스템의 동작 방법 및 이를 포함하는 메모리 시스템의 초기화 방법
CN113360323A (zh) 一种众核计算电路、堆叠芯片和容错控制方法
US20150128000A1 (en) Method of operating memory system
US20220179581A1 (en) Memory system and controller of memory system
US20210191811A1 (en) Memory striping approach that interleaves sub protected data words
CN210136722U (zh) 一种存储器
WO2023217186A1 (zh) 一种片上系统及相关系统上电恢复方法
US20230393939A1 (en) Memory address translation for data protection and recovery
US20240086090A1 (en) Memory channel disablement
KR20150051641A (ko) 메모리 시스템의 동작 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination