CN114297097B - 一种众核可定义分布式共享存储结构 - Google Patents
一种众核可定义分布式共享存储结构 Download PDFInfo
- Publication number
- CN114297097B CN114297097B CN202111452275.5A CN202111452275A CN114297097B CN 114297097 B CN114297097 B CN 114297097B CN 202111452275 A CN202111452275 A CN 202111452275A CN 114297097 B CN114297097 B CN 114297097B
- Authority
- CN
- China
- Prior art keywords
- routing
- address
- bit
- route
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/06—Addressing a physical block of locations, e.g. base addressing, module addressing, memory dedication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/80—Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Multi Processors (AREA)
Abstract
一种众核可定义分布式共享存储结构,包括内部数据总线系统、路由单元、处理器核、网络接口单元和存储器模块;横向双向数据线和纵向双向数据线的交叉点放置路由单元;处理器核通过网络接口单元与路由单元连接,路由单元和网络接口单元之间通过处理器核存储访问总线连接;存储器模块直接与路由单元连接。网络接口单元内部集成路由表,它直接根据处理器核发出的存储访问地址查询到目的物理坐标位置,此目的坐标位置添加到数据包的包头后,数据包能够在目的坐标的指引下,通过路由单元,到达要访问的存储器模块。本发明能够克服目前众核处理器存储系统地址空间固定、不支持乒乓操作、存储器模块间无法灵活组合的缺点。
Description
技术领域
本发明涉及一种众核处理器存储结构,特别是面向嵌入式,众核处理器内部集成多块存储器模块、存储器模块间存在并行访问的分布式共享存储结构。
背景技术
众核处理器存储体系已经成为限制处理器整体性能提高的重要因素。随着集成电路设计与制造技术的快速发展,处理器功能部件的性能不断提高,单芯片内集成多个处理器核所带来的强大计算能力一直在按摩尔定律呈指数增长,其增长的速度远远大于存储带宽的增长速度,运算速度与访存速度之间的差距越来越大。并且,随着众核处理器集成处理器核的数量增加,目前处理器遇到的“存储墙”瓶颈问题将越来越严重。
在众核处理器中,存储系统的性能会直接影响着处理器的性能,计算能力已不是众核处理器设计的关键问题,数据的存储才是关键。目前主要的存储系统结构有:共享式存储系统、分布式存储系统。
共享式存储系统中,多个处理器核通过片上总线访问同一个存储器,又被称为对称多处理器结构,其特点是系统中只有一个主存,并且该主存对于各个处理器核而言是完全对称的关系,也就是说各个处理器访问主存所耗费的时间是相同的,该存储结构内部数据同步代价小,存储单元管理简单,但是由于受到传输延迟、存储器访问带宽等因素的限制,存储器访问时间相对较长。这种集中式共享存储是目前较流行的处理器存储结构,但其不足之处在于系统的扩展性不强,处理器中最多只能集成几十个核。
分布式存储系统中,从物理上将存储单元分布到各个处理器核内部,作为私有的本地存储,通过高带宽互联将其连接。分布式存储系统受存储器访问带宽限制小,有较好的可扩展性,这一存储系统结构的优点在于数据的局部性得到增强,对于频繁访问的数据可以放置在本节点的局部存储器中,以获得降低访存延迟,同时降低了对存储器和核间互联的带宽需求。但相应的缺点是处理器核访存操作具有很强的非对称性,跨节点的访存操作的延迟较大,处理器核之间的通信模型也较为复杂,数据同步时间变长,应用中需要考虑数据的分布问题,限制了其发展。
查阅国内和国外相关专利,与众核处理器存储结构相关的专利摘录如下:
(1)面向众核多层次存储系统的数据高效传输支持方法,专利申请号:201910974455.6
此专利公开了一种面向众核多层次存储系统的数据高效传输支持方法,包括典型访存通信模式性能库和运行时最优模式选择模块,典型访存通信模式性能库是通过首先总结科学计算程序中的典型通信访存模式,再对每种典型通信访存模式,用多种通信访存方案具体实现,最后对每种实现通信访存方案,测试在不同数据规模下的性能以及需要的缓冲空间的大小,构建典型访存通信模式性库;运行时最优模式选择模块则根据用户程序的访存通信模式、访存数据量、可用缓冲空间大小信息,搜索典型访存通信模式性库,选择最优实现方案。
(2)面向申威众核架构的稀疏矩阵存储方法,专利申请号:201910898286.2
此专利公开一种面向申威众核架构的稀疏矩阵存储方法,众核处理器由4个异构群构成,每个异构群包括一个主核、64个从核构成的从核簇、异构群接口和存储控制器,整个处理器有260个计算核心;稀疏矩阵存储格式包括以下步骤:首先将稀疏矩阵按行在申威众核处理器的核组阵列上分组,每个从核分到的若干行为一组,将64个从核分为64组;其次,对每组内的稀疏矩阵非零元素按列压缩存储,通过保存稀疏矩阵每列包含的非零元数量而对列坐标进行压缩,需要保存列索引、行坐标和非零元值,完成存储。此专利为应用软件基于众核处理器的全过程求解提供一种统一的数据组织形式,从而提高该类问题对申威众核架构适应性。
(3)一种基于申威异构众核处理器的数据处理方法和系统,专利申请号201910098373.X
此专利公开了一种基于申威异构众核处理器的数据处理方法,包括:对用户请求进行分析,将用户请求分解为多个数据处理任务;对数据处理任务进行分类;确定运算核心和存储介质的使用情况;以及根据运算核心和存储介质的使用情况及数据处理任务的分类,将数据处理任务与运算核心及存储介质进行匹配。
(4)用于众核处理系统的数据存储结构及数据访问方法,专利申请号201410588087.9
此专利主要是为了解决众核处理器数据存储延迟大、传输效率低而导致的无法继续提升众核计算单元阵列并行计算效率的问题,提出一种用于众核处理系统的数据存储结构,给出用于所述的众核处理系统的数据存储结构的数据访问方法,从而降低众核处理系统的访存代价,提高的访存效率,进而大大提高众核处理器的并行处理性能。为此,专利设计了外部数据传输控制器和内部数据传输控制器。
分析现有关于众核处理器存储结构的专利,发现重点描述众核处理器存储系统结构的专利不多。从已有资料上看,无论是共享式存储系统,还是分布式存储系统,从寻址方式上来看,目前还是采用统一寻址模式。现在的众核处理器存储结构,尤其是片上分布式共享存储结构,具有以下缺点:
(1)目前的众核处理器在流片生产之后,处理器内部分布式存储结构与片外存储结构具有固定的统一地址空间,一定程度上降低处理器对应用的适应性和处理器性能的发挥。一方面,处理器内部每个存储器模块,其对应的存储空间固定,当应用需要从此存储空间同时并行读出多个不同数据时,由于存储器模块仅支持逐个依次串行访问,导致数据访问时间增长,处理器性能降低;另一方面,处理器内部集成众多的处理器核和存储器模块,处理器核和存储器模块能够分成多个组,每个组负责不同的任务,如果处理器是固定的存储结构,受到地址空间范围的干扰,会极大地影响多个任务的编译和正确执行。
(2)目前众核处理器的存储结构无法有效地支持常用数字信号处理算法中的乒乓操作。在乒乓操作中,上次执行阶段存储的数据,会在下次执行阶段中从存储结构中读出,这两次执行阶段访问的地址是相同的,这在统一寻址模式下的众核处理器中是无法实现的,因为在处理器中不允许存在两个相同地址的存储器模块。这样的乒乓操作仅能够在专用处理电路中实现,因此,目前的存储结构影响处理器能效的进一步提升。
(3)众核处理器内部集成多个存储器模块,构成分布式共享存储系统,在众多处理器核数据访问过程中,如果处理器核与存储器模块地址空间映射不合适,如距离较远、存在并行访问阻塞情况,会直接导致处理器性能降低、功耗增大。受到存储空间固定的限制,现在仅是对处理器核上的任务开展调度研究,没有对分布式共享存储结构开展现场调度、优化研究。实际应用中,往往遇到处理器核上执行的任务分为多个阶段,不同阶段需要对不同的存储器模块进行读写操作,此时仅仅进行处理器核上映射任务的调度是不够的,需要同时针对多个存储器模块进行数据活跃性分析、数据依赖分析、数据路径分析等,得到最优的存储访问映射情况,并按照此情况定义处理器的分布式共享存储系统。
综上所述,目前的众核处理器存储系统,存在地址空间固定、不支持乒乓操作、存储器模块间无法灵活组合的缺点。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提出一种众核可定义分布式共享存储结构。
本发明解决技术的方案是:
一种众核可定义分布式共享存储结构,包括内部数据总线系统、路由单元、处理器核、网络接口单元和存储器模块;
内部数据总线系统包括横向双向数据线、纵向双向数据线和处理器核存储访问总线,横向双向数据线和纵向双向数据线的交叉点放置路由单元,用于传递数据;处理器核通过网络接口单元与路由单元连接,路由单元和网络接口单元之间通过处理器核存储访问总线连接;存储器模块直接与路由单元连接,多个存储器模块构成众核处理器内部的存储结构系统;
网络接口单元包括配置包解析单元、数据包组装/解析单元和路由表;
配置包解析单元,对路由单元输入的配置包进行解析,即通过包头判断操作类型、提取配置包中的地址信息和数据信息,并将操作类型、地址信息和数据信息进行组合,得到路由配置指令和路由控制指令输出给路由表;所述路由配置指令包括地址信息、数据信息和写信号,路由控制指令包括存储器模块分组标志信息、存储器模块乒乓读写控制信息和写信号;
数据包组装/解析单元,负责完成处理器核与路由单元间的数据格式转换,将通过路由单元接收到的数据包进行解析得到有效数据;将处理器核输出的读写数据和路由表输出的目的存储器模块的物理坐标位置转换成能够在片上网络中传输的数据包,输出给对应的路由单元,其中数据包包头中包含有路由表输出的目的存储器模块的物理坐标位置;
路由表,接收处理器核输出的地址信号,判断、查询出此地址信号对应的目的存储器模块的物理坐标位置,并将此物理坐标位置输出给数据包组装/解析单元;根据路由配置指令对所有字段进行写入和更改;根据路由控制指令对路由表中的路由控制字段进行写入和更改。
路由表包括地址仲裁单元、优先级判断单元、地址组匹配单元以及多个路由查找行;
每个路由查找行由三个字段组成,分别是路由控制字段、路由仲裁字段和路由目的字段;路由查找行接收路由配置指令,实现对路由查找行中路由控制字段、路由仲裁字段和路由目的字段的设置;
地址仲裁单元对第n个路由控制字段有效位为‘1’的路由查找行执行如下操作,其中n=1,2,3,……,N,N为路由控制字段有效位为‘1’的路由查找行总个数:
对处理器核输出的地址信号与第n个路由查找行的路由仲裁字段的有效地址标志位进行位与逻辑运算,运算结果与路由仲裁字段的有效地址数值位进行比较,两者一致,则将第n个路由查找行的地址匹配标志信号置‘1’;两者不一致,则将第n个路由查找行的地址匹配标志信号置‘0’;
优先级判断单元在第n个路由查找行的地址匹配标志信号为‘1’的情况下,如果处理器核输出的读信号与乒乓读标志位全部为‘1’,则输出第n个路由查找行的优先级标志信号‘10’;如果处理器核输出的写信号与乒乓写标志位全部为‘1’,则输出第n个路由查找行的优先级标志信号‘10’;其它情况下,输出第n个路由查找行的优先级标志信号‘01’;若第n个路由查找行的地址匹配标志信号为‘0’的情况下,输出第n个路由查找行的优先级标志信号‘00’;优先级标志信号是2位信号线,高位为‘1’表示对应路由查找行的路由目的字段具有高优先级;低位置‘1’表示对应路由查找行的路由目的字段具有低优先级;
地址组匹配单元是一个组合逻辑单元,比较每个路由查找行的路由控制字段中的地址组标志位和路由控制指令中表示地址组的数据位是否一致,如果一致,则从路由控制指令中提取出修改路由控制字段的信息,输出给该路由查找行。
路由控制字段包括有效位、地址组标志位、乒乓读标志位、乒乓写标志位、普通操作标志位;根据路由配置指令对同属一组的路由查找行的地址组标志位设置相同的数值,通过路由表控制指令能够将这些路由查找行同时设置为有效或者无效、同时改变乒乓读标志位、乒乓写标志位;
路由仲裁字段包括有效地址标志位和有效地址数值位;当有效地址标志位中的某位设置为‘1’时,表示此位对应位置的有效地址数值位的数值是有效的,处理器核输出的地址信号,其地址数值在此位的数值必须与有效地址数值位的数值一致,如果不一致,则说明地址不匹配,处理器核输出的地址信号不在此路由查找行中;
路由目的字段存储的是存储器模块的物理坐标位置。
路由控制字段中,有效位指明此路由查找行是否有效;地址组标志位用于将多个路由查找行定义的存储器模块统一归结为一组地址定义系统,实现集中控制;乒乓读标志位和乒乓写标志位用于区分读访问情况下所针对的目的存储器模块物理坐标位置和写访问情况下所针对的目的存储器模块物理坐标位置。
路由仲裁字段有效地址标志位的位宽为16位、32位或64位,有效地址数值位的位宽为16位、32位或64位,有效地址标志位的位宽与有效地址数值位的位宽一致。
有效地址数值位的位宽与处理器核发出的地址信号位宽保持一致。
路由表输出给数据包组装/解析单元的信息还包括优先级标志信号,路由表将优先级标志信号为‘01’的路由查找行中的路由目的字段作为低位,将优先级标志信号为‘10’的路由查找行中的路由目的字段作为高位,形成目的物理坐标组合信号输出给数据包组装/解析单元。
当众核处理器是二维拓扑结构时,路由目的字段存储的物理坐标位置为二维直角坐标数值;当众核处理器是三维拓扑结构时,路由目的字段存储的物理坐标位置为三维直角坐标数值。
每个路由表中包含多个路由查找行,路由查找行能够通过软件进行定义,通过多个路由查找行建立处理器核访问存储地址与目的存储器模块之间的联系,形成众核分布式共享存储结构。
本发明与现有技术相比的有益效果是:
(1)在传统处理器中,片内存储系统是固定的,有固定的存储地址、固定的BANK数目、固定的能够访问的处理器核。本发明通过网络接口单元定义的路由表,分布于众核处理器内部的多个存储器模块,既能够将所有存储器模块的存储容量相加,映射成统一的共享存储空间,被处理器内部的每个处理器核访问;也能够某几个存储器模块构成一组,被特定的处理器核访问,成为其私有存储器。
(2)在众核处理器中,通过网络接口单元定义的路由表,处理器核实现了对读访问和写访问目的地址的区分,也就是对于处理器核发出的同一访问地址,由于读、写操作的不同,最终读出和写入数据的存储器模块可以不是同一个模块,这样能够实现数据的读出、计算、写入同时执行,不再出现数据从存储器中读出与写入分时执行的情况,提高众核处理器性能。
(3)在众核处理器中,通过网络接口单元中可定义的路由表,能够使得处理器的存储系统,具有以下优势:
■在多条数据路径并发处理时,利用这个可定义的路由表,能够按照相应地址信号线中某几位不同而能够寻址不同的存储器模块,实现多个存储的并行访问,提高片内存储访问带宽和数据吞吐量;
■在路由表配置指令的基础上,增加“路由表控制字段”操作的路由表控制指令,可针对一组存储地址定义(由多个路由查找行构成)、而不是单个路由查找行进行设置,例如,通过路由表控制总线,改变一组存储地址定义中的“乒乓读标志”和“乒乓写标志”,就能够轻松实现数据处理中乒乓操作中多个存储器模块读、写地址映射关系的互换,非常简单,能够缩短重定义(重配置)时间,提高了控制效率;
■可定义的路由表,是通过配置指令定义的,与处理器核读写访问操作发出的地址信号和读写信号没有任何耦合,路由表在实现对现有访问正常仲裁目的坐标的同时,还能够通过配置指令定义另一套存储系统。
附图说明
图1为众核处理器总体结构示意图;
图2为网络接口单元结构图;
图3为路由表结构图。
具体实施方式
下面结合实施例对本发明作进一步阐述。
本发明的目的是设计适用于嵌入式应用的众核处理器存储结构,使得此存储结构达到下面目的:
(1)本发明设计的众核存储系统,处理器内部集成的存储系统,其寻址空间不再是固定的,而是通过路由表可以现场定义的存储系统,解决众核内存储系统定义的有效性。传统的众核处理器内部的存储系统,由多个存储器模块构成,明确规定了固定的存储地址、固定的BANK数目、固定的能够访问的处理器核。这种固定,降低了结构对算法适应的灵活性。对于像FFT这样的规则数字信号处理算法,为了最大程度的缩短处理时间,就需要每时钟周期从不同地址同时读出多个数据,在这种情况下,如果存储系统定义不合理或缺乏灵活性,就会产生访问冲突,导致每时钟周期读出数据的数量减少,最终使得众核执行算法时性能降低。例如,处理器内部集成四个存储器模块,容量全部为0x100字,传统处理器内部存储系统定义为存储器模块1的地址范围为0x0~0x0ff,存储器模块2的地址范围为0x100~0x1ff,存储器模块3的地址范围为0x200~0x2ff,存储器模块4的地址范围为0x300~0x3ff。这样的存储系统,在处理FFT蝶形运算时,假设取数地址是0,1,2,3,以此类推,由于这四个地址全部位于存储器模块1的地址范围中,产生访问冲突,单时钟周期仅能实现一次访问。在此专利中,众核处理器内部集成了多个存储器模块,每个存储器模块都有一定的容量,在众核处理器运行之初,这些存储器模块也不属于任何处理器核。此专利,通过在所有处理器核对应的网络接口单元中设计可定义的路由表,规定了对于此处理器核,读写访问地址所对应的存储器模块的坐标信息,达到定义众核处理器存储系统的目的,能够使得存储系统与算法应用更好的配合。通过此专利设计的可定义路由表,能够定义数据按照地址0,4,8,…;1,5,9,…;2,6,10,…;3,7,11,…分别存储在四块不同的存储器模块中。在处理FFT蝶形运算时,取数地址虽然还是0,1,2,3,由于这四个地址位于不同的存储器模块中,可实现单时钟周期并行四次访问。存储结构是为处理器核读写数据服务的,由于每个处理器核都有这样的一个可定义路由表,这样就能够实现众核处理器整个存储系统的灵活组合和分配。
(2)本发明设计的众核存储系统,定义的路由表,能够实现处理器核运行时的再次定义,而不是在众核处理器定义了路由表就不能改变。在众核处理器中,路由表有专用的配置指令、控制指令,与对应处理器核发出的数据、地址和控制信号不同,主要负责路由表信息的写入、改变路由表控制信息。
(3)本发明设计的众核存储系统,定义的路由表,由多个“路由查找行”构成,每一个查找行包括三个字段,分别是“路由表控制字段”、“路由表仲裁字段”和“路由表目的字段”。“路由表控制字段”控制此路由查找行的有效性、是否支持乒乓操作等信息;“路由表仲裁字段”用于判断访问访问地址是否在此查找行定义的存储空间之内;“路由表目的字段”寄存的是此查找行对应存储空间目的坐标地址。
(4)本发明设计的众核存储系统,路由表中定义了“乒乓读标志”和“乒乓写标志”,针对同一地址,支持读、写两套存储系统,能够很好地支持数据处理算法中常见的乒乓操作。“乒乓读标志”有效,表明处理器核正在执行乒乓操作,此时处理器核只有在执行读访问操作时,后面的地址仲裁和坐标信息才有效;“乒乓写标志”有效,表明处理器核正在执行乒乓操作,此时处理器核只有在执行写访问操作时,后面的地址仲裁和坐标信息才有效。通过定义路由表,能够对读、写访问操作各自定义一套存储系统,每一套存储系统,由若干个存储器模块构成,也就是对于处理器核发出的同一访问地址,由于读、写操作的不同,最终读出和写入数据的存储器模块可以不是同一个模块。当乒乓操作互换时,仅需改变路由表中“乒乓读标志”和“乒乓写标志”,路由表中“乒乓读标志”有效改为“乒乓写标志”有效,路由表中“乒乓写标志”有效改为“乒乓读标志”有效,就能够实现乒乓操作的所对应的地址存储空间互换。
(5)本发明设计的众核处理器存储系统,通过定义路由表,利用路由表中“有效地址标志位”和“有效地址数值位”字段,能够有效区分各个存储器模块对应的地址空间范围。对存储访问地址,首先与“有效地址标志位”字段中数据位进行“位与”逻辑运算,结果再与“有效地址数值位”字段进行比较,如果一致,说明存储访问地址对应的目的坐标为此路由查找行对应的“路由表目的字段”中的目的坐标。路由表中“有效地址标志位”和“有效地址数值位”字段,能够实现按照地址高位、地址低位和地址的某几位中间位来划分对应不同存储器模块的存储空间,保证了存储空间的灵活性。
具体地,本发明的一种众核可定义分布式共享存储结构,在设计中,主要有以下实施方式:
(1)在众核处理器中,集成多个处理器核和存储器模块,构建二维网格架构。每个处理器核对应一个路由单元,处理器核即可以是微处理器,也可以是完成特定功能的DSP加速引擎。每个处理器核对应一个网络接口单元,网络接口单元实现处理器核与路由单元间传递数据包的格式转换,网络接口单元内部集成路由表,它直接根据处理器核发出的地址查询到目的坐标,此目的坐标添加到数据包的包头后,数据包就能够在目的坐标的指引下,通过路由单元,到达要访问的存储器模块。
(2)在众核处理器中,集成多个处理器核和存储器模块,构建三维网格架构。每个处理器核对应一个路由单元,处理器核即可以是微处理器,也可以是完成特定功能的DSP加速引擎。每个处理器核对应一个网络接口单元,网络接口单元实现处理器核与路由单元间传递数据包的格式转换,网络接口单元内部集成路由表,它直接根据处理器核发出的地址查询到目的坐标,此目的坐标添加到数据包的包头后,数据包就能够在目的坐标的指引下,通过路由单元,到达要访问的存储器模块。
(3)在众核处理器中,集成多个处理器核和存储器模块,构建二维网格架构。每个处理器核对应一个路由单元,处理器核即可以是微处理器,也可以是完成特定功能的DSP加速引擎。每个处理器核对应一个网络接口单元,网络接口单元实现处理器核与路由单元间传递数据包的格式转换。在路由单元中集成路由表,对于没有指明目的坐标的数据包,路由单元会根据数据包的目的地址信息,从路由表中查询到目的坐标,此目的坐标添加到数据包的包头后,数据包就能够在目的坐标的指引下,通过路由单元,到达要访问的存储器模块。
(4)在众核处理器中,集成多个处理器核和存储器模块,构建三维网格架构。每个处理器核对应一个路由单元,处理器核即可以是微处理器,也可以是完成特定功能的DSP加速引擎。每个处理器核对应一个网络接口单元,网络接口单元实现处理器核与路由单元间传递数据包的格式转换。在路由单元中集成路由表,对于没有指明目的坐标的数据包,路由单元会根据数据包的目的地址信息,从路由表中查询到目的坐标,此目的坐标添加到数据包的包头后,数据包就能够在目的坐标的指引下,通过路由单元,到达要访问的存储器模块。
(5)在众核处理器中,通过集成多个可定义路由表,建立处理器核访问存储地址与目的存储器模块之间的联系,由于路由表中包含多个路由查找行,这样,多个存储器模块与访问地址的关系就建立起来,形成众核分布式共享存储结构。
(6)在路由查找行结构中,分为路由控制字段、路由仲裁字段和路由目的字段。路由控制字段控制包括查找行有效位、地址组标志位、乒乓读标志位和乒乓写标志位等信息,其中,查找行有效位指明此路由查找行是否有效;地址组标志位用于将多个路由查找行定义的存储器模块统一归结为一组地址定义系统,方便集中控制,不必再针对多个路由查找行一一控制,而是针对一组统一控制;乒乓读标志位和乒乓写标志位用于区分读访问所针对的存储器模块目的坐标和写访问所针对的存储器模块目的坐标,虽然是同一地址,但由于读写访问的不同,最终的目的存储器模块也是不同的,这样设计,方便实现乒乓操作中存储空间写读的不断转换。路由仲裁字段用于地址匹配,处理器核发出的地址信息,与路由仲裁字段相匹配,匹配一致,说明可将此路由查找行中目的字段的坐标数据作为目的坐标,路由仲裁字段中的有效地址标志位,定义的是地址数据中的哪几位是必须比较的,路由仲裁字段中的有效地址数值位,定义的是地址数据中必须比较标志位对应的数据具体应该是‘1’还是‘0’。
基于MESH(二维网格)架构的众核处理器,内部数据总线系统包括横向双向数据线、纵向双向数据线和处理器核存储访问总线,横向数据线和纵向数据线的交叉点放置路由单元,相邻路由单元之间存在这种双向数据线,用于数据的传递。处理器核不直接与路由单元连接,而是通过网络接口单元与路由单元连接,路由单元和网络接口单元之间通过处理器核存储访问总线连接。存储器模块直接与路由单元连接,多个存储器模块构成众核处理器内部的存储结构系统。
实施例:
图1为众核处理器总体结构图。
在图1中,存在6个存储器模块,标号分别为100~105;9个处理器核,标号分别为106~114;9个网络接口单元,标号分别为115~123;12个路由单元,标号分别为124~135。
标号为100的存储器模块,与标号为124的路由单元通过双向数据线连接。
标号为101的存储器模块,与标号为128的路由单元通过双向数据线连接。
标号为102的存储器模块,与标号为132的路由单元通过双向数据线连接。
标号为103的存储器模块,与标号为127的路由单元通过双向数据线连接。
标号为104的存储器模块,与标号为131的路由单元通过双向数据线连接。
标号为105的存储器模块,与标号为135的路由单元通过双向数据线连接。
标号为106的处理器核,与标号为115的网络接口单元通过处理器核的地址总线、数据总线、读/写信号连接。
标号为107的处理器核,与标号为116的网络接口单元通过处理器核的地址总线、数据总线、读/写信号连接。
标号为108的处理器核,与标号为117的网络接口单元通过处理器核的地址总线、数据总线、读/写信号连接。
标号为109的处理器核,与标号为118的网络接口单元通过处理器核的地址总线、数据总线、读/写信号连接。
标号为110的处理器核,与标号为119的网络接口单元通过处理器核的地址总线、数据总线、读/写信号连接。
标号为111的处理器核,与标号为120的网络接口单元通过处理器核的地址总线、数据总线、读/写信号连接。
标号为112的处理器核,与标号为121的网络接口单元通过处理器核的地址总线、数据总线、读/写信号连接。
标号为113的处理器核,与标号为122的网络接口单元通过处理器核的地址总线、数据总线、读/写信号连接。
标号为114的处理器核,与标号为123的网络接口单元通过处理器核的地址总线、数据总线、读/写信号连接。
标号为115的网络接口单元,与标号为125的路由单元通过双向数据线连接。
标号为116的网络接口单元,与标号为126的路由单元通过双向数据线连接。
标号为117的网络接口单元,与标号为127的路由单元通过双向数据线连接。
标号为118的网络接口单元,与标号为129的路由单元通过双向数据线连接。
标号为119的网络接口单元,与标号为130的路由单元通过双向数据线连接。
标号为120的网络接口单元,与标号为131的路由单元通过双向数据线连接。
标号为121的网络接口单元,与标号为133的路由单元通过双向数据线连接。
标号为122的网络接口单元,与标号为134的路由单元通过双向数据线连接。
标号为123的网络接口单元,与标号为135的路由单元通过双向数据线连接。
标号为124的路由单元,与标号为125、128路由单元、标号为100的存储器模块通过双向数据线连接。
标号为125的路由单元,与标号为124、126、129路由单元、标号为115的网络接口单元通过双向数据线连接。
标号为126的路由单元,与标号为125、127、130路由单元、标号为116的网络接口单元通过双向数据线连接。
标号为127的路由单元,与标号为126、131路由单元、标号为117的网络接口单元、标号为103的存储器模块通过双向数据线连接。
标号为128的路由单元,与标号为124、129、132路由单元、标号为101的存储器模块通过双向数据线连接。
标号为129的路由单元,与标号为125、128、130、133路由单元、标号为118的网络接口单元通过双向数据线连接。
标号为130的路由单元,与标号为126、129、131、134路由单元、标号为119的网络接口单元通过双向数据线连接。
标号为131的路由单元,与标号为127、130、135路由单元、标号为120的网络接口单元、标号为104的存储器模块通过双向数据线连接。
标号为132的路由单元,与标号为128、133路由单元、标号为102的存储器模块通过双向数据线连接。
标号为133的路由单元,与标号为129、132、134路由单元、标号为121的网络接口单元通过双向数据线连接。
标号为134的路由单元,与标号为130、133、135路由单元、标号为122的网络接口单元通过双向数据线连接。
标号为135的路由单元,与标号为131、134路由单元、标号为123的网络接口单元、标号为105的存储器模块通过双向数据线连接。
9个处理器核,标号分别为106~114,主要由控制逻辑单元、存储单元和运算逻辑单元构成;控制逻辑单元负责对处理器核执行指令进行译码、并且发出完成每条指令所要执行的各个操作的控制信号;存储单元,暂时存放数据的地方,内部保存着等待处理的数据或者已经处理的数据;运算逻辑单元,执行算术运算(包括加减乘除等基本运算及其附加运算)和逻辑运算。
12个路由单元,标号分别为124~135。路由单元结构共有东、西、南、北和本地共五个方向的双向数据接口,每个方向的双向数据接口有自己的输入缓冲区、输入控制逻辑和输出仲裁逻辑。缓冲区的作用是缓存到达路由器的数据包,通常使用FIFO(先进先出)策略,起到一定的流控制作用;输出仲裁的功能就是在多个请求端请求同一个共享资源时,按照一定的规律或是既定的规则,安排多个请求端的请求输出。
6个存储器模块,标号分别为100~105,是用来存储程序和各种数据信息的记忆部件,可以是随机存取存储器(RAM)、只读存储器(RAM)、动态随机存取存储器(DRAM)、非易失存储器(NVM)。
图2为网络接口单元结构图。
图2是网络接口单元结构图,是用来建立处理器核和路由单元间通信的机构,一端连接处理器核,另外一端连接到一个路由单元。图中,包括路由表200;配置包解析单元201;数据包组装/解析单元202。
标号为200的路由表,输入包括有标号为203的路由表控制指令、标号为204的路由表配置指令、处理器核输出的标号为206的地址信号、处理器核输出的标号为207的读信号、处理器核输出的标号为208的写信号,输出有标号为205的目的物理坐标组合信号。标号为200的路由表,与标号为201的配置包解析单元,通过标号为203的路由表控制指令、标号为204的路由表配置指令连接;与标号为202的数据包组装/解析单元,通过标号为205的目的物理坐标组合信号连接。
标号为201的配置包解析单元,输出包括标号为203的路由表控制指令、标号为204的路由表配置指令。标号为201的配置包解析单元,与标号为200的路由表,通过标号为203的路由表控制指令、标号为204的路由表配置指令连接。
标号为202的数据包组装/解析单元,输入包括有处理器核输出的标号为206的地址信号、处理器核输出的标号为207的读信号、处理器核输出的标号为208的写信号,处理器核输出的标号为209的数据信号、标号为205的目的物理坐标组合信号;向处理器核输出标号为210的数据信号。标号为202的数据包组装/解析单元,与标号为200的路由表,通过标号为205的目的物理坐标组合信号连接。
标号为201的配置包解析单元,是一时序逻辑单元,负责对路由单元输入的配置包进行解析,这里的解析是指通过包头判断操作类型、提取配置包中的地址信息和数据信息,并将配置包解析出的操作类型、地址信息和数据信息进行组合,组合出路由配置指令和控制指令,其中配置指令包括地址信息、数据信息和写信号,用于对路由表中所有字段的写入和更改;控制指令包括存储器模块分组标志信息、存储器模块乒乓读写控制信息和写信号,实现对路由表中路由控制字段的写入和更改。
标号为202的数据包组装/解析单元,是一时序逻辑单元,负责完成处理器核与路由单元间的数据格式转换,解析是针对输入数据包进行的,将接收到的数据包进行解析得到有效数据;组装是指输出数据包的形成过程,将处理器核输出的读写数据和目的存储器模块的物理坐标位置转换成能够在片上网络中传输的数据包,其中路由表输出的目的存储器模块的物理坐标位置作为数据包包头,根据目的存储器模块的物理坐标位置将数据包输出给对应的路由单元。
图3为路由表结构图。
图3为路由表结构图,负责针对处理器核输出的地址信号,判断、查询出此地址对应的目的存储器模块的物理坐标位置,并将此位置坐标输出,以使标号为202的数据包组装/解析单元在组装数据包时,包头中增加位置坐标信息。
在图3中,包括多个标号为300的路由查找行,标号为301的地址仲裁单元,标号为302的优先级判断单元,标号为303的地址组匹配单元。
标号为300的路由查找行,由三个字段组成,分别是标号为304的路由控制字段、标号为305的路由仲裁字段和标号为306的路由目的字段。标号为204的路由表配置指令是路由查找行的输入信号,实现对路由查找行中路由控制字段、路由仲裁字段和路由目的字段的设置。
标号为304的路由控制字段由标号为307的有效位,标号为308的地址组标志位,标号为309的乒乓读标志位,标号为310的乒乓写标志位,标号为311的普通操作标志位组成。标号为308的地址组标志位主要为了方便对同属一组的路由查找行统一进行控制,多个路由查找行中的地址组标志位可以设置具有相同的数值,这样,通过路由表控制总线能够将这些路由查找行同时设置为有效或者无效、同时改变乒乓读写标志。
标号为305的路由仲裁字段由标号为312的有效地址标志位和标号为313的有效地址数值位组成。标号为312的有效地址标志位的位宽可以是16位、32位和64位,标号为313的有效地址数值位的位宽可以是16位、32位和64位,标号为312和标号为313的位宽与处理器核发出的地址信号位宽保持一致。当标号为312的有效地址标志位中的某位设置为‘1’时,表示此位对应位置的标号为313的有效地址数值位的数值是有效的,处理器核输出的标号为206的地址信号,其地址数值在此位的数值必须与标号为313的有效地址数值位的数值一致,如果不一致,则说明地址不匹配,处理器核输出的地址信号不在此路由查找行中。
标号为306的路由目的字段存储的是标号为314的物理坐标位置。当众核处理器是二维拓扑结构时,此物理坐标位置为二维直角坐标数值;当众核处理器是三维拓扑结构时,此物理坐标位置为三维直角坐标数值。
标号为301的地址仲裁单元,输入分别为标号为307的路由查找行有效位、标号为206的处理器核输出的地址信号、标号为312的有效地址标志位和标号为313的有效地址数值位,输出为标号316的地址匹配标志信号。地址仲裁单元是一组合逻辑单元,功能是在路由查找行有效位置‘1’的情况下,对处理器核输出的地址信号与有效地址标志位进行位与逻辑运算,运算结果与有效地址数值位进行比较,比较一致,输出的地址匹配标志信号置‘1’,比较不一致,输出的地址匹配标志信号置‘0’。
标号为302的优先级判断单元,输入包括处理器核输出的标号为207的读信号、处理器核输出的标号为208的写信号、标号为309的乒乓读标志位,标号为310的乒乓写标志位,地址仲裁单元301输出的标号316的地址匹配标志信号,输出为标号为317的优先级标志信号。标号为317的优先级标志信号是2位信号线,高位置‘1’表示此路由查找行查询到的坐标位置具有高优先级;低位置‘1’表示此路由查找行查询到的坐标位置具有低优先级。标号为302的优先级判断单元是一组合逻辑单元,功能是在标号316的地址匹配标志信号置‘1’的情况下:如果标号为207的读信号与标号为309的乒乓读标志位全部置‘1’,则标号为317的优先级标志信号设置为‘10’,表示具有高优先级;如果标号为208的写信号与标号为310的乒乓写标志位全部置‘1’,则标号为317的优先级标志信号设置为‘10’,表示具有高优先级;其它情况下,标号为317的优先级标志信号设置为‘01’,表示具有低优先级。在标号316的地址匹配标志信号置‘0’的情况下,标号为317的优先级标志信号设置为‘00’。
标号为303的地址组匹配单元,输入是标号为203的路由表控制指令、标号为308的地址组标志位,输出是标号为315的路由表地址组控制信号。标号为303的地址组匹配单元是一组合逻辑单元,功能是比较标号为308的地址组标志位和标号为203的路由表控制指令中表示地址组的数据位是否一致,如果一致,则从标号为203的路由表控制指令中提取出修改路由控制字段的信息,组成标号为315的路由表地址组控制信号输出,此输出信号与标号为304的路由控制字段连接。
标号为317的优先级标志信号和标号为314的物理坐标数值位共同组合成标号为205的目的物理坐标组合信号输出,优先级标志信号位于物理坐标组合信号的高位。数据包组装/解析单元在组装数据包时,包头中的物理坐标信息选择高优先级标志信号对应的物理坐标数值位。
本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。
Claims (9)
1.一种众核可定义分布式共享存储结构,其特征在于:包括内部数据总线系统、路由单元、处理器核、网络接口单元和存储器模块;
内部数据总线系统包括横向双向数据线、纵向双向数据线和处理器核存储访问总线,横向双向数据线和纵向双向数据线的交叉点放置路由单元,用于传递数据;处理器核通过网络接口单元与路由单元连接,路由单元和网络接口单元之间通过处理器核存储访问总线连接;存储器模块直接与路由单元连接,多个存储器模块构成众核处理器内部的存储结构系统;
网络接口单元包括配置包解析单元、数据包组装/解析单元和路由表;
配置包解析单元,对路由单元输入的配置包进行解析,即通过包头判断操作类型、提取配置包中的地址信息和数据信息,并将操作类型、地址信息和数据信息进行组合,得到路由配置指令和路由控制指令输出给路由表;所述路由配置指令包括地址信息、数据信息和写信号,路由控制指令包括存储器模块分组标志信息、存储器模块乒乓读写控制信息和写信号;
数据包组装/解析单元,负责完成处理器核与路由单元间的数据格式转换,将通过路由单元接收到的数据包进行解析得到有效数据;将处理器核输出的读写数据和路由表输出的目的存储器模块的物理坐标位置转换成能够在片上网络中传输的数据包,输出给对应的路由单元,其中数据包包头中包含有路由表输出的目的存储器模块的物理坐标位置;
路由表,接收处理器核输出的地址信号,判断、查询出此地址信号对应的目的存储器模块的物理坐标位置,并将此物理坐标位置输出给数据包组装/解析单元;根据路由配置指令对所有字段进行写入和更改;根据路由控制指令对路由表中的路由控制字段进行写入和更改。
2.根据权利要求1所述的一种众核可定义分布式共享存储结构,其特征在于:路由表包括地址仲裁单元、优先级判断单元、地址组匹配单元以及多个路由查找行;
每个路由查找行由三个字段组成,分别是路由控制字段、路由仲裁字段和路由目的字段;路由查找行接收路由配置指令,实现对路由查找行中路由控制字段、路由仲裁字段和路由目的字段的设置;
地址仲裁单元对第n个路由控制字段有效位为‘1’的路由查找行执行如下操作,其中n=1,2,3,……,N,N为路由控制字段有效位为‘1’的路由查找行总个数:
对处理器核输出的地址信号与第n个路由查找行的路由仲裁字段的有效地址标志位进行位与逻辑运算,运算结果与路由仲裁字段的有效地址数值位进行比较,两者一致,则将第n个路由查找行的地址匹配标志信号置‘1’;两者不一致,则将第n个路由查找行的地址匹配标志信号置‘0’;
优先级判断单元在第n个路由查找行的地址匹配标志信号为‘1’的情况下,如果处理器核输出的读信号与乒乓读标志位全部为‘1’,则输出第n个路由查找行的优先级标志信号‘10’;如果处理器核输出的写信号与乒乓写标志位全部为‘1’,则输出第n个路由查找行的优先级标志信号‘10’;其它情况下,输出第n个路由查找行的优先级标志信号‘01’;若第n个路由查找行的地址匹配标志信号为‘0’的情况下,输出第n个路由查找行的优先级标志信号‘00’;优先级标志信号是2位信号线,高位为‘1’表示对应路由查找行的路由目的字段具有高优先级;低位置‘1’表示对应路由查找行的路由目的字段具有低优先级;
地址组匹配单元是一个组合逻辑单元,比较每个路由查找行的路由控制字段中的地址组标志位和路由控制指令中表示地址组的数据位是否一致,如果一致,则从路由控制指令中提取出修改路由控制字段的信息,输出给该路由查找行。
3.根据权利要求1所述的一种众核可定义分布式共享存储结构,其特征在于:路由控制字段包括有效位、地址组标志位、乒乓读标志位、乒乓写标志位、普通操作标志位;根据路由配置指令对同属一组的路由查找行的地址组标志位设置相同的数值,通过路由表控制指令能够将这些路由查找行同时设置为有效或者无效、同时改变乒乓读标志位、乒乓写标志位;
路由仲裁字段包括有效地址标志位和有效地址数值位;当有效地址标志位中的某位设置为‘1’时,表示此位对应位置的有效地址数值位的数值是有效的,处理器核输出的地址信号,其地址数值在此位的数值必须与有效地址数值位的数值一致,如果不一致,则说明地址不匹配,处理器核输出的地址信号不在此路由查找行中;
路由目的字段存储的是存储器模块的物理坐标位置。
4.根据权利要求3所述的一种众核可定义分布式共享存储结构,其特征在于:路由控制字段中,有效位指明此路由查找行是否有效;地址组标志位用于将多个路由查找行定义的存储器模块统一归结为一组地址定义系统,实现集中控制;乒乓读标志位和乒乓写标志位用于区分读访问情况下所针对的目的存储器模块物理坐标位置和写访问情况下所针对的目的存储器模块物理坐标位置。
5.根据权利要求3所述的一种众核可定义分布式共享存储结构,其特征在于:路由仲裁字段有效地址标志位的位宽为16位、32位或64位,有效地址数值位的位宽为16位、32位或64位,有效地址标志位的位宽与有效地址数值位的位宽一致。
6.根据权利要求3所述的一种众核可定义分布式共享存储结构,其特征在于:有效地址数值位的位宽与处理器核发出的地址信号位宽保持一致。
7.根据权利要求3所述的一种众核可定义分布式共享存储结构,其特征在于:路由表输出给数据包组装/解析单元的信息还包括优先级标志信号,路由表将优先级标志信号为‘01’的路由查找行中的路由目的字段作为低位,将优先级标志信号为‘10’的路由查找行中的路由目的字段作为高位,形成目的物理坐标组合信号输出给数据包组装/解析单元。
8.根据权利要求3所述的一种众核可定义分布式共享存储结构,其特征在于:当众核处理器是二维拓扑结构时,路由目的字段存储的物理坐标位置为二维直角坐标数值;当众核处理器是三维拓扑结构时,路由目的字段存储的物理坐标位置为三维直角坐标数值。
9.根据权利要求3所述的一种众核可定义分布式共享存储结构,其特征在于:每个路由表中包含多个路由查找行,路由查找行能够通过软件进行定义,通过多个路由查找行建立处理器核访问存储地址与目的存储器模块之间的联系,形成众核分布式共享存储结构。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111452275.5A CN114297097B (zh) | 2021-12-01 | 2021-12-01 | 一种众核可定义分布式共享存储结构 |
PCT/CN2022/091905 WO2023097970A1 (zh) | 2021-12-01 | 2022-05-10 | 一种众核可定义分布式共享存储结构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111452275.5A CN114297097B (zh) | 2021-12-01 | 2021-12-01 | 一种众核可定义分布式共享存储结构 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114297097A CN114297097A (zh) | 2022-04-08 |
CN114297097B true CN114297097B (zh) | 2023-04-14 |
Family
ID=80965755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111452275.5A Active CN114297097B (zh) | 2021-12-01 | 2021-12-01 | 一种众核可定义分布式共享存储结构 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114297097B (zh) |
WO (1) | WO2023097970A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297097B (zh) * | 2021-12-01 | 2023-04-14 | 北京时代民芯科技有限公司 | 一种众核可定义分布式共享存储结构 |
CN116578522B (zh) * | 2023-07-13 | 2023-12-01 | 中电海康集团有限公司 | 基于众核架构的数据处理方法、装置、设备及存储介质 |
CN118245118B (zh) * | 2024-05-29 | 2024-07-26 | 山东省计算中心(国家超级计算济南中心) | 一种基于新一代申威众核处理器从核局存受限优化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5701413A (en) * | 1993-01-25 | 1997-12-23 | Bull Hn Information Systems Italia S.P.A. | Multi-processor system with shared memory |
CN113704169A (zh) * | 2021-08-12 | 2021-11-26 | 北京时代民芯科技有限公司 | 一种面向嵌入式的可配置众核处理器 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100612315B1 (ko) * | 2003-02-20 | 2006-08-16 | 삼성전자주식회사 | 핑퐁 방지 기능이 구비된 분산형 라우터 및 그를 이용한핑퐁 방지 방법 |
US8032654B2 (en) * | 2008-01-09 | 2011-10-04 | Infosys Technologies Limited | System and method for data exchange in multiprocessor computer systems |
JP2012155650A (ja) * | 2011-01-28 | 2012-08-16 | Toshiba Corp | ルータ及びメニーコアシステム |
CN105207957B (zh) * | 2015-08-18 | 2018-10-30 | 中国电子科技集团公司第五十八研究所 | 一种基于片上网络多核架构的系统 |
CN112540718A (zh) * | 2019-09-23 | 2021-03-23 | 无锡江南计算技术研究所 | 面向申威众核架构的稀疏矩阵存储方法 |
CN114297097B (zh) * | 2021-12-01 | 2023-04-14 | 北京时代民芯科技有限公司 | 一种众核可定义分布式共享存储结构 |
-
2021
- 2021-12-01 CN CN202111452275.5A patent/CN114297097B/zh active Active
-
2022
- 2022-05-10 WO PCT/CN2022/091905 patent/WO2023097970A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5701413A (en) * | 1993-01-25 | 1997-12-23 | Bull Hn Information Systems Italia S.P.A. | Multi-processor system with shared memory |
CN113704169A (zh) * | 2021-08-12 | 2021-11-26 | 北京时代民芯科技有限公司 | 一种面向嵌入式的可配置众核处理器 |
Non-Patent Citations (1)
Title |
---|
面向阵列处理器的分布式共享存储结构设计;山蕊等;《北京邮电大学学报》(第04期);13-19 * |
Also Published As
Publication number | Publication date |
---|---|
WO2023097970A1 (zh) | 2023-06-08 |
CN114297097A (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114297097B (zh) | 一种众核可定义分布式共享存储结构 | |
US7360024B2 (en) | Multi-port integrated cache | |
US6505269B1 (en) | Dynamic addressing mapping to eliminate memory resource contention in a symmetric multiprocessor system | |
CN104699631B (zh) | Gpdsp中多层次协同与共享的存储装置和访存方法 | |
CN112463719A (zh) | 一种基于粗粒度可重构阵列实现的存内计算方法 | |
US6032246A (en) | Bit-slice processing unit having M CPU's reading an N-bit width data element stored bit-sliced across M memories | |
CN105468568B (zh) | 高效的粗粒度可重构计算系统 | |
CN101477512B (zh) | 一种处理器系统及其访存方法 | |
CN102446159B (zh) | 多核处理器的数据管理方法及装置 | |
CN111433758A (zh) | 可编程运算与控制芯片、设计方法及其装置 | |
CN111124675A (zh) | 一种面向图计算的异构存内计算设备及其运行方法 | |
CN112732639B (zh) | 一种粗粒度动态可重构处理器及其数据处理方法 | |
US11526460B1 (en) | Multi-chip processing system and method for adding routing path information into headers of packets | |
CN114398308A (zh) | 基于数据驱动粗粒度可重构阵列的近内存计算系统 | |
CN111159094A (zh) | 一种基于risc-v的近数据流式计算加速阵列 | |
CN101320344B (zh) | 一种多核或众核处理器功能验证设备及方法 | |
CN114564434B (zh) | 一种通用多核类脑处理器、加速卡及计算机设备 | |
CN110096475B (zh) | 一种基于混合互连架构的众核处理器 | |
US5710932A (en) | Parallel computer comprised of processor elements having a local memory and an enhanced data transfer mechanism | |
CN104035898B (zh) | 一种基于vliw类型处理器的访存系统 | |
CN104572519A (zh) | 一种用于多处理器的多端口访存控制器及其控制方法 | |
Shang et al. | LACS: A high-computational-efficiency accelerator for CNNs | |
US6801985B1 (en) | Data bus using synchronous fixed latency loop including read address and data busses and write address and data busses | |
CN116775505A (zh) | 面向非易失性存内计算ai芯片架构的缓存复用方法及系统 | |
CN103678202A (zh) | 一种多核处理器的dma控制器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |