CN207529364U - 一种并行处理器阵列结构 - Google Patents
一种并行处理器阵列结构 Download PDFInfo
- Publication number
- CN207529364U CN207529364U CN201720992237.1U CN201720992237U CN207529364U CN 207529364 U CN207529364 U CN 207529364U CN 201720992237 U CN201720992237 U CN 201720992237U CN 207529364 U CN207529364 U CN 207529364U
- Authority
- CN
- China
- Prior art keywords
- processor
- group
- chip
- accelerator
- utility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Multi Processors (AREA)
Abstract
本实用新型涉及一种并行处理器阵列结构,包括芯片和处理器,所述芯片上设置多个处理器,组成一级处理器组,多个一级处理器组组成二级处理器组,多个二级处理器组组成三级处理器组,以此类推,即所述并行处理器阵列包括多级,每级由小到大呈包含关系,每个级包括多个小一级的处理器组,其中,每级处理器组中的每个处理器或处理器组通过译码器或仲裁器连接加速器和总线连接器。本实用新型即便是在处理器数量较多时,仍然能够使用较少芯片资源来完成处理器之间的通信。同时能保证对邻近资源的访问延迟低;这种组织方式允许使用简单的处理器互联技术来连接组内外各个处理器。既解决了处理器间互联的问题,节省了芯片资源,也降低了访问延迟。
Description
技术领域
本实用新型涉及处理器技术领域,具体的说是一种并行处理器阵列结构。
背景技术
现有实现计算功能的芯片主要有单核SOC,多核SOC,FPGA等。多核或众核SOC的结构常见的有:
一、以总线或交换开关为基本互连架构的多核设计。这种结构中,每个处理器核访问存储的路径都是一样的,总线(或者交换开关)被不同的处理器核交替使用从而达到访问共享存储的目的。各个处理器核类似于传统的单核处理器。这种结构的明显劣势来自于总线或者交换开关成为系统瓶颈,这个瓶颈体现在系统性能和功耗两个方面:从系统性能上来讲这种体系结构的核心:总线或者交换开关仍旧依赖全局金属互联线,其性能并不能随着半导体技术进步而提高。这种全局性地互连要求所有的通信都先汇聚到同一个地方然后又再传播出去,其效率之低也是可想而知的。从延迟上讲,电信号需要给长达整个芯片边长的金属线充电,其电阻电容很大,充电时间很长,因此信号延迟很大;从吞吐率上来讲,所有的信号传输都要通过这个总线或者交换开关,其带宽是无法适应处理器核数量的增长的。同样的坏消息来自于功耗。无论是连接多个核的总线还是四通八达的交换开关,其功耗都不是可以扩展的。
二、流处理器以及GPU(通用图形处理器)结构。它是通过在处理器内部设置多个ALU来提高数据并行处理速度。不过后来大家发现GPU的能力其实非常有限:首先,只有存在大量规则数据并行的应用程序,GPU才能发挥其巨大优势。程序中的分支跳转以及线程间的数据共享都是GPU的软肋,就算能够被支持,效率也不高。如果谁想在GPU上做Web Server,那基本上是痴人说梦。其次,GPU需要对应用程序进行大量优化,以挖掘其并行性。这个优化过程需要对GPU结构和被优化的程序本身有着深刻地理解。这和在通用处理器编程中打开几个优化选项的难度不可同日而语。
三、网络互连为主的处理器。使用片上网络的办法,使得众多的处理器核通过分布式的通讯方式相互沟通,从而避免了集中的互连设计带来的系统性能瓶颈以及较大的功耗开销。RAW的难点在于对于应用程序需要就行网络和计算的双重优化,否则程序运行的效率较低。这使得编译器中指令调度不光考虑运算单元的成本,还有通讯的成本,搜索空间和复杂度大大提高。FPGA强调的是门阵列。即它提供了一种独特连线结构,连接各个可编程门单元。FPGA虽然能直接支持硬件描述语言,但是它在实现逻辑时要用通用的门结构来搭建用户专用的门结构,门浪费有些严重,功耗利用率较低,由于同时要熟悉软件和硬件,所以开发难度也大。
当代,随着人工智能,工业4.0,机器人,智能硬件,物联网等的快速发展,人们对并行计算提出了更高的要求。而在并行计算中有3个问题非常核心,一是如何组织各个处理器和各个加速器,便于各个处理器访问加速器;二是如何提高访问速度,同时又不占用过多芯片资源。三是如何选择适用于通用领域或特定专用领域计算的处理器和加速器。
总线式互联因其互联占用芯片资源少而在处理器数量较少的系统中被广泛采用。当处理器数量增加时,总线式互联连线变长,延迟不能再接受。
所以亟需一种并行处理器阵列结构来解决上述问题。
实用新型内容
针对上述现有技术不足,本实用新型提供一种以分组矩阵的形式布置各个处理器核和加速器的组织架构,保证支持各种常见的处理器核加速器挂载的一种并行处理器阵列结构。
本实用新型提供的一种并行处理器阵列结构是通过以下技术方案实现的:
一种并行处理器阵列结构,其特征在于,包括芯片和处理器,所述芯片上设置多个处理器,组成一级处理器组,多个一级处理器组组成二级处理器组,多个二级处理器组组成三级处理器组,以此类推,即所述并行处理器阵列包括多级,每级由小到大呈包含关系,每个级包括多个小一级的处理器组,其中,每级处理器组中的每个处理器或处理器组通过译码器或仲裁器连接加速器和总线连接器。
所述处理器组中的一个处理器通过译码器连接加速器和总线连接器,所述总线连接器可连接组间共享的加速器。
所述处理器组通过仲裁器连接加速器和总线连接器。
本实用新型的有益效果是:本实用新型提供的结构做出的改变在于即便是在处理器数量较多时,仍然能够使用较少芯片资源来完成处理器之间的通信。同时能保证对邻近资源的访问延迟低,将少量若干处理器作为1组,组内使用简单的总线互联或者其它连接方式,每组又等同于1个处理器来和其它组互联。这种组织方式允许使用简单的处理器互联技术来连接组内外各个处理器。既解决了处理器间互联的问题,节省了芯片资源,也降低了访问延迟。
附图说明
图1是本实用新型整体结构示意图;
图2是实施例2结构示意图;
图3是实施例3结构示意图。
具体实施方式
下面将通过实施例对本实用新型的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本实用新型的一部分实施例,而不是全部的实施例。基于本实用新型中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本实用新型保护的范围。
实施例1
如图1所示,一种并行处理器阵列结构,包括芯片和处理器,所述1芯片上设置4个处理器,组成一级处理器组,4个一级处理器组组成二级处理器组,4个二级处理器组组成三级处理器组,每级处理器组中的处理器组连接对应级的共享加速器组和总线连接器,……,不断这样叠加下去,可以支持很多个处理器,而且对处理器的种类也没有限制,同时也保证了处理器能够访问(一级组)组内的资源和组间共享的资源,这个组间共享的资源,不仅仅包括处理器所在的二级组,三级组,……,也包括SOC芯片最外围的共享的一些外设或接口。
实施例2
如图2所示,所述处理器组中的一个处理器通过译码器连接加速器和总线连接器,所述总线连接器可连接组间共享的加速器。
实施例3
如图3所示,图3是组内各个加速器或总线连接器与组内4个处理器之间的连接关系,所述处理器组通过仲裁器连接加速器和总线连接器。
以上所述实施例仅表示本实用新型的实施方式,其描述较为具体和详细,但并不能理解为对本实用新型范围的限制。应当指出的是,对于本领域的技术人员来说,在不脱离本实用新型构思的前提下,还可以做出若干变形和改进,这些都属于本实用新型保护范围。
Claims (3)
1.一种并行处理器阵列结构,其特征在于,包括芯片和处理器,所述芯片上设置多个处理器,组成一级处理器组,多个一级处理器组组成二级处理器组,多个二级处理器组组成三级处理器组,以此类推,即所述并行处理器阵列包括多级,每级由小到大呈包含关系,每个级包括多个小一级的处理器组,其中,每级处理器组中的每个处理器或处理器组通过译码器或仲裁器连接加速器和总线连接器。
2.根据权利要求1所述的一种并行处理器阵列结构,其特征在于:所述处理器组中的一个处理器通过译码器连接加速器和总线连接器,所述总线连接器可连接组间共享的加速器。
3.根据权利要求1所述的一种并行处理器阵列结构,其特征在于:所述处理器组通过仲裁器连接加速器和总线连接器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201720992237.1U CN207529364U (zh) | 2017-08-09 | 2017-08-09 | 一种并行处理器阵列结构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201720992237.1U CN207529364U (zh) | 2017-08-09 | 2017-08-09 | 一种并行处理器阵列结构 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN207529364U true CN207529364U (zh) | 2018-06-22 |
Family
ID=62574900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201720992237.1U Active CN207529364U (zh) | 2017-08-09 | 2017-08-09 | 一种并行处理器阵列结构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN207529364U (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297802A (zh) * | 2019-06-09 | 2019-10-01 | 苏州长江睿芯电子科技有限公司 | 一种新型处理器之间互联结构 |
-
2017
- 2017-08-09 CN CN201720992237.1U patent/CN207529364U/zh active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297802A (zh) * | 2019-06-09 | 2019-10-01 | 苏州长江睿芯电子科技有限公司 | 一种新型处理器之间互联结构 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101304322B (zh) | 一种网络设备和报文转发方法 | |
CN107341544A (zh) | 一种基于可分割阵列的可重构加速器及其实现方法 | |
CN102497411B (zh) | 面向密集运算的层次化异构多核片上网络架构 | |
CN103049241B (zh) | 一种提高cpu+gpu异构装置计算性能的方法 | |
CN104158182B (zh) | 一种大规模电网潮流修正方程并行求解方法 | |
CN102855153B (zh) | 面向片式多核处理器的流编译优化方法 | |
CN107122244A (zh) | 一种基于多gpu的图数据处理系统及方法 | |
CN112217805B (zh) | 一种配电物联网多模协议适配方法 | |
Luo et al. | Adapt: An event-based adaptive collective communication framework | |
CN105045761B (zh) | 一种数据中心的高速并行处理架构 | |
CN102306139A (zh) | 用于ofdm无线通信系统的异构多核数字信号处理器 | |
WO2023207035A1 (zh) | 一种数据同步方法、装置、设备及存储介质 | |
CN207529364U (zh) | 一种并行处理器阵列结构 | |
CN107463448A (zh) | 一种深度学习权值更新方法和系统 | |
CN107665127A (zh) | 一种数据流架构中基于网络负载特征进行指令调度的方法 | |
CN115345285A (zh) | 基于gpu的时序图神经网络训练方法、系统及电子设备 | |
CN105868000A (zh) | 一种针对网络i/o虚拟化的并行化可扩展数据处理方法 | |
CN104299170B (zh) | 间歇性能源海量数据处理方法 | |
CN103885842B (zh) | 一种带加速节点的片上网络的优化整体的任务映射方法 | |
CN108494705A (zh) | 一种网络报文高速处理系统和方法 | |
CN107179895A (zh) | 一种应用复合指令加快数据流结构中指令执行速度的方法 | |
CN107301034A (zh) | 一种并行处理器阵列结构 | |
CN102023846B (zh) | 基于单片多处理器系统的共享前端流水线结构 | |
Sax et al. | Aeolus: An optimizer for distributed intra-node-parallel streaming systems | |
CN115757204A (zh) | 一种应用于自动驾驶的nuca架构硬件性能优化方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GR01 | Patent grant | ||
GR01 | Patent grant |