CN110096475A

CN110096475A - 一种基于混合互连架构的众核处理器

Info

Publication number: CN110096475A
Application number: CN201910344889.8A
Authority: CN
Inventors: 余宁梅; 马文恒; 王萌; 靳鑫; 盛启隆; 孙嘉鸿
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-08-06
Anticipated expiration: 2039-04-26
Also published as: CN110096475B

Abstract

本发明公开了一种基于混合互连架构的众核处理器，包括若干个核心，若干个核心连接构成横纵网络，每个核心通过传输路由与该核心在横纵网络中相邻的其它核心连接进行横向或纵向数据传输，用以高效实现网络通讯，每个核心还分别与该核心在横纵网络中相邻的其它核心直接连接进行数据传输，用以加速数据传输。本发明一种基于混合互连架构的众核处理器，能够实现众核处理器中所有核心的数据缓存全局共享，并能够将不同核心间的数据实现交互用以减少网络冗余。

Description

一种基于混合互连架构的众核处理器

技术领域

本发明属于多核处理器技术领域，具体涉及一种基于混合互连架构的众核处理器。

背景技术

随着集成电路的发展，单个芯片上可集成的处理核心越来越多。与单核相比，多核系统拥有更高的能源效率和计算性能，但不同核心的数据拷贝会导致缓存一致性问题，同时随着核心数量的增长，系统结构由多核变为众核，维护一致性需要的硬件开销和网络流量迅速增长，另外由于大多数应用中核心节点的数据交互是非全局的，而常规片上网络的节点却是全局等概论访问，导致常规众核的片上网络设计存在冗余。

发明内容

本发明的目的在于提供一种基于混合互连架构的众核处理器，能够实现众核处理器中所有核心的数据缓存全局共享，并能够将不同核心间的数据实现交互用以减少网络冗余。

本发明所采用的技术方案是：一种基于混合互连架构的众核处理器，包括若干个核心，若干个核心连接构成横纵网络，每个核心通过传输路由与该核心在横纵网络中相邻的其它核心连接进行横向或纵向数据传输，用以高效实现网络通讯，每个核心还分别与该核心在横纵网络中相邻的其它核心直接连接进行数据传输，用以加速数据传输。

本发明的特点还在于，

至少一个核心的内部逻辑电路包括共享数据缓存器，核心通过共享数据缓存器与该核心相邻的其它核心进行数据缓存实现数据共享。

还包括状态控制模块，每个核心均通过电源门控组件与状态控制模块连接，状态控制模块通过电源门控组件独立控制每个核心用以降低功耗。

电源门控组件包括开关元件，开关元件的输入端与状态控制模块连接，开关元件的输出端与核心的输入端连接，状态控制模块发送关断使能信号通过开关元件控制核心的关断与开通，核心的输出端与该核心连接的传输路由之间连接有隔离单元，核心还在与该核心相邻的其它核心直接连接的线路上连接有隔离单元，状态控制模块与隔离单元连接，状态控制模块发送隔离使能信号通过隔离单元阻断被关闭的上一级核心发送的不定态信息。

横纵网络包括多条由若干核心连接而成的横向支路、纵向支路，每条横向支路均与每条纵向支路交叉，每个核心位于交叉处，每个核心通过传输路由与该核心所在横向支路上相邻的其它核心连接进行横向数据传输，并且每个核心通过传输路由与该核心所在纵向支路上相邻的其它核心连接进行纵向数据传输。

每个核心均连接一个传输路由，每个核心连接的传输路由与该核心相邻的其它核心连接的传输路由连接。

传输路由包括分别沿东、西、南、北四个不同方向进行通讯的子路由，两个互相连接的传输路由的同方向子路由一一对应连接传递应答信号用以进行不同核心之间的数据交互询问，每个核心通过本地发送模块分别与传输路由的四个不同方向的子路由连接用以向与该核心相邻的其它核心连接的传输路由发送信息，每个核心通过本地接收模块分别与传输路由的四个不同方向的子路由连接用以接收与该核心相邻的其他核心连接的传输路由发出的信息。

每个子路由均包括有选择器Ⅰ，选择器Ⅰ的一个输入端通过FIFO存储器与上一级同方向的子路由的输出端连接，另一个输入端通过本地发送模块与核心连接，上一级同方向的子路由发出的请求信息经由FIFO存储器与核心经过本地发送模块发送的本地请求信息共同发送至选择器Ⅰ进行选择，用以输出请求信息至下一级同方向的子路由，上一级同方向的子路由发出的请求信息经由FIFO存储器还通过本地接收模块发送至核心。

每个子路由均包括有选择器Ⅱ，选择器Ⅱ的一个输入端与下一级同方向的子路由的输出端连接，另一个输入端通过本地接收模块与核心连接，下一级同方向的子路由发出的反馈信息与核心经过本地接收模块发送的本地反馈信息共同发送至选择器Ⅱ，以进行选择再通过寄存器发送反馈信息至上一级同方向的子路由，下一级同方向的子路由发出的反馈信息还经由本地发送模块发送至核心。

本发明的有益效果是：

(1)本发明一种基于混合互连架构的众核处理器，设计了一种横纵网络结构代替传统网格结构，使得每个核心只位于一条横路和一条纵路上，数据传输方向只能沿着横向或纵向进行传输，使得网络通讯更高效便捷；

(2)本发明一种基于混合互连架构的众核处理器，每个核心与横纵相邻的核心之间直接连接，使本地核心能够不经过网络直接访问相邻核心的数据缓存，加速了相邻核心的数据交互，提高了系统性能；

(3)本发明一种基于混合互连架构的众核处理器，还加入了基于电源门控技术的低功耗解决方案，通过每个核心通过电源门控组件与状态控制模块连接，状态控制模块通过电源门控组件独立控制每个核心可灵活控制各核心的开通和关断从而降低系统功耗，同时避免了负载过高引起的局域高发热问题；

(4)本发明一种基于混合互连架构的众核处理器，核心内部逻辑电路包括共享数据缓存器，从而不同的核心之间可以通过指令访问其他核心的缓存空间，实现处理器的数据全局共享。

附图说明

图1是本发明一种基于混合互连架构的众核处理器的结构示意图；

图2是本发明一种基于混合互连架构的众核处理器中电源门控技术的电路结构图；

图3是本发明一种基于混合互连架构的众核处理器中传输路由结构示意图；

图4是本发明一种基于混合互连架构的众核处理器中子路由的电路结构图；

图5是本发明一种基于混合互连架构的众核处理器中横纵网络的结构示意图；

图6是本发明一种基于混合互连架构的众核处理器中单核对核外及核内的访存请求的处理示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于混合互连架构的众核处理器结构如图1所示，包括若干个核心，若干个核心连接构成横纵网络，每个核心通过传输路由与该核心在横纵网络中相邻的其它核心连接进行横向或纵向数据传输，用以高效实现网络通讯，每个核心还分别与该核心在横纵网络中相邻的其它核心直接连接进行数据传输，用以加速数据传输。

如图2所示，电源门控组件包括开关元件，开关元件的输入端与状态控制模块连接，开关元件的输出端与核心的输入端连接，状态控制模块发送关断使能信号通过开关元件控制核心的关断与开通，核心的输出端与该核心连接的传输路由之间连接有隔离单元，核心还在与该核心相邻的其它核心直接连接的线路上连接有隔离单元，状态控制模块与隔离单元连接，状态控制模块发送隔离使能信号通过隔离单元阻断被关闭的上一级核心发送的不定态信息。

如图3所示，传输路由包括分别沿东、西、南、北四个不同方向进行通讯的子路由，两个互相连接的传输路由的同方向子路由一一对应连接传递应答信号用以进行不同核心之间的数据交互询问，每个核心通过本地发送模块分别与传输路由的四个不同方向的子路由连接用以向与该核心相邻的其它核心连接的传输路由发送信息，每个核心通过本地接收模块分别与传输路由的四个不同方向的子路由连接用以接收与该核心相邻的其他核心连接的传输路由发出的信息，在此说明，每个核心与该核心在同一行或同一列中不相邻的核心通过传输路由发送信息，数据信息只经过这两个核心之间的核心连接的传输路由。

如图4所示，每个子路由均包括有选择器Ⅰ，选择器Ⅰ的一个输入端通过FIFO存储器与上一级同方向的子路由的输出端连接，另一个输入端通过本地发送模块与核心连接，上一级同方向的子路由发出的请求信息经由FIFO存储器与核心经过本地发送模块发送的本地请求信息共同发送至选择器Ⅰ进行选择，用以输出请求信息至下一级同方向的子路由，上一级同方向的子路由发出的请求信息经由FIFO存储器还通过本地接收模块发送至核心。

本发明一种基于混合互连架构的众核处理器原理说明：

本发明一种基于混合互连架构的众核处理器的总的网络结构是将横纵网络和局部互连结构结合后得到的网络结构，局部互连结构即核心还与相邻的核心直接连接；由于网络通讯每跳存在延时，本发明在横纵网络的通讯路径的基础上增加了一种局部互联结构，可加速交互最频繁的数据流进一步提升通信效率；针对处理器负载过高引发的高发热的问题，本处理器加入了电源门控组件以实现各个核心在运行状态和关断状态之间灵活切换，用户可根据需求合理分配各个核心状态，通过软件控制高性能核心周围分布一些处于关断状态的核心，避免局部高发热的同时降低系统功耗，具体地，通过控制开关元件的开通与关断实现电路模块的供电和断电，核心不同模式的切换需要软件和硬件的协调，系统运行时各个核心的状态控制信号需要软件为其设置具体数值并写入硬件设定的对应寄存器以实现模式控制；所有的路由单元和局部互连结构均是基于握手协议实现信息交互，其优先级均为横纵网络的同一行左侧请求优先于右侧，横纵网络的同一列上方请求优先于下方，同时横向请求优先于纵向请求。这种固定优先级的仲裁电路结构简单、面积小、功耗低，而且在软件编程时，容易进行软件优化，设计者可以将高优先级的线程映射到高优先级的通路上来提高软件执行效率。

传统片上网络设计中路由器连接的所有节点核心是全局互连的，但多数嵌入式应用的数据流比较简单，数据只在局部计算函数中传递，同样多数设计的多线程编程中，某个线程往往只和少量线程交互，在这种情况下，传统片上网络提供的全局互连结构往往有冗余，大量节点的特定方向并没有数据通信，故本发明针对节点非全局访问应用设计了横纵路不交互的横纵网络，鉴于环形网络的路由器传输机制，如图5所示，设计网络同一行的核心使用一个横路互连，同一列的核心使用一个纵路互连，每个核心只与相邻的核心连接，相邻的核心之间通过传输路由进行横向或纵向数据传输，每个核心可以与当前行或当前列的其他核心进行数据通信，横纵两种通路之间不存在直接的数据交互，使得网络内数据流不易拥堵，此种设计采用X-Y路由算法，它不存在死锁而且便于硬件实现。

横纵网络中的传输路由器的结构设计简单，每个传输路由内设置四个子路由，每个子路由只进行两个方向二选一，控制逻辑简单，横纵网络与网格结构外形相似，但网格结构的每个传输路由器要同五个方向通信，即要向与它连接的核心以及该核心连接的四个横向和纵向上的相邻核心通信，以进行5对5的复杂仲裁。虽然横纵网络中的传输路由整体要实现五个方向的通讯，但每个子路由只需要进行两个方向的仲裁和数据交互。在横纵网络中同一行左侧传来的消息只会向本地或右侧传输，在横纵网络中同一列上方传来的数据只会在本地或下方间做出选择，横纵网络中的两个核心之间的数据传递方向为独立的横向或纵向传递，不可进行横向和纵向结合传递。

每个传输路由的子路由主要由一个FIFO、一些选择器和寄存器组成。选择器主要用来选择和控制数据流的方向，FIFO和寄存器则用来暂存请求信息和反馈数据。当本地核心和横纵网络其它核心同时传输数据时，子路由会优先传递来自横纵网络其它核心的数据，并将本地核心无法送出的数据暂存在靠近本地核心的寄存器中，以此来减少网络拥塞。对于节点非全局访问应用，由于数据流比较简单，因此子路由的FIFO深度可以设置的很小，甚至只使用寄存器就可以解决数据暂存问题。本发明为每个传输路由设置了专用的本地请求和应答处理模块。其中，本地接收模块用来处理不同方向的子路由对本地的请求，这个模块会给出仲裁、选择和反馈，本地发送模块则用来分配本地核心对不同方向子路由的请求，由于路由器结构简单，本发明选择使用单包通信。

随着互连方向的增多，硬件设计复杂度并不是单纯的线性叠加，因此即使横纵网络的每个传输路由需要放置四个子路由，与5对5仲裁的路由器相比其复杂度依然会降低很多。对于流式应用，设计者们可以在软件上将交互频繁的进程分配在同一横路或同一纵环路的节点上，既方便数据交互、简化电路，又能降低设计复杂度、提高网络性能。

在多核编程中，高效的数据共享是实现高性能多核加速的重要方面。若系统核心只通过片上网络进行数据交互，由于网络每跳都有延迟，通信效率会受影响。很多应用的线程多数情况下只与少量邻近的线程有交互，据此本发明提出了一种带局部互连的网络结构，即核心还与相邻的核心直接连接，核心还与相邻的核心之间的路径通常为访问最频繁的路径，这样通过对访问最频繁的路径进行优化就会缓解访问延时。本发明的局部互连结构可使相邻核心避开路由直接进行数据交互，为众核结构中交互最频繁的路径加速，通过优化系统的最频繁路径来减少设计总路径，提升整体性能。而且该局部互连结构的硬件资源随着核心数量的增加呈线性增长，不影响结构的扩展性。图5中带双向箭头的实线表示局部互连结构，它在本地核心和横纵邻近核心的4个核心间设置了访存通路，将本地核心的访存部件与四个邻近核心的访存部件直接连接，实现彼此间的数据交互。

因为众核处理器主要基于横纵网络实现，程序需要依照这种横纵向独立的结构进行映射，因此可能会存在部分核心没有分配任务，此时便可以将这部分核心关掉来节省功耗。通过设置电源门控组件，众核处理器可以对每个核心进行单独的电源开通和关断控制。本发明使用电源门控技术实现众核处理器的低功耗设计。电源门控技术通过关断集成电路中当前不使用的核心降低系统功耗。这种低功耗方案需要将系统划分不同的电源域，通过开关元件控制目标核心接入或不接入电源，当系统的某些部件会长时间休眠或闲置时采用这种方法比较有利。如果要控制目标核心，需要为电路设置电源门控开关元件，通过设置开关元件的状态控制目标核心的开通和关断。目标核心被关断后会产生不定态信号，传入系统会影响其运行，因此需要在被关断核心的输出端连接隔离单元对不定态信号进行隔离，隔离单元通常会将关断模块的输出置为固定值。值得注意的是，为了保证不定态信号的有效隔离，目标核心掉电和上电的整个过程都必须保证隔离有效。

本发明众核处理器的核心内部逻辑电路包括共享数据缓存器，可将数据缓存全局共享，从而避免缓存一致性问题，省去维护缓存一致性所需的巨额开销。本发明中众核处理器的每个核心均是六级流水结构，分别包括取指模块、译码模块、执行模块、访存1模块，访存2模块，写回模块，如图6所示，执行模块包括访存处理单元、仲裁单元，访存1模块包括共享数据缓存器、字选择器，访存2模块包括读操作字/半字/字节处理单元、写操作字/半字/字节处理单元；其中，本地核心的执行模块的输出端和输入端都会通过横纵网络的传输路由与同一横路或同一纵路的其他核心连接，并通过局部互连结构与其他相邻的核心连接；执行模块还会将外部核心的访存请求与本地核心内部访存处理单元送出的本地读写请求一起连接到仲裁模块做仲裁选择；执行模块的输出端与访存1模块的输入端相连，访存1模块中共享数据缓存器的输出端会同时连接到字选择单元和访存2模块的写操作字/半字/字节处理单元；字选择模块的输出端还会通过横纵网络的传输路由和局部互连结构连接到外部其他核心，同时也连接到本地访存2模块的读操作字/半字/字节处理单元、写操作字/半字/字节处理单元；访存2模块中的读操作字/半字/字节处理单元的输入端会通过横纵网络的路由器和局部互连结构连接到外部其他核心，同时与访存1模块的输出端连接；写操作字/半字/字节处理单元的输出端同访存1模块的共享数据缓存器的输入端连接，而其输入端只与访存1模块的输出端连接。

由于本发明中将每个核心的数据缓存全局共享，因此核心中的访存读写请求可能来自本地核心，也可能来自外部的局部互连结构或横纵网络的路由器结构。如图6所示，是本地核心处理来自核外及核内访存请求的示意图，图中展示了核心内部的执行、访存1、访存2三个模块中关于读写请求的数据流。其中，带箭头的实线表示核心内部的读写请求，它可能访问本地数据缓存，也可能通过传输路由和局部互连结构访问外部核心的数据缓存，其中R读写表示经过传输路由送往其他核心的读写请求，S读写表示经过局部互连结构送往邻近核心的读写请求，R读回表示其他核心经过横纵网络的传输路由送回本地核心的反馈信息，S读回表示邻近核心经过局部互连结构送回本地核心的反馈信息，这里的反馈信息一般情况下指读操作读出的数据及其有效位，带箭头的虚线表示来自外部其他核心的读写请求，其中R读写表示来自横纵网络中传输路由的读写请求，S读写表示来自局部互连结构的读写请求，R读回表示本地核心对传输路由请求的反馈信息，S读回表示本地核心对局部互连结构请求的反馈信息。

本地核心在访问本地数据缓存时和访问私有缓存的方式一致，但访问其他核心的数据缓存时需要通过局部互连结构或者横纵网络结构发送请求，在获得应答后才能完成相应的读写操作。其中，访问邻近核心时选择局部互连结构，访问同行或同列较远节点处的核心时需要选择横纵网络。其中，核内数据缓存对读写请求响应的优先级从高到低依次为：本地读写请求、来自局部互连结构的读写请求、来自传输路由的读写请求。

本发明中单核的访存1模块主要处理的内容和步骤为:

1)接收来自外部核心核心的数据访存读写请求，然后与执行模块送来的内部访存请求做仲裁选择，并将优先级最高的请求送到访存2模块做数据访问。如果本地核心本身需要对外部核心进行访问，执行模块会根据访存请求目的地址信息选择从局部互连结构或者横纵网络结构送出。此外，如果送出的是读请求，在外部核心完成后还需要反馈读数据；如果是写请求，则只需将数据写入外部核心的缓存即可。

2)根据仲裁后的请求地址从共享数据缓存器中读出128位的长数据；

3)对有效的128位长数据进行字选择，得到32位的目标操作数据；

4)如果此时处理的是来自外部核心的R读或S读请求，需要将这32位的数据经过传输路由或局部互连结构的反馈电路送回原来的核心，如果是本地读写或R写、S写请求，则送到访存2模块进行下一步处理。

访存2模块的主要处理内容和步骤为：

1)访存1模块会向外部核心发出R读或S读请求，这些读请求会反馈32位数据和相关信息回来，这些反馈信息将被访存2模块进行接收，从访存2模块的顶层传入，并与本地读请求一起送至读操作字/半字/字节处理单元做后续处理。因为本地核心本身的读写请求只会访问本地、局部互连或者横纵网络中的其中一个核心，这三者不会同时出现，因此读请求的处理不存在冲突。

2)如果是写操作，不管是本地写、R写或S写，都要送到写操作字/半字/字节处理单元进行处理，因为写操作需要将修改好的数据写回缓存，而缓存位宽是128位，因此进行32位数据的写操作字/半字/字节选择后会将修改后的数据和原本的128位数据进行整合，得到一个新的128位长数据和128位的修改位标记数据，与地址和写使能一起送到共享数据缓存器中完成写操作，因为本地读写、R写、S写已经在访存1模块中做过一次仲裁选择，所以此处的写请求也没有冲突。

Claims

1.一种基于混合互连架构的众核处理器，其特征在于，包括若干个核心，若干个核心连接构成横纵网络，每个核心通过传输路由与该核心在横纵网络中相邻的其它核心连接进行横向或纵向数据传输，用以高效实现网络通讯，每个核心还分别与该核心在横纵网络中相邻的其它核心直接连接进行数据传输，用以加速数据传输。

2.如权利要求1所述的一种基于混合互连架构的众核处理器，其特征在于，至少一个核心的内部逻辑电路包括共享数据缓存器，所述核心通过共享数据缓存器与该核心相邻的其它核心进行数据缓存实现数据共享。

3.如权利要求1所述的一种基于混合互连架构的众核处理器，其特征在于，还包括状态控制模块，每个核心均通过电源门控组件与所述状态控制模块连接，所述状态控制模块通过电源门控组件独立控制每个核心用以降低功耗。

4.如权利要求3所述的一种基于混合互连架构的众核处理器，其特征在于，所述电源门控组件包括开关元件，所述开关元件的输入端与所述状态控制模块连接，所述开关元件的输出端与所述核心的输入端连接，所述状态控制模块发送关断使能信号通过开关元件控制所述核心的关断与开通，所述核心的输出端与该核心连接的传输路由之间连接有隔离单元，所述核心还在与该核心相邻的其它核心直接连接的线路上连接有隔离单元，所述状态控制模块与所述隔离单元连接，所述状态控制模块发送隔离使能信号通过隔离单元阻断被关闭的上一级核心发送的不定态信息。

5.如权利要求1所述的一种基于混合互连架构的众核处理器，其特征在于，所述横纵网络包括多条由若干核心连接而成的横向支路、纵向支路，每条所述横向支路均与每条纵向支路交叉，每个核心位于交叉处，每个核心通过传输路由与该核心所在横向支路上相邻的其它核心连接进行横向数据传输，并且每个核心通过传输路由与该核心所在纵向支路上相邻的其它核心连接进行纵向数据传输。

6.如权利要求5所述的一种基于混合互连架构的众核处理器，其特征在于，每个核心均连接一个传输路由，每个核心连接的传输路由与该核心相邻的其它核心连接的传输路由连接。

7.如权利要求6所述的一种基于混合互连架构的众核处理器，其特征在于，所述传输路由包括分别沿东、西、南、北四个不同方向进行通讯的子路由，两个互相连接的传输路由的同方向子路由一一对应连接传递应答信号用以进行不同核心之间的数据交互询问，每个核心通过本地发送模块分别与传输路由的四个不同方向的子路由连接用以向与该核心相邻的其它核心连接的传输路由发送信息，每个核心通过本地接收模块分别与传输路由的四个不同方向的子路由连接用以接收与该核心相邻的其他核心连接的传输路由发出的信息。

8.如权利要求7所述的一种基于混合互连架构的众核处理器，其特征在于，每个所述子路由均包括有选择器Ⅰ，所述选择器Ⅰ的一个输入端通过FIFO存储器与上一级同方向的子路由的输出端连接，另一个输入端通过本地发送模块与所述核心连接，所述上一级同方向的子路由发出的请求信息经由FIFO存储器与所述核心经过本地发送模块发送的本地请求信息共同发送至选择器Ⅰ进行选择，用以输出请求信息至下一级同方向的子路由，所述上一级同方向的子路由发出的请求信息经由FIFO存储器还通过本地接收模块发送至所述核心。

9.如权利要求7所述的一种基于混合互连架构的众核处理器，其特征在于，每个子路由均包括有选择器Ⅱ，所述选择器Ⅱ的一个输入端与下一级同方向的子路由的输出端连接，另一个输入端通过本地接收模块与所述核心连接，所述下一级同方向的子路由发出的反馈信息与所述核心经过本地接收模块发送的本地反馈信息共同发送至选择器Ⅱ，以进行选择再通过寄存器发送反馈信息至上一级同方向的子路由，所述下一级同方向的子路由发出的反馈信息还经由本地发送模块发送至所述核心。