CN114116167B

CN114116167B - 一种面向高性能计算的区域自治异构众核处理器

Info

Publication number: CN114116167B
Application number: CN202111415607.2A
Authority: CN
Inventors: 卢凯; 郭阳; 刘胜; 王耀华; 王永文; 陈海燕; 刘仲; 鲁建壮; 雷元武; 扈啸; 陈小文; 杨乾明
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2024-03-19
Anticipated expiration: 2041-11-25
Also published as: CN114116167A

Abstract

本发明公开了一种面向高性能计算的区域自治异构众核处理器，包括带有存储器以及互联结构的处理器本体，其特征在于，所述处理器本体包括多个从逻辑和物理上划分为由多个通用CPU核构成的通用域以及一个或多个包含不同类型的多核加速器的加速域，所述通用域用于提供包括操作系统支持、任务调度以及管理在内的通用处理，所述加速域用于执行高密度计算加速任务，所述通用域与各加速域之间仅通过共享片外存储以及片上异构互联进行粗粒度通信以使得通用域与各加速域之间具有高度自治性。本发明能够高效支持高性能计算，具有均衡的核间独立与协同关系，同时兼顾存储与互联灵活性与适应性。

Description

一种面向高性能计算的区域自治异构众核处理器

技术领域

本发明涉及微处理器体系结构设计领域，具体涉及一种面向高性能计算的区域自治异构众核处理器。

背景技术

高性能计算(High Performance Computing,HPC)是推动科学技术发展的基础性领域之一，当前作为超级计算机系统“下一个明珠”的E级高性能计算时代已经来临。E级高性能计算超高的算力需求使得高性能处理器设计面临十分严峻的挑战。为应对该挑战，异构众核架构正以其良好的性能可扩展性被高性能处理器广泛采用。尽管当前异构众核处理器中包含的异构处理器核的种类和功能不尽相同，但是一般认为，异构众核间的组织架构、存储层次以及互联机制对其整体性能的发挥具有更加重要的影响。为满足高性能计算需求，高性能异构众核的设计在组织架构方面既需要通过处理器核间的执行同步、数据共享以及协同支持满足众核的高效任务划分与协同，又需要通过保持多核间一定程度的独立性，实现对众核间程序和数据局部性的深度挖掘；在存储层次以及互联的设计方面，更是需要在有效支撑异构众核组织架构设计的同时，满足不同类型处理器核以及高性能计算任务的特定访存、通信以及可扩展性方面的需求，在灵活性和适应性方面取得突破，才有助于提升异构众核架构总体性能，使之更好的服务于高性能计算。此外，当前异构众核的设计复杂度正随着处理器核数据的增加而不断上升，与此同时，高性能计算在不同的应用以及设计场景中对异构众核处理器的算力往往具有不同的需求，这就需要异构众核设计能够很好的满足规模可扩展需求，实现在设计复杂度可控的前提下，根据不同的应用需求灵活增加或删减单核的数量规模，同时保持众核较高实用效率的目标。综上所述，如何实现一种在众核的独立与协同之间取得均衡的可扩展异构众核组织架构，同时兼顾存储层次以及互联机制的灵活性与适应性设计，已经成为高性能异构众核处理器设计领域的一项亟待解决的关键技术问题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种面向高性能计算的区域自治异构众核处理器，本发明能够高效支持高性能计算，具有均衡的核间独立与协同关系，同时兼顾存储与互联灵活性与适应性。

为了解决上述技术问题，本发明采用的技术方案为：

一种面向高性能计算的区域自治异构众核处理器，包括带有存储器以及互联结构的处理器本体，所述处理器本体包括多个从逻辑和物理上划分为由多个通用CPU核构成的通用域以及一个或多个包含不同类型的多核加速器的加速域，所述通用域用于提供包括操作系统支持、任务调度以及管理在内的通用处理，所述加速域用于执行高密度计算加速任务，所述通用域与各加速域之间仅通过共享片外存储以及片上异构互联进行粗粒度通信以使得通用域与各加速域之间具有高度自治性。

可选地，所述处理器本体的存储器包括片上多级分布式的片上存储空间以及多个片外存储空间，所述片上多级分布式存储以及多个片外存储空间构成由通用域视角和加速域视角组成的多视角存储空间，在通用域视角下通用域的CPU核可访问所有片上存储空间及片外存储空间；在加速域视角下所有片上及片外存储空间均匀划分给各个加速域，每个加速域仅能访问属于该加速域的存储空间，加速域之间的数据共享需要通过通用域采用显示搬移的方式以实现不同加速域存储空间的数据交互；

可选地，所述处理器本体的互联结构包括层次化异构互联结构和基于交叉开关的加速域互联结构，所述层次化异构互联结构包含基于片上网络的通用域互联结构用于实现通用域内多个通用CPU核之间的互联；所述基于交叉开关的加速域互联结构用于实现加速域内多种加速器的高效数据交互，以及域间直连结构，用于实现不同域之间的互联。

可选地，所述通用域中的每一个通用CPU核拥有私有的两级cache，通用CPU核间采用基于二维网格Mesh拓扑的片上网络互联且支持Cache一致性。

可选地，所述加速域中的多核加速器包含控制核和加速核两种加速器核，多个加速核和一个控制核组成一个加速阵列，加速域内可包含多个加速阵列，所述加速阵列内部的各个加速核在控制核的统一控制下以锁步方式执行，所述加速阵列之间采用全交叉开关互联，不同加速阵列之间包含的加速核数量相同或不同。

可选地，所述多视角存储空间中，加速域视角的存储空间包含阵列共享存储、高带宽缓存、以及片外存储，其中阵列共享存储位于加速域内，仅供加速域内所有加速核访问，高带宽缓存以及片外存储空间与加速域一一对应，可供对应加速域内的所有加速核访问；通用域视角的存储空间中，所有高带宽缓存以及片外存储空间均可被通用域内的多核CPU访问。

可选地，所述基于交叉开关的加速域互联结构的域间直连结构中，通用域与加速域之间采用高带宽直连结构进行互联，用于任务调度及执行控制；通用域与加速域之间通过共享高带宽缓存以及片外存储实现数据共享。

可选地，所述通用域与加速域之间采用高带宽直连结构进行互联是指通用域与加速域之间采用一组或多组高带宽直连结构进行互联。

可选地，所述高带宽直连结构是指位宽不低于512位的直连结构。

此外，本发明还提供一种计算机设备，包括相互连接的微处理器和存储器，该微处理器为所述的面向高性能计算的区域自治异构众核处理器。

和现有技术相比，本发明主要具有下述优点：

本发明的区域自治的异构众核组织架构，将整个异构众核结构从逻辑和物理上划分为几个主要部区域，包含一个多核CPU的通用域、一个或多个包含不同类型加速器的加速域，每个区域工作在各自单独的工作模式下，松耦合相互之间的通信，实现各区域的高度自治。区域自治的异构众核处理器在体系架构级能够提供对数据局部性优化机制的高效支持，使得任务部署和调度能够充分利用区域自治特性进行优化，从而将同一个进程的多个并发线程映射到同一个加速域中，有效减少线程之间的全局通信。在芯片实现方面基于区域自治的众核处理器能够进一步使能模块化设计，使不同类型的加速器核、片上存储，高带宽互联结构等异构众核关键组件的逻辑设计和物理设计的集中在区域内部，从而大大降低区域间的顶层设计复杂度，极大加速众核芯片的时序收敛过程。同时，区域自治的组织架构对于设计更大规模的处理器芯片提供了较强的可扩展性技术支撑，可以根据算力需求高效地扩展到数倍的设计规模，有效缓解芯片规模扩展与设计复杂度和实用效率之间的矛盾。

区域自治架构在带来数据局部性开发、模块化设计和扩展性提升的同时，也带来了一个亟待解决的关键挑战：即如何在自治域之间设计合适的存储空间和互联方式以实现域间高效数据共享。为了解决该挑战，本发明提出多视角存储空间设计和层次化异构互联结构。

多视角存储空间主要包含通用域和加速域两个视角。在通用域视角下，包含CPU的通用域可以访问所有片上高带宽缓存及片外存储空间；在加速域视角下，加速域内所有加速核仅能访问属于该加速域的共享阵列存储存储空间，高带宽缓存以及片外存储空间。多视角存储空间具有以下优势：1)能够根据通用域和加速域的不同访存特性，提供定制化的访存调优策略；2)由于通用域和加速域访问同样的物理空间，因此能够有效解决当前包含CPU和GPU的异构众核架构中数据在不同存储空之间的巨大搬移开销，使得通用域与加速域之间能够通过程序显示控制，实现无数据搬移开销的生产消费共享，从而大大降低通用域和加速域之间的数据共享开销。

为了进一步提高加速域之间的数据交互效率，本发明提出层次化异构互联结构，该结构包含基于片上网络的通用域互联结构、基于交叉开关的加速域互联结构以及用于通用域和计算域之间的高带宽直连结构，能够有效支撑区域自治架构的自治特性，从而高效支撑将通信密集类应用映射在同一加速域的应用映射方案，通过交叉开关提升加速域内通信效率，在此基础上，对于少量必要的加速域间交互需求，则通过通用域和计算域之间的高带宽直连结构实现数据在不同计算域之间的高速移动。

此外，在异构众核设计层面，层次化异构互联能够有效支撑区域自治架构，增强以区域为单位的模块化设计，提升异构众核在性能和规模方面的可扩展能力。在应用性能方面，层次化异构互联能够基于不同自治区域的通信互联特征，提供特定的优化支持，同时能够有效使能区域自治的异构众核在域内和域间的片上数据移动和迁移方面的局部化，从而进一步优化全局通信延迟和能效。

附图说明

图1为本发明实施例的区域自治众核框架结构示意图。

图2为本发明实施例的加速域微结构示意图。

图3为本发明实施例的通用域视角存储空间示意图。

图4为本发明实施例的加速域视角存储空间示意图。

图5为本发明实施例的层次化异构互联结构示意图。

具体实施方式

如图1所示，本实施例面向高性能计算的区域自治异构众核处理器包括带有存储器以及互联结构的处理器本体，处理器本体包括多个从逻辑和物理上划分为由多个通用CPU核构成的通用域以及一个或多个包含不同类型的多核加速器的加速域，通用域用于提供包括操作系统支持、任务调度以及管理在内的通用处理，加速域用于执行高密度计算加速任务(提供众核处理器计算算力)，通用域与各加速域之间仅通过共享片外存储以及片上异构互联进行粗粒度通信以使得通用域与各加速域之间具有高度自治性。

本实施例中，处理器本体的存储器包括片上多级分布式的片上存储空间以及多个片外存储空间，片上多级分布式存储以及多个片外存储空间构成由通用域视角和加速域视角组成的多视角存储空间，在通用域视角下通用域的CPU核可访问所有片上存储空间及片外存储空间；在加速域视角下所有片上及片外存储空间均匀划分给各个加速域，每个加速域仅能访问属于该加速域的存储空间，加速域之间的数据共享需要通过通用域采用显示搬移的方式以实现不同加速域存储空间的数据交互；

本实施例中，处理器本体的互联结构包括层次化异构互联结构和基于交叉开关的加速域互联结构，层次化异构互联结构包含基于片上网络的通用域互联结构用于实现通用域内多个通用CPU核之间的互联；基于交叉开关的加速域互联结构用于实现加速域内多种加速器的高效数据交互，以及域间直连结构，用于实现不同域之间的互联。

本实施例中，通用域中的每一个通用CPU核拥有私有的两级cache，通用CPU核间采用基于二维网格Mesh拓扑的片上网络互联且支持Cache一致性。通用域可控制加速域的程序加载和执行启动，加速域启动执行后，所述通用域与各加速域工作在各自单独的工作模式下，松耦合相互之间的通信，实现各区域的高度自治。通用域与每一个加速域共享其高带宽片上缓存和片外存储，实现数据的原地址共享。加速域之间在执行控制和存储空间方面完全独立，加速域之间的数据共享需要通过通用域采用显示搬移的方式，实现不同加速域存储空间的数据交互。

本实施例中，加速域用于执行高密度计算加速任务，提供众核处理器计算算力，加速域包含控制核和加速核两种加速器核、域内私有存储器、高带宽片上缓存以及片外部存储接口。本实施例中，加速域中的多核加速器包含控制核和加速核两种加速器核，多个加速核和一个控制核组成一个加速阵列，加速域内可包含多个加速阵列，加速阵列内部的各个加速核在控制核的统一控制下以锁步方式执行，加速阵列之间采用全交叉开关互联，不同加速阵列之间包含的加速核数量相同或不同。图2为本实施例中加速域内部不同类型加速器的组织架构。多个加速核和一个控制核组成一个加速阵列，加速阵列内部的加速核在控制核的统一控制下以锁步方式执行，节约了加速核的执行控制开销。加速阵列内包含可同时为控制核和多个加速核提供固定访问延迟支持的并行存储体。在一次处理过程中，参与控制核统一控制的加速核数目可以灵活配置，支持不同粒度的锁步执行。加速域内可包含多个加速阵列，每个加速阵列内所包含的加速核数目可以不同。所有加速阵列可通过阵列共享存储实现数据共享，阵列共享存储的数据来自片上高带宽缓存。

本实施例中，多视角存储空间中，加速域视角的存储空间包含阵列共享存储、高带宽缓存、以及片外存储，其中阵列共享存储位于加速域内，仅供加速域内所有加速核访问，高带宽缓存以及片外存储空间与加速域一一对应，可供对应加速域内的所有加速核访问；通用域视角的存储空间中，所有高带宽缓存以及片外存储空间均可被通用域内的多核CPU访问。图3为本实施例中通用域存储视角。通用域存储视角包含域内多核CPU的私有一级或多级cache，与加速域一一对应的一个或多个高带宽片上缓存以及片外存储空间。通用域内所有CPU均可以访问上述除私有cache外，包括高带宽片上缓存以及外存的所有空间，其中高带宽数据缓存主要用来缓存外存空间数据，通过数据局部性实现数据的高效访问。图4为本实施例中加速域存储视角。每个加速域的存储视角包含加速阵列内部并行存储，域内共享阵列存储、属于该加速域的高带宽片上缓存以及片外存储空间。与通用域不同，加速域仅能访问属于本加速域的存储空间，无法访问其他加速域的存储空间，不同加速域之间的数据共享需要通过通用域内CPU在不同的高带宽片上缓存或片外存储空之间的显示数据搬移完成。

本实施例中，基于交叉开关的加速域互联结构的域间直连结构中，通用域与加速域之间采用高带宽直连结构进行互联，用于任务调度及执行控制；通用域与加速域之间通过共享高带宽缓存以及片外存储实现数据共享。本实施例中，通用域与加速域之间采用高带宽直连结构进行互联是指通用域与加速域之间采用一组或多组高带宽直连结构进行互联。其中，高带宽直连结构是指位宽不低于512位的直连结构。如图5所示，层次化异构互联结构包含基于二维网格(Mesh)拓扑，支持cache一致性的片上网络互联的通用域互联结构，用于通用域内多核CPU间的互联；基于全交叉开关的加速域互联结构，实现加速域内不同加速阵列间的点对点直连，采用优先级处理互联链路竞争，当多个报文数据同时请求占用同一链路时，优先级高的报文数据获得链路占有权，相同优先级的报文采用轮循方式获得互联链路占有权，从而有效保证带宽供给同时和防止饿死，高效实现加速域内各加速阵列的数据交互；域间多组位宽不低于512位的高带宽直连结构，用于实现通用域与加速域之间的高带宽互联。

此外，本实施例还提供一种计算机设备，包括相互连接的微处理器和存储器，该微处理器为前述的面向高性能计算的区域自治异构众核处理器。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向高性能计算的区域自治异构众核处理器，包括带有存储器以及互联结构的处理器本体，其特征在于，所述处理器本体包括多个从逻辑和物理上划分为由多个通用CPU核构成的通用域以及一个或多个包含不同类型的多核加速器的加速域，所述通用域用于提供包括操作系统支持、任务调度以及管理在内的通用处理，所述加速域用于执行高密度计算加速任务，所述通用域与各加速域之间仅通过共享片外存储以及片上异构互联进行粗粒度通信以使得通用域与各加速域之间具有高度自治性，所述处理器本体的存储器包括片上多级分布式的片上存储空间以及多个片外存储空间，所述片上多级分布式存储以及多个片外存储空间构成由通用域视角和加速域视角组成的多视角存储空间，在通用域视角下通用域的CPU核可访问所有片上存储空间及片外存储空间；在加速域视角下所有片上及片外存储空间均匀划分给各个加速域，每个加速域仅能访问属于该加速域的存储空间，加速域之间的数据共享需要通过通用域采用显示搬移的方式以实现不同加速域存储空间的数据交互；所述处理器本体的互联结构包括层次化异构互联结构和基于交叉开关的加速域互联结构，所述层次化异构互联结构包含基于片上网络的通用域互联结构，用于实现通用域内多个通用CPU核之间的互联；所述基于交叉开关的加速域互联结构用于实现加速域内多种加速器的高效数据交互，以及域间直连结构，用于实现不同域之间的互联；所述加速域中的多核加速器包含控制核和加速核两种加速器核，多个加速核和一个控制核组成一个加速阵列，加速域内可包含多个加速阵列，所述加速阵列内部的各个加速核在控制核的统一控制下以锁步方式执行，所述加速阵列之间采用全交叉开关互联，不同加速阵列之间包含的加速核数量相同或不同；所述多视角存储空间中，加速域视角的存储空间包含阵列共享存储、高带宽缓存、以及片外存储，其中阵列共享存储位于加速域内，仅供加速域内所有加速核访问，高带宽缓存以及片外存储空间与加速域一一对应，可供对应加速域内的所有加速核访问；通用域视角的存储空间中，所有高带宽缓存以及片外存储空间均可被通用域内的多核CPU访问。

2.根据权利要求1所述的面向高性能计算的区域自治异构众核处理器，其特征在于，所述通用域中的每一个通用CPU核拥有私有的两级cache，通用CPU核间采用基于二维网格Mesh拓扑的片上网络互联且支持Cache一致性。

3.根据权利要求1所述的面向高性能计算的区域自治异构众核处理器，其特征在于，所述基于交叉开关的加速域互联结构的域间直连结构中，通用域与加速域之间采用高带宽直连结构进行互联，用于任务调度及执行控制；通用域与加速域之间通过共享高带宽缓存以及片外存储实现数据共享。

4.根据权利要求3所述的面向高性能计算的区域自治异构众核处理器，其特征在于，所述通用域与加速域之间采用高带宽直连结构进行互联是指通用域与加速域之间采用一组或多组高带宽直连结构进行互联。

5.根据权利要求4所述的面向高性能计算的区域自治异构众核处理器，其特征在于，所述高带宽直连结构是指位宽不低于512位的直连结构。

6.一种计算机设备，包括相互连接的微处理器和存储器，其特征在于，该微处理器为权利要求1～5中任意一项所述的面向高性能计算的区域自治异构众核处理器。