CN116028418A

CN116028418A - 基于gpdsp的可扩展多核处理器、加速卡及计算机

Info

Publication number: CN116028418A
Application number: CN202310100890.2A
Authority: CN
Inventors: 郭阳; 王耀华; 刘胜; 陈海燕; 雷元武; 刘仲; 鲁建壮; 扈啸; 陈胜刚; 李晨; 刘畅; 张洋; 曹壮
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-04-28
Anticipated expiration: 2043-02-13
Also published as: CN116028418B

Abstract

本发明公开了一种基于GPDSP的可扩展多核处理器、加速卡及计算机，本发明的可扩展多核智能处理包括相互连接的片外存储体和GPDSP芯粒，GPDSP芯粒包括多个CPU核、多个DSP核、多层次互联结构和芯粒间高速互联接口，DSP核用于执行面向智能计算的加速任务，多个CPU核、多个DSP核、芯粒间高速互联接口与多层次互联结构相连，芯粒间高速互联接口用于多个GPDSP芯粒之间的相互连接。本发明能够高效支持智能计算，具有优秀的可扩展能力以及可根据需要方便进行算力动态裁剪以实现按需设计、避免算力浪费，大大降低了顶层设计复杂度，具有扩展性好、灵活度高、通信效率高、通信延迟低的优点。

Description

基于GPDSP的可扩展多核处理器、加速卡及计算机

技术领域

本发明涉及微处理器技术领域，具体涉及一种基于GPDSP的可扩展多核处理器、加速卡及计算机。

背景技术

智能计算已经成为推动科学技术发展进步的重要引擎之一，其蓬勃发展的态势对智能处理器的算力需求、通用性和灵活性支持、以及功耗限制等多个方面提出了严苛的要求，使得智能处理器设计面临十分严峻的挑战。同时包含通用CPU和多核DSP的GeneralPurpose DigitalSignal Processor (GPDSP)在提供超高算力的同时，具备较好的通用性支持以及低功耗特点，能够为智能处理器提供较为有力的架构支撑。尽管具备较大的潜力，采用GPDSP进行智能计算支撑时仍然面临以下几个方面的挑战：1）算力可裁剪定制挑战，智能计算领域针对训练、推理等不同场景往往具有不同的算力需求，而单一形态的GPDSP无法有效提供算力的动态裁剪适配能力，芯粒集成技术的发展为算力扩展提供了较为理想的解决思路，但是能够与GPDSP架构高效协同联动的高带宽芯粒集成接口设计仍然是一个亟待解决的开放问题；２）GPDSP芯粒间片上存储的高效共享挑战，GPDSP架构中具有包括共享阵列存储体以及片内共享存储阵列在内的多个片上存储空间，片上存储空间的高效利用对于提升系统效率具有决定性影响，因此在芯粒集成的背景下，在多GPDSP芯粒之间的片上存储共享方面取得突破，才能缓解片外存储瓶颈，有效提升对以数据量大著称的智能计算应用的支持效率和力度；３）GPDSP芯粒内部数据一致性支持挑战，GPDSP内部同时包含CPU和DSP，高效的智能计算任务处理需要GPDSP提供CPU和DSP之间高效的数据一致性支持，改支持既需要保持CPU和DSP之间的独立性，实现数据局部性的深度挖掘，又需要充分考虑智能处理的计算特征，创新数据一致性方案，以降低智能处理系统的硬件开销和总体功耗，从而提升基于GPGPU的智能处理器的总体性能，使之更好的服务于智能计算任务。综上所述，如何在GPDSP架构的基础上，通过芯粒级的可扩展设计、芯粒间的片上存储高效共享机制以及芯粒内高效的数据一致性支持技术，设计一种高效的多核智能处理器，已经成为智能处理器设计领域的一项亟待解决的关键技术问题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于GPDSP的可扩展多核处理器、加速卡及计算机，本发明能够高效支持智能计算，具有优秀的可扩展能力以及可根据需要方便进行算力动态裁剪以实现按需设计、避免算力浪费，大大降低了顶层设计复杂度，具有扩展性好、灵活度高、通信效率高、通信延迟低的优点。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于GPDSP的可扩展多核智能处理器，包括相互连接的片外存储体和GPDSP芯粒，所述GPDSP芯粒包括多个CPU核、多个DSP核、多层次互联结构和芯粒间高速互联接口，其中CPU核用于提供包括操作系统支持、任务调度管理在内的通用处理、DSP核用于执行面向智能计算的加速任务，所述多个CPU核、多个DSP核、芯粒间高速互联接口与多层次互联结构相连，所述芯粒间高速互联接口用于多个GPDSP芯粒之间的相互连接。

可选地，所述GPDSP芯粒的数量为多个，且多个GPDSP芯粒之间通过芯粒间高速互联接口两两相互连接，使得任意两个GPDSP芯粒之间通过芯粒间高速互联接口直接连接。

可选地，所述GPDSP芯粒还包括共享阵列存储体，所述共享阵列存储体与多层次互联结构相连，以用于作为本GPDSP芯粒的数据缓冲，以及本GPDSP芯粒和其它GPDSP芯粒之间的数据共享存储器。

可选地，所述共享阵列存储体包括可配置的程序员不可见的缓冲部分、程序员可见的共享部分以及共享访问控制器，所述程序员不可见的缓冲部分和程序员可见的共享部分被配置为两者共同占用全部空间，或者两者其一占用全部空间、另一空间大小为零，所述共享访问控制器用于允许本GPDSP芯粒外的其它GPDSP芯粒访问程序员可见的共享部分、禁止本GPDSP芯粒外的其它GPDSP芯粒访问程序员不可见的缓冲部分。

可选地，所述共享访问控制器还包括权限配置寄存器，用于存储程序员可见的共享部分允许访问的其它GPDSP芯粒的ID，当本GPDSP芯粒外的其它GPDSP芯粒访问程序员可见的共享部分时，所述共享访问控制器首先根据权限配置寄存器中允许的GPDSP芯粒的ID与当前请求访问的GPDSP芯粒的ID进行匹配，当且仅当两者匹配时才允许当前请求访问的GPDSP芯粒访问程序员可见的共享部分。

可选地，所述GPDSP芯粒中每一个CPU核均连接有对应的私有缓冲。

可选地，所述GPDSP芯粒还包括硬件强Cache一致性控制模块以用于实现各个CPU核的私有缓冲内的新数据在片外存储体中对应的存储空间的更新，实现该CPU核分别与本GPDSP芯粒中的DSP核、其它CPU核，以及其它GPDSP芯粒中的CPU核、DSP核的数据交互。

可选地，所述GPDSP芯粒还包括可显式配置的弱Cache一致性控制模块以用于实现各个DSP核所产生数据在片外存储体中对应的存储空间的更新，实现该DSP核分别与本GPDSP芯粒中的CPU核、其它DSP核，以及其它GPDSP芯粒中的CPU核、DSP核的数据交互。

此外，本发明还提供一种计算加速卡，包括加速卡本体以及安装在加速卡本体上的处理器，该处理器为前述的基于GPDSP的可扩展多核智能处理器。

此外，本发明还提供一种计算机，包括相互连接的处理器和存储器，该处理器为前述的基于GPDSP的可扩展多核智能处理器。

和现有技术相比，本发明主要具有下述优点：

1、本发明基于GPDSP的可扩展多核智能处理器包括相互连接的片外存储体和GPDSP芯粒，所述多个GPDSP芯粒之间通过芯粒间高速互联接口相连并与片外存储体相连形成了一种多核可扩展处理器结构，在设计时可方便实现算力的灵活可裁剪和可配置，本发明能够充分挖掘GPDSP在智能处理领域所蕴含的超高算力支撑和超低功耗开销，通过高速互联接口的芯粒集成进一步增强了以计算场景具体需求为出发点的算力动态裁剪能力，有效避免了当前智能处理器存在的算力浪费情况，在满足多种智能应用场景需求的前提下，消除了针对不同场景的定制化和碎片化设计问题，实现以谱系化设计模式和组合式扩展机制为基础的高效智能处理器研发模式，从而大大降低了芯粒间的顶层设计复杂度，极大加速了智能芯片的时序收敛过程，对于设计更大规模的智能处理器芯片提供了较强的可扩展性技术支撑，有效缓解了智能处理器规模扩展与设计复杂度以及实用效率之间的矛盾。

2、本发明基于GPDSP的可扩展多核智能处理器的GPDSP芯粒包括多个CPU核、多个DSP核、多层次互联结构和芯粒间高速互联接口，其中CPU核用于提供包括操作系统支持、任务调度管理在内的通用处理、DSP核用于执行面向智能计算的加速任务，多个CPU核、多个DSP核、芯粒间高速互联接口与多层次互联结构相连，本发明基于GPDSP的可扩展多核智能处理器提出的高速互联接口直接连接GPDSP架构内部的多层次互联结构，使能了高速互联接口数目的可扩展性，实现了不同芯粒规模的集成，有效提升异构众核在性能和规模方面的可扩展能力，可提升多GPDSP芯粒之间的互联效率。在应用性能方面，高速互联接口能够为不同芯粒的定制优化提供可能，在充分发挥芯粒集成技术带来的互联带宽提升潜力的同时，极大提高了多GPDSP芯粒之间在任务并行和数据协同方面的互联效率，进一步优化了多GPDSP智能处理器中的全局通信延迟和能效。

附图说明

图1为本发明实施例基于GPDSP的可扩展多核智能处理器的架构示意图。

图2为本发明实施例中加速域微的结构类型示例。

图3为本发明实施例中共享阵列存储体的结构划分示意图。

图4为本发明实施例中共享阵列存储体的权限配置示意图。

图5为本发明实施例中CPU核的强Cache一致性原理示意图。

图6为本发明实施例中DSP核的弱Cache一致性原理示意图。

图例说明：1、片外存储体；2、GPDSP芯粒；21、CPU核；22、DSP核；23、多层次互联结构；24、芯粒间高速互联接口；25、共享阵列存储体；26、私有缓冲。

具体实施方式

如图1所示，本实施例基于GPDSP的可扩展多核智能处理器包括相互连接的片外存储体1和GPDSP芯粒2，GPDSP芯粒2包括多个CPU核21、多个DSP核22、多层次互联结构23和芯粒间高速互联接口24，其中CPU核21用于提供包括操作系统支持、任务调度管理在内的通用处理、DSP核22用于执行面向智能计算的加速任务，多个CPU核21、多个DSP核22、芯粒间高速互联接口24与多层次互联结构23相连，芯粒间高速互联接口24用于多个GPDSP芯粒2之间的相互连接。

需要说明的是，本实施例基于GPDSP的可扩展多核智能处理器可以根据需要集成所需的GPDSP芯粒2数量，例如1颗、2颗、4颗等数量GPDSP芯粒2的互联。为了进一步提升多GPDSP芯粒2之间的互联效率，GPDSP芯粒2的数量为多个，且多个GPDSP芯粒2之间通过芯粒间高速互联接口24两两相互连接，使得任意两个GPDSP芯粒2之间通过芯粒间高速互联接口24直接连接。可通过集成一个或3个芯粒间高速互联接口24，可以实现一个GPDSP芯粒2，如图2中的（a）所示的2个GPDSP芯粒2，以及如图2中的（b）所示的4个GPDSP芯粒2间两两直接连接的多芯粒系统。

参见图1，作为一种优选的实施方式，本实施例中的GPDSP芯粒2还包括共享阵列存储体25，共享阵列存储体25与多层次互联结构23相连，以用于作为本GPDSP芯粒2的数据缓冲，以及本GPDSP芯粒2和其它GPDSP芯粒2之间的数据共享存储器。相互连接的GPDSP芯粒2间通过GPDSP内部的层次互联结构23可实现与CPU、DSP之间的控制协同，以及对共享阵列存储体25的数据共享和交互，从而完成全系统之间的交互执行，提升智能处理的系统算力。

如图3所示，本实施例中的共享阵列存储体25包括可配置的程序员不可见的缓冲部分、程序员可见的共享部分以及共享访问控制器，程序员不可见的缓冲部分（Cache）和程序员可见的共享部分被配置为两者共同占用全部空间，或者两者其一占用全部空间、另一空间大小为零，共享访问控制器用于允许本GPDSP芯粒2外的其它GPDSP芯粒2访问程序员可见的共享部分、禁止本GPDSP芯粒2外的其它GPDSP芯粒2访问程序员不可见的缓冲部分。通过上述方式，可使得GPDSP芯粒2间支持模式可配置的存储体共享机制，GPDSP芯粒2内部的共享阵列存储体25可供除本芯粒之外的其他芯粒中的DSP访问，实现芯粒间数据的共享，共享阵列存储体25默认状态下为程序员可见且可显式管理的访问模式，在此基础上支持将部分或全部空间配置为程序员不可见的Cache访问模式，可根据应用特征进行灵活配置，仅在程序员可见模式下的共享阵列存储体可被其他GPDSP芯粒共享。

如图4所示，本实施例中的共享访问控制器还包括权限配置寄存器，用于存储程序员可见的共享部分允许访问的其它GPDSP芯粒2的ID，当本GPDSP芯粒2外的其它GPDSP芯粒2访问程序员可见的共享部分时，共享访问控制器首先根据权限配置寄存器中允许的GPDSP芯粒2的ID与当前请求访问的GPDSP芯粒2的ID进行匹配，当且仅当两者匹配时才允许当前请求访问的GPDSP芯粒2访问程序员可见的共享部分。通过上述方式，可使得GPDSP芯粒2间支持权限可配置的存储体共享机制，共享阵列存储体25的共享空间大小和芯粒范围的可配置，即多GPDSP芯粒2之间可共享部分GPDSP芯粒的部分或全部共享阵列存储体25的空间、以及全部芯粒的部分或全部共享阵列存储体25的空间。参见图4，本实施例泽具体设置第一个GPDSP芯粒2的共享阵列存储体25为芯粒0～3（四个GPDSP芯粒2均可访问）可访问，第二个GPDSP芯粒2的共享阵列存储体25为芯粒0～1（两个GPDSP芯粒2可访问）可访问，第三个GPDSP芯粒2的共享阵列存储体25为芯粒0、2、3（三个GPDSP芯粒2可访问）可访问，第二个GPDSP芯粒2的共享阵列存储体25为芯粒2、3（两个GPDSP芯粒2可访问）可访问。需要说明的是，对共享阵列存储体25在访存模式以及共享空间大小和权限范围两个方面的配置可联合进行，即可支持全部程序员非可见模式的片上存储空间的共享，以及全部或部分程序员可见模式的片上存储空间的共享。

参见图1，本实施例泽GPDSP芯粒2中每一个CPU核21均连接有对应的私有缓冲26，私有缓冲26的大小可根据实际需要来进行设计。

本实施例中，GPDSP芯粒2还包括硬件强Cache一致性控制模块以用于实现各个CPU核21的私有缓冲26内的新数据在片外存储体中对应的存储空间的更新，实现该CPU核21分别与本GPDSP芯粒2中的DSP核22、其它CPU核21，以及其它GPDSP芯粒2中的CPU核21、DSP核22的数据交互。如图5所示，在CPU侧通过硬件强Cache一致性控制模块保证Cache内新数据在片外存储体中的及时更新，从而使得芯粒i内部的DSP和CPU以及其他芯粒i中的CPU或DSP能够在片外存储空间中正确访问到由CPU m产生的最新数据，实现CPU和DSP之间的数据交互。

本实施例中，GPDSP芯粒2还包括可显式配置的弱Cache一致性控制模块以用于实现各个DSP核22所产生数据在片外存储体中对应的存储空间的更新，实现该DSP核22分别与本GPDSP芯粒2中的CPU核21、其它DSP核22，以及其它GPDSP芯粒2中的CPU核21、DSP核22的数据交互。如图6所示，在DSP侧通过程序员显示数据写回支撑的弱Cache一致性实现对DSP所产生数据的程序员可控更新，在芯粒i内部的CPU和DSP以及其他芯粒j的CPU或DSP需要从外存中访问DSP k产生的数据时，保证了DSP k的数据能够正确更新到外存中，支撑了数据依赖关系的正确解析。

通过上述硬件强Cache一致性控制模块以及可显式配置的弱Cache一致性控制模块，实现了GPDSP提供对片外存储体访问的非对称Cache一致性支持。非对称Cache一致性协议能够充分挖掘当前智能处理应用在CPU和DSP加速器中计算任务的不同数据访问特性，在保持CPU移植效率以及灵活处理能力的同时，利用DSP加速的数据处理模式可控、按批次处理等特征，以合理的硬件开销完成CPU和DSP加速器之间不同的数据一致性支持机制，并使能了更细粒度和更高灵活性的DSP加速优化。

综上所述，本实施例基于GPDSP的可扩展多核智能处理器能够充分挖掘GPDSP在智能处理领域所蕴含的超高算力支撑和超低功耗开销，通过高速互联接口的芯粒集成进一步增强了以计算场景具体需求为出发点的算力动态裁剪能力，有效避免了当前智能处理器存在的算力浪费情况，在满足多种智能应用场景需求的前提下，消除了针对不同场景的定制化和碎片化设计问题，实现以谱系化设计模式和组合式扩展机制为基础的高效智能处理器研发模式，从而大大降低了芯粒间的顶层设计复杂度，极大加速了智能芯片的时序收敛过程，对于设计更大规模的智能处理器芯片提供了较强的可扩展性技术支撑，有效缓解了智能处理器规模扩展与设计复杂度以及实用效率之间的矛盾。本实施例基于GPDSP的可扩展多核智能处理器提出的高速互联接口直接连接GPDSP架构内部的多层次互联结构，使能了高速互联接口数目的可扩展性，实现了不同芯粒规模的集成，有效提升异构众核在性能和规模方面的可扩展能力，可提升多GPDSP芯粒之间的互联效率。在应用性能方面，高速互联接口能够为不同芯粒的定制优化提供可能，在充分发挥芯粒集成技术带来的互联带宽提升潜力的同时，极大提高了多GPDSP芯粒之间在任务并行和数据协同方面的互联效率，进一步优化了多GPDSP智能处理器中的全局通信延迟和能效。而且，本实施例基于GPDSP的可扩展多核智能处理器在使能模块化和可裁剪设计的同时，多芯粒内部大量同构的存储空间也面临着利用率不足的关键挑战。为了解决该挑战，本实施例基于GPDSP的可扩展多核智能处理器提出上述存储模式和共享权限可配置的片上存储空间共享机制。多GPDSP芯粒架构可实现全部程序员非可见模式的片上存储空间的共享，以及全部或部分程序员可见模式的片上存储空间的共享，在充分利用宝贵的片上存储资源的同时，能够根据应用特点进行存储访问模式和空间大小的按需配置，从而有效解决当前智能处理器架构中片上存储和片外存储之间频繁交互数据的瓶颈效应和巨大搬移开销，并通过程序员可见与非可见模式的灵活配置，在性能和易用性方面取得合理权衡。此外，为了进一步提高GPDSP内部CPU和DSP之间的协同效率，本实施例基于GPDSP的可扩展多核智能处理器提出了GPDSP内部的非对称Cache一致性支持，在CPU侧通过硬件强Cache一致性保证CPU产生的数据在共享存储空间中的及时更新；在DSP侧通过显示数据写回支撑的弱Cache一致性实现对DSP所产生数据的程序员可控更新。非对称Cache一致性协议能够充分挖掘当前智能处理应用在CPU和DSP加速器中计算任务的不同数据访问特性，在提升现有智能应用框架的移植和部署效率的前提下，以合理的硬件开销完成CPU和DSP加速器之间不同的数据一致性支持机制，并使能了更细粒度和更高灵活性的DSP加速优化。本实施例基于GPDSP的可扩展多核智能处理器能够高效支持智能计算，具有灵活的核间可扩展能力，同时兼顾智能处理的算力需求和功耗限制。

此外，本实施例还提供一种计算加速卡，包括加速卡本体以及安装在加速卡本体上的处理器，该处理器为前述的基于GPDSP的可扩展多核智能处理器。

此外，本实施例还提供一种计算机，包括相互连接的处理器和存储器，该处理器为前述的基于GPDSP的可扩展多核智能处理器。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于GPDSP的可扩展多核智能处理器，其特征在于，包括相互连接的片外存储体（1）和GPDSP芯粒（2），所述GPDSP芯粒（2）包括多个CPU核（21）、多个DSP核（22）、多层次互联结构（23）和芯粒间高速互联接口（24），其中CPU核（21）用于提供包括操作系统支持、任务调度管理在内的通用处理、DSP核（22）用于执行面向智能计算的加速任务，所述多个CPU核（21）、多个DSP核（22）、芯粒间高速互联接口（24）与多层次互联结构（23）相连，所述芯粒间高速互联接口（24）用于多个GPDSP芯粒（2）之间的相互连接。

2.根据权利要求1所述的基于GPDSP的可扩展多核智能处理器，其特征在于，所述GPDSP芯粒（2）的数量为多个，且多个GPDSP芯粒（2）之间通过芯粒间高速互联接口（24）两两相互连接，使得任意两个GPDSP芯粒（2）之间通过芯粒间高速互联接口（24）直接连接。

3.根据权利要求2所述的基于GPDSP的可扩展多核智能处理器，其特征在于，所述GPDSP芯粒（2）还包括共享阵列存储体（25），所述共享阵列存储体（25）与多层次互联结构（23）相连，以用于作为本GPDSP芯粒（2）的数据缓冲，以及本GPDSP芯粒（2）和其它GPDSP芯粒（2）之间的数据共享存储器。

4.根据权利要求3所述的基于GPDSP的可扩展多核智能处理器，其特征在于，所述共享阵列存储体（25）包括可配置的程序员不可见的缓冲部分、程序员可见的共享部分以及共享访问控制器，所述程序员不可见的缓冲部分和程序员可见的共享部分被配置为两者共同占用全部空间，或者两者其一占用全部空间、另一空间大小为零，所述共享访问控制器用于允许本GPDSP芯粒（2）外的其它GPDSP芯粒（2）访问程序员可见的共享部分、禁止本GPDSP芯粒（2）外的其它GPDSP芯粒（2）访问程序员不可见的缓冲部分。

5.根据权利要求1所述的基于GPDSP的可扩展多核智能处理器，其特征在于，所述共享访问控制器还包括权限配置寄存器，用于存储程序员可见的共享部分允许访问的其它GPDSP芯粒（2）的ID，当本GPDSP芯粒（2）外的其它GPDSP芯粒（2）访问程序员可见的共享部分时，所述共享访问控制器首先根据权限配置寄存器中允许的GPDSP芯粒（2）的ID与当前请求访问的GPDSP芯粒（2）的ID进行匹配，当且仅当两者匹配时才允许当前请求访问的GPDSP芯粒（2）访问程序员可见的共享部分。

6.根据权利要求1所述的基于GPDSP的可扩展多核智能处理器，其特征在于，所述GPDSP芯粒（2）中每一个CPU核（21）均连接有对应的私有缓冲（26）。

7.根据权利要求6所述的基于GPDSP的可扩展多核智能处理器，其特征在于，所述GPDSP芯粒（2）还包括硬件强Cache一致性控制模块以用于实现各个CPU核（21）的私有缓冲（26）内的新数据在片外存储体中对应的存储空间的更新，实现该CPU核（21）分别与本GPDSP芯粒（2）中的DSP核（22）、其它CPU核（21），以及其它GPDSP芯粒（2）中的CPU核（21）、DSP核（22）的数据交互。

8.根据权利要求7所述的基于GPDSP的可扩展多核智能处理器，其特征在于，所述GPDSP芯粒（2）还包括可显式配置的弱Cache一致性控制模块以用于实现各个DSP核（22）所产生数据在片外存储体中对应的存储空间的更新，实现该DSP核（22）分别与本GPDSP芯粒（2）中的CPU核（21）、其它DSP核（22），以及其它GPDSP芯粒（2）中的CPU核（21）、DSP核（22）的数据交互。

9.一种计算加速卡，包括加速卡本体以及安装在加速卡本体上的处理器，其特征在于，该处理器为权利要求1～8中任意一项所述的基于GPDSP的可扩展多核智能处理器。

10.一种计算机，包括相互连接的处理器和存储器，其特征在于，该处理器为权利要求1～8中任意一项所述的基于GPDSP的可扩展多核智能处理器。