CN117271145B

CN117271145B - 一种基于混合计算架构的多任务智能处理器

Info

Publication number: CN117271145B
Application number: CN202311561946.0A
Authority: CN
Inventors: 常亮; 赵鑫; 周菁; 郭子龙
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-02-27
Anticipated expiration: 2043-11-22
Also published as: CN117271145A

Abstract

本发明公开了一种基于混合计算架构的多任务智能处理器，属于存内计算技术领域。该处理器包括任务分配和控制电路、计算电路、存储电路、通信和外设电路；当处理器级联为阵列时，还基于任务分解器和任务分配器提出了使多种AI算法同时运行的数据映射方法。本发明处理器通过结合存内计算和传统CMOS计算的混合计算架构，增强了计算架构的通用性，能够同时支持多种AI算法并提高计算效率；此外，还在多任务智能处理器的基础上，进一步提出了使多种AI算法同时运行的数据映射方法，实现多类不同规模算法的高效率部署。

Description

一种基于混合计算架构的多任务智能处理器

技术领域

本发明属于存内计算技术领域，具体涉及一种基于混合计算架构的多任务智能处理器。

背景技术

近年来，基于深度学习的智能AI应用对算力的需求不断攀升，传统的基于冯诺依曼架构的处理器中频繁的数据访存导致系统性能的急剧下降。为解决上述问题，将计算和存储相结合的存内计算技术逐步兴起并得到广泛研究，通过在存储单元中完成计算，可以避免处理器中计算单元和存储单元间频繁的数据搬移，极大地缓解了数据访存带来的存储墙和功耗墙问题。然而，受限于存储介质和技术问题，存内计算单元的存储容量是十分有限的。所以，当前的存内计算虽然避免了部分数据搬移问题，但仍需要频繁的片外数据访存，以完成存内计算单元的数据更新，保证系统的运行。另一方面，受限于存内计算的计算方式，对于部分算法，其加速效果较于传统的神经网络加速器并不理想。

另一方面，实际应用场景下，往往需要多种AI算法的协同来完成指定的任务，即智能处理器需要同时支持多种AI算法。因此，支持多种AI算法的多任务处理器成为一个重要的研究方向。

基于现有存内计算技术的处理器仍存在的存储墙和功耗墙的问题，实现基于混合计算架构的处理器可以进一步缓解上述问题。此外，支持多任务算法可以进一步提高智能处理器的性能和通用性。

发明内容

针对现有技术存在的不足，本发明提供了一种基于混合计算架构的多任务智能处理器。通过结合存内计算（CIM）和传统CMOS计算（NPU）的混合计算架构，增强了计算架构的通用性，能够同时支持多种AI算法并提高计算效率。此外，还在多任务智能处理器的基础上，进一步提出了使多种AI算法同时运行的数据映射方法，实现多类不同规模算法的高效率部署。

本发明采用的技术方案如下：

一种基于混合计算架构的多任务智能处理器，其特征在于，包含任务分配和控制电路、计算电路、存储电路、通信和外设电路。

所述任务分配和控制电路，包括配置存储模块、任务分配模块、全局控制模块，用于实现多种AI算法任务的任务分配和不同计算任务之间的调度。

所述配置存储模块，用于存储多种AI算法任务的配置信息，所述配置信息包括算子种类、所属AI算法、所属计算模块。

所述任务分配模块，用于根据配置存储模块中的配置信息，调取存储电路中的图像数据和权重参数并传送给计算电路；同时，还用于感知计算模块的运行状态，完成不同计算任务之间的调度。

所述计算电路，包括NPU计算核、CIM计算核、共享加法树单元、CPU处理核单元，用于接收所述任务分配模块传送的图像数据和权重参数并完成指定的计算任务。

所述存储电路，采用片上非易失存储器，用于实现数据的存储和更新，包括存储外部输入的图像数据和权重参数、计算过程中产生的中间数据以及计算结果数据。

所述通信和外设电路，包括总线电路和外设电路，实现内部通信及内外数据交互。

优选地，所述总线电路，用于实现任务分配和控制电路、计算电路、存储电路和外设电路之间的通信。

所述外设电路，采用UART接口实现将计算电路的计算结果数据输出；采用IIC接口和SPI接口实现将外部输入的图像数据、权重参数传输至存储电路进行存储。

优选地，所述NPU计算核，由多个NPU单元构成，用于完成基于乘加运算的计算任务。

所述CIM计算核，由多个CIM单元构成，用于通过矩阵乘法的方式完成计算任务。

所述共享加法树单元，用于完成通道间加法和累加计算任务。

所述CPU处理核单元，用于完成特殊逻辑处理任务，所述特殊逻辑处理任务包括激活、池化。

优选地，所述NPU计算核、CIM计算核、共享加法树均配置了动态开关，在计算过程中，令未被分配计算任务的单元处于关闭状态，以节省功耗。

优选地，所述NPU单元为CMOS计算电路；所述CIM单元为存内计算电路；所述共享加法树单元为多级可配置加法树。

优选地，为了尽可能地提高计算过程中硬件利用率，所述多任务智能处理器支持混合数据流，包括WHC数据流、WCH数据流、CHW数据流、权重静止数据流、输入静止数据流，其中W表示宽度方向、H表示高度方向、C表示通道方向。

本发明还提出了一种适用于多个级联多任务智能处理器的数据映射方法，使待处理的多种AI算法任务能够同时运行，实现多类不同规模算法的高效率部署；所述数据映射方法基于任务分解器和任务分配器实现；具体地：

所述任务分解器，包括任务分析模块、算子分析模块、任务分解模块，用于将多种AI算法任务分解成若干个计算任务；避免相同任务的重复计算和资源的消耗，以减少处理时间。

所述任务分析模块，对多种AI算法任务包含的计算任务进行判断分类，提取重复且不包含复杂算子的计算任务信息，得到任务分析结果。

所述算子分析模块，将多种AI算法任务中包含的算子分类为线性算子和非线性算子，提取重复的线性算子信息，以及复杂非线性算子信息，得到算子分析结果。

所述任务分解模块，根据任务分析结果和算子分析结果，将多种AI算法任务分解成若干个计算任务，以实现后续的任务分配。

所述任务分配器，包括数据/功能分析模块、任务状态分析模块，用于将所述任务分解器得到的若干个计算任务分配至各多任务智能处理器中实现多种AI算法的同时运行，还用于感知各多任务智能处理器的运行状态，动态调整任务分配。

所述数据/功能分析模块，用于避免数据重复搬移和计算任务的重复计算；采用多对一数据映射模式将处理数据不同但实现功能相同的计算任务分配至同一处理器；采用一对多数据映射模式，将处理数据相同但实现功能不同的计算任务分配至同一处理器；实现高并行计算和避免冗余数据映射。

所述任务状态分析模块，用于实时感知各多任务智能处理器的运行状态，调整任务分配，提高计算利用率。

本发明提供了一种结合传统CMOS计算电路和存内计算电路的混合计算架构的多任务智能处理器，缓解计算中存在的功耗墙问题，提高计算的效率。其中，NPU单元具有更高的计算灵活性和可重配性；CIM单元具有更高的计算能效和吞吐量。本发明还提供了一种适用于多个级联多任务智能处理器的数据映射方法，利用任务分解器和任务分配器将细粒度计算任务分配至NPU计算核，而将粗粒度计算任务分配至CIM计算核，从而实现计算灵活性和计算高效率并行的兼顾，最大化计算效率。

本发明具有以下有益效果：

（1）低功耗：对于NPU计算核、CIM计算核、共享加法树均配置了动态开关。在计算过程中，对于未被分配计算任务的计算单元会处于关闭状态，以节省功耗。

（2）高硬件利用率：为了尽可能地提高计算过程中硬件利用率，硬件支持混合数据流。包括WHC数据流、WCH数据流、CHW数据流；其中，当特征图较小时，适合采用WHC数据流方向；当特征图较大时，适合采用WCH数据流方向；当特征图较小但通道数较大时，适合采用CHW数据流方向，典型的如全连接层。此外，还支持权重静止数据流和输入静止数据流两种数据流；其中，对于2D标准卷积、深度可分离卷积、逐元素乘/加法操作，适合采用权重静止数据流；对于全连接层，适合采用输入静止数据流。

（3）高计算效率：对于多种AI算法任务，涵盖多种计算各异的算子；在硬件实现中，为了尽可能发挥硬件效率，通过级联多个多任务智能处理器，并提供了数据映射方法，将不同种类的算子分配至不同的多任务智能处理器，实现计算灵活性和计算高效率并行的兼顾，最大化计算效率。

附图说明

图1为实施例中多任务智能处理器的结构框图。

图2为实施例中任务分解器的分解示意图。

图3为实施例中任务分配器的分配示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施例和附图，对本发明技术方案作进一步地详细描述。

如图1所示，本实施例的基于混合计算架构的多任务智能处理器，包含任务分配和控制电路、计算电路、存储电路、通信和外设电路。

其中，所述NPU计算核，由多个NPU单元构成，用于完成基于乘加运算的计算任务，包括2D标准卷积、深度可分离卷积、逐元素乘法、逐元素加法等。

所述共享加法树单元，采用多级可配置加法树完成通道间加法和累加计算任务。

所述CPU处理核单元，用于完成特殊逻辑处理任务，所述特殊逻辑处理任务包括激活、池化，包括ReLU、PReLU、Sigmoid、Max pooling等。

所述NPU单元为CMOS计算电路；所述CIM单元为存内计算电路；所述NPU计算核、CIM计算核、共享加法树均配置了动态开关，在计算过程中，令未被分配计算任务的单元处于关闭状态，以节省功耗。

所述存储电路，采用片上非易失存储器实现数据的存储和更新，包括存储外部输入的图像数据和权重参数、计算过程中产生的中间数据以及计算结果数据。

所述总线电路，用于实现任务分配和控制电路、计算电路、存储电路和外设电路之间的通信。

为了尽可能地提高计算过程中硬件利用率，所述多任务智能处理器支持混合数据流，包括WHC数据流、WCH数据流、CHW数据流、权重静止数据流、输入静止数据流，其中W表示宽度方向、H表示高度方向、C表示通道方向。

当多个多任务智能处理器级联构成阵列使用时，本实施例还提出了一种数据映射方法，使待处理的多种AI算法任务能够同时运行，实现多类不同规模算法的高效率部署；所述数据映射方法基于任务分解器和任务分配器实现；具体地：

所述任务分解器，如图2所示，包括任务分析模块、算子分析模块、任务分解模块，用于将多种AI算法任务分解成若干个计算任务；避免相同任务的重复计算和资源的消耗，以减少处理时间。

所述算子分析模块，将多种AI算法任务中包含的算子分类为线性算子(如MAC、ReLU等)和非线性算子(如Softmax、Sigmoid等)，提取所有重复的线性算子信息，以及复杂非线性算子信息，得到算子分析结果。所述复杂算子、复杂非线性算子的分类为本领域人员共识，也可以由技术人员根据应用需求人为设定。

所述任务分解模块，根据任务分析结果和算子分析结果，将多种AI算法任务分解成若干个计算任务，以实现后续的任务分配。例如，去噪和超分辨率智能算法，它们均可分解为采样任务、预处理任务、特征提取任务和后处理任务，通过任务分解器实现这样的分解就能避免不必要的硬件资源开销。

所述任务分配器，如图3所示，包括数据/功能分析模块、任务状态分析模块，用于将所述任务分解器得到的若干个计算任务分配至各多任务智能处理器中实现多种AI算法的同时运行，还用于感知各多任务智能处理器的运行状态，动态调整任务分配。

所述数据/功能分析模块，用于避免数据重复搬移和计算任务的重复计算；采用多对一数据映射模式将处理数据不同但实现功能相同的计算任务分配至同一处理器；采用一对多数据映射模式，将处理数据相同但实现功能不同的计算任务分配至同一处理器；例如，将参数不同的卷积操作放入至第一多任务智能处理器，将相同数据的不同操作放入至第二多任务智能处理器。由于第一多任务智能处理器中的计算任务相同，可以大幅度提升第一多任务智能处理器的并行能力；由于第二多任务智能处理器中计算的数据相同，只需进行一次存储空间寻址、数据搬移和数据映射；实现高并行计算和避免冗余数据映射。

Claims

1.一种基于混合计算架构的多任务智能处理器，其特征在于，包含任务分配和控制电路、计算电路、存储电路、通信和外设电路；

所述任务分配和控制电路，包括配置存储模块、任务分配模块、全局控制模块，用于实现多种AI算法任务的任务分配和不同计算任务之间的调度；

所述配置存储模块，用于存储多种AI算法任务的配置信息，所述配置信息包括算子种类、所属AI算法、所属计算模块；

所述任务分配模块，用于根据配置存储模块中的配置信息，调取存储电路中的图像数据和权重参数并传送给计算电路；同时，还用于感知计算模块的运行状态，完成不同计算任务之间的调度；

所述计算电路，包括NPU计算核、CIM计算核、共享加法树单元、CPU处理核单元，用于接收所述任务分配模块传送的图像数据和权重参数并完成指定的计算任务；

所述存储电路，采用片上非易失存储器，用于实现数据的存储和更新，包括存储外部输入的图像数据和权重参数、计算过程中产生的中间数据以及计算结果数据；

所述通信和外设电路，包括总线电路和外设电路，实现内部通信及内外数据交互；

当多个多任务智能处理器级联为阵列时，采用数据映射方法使待处理的多种AI算法任务能够同时运行，实现多类不同规模算法的高效率部署；所述数据映射方法基于任务分解器和任务分配器实现；具体地：

所述任务分解器，包括任务分析模块、算子分析模块、任务分解模块，用于将多种AI算法任务分解成若干个计算任务；

所述任务分析模块，对多种AI算法任务包含的计算任务进行判断分类，提取重复且不包含复杂算子的计算任务信息，得到任务分析结果；

所述算子分析模块，将多种AI算法任务中包含的算子分类为线性算子和非线性算子，提取重复的线性算子信息，以及复杂非线性算子信息，得到算子分析结果；

所述任务分解模块，根据任务分析结果和算子分析结果，将多种AI算法任务分解成若干个计算任务，以实现后续的任务分配；

所述任务分配器，包括数据/功能分析模块、任务状态分析模块，用于将所述任务分解器得到的若干个计算任务分配至各多任务智能处理器中实现多种AI算法的同时运行，还用于感知各多任务智能处理器的运行状态，动态调整任务分配；

所述数据/功能分析模块，采用多对一数据映射模式将处理数据不同但实现功能相同的计算任务分配至同一处理器；采用一对多数据映射模式，将处理数据相同但实现功能不同的计算任务分配至同一处理器；实现高并行计算和避免冗余数据映射；

2.如权利要求1所述的一种基于混合计算架构的多任务智能处理器，其特征在于，所述总线电路，用于实现任务分配和控制电路、计算电路、存储电路和外设电路之间的通信；

3.如权利要求1所述的一种基于混合计算架构的多任务智能处理器，其特征在于，所述NPU计算核，由多个NPU单元构成，用于完成基于乘加运算的计算任务；

所述CIM计算核，由多个CIM单元构成，用于通过矩阵乘法的方式完成计算任务；

所述共享加法树单元，用于完成通道间加法和累加计算任务；

4.如权利要求3所述的一种基于混合计算架构的多任务智能处理器，其特征在于，所述NPU计算核、CIM计算核、共享加法树均配置了动态开关，在计算过程中，令未被分配计算任务的单元处于关闭状态。

5.如权利要求4所述的一种基于混合计算架构的多任务智能处理器，其特征在于，所述NPU单元为CMOS计算电路；所述CIM单元为存内计算电路；所述共享加法树单元为多级可配置加法树。

6.如权利要求5所述的一种基于混合计算架构的多任务智能处理器，其特征在于，所述多任务智能处理器支持混合数据流，包括WHC数据流、WCH数据流、CHW数据流、权重静止数据流、输入静止数据流，其中W表示宽度方向、H表示高度方向、C表示通道方向。