CN115577762A

CN115577762A - 一种基于risc-v的ai计算异构系统

Info

Publication number: CN115577762A
Application number: CN202211301024.1A
Authority: CN
Inventors: 胡绍刚; 王宇宸; 周莆均; 乔冠超; 刘洋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-06

Abstract

本发明属于集成电路领域，具体涉及一种基于RISC‑V的AI计算异构系统。该系统主要包括：具有多种外设接口，用于发送自定义扩展指令的基于RISC‑V指令集的处理器；用于执行自定义扩展指令的NICE(Nuclei Instruction Co‑unit Extension，核指令协同单元扩展)协处理器模块；用于暂存参数的寄存器表模块；用于外部SRAM控制的SRAM控制器模块；包含仲裁模块和PE(Processing Elements，处理单元)计算单元，用于实现神经网络硬件加速计算的PE阵列计算模块。RISC‑V处理器通过NICE总线传输自定义扩展指令到NICE核协处理器，根据配置参数控制、调度PE阵列完成高效计算，大幅度减少了对存储空间的访问，降低功耗。同时该系统能够改变配置参数重构PE阵列，提升了通用性和灵活性。

Description

一种基于RISC-V的AI计算异构系统

技术领域

本发明属于集成电路领域，具体涉及一种基于RISC-V的AI计算异构系统。

背景技术

AI(Artificial Intelligence，人工智能)的提出是为通过机器模拟人脑思考并解决问题。其在近三十年发展迅速，在诸如语音识别、智能机器人等诸多领域受到了极大的关注，并得到了广泛的应用。AI计算作为AI领域的研究核心，通过从自然界获取的灵感，模仿生物智能，解决复杂问题。

神经网络作为AI计算的重要研究内容，正逐渐向着更加复杂的拓扑连接和更加多元的网络结构发展，不同类型网络在不同应用的性能差异也在不断增大。因此AI计算需求更强的计算能力和更灵活的计算架构，适应更多的应用场景、执行更复杂的计算。而当今时代基于冯诺依曼的通用计算，由于存储墙、功耗墙瓶颈等问题，难以满足高性能AI计算的需求。而且在AI计算中，往往需要频繁地对大量参数进行访问，数据访存的功耗开销远超计算。因此，降低大规模数据访存的功耗也是AI计算一大难题。

为了解决上述问题，人工智能领域迫切需要一个可重构的AI计算系统。一个可重构的AI计算系统，可以兼容不同类型网络，并根据不同网络的特点实现对性能和功耗的权衡。在计算过程中，系统可以通过重构硬件连接来实现更高的硬件资源利用率、提高计算效率。

RISC-V是基于RISC精简指令集的开源指令集架构。由于传统的架构如x86以及ARM架构复杂度相对较高，而且开发、使用成本高昂，因此，研发人员提出了一种精简的开源指令集架构RISC-V。其相比于x86和ARM更为简洁，指令集更加规整简单。基于RISC-V的CPU(Central Processing Unit,中央处理器)内核面积少，功耗较低。其支持模块化设计，具有扩展性，同时也支持扩展指令，用户能够根据需求，定制所需要的指令集。此外，由于RISC-V的开源特性，任何有能力有想法的人都可以参与其开发，设计、使用成本较低。结合RISC-V的异构系统十分灵活，具有可配置性，开发人员几乎可以通过多对指令集的组合或者拓展，设计应用于任何领域的微型处理器的构建。

如今人工智能高速发展，AI计算的算力需求指数型增长，不断挑战算力极限。AI计算硬件平台需要更高效的控制架构。而基于RISC-V的CPU虽然没有特定的控制AI计算的指令，但它具有极强的可拓展性，因此人们可以基于RISC-V的可拓展性，自主设计控制AI计算的特定指令，实现对AI计算的高效控制，提高AI计算效率。

发明内容

传统的AI计算系统架构需要大量的并口，数据传输复杂，而且其无法灵活调度计算单元完成高效计算，导致功耗较高。然而，基于RISC-V的CPU具有拓展性强、功耗低的特点，其能够与其他处理器结合实现异构系统，灵活配置AI计算网络，重构硬件连接。因此，本发明基于RISC-V，根据NICE(Nuclei Instruction Co-unit Extension，核指令协同单元扩展)总线协议设计NICE核协处理器，与PE(Processing Elements，处理单元)阵列结合，提出一种异构的AI计算系统架构，用于解决在AI计算中遇到的网络结构多样、频繁访问存储空间、功耗高等问题。

本发明提出了一种基于RISC-V的AI计算异构系统架构，所述架构包括以下模块：

基于RISC-V指令集的处理器，定义为RISC-V处理器，用于发送自定义扩展指令，并具有多种外设接口；

NICE核协处理器，用于执行自定义扩展指令，包含指令译码模块、指令执行模块、顶层控制模块；

寄存器表，用于暂存RISC-V处理器通过自定义扩展指令传输的各类配置参数；

第一SRAM控制器，用于控制第一外部SRAM；

第二SRAM控制器，用于控制第二外部SRAM；

PE阵列计算模块，用于实现神经网络硬件加速计算，包含仲裁模块和PE计算单元；

其中，所述RISC-V处理器通过NICE总线接口与NICE核协处理器连接，RISC-V处理器接收上位机基于AI计算内容所生成的配置参数，该配置参数是以自定义扩展指令形式下载到RISC-V处理器，RISC-V处理器通过NICE总线接口将参数传递到NICE核协处理器；

所述NICE核协处理器分别与第一SRAM控制器、寄存器表、PE阵列计算模块连接，NICE核协处理器通过指令译码模块处理接收到的自定义扩展指令，将其转化为相应功能的使能信号，所述指令执行模块用于接收使能信号，并执行指令功能，所述顶层控制模块用于控制PE阵列计算模块的参数调度；所述自定义扩展指令包括写SRAM、读SRAM、初始化网络配置、初始化计算配置以及启动网络计算；

所述寄存器表分别与PE阵列计算模块和RISC-V处理器连接，寄存器表接收并缓存PE阵列的配置参数和输入数据，所述配置参数包括PE阵列网络配置参数、权重、仲裁模块配置参数；寄存器表还接收PE阵列计算模块得到的最终计算结果，并通过RISC-V处理器回传到上位机；

所述第一SRAM控制器分别连接第一外部SRAM和NICE核协处理器，第一SRAM控制器控制第一外部SRAM进行配置参数的读写；

所述第二SRAM控制器分别连接第二外部SRAM和PE阵列计算模块，第二SRAM控制器控制第二外部SRAM进行计算参数的读写。

进一步，所述的一种基于RISC-V的AI计算异构系统的数据处理流程包括：

步骤1、确定AI计算内容，在上位机使用脚本文件根据数据集生成对应的配置参数，配置参数包含网络配置参数、权重、仲裁模块配置参数、输入激活参数；

步骤2、在软件层自定义扩展指令，并将其下载到RISC-V，实现代码功能重构；上位机通过串口将配置参数传输到RISC-V处理器，RISC-V处理器以NICE总线为桥梁，将参数传递给NICE核协处理器；

步骤3、NICE核协处理器接收RISC-V处理器发送的写SRAM指令，通过选择器完成指令译码，在指令执行模块执行写SRAM指令，使用第一SRAM控制器，将配置参数写入第一外部SRAM；在AI计算中，需要重复执行写SRAM指令，直到将全部参数写入外接的第一外部SRAM；

步骤4、NICE核协处理器接收来自RISC-V处理器的初始化网络配置指令，配置PE计算单元模块；具体为在NICE核协处理器中顶层控制模块的控制下，通过第一SRAM控制器读取第一外部SRAM中的网络配置参数，并传输到寄存器表，根据网络配置参数使能参与计算的PE单元；

步骤5、NICE核协处理器接收来自RISC-V处理器的初始化计算配置指令，从第一外部SRAM中读取权重、仲裁模块参数，传输到寄存器表，仲裁模块参数配置PE阵列的通信网络架构；

步骤6、NICE核协处理器接收来自RISC-V处理器的启动网络计算指令，从第一外部SRAM中读取输入激活参数，传输到寄存器表，NICE核协处理器中的顶层控制模块向PE阵列计算模块发出取参信号，PE阵列计算模块从寄存器表中取出输入激活参数进行网络计算，并将计算参数写入第二外部SRAM，最后通过寄存器表保存最终结果并传回上位机。

本发明的优点主要包括：

1.本发明具有灵活可重构的AI计算系统架构：在软件层编程并下载实现RISC-V的代码功能重构，灵活配置AI计算架构的寄存器参数，对PE阵列的通信网络进行重构，从而形成更高效的AI计算通信方案。最终减少对存储空间的访问，降低功耗，提高了计算效率。

2.本发明设计了专用于控制AI计算的NICE核协处理器：根据RISC-V提供的NICE总线协议，设计了适配的NICE核协处理器，用于扩展RISC-V指令和控制AI计算，形成了高效的AI计算控制架构。

3.本发明允许系统级拓展：该系统架构允许多系统的拓展，通过配置RISC-V程序实现多系统的互联、协同和扩展。

4.本发明采用软硬件协同方式：通过上位机发送不同指令，执行不同的功能，具有极高的灵活度。同时其可返回部分计算结果至上位机，便于功能测试。

附图说明

图1为传统的AI计算系统框架图；

图2为本发明提出的一种基于RISC-V的AI计算异构系统的系统框架图；

图3为本发明提出的一种基于RISC-V的AI计算异构系统的NICE核模块具体结构图；

图4为本发明提出的一种基于RISC-V的AI计算异构系统的伪指令使用格式和32位R类型NICE核扩展指令格式图；

图5为本发明提出的一种基于RISC-V的AI计算异构系统的NICE核扩展指令接口时序图；

图6为本发明提出的一种基于RISC-V的AI计算异构系统的指令数据流传输示意图；

图7为本发明提出的一种基于RISC-V的AI计算异构系统的RISC-V可拓展外设图；

图8为本发明提出的一种基于RISC-V的AI计算异构系统的系统级拓展示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

图1为传统的AI计算系统框架图。针对AI计算所设计的传统架构，对于PE阵列的每个PE计算单元，在计算时都需要控制其与外部系统如FPGA(Field Programmable GateArray，现场可编程逻辑门阵列)进行交互，PE计算单元通过FPGA获得计算输入数据，计算完成的结果同样需要传回FPGA。这样的数据传输模式使用了大量的并口，资源开销很大。同时其无法独立完成，始终需要通过FPGA不断发送控制信号推动整个计算过程的运行。由于进行AI计算的PE阵列结构不具有可重构性，无法灵活配置，因此它对存储空间无法实现灵活的访问，浪费资源。同时该系统架构缺少能实现多系统间交互协同的模块，因此难以实现系统级的扩展。

而本发明的主要实施方式是使用RISC-V与自主开发的NICE核协处理器结合，使用异构系统控制AI计算，配置参数重构神经网络结构。满足了AI计算对实现多元的网络计算、降低功耗、减少硬件资源浪费的需求。

实施例

本例在Xilinx公司的Zynq XC7Z035 FPGA上实现，以采用脉冲神经网络实现心电信号识别为例，对本发明的实施方法进行详细的描述。

本发明提出的一种基于RISC-V的AI计算异构系统框架图如图2所示。该系统主要由通过NICE总线连接的RISC-V和NICE核、寄存器表、控制两个外部SRAM的SRAM控制器、以及进行AI计算的PE阵列组成。上位机1向RISC-V处理器2下载程序。NICE核3是配合RISC-V处理器2进行指令扩展的协处理器，能够实现对PE阵列4的高效控制。PE阵列由仲裁模块5和多个计算单元PE组成，具有灵活可重构的特点。SRAM控制器6、7控制外部SRAM。SRAM_1外设8负责配置参数存储，SRAM_2外设9负责计算参数存储。寄存器表10负责缓存配置参数和输入数据。

该实施例的起始输入为通过心电传感器采集好的心电信号数据集。由于采集的数据集格式与PE阵列的计算方式不匹配，因此需要将数据在PC通过软件进行预处理，把数据集格式处理为双通道输入数据。心电信号数据集的整个计算流程为：第1通道输入640个数据，在PE阵列中完成640*512*64结构的二层脉冲神经网络计算，得到64个输出数据。第2通道输入16个数据，与第一个脉冲神经网络的输出合并得到80个输入数据，之后在PE阵列中完成80*96*4结构的二层脉冲神经网络进行计算，最终得到4分类心电信号识别输出结果，完成心电信号数据集的推理。

由于对不同的数据集进行AI计算需要不同的计算架构，但大部分的神经网络硬件加速器具有固定的结构，无法灵活重构计算单元。因此，本发明采用了具有NICE总线的RISC-V处理器控制计算单元，自主设计了专用于控制AI计算的NICE核协处理器3。NICE总线连接RISC-V和NICE核协处理器，使系统能够根据扩展指令完成对AI计算单元的灵活重构。设计的NICE核模块总体结构如图3所示，其中指令译码模块11和指令执行模块12完成对本发明在软件层设计的扩展指令的解析和执行，顶层控制模块13负责调度AI计算的相关参数调度。指令译码模块11由MUX选择器构成，接收RISC-V处理器2传输的7位instr包数据，其根据instr包内容选择本发明在NICE核3预设的指定功能，向指令执行模块12传输指定功能的使能信号。NICE协处理器的接口信号主要包含请求req通道和反馈rsp通道。指令执行模块12在请求握手信号req_valid和req_ready以及反馈握手信号rsp_valid和rsp_ready的控制下传输数据，其在指定功能的使能信号的控制下，处理从RISC-V处理器2传输的数据。RISC-V处理器2首先发出req_valid信号，代表发送指令请求，NICE核3的指令执行模块12返回req_ready表示接收指令请求，完成握手后，NICE核3接收源操作数rs1和rs2数据。然后NICE核3的指令执行模块12发出rsp_valid信号，代表发送反馈请求，RISC-V处理器2返回rsp_ready表示接收反馈请求。最后NICE核3在rsp通道信号握手成功时将rdat数据返回RISC-V处理器2，从而完成一次扩展指令控制的从RISC-V处理器2到NICE核3的完整数据传输。

本发明需要使用NICE核协处理器控制AI计算，而AI计算的数据量大，因此本设计采用512KB*16大小的外部SRAM进行参数存储，可根据需求进一步扩大。同时由于本发明可重构可配置的特性，需要具有对顶层控制模块以及PE计算阵列灵活控制的能力。因此将参数存储的SRAM分为网络配置参数部分，计算配置参数部分以及心电信号输入数据部分。根据此实施方案，本发明设计写SRAM，读SRAM，初始化网络配置，初始化计算配置以及启动网络计算共5条扩展指令实现对系统的高效控制。NICE核扩展指令需要在上位机通过软件根据NICE总线协议使用伪指令.insn构建5条扩展指令，并在NICE核设计5条指令的指令译码和指令执行模块。伪指令.insn按照R类型指令编码的使用格式如图4(1)所示，其中.insn用于告知编译器指令形式，而r表示指令类型为R型，其他部分对应于图4(2)的32位NICE指令编码格式各部分。NICE核协处理器指令译码模块是根据RISC-V的R类型NICE指令格式进行指令译码，本发明设计的NICE核扩展指令如图4(2)的32位R类型NICE指令格式所示。32位编码由额外的编码空间、源寄存器1、源寄存器2、目的寄存器、控制三个寄存器的使能比特位以及操作码这六部分组成。额外的编码空间func7共有7位，对应RISC-V发送的instr包的数据，代表预设的功能序号，最多可扩展128条指令。源寄存器1和源寄存器2是RISC-V发送的数据，目的寄存器是返回RISC-V的数据。其中x0代表使用的是x0整数寄存器，是为常数0预留的，表示硬件零。“％0”、“％1”等代表指令的操作数，或称为占位符，在内嵌汇编中，变量按照出现顺序与“％0”、“％1”等占位符对应关联。{xd,xs1,xs2}比特位为三个寄存器的使能信号，用于控制是否需要读寄存器rs1、rs2和写目标寄存器rd。如果xs1位的数值为1，则表示该指令需要读取rs1寄存器中的操作数1，rs2同理，如果xd位的数值为1，则表示该指令需要写回结果到xd指定的目标寄存器。操作码opcode段对应使用的是哪个custom预定义指令组空间，共有4组custom预定义指令组，每个预定义指令组都有其自己的操作码，最多可扩展512条指令。如图4所示，本发明扩展指令使用的都是custom-3指令组，操作码0x7b为该指令组指定编码，可通过更改操作码使用其他custom指令组。写SRAM指令使用了源寄存器1(rs1)和源寄存器2(rs2)，因此func3的{xd,xs1,xs2}的值为{011}。其发送instr包的数据为“1”，选择预设的功能1，执行写SRAM，从源寄存器1(rs1)接收地址，从源寄存器2(rs2)接收数据。通过NICE核控制SRAM控制器向SRAM指定地址写入数据。读SRAM指令使用源寄存器1(rs1)和目的寄存器(rd)，因此func3的{xd,xs1,xs2}的值为{110}。发送instr包的数据为“2”，选择预设的功能2，执行读SRAM，从源寄存器1接收地址，通过NICE核控制SRAM控制器读出SRAM指定地址的数据，从目的寄存器返回读取的结果。而初始化网络配置，初始化计算配置，启动网络计算三条指令功能只使用了源寄存器1(rs1)，因此func3的{xd,xs1,xs2}的值为{010}。发送instr包的数据为“3、4、5”，执行预设的功能3、4、5。上述本发明使用的NICE核扩展指令接口时序图如图5所示，其中读SRAM指令仅供调试使用。

为实现对参数的灵活配置，本发明通过串口从上位机1将参数传输给RISC-V处理器2。RISC-V处理器2发送写SRAM指令，经由NICE核3指令译码解析，指令执行接收数据，在SRAM_1控制器6的控制下，将所有输入参数写入SRAM_1外设8中。然后RISC-V处理器2发送初始化网络配置指令，控制SRAM_1控制器6从SRAM_1外设8中读取网络配置参数，传输到顶层控制13模块，进而配置到寄存器表。接着RISC-V处理器2发送初始化计算配置指令，从SRAM_1外设8中读取权重、仲裁模块配置参数，传输到顶层控制13模块并缓存到寄存器表10。最后RISC-V处理器2发送启动网络计算指令，从SRAM_1外设8中读取输入激活参数，传输到顶层控制13模块并配置到寄存器表10。RISC-V处理器2对进行AI计算的PE阵列4发出取参信号，从寄存器表10读取参数。PE阵列按照心电识别网络参数启动，开始心电信号识别计算，最终得到推理结果。心电信号识别中，两个二层脉冲神经网络根据配置使用4个PE单元。在PE单元内，系统按顺序读取输入激活和权重进行神经元的计算。每一个神经元计算完毕，顶层控制模块13会控制SRAM_2控制器7将当前神经元的计算结果参数写入SRAM_2外设9。在PE单元间，一层神经网络使用1个PE单元计算完毕后，顶层控制模块13会控制下一层神经网络读取上一层神经网络的计算结果作为输入，使用第二个PE单元进行计算。第1个脉冲神经网络计算完毕后，顶层控制模块13会将输出结果与第二通道数据合并作为输入，传输到第2个脉冲神经网络，继续使用两个PE单元完成两层脉冲神经网络计算。在此期间PE单元根据仲裁参数使用仲裁模块5实现数据交互。得到的心电识别计算结果在顶层控制模块13的控制下存入寄存器表10，并通过RISC-V处理器2传输到上位机1。上述关于本发明的数据流向如图6的指令数据流传输示意图所示。其中未提到的读SRAM操作对本发明仅供调试使用。

现阶段芯片的应用场景更加复杂，而大部分芯片在流片之后无法拓展新功能，难以满足需求。而基于RISC-V的处理器可解决这个问题，其作为独立完整的CPU，集成了多种外设功能，其可拓展的外设如图7所示。RISC-V处理器的硬件部分包含I2C、GPIO、PWM、UART等外设，使用外部设备总线模块14对外设进行控制，能灵活选择不同的外设配置，便于实现不同类型的AI计算或添加额外的功能。因此，本发明可在上位机1调用指定函数编写相应的程序，使能指定外设实现多样的功能。除此之外，在加载上位机程序时，可根据需求由上位机1发送选择信号，使用BOOT选择通过FLASH或者RAM进行代码存储。默认使用的RAM模式优点是执行速度快，缺点是掉电程序消失，需要每次上电重复下载。而使用FLASH模式优的点是可以保存编写的程序，可以脱机运行，可满足应用需求。

除此之外，AI计算规模不断增大，未来的系统对可兼容性和大规模数据处理也愈发重视，而使用RISC-V处理器能够完成系统级拓展。因此，本发明提出如图8所示的结合RISC-V的系统级拓展架构。由于本发明采用RISC-V与AI计算结合，因此多个系统可通过RISC-V处理器与片外总线15进行交互，通过片外总线15实现互联、协同和扩展，从而实现系统级拓展。每个系统都需要独立的SRAM执行功能，更多的系统联合能够提升算力，配置大规模的神经网络，进行大规模数据处理，满足不同用户的使用需求。同时多系统能够提升拓展能力，增强整体的灵活性。

Claims

1.一种基于RISC-V的AI计算异构系统，其特征在于，包括：

第一SRAM控制器，用于控制第一外部SRAM；

第二SRAM控制器，用于控制第二外部SRAM；

2.根据权利要求1所述的一种基于RISC-V的AI计算异构系统，其特征在于，所述AI计算异构系统的数据处理流程为：