CN110334801A

CN110334801A - 一种卷积神经网络的硬件加速方法、装置、设备及系统

Info

Publication number: CN110334801A
Application number: CN201910384808.7A
Authority: CN
Inventors: 杨宏斌; 方兴; 董刚; 刘栩辰
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-10-15

Abstract

本发明公开了一种卷积神经网络的硬件加速方法、装置、设备、系统及硬件加速卡，该方法包括：处理器根据接收的主机发送的开始计算命令，从存储器获取计算指令；根据计算指令，生成对应的计算指导参数，并将计算指导参数发送到卷积加速器，以控制卷积加速器利用存储器中的卷积核系数和待计算特征图进行卷积神经网络计算，并将计算结果存储到存储器；计算完成后，向主机发送计算完成信号；本发明中将硬件加速卡上的处理器作为控制中枢，通过处理器执行主机的指令来灵活适配各种卷积神经网络，进而指导卷积加速器正常有序工作，增强了硬件加速卡上计算任务运行的自主性，减少了主机干预，进一步减小了系统延时，提高了硬件加速的性能。

Description

一种卷积神经网络的硬件加速方法、装置、设备及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种卷积神经网络的硬件加速方法、装置、设备、系统及硬件加速卡。

背景技术

在对卷积神经网络进行硬件加速时，往往在硬件加速卡(如FPGA板卡)上设计专用的卷积加速器来提高卷积计算的效率，实现对卷积层的加速，但是卷积加速器是一种专用的计算单元，在工作时需要与处理器来进行控制、给定每一次计算的参数、监控运行状态等。

现有技术中，往往使用与硬件加速卡连接的服务器中的主机直接控制卷积加速器的计算，而主机的干预会产生较大的系统延时，影响硬件加速性能，不利于用户体验。

因此，如何能够增强硬件加速卡上计算任务运行的自主性，减少主机干预，进一步减小系统延时，提高硬件加速性能，是现今急需解决的问题。

发明内容

本发明的目的是提供一种卷积神经网络的硬件加速方法、装置、设备、系统及硬件加速卡，以增强硬件加速卡上计算任务运行的自主性，减少主机干预，提高硬件加速性能。

为解决上述技术问题，本发明提供一种卷积神经网络的硬件加速方法，包括：

处理器根据接收的主机发送的开始计算命令，从存储器获取计算指令；

根据所述计算指令，生成对应的计算指导参数，并将所述计算指导参数发送到卷积加速器，以控制所述卷积加速器利用所述存储器中的卷积核系数和待计算特征图进行卷积神经网络计算，并将计算结果存储到所述存储器；

计算完成后，向所述主机发送计算完成信号；其中，所述处理器、所述卷积加速器和所述存储器均设置在硬件加速卡上。

可选的，所述处理器根据接收的主机发送的开始计算命令，从存储器获取计算指令之前，还包括：

所述主机将所述计算指令和所述卷积核系数存储到所述存储器；

将当前批待计算特征图存储到所述存储器；

生成并向所述处理器发送的所述开始计算命令。

可选的，所述计算完成后，向所述主机发送计算完成信号之后，还包括：

所述主机根据所述计算完成信号，从所述存储器获取所述计算结果；

将下一批待计算特征图存储到所述存储器，并执行所述生成并向所述处理器发送的所述开始计算命令的步骤。

可选的，所述根据所述计算指令，生成对应的计算指导参数，并将所述计算指导参数发送到卷积加速器之后，还包括：

所述卷积加速器根据所述计算指导参数，利用所述卷积核系数对所述待计算特征图进行卷积神经网络计算；其中，所述计算指导参数包括控制信号和参数信息；

计算完成后，将所述计算结果存储到所述存储器。

可选的，该方法还包括：

所述处理器实时监测所述计算指令的执行状态和所述卷积加速器的运行状态，并生成对应的状态信息发送到所述主机。

本发明还提供了一种卷积神经网络的硬件加速装置，包括：

获取模块，用于根据接收的主机发送的开始计算命令，从存储器获取计算指令；

指令执行模块，用于根据所述计算指令，生成对应的计算指导参数，并将所述计算指导参数发送到卷积加速器，以控制所述卷积加速器利用所述存储器中的卷积核系数和待计算特征图进行卷积神经网络计算，并将计算结果存储到所述存储器；

发送模块，用于计算完成后，向所述主机发送计算完成信号。

本发明还提供了一种卷积神经网络的硬件加速设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述的卷积神经网络的硬件加速方法的步骤。

本发明还提供了一种硬件加速卡，包括：

如上一项所述的卷积神经网络的硬件加速设备；

与所述硬件加速设备连接的存储器和卷积加速器。

此外，本发明还提供了一种卷积神经网络的硬件加速系统，包括：

如上一项所述的硬件加速卡；

与所述硬件加速卡连接的主机。

可选的，所述主机与所述硬件加速卡通过PCIE接口连接。

本发明所提供的一种卷积神经网络的硬件加速方法，包括：处理器根据接收的主机发送的开始计算命令，从存储器获取计算指令；根据计算指令，生成对应的计算指导参数，并将计算指导参数发送到卷积加速器，以控制卷积加速器利用存储器中的卷积核系数和待计算特征图进行卷积神经网络计算，并将计算结果存储到存储器；计算完成后，向主机发送计算完成信号；其中，处理器、卷积加速器和存储器均设置在硬件加速卡上；

可见，本发明中将硬件加速卡上的处理器作为控制中枢，通过处理器执行主机的指令来灵活适配各种卷积神经网络，进而指导卷积加速器正常有序工作，实现了对卷积神经网络的硬件加速，增强了硬件加速卡上计算任务运行的自主性，减少了主机干预，进一步减小了系统延时，提高了硬件加速的性能。此外，本发明还提供了一种卷积神经网络的硬件加速装置、设备、系统及硬件加速卡，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种卷积神经网络的硬件加速方法的流程图；

图2为本发明实施例所提供的一种卷积神经网络的硬件加速方法的系统结构示意图；

图3为本发明实施例所提供的一种卷积神经网络的硬件加速装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例所提供的一种卷积神经网络的硬件加速方法的流程图。该方法可以包括：

步骤101：处理器根据接收的主机发送的开始计算命令，从存储器获取计算指令。

其中，本步骤中的处理器(处理器核)可以为在板卡(硬件加速卡)上设置的用于与主机交互，指导卷积加速器正常有序地完成卷积神经网络各层计算的设备。对于处理器的具体类型选择，可以由设计人员自行设置，本实施例对此不做任何限制。

具体的，本步骤中的开始计算命令可以为与硬件加速卡连接的服务器上的主机向处理器发送的告知处理器开始计算的命令，即主机进行完计算准备工作后，可以向处理器发送开始计算命令。对于开始计算命令的具体内容和类型，可以由设计人员根据实用场景和用户需求自行设置，如可以包括主机存储在板卡上存储器(如DDR)中的数据(如计算指令、卷积核系数和待计算特征图)的地址。本实施例对此不做任何限制。

对应的，本步骤之前还可以包括主机进行计算准备的步骤，如利用硬件加速卡分批对特征图进行卷积神经网络计算时，主机可以将计算指令、卷积核系数和当前批待计算特征图存储到板卡上的存储器，并向处理器发送开始计算命令。例如硬件加速卡与主机通过PCIE接口连接时，如图2所示，硬件加速卡插到服务器的PCIE插槽且服务器上电后，主机(Host)可以通过PCIE接口把将要计算的卷积神经网络的一组指令(计算指令)传输到板卡上DDR；通过PCIE接口把卷积核系数传输到板卡上DDR；通过PCIE接口把一组Batch为N的输入特征图(当前批待计算特征图)传输到板上DDR；然后再处理器发送开始计算的命令。

可以理解的是，本步骤的目的可以为板卡上的处理器在接收到开始计算命令后，从板卡上的存储器中获取主机存储的计算指令。具体的，对于处理器从存储器获取计算指令的具体方式，可以由设计人员根据实用场景和用户需求自行设置，如图2所示，处理器(Scheduling Controller)可以先从存储器(DDR)缓存计算指令到Cache(Instructioncache)，再从Cache取指。本实施例对此不做任何限制。

对应的，对于处理器获取的计算指令的具体内容，可以由设计人员自行设置，只要处理器可以在执行计算指令时，获取对应的用于指导卷积加速器进行卷积神经网络计算所需的计算指导参数，本实施例对此不做任何限制。

步骤102：根据计算指令，生成对应的计算指导参数，并将计算指导参数发送到卷积加速器，以控制卷积加速器利用存储器中的卷积核系数和待计算特征图进行卷积神经网络计算，并将计算结果存储到存储器。

其中，本步骤中的计算指导参数可以为处理器执行计算指令所得到的用于控制(指导)卷积加速器进行卷积神经网络计算所需的参数。对于计算指导参数的具体内容，可以由设计人员自行设置，可以采用与现有技术中主机直接控制卷积加速器的方法相同或相似方式实现，如图2所示，计算指导参数可以包括控制信号(Ctrl Signal)和参数信息(ParaInfo)。只要处理器可以通过输出的计算指导参数，指导卷积加速器的计算，本实施例对此不做任何限制。

对应的，对于本步骤中处理器根据计算指令，生成对应的计算指导参数的具体方式，可以由设计人员自行设置，如处理器可以通过对计算指令的译码，产生计算指导参数(如控制信号和参数信息)。本实施例对此不做任何限制。

可以理解的是，本步骤的目的可以为板卡上的处理器通过将生成的计算指导参数发送给卷积加速器，指导卷积加速器利用存储器中的卷积核系数和待计算特征图进行卷积神经网络计算，并将计算结果存储到存储器。对应的，本步骤之后还可以包括卷积加速器根据接收的计算指导参数，利用存储器中的卷积核系数，对存储器中的待计算特征图进行卷积神经网络计算，并将计算结果存储到存储器的步骤。

对应的，对于卷积加速器根据接收的计算指导参数，利用存储器中的卷积核系数，对存储器中的待计算特征图进行卷积神经网络计算的具体方式，可以由设计人员自行设置，如可以采用与现有卷积加速器进行卷积神经网络计算的方法相同或相似的方式实现，本实施例对此不做任何限制。

具体的，本步骤中存储卷积核系数和待计算特征图的存储器，以及存储计算指令的存储器，可以为板卡上一个相同的存储器(如DDR)，也可以为板卡上不同的存储器，本实施例对此不做任何限制。

需要说明的是，为了使主机可以了解硬件加速卡中的计算状态，在计算过程中，处理器还可以监测计算指令的执行状态和卷积加速器的运行状态，并生成对应的状态信息发送到主机。如图2所示，处理器可以在计算过程中实时监测计算指令的执行状态和卷积加速器(CNN Accelerator)的运行状态(State Info)，并生成对应的状态信息(AXI_LITE)发送到主机。

步骤103：计算完成后，向主机发送计算完成信号；其中，处理器、卷积加速器和存储器均设置在硬件加速卡上。

可以理解的是，本步骤的目的可以为处理器通过向主机发送计算完成信号，告知主机存储到存储器上的待计算特征图已经计算完成，提示主机可以从存储器上读取对应的计算结果。

具体的，对于本步骤中的计算完成信号的具体内容和类型，可以由设计人员自行设置，如计算完成信号可以为中断信号，即处理器可以产生中断给主机，主机收到该中断后可以将板卡上的存储器中的计算结果读回主机。

对应的，主机利用硬件加速卡分批对特征图进行卷积神经网络计算时，本步骤之后还可以包括：主机根据计算完成信号，从存储器获取计算结果；将下一批待计算特征图存储到存储器，再次生成并向处理器发送的开始计算命令的步骤。也就是说，由于每批待计算特征图的计算方式相同，卷积加速器计算所需的计算指导参数和卷积核系数不需变化，主机仅在当前批待计算特征图计算完成后，将下一批待计算特征图存储到存储器并向处理器发送开始计算命令，直至每批待计算特征图均计算完成后，再向主机发送停止命令。结束系统工作。

本实施例中，本发明实施例中将硬件加速卡上的处理器作为控制中枢，通过处理器执行主机的指令来灵活适配各种卷积神经网络，进而指导卷积加速器正常有序工作，实现了对卷积神经网络的硬件加速，增强了硬件加速卡上计算任务运行的自主性，减少了主机干预，进一步减小了系统延时，提高了硬件加速的性能。

请参考图3，图3为本发明实施例所提供的一种卷积神经网络的硬件加速装置的结构框图。该装置可以包括：

获取模块100，用于根据接收的主机发送的开始计算命令，从存储器获取计算指令；

指令执行模块200，用于根据计算指令，生成对应的计算指导参数，并将计算指导参数发送到卷积加速器，以控制卷积加速器利用存储器中的卷积核系数和待计算特征图进行卷积神经网络计算，并将计算结果存储到存储器；

发送模块300，用于计算完成后，向主机发送计算完成信号。

可选的，该装置还可以包括：

检测模块，用于实时监测计算指令的执行状态和卷积加速器的运行状态，并生成对应的状态信息发送到主机。

本发明实施例还提供了一种卷积神经网络的硬件加速设备，包括：存储器，用于存储计算机程序；处理器，用于执行计算机程序时实现如上述实施例所提供的卷积神经网络的硬件加速方法的步骤。

本发明实施例还提供了一种硬件加速卡，包括：如上一实施例所提供的卷积神经网络的硬件加速设备；与硬件加速设备连接的存储器和卷积加速器。

此外，本发明还提供了一种卷积神经网络的硬件加速系统，包括：如上一实施例所提供的硬件加速卡；与硬件加速卡连接的主机。

可选的，主机与硬件加速卡通过PCIE接口连接。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备、系统及硬件加速卡而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种卷积神经网络的硬件加速方法、装置、设备、系统及硬件加速卡进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种卷积神经网络的硬件加速方法，其特征在于，包括：

2.根据权利要求1所述的卷积神经网络的硬件加速方法，其特征在于，所述处理器根据接收的主机发送的开始计算命令，从存储器获取计算指令之前，还包括：

将当前批待计算特征图存储到所述存储器；

生成并向所述处理器发送的所述开始计算命令。

3.根据权利要求2所述的卷积神经网络的硬件加速方法，其特征在于，所述计算完成后，向所述主机发送计算完成信号之后，还包括：

4.根据权利要求1所述的卷积神经网络的硬件加速方法，其特征在于，所述根据所述计算指令，生成对应的计算指导参数，并将所述计算指导参数发送到卷积加速器之后，还包括：

计算完成后，将所述计算结果存储到所述存储器。

5.根据权利要求1至4任一项所述的卷积神经网络的硬件加速方法，其特征在于，还包括：

6.一种卷积神经网络的硬件加速装置，其特征在于，包括：

7.一种卷积神经网络的硬件加速设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1或5所述的卷积神经网络的硬件加速方法的步骤。

8.一种硬件加速卡，其特征在于，包括：

如权利要求7所述的卷积神经网络的硬件加速设备；

与所述硬件加速设备连接的存储器和卷积加速器。

9.一种卷积神经网络的硬件加速系统，其特征在于，包括：

如权利要求8所述的硬件加速卡；

与所述硬件加速卡连接的主机。

10.根据权利要求9所述的卷积神经网络的硬件加速系统，其特征在于，所述主机与所述硬件加速卡通过PCIE接口连接。