CN111598221B

CN111598221B - 一种软硬件协同加速神经网络算法的方法及系统

Info

Publication number: CN111598221B
Application number: CN202010405663.7A
Authority: CN
Inventors: 王子彤; 金长新; 刘强; 姜凯
Original assignee: Shandong Inspur Scientific Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2023-07-25
Anticipated expiration: 2040-05-14
Also published as: CN111598221A

Abstract

本发明公开一种软硬件协同加速神经网络算法的方法及系统，利用神经网络算法的计算需求特性及并行可拆解特性，将神经网络算法任务划分软硬件计算执行，分别将计算任务部分拆解为专用计算任务和通用计算任务，专用计算任务分解为专用子计算任务，并划分专用子计算任务组合，利用软件进行处理加速，采集各专用子计算组合的计算与存储资源及其他参量，并对通用计算任务对照专用子计算任务组合进行划分通用子计算任务组合，利用硬件进行处理加速，同样采集各通用子计算组合的计算与存储资源及其他参量，结合专用子计算组合的计算与存储资源及其他参量，进一步优化专用子运算任务组合和通用子运算任务组合的划分，部署软硬件，完成神经网络推理加速。

Description

一种软硬件协同加速神经网络算法的方法及系统

技术领域

本发明公开一种加速方法及系统，涉及人工智能算法加速领域，具体地说是一种软硬件协同加速神经网络算法的方法及系统。

背景技术

神经网络是一组大致模仿人类大脑构造设计的算法，用于识别模式。神经网络通过机器感知系统解释传感器数据，对原始输入进行标记或聚类。

目前，深度神经网络已被广泛应用于众多领域，在图像处理领域，基于卷积神经网络的模型训练效果明显优于其他传统方法，然而随着神经网络模型复杂度和任务量的不断提高，有限的存储空间和计算能力成为进一步训练大规模任务的瓶颈。目前通常使用神经网络的加速器提高神经网络的计算速度，但在通用动设备上，由于硬件限制，针对不同的神经网络常常需要开发不同的加速器提高计算速度，不仅增加了额外的成本，有时因硬件限制原因，可能无法实现神经网络提速。

发明内容

本发明针对现有技术的问题，提供一种软硬件协同加速神经网络算法的方法及系统，可在现有设备基础上，根据神经网络算法的计算需求特性及并行可拆解特性，将神经网络算法划分拆解，对不同拆解方法进行耗时及资源的比较分析，得到最优拆解方法，实现高效低耗完成软硬件协同加速神经网络，并可应用在软硬件部署等方面。

本发明提出的具体方案是：

一种软硬件协同加速神经网络算法的方法：将神经网络算法任务拆解成通用计算任务和专用计算任务，

将专用计算任务并行分解成专用子运算任务，根据专用子运算任务处理数据的数量及计算复杂度，将专用子运算任务划分成不同的专用子运算任务组合，

分别对专用子运算任务组合进行软件处理加速，收集各专用子运算任务组合执行任务时使用的计算与存储资源及相应的其他参量，

根据专用子运算任务组合，将通用计算任务分解为通用子运算任务，并对应专用子运算任务组合利用硬件对通用子运算任务进行处理加速，收集通用子运算任务执行任务时使用的计算与存储资源及相应的其他参量，结合专用子运算任务组合的计算与存储资源及其他参量，进一步优化专用子运算任务组合及其对应的通用子运算任务的划分，完成神经网络算法的加速。

所述的一种软硬件协同加速神经网络算法的方法中分解专用子运算任务过程：

将专用计算任务根据算法特性，进行计算任务并行分解，分解成可同时进行且数据不互相依赖的专用子计算任务。

所述的一种软硬件协同加速神经网络算法的方法中对专用子运算任务组合利用处理器进行软件处理加速。

所述的一种软硬件协同加速神经网络算法的方法中划分通用子运算任务前，处理器针对专用子运算任务组合执行任务时使用的计算与存储资源及其他参量进行分析比较，调整专用子运算任务组合中专用子运算任务数量及计算复杂度，获得优化的专用子运算任务组合。

所述的一种软硬件协同加速神经网络算法的方法中具体过程为：

分别给专用子运算任务组合分配计算与存储资源，累加各专用子运算任务组合执行任务时使用的计算与存储资源，同时获取相应的其他参量，

分析比较各专用子运算任务组合使用的计算与存储资源及其他参量，结合处理器的相关参数，调整专用子运算任务组合中专用子运算任务的数量及计算复杂度。

一种软硬件协同加速神经网络算法的系统，包括拆解模块、分解划分模块、加速模块及收集模块，

拆解模块将神经网络算法任务拆解成通用计算任务和专用计算任务，

分解划分模块将专用计算任务并行分解成专用子运算任务，根据专用子运算任务处理数据的数量及计算复杂度，将专用子运算任务划分成不同的专用子运算任务组合，

加速模块分别对专用子运算任务组合进行软件处理加速，收集模块收集各专用子运算任务组合执行任务时使用的计算与存储资源及相应的其他参量，

分解划分模块根据专用子运算任务组合，将通用计算任务分解为通用子运算任务，加速模块对应专用子运算任务组合利用硬件对通用子运算任务进行处理加速，收集模块收集通用子运算任务执行任务时使用的计算与存储资源及相应的其他参量，加速模块结合专用子运算任务组合的计算与存储资源及其他参量，进一步优化专用子运算任务组合及其对应的通用子运算任务的划分，完成神经网络算法的加速。

所述的一种软硬件协同加速神经网络算法的系统中加速模块对专用子运算任务组合利用处理器进行软件处理加速。

所述的一种软硬件协同加速神经网络算法的系统中划分通用子运算任务组合前，分解划分模块利用处理器针对专用子运算任务组合执行任务时使用的计算与存储资源及其他参量进行分析比较，调整专用子运算任务组合中专用子运算任务数量及计算复杂度，获得优化的专用子运算任务组合。

一种计算机设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至5中任一项所述一种软硬件协同加速神经网络算法的方法的步骤。

一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至5任一项所述的一种软硬件协同加速神经网络算法的方法。

本发明的有益之处是：

本发明提供一种软硬件协同加速神经网络算法的方法，利用神经网络算法的计算需求特性及并行可拆解特性，将神经网络算法任务划分软硬件计算执行，分别将计算任务部分拆解为专用计算任务和通用计算任务，专用计算任务分解为专用子计算任务，并划分专用子计算任务组合，利用软件进行处理加速，采集各专用子计算组合的计算与存储资源及其他参量，并对通用计算任务对照专用子计算任务组合进行划分通用子计算任务组合，利用硬件进行处理加速，同样采集各通用子计算组合的计算与存储资源及其他参量，结合专用子计算组合的计算与存储资源及其他参量，进一步优化专用子运算任务组合和通用子运算任务组合的划分，得到最优拆解方法，部署软硬件，高效低耗完成神经网络推理加速。

附图说明

图1是本发明方法流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明提供一种软硬件协同加速神经网络算法的方法：将神经网络算法任务拆解成通用计算任务和专用计算任务，

利用本发明方法进行神经网络算法加速，将神经网络算法任务拆解成通用计算任务和专用计算任务，通用计算任务，比如卷积计算、池化计算、激活计算等，专用计算任务，比如非极大值抑制、数据整形、候选框选择排序、算法调度指令收发等，

将专用计算任务分解成专用子运算任务：

将专用计算任务根据算法特性，进行计算任务并行分解，分解成可同时进行且数据不互相依赖的专用子计算任务，各子运算间不存在数据依赖，即某个子运算的输出不会用于其他子运算的输入，

根据专用子运算任务处理数据的数量及计算复杂度，划分不同的子运算组合，比如可划分成少量专用子运算组合，则各专用子运算本身计算复杂度较高；也可划分成大量专用子运算组合，则各专用子运算本身计算复杂度较低；也可划分成适量专用子运算组合，则各专用子运算计算复杂度适中，

对专用子运算任务组合可利用CPU多核多线程能力，结合如neon加速等专用指令进行软件化处理加速，收集各划分组合的子运算使用的计算与存储资源，同时得到功耗及利用率等其他参量；

根据拆分后的神经网络专用计算任务的形式，对通用计算任务进行拆分优化，使得拆分后的通用计算的子运算，分别对应专用子运算组合，即对应专用计算任务的输入，在硬件加速层面对神经网络算法进行并行加速；对通用计算子运算任务的资源功耗消耗进行收集分析，作为参量反馈到专用子运算任务组合及其对应的通用子运算任务的划分，完成整个神经网络算法的拆分加速。

在上述过程中，为进一步优化可以划分通用子运算任务组合前，利用CPU针对专用子运算任务组合执行任务时使用的计算与存储资源及其他参量进行分析比较，即可利用CPU分别给专用子运算任务组合分配计算与存储资源，累加各专用子运算任务组合执行任务时使用的计算与存储资源，得到完成神经网络专用计算任务占用的总计算与存储资源，同时获取得到相应的功耗及利用率等其他参量，使用软件分析比较各个专用子运算任务组合的整体性能、资源占用，功耗高低，资源利用率等参量，结合部署神经网络的CPU的相关参数，对专用子运算任务组合形式进行反馈优化，调整专用子运算任务数量及计算复杂度，使得特定参量达到要求效果，得到专用计算任务的子运算优化拆分结果，再进行通用计算任务的具体拆分。

具体以模式识别标定算法SSD算法为例，将算法前面各层的卷积、池化、激活等计算任务部署在专用硬件加速单元上；对浮点卷积、Softmax、非极大值抑制、候选框取舍、物体打框显示等专用计算任务下放到ARM处理器中完成，

根据算法特性，对所述的专用计算任务进行并行分解，将各专用计算任务分别拆分成可同时进行的子运算任务，各子运算任务间不存在数据依赖，即某个子运算的输出不会用于其他子运算的输入；

根据子运算任务处理数据的数量及计算复杂度，划分成多种子运算任务组合形式，如可划分成少量子运算任务组合，各子运算本身计算复杂度较高；也可划分成大量子运算任务组合，各子运算本身计算复杂度较低；也可划分成适量子运算任务组合，各子运算计算复杂度适中；

可将SSD算法按6层金字塔浮点卷积处理进行划分，分别用6个线程进行各自处理，同时使能多核CPU对算法控制指令进行收发控制，使能新线程完成数据整形及OpenCV处理等功能，

对子运算任务进行CPU级加速优化，分别给各划分组合的子运算任务分配计算与存储资源，将各子运算任务组合使用的计算存储资源累加，得到完成神经网络专用计算任务占用的总计算与存储资源，同时得到功耗及利用率等其他参量；

使用软件分析比较各个划分组合的整体性能、资源占用，功耗高低，资源利用率等参量，结合部署神经网络的CPU的相关参数，对子运算组合形式进行反馈优化，调整子运算任务数量及计算复杂度，使得特定参量达到要求效果，得到专用计算任务的子运算任务拆分结果；

分析SSD算法的当前划分结果的速度、资源、功耗等参量，对6层浮点卷积进一步划分优化，分出候选框及置信度卷积处理，并行流水完成算法后续计算，即根据拆分后的神经网络专用计算任务的形式，对所述通用计算任务进行拆分优化，使得拆分后的通用计算的子运算，分别对应所述专用计算任务的输入，在硬件加速层面对神经网络算法进行进一步并行加速；对通用计算子运算任务的资源功耗消耗进行分析，作为参量反馈到专用计算任务的子运算划分，进一步优化定制神经网络算法的专用子运算任务组合和通用子运算任务的划分，完成整个算法的拆分加速。

本发明还提供一种计算机设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现上述一种软硬件协同加速神经网络算法的方法的步骤，过程如本发明提供一种软硬件协同加速神经网络算法的方法。

同时本发明还提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述的一种软硬件协同加速神经网络算法的方法，过程如本发明提供一种软硬件协同加速神经网络算法的方法。

本发明还提供一种软硬件协同加速神经网络算法的系统，包括拆解模块、分解划分模块、加速模块及收集模块，

利用本发明系统进行神经网络算法加速，拆解模块将神经网络算法任务拆解成通用计算任务和专用计算任务，通用计算任务，比如卷积计算、池化计算、激活计算等，专用计算任务，比如非极大值抑制、数据整形、候选框选择排序、算法调度指令收发等，

分解划分模块将专用计算任务分解成专用子运算任务：

加速模块对专用子运算任务组合可利用CPU多核多线程能力，结合如neon加速等专用指令进行软件化处理加速，收集模块收集各划分组合的子运算使用的计算与存储资源，同时得到功耗及利用率等其他参量；

分解划分模块根据拆分后的神经网络专用计算任务的形式，对通用计算任务进行拆分优化，加速模块使得拆分后的通用计算的子运算，分别对应专用子运算组合，即对应专用计算任务的输入，在硬件加速层面对神经网络算法进行并行加速；收集模块对通用计算子运算任务的资源功耗消耗进行收集分析，作为参量反馈到分解划分模块，分解划分模块对专用子运算任务组合及其对应的通用子运算任务进行重新划分，完成整个神经网络算法的拆分加速。

在上述过程中，为进一步优化分解划分模块可以在划分通用子运算任务组合前，利用CPU针对专用子运算任务组合执行任务时使用的计算与存储资源及其他参量进行分析比较，即可利用CPU分别给专用子运算任务组合分配计算与存储资源，累加各专用子运算任务组合执行任务时使用的计算与存储资源，得到完成神经网络专用计算任务占用的总计算与存储资源，同时获取得到相应的功耗及利用率等其他参量，使用软件分析比较各个专用子运算任务组合的整体性能、资源占用，功耗高低，资源利用率等参量，结合部署神经网络的CPU的相关参数，对专用子运算任务组合形式进行反馈优化，调整专用子运算任务数量及计算复杂度，使得特定参量达到要求效果，得到专用计算任务的子运算优化拆分结果，再进行通用计算任务的具体拆分。

具体以模式识别标定算法SSD算法为例，拆解模块将算法前面各层的卷积、池化、激活等计算任务部署在专用硬件加速单元上；对浮点卷积、Softmax、非极大值抑制、候选框取舍、物体打框显示等专用计算任务下放到ARM处理器中完成，

分解划分模块根据算法特性，对所述的专用计算任务进行并行分解，将各专用计算任务分别拆分成可同时进行的子运算任务，各子运算任务间不存在数据依赖，即某个子运算的输出不会用于其他子运算的输入；

加速模块对子运算任务进行CPU级加速优化，分别给各划分组合的子运算任务分配计算与存储资源，收集模块将各子运算任务组合使用的计算存储资源累加，得到完成神经网络专用计算任务占用的总计算与存储资源，同时得到功耗及利用率等其他参量；

分解划分模块使用软件分析比较各个划分组合的整体性能、资源占用，功耗高低，资源利用率等参量，结合部署神经网络的CPU的相关参数，对子运算组合形式进行反馈优化，调整子运算任务数量及计算复杂度，使得特定参量达到要求效果，得到专用计算任务的子运算任务拆分结果；

分析SSD算法的当前划分结果的速度、资源、功耗等参量，对6层浮点卷积进一步划分优化，分出候选框及置信度卷积处理，并行流水完成算法后续计算，即根据拆分后的神经网络专用计算任务的形式，对所述通用计算任务进行拆分优化，使得拆分后的通用计算的子运算，分别对应所述专用计算任务的输入，加速模块在硬件加速层面对神经网络算法进行进一步并行加速；分解拆分模块对通用计算子运算任务的资源功耗消耗进行分析，作为参量反馈到专用计算任务的子运算划分，进一步优化定制神经网络算法的专用子运算任务组合和通用子运算任务的划分，完成整个算法的拆分加速。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种软硬件协同加速神经网络算法的方法，其特征是将神经网络算法任务拆解成通用计算任务和专用计算任务，

将专用计算任务根据算法特性，进行计算任务并行分解，分解成可同时进行且数据不互相依赖的专用子计算任务，

根据专用子运算任务处理数据的数量及计算复杂度，将专用子运算任务划分成不同的专用子运算任务组合，

根据专用子运算任务组合，将通用计算任务分解为通用子运算任务，并对应专用子运算任务组合利用硬件对通用子运算任务进行处理加速，收集通用子运算任务执行任务时使用的计算与存储资源及相应的其他参量，结合专用子运算任务组合的计算与存储资源及其他参量，

进一步优化专用子运算任务组合及其对应的通用子运算任务的划分，完成神经网络算法的加速,其中划分通用子运算任务前，处理器针对专用子运算任务组合执行任务时使用的计算与存储资源及其他参量进行分析比较，调整专用子运算任务组合中专用子运算任务数量及计算复杂度，获得优化的专用子运算任务组合；分别给专用子运算任务组合分配计算与存储资源，累加各专用子运算任务组合执行任务时使用的计算与存储资源，同时获取相应的其他参量，分析比较各专用子运算任务组合使用的计算与存储资源及其他参量，结合处理器的相关参数，调整专用子运算任务组合中专用子运算任务数量及计算复杂度。

2.根据权利要求1所述的一种软硬件协同加速神经网络算法的方法，其特征是对专用子运算任务组合利用处理器进行软件处理加速。

3.一种软硬件协同加速神经网络算法的系统，其特征是包括拆解模块、分解划分模块、加速模块及收集模块，

拆解模块将专用计算任务根据算法特性，进行计算任务并行分解，分解成可同时进行且数据不互相依赖的专用子计算任务，

分解划分模块根据专用子运算任务组合，将通用计算任务分解为通用子运算任务，加速模块对应专用子运算任务组合利用硬件对通用子运算任务进行处理加速，收集模块收集通用子运算任务执行任务时使用的计算与存储资源及相应的其他参量，加速模块结合专用子运算任务组合的计算与存储资源及其他参量，

分解划分模块进一步优化专用子运算任务组合及其对应的通用子运算任务的划分，完成神经网络算法的加速，其中划分通用子运算任务组合前，分解划分模块利用处理器针对专用子运算任务组合执行任务时使用的计算与存储资源及其他参量进行分析比较，调整专用子运算任务组合中专用子运算任务数量及计算复杂度，获得优化的专用子运算任务组合，分别给专用子运算任务组合分配计算与存储资源，累加各专用子运算任务组合执行任务时使用的计算与存储资源，同时获取相应的其他参量，分析比较各专用子运算任务组合使用的计算与存储资源及其他参量，结合处理器的相关参数，调整专用子运算任务组合中专用子运算任务数量及计算复杂度。

4.根据权利要求3所述的一种软硬件协同加速神经网络算法的系统，其特征是加速模块对专用子运算任务组合利用处理器进行软件处理加速。

5.一种计算机设备，其特征在是包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1或2所述一种软硬件协同加速神经网络算法的方法的步骤。

6.一种计算机可读存储介质，其特征在是所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1或2所述的一种软硬件协同加速神经网络算法的方法。