CN107016175A

CN107016175A - 适用神经网络处理器的自动化设计方法、装置及优化方法

Info

Publication number: CN107016175A
Application number: CN201710178679.7A
Authority: CN
Inventors: 韩银和; 许浩博; 王颖
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-03-23
Filing date: 2017-03-23
Publication date: 2017-08-04
Anticipated expiration: 2037-03-23
Also published as: CN107016175B; WO2018171715A1

Abstract

本发明提出一种适用神经网络处理器的自动化设计方法、装置及优化方法，该方法包括获取神经网络模型拓扑结构配置文件与硬件资源约束文件，其中硬件资源约束文件包括目标电路面积开销、目标电路功耗开销及目标电路工作频率；根据神经网络模型拓扑结构配置文件与硬件资源约束文件生成神经网络处理器硬件架构，并生成硬件架构描述文件；根据所述神经网络模型拓扑结构、硬件资源约束文件及硬件架构描述文件优化数据调度、存储及计算方式，生成对应的控制描述文件；根据硬件架构描述文件、控制描述文件从已构建的神经网络可复用单元库查找符合设计要求的单元库、生成相对应的控制逻辑并生成对应的硬件电路描述语言，将硬件电路描述语言转化为硬件电路。

Description

适用神经网络处理器的自动化设计方法、装置及优化方法

技术领域

本发明涉及神经网络处理器体系结构技术领域，特别涉及适用神经网络处理器的自动化设计方法、装置及优化方法。

背景技术

随着人工智能领域相关技术的飞速发展，深度学习作为计算机科学与生命科学的跨学科产物，在解决高级抽象认知问题上具有出色的表现，因此成为了学术界和工业界的研究热点。为了提高神经网络的计算性能同时适应更复杂的应用问题，神经网络的规模在不断扩大，计算量、数据量及运算能耗也随之增加。寻找高性能低能耗的神经网络计算方法及设备成为研究人员的关注热点

目前利用深度神经网络进行实时任务分析大多依靠大规模高性能处理器或通用图形处理器，这些设备成本高功耗大，面向便携式智能设备应用时，存在电路规模大、能量消耗高和产品价格昂贵等一系列问题，因此，针对嵌入式设备及小型低成本数据中心等应用领域中高能效实时处理的应用，采用专用神经网络处理器加速而不是软件的方式进行神经网络模型计算成为一种更有效的解决方案，然而神经网络模型的拓扑结构及参数设计会根据不同的应用场景而改变，另外神经网络模型的发展更迭速度很快，提供一种可以面向各种应用场景并覆盖各种神经网络模型的通用高效神经网络处理器非常困难，这为高层应用开发者针对不同应用需求设计硬件加速解决方案带来了极大不变。

目前现有的神经网络硬件加速技术包括专用集成电路(Application SpecificIntegrated Circuit，ASIC)芯片和现场可编程门阵列(Field Programmable Gate Array，FPGA)两种方式，在同等工艺条件下，ASIC芯片运行速度快且功耗低，但设计流程复杂、投片周期长、开发成本高，无法适应神经网络模型快速更新的特点；FPGA具有电路配置灵活、开发周期短的特点，但运行速度相对低，硬件开销及功耗相对较大，无论采用上述哪种硬件加速技术，均需要神经网络模型及算法开发人员在了解网络拓扑和数据流模式的同时掌握硬件开发技术，包括处理器架构设计、硬件代码编写、仿真验证及布局布线等环节，这些技术对专注于研究神经网络模型及结构设计、而不具备硬件设计能力的高层应用开发人员而言开发难度较高，因此，为了使高层开发者高效地进行神经网络技术应用开发，提供一种面向多种神经网络模型的神经网络处理器自动化设计方法及工具是非常迫切的。

为缩短神经网络处理器的设计周期、提高神经网络处理器的工作性能并满足上层应用开发者的神经网络运行需求，本发明提供一款适用神经网络处理器的自动设计工具，该工具可将神经网络模型映射为神经网络专用处理器，并根据该处理器结构优化数据计算及调度方式、生成相对应的控制流指令，实现了神经网络硬件加速器的硬件及软件自动化协同设计。

发明内容

针对现有技术的不足，本发明提出适用神经网络处理器的自动化设计方法、装置及优化方法。

本发明提出一种适用神经网络处理器的自动化设计方法，包括：

步骤1，获取神经网络模型拓扑结构配置文件与硬件资源约束文件，其中所述硬件资源约束文件包括目标电路面积开销、目标电路功耗开销及目标电路工作频率；

步骤2，根据所述神经网络模型拓扑结构配置文件与所述硬件资源约束文件生成神经网络处理器硬件架构，并生成硬件架构描述文件；

步骤3，根据所述神经网络模型拓扑结构、所述硬件资源约束文件及所述硬件架构描述文件优化数据调度、存储及计算方式，生成对应的控制描述文件；

步骤4，根据所述硬件架构描述文件、所述控制描述文件从已构建的神经网络可复用单元库查找符合设计要求的单元库、生成相对应的控制逻辑并生成对应的硬件电路描述语言，将所述硬件电路描述语言转化为硬件电路。

所述神经网络模型拓扑结构配置文件包括神经网络层数及每层网络尺寸大小、数据位宽、权重位宽、当前层功能属性、当前层输入层数、当前层输出层数、当前层卷积核大小、当前层步进大小，下一层连接属性。

在生成神经网络电路模型的同时生成控制指令流，指令类型包括载入/存储指令和运算指令等类型。

所述步骤3包括：根据所述神经网络模型拓扑结构配置文件进行卷积核分块、数据分块，并生成控制状态机；根据所述控制状态机生成控制指令流。

所述硬件架构描述文件包括输入数据存储器容量、输入存储器位宽、权重存储器容量、权重存储器位宽、偏置存储器容量、偏置存储器位宽、输出数据存储器容量、输出数据存储器位宽、数据位宽、计算单元宽度、计算单元深度、数据共享标志位及权重共享标志位。

本发明还提出一种适用神经网络处理器的自动化设计装置，包括：

获取数据模块，用于获取神经网络模型拓扑结构配置文件与硬件资源约束文件，其中所述硬件资源约束文件包括目标电路面积开销、目标电路功耗开销及目标电路工作频率；

生成硬件架构描述文件模块，用于根据所述神经网络模型拓扑结构配置文件与所述硬件资源约束文件生成神经网络处理器硬件架构，并生成硬件架构描述文件；

生成控制描述文件模块，用于根据所述神经网络模型拓扑结构、所述硬件资源约束文件及所述硬件架构描述文件优化数据调度、存储及计算方式，生成对应的控制描述文件；

生成硬件电路模块，用于根据所述硬件架构描述文件、所述控制描述文件从已构建的神经网络可复用单元库查找符合设计要求的单元库并生成对应的硬件电路描述语言，将所述硬件电路描述语言转化为硬件电路。

所述生成控制描述文件模块功能包括：根据所述神经网络模型拓扑结构配置文件进行卷积核分块、数据分块，并生成控制状态机；根据所述控制状态机生成控制指令流。

本发明还提出一种基于如所述的适用神经网络处理器的自动化设计方法的优化方法，包括：

步骤1，对于给定的神经网络层，若卷积核大小k与步进值s一致，采用权重共享模式，卷积核在单层数据图内进行卷积操作；

步骤2，若数据图层数小于计算单元宽度，采用卷积核分割的方法，将卷积核k分割为多个卷积核k_s；若数据图层数大于计算单元宽度，采用数据共享方式；

步骤3，判断下一神经网络层的计算方式，并根据下一神经网络层的卷积操作方式存储当前层的计算结果。

由以上方案可知，本发明的优点在于：

本发明包括一款硬件生成器和一款编译器，所述硬件生成器可根据神经网络类型及硬件资源约束自动生成神经网络处理器的硬件描述语言代码，随后设计人员利用已有硬件电路设计方法通过硬件描述语言生成处理器硬件电路；所述编译器可根据神经网络处理器电路结构生成控制和数据调度指令流。

附图说明

图1是本发明提供的神经网络处理器的自动化设计工作流程图；

图2是本发明可自动生成的神经网络处理器系统示意图；

图3是本发明中编译器工作具体步骤图；

图4是神经网络处理器进行卷积操作的控制状态机流程图；

图5是权重共享模式下卷积核工作示意图；

图6是本发明提出的卷积核分割方法示意图；

图7是载入/存储指令的指令格式图；

图8是运算指令的指令格式图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明，应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明旨在提供一种适用神经网络处理器的自动化设计方法、装置及优化方法，该装置包括一款硬件生成器和一款编译器，所述硬件生成器可根据神经网络类型及硬件资源约束自动生成神经网络处理器的硬件描述语言代码，随后设计人员利用已有硬件电路设计方法通过硬件描述语言生成处理器硬件电路；所述编译器可根据神经网络处理器电路结构生成控制和数据调度指令流。

如图1所示为本发明提供的适用于神经网络处理器自动化设计装置的工作步骤：

步骤1，读入神经网络模型拓扑结构配置文件，所述神经网络模型拓扑结构配置文件包括神经网络层数及每层网络尺寸大小、数据位宽、权重位宽、当前层功能属性、当前层输入层数、当前层输出层数、当前层卷积核大小、当前层步进大小，下一层连接属性；

步骤2，读入硬件资源约束文件，所述硬件资源约束文件包括目标电路面积开销、目标电路功耗开销及目标电路工作频率等；

步骤3，装置所包含硬件生成器根据所述神经网络模型拓扑结构配置文件和硬件资源约束文件生成神经网络处理器硬件架构，并生成硬件架构描述文件；

步骤4，装置所包含编译器根据神经网络模型拓扑结构、硬件资源约束及硬件架构描述文件优化数据调度、存储及计算方式，并生成对应的控制描述文件；

步骤5，硬件生成器根据硬件架构描述文件及控制流描述文件从已构建好的神经网络可复用单元库索引符合设计要求的单元库、生成相对应的控制逻辑并生成对应的硬件电路描述语言；

步骤6，通过已有硬件设计方法将硬件电路描述语言转化为硬件电路。

本发明可自动生成的神经网络处理器基于存储-控制-计算的结构；

存储结构用于存储参与计算的数据、神经网络权重及处理器操作指令；

控制结构包括译码电路与控制逻辑电路，用于解析操作指令，生成控制信号，该信号用于控制片上数据的调度与存储以及神经网络计算过程；

计算结构包括计算单元，用于参与该处理器中的神经网络计算操作。

图2为本发明可自动生成的神经网络处理器系统101示意图，该神经网络处理器系统101架构由七个部分构成，包括输入数据存储单元102、控制单元103、输出数据存储单元104、权重存储单元105、指令存储单元106、计算单元107。

输入数据存储单元102用于存储参与计算的数据，该数据包括原始特征图数据和参与中间层计算的数据；输出数据存储单元104存储计算得到的神经元响应值；指令存储单元106存储参与计算的指令信息，指令被解析为控制流来调度神经网络计算；权重存储单元105用于存储已经训练好的神经网络权重；

控制单元103分别与输出数据存储单元104、权重存储单元105、指令存储单元106、计算单元107相连，控制单元103获得保存在指令存储单元106中的指令并且解析该指令，控制单元103可根据解析指令得到的控制信号控制计算单元进行神经网络计算。

计算单元107用于根据控制单元103产生的控制信号来执行相应的神经网络计算。计算单元107与一个或多个存储单元相关联，计算单元107可以从与其相关联的输入数据存储单元102中的数据存储部件获得数据以进行计算，并且可以向与其相关联的输出数据存储单元104写入数据。计算单元107完成神经网络算法中的大部分运算，即向量乘加操作等。

所述硬件生成器根据神经网络拓扑结构、约束文件构建神经网络处理器硬件架构，并根据所述处理器硬件架构、已构建好的神经网络可复用单元库以及编译器生成的控制状态机生成硬件描述语言代码；

为了适应各种神经网络模型的硬件实现设计，本发明提供一套神经网络可复用单元库，单元库包括硬件描述文件及配置脚本两部分。本发明提供的可复用单元库包括但不局限于：神经元单元、累加器单元、池化单元、分类器单元、局部响应归一化单元、查找表单元、地址生成单元、控制单元等。

本发明提供的神经网络处理器包括一款编译器，根据神经网络拓扑结构、硬件电路结构及约束文件生成指令流，对处理器进行实时控制。图3为编译器工作具体步骤：

步骤1，读入神经网络拓补结构配置文件、硬件架构描述文件及约束配置文件(即神经网络模型拓扑结构配置文件)；

步骤2，编译器根据配置文件进行卷积核分块、数据分块等调度优化，并生成控制状态机；

步骤3，生成控制指令流。

所述控制状态机用来调度电路工作状态，图4以神经网络处理器进行卷积操作为例描述了所述控制状态机流程图。

所述神经网络拓扑结构配置文件包括本发明通过提供所述神经网络描述文件格式描述神经网络模型特征，该描述文件内容包括网络基本属性、参数描述和连接信息三部分，其中基本属性包括层名称和层类型，参数描述包括输出层数、卷积核大小和步进大小，连接信息包括连接名称、连接方向、连接类型。

所述硬件架构描述文件包括硬件电路结构输入数据存储器容量、输入存储器位宽、权重存储器容量、权重存储器位宽、偏置存储器容量、偏置存储器位宽、输出数据存储器容量、输出数据存储器位宽、数据位宽、计算单元宽度、计算单元深度、数据共享标志位及权重共享标志位。

本发明在编译阶段采用一种基于卷积核分割及数据共享的优化算法，所述优化算法的步骤为：

步骤1，对于给定的神经网络层，若卷积核大小k和步进值s一致，采用权重共享模式，卷积核在单层数据图内进行卷积操作，如图5；

步骤2，若数据图层数小于计算单元宽度，采用卷积核分割的方法，将大卷积核k分割为小卷积核k_s，如图6；若数据图层数大于计算单元宽度，采用数据共享方式。

本发明所述指令流为宏指令，所述编译器在生成指令流时的具体步骤为：

步骤1，读入神经网络层名称；

步骤2，读入神经网络层类型；

步骤3，解析神经网络层参数；

步骤4，确定硬件电路结构与参数；

步骤5，通过所述卷积核分割及数据共享优化算法进行调度优化；

步骤6，确定指令参数并根据神经网络工作方式与调度方式生成控制流指令。

所述指令参数包括：神经网络层序号、输入层数、输出层数、每层数据尺寸大小、数据宽度、权重宽度、卷积核大小等。

所述指令流为所设计神经网络处理器的操作指令根据神经网络模型工作方式组成而成，其中指令类型包括载入/存储指令和运算指令等类型。

载入/存储指令包括：

外部与内部存储器数据传输指令，用于外部存储器与内部存储器之间的数据交换，所述数据包括参与神经网络计算的数据、已训练好的权重及偏置数据等；

输入数据存储器与计算单元传输指令，用于将片上存储器中的数据按照编译优化的调度方式载入至计算单元；

权重存储器与计算单元传输指令，用于将片上存储器中的权重数据按照编译优化的调度方式载入至计算单元；

计算单元与输出数据存储器传输指令，用于将计算单元的计算结果存储至存储器中。

以输入数据存储器与计算单元传输指令为例，介绍载入/存储指令的指令格式，指令格式如图7所示，每条指令包括：

操作码，标记指令类型；

发射间隔，标记指令每次操作的发射间隔；

数据首地址，标记数据首地址；

操作模式，描述电路所处工作状态，包括大卷积核操作、小卷积核操作、池化操作、全连接操作等；

卷积核大小，标记卷积核值；

输出图片大小，标记输出图片大小；

输入层数目，标记输入层数目；

输出层数目，标记输出层数目；

清零信号，清除数据值。

运算指令包括：

卷积操作指令，用于控制卷积操作，指令包括；

池化操作指令，用于控制池化操作；

局部相应归一化指令，用于控制局部响应归一化操作；

清除指令，用于清除计算单元中载入的数据；

激励函数操作指令，用于控制激励函数操作并配置函数模式。

以卷积指令为例，介绍运算指令的指令格式，指令格式如图8所示，每条指令包括：

操作码，标记指令类型；

计算核心数，标记参与运算的计算核心数；

发射间隔，标记指令每次操作的发射间隔；

操作模式，包括层内卷积及跨层卷积等模式；

目标寄存器，标记计算结果的存储位置，包括输出数据存储器、激励函数寄存器及查找表寄存器等。

综上所述，本发明提供一款适用于神经网络处理器的自动化设计工具，该工具可将神经网络模型映射为神经网络专用处理器，并根据该处理器结构优化数据计算及调度方式、生成相对应的控制流指令，实现了神经网络处理器的自动化设计，降低了神经网络处理器的设计周期，适应了神经网络技术网络模型更新快、运算速度要求块、能量效率要求高的应用特点。

所述神经网络可复用单元库包括：神经元单元、累加器单元、池化单元、分类器单元、局部响应归一化单元、查找表单元、地址生成单元、控制单元。

所述生成控制描述文件包括：根据所述神经网络模型拓扑结构配置文件进行卷积核分块、数据分块，并生成控制状态机；根据所述控制状态机生成控制指令流。

应当理解，虽然本说明书是按照各个实施例描述的，但并非每个实施例仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

以上所述仅为本发明示意性的具体实施方式，并非用以限定本发明的范围。任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合，均应属于本发明保护的范围。

Claims

1.一种适用神经网络处理器的自动化设计方法，其特征在于，包括：

2.如权利要求1所述的适用神经网络处理器的自动化设计方法，其特征在于，所述神经网络模型拓扑结构配置文件包括神经网络层数及每层网络尺寸大小、数据位宽、权重位宽、当前层功能属性、当前层输入层数、当前层输出层数、当前层卷积核大小、当前层步进大小，下一层连接属性。

3.如权利要求1所述的适用神经网络处理器的自动化设计方法，其特征在于，在生成神经网络电路模型的同时生成控制指令流，指令类型包括载入/存储指令和运算指令等类型。

4.如权利要求1所述的适用神经网络处理器的自动化设计方法，其特征在于，所述步骤3包括：根据所述神经网络模型拓扑结构配置文件进行卷积核分块、数据分块，并生成控制状态机；根据所述控制状态机生成控制指令流。

5.如权利要求1所述的适用神经网络处理器的自动化设计方法，其特征在于，所述硬件架构描述文件包括输入数据存储器容量、输入存储器位宽、权重存储器容量、权重存储器位宽、偏置存储器容量、偏置存储器位宽、输出数据存储器容量、输出数据存储器位宽、数据位宽、计算单元宽度、计算单元深度、数据共享标志位及权重共享标志位。

6.一种适用神经网络处理器的自动化设计装置，其特征在于，包括：

7.如权利要求6所述的适用神经网络处理器的自动化设计装置，其特征在于，所述神经网络模型拓扑结构配置文件包括神经网络层数及每层网络尺寸大小、数据位宽、权重位宽、当前层功能属性、当前层输入层数、当前层输出层数、当前层卷积核大小、当前层步进大小，下一层连接属性。

8.如权利要求6所述的适用神经网络处理器的自动化设计装置，其特征在于，在生成神经网络电路模型的同时生成控制指令流，指令类型包括载入/存储指令和运算指令等类型。

9.如权利要求6所述的适用神经网络处理器的自动化设计装置，其特征在于，所述生成控制描述文件模块功能包括：根据所述神经网络模型拓扑结构配置文件进行卷积核分块、数据分块，并生成控制状态机；根据所述控制状态机生成控制指令流。

10.如权利要求6所述的适用神经网络处理器的自动化设计装置，其特征在于，所述硬件架构描述文件包括输入数据存储器容量、输入存储器位宽、权重存储器容量、权重存储器位宽、偏置存储器容量、偏置存储器位宽、输出数据存储器容量、输出数据存储器位宽、数据位宽、计算单元宽度、计算单元深度、数据共享标志位及权重共享标志位。

11.一种基于如权利要求1-5任意一项所述的适用神经网络处理器的自动化设计方法的优化方法，其特征在于，包括：