CN113780553B

CN113780553B - 一种基于高层次综合工具的深度学习模型优化方法及系统

Info

Publication number: CN113780553B
Application number: CN202111058333.6A
Authority: CN
Inventors: 陈弟虎; 陈家荣; 王自鑫; 粟涛; 胡炳翔; 陈润明; 黄俊龙
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2023-11-07
Anticipated expiration: 2041-09-09
Also published as: CN113780553A

Abstract

本发明涉及深度学习技术领域，提出一种基于高层次综合工具的深度学习模型优化方法及系统，其中包括以下步骤：根据目标功能设计深度学习模型；获取训练样本，输入所述深度学习模型进行训练，得到深度学习模型的参数权值；根据所述深度学习模型的参数权值，通过高层次语言表示所述深度学习模型；对所述深度学习模型中的各层循环体进行优化；通过高层次综合工具将经过优化的深度学习模型进行联合仿真。本发明针对深度学习模型中的循环体进行循环展开以及流水线处理来缩短时延从而提升系统的吞吐量，从而降低深度学习模型的硬件功耗，且本发明中的深度学习模型经过高层次语言构建后，再通过高层次综合工具进行转换，能够有效缩短硬件设计的开发周期。

Description

一种基于高层次综合工具的深度学习模型优化方法及系统

技术领域

本发明涉及深度学习技术领域，更具体地，涉及一种基于高层次综合工具的深度学习模型优化方法及系统。

背景技术

深度学习(DL，Deep Learning)是机器学习(ML，Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)。而卷积神经网络(Convolutional Neural Networks,CNN)在图像分类与处理、视频监控以及机器视觉领域具有及其重要的研究意义和应用价值。

深度学习模型是以数据处理为核心，其包含大量的计算操作，如GoogleNet网络模型包含15.5亿浮点操作，ResNet-152网络模型包含了113亿浮点操作等，这对CPU来说并不友好，同时，受制于CPU(Central Processing Unit)的串行处理方式，通过软件的实现方式效率并不高，难以满足快速实时的应用需求。基于GPU(Graphics Processing Unit)、ASIC以及FPGA的实现方式相继被提出，用于加速卷积神经网络的计算速度。然而，在实际使用时容易发现，采用GPU的功耗严重，而采用ASIC加速器的硬件设计与开发周期较长，成本较高，硬件生成后通常无法改变，灵活性不高。

发明内容

本发明为克服上述现有技术所述的深度学习模型的硬件加速设计存在开发周期长、功耗严重的缺陷，提供一种基于高层次综合工具的深度学习模型优化方法及系统。

为解决上述技术问题，本发明的技术方案如下：

一种基于高层次综合工具的深度学习模型优化方法，包括以下步骤：根据目标功能设计深度学习模型；获取训练样本，输入所述深度学习模型进行训练，得到深度学习模型的参数权值；根据所述深度学习模型的参数权值，通过高层次语言表示所述深度学习模型；对所述深度学习模型中的各层循环体进行优化；通过高层次综合工具将经过优化的深度学习模型进行联合仿真。

作为优选方案，对所述深度学习模型中的循环体进行优化时，对循环体采用循环分块、循环展开、循环流水技术中的一种或多种。

作为优选方案，通过高层次综合工具将经过优化的深度学习模型进行联合仿真中，还包括以下步骤：通过高层次综合工具对所述的深度学习模型的循环体进行循环流水优化。

作为优选方案，对所述的深度学习模型的循环体进行循环流水优化的步骤包括：判断所述深度学习模型的循环体是否为嵌套循环，若是，则将所述嵌套循环中各层循环下的子循环完全展开后再对子循环进行流水线处理；若否，则仅对最内层循环进行流水线处理。

作为优选方案，通过高层次综合工具将经过优化的深度学习模型进行联合仿真，还包括以下步骤：将经过训练的深度学习模型的参数权值配置在所述深度学习模型中，并将其前向传播的过程进行高层次综合设计。

作为优选方案，还包括以下步骤：将经过高层次综合工具进行联合仿真得到的深度学习模型的IP核烧录至FPGA上，验证所述深度学习模型的功能准确性及优化效果。

进一步的，本发明还提出了一种基于高层次综合工具的深度学习模型优化系统，应用上述任一技术方案提出的深度学习模型优化方法，其包括深度学习模型设计模块、训练模块、高层次语言表示模块、优化模块和高层次综合工具。

其中，深度学习模型设计模块用于根据目标功能设计深度学习模型；训练模块用于将训练样本输入所述深度学习模型进行训练，得到深度学习模型的参数权值；高层次语言表示模块用于根据所述深度学习模型的参数权值，通过高层次语言表示所述深度学习模型；优化模块用于对所述深度学习模型中的各层循环体进行优化；高层次综合工具用于将经过优化的深度学习模型进行联合仿真。

作为优选方案，所述深度学习模型设计模块包括：卷积运算设计单元，用于设计及构建由输入层到卷积层的卷积运算；池化运算设计单元，用于设计及构建由卷积层到池化层的池化运算；全连接算法设计单元，用于设计及构建由池化层到输出层的全连接算法。

作为优选方案，所述优化模块包括：循环分块单元，用于将循环体拆分为若干小循环体；循环展开单元，用于将循环体中各层循环下的自循环完全展开；循环流水处理单元，用于对循环体进行流水线处理。

作为优选方案，所述系统还包括FPGA模块，用于烧录经所述高层次综合工具联合仿真得到的深度学习模型IP核，并验证所述深度学习模型的功能准确性及优化效果。

与现有技术相比，本发明技术方案的有益效果是：本发明针对深度学习模型中的循环体进行循环展开以及流水线处理来缩短时延，提升系统的吞吐量，从而降低深度学习模型的硬件功耗，且本发明中的深度学习模型经过高层次语言构建后，再通过高层次综合工具进行转换，能够有效缩短硬件设计的开发周期。

附图说明

图1为实施例1的基于高层次综合工具的深度学习模型优化方法的流程图。

图2为实施例2的LeNet5网络模型的结构架构图。

图3为实施例2的仿真硬件设计架构图。

图4为实施例3的深度学习模型优化系统的架构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种基于高层次综合工具的深度学习模型优化方法，其流程图请参阅图1。

本实施例提出的基于高层次综合工具的深度学习模型优化方法中，包括以下步骤：

步骤1：根据目标功能设计深度学习模型。

本步骤中，根据目标功能点对深度学习模型中的输入层、卷积层、池化层、输出层等结构进行设计，并初始化设置深度学习模型的参数。

步骤2：获取训练样本，输入所述深度学习模型进行训练，得到深度学习模型的参数权值。

本步骤中，从现有的数据集中获取训练样本，可同时获取用于验证深度学习模型的测试样本。

步骤3：根据所述深度学习模型的参数权值，通过高层次语言表示所述深度学习模型。

步骤4：对所述深度学习模型中的各层循环体进行优化。

本步骤中，对所述深度学习模型中的循环体进行优化时，对循环体采用循环分块、循环展开、循环流水技术中的一种或多种。

步骤5：通过高层次综合工具将经过优化的深度学习模型进行联合仿真。

本步骤中，通过高层次综合工具进行联合仿真的过程中，还对所述的深度学习模型的循环体进行循环流水优化。其中，对深度学习模型的循环体进行循环流水优化的步骤包括：判断所述深度学习模型的循环体是否为嵌套循环，若是，则将所述嵌套循环中各层循环下的子循环完全展开后再对子循环进行流水线处理；若否，则仅对最内层循环进行流水线处理。

在本步骤中，将经过训练的深度学习模型的参数权值配置在所述深度学习模型中，并将其前向传播的过程进行高层次综合设计。

进一步的，为验证经过优化的深度学习模型的功能准确性，本实施例将经过高层次综合工具进行联合仿真得到的深度学习模型的IP核烧录至FPGA上，验证所述深度学习模型的功能准确性及优化效果。

本实施例中，针对算法中的循环体进行循环展开以及流水线处理来缩短Latency提升系统的吞吐量，从而降低深度学习模型的硬件功耗，且本实施例中的深度学习模型经过高层次语言构建后，再通过高层次综合工具进行转换，能够有效缩短硬件设计的开发周期。

实施例2

本实施例应用实施例1提出的基于高层次综合工具的深度学习模型优化方法，应用于LeNet5网络的优化。

首先，根据目标功能设计LeNet5网络模型，对现有的LeNet5网络作相应的修改。完成设计的LeNet5网络模型的结构架构图如图2所示。其中包括输入层INPUT，卷积层C1，池化层S2，卷积层C3，池化层S4和输出层OUTPUT。

从MNIST数据集中获取10000个训练样本并输入LeNet5网络模型中进行训练，得到完成训练的网络参数权值。如下表1所示，为本实施例适用于MNIST数据集的LeNet5卷积神经网络参数。

表1 适用于MNIST数据集的LeNet5卷积神经网络参数

进一步的，本实施例根据LeNet5卷积神经网络参数，通过C语言设计LeNet5网络，再对LeNet5网络中的各层循环体进行优化。以LeNet5卷积神经网络中包含的卷积算法的伪代码为例，其伪代码表示如下：

由上述算法伪代码可知，在深度学习模型中，尤其是卷积神经网络的计算中存在大量循环体，且卷积神经网络中的循环体多为完美循环(Perfect Loop)，即在循环迭代中下一次迭代与上一次迭代结果无关，故可以对循环做大量优化操作。本实施例针对算法中的循环体进行循环展开、循环分块以及流水线处理来缩短Latency提升系统的吞吐量。

在对循环体进行优化过程中，上述卷积算法伪代码为例，可以看到其包含了5层的嵌套循环。以最外层循环为第一层，整个嵌套循环的层次结构如下：

完成LeNet5网络模型中各层循环体的优化后，通过高层次综合工具将经过优化的深度学习模型进行联合仿真，其中，本实施例还采用高层次综合工具对LeNet5网络模型中的循环体进行循环流水优化。具体的，首先判断循环体是否为嵌套循环，若是，则将嵌套循环中各层循环下的子循环完全展开后再对子循环进行流水线处理；若否，即表示循环体为非完美循环，则高层次综合工具会拒绝执行循环展开操作，只对最内层循环进行流水线处理。

虽然对于循环体进行展开以及流水线处理能够大幅提升循环执行速度，但是当循环体展开次数过大时也会到时资源的消耗量剧增，因此平衡高层次综合工具生成的卷积神经网络IP核的处理性能与资源消耗则是一个优化的关键方向。本实施例将不同层次的循环体进行展开以及流水线处理，其中统一层次以及经过空间设计探索后，针对不同层次进行流水线处理得到的结果如下表2～4所示。

表2 不同层次循环展开后时钟结果

Clock	(ns)	Default	第五层	第四层	第三层	第二层	不同层
								ap_clk	Target	10.00	10.00	10.00	10.00	10.00	10.00
	Estimated	8.69	10.94	16.46	16.46	10.56	10.94

表3 不同层次循环展开后时延结果

(Clock cycles)	Default	第五层	第四层	第三层	第二层	不同层
							Latency	min	3314785	1546654	1216989	415318	331706	184517
max	3316297	1548166	1218501	416830	333218	186029
							Interval	min	3314786	1546655	1216990	415319	331707	184518
max	3316298	1548167	1218502	416831	333219	186030

表4 不同层次循环展开后资源结果

	Default	第五层	第四层	第三层	第二层	不同层
							BRAM_18K	50	50	92	92	92	90
DSP48E	176	150	148	204	386	176
							FF	22017	22167	26036	39614	117693	34882
LUT	32218	33072	36765	47861	122372	41817

由上表可知，当默认情况下进行高层次综合时生成的卷积神经网络的Latency最小为3314785个时钟周期，而资源占用中DSP48以及LUT的占用超过60％，BRAM与FF的占用小于20％。

当将所有算法中的嵌套循环按照层次进行流水线处理时可以看到第五层也即最内层循环做流水线处理时资源占用略有变化，但是Latency已经可以减少一半左右。

当对第三层进行流水线处理并且子循环已经全展开，可以看到Latency减少了8倍左右而资源占用方面DSP与LUT在90％左右而BRAM和FF也超过了32％。

当对第二层进行流水线处理并将子循环全展开后可以看到Latency减少了近10倍，但是资源占用大大增加，DSP用量达175％，FF用量达110％而LUT的用量更高达230％。因此针对第二层或更高层的循环进行流水线处理时需要格外的小心。

本实施例针对不同算法的循环分别进行流水线处理，即不进行统一层次的流水线处理，最终得到的Latency可达184517个时钟周期，而资源占用上BRAM_18K占用了32％，DSP48E占用了80％，FF占用了33％以及LUT占用了78％。

此外，本实施例针对通过高层次综合工具处理生成的卷积神经网络的IP核在VivadoHLS工具中进行了C/RTL联合仿真。其仿真的硬件设计架构图如图3所示。本实施例采用ARMCortex-A9处理器来进行逻辑控制并从SD卡中读取MNIST测试集的数据存放在DDR3内存中。而后通过DMA模块使用AXIStream作为传输方式将图片传入卷积神经网络IP核中进行处理再使用AXI读取卷积神经网络IP核的输出结果，并显示在OLED上。

进一步的，本实施例还将经过联合仿真的卷积神经网络的IP核烧录至FPGA上进行验证，资源占用数据如下表5所示。

表5 IP核资源占用表

Resource	Utilization	Available	Utilization％
				LUT	33758	53200	63.45
LUTRAM	1961	17400	11.27
				FF	37757	106400	35.49
BRAM	46.50	140	33.21
				DSP	176	220	80.00
IO	6	200	3.00
				BUFG	1	32	3.12

经过上板实测可到的MNIST数据集的10000张图像的识别错误数为286张，正确率为97.14％。总耗时270秒，单张图片识别耗时约27毫秒。测试结果与CPU相比有1.23倍的加速效果，而在能耗方面比通用的计算机CPU要节省94.25％的功耗。

实施例3

本实施例提出一种基于高层次综合工具的深度学习模型优化系统，其系统架构图请参阅图4。

本实施例提出的基于高层次综合工具的深度学习模型优化系统中，包括：

深度学习模型设计模块，用于根据目标功能设计深度学习模型；

训练模块，用于将训练样本输入所述深度学习模型进行训练，得到深度学习模型的参数权值；

高层次语言表示模块，用于根据所述深度学习模型的参数权值，通过高层次语言表示所述深度学习模型；

优化模块，用于对所述深度学习模型中的各层循环体进行优化；

高层次综合工具，用于将经过优化的深度学习模型进行联合仿真。

其中，深度学习模型设计模块包括：卷积运算设计单元，用于设计及构建由输入层到卷积层的卷积运算；池化运算设计单元，用于设计及构建由卷积层到池化层的池化运算；全连接算法设计单元，用于设计及构建由池化层到输出层的全连接算法。本实施例中的深度学习模型设计模块根据目标功能对模型中的输入层、卷积层、池化层、输出层及其中涉及的算法进行设计及构建。

本实施例中的优化模块包括：循环分块单元，用于将循环体拆分为若干小循环体；循环展开单元，用于将循环体中各层循环下的自循环完全展开；循环流水处理单元，用于对循环体进行流水线处理。优化模块根据输入的深度学习模型中包含的循环体的类型针对性地进行循环分块、循环展开和/或循环流水处理等循环优化操作。

本实施例中的系统还包括FPGA模块，用于烧录经所述高层次综合工具联合仿真得到的深度学习模型IP核，并验证所述深度学习模型的功能准确性及优化效果。

在具体实施过程中，首先通过深度学习模型设计模块根据目标功能设计深度学习模型，根据目标功能点对深度学习模型中的输入层、卷积层、池化层、输出层等结构进行设计，并初始化设置深度学习模型的参数。将完成设计的深度学习模型输入训练模块中，训练模块将其采集的训练样本输入所述深度学习模型进行训练，得到深度学习模型的参数权值。完成训练的深度学习模型输入高层次语言表示模块中，采用C语言对深度学习模型进行转换，再通过优化模块对深度学习模型中的各层循环体进行优化，具体的，对循环体采用循环分块、循环展开和/或循环流水技术进行优化。最后通过高层次综合工具将经过优化的深度学习模型进行联合仿真，再将其IP核烧录至FPGA模块中，验证所述深度学习模型的功能准确性及优化效果。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于高层次综合工具的深度学习模型优化方法，其特征在于，包括以下步骤：

根据目标功能设计深度学习模型；

获取训练样本，输入所述深度学习模型进行训练，得到深度学习模型的参数权值；

根据所述深度学习模型的参数权值，通过高层次语言表示所述深度学习模型；

对所述深度学习模型中的各层循环体进行优化；其中，将循环体拆分为若干小循环体，再将循环体中各层循环下的自循环完全展开，最后对循环体进行流水线处理，以完成循环体的优化；

通过高层次综合工具将经过优化的深度学习模型进行联合仿真，以及通过高层次综合工具对所述的深度学习模型的循环体进行循环流水优化；

其中，对所述深度学习模型的循环体进行循环流水优化的步骤包括：判断所述深度学习模型的循环体是否为嵌套循环，若是，则将所述嵌套循环中各层循环下的子循环完全展开后再对子循环进行流水线处理；若否，则仅对最内层循环进行流水线处理。

2.根据权利要求1所述的基于高层次综合工具的深度学习模型优化方法，其特征在于，对所述深度学习模型中的循环体进行优化时，对循环体采用循环分块、循环展开、循环流水技术中的一种或多种。

3.根据权利要求1所述的基于高层次综合工具的深度学习模型优化方法，其特征在于，通过高层次综合工具将经过优化的深度学习模型进行联合仿真，还包括以下步骤：将经过训练的深度学习模型的参数权值配置在所述深度学习模型中，并将其前向传播的过程进行高层次综合设计。

4.根据权利要求1～3任一项所述的基于高层次综合工具的深度学习模型优化方法，其特征在于，还包括以下步骤：将经过高层次综合工具进行联合仿真得到的深度学习模型的IP核烧录至FPGA上，验证所述深度学习模型的功能准确性及优化效果。

5.一种基于高层次综合工具的深度学习模型优化系统，应用于权利要求1～4任一项所述的深度学习模型优化方法，其特征在于，包括：

6.根据权利要求5所述的基于高层次综合工具的深度学习模型优化系统，其特征在于，所述深度学习模型设计模块包括：

卷积运算设计单元，用于设计及构建由输入层到卷积层的卷积运算；

池化运算设计单元，用于设计及构建由卷积层到池化层的池化运算；

全连接算法设计单元，用于设计及构建由池化层到输出层的全连接算法。

7.根据权利要求5所述的基于高层次综合工具的深度学习模型优化系统，其特征在于，所述优化模块包括：

循环分块单元，用于将循环体拆分为若干小循环体；

循环展开单元，用于将循环体中各层循环下的自循环完全展开；

循环流水处理单元，用于对循环体进行流水线处理。

8.根据权利要求5所述的基于高层次综合工具的深度学习模型优化系统，其特征在于，所述系统还包括FPGA模块，用于烧录经所述高层次综合工具联合仿真得到的深度学习模型IP核，并验证所述深度学习模型的功能准确性及优化效果。