CN108320019B

CN108320019B - 用于深度卷积神经网络的卷积计算方法及装置

Info

Publication number: CN108320019B
Application number: CN201810118043.8A
Authority: CN
Inventors: 张先轶; 贾海鹏
Original assignee: Perfxlab Beijing Technology Co ltd
Current assignee: Perfxlab Beijing Technology Co ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2020-11-24
Anticipated expiration: 2038-02-06
Also published as: CN108320019A

Abstract

本申请公开了一种用于深度卷积神经网络的卷积计算方法及装置。该方法包括确定第一优化参数；根据所述第一优化参数建立知识库，其中所述知识库用于按照表结构储存卷积算法和对应的第一优化参数；检索所述知识库中的是否存在符合预设性能条件的执行计划；如果所述知识库中的存在符合预设性能条件的执行计划，则生成符合预设性能条件的卷积计算方法。本申请解决了卷积计算方法的性能无法根据不同深度卷积神经网络自适应调优的技术问题。

Description

用于深度卷积神经网络的卷积计算方法及装置

技术领域

本申请涉及深度学习领域，具体而言，涉及一种用于深度卷积神经网络的卷积计算方法及装置。

背景技术

随着深度学习的发展，深度卷积神经网络成为应用最为广泛的网络结构，在图像、语音等领域应用广泛。深度卷积神经网络的核心算法是卷积计算，卷积计算在整个神经网络的计算中占据核心地位。

发明人发现，卷积算法的计算性能决定了深度卷积卷积网络的性能。影响卷积计算算法选择的因素主要包括：硬件架构特征、输入规模、通道数量、连续两次卷积计算的间隔大小以及卷积核大小等方面。

针对相关技术中卷积计算方法的性能无法根据不同深度卷积神经网络自适应调优的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种用于深度卷积神经网络的卷积计算方法，以解决卷积计算方法的性能无法根据不同深度卷积神经网络自适应调优的问题。能够实现不同输入在不同计算平台上卷积计算的最佳性能，大大提升深度学习算法在嵌入式平台上的性能。

为了实现上述目的，根据本申请的一个方面，提供了一种用于深度卷积神经网络的卷积计算方法,用于构建卷积算法的选择模型。

根据本申请的用于深度卷积神经网络的卷积计算方法包括：

确定第一优化参数，其中，所述第一优化参数用于初始化选择模型；根据所述第一优化参数建立知识库，其中，所述知识库用于按照表结构储存卷积算法和对应的第一优化参数；检索所述知识库中的是否存在符合预设性能条件的执行计划，其中，所述执行计划用于作为当前深度卷积神经网络的卷积计算方法；以及如果所述知识库中的存在符合预设性能条件的执行计划，则生成符合预设性能条件的卷积计算方法。

进一步地，根据所述第一优化参数建立知识库包括：按照哈希表{key，value}的方式建立知识库；其中，将哈希表的key值配置为预设参数，将哈希表的value配置为深度卷积神经网络中的最优卷积算法。

进一步地，根据所述第一优化参数建立知识库包括：构建多维数组，用于表示知识库中的索引表；构建实际输入参数到所述多维数组索引的映射表；根据实际输入参数和所述映射表，确定key值在索引表中的索引，并返回对应的value值。

进一步地，检索所述知识库中的是否存在符合预设性能条件的执行计划包括：按照第一优化参数，提取实际输入参数；确定实际输入参数；通过实际输入参数在所述知识库中检索得到执行计划；通过执行计划生成用于卷积计算的预设代码。

进一步地，确定第一优化参数包括：硬件平台、输入图片规模、通道数量、连续两次卷积计算的间隔大小、卷积核的大小中的一种或者多种。

进一步地，如果所述知识库中的存在符合预设性能条件的执行计划，则生成符合预设性能条件的卷积计算方法包括如下任一一种：生成通用矩阵-矩阵乘法算法；生成Winograd算法；生成直接卷积算法。

为了实现上述目的，根据本申请的另一方面，提供了一种用于深度卷积神经网络的卷积计算装置。

根据本申请的用于深度卷积神经网络的卷积计算装置包括：确定模块，用于确定第一优化参数，其中，所述第一优化参数用于初始化选择模型；建立模块，用于根据所述第一优化参数建立知识库，其中所述知识库用于按照表结构储存卷积算法和对应的第一优化参数；检索模块，用于检索所述知识库中的是否存在符合预设性能条件的执行计划，其中，所述执行计划用于作为当前深度卷积神经网络的卷积计算方法；生成模块，用于在所述知识库中的存在符合预设性能条件的执行计划时，生成符合预设性能条件的卷积计算方法

进一步地，所述建立模块包括：第一建立模块，所述第一建立模块，用于按照哈希表{key，value}的方式建立知识库；其中，将哈希表的key值配置为预设参数，哈希表的value配置为深度卷积神经网络中的最优卷积算法。

进一步地，所述建立模块包括：第二建立模块，所述第二建立模块，用于构建多维数组，用于表示知识库中的索引表；构建实际输入参数到所述多维数组索引的映射表；根据实际输入参数和所述映射表，确定key值在索引表中的索引，并返回对应的value值。

进一步地，所述检索模块包括：第一检索模块，所述第一检索模块，用于按照第一优化参数，提取实际输入参数；确定实际输入参数；通过实际输入参数在所述知识库中检索得到执行计划；通过执行计划生成用于卷积计算的预设代码。

在本申请实施例中，采用根据所述第一优化参数建立知识库的方式，通过检索所述知识库中的是否存在符合预设性能条件的执行计划，达到了自主选择性能最高的卷积计算算法的目的，从而实现了提高深度卷积神经网络性能的技术效果，进而解决了卷积计算方法的性能无法根据不同深度卷积神经网络自适应调优的技术问题。

此外，当硬件平台改变时，只需要根据算法选择模型选取最合适的卷积计算算法即可，在大幅提升性能的同时大大节省了人力资源。同时采用本申请的方法提高了竞争力，有益于深度学习产品的应用和推广。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的用于深度卷积神经网络的卷积计算方法示意图；

图2是根据本申请第一实施例的用于深度卷积神经网络的卷积计算方法示意图；

图3是根据本申请第二实施例的用于深度卷积神经网络的卷积计算方法示意图；

图4是根据本申请第三实施例的用于深度卷积神经网络的卷积计算方法示意图；

图5是根据本申请第一实施例的用于深度卷积神经网络的卷积计算装置示意图；

图6是根据本申请第二实施例的用于深度卷积神经网络的卷积计算装置示意图；以及

图7是根据本申请第三实施例的用于深度卷积神经网络的卷积计算装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S102至步骤S108：

步骤S102，确定第一优化参数，

所述第一优化参数用于初始化选择模型。

第一优化参数主要包括：优化知识的抽象和表达。优化知识是指最佳卷积算法选择模型的核心要素，其来源主要可以有两个方面：专家优化经验和历史性能测试数据。影响卷积计算算法选择的因素主要有以下五个方面：硬件架构特征；输入规模即需要进行卷积计算的图片大小；Channel数量；Stride大小即连续两次卷积计算的间隔；卷积kernel大小。

例如，可以从硬件平台、输入图片规模、Channels数量、Stride大小、卷积kernel大小五个方面对优化知识进行抽象。

其中，

硬件平台为底层硬件平台的主要架构；

输入图片规模定义为HⅹW，其中H为输入图片的高，W为输入图片的宽。输入规模定义为3个量级：256、64、32；

Channels数量定义为16、128、512、1024四个级别；

Stride大小定义为1和不等于1两个级别；

Kernel的大小定义为等于3和不等于3两个级别。

步骤S104，根据所述第一优化参数建立知识库，其中，所述知识库用于按照表结构储存卷积算法和对应的第一优化参数；

根据上述第一优化参数中优化知识抽象的五个方面，以Hash表{key，value}的方式构建根据优化知识库。Hash表的key值为硬件平台、输入图片规模、Channels数量、Stride大小、Kernel大小五个方面，value值为最优的实现算法，如表1为算法选择模型的构建方式：

表1

步骤S106，检索所述知识库中的是否存在符合预设性能条件的执行计划，其中，所述执行计划用于作为当前深度卷积神经网络的卷积计算方法；

具体地，生成执行计划是指，首先将性能参数传递为自适应知识库，获得最佳实现方法；然后将最佳实现方法地址传递给该层神经网路。

步骤S108，如果所述知识库中的存在符合预设性能条件的执行计划，则生成符合预设性能条件的卷积计算方法。

具体地，根据上述确定的执行计划，调用相应的卷积计算算法代码，生成最终的高性能卷积算代码。

从以上的描述中，可以看出，本发明实现了如下技术效果：

本申请中提出了最佳算法选择模型的构建方法：并且可以结合专家优化经验和历史性能优化数据，从计算平台、输入图片规模、channels、stride以及kernel大小五个维度构建最佳算法选择模型，并构建高效索引机制，尽量减小模型对性能的损耗。知识库为离线构建完成，并可通过历史优化数据的不断积累而进行不断优化。

根据本发明实施例，优选地，如图2所示，根据所述第一优化参数建立知识库包括：

步骤S202，按照哈希表{key，value}的方式建立知识库；

以Hash表{key，value}的方式构建根据优化知识库。

步骤S204，将哈希表的key值配置为预设参数；

具体地，Hash表的key值为硬件平台、输入图片规模、Channels通道数量、Stride步长大小、Kernel卷积核大小五个方面。

步骤S206，将哈希表的value配置为深度卷积神经网络中的最优卷积算法。

value值为最优的实现算法。

根据本发明实施例，优选地，如图3所示，根据所述第一优化参数建立知识库包括：

步骤S302，构建多维数组，用于表示知识库中的索引表；

构建表示索引表的多维数组，多维数组的维度定义分别为硬件平台、输入图片规模、通道Channels、步长Stride、卷积核kernel。

步骤S304，构建实际输入参数到所述多维数组索引的映射表；

构建实际输入到多维数组索引的映射表。主要包含五个：硬件平台到多维数组第一维索引的映射表、矩阵输入规模到第二维的的映射表、Channel到第三维的的映射表、stride到第四维的的映射表、Kernel到第五维的的映射表。

步骤S306，根据实际输入参数和所述映射表，确定key值在索引表中的索引，并返回对应的value值。

根据实际输入和映射表，确定key值在索引表中的做种索引，并返回对应的value值。

采用五维数组的方式为hash表的所有key值建立索引表：Key[Hardware][Scale][Channels][Stride][Kernel]。索引表首先确定硬件平台；其次依次确定输入图片规模、Channels、Stride、Kernel Size；最后确定要采用的具体卷积算法。

根据本发明实施例，优选地，如图4所示，检索所述知识库中的是否存在符合预设性能条件的执行计划包括：

步骤S402，按照第一优化参数，提取实际输入参数；

第一优化参数提取包括但不限于，从实际应用中提取性能参数：

硬件平台，确定硬件平台的具体型号；

输入图片规模，确定输入图片的规模；

通道Channels，确定该层神经网络的Channel数目；

步长Stride，确定该层神经网络的stride大小；

卷积核Kernel大小，确定该层神经网络的大小。

步骤S404，确定实际输入参数；

确定实际输入参数：

硬件平台，确定硬件平台的具体型号；

输入图片规模，确定输入图片的规模；

通道Channels，确定该层神经网络的Channel数目；

步长Stride，确定该层神经网络的stride大小；

卷积核Kernel大小，确定该层神经网络的大小。

步骤S406，通过实际输入参数在所述知识库中检索得到执行计划；

生成执行计划。首先将性能参数传递为自适应优化专家知识库，获得最佳实现方法；然后将最佳实现方法地址传递给该层神经网路。

步骤S408，通过执行计划生成用于卷积计算的预设代码。

生成高性能卷积计算代码。根据上述确定的执行计划，调用相应的卷积计算算法代码，生成最终的高性能卷积算代码。

通过上述方法，生成性能最佳卷积计算代码：通过抽象性能参数，确定最佳实现方法；制定执行计划，生成最佳性能的卷积计算代码。

作为本实施例中的优选，如果所述知识库中的存在符合预设性能条件的执行计划，则生成符合预设性能条件的卷积计算方法包括如下任一一种：

生成通用矩阵-矩阵乘法算法；

生成Winograd算法；

生成直接卷积算法。

主流的卷积算法的实现主要有GEMM(General Matrix-Matrix Multiplication，通用矩阵-矩阵乘法)、Winograd、直接卷积算法三种方法。由于在深度学习的训练阶段一般会同时处理多张图片，计算卷积时可以展开较大的矩阵，如果采用GEMM实现卷积算法的性能较高。但是在深度学习的检测阶段，一般只会处理一张图片，图片的规模一般较小，并且每一级神经网络处理的图片的大小(图片会随着神经网络层次的深入不断缩小)、Channel数(图片会随着神经网络层次的深入不断增多)都不相同。在这种情况下，GEMM并不总是性能最高的实现方案。更为严重的是，在深度神经网络执行过程中，每层网络的卷积计算的最佳实现方法是不同的。

本申请实施例中的方法能够在运行时自动选择性能最高的卷积计算算法，就显得尤为重要，且本实施例中的方法至少具备如下特点：能够根据硬件架构特征以及卷积计算的输入(包括但不限于输入规模、Channel数量、stride大小、卷积kernel大小等)自动选择性能最高的卷积计算算法。此外，该方法的开销必须极小，不会对整体计算效率造成影响。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述用于深度卷积神经网络的卷积计算方法的装置，如图5所示，该装置包括：确定模块10，用于确定第一优化参数，其中，所述第一优化参数用于初始化选择模型；建立模块20，用于根据所述第一优化参数建立知识库，其中所述知识库用于按照表结构储存卷积算法和对应的第一优化参数；检索模块30，用于检索所述知识库中的是否存在符合预设性能条件的执行计划，其中，所述执行计划用于作为当前深度卷积神经网络的卷积计算方法；生成模块40，用于在所述知识库中的存在符合预设性能条件的执行计划时，生成符合预设性能条件的卷积计算方法。

在本申请的确定模块10中所述第一优化参数用于初始化选择模型。

其中，

硬件平台为底层硬件平台的主要架构；

Channels数量定义为16、128、512三个级别；

Stride大小定义为1和不等于1两个级别；

Kernel的大小定义为等于3和不等于3两个级别。

在本申请的建立模块20中根据上述第一优化参数中优化知识抽象的五个方面，以Hash表{key，value}的方式构建根据优化知识库。Hash表的key值为硬件平台、输入图片规模、Channels数量、Stride大小、Kernel大小五个方面，value值为最优的实现算法，如表1为算法选择模型的构建方式：

表1

在本申请的检索模块30中，具体地，生成执行计划是指，首先将性能参数传递为自适应知识库，获得最佳实现方法；然后将最佳实现方法地址传递给该层神经网路。

在本申请的生成模块40中，具体地，根据上述确定的执行计划，调用相应的卷积计算算法代码，生成最终的高性能卷积算代码。

本申请中提出了最佳算法选择模型的构建装置：并且可以结合专家优化经验和历史性能优化数据，从计算平台、输入图片规模、channels、stride以及kernel大小五个维度构建最佳算法选择模型，并构建高效索引机制，尽量减小模型对性能的损耗。知识库为离线构建完成，并可通过历史优化数据的不断积累而进行不断优化。

根据本发明实施例，优选地，如图6所示，所述建立模块20包括：第一建立模块201，所述第一建立模块201，用于按照哈希表{key，value}的方式建立知识库；其中，将哈希表的key值配置为预设参数，哈希表的value配置为深度卷积神经网络中的最优卷积算法。

本申请的所述第一建立模块201中以Hash表{key，value}的方式构建根据优化知识库。具体地，Hash表的key值为硬件平台、输入图片规模、Channels通道数量、Stride步长大小、Kernel卷积核大小五个方面。value值为最优的实现算法。

根据本发明实施例，优选地，如图6所示，所述建立模块20包括：第二建立模块202，所述第二建立模块202，用于构建多维数组，用于表示知识库中的索引表；构建实际输入参数到所述多维数组索引的映射表；根据实际输入参数和所述映射表，确定key值在索引表中的索引，并返回对应的value值。

在本申请实施例的第二建立模块202中构建表示索引表的多维数组，多维数组的维度定义分别为硬件平台、输入图片规模、通道Channels、步长Stride、卷积核kernel。

根据本发明实施例，优选地，如图7所示，所述检索模块30包括：第一检索模块301，所述第一检索模块301，用于按照第一优化参数，提取实际输入参数；确定实际输入参数；通过实际输入参数在所述知识库中检索得到执行计划；通过执行计划生成用于卷积计算的预设代码。

在本申请所述第一检索模块301中第一优化参数提取包括但不限于，从实际应用中提取性能参数：

硬件平台，确定硬件平台的具体型号；

输入图片规模，确定输入图片的规模；

通道Channels，确定该层神经网络的Channel数目；

步长Stride，确定该层神经网络的stride大小；

卷积核Kernel大小，确定该层神经网络的大小。

在本申请所述第一检索模块301中生成执行计划。首先将性能参数传递为自适应优化专家知识库，获得最佳实现方法；然后将最佳实现方法地址传递给该层神经网路。

在本申请所述第一检索模块301中生成高性能卷积计算代码。根据上述确定的执行计划，调用相应的卷积计算算法代码，生成最终的高性能卷积算代码。

通过上述装置，生成性能最佳卷积计算代码：通过抽象性能参数，确定最佳实现方法；制定执行计划，生成最佳性能的卷积计算代码。

作为本实施例中的优选，在生成模块40中如果所述知识库中的存在符合预设性能条件的执行计划，则生成符合预设性能条件的卷积计算方法包括如下任一一种：生成通用矩阵-矩阵乘法算法；生成Winograd算法；生成直接卷积算法。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于深度卷积神经网络的卷积计算方法，其特征在于，用于构建卷积算法的选择模型，所述方法包括：

确定第一优化参数，第一优化参数包括：优化知识的抽象和表达；其中，所述第一优化参数用于初始化选择模型；

根据所述第一优化参数建立知识库，其中，所述知识库用于按照表结构储存卷积算法和对应的第一优化参数；

根据第一优化参数中优化知识抽象的五个方面，以Hash表{key，value}的方式构建知识库；Hash表的key值为硬件平台、输入图片规模、Channels数量、Stride大小、Kernel大小五个方面；

所述知识库用于按照表结构储存卷积算法和对应的第一优化参数，包括：

构建多维数组，用于表示知识库中的索引表；

构建实际输入参数到所述多维数组索引的映射表；

根据实际输入参数和所述映射表，确定key值在索引表中的索引，并返回对应的value值，其中，所述知识库用于按照表结构储存卷积算法和对应的第一优化参数；

检索所述知识库中是否存在符合预设性能条件的执行计划，其中，所述执行计划用于作为当前深度卷积神经网络的卷积算法，将性能参数传递至知识库，获得最佳实现方法；然后将最佳实现方法地址传递给该层神经网络；以及

如果所述知识库中存在符合预设性能条件的执行计划，则生成符合预设性能条件的卷积算法；根据上述确定的执行计划，调用相应的卷积算法代码，生成最终的高性能卷积算法代码。

2.根据权利要求1所述的卷积计算方法，其特征在于，根据所述第一优化参数建立知识库包括：

按照哈希表{key，value}的方式建立知识库；

其中，将哈希表的key值配置为预设参数，将哈希表的value配置为深度卷积神经网络中的最优卷积算法。

3.根据权利要求1所述的卷积计算方法，其特征在于，检索所述知识库中是否存在符合预设性能条件的执行计划包括：

按照第一优化参数，提取实际输入参数；

确定实际输入参数；

通过实际输入参数在所述知识库中检索得到执行计划；

通过执行计划生成用于卷积计算的预设代码。

4.根据权利要求1所述的卷积计算方法，其特征在于，如果所述知识库中存在符合预设性能条件的执行计划，则生成符合预设性能条件的卷积算法包括如下任一一种：

生成通用矩阵-矩阵乘法算法；

生成Winograd算法；

生成直接卷积算法。

5.一种用于深度卷积神经网络的卷积计算装置，其特征在于，包括：

确定模块，用于确定第一优化参数，第一优化参数包括：优化知识的抽象和表达；其中，所述第一优化参数用于初始化选择模型；根据第一优化参数中优化知识抽象的五个方面，以Hash表{key，value}的方式构建知识库，Hash表的key值为硬件平台、输入图片规模、Channels数量、Stride大小、Kernel大小五个方面，所述知识库用于按照表结构储存卷积算法和对应的第一优化参数；

建立模块，用于根据所述第一优化参数建立知识库，其中，所述知识库用于按照表结构储存卷积算法和对应的第一优化参数；

所述建立模块包括：第二建立模块，

所述第二建立模块，用于构建多维数组，用于表示知识库中的索引表；

构建实际输入参数到所述多维数组索引的映射表；

检索模块，用于检索所述知识库中的是否存在符合预设性能条件的执行计划，其中，所述执行计划用于作为当前深度卷积神经网络的卷积算法，将性能参数传递至知识库，获得最佳实现方法；然后将最佳实现方法地址传递给该层神经网络；

生成模块，用于在所述知识库中的存在符合预设性能条件的执行计划时，生成符合预设性能条件的卷积算法；根据上述确定的执行计划，调用相应的卷积算法代码，生成最终的高性能卷积算法代码。

6.根据权利要求5所述的卷积计算装置，其特征在于，所述建立模块包括：第一建立模块，

所述第一建立模块，用于按照哈希表{key，value}的方式建立知识库；

其中，将哈希表的key值配置为预设参数，哈希表的value配置为深度卷积神经网络中的最优卷积算法。

7.根据权利要求5所述的卷积计算装置，其特征在于，所述检索模块包括：第一检索模块，

所述第一检索模块，用于按照第一优化参数，提取实际输入参数；

确定实际输入参数；

通过实际输入参数在所述知识库中检索得到执行计划；

通过执行计划生成用于卷积计算的预设代码。