CN110059733A

CN110059733A - 卷积神经网络的优化及快速目标检测方法、装置

Info

Publication number: CN110059733A
Application number: CN201910258160.9A
Authority: CN
Inventors: 张峰; 肖潇; 晋兆龙
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-07-26

Abstract

本发明公开了卷积神经网络的优化及快速目标检测方法、装置，该优化方法包括：获取采用浮点型样本图像数据训练好的第一卷积模型；第一卷积模型中的BN层操作位于卷积层操作之后，用于将卷积层操作后得到的数值归一化至预定数据范围；根据BN层的参数调整卷积层的参数；并删除BN层，得到调整后的第二卷积模型；在第二卷积模型中卷积层的卷积操作之前添加量化层，得到第三卷积模型；量化层用于将输入数据量化至预定比特位的整型数据，卷积层以预定比特位的整型数据执行卷积操作。本发明通过优化卷积操作解决了模型体量较大、运行速度较慢的问题。

Description

卷积神经网络的优化及快速目标检测方法、装置

技术领域

本发明涉及拍摄技术领域，具体涉及卷积神经网络的优化及快速目标检测方法、装置。

背景技术

目标(例如人脸、车辆)检测是目标相关研究的前置步骤，如目标验证、目标识别、目标跟踪、目标属性等。目标识别和目标验证技术已经广泛应用于大规模安防布控领域。目前目标检测的精度能够较好满足实际需求，然而，在目标识别和验证系统中，目标检测步骤占据了较大比重的时间，在有限的计算资源上还不能够批量快速地处理。究其原因，目前所采用的卷积神经网络模型一般会占据很大的存储空间，比如现有技术中，VGG16模型本身大小就有500MB，在实际运行时占用的内存或者显存会更高。这个大小几乎全部来自神经元连接的权重值，因为单个模型里可能就有数百万甚至更多的连接。因此，有必要对现有的检测模型进行性能优化。

现有技术中，已有人采用将卷积层权重值量化至八比特位的方法对检测模型进行优化，且实验研究证明这种优化方式在语音识别领域的效果较好。

然而，发明人发现，由于研究表明采用浮点型样本图像数据进行卷积神经网络进行训练(例如，将整型的样本图像数据转换为0-1范围内的浮点型数据作为卷积神经网络的输入数据)所得到的训练模型效果较好，因此，采用训练好的卷积神经网络进行实际的目标检测时，往往还需要将整型的待检测图像数据转换为浮点型数据输入神经网络，以使得检测结果较为准确。但是，这使得神经网络在计算时，浮点型数据的计算量较大，尤其是卷积操作等矩阵乘法的计算量非常大，模型体量较大，占用的内存和磁盘空间较多，从而运行速度较慢。

发明内容

有鉴于此，本发明实施例提供了卷积神经网络的优化及快速目标检测方法、装置，以解决现有方法的卷积神经网络模型体量较大、运行速度慢的问题。

根据第一方面，本发明实施例提供了一种卷积神经网络的优化方法，包括：获取采用浮点型样本图像数据训练好的第一卷积模型；所述浮点型样本图像数据为整型的样本图像数据被归一化至预定数据范围后所得的数据；所述第一卷积模型中的BN层操作位于卷积层操作之后，用于将卷积层操作后得到的数值归一化至预定数据范围；利用所述BN层的参数调整所述卷积层的参数；并删除所述BN层，得到调整后的第二卷积模型；在所述第二卷积模型中卷积层的卷积操作之前添加量化层，得到第三卷积模型；所述量化层用于将输入数据量化至预定比特位的整型数据，所述卷积层以所述预定比特位的整型数据执行卷积操作。

可选地，由所述第一卷积模型得到所述第二卷积模型的过程还包括：将卷积层的权重值量化至整型的预定比特位。

可选地，量化至预定比特位的整型数据的方法将待量化数据的范围最大值量化至预定比特位的最大值，将范围最小值量化至预定比特位的最小值，并通过以下公式对范围内的任意待量化数据进行量化：y＝round(s*x)-round(s*min)，其中s＝MAX/(max-min)，max为待量化数据的范围最大值，min为待量化数据的范围最小值，MAX为量化后的预定比特位的最大值。

可选地，由所述第二卷积模型得到所述第三卷积模型的过程还包括：在至少一个层的操作之后添加反量化层；所述反量化层用于将所述至少一个层操作得到的数据反量化为浮点型数据。

可选地，所述预定比特位为八比特位；所述卷积层将八比特位的待检测图像数据与八比特位的权重值相乘后采用32位整型进行存储；将卷积层的偏置转换为32位整型数据后，再与乘积结果相加得到32位的整型和；所述卷积层之后的激活层直接对所述32位的整型和进行操作；将所述激活层操作得到的数据转化至八比特位，并传递至下一层。

根据第二方面，本发明实施例提供了一种基于卷积神经网络的快速目标检测方法，包括：获取整型的待检测图像数据；通过第一方面或者其任意可选实施方式得到的所述第三卷积模型对所述整型的待检测图像数据进行处理。

根据第三方面，本发明实施例提供了一种卷积神经网络的优化装置，包括：第一获取单元，用于获取采用浮点型样本图像数据训练好的第一卷积模型；所述浮点型样本图像数据为整型的样本图像数据被归一化至预定数据范围后所得的数据；所述第一卷积模型中的BN层操作位于卷积层操作之后，用于将卷积层操作后得到的数值归一化至预定数据范围；调整单元，用于利用所述BN层的参数调整所述卷积层的参数；并删除所述BN层，得到调整后的第二卷积模型；第一量化单元，用于在所述第二卷积模型中卷积层的卷积操作之前添加量化层，得到第三卷积模型；所述量化层用于将输入数据量化至预定比特位的整型数据，所述卷积层以所述预定比特位的整型数据执行卷积操作。

可选地，所述装置还包括：第二量化单元，用于由所述第一卷积模型得到所述第二卷积模型时，将卷积层的权重值量化至整型的预定比特位。

可选地，所述装置还包括：反量化单元，用于由所述第二卷积模型得到所述第三卷积模型时，在至少一个层的操作之后添加反量化层；所述反量化层用于将所述至少一个层操作得到的数据反量化为浮点型数据。

根据第四方面，本发明实施例提供了一种基于卷积神经网络的快速目标检测装置，包括：第三方面或者其任意可选实施方式所述的卷积神经网络的优化装置；第二获取单元，用于获取整型的待检测图像数据；处理单元，用于通过所述优化装置得到的第三卷积模型对所述整型的待检测图像数据进行处理。

根据第五方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述存储器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面、第二方面或者其任意可选实施方式所述的方法。

根据第六方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行第一方面、第二方面或者其任意可选实施方式所述的方法。

本发明实施例所提供的卷积神经网络的优化及快速目标检测方法、装置，将BN层的参数融入卷积层，在网络前向推理时少了一些层的运算，从而减少了占用的内存或者显存空间，并提升了前向推理的速度；并且，在卷积层之前添加量化层以使得数据以预定比特位的整型数据执行卷积操作，减少了卷积层的计算量，提高了卷积层的计算速度。因此，上述方法及装置通过优化卷积操作解决了模型体量较大、运行速度较慢的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了人工神经网络的结构示意图；

图2示出了根据本发明实施例的一种卷积神经网络的优化及快速目标检测方法的流程图；

图3示出了本发明实施例所提供的卷积神经网络的优化及快速目标检测方法在WIDER FACE数据集上的人脸检测样例；

图4示出了根据本发明实施例的另一种卷积神经网络的优化及快速目标检测方法的流程图；

图5示出了根据本发明实施例的一种卷积神经网络的优化方法的示意图；

图6示出了根据本发明实施例的一种卷积神经网络的优化装置的原理框图；

图7示出了根据本发明实施例的一种电子设备的内部结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人工神经网络是一种由多个互连的神经元组成的网络。如图1所示，图中白色的圆圈表示神经元，每个神经元都由权重值、偏置和激活函数组成，神经元基于权重值和偏移通过线性变换将输入数据进行转换；激活函数则是用于对数据进行非线性的转换，它决定了神经元是否被激活、神经元接受到的信息是否是有用的、是否该留下或者抛弃。每个神经元可以通过以下公式(1)的方式来表达：

Y＝Activation(∑(weigh*input)+bias)——(1)

其中，Activation()为激活函数，weigh为权重值，bias为偏置。

卷积(人工)神经网络模型通常包括卷积层、激活层、池化层和全连接层。例如，卷积神经网络VGG16可以依次包括卷积层1、卷积层2、池化层1、卷积层3、卷积层4、池化层2、卷积层5、卷积层6、卷积层7、池化层3、卷积层8、卷积层9、卷积层10、池化层4、卷积层11、卷积层12、卷积层13、全连接层1、全连接层2、全连接层3。这三种层的功能如下所述：

通常，一张图像输入计算机后，是以矩阵的形式存储图像的每个像素点的数值，例如对于彩色图像，该像素点的值可以采用R、G、B三个通道来表示。卷积层通过卷积操作，对图像像素矩阵进行特征提取。具体地，卷积层基于一个卷积核(是一个小矩阵，也叫感受野，英文：filter)在图像像素矩阵上不断按步长扫描，扫到数与卷积核对应位置的数相乘，然后求总和，扫描过程中每移动一个步长得到一个值，将图像像素矩阵全部扫完便生成一个新的矩阵，这就是卷积运算的过程。卷积核里的每一个值就是神经网络模型训练过程中需要确定的神经元参数——权重值weigh。

卷积层之后可以紧接采用激活层以决策卷积操作提取到的特征是否有用、是否该留下或抛弃。

卷积操作后，提取到了很多特征信息，然而这些特征信息中相邻区域由相似特征信息是可以相互替代的，如果全部保留这些特征信息就会有信息冗余，增加计算难度，这时候池化层执行池化操作就相当于降维操作。池化操作是在卷积操作所得到的特征信息矩阵的一个小矩阵区域内，取该区域内的最大值或平均值来代替该区域，该小矩阵也是在该特征信息矩阵上不断按步长进行扫描，扫描过程中每移动一个步长得到一个值。

对于人工神经网络中的n-1层和n层而言，n-1层的任意一个节点都和第n层所有节点连接，即第n层的每个节点在进行计算的时候，激活函数的输入是n-1层所有节点的加权。全连接层在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。

基于上述卷积神经网络的基础知识以及现有技术，本发明实施例提供了一种卷积神经网络的优化方法并基于该优化方法得到的卷积神经网络进行快速目标检测的方法。该快速目标检测方法可以用于视频监控、安防布控等技术领域中对画面中的目标进行检测，例如对人脸、车辆等目标进行检测。如图2所示，该方法包括如下步骤：

S101：获取采用浮点型样本图像数据训练好的第一卷积模型；浮点型样本图像数据为整型的样本图像数据被归一化至预定数据范围后所得的数据；第一卷积模型中的BN层操作位于卷积层操作之后，用于将卷积层操作后得到的数值归一化至预定数据范围。

一张待检测图像输入计算机后，是以矩阵的形式存储图像的每个像素点的数值，例如对于彩色图像，该像素点的值可以采用R、G、B三个通道来表示。像素点的数值通常为整型数据(整型的英文：INTEGER，整型数据是指不包含小数部分的数值型数据)，例如一个像素点可以表示为(0，255，255)，括号中的数据依次表示R、G、B通道的数值。

由于研究表明采用浮点型样本图像数据进行卷积神经网络的训练所得到的(例如，将整型的样本图像数据转换为0-1范围内的浮点型数据作为卷积神经网络的输入数据)所得到的训练模型效果较好，因此，现有技术往往将整型的样本图像数据归一化至预定数据范围(例如0-1范围)内得到浮点型数据，然后再利用该浮点型样本图像数据作为输入数据对卷积神经网络进行训练。本申请方法对卷积神经网络的这一训练方法不做改进，本申请中的第一卷积模型便是通过现有训练方法得到的卷积神经网络模型。

另外，需要说明的是，现有方法训练好的卷积神经网络通常会包括BN(英文全称：Batch Normalization，中文：批量归一化)层。并且，BN层操作位于卷积层操作之后，用于卷积层操作后得到的数值归一化至预定数据范围(例如0-1范围)，能够加快网络收敛，并且能够控制过拟合，一般放在卷积层之后。BN层将数据归一化后，能够有效解决梯度消失与梯度爆炸问题。

S102：利用BN层的参数调整卷积层的参数，并删除BN层，得到调整后的第二卷积模型。

卷积层的参数包括权重值、偏置。

根据本领域公知常识，BN层的参数包括均值μ、方差σ、缩放因子β、偏移参数γ、误差ε。以x_i(i＝1，2，3……)表示BN层待处理数据，m表示待处理数据的个数，表示对输入数据做预处理后得到的数据，y_i表示待处理数据被标准化后得到的数据，则：

由此可见，现有技术中BN层的上述参数仅用于将待处理数据标准化。

上述步骤S102可以根据BN层的均值μ、方差σ、缩放因子β、偏移参数γ、误差ε中的至少一者仅对权重值进行调整，也可以仅对偏置进行调整，或者对权重值和偏置均进行调整。

现有方法通常是在利用卷积模型对待检测图像数据进行处理的过程中多次执行BN层操作，上述步骤S102将BN层的参数融入卷积层，在网络前向推理时少了一些层的运算，从而减少了占用的内存或者显存空间，并提升了前向推理的速度。

S103：在第二卷积模型中卷积层的卷积操作之前添加量化层，得到第三卷积模型，量化层用于将输入数据量化至预定比特位的整型数据，该卷积层以该预定比特位的整型数据执行卷积操作。

量化是指将数据的连续取值(或者大量可能的离散取值)近似为有限多个(或较少的)离散值的过程。例如，量化为八比特位的整型数据是指，存储数据的最大值和最小值，然后把这个区间线性分成256个离散值，此范围内的每个浮点型数据都采用八位(二进制)整数来表示，近似为离得最近的那个离散值)。

步骤S103可以在每一个卷积层的操作之前添加量化层，或者，当几个卷积层的操作依次执行时，可以仅在第一个卷积层之前添加量化层。例如，第二卷积模型依次执行第一卷积层、第二卷积层的操作，则在第一卷积层和第二卷积层之前都可以添加量化层；或者仅在第一卷积层之前添加量化层，第一卷积层所得到的预定比特位的结果直接作为第二卷积层的输入数据。量化层之后的卷积层将以量化层得到的预定比特位的整型数据执行卷积操作。

预定比特位可以为四比特位(对应的最大值为2⁴-1＝15，最小值为0)、八比特位(对应的最大值为2⁸-1＝255，最小值为0)、十六比特位(对应的最大值为2¹⁶-1，最小值为0)。例如，量化至八比特位的整型数据便是将数据量化至0-255范围内的一个整数数据。

通过步骤S103，在卷积层的操作之前，将输入数据量化至预定比特位的整型数据，然后采用预定比特位的整型数据进行加法、乘法等运算，(基于计算机存储数据的特殊方式)能够使得计算量较小、计算速度较快，

S104：获取整型的待检测图像数据。

S105：通过第三卷积模型对整型的待检测图像数据进行处理。

上述步骤S101至S103给出了卷积神经网络的优化方法，步骤S104和S105则是给出了基于该优化方法得到的卷积神经网络进行快速目标检测的方法。

上述卷积神经网络的优化及快速目标检测方法，将BN层的参数融入卷积层，在网络前向推理时少了一些层的运算，从而减少了占用的内存或者显存空间，并提升了前向推理的速度；并且，在卷积层之前添加量化层以使得数据以预定比特位的整型数据执行卷积操作，减少了卷积层的计算量，提高了卷积层的计算速度。因此，上述方法通过优化卷积操作解决了模型体量较大、运行速度较慢的问题。

以预定比特位为八比特位为例，发明人对本发明实施例所提供的方法的性能进行了实验评估。该实验评估方法以WIDER FACE数据集作为待检测图像数据。WIDER FACE是目前人脸检测最常用的数据集，包含训练集、验证集和测试集。训练集一般用于训练模型，验证集和测试集一般用于测试模型的性能。我们选择包含3226张图片的验证集来测试本发明的性能。该验证集分为难、适中、简单3种类别子集，其中“难”子集包含尺寸为10到50像素的人脸，“适中”子集包含尺寸为50到300像素的人脸，“简单”子集包含尺寸大于300像素的人脸。该实验评估方法分别在人脸检测精度、模型运行时间、存储消耗这三个方面将本发明方法和S³FD进行了对比分析。

首先，图3展示了本发明方法在WIDER FACE数据集上的人脸检测样例，对检测的结果观察可以看出，对于各种尺寸的脸、密集的脸、有遮挡的脸，本发明方法依然能够较好地处理。

表1给出了本发明方法和S³FD方法在WIDER FACE数据集上的人脸检测的数值结果。可以看出，本发明方法经过对S³FD方法的量化优化，人脸检测精度仅仅下降了3-4％。分析本发明方法可知，本发明为了提升人脸检测速度，将浮点型数据量化为八比特整型数据，理论上讲，人脸检测精度有少许的降低是自然的。

表1本发明方法和S³FD方法的检测结果

表2给出了本发明方法和S³FD方法的模型运行时间。为了公平地测评本发明方法的性能，该实验是在相同的硬件环境下(NVIDIA GeForce GTX 1080Ti)进行的。该实验统计了1000张图片的平均运行时间。从表2可以看出，本发明方法在GPU上能够提升约33％的运行速度。由此可见，本发明方法对加速模型的运行是有效且可行的。

表2本发明方法和S³FD方法的模型运行时间

表3给出了本发明方法和S³FD方法的显存消耗和模型大小的数据，可以明显看出，模型在运行时，本发明方法仅需占用268M的显存。相比于S³FD方法，显存消耗仅为其一半。从多线程角度看，在有限的显存资源的情况下，使用本发明方法可以启动更多的线程。在模型大小(即占用磁盘的空间)方面，可将模型大小减少为约原来的四分之一。

表3本发明方法和S³FD方法的模型大小

由上述实验评估结果可以看出，上述卷积神经网络的优化及快速目标检测方法在牺牲少量精度的情况下，能够减少模型占用的存储资源、提升模型的运行速度。此外，通过完全使用八位格式的输入和输出来降低推理计算需要的计算资源，这个实现起来要难很多，因为需要修改所有涉及计算的地方，但可能带来额外的回报。八比特数值的存取相对浮点数而言内存带宽降到25％，这样可以更好地利用缓存并且避免内存存取瓶颈；还可以使用“单指令多数据流”操作实现在每个时钟周期进行更多操作。如果使用能加速八位运算的数字信号处理芯片，还能够提升更多的性能。

由于在卷积神经网络中存在大量卷积操作，并且，卷积操作将待处理数据与权重值做计算量较大的乘法运算，因此，在对将卷积层的待处理数据(即输入数据)进行量化的基础上，再将权重值进行量化，能够进一步减少卷积层的运算复杂度。

作为本实施例的一种可选实施方式，步骤S102可以对通过以下公式对权重值和偏置进行调整：

W_merged＝W*α——(5)

B_merged＝B*α+(β-μ*α)——(6)

其中，W_merged、B_merged分别表示第二卷积模型中(即调整后)的权重值、偏置，W、B分别表示第一卷积模型中(即未调整前)的权重值、偏置。

需要说明的是，本申请还可以通过其他公式对卷积层的权重值和/或偏置进行调整，并不限于上述一种形式。例如，W_merged＝W*α，B_merged＝(β-μ)*α。

作为本实例的一种可选实施方式，步骤S103中“量化至预定比特位的整型数据”的方法可以为：将待量化数据的范围最大值量化至预定比特位的最大值，将范围最小值量化至预定比特位的最小值，并通过以下公式对范围内的任意待量化数据进行量化：

y＝round(s*x)-round(s*min)——(7)

其中，x为待量化数据，y为量化后的数值，s＝MAX/(max-min)，max为待量化数据的范围最大值，min为待量化数据的范围最小值，MAX为量化后的预定比特位的最大值；round()函数返回一个整值数，该整数值是进行四舍五入运算的结果。

作为上述可选实施方式的一种变形方式，步骤S103还可以通过以下公式对范围内的任意待量化数据进行量化：

其中，r为待量化数据，q为量化后的数值，S为缩放尺度(浮点型的数据常量，可以根据待量化数据的最大值与预定比特位的最大值计算得到)，Z为预定比特位的“零点”(也即最小值)。

当然，本领域技术人员也可以采用其他量化方式，本申请对此不做限定。

作为本实施例的一种可选实施方式，如图4所示，由第一卷积模型得到第二卷积模型的过程还包括：将卷积层的权重值量化至预定比特位的整型数据，具体量化方法可以参考上述方式，在此不再赘述。

作为本实施例的一种可选实施方式，如图4所示，由第二卷积模型得到第三卷积模型的过程还包括在至少一个层的操作之后添加反量化层，反量化层用于将至少一个层操作得到的数据反量化为浮点型数据。

在卷积神经网络中，最常见的为卷积操作，而卷积操作又可以转化为矩阵乘法。以上述第二种(即公式8所示)量化方法为例，r＝S(q-Z)，两个浮点型数据矩阵(包括矩阵)r₁、r₂相乘记为r₃＝r₁*r₂，记矩阵的行列数为N，则矩阵矩阵相乘可以进一步表示为：

公式(9)可变换为

其中，公式(10)可以继续变换为：

在公式(11)中，只有这一项的计算复杂度最高，其实际复杂度为O(N³)。在量化层操作之后，该项仅涉及预定比特位的整型矩阵乘法，在CPU上可以直接调用谷歌的Gemmlowp数学函数库计算得到，在GPU上可以直接调用英伟达CUDA 8.0以上版本的低精度矩阵乘法函数计算得到，因此，上述公式(11)中等式右侧的计算较为简便，从而可以根据等式右侧的预定比特位乘法计算得到浮点型的乘法结果，也即公式(11)体现了反量化的操作。

需要说明的是，量化层、反量化层可以分别添加在同一层的前、后，也可以添加在不同层的前后。例如，卷积神经网络依次包括第一卷积层、第二卷积层和第三卷积层，则可以在第一卷积层之前添加量化层从而将数据转换为预定比特位的整型数据，并可以在第三卷积层之后添加反量化层从而将输出结果由预定比特位的整型数据转换为浮点型数据，由此便使得这三个卷积层既计算量小、计算速度较快，又能够较为精确地保存计算结果并传递至下一层，从而提高目标检测的精度。

作为本实施例的一种可选实施方式，预定比特位为八比特位。如图5所示，卷积层将八比特位的待检测图像数据与八比特位的权重值相乘后采用32位整型进行存储，即int32+＝uint8*uint8；将卷积层的偏置(原先为float32类型)转换为32位整型数据(即int32类型)后，再与乘积结果相加得到32位的整型和。选择将偏置项量化到高精度的int32，而不是先量化到uint8再量化到int32，一方面能够有效降低量化误差，另一方面能够节省量化的步骤。

由于int32和uint8*uint8的缩放尺度在同一等级，因此偏置量化的缩放尺度参数为权值的量化尺度和激活值的量化尺度之积。由于int32的0正好对应float32类型的0，因此偏置的零点为0，即：S_bias＝S₁S₂，Z_bias＝0。

如图5所示，在上述得到32位的整型和之后，卷积层之后的激活层之间对32位的整型和进行操作(例如执行Relu函数)，再将激活层操作得到的数据转化至八比特位，并传递至下一层。

图5所示可选实施方式将激活层融入卷积层，激活层的操作无需将int32类型转化到uint8类型，而直接对int32类型的数据进行激活层操作，能减少量化的操作，节省运行时间。

本发明实施例还提供了一种卷积神经网络的优化装置，如图6所示，该装置包括第一获取单元10、调整单元20和第一量化单元30。

第一获取单元10用于获取采用浮点型样本图像数据训练好的第一卷积模型；浮点型样本图像数据为整型的样本图像数据被归一化至预定数据范围后所得的数据；第一卷积模型中的BN层操作位于卷积层操作之后，用于将卷积层操作后得到的数值归一化至预定数据范围。

调整单元20用于利用BN层的参数调整卷积层的参数；并删除BN层，得到调整后的第二卷积模型。

第一量化单元30用于在第二卷积模型中卷积层的卷积操作之前添加量化层，得到第三卷积模型；量化层用于将输入数据量化至预定比特位的整型数据，所述卷积层以所述预定比特位的整型数据执行卷积操作。

作为本实施例的一种可选实施方式，该装置还包括第二量化单元，用于由第一卷积模型得到第二卷积模型时，将卷积层的权重值量化至整型的预定比特位。

作为本实施例的一种可选实施方式，该装置还包括反量化单元，用于由第二卷积模型得到第三卷积模型时，在至少一个层的操作之后添加反量化层。反量化层用于将至少一个层操作得到的数据反量化为浮点型数据。

本发明实施例还提供了一种基于卷积神经网络的快速目标检测装置，该装置包括图6所示或者其任意可选实施方式所述的卷积神经网络的优化装置，还包括第二获取单元和处理单元。

第二获取单元用于获取整型的待检测图像数据。处理单元用于通过第三卷积模型对整型的待检测图像数据进行处理。

上述卷积神经网络的优化装置、基于卷积神经网络的快速目标检测装置及其可选实施方式具体可以参见图1所示实施例及其可选实施方式的描述，在此不再赘述。

本发明实施例还提供了一种电子设备，如图7所示，该电子设备可以包括处理器701和存储器702，其中处理器701和存储器702可以通过总线或者其他方式连接，图7中以通过总线连接为例。

处理器701可以为中央处理器(Central Processing Unit，CPU)。处理器703还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器702作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的卷积神经网络的优化方法对应的程序指令/模块(例如，图6所示的第一获取单元10、调整单元20和第一量化单元30)。处理器701通过运行存储在存储器702中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的卷积神经网络的优化方法、基于卷积神经网络的快速目标检测方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器701所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器702可选包括相对于处理器702远程设置的存储器，这些远程存储器可以通过网络连接至处理器702。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器702中，当被所述处理器701执行时，执行如图2、图4所示实施例或者其可选实施方式中的卷积神经网络的优化方法、基于卷积神经网络的快速目标检测方法。

上述电子设备具体细节可以对应参阅图2、图4所示的实施例或者其可选实施方式中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种卷积神经网络的优化方法，其特征在于，包括：

获取采用浮点型样本图像数据训练好的第一卷积模型；所述浮点型样本图像数据为整型的样本图像数据被归一化至预定数据范围后所得的数据；所述第一卷积模型中的BN层操作位于卷积层操作之后，用于将卷积层操作后得到的数值归一化至预定数据范围；

利用所述BN层的参数调整所述卷积层的参数；并删除所述BN层，得到调整后的第二卷积模型；

在所述第二卷积模型中卷积层的卷积操作之前添加量化层，得到第三卷积模型；所述量化层用于将输入数据量化至预定比特位的整型数据，所述卷积层以所述预定比特位的整型数据执行卷积操作。

2.根据权利要求1所述的卷积神经网络的优化方法，其特征在于，由所述第一卷积模型得到所述第二卷积模型的过程还包括：

将卷积层的权重值量化至整型的预定比特位。

3.根据权利要求1或2所述的卷积神经网络的优化方法，其特征在于，量化至预定比特位的整型数据的方法将待量化数据的范围最大值量化至预定比特位的最大值，将范围最小值量化至预定比特位的最小值，并通过以下公式对范围内的任意待量化数据进行量化：

y＝round(s*x)-round(s*min)，其中s＝MAX/(max-min)，max为待量化数据的范围最大值，min为待量化数据的范围最小值，MAX为量化后的预定比特位的最大值。

4.根据权利要求1所述的卷积神经网络的优化方法，其特征在于，由所述第二卷积模型得到所述第三卷积模型的过程还包括：

在至少一个层的操作之后添加反量化层；所述反量化层用于将所述至少一个层操作得到的数据反量化为浮点型数据。

5.根据权利要求1所述的卷积神经网络的优化方法，其特征在于，所述预定比特位为八比特位；

所述卷积层将八比特位的待检测图像数据与八比特位的权重值相乘后采用32位整型进行存储；

将卷积层的偏置转换为32位整型数据后，再与乘积结果相加得到32位的整型和；

所述卷积层之后的激活层直接对所述32位的整型和进行操作；

将所述激活层操作得到的数据转化至八比特位，并传递至下一层。

6.一种基于卷积神经网络的快速目标检测方法，其特征在于，包括：

获取整型的待检测图像数据；

通过权利要求1至5任一项所述优化方法得到的第三卷积模型对所述整型的待检测图像数据进行检测。

7.一种卷积神经网络的优化装置，其特征在于，包括：

第一获取单元，用于获取采用浮点型样本图像数据训练好的第一卷积模型；所述浮点型样本图像数据为整型的样本图像数据被归一化至预定数据范围后所得的数据；所述第一卷积模型中的BN层操作位于卷积层操作之后，用于将卷积层操作后得到的数值归一化至预定数据范围；

调整单元，用于利用所述BN层的参数调整所述卷积层的参数；并删除所述BN层，得到调整后的第二卷积模型；

第一量化单元，用于在所述第二卷积模型中卷积层的卷积操作之前添加量化层，得到第三卷积模型；所述量化层用于将输入数据量化至预定比特位的整型数据，所述卷积层以所述预定比特位的整型数据执行卷积操作。

8.一种基于卷积神经网络的快速目标检测装置，其特征在于，包括：

权利要求7所述的卷积神经网络的优化装置；

第二获取单元，用于获取整型的待检测图像数据；

处理单元，用于通过所述优化装置得到的第三卷积模型对所述整型的待检测图像数据进行处理。

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述存储器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1至6任一项所述的方法。