CN109146061A

CN109146061A - 神经网络模型的处理方法和装置

Info

Publication number: CN109146061A
Application number: CN201810904409.4A
Authority: CN
Inventors: 张宝昌; 王晓迪; 曹先彬
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2019-01-04

Abstract

本发明提供一种神经网络模型的处理方法和装置，该方法包括：重复执行以下步骤，直至神经网络模型的损失误差达到预设条件：获取样本图像，输入到神经网络模型，进行拓展处理，得到三维特征图；对每一层卷积层中的原始卷积核进行二值化，得到每一层卷积层的二值化卷积核；根据每一层卷积层中的调制卷积核，对每一层卷积层的二值化卷积核进行调制，生成每一层卷积层的重构卷积核；根据每一层卷积层的重构卷积核和三维特征图，确定最后一层卷积层的三维输出特征图；根据各原始卷积核、二值化卷积核和调制卷积核和三维输出特征图，计算损失误差；根据损失误差，对每一层卷积层中的原始卷积核和调制卷积核进行更新。本方案能够提高神经网络的性能。

Description

神经网络模型的处理方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种神经网络模型的处理方法和装置。

背景技术

近些年来，随着图形处理器(Graphics Processing Unit，简称GPU)和超大规模分类数据集合的出现，深度卷积神经网络(Deep Convolution Nenural Networks，简称DCNNs)在计算机视觉领域快速发展。目前，如何实现对神经网络模型的压缩处理已成为关键。

现有技术中，可以对神经网络模型的每一层卷积层的原始卷积核进行二值化，得到每一层卷积层的二值化的卷积核；然后对每一层卷积层的二值化的卷积核与输入到当前卷积层的特征图进行卷积处理，得到压缩处理后的神经网络模型。现有技术中，由于原始卷积核中的值都是浮点数，每个浮点数都需要32比特的空间去存储，但在对原始卷积核进行二值化后，可以减少原始卷积核的空间，进而减少了神经网络模型中的参数所占用的存储空间，从而实现对神经网络模型的压缩。

然而现有技术中，二值化的卷积核和原始卷积核之间存在较大的差异，那么直接利用二值化的卷积核与输入到当前卷积层的特征图进行卷积处理之后所得到的数据，和直接利用原始卷积核与当前卷积层的特征图进行卷积处理之后所得到的数据，两者之间也会存在较大差异，会造成得到的数据并不准确，进而导致神经网络的性能明显下降。

发明内容

本发明提供一种神经网络模型压缩方法和装置，能够提高神经网络的性能。

一方面，本发明提供一种神经网络模型的处理方法，包括：

重复执行以下所有步骤，直至神经网络模型的损失误差达到预设条件，以得到成熟的神经网络模型：

获取样本图像，并将样本图像输入到神经网络模型中，其中，所述神经网络模型中具有至少一层卷积层；

根据神经网络模型对所述样本图像进行拓展处理，得到三维特征图；

对所述神经网络模型中的每一层卷积层中的原始卷积核进行二值化，得到每一层卷积层的二值化卷积核；

根据每一层卷积层中的调制卷积核，对每一层卷积层的二值化卷积核进行调制，生成每一层卷积层的重构卷积核；

根据每一层卷积层的重构卷积核和所述三维特征图，确定所述神经网络模型中最后一层卷积层的三维输出特征图；

根据各层卷积层中的原始卷积核、二值化卷积核和调制卷积核，以及所述三维输出特征图，计算神经网络模型的损失误差；

根据所述损失误差，对每一层卷积层中的原始卷积核和调制卷积核进行更新。

进一步地，所述根据每一层卷积层的重构卷积核和所述三维特征图，确定所述神经网络模型中最后一层卷积层的三维输出特征图，包括：

对所述神经网络模型中第一层卷积层的重构卷积核和所述三维特征图进行卷积处理，得到第一层卷积层的三维输出特征图；

l取值为1，重复执行以下过程，直至得到所述神经网络模型中最后一层卷积层的三维输出特征图：将所述神经网络模型的第l层卷积层的三维输出特征图输入到所述神经网络模型的第l+1层卷积层中；对所述神经网络模型的第l+1层卷积层的重构卷积核和输入到第l+1层卷积层的三维输出特征图进行卷积处理，得到第l+1层卷积层的三维输出特征图；l的值累加1，其中，l为正整数。

进一步地，所述重构卷积核为

其中，为对第l层卷积层中的第i个原始卷积核进行二值化后得到的二值化卷积核，M^l为第l层卷积层中的调制卷积核，是通过对二维矩阵复制k份后得到的三维矩阵，为第l层卷积层中的调制卷积核M^l的第j个平面，l为正整数，i为正整数，j为正整数，k为正整数。

进一步地，所述根据各层卷积层中的原始卷积核、二值化卷积核和调制卷积核，以及所述三维输出特征图，计算神经网络模型的损失误差，包括：

采用损失函数对各层卷积层中的原始卷积核、各层卷积层中的二值化卷积核、各层卷积层中的调制卷积核，以及所述三维输出特征图进行处理，得到神经网络模型的损失误差；

其中，所述损失函数，包括：softmax损失函数、核损失函数和中心损失函数，所述核损失函数用于表示所述原始卷积核和所述重构卷积核之间的核误差，所述中心损失函数用于衡量类内紧凑程度；

所述核损失函数为其中，θ为第一超参数；为第l层卷积层中的第i个原始卷积核，为对第l层卷积层中的第i个原始卷积核进行二值化后得到的二值化卷积核，M^l为第l层卷积层中的调制卷积核，是通过对二维矩阵复制k份后得到的三维矩阵，为第l层卷积层中的调制卷积核M^l的第j个平面；

所述中心损失函数为其中，λ为第二超参数，为第l层卷积层中的第i个原始卷积核，为对第l层卷积层中的第i个原始卷积核进行二值化后得到的二值化卷积核，M^l为第l层卷积层中的调制卷积核，为最后一层卷积层生成的第m个三维输出特征图的值，为最后一层卷积层生成的所有三维输出特征图的平均值；

l为正整数，m为正整数，i为正整数，j为正整数，k为正整数。

进一步地，所述根据所述损失误差，对每一层卷积层中的原始卷积核和调制卷积核进行更新，包括：

以最后一层卷积层作为第1层开始，反向依次计算各层卷积层中的原始卷积核对应的第一梯度和调制卷积核对应的第二梯度，其中，第l层卷积层中的第i个原始卷积核对应的第一梯度为第l层卷积层中的调制卷积核M^l对应的第二梯度为其中，L^l为根据第l-1层卷积层的计算结果确定的损失误差，并且当l＝1时，L¹为根据各层卷积层中的所述原始卷积核、所述二值化卷积核、所述调制卷积核，以及最后一层卷积层的三维输出特征图计算得到的损失误差；

根据对应的第一梯度和预设的第一学习率ε₁，对第l层卷积层中的第i个原始卷积核进行更新，得到第l层卷积层中的更新后的第i个原始卷积核

根据M^l对应的第二梯度和预设的第二学习率ε₂，对第l层卷积层中的调制卷积核M^l进行更新，得到第l层卷积层中的更新后的调制卷积核

其中，l为大于1的正整数，i为正整数。

另一方面，本发明提供了一种神经网络模型的处理装置，包括：

处理单元，用于获取样本图像，并将样本图像输入到神经网络模型中，其中，所述神经网络模型中具有至少一层卷积层；根据神经网络模型对所述样本图像进行拓展处理，得到三维特征图；

二值化单元，用于对所述神经网络模型中的每一层卷积层中的原始卷积核进行二值化，得到每一层卷积层的二值化卷积核；

调制单元，用于根据每一层卷积层中的调制卷积核，对每一层卷积层的二值化卷积核进行调制，生成每一层卷积层的重构卷积核；

卷积单元，用于根据每一层卷积层的重构卷积核和所述三维特征图，确定所述神经网络模型中最后一层卷积层的三维输出特征图；

计算单元，用于根据各层卷积层中的原始卷积核、二值化卷积核和调制卷积核，以及所述三维输出特征图，计算神经网络模型的损失误差；

更新单元，用于根据所述损失误差，对每一层卷积层中的原始卷积核和调制卷积核进行更新。

进一步地，所述卷积单元，用于对所述神经网络模型中第一层卷积层的重构卷积核和所述三维特征图进行卷积处理，得到第一层卷积层的三维输出特征图；

进一步地，所述重构卷积核为

进一步地，所述计算单元，用于采用损失函数对各层卷积层中的原始卷积核、各层卷积层中的二值化卷积核、各层卷积层中的调制卷积核、以及所述三维输出特征图进行处理，得到神经网络模型的损失误差；

进一步地，所述更新单元，用于以最后一层卷积层作为第1层开始，反向依次计算各层卷积层中的原始卷积核对应的第一梯度和调制卷积核对应的第二梯度，其中，第l层卷积层中的第i个原始卷积核对应的第一梯度为第l层卷积层中的调制卷积核M^l对应的第二梯度为其中，L^l为根据第l-1层卷积层的计算结果确定的损失误差，并且当l＝1时，L¹为根据各层卷积层中的所述原始卷积核、所述二值化卷积核、所述调制卷积核，以及最后一层卷积层的三维输出特征图计算得到的损失误差；

其中，l为大于1的正整数，i为正整数。

本发明提供了一种神经网络模型的处理方法和装置，首先获取样本图像，并将样本图像输入到神经网络模型中，根据神经网络模型对样本图像进行拓展处理，得到三维特征图，其次为减少占用的存储空间，对神经网络模型中的每一层卷积层中的原始卷积核进行二值化，得到每一层卷积层的二值化卷积核，然后用每一层卷积层中的调制卷积核去调制相应层卷积层的二值化卷积核，可以生成每一层卷积层的重构卷积核，接下来根据重构卷积核和三维特征图得到最后一层卷积层输出的三维输出特征图之后，可以计算出本次前向卷积时的神经网络模型的损失误差，根据该损失误差进行神经网络的反传，也即对每一层卷积层中的原始卷积核和调制卷积核进行更新，通过反复执行多次上述步骤，来对每一层卷积层中的原始卷积核和调制卷积核进行不断学习更新，以使得生成的重构卷积核能够更好的拟合原始卷积核，也即减小重构卷积核与原始卷积核之间的差异，从而提高数据的准确率，进而提高了神经网络的性能。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本发明实施例一提供的一种神经网络模型的处理方法的流程图；

图2为本发明实施例二提供的一种神经网络模型的处理方法的流程图；

图3为本发明实施例二提供的一种神经网络模型的处理方法中的神经网络模型的结构示意图；

图4为本发明实施例二提供的一种神经网络模型的处理方法中调制过程的示意图；

图5为本发明实施例二提供的一种神经网络模型的处理方法中前向卷积过程的示意图；

图6为本发明实施例三提供的一种神经网络模型的处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一提供的一种神经网络模型的处理方法的流程图，如图1所示，该方法包括：重复执行以下所有步骤，直至神经网络模型的损失误差达到预设条件，以得到成熟的神经网络模型：其中，预设条件可以指的是，相邻两次计算得到的损失误差之间的差值在预设的一定范围内。

步骤101：获取样本图像，并将样本图像输入到神经网络模型中，其中，所述神经网络模型中具有至少一层卷积层。

在本实施例中，可将样本图像缓存在内存中，这样每一次进行神经网络的前向卷积时，都从内存中获取。神经网络模型中的卷积层的层数可依据用户需求进行设定。

步骤102：根据神经网络模型对所述样本图像进行拓展处理，得到三维特征图。

在本实施例中，由于后续调制方式的加入，原始的卷积核将由二维卷积核拓展成三维卷积核，相应地，神经网络将由二维卷积变为三维卷积，因此在将样本图像输入到神经网络模型中之后，需要对输入的样本图像进行复制扩展，得到多通道的输入，其中，通道即为复制份数，与原始卷积核和调制卷积核的通道数一致。

步骤103：对所述神经网络模型中的每一层卷积层中的原始卷积核进行二值化，得到每一层卷积层的二值化卷积核。

步骤104：根据每一层卷积层中的调制卷积核，对每一层卷积层的二值化卷积核进行调制，生成每一层卷积层的重构卷积核。

在本实施例中，每一层卷积层中的调制卷积核的初始化都是随机的，例如，第一层卷积层中预先会初始化一个调制卷积核，再得到第一层卷积层的二值化卷积核后，利用第一层卷积层中初始化的调制卷积核去调制第一层卷积层的二值化卷积核，从而生成第一层卷积层的重构卷积核，依次类推其他各层卷积层。

步骤105：根据每一层卷积层的重构卷积核和所述三维特征图，确定所述神经网络模型中最后一层卷积层的三维输出特征图。

在本实施例中，按照前向卷积的顺序，针对第一层卷积层，在得到第一层卷积层的重构卷积核后，对该重构卷积核与输入的三维特征图进行前向卷积处理，会生成第一层卷积层的三维输出特征图，并将其输出至第二层卷积层中，接下来对第二层卷积层中的重构卷积核与从第一层卷积层输入的三维输出特征图进行前向卷积处理，得到第二层卷积层的三维输出特征图，依次类推，直至得到神经网络模型中最后一层卷积层的三维输出特征图。

步骤106：根据各层卷积层中的原始卷积核、二值化卷积核和调制卷积核，以及所述三维输出特征图，计算神经网络模型的损失误差。

在本实施例中，为神经网络设计了新的损失函数，新的损失函数是多个损失函数的融合，包括softmax损失函数、核损失函数和中心损失函数，其中，softmax损失函数作为分类器，核损失函数用于表示原始卷积核和重构卷积核之间的核误差，中心损失函数用于衡量类内紧凑程度，有利于图像分类的准确率的提升。在最后一层卷积层输出三维输出特征图之后，可利用该损失函数计算出神经网络模型的损失误差。

步骤107：根据所述损失误差，对每一层卷积层中的原始卷积核和调制卷积核进行更新。

在本实施例中，得到损失函数计算的损失误差后，神经网络反传更新，从最后一层卷积层反传到第一层卷积层，在反传的过程中，可通过计算得到的原始卷积核对应的第一梯度先更新原始卷积核，更新完原始卷积核后，在通过计算得到的调制卷积核对应的第二梯度来更新调制卷积核，以此通过不断的对原始卷积核和调制卷积核进行学习更新，来使得生成的重构卷积核能够越来越拟合原始卷积核，进而来提高神经网络的准确率，提高神经网络的性能。

本发明实施例提供了一种神经网络模型的处理方法，首先获取样本图像，并将样本图像输入到神经网络模型中，根据神经网络模型对样本图像进行拓展处理，得到三维特征图，其次为减少占用的存储空间，对神经网络模型中的每一层卷积层中的原始卷积核进行二值化，得到每一层卷积层的二值化卷积核，然后用每一层卷积层中的调制卷积核去调制相应层卷积层的二值化卷积核，可以生成每一层卷积层的重构卷积核，接下来根据重构卷积核和三维特征图得到最后一层卷积层输出的三维输出特征图之后，可以计算出本次前向卷积时的神经网络模型的损失误差，根据该损失误差进行神经网络的反传，也即对每一层卷积层中的原始卷积核和调制卷积核进行更新，通过反复执行多次上述步骤，来对每一层卷积层中的原始卷积核和调制卷积核进行不断学习更新，以使得生成的重构卷积核能够更好的拟合原始卷积核，也即减小重构卷积核与原始卷积核之间的差异，从而提高数据的准确率，进而提高了神经网络的性能。

图2为本发明实施例二提供的一种神经网络模型的处理方法的流程图，如图2所示，该方法可以包括：

步骤201：获取样本图像，并将样本图像输入到神经网络模型中，其中，神经网络模型中具有至少一层卷积层。

例如，以图3所示的神经网络模型为例，图3为本发明实施例二提供的一种神经网络模型的处理方法中的神经网络模型的结构示意图，该神经网络模型包括：输入层、四层卷积层、归一化层BN、池化层MP、全连接层、激活层R、Dropout层D和输出层，其中，每一层卷积层中初始化有随机的调制卷积核。在本实施例中，首先获取样本图像，并将样本图像输入到神经网络模型中的输入层中，其中，样本图像可为灰度图像，例如，样本图像的尺寸为32*32。

值得说明的是，神经网络模型并不局限于图3所示的结构。

步骤202：根据神经网络模型对样本图像进行拓展处理，得到三维特征图。

在本实施例中，在输入尺寸为32*32的样本图像后，按照调制卷积核和原始卷积核的通道数，对样本图像进行复制，例如，复制的份数为4，则得到三维特征图4*32*32，变为3D矩阵。

步骤203：对神经网络模型中的每一层卷积层中的原始卷积核进行二值化，得到每一层卷积层的二值化卷积核。

在本实施例中，每一层卷积层中的原始卷积核均为三维卷积核，其中，每一个三维卷积核的尺寸为K*W*W，即有K个平面，每个平面都是一个尺寸为W*W的二维卷积核，例如，第一层卷积层中有20个尺寸为4*3*3的原始卷积核，其中每一层卷积层中的原始卷积核的数量可以根据实际需求进行设定，具体的，可根据每一层卷积层想要输出的三维输出特征图的数量进行设定。

步骤204：根据每一层卷积层中的调制卷积核，对每一层卷积层的二值化卷积核进行调制，生成每一层卷积层的重构卷积核。

在本实施例中，一层卷积层共享一个调制卷积核，也即该层卷积层中的所有二值化卷积核都由一个共同的调制卷积核调制。一个调制卷积核是被看作为二值化卷积核的权重矩阵，其尺寸为K*W*W，如果用表示第l层卷积层中的调制卷积核M^l的第j个平面的话，定义°运算为：

其中，为对第l层卷积层中的第i个原始卷积核进行二值化后得到的二值化卷积核，M^l为第l层卷积层中的调制卷积核，是个可学习的参数，是通过对二维矩阵复制k份后得到的三维矩阵，为第l层卷积层中的调制卷积核M^l的第j个平面，*为点乘的操作符号，l为正整数，i为正整数，j为正整数，k为正整数。

具体的，生成重构卷积核的过程可拆分为：

其中，重构卷积核为为第l层卷积层中的第i个重构卷积核，为第l层卷积层中的第i个重构卷积核的第j组平面。

在公式(2)中的二值化卷积核的值可由最近邻聚类思想得到：

其中，是中的数值，是中的数值，a₁和a₂是通过对原始卷积核的数值进行kmeans聚类算法求得。

图4为本发明实施例二提供的一种神经网络模型的处理方法中调制过程的示意图，以调制卷积核对一个二值化卷积核进行调制为例，如图4所示，首先尺寸为4*3*3的原始卷积核进行二值化，得到4*3*3的二值化卷积核，接下来利用尺寸为4*3*3的调制卷积核对4*3*3的二值化卷积核进行调制，根据上述(2)和(3)两个过程，得到4*4*3*3的重构卷积核。

步骤205：对神经网络模型中第一层卷积层的重构卷积核和三维特征图进行卷积处理，得到第一层卷积层的三维输出特征图。

在本实施例中，重构卷积核用来前向卷积生成特征图，可用第l层卷积层的重构卷积核Q^l去计算第l+1层的输入特征图F^l+1，则输出特征图为：

F^l+1＝MCconv(F^l,Q^l) (5)

其中，MCconv表示卷积运算。

图5为本发明实施例二提供的一种神经网络模型的处理方法中前向卷积过程的示意图，如图5所示，一个输入特征图和一个输出特征图，在MCconv中，一个输出特征图的一个通道由下面公式得到：

其中，表示卷积运算，是第l+1层卷积层的第h个特征图的第k个通道，表示第l层卷积层的第g个特征图。在图5中，h＝1，g＝1，即输入特征图的尺寸为1*4*32*32，通过一组重构卷积核卷积后，生成的输出特征图尺寸为1*4*30*30，也就是说卷积后，输出特征图的通道数和输入特征图通道数保持一致。

步骤206：l取值为1，将神经网络模型的第l层卷积层的三维输出特征图输入到神经网络模型的第l+1层卷积层中，l为正整数。

在本实施例中，以第1层原始卷积核为例，第一层卷积层的原始卷积核为20个4*3*3的卷积核，调制后生成的重构卷积核与尺寸为4*32*32三维特征图进行卷积后，通过一个归一化层(BatchNormlization)、激活层(ReLu)和池化层(Max Pooling)，得到第一层卷积层的输出特征图，尺寸为20*4*15*15。

步骤207：对神经网络模型的第l+1层卷积层的重构卷积核和输入到第l+1层卷积层的三维输出特征图进行卷积处理，得到第l+1层卷积层的三维输出特征图，当得到神经网络模型中最后一层卷积层的三维输出特征图时，执行步骤208，否则，l的值累加1，执行步骤206。

在本实施例中，当经过第一层卷积层得到20个4*15*15的输出特征图时，假设第二层需要输出一个输出特征图，则第二层卷积层需要20个原始卷积核，此时第二层会生成20个重构卷积核，每一个重构卷积核和一个输出特征图进行前向卷积，然后将20个前向卷积的结果进行累加，得到一个输出特征图，以此类推，但第二层需要输出40个输出特征图时，则第二层卷积层需要20*40＝800个原始卷积核，此时经过第二层原始卷积层，得到40个4*6*6的三维输出特征图，如经过第三层卷积层得到80个4*3*3的三维输出特征图，经过第四层卷积层得到160个4*1*1的三维输出特征图，然后输入到最大池化层M，得到160*1的三维输出特征图，经过全连接层和Dropout层输出1024*1的三维输出特征图，为一个列向量，最终经过输出层得到10*1的三维输出特征图。

当最后一层卷积层中的重构卷积核与上一层输入的输出特征图进行卷积后，接着输入到归一化层、激活层和最大池化层，得到最后一层的输出特征图，最后将三维输出特征图输入到全联接层和一个dropout层，得到最终的输出，根据最后的输出计算神经网络模型的误差。

步骤208：采用损失函数对各层卷积层中的原始卷积核、各层卷积层中的二值化卷积核、各层卷积层中的调制卷积核，以及三维输出特征图进行处理，得到神经网络模型的损失误差。

在本实施例中，损失函数，包括：softmax损失函数、核损失函数和中心损失函数，核损失函数用于表示原始卷积核和重构卷积核之间的核误差，中心损失函数用于衡量类内紧凑程度；

核损失函数为

其中，θ为第一超参数；为第l层卷积层中的第i个原始卷积核，为对第l层卷积层中的第i个原始卷积核进行二值化后得到的二值化卷积核，M^l为第l层卷积层中的调制卷积核，是通过对二维矩阵复制k份后得到的三维矩阵，为第l层卷积层中的调制卷积核M^l的第j个平面；

中心损失函数为

其中，λ为第二超参数，为第l层卷积层中的第i个原始卷积核，为对第l层卷积层中的第i个原始卷积核进行二值化后得到的二值化卷积核，M^l为第l层卷积层中的调制卷积核，为最后一层卷积层生成的第m个三维输出特征图的值，为最后一层卷积层生成的所有三维输出特征图的平均值；

本实施例中，可定义损失函数为：

L＝L_S+L₁+L₂ (10)

其中，L_S表示传统的损失函数，例如本发明实施例中用的是softmax损失函数。

步骤209：以最后一层卷积层作为第1层开始，反向依次计算各层卷积层中的原始卷积核对应的第一梯度和调制卷积核对应的第二梯度。

在本实施例中，神经网络模型中的每一层原始卷积核都需要更新。

其中，第l层卷积层中的第i个原始卷积核对应的第一梯度为：

其中，L^l为根据第l-1层卷积层的计算结果确定的损失误差，并且当l＝1时，L¹为根据各层卷积层中的原始卷积核、二值化卷积核、调制卷积核，以及最后一层卷积层的三维输出特征图计算得到的损失误差。

根据之前的公式能够推导出：

从而根据公式(12)和(13)，能够计算出第l层卷积层中的第i个原始卷积核对应的第一梯度

第l层卷积层中的调制卷积核M^l对应的第二梯度为：

根据之前的公式能够推导出：

从而根据公式(15)和(16)，能够计算出第l层卷积层中的调制卷积核M^l对应的第二梯度

步骤210：根据计算出的第l层卷积层中的第i个原始卷积核对应的第一梯度和预设的第一学习率，对第l层卷积层中的第i个原始卷积核进行更新。

在本实施例中，根据如下公式(17)得到第l层卷积层中的更新后的第i个原始卷积核为：

步骤211：根据计算出的第l层卷积层中的调制卷积核对应的第二梯度和预设的第二学习率，对第l层卷积层中的调制卷积核进行更新，并执行步骤201，直至神经网络模型的损失误差达到预设条件，以得到成熟的神经网络模型。

在本实施例中，根据如下公式(18)得到第l层卷积层中的更新后的调制卷积核为：

本发明实施例通过设计新的损失函数，该损失函数，包括：softmax损失函数、核损失函数和中心损失函数，其中，核损失函数用于表示原始卷积核和重构卷积核之间的核误差，中心损失函数用于衡量类内紧凑程度，有利于图像分类的准确率的提升，同时，对调制卷积核和原始卷积核的学习更新，可以达到调制卷积核核自学习的目的，使神经网络的性能更好。

图6为本发明实施例三提供的一种神经网络模型的处理装置的结构示意图，包括：

处理单元601，用于获取样本图像，并将样本图像输入到神经网络模型中，其中，所述神经网络模型中具有至少一层卷积层；根据神经网络模型对所述样本图像进行拓展处理，得到三维特征图；

二值化单元602，用于对所述神经网络模型中的每一层卷积层中的原始卷积核进行二值化，得到每一层卷积层的二值化卷积核；

调制单元603，用于根据每一层卷积层中的调制卷积核，对每一层卷积层的二值化卷积核进行调制，生成每一层卷积层的重构卷积核；

卷积单元604，用于根据每一层卷积层的重构卷积核和所述三维特征图，确定所述神经网络模型中最后一层卷积层的三维输出特征图；

计算单元605，用于根据各层卷积层中的原始卷积核、二值化卷积核和调制卷积核，以及所述三维输出特征图，计算神经网络模型的损失误差；

更新单元606，用于根据所述损失误差，对每一层卷积层中的原始卷积核和调制卷积核进行更新。

在本实施例中，本实施例的一种神经网络模型的处理装置可执行本发明实施例二提供的一种神经网络模型的处理方法，其实现原理相类似，此处不再赘述。

本发明实施例中，首先获取样本图像，并将样本图像输入到神经网络模型中，根据神经网络模型对样本图像进行拓展处理，得到三维特征图，其次为减少占用的存储空间，对神经网络模型中的每一层卷积层中的原始卷积核进行二值化，得到每一层卷积层的二值化卷积核，然后用每一层卷积层中的调制卷积核去调制相应层卷积层的二值化卷积核，可以生成每一层卷积层的重构卷积核，接下来根据重构卷积核和三维特征图得到最后一层卷积层输出的三维输出特征图之后，可以计算出本次前向卷积时的神经网络模型的损失误差，根据该损失误差进行神经网络的反传，也即对每一层卷积层中的原始卷积核和调制卷积核进行更新，通过反复执行多次上述步骤，来对每一层卷积层中的原始卷积核和调制卷积核进行不断学习更新，以使得生成的重构卷积核能够更好的拟合原始卷积核，也即减小重构卷积核与原始卷积核之间的差异，从而提高数据的准确率，进而提高了神经网络的性能。

在上述实施例的基础上，所述卷积单元，用于对所述神经网络模型中第一层卷积层的重构卷积核和所述三维特征图进行卷积处理，得到第一层卷积层的三维输出特征图；

进一步地，所述重构卷积核为

其中，l为大于1的正整数，i为正整数。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种神经网络模型的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每一层卷积层的重构卷积核和所述三维特征图，确定所述神经网络模型中最后一层卷积层的三维输出特征图，包括：

3.根据权利要求1所述的方法，其特征在于，所述重构卷积核为

4.根据权利要求1所述的方法，其特征在于，所述根据各层卷积层中的原始卷积核、二值化卷积核和调制卷积核，以及所述三维输出特征图，计算神经网络模型的损失误差，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述损失误差，对每一层卷积层中的原始卷积核和调制卷积核进行更新，包括：

其中，l为大于1的正整数，i为正整数。

6.一种神经网络模型的处理装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述卷积单元，用于对所述神经网络模型中第一层卷积层的重构卷积核和所述三维特征图进行卷积处理，得到第一层卷积层的三维输出特征图；

8.根据权利要求6所述的装置，其特征在于，所述重构卷积核为

9.根据权利要求6所述的装置，其特征在于，所述计算单元，用于采用损失函数对各层卷积层中的原始卷积核、各层卷积层中的二值化卷积核、各层卷积层中的调制卷积核、以及所述三维输出特征图进行处理，得到神经网络模型的损失误差；

10.根据权利要求6-9任一项所述的装置，其特征在于，所述更新单元，用于以最后一层卷积层作为第1层开始，反向依次计算各层卷积层中的原始卷积核对应的第一梯度和调制卷积核对应的第二梯度，其中，第l层卷积层中的第i个原始卷积核对应的第一梯度为第l层卷积层中的调制卷积核M^l对应的第二梯度为其中，L^l为根据第l-1层卷积层的计算结果确定的损失误差，并且当l＝1时，L¹为根据各层卷积层中的所述原始卷积核、所述二值化卷积核、所述调制卷积核，以及最后一层卷积层的三维输出特征图计算得到的损失误差；

其中，l为大于1的正整数，i为正整数。