CN112836819A

CN112836819A - 一种神经网络模型生成方法及装置

Info

Publication number: CN112836819A
Application number: CN202110103858.0A
Authority: CN
Inventors: 宇哲伦
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-25
Anticipated expiration: 2041-01-26
Also published as: CN112836819B

Abstract

本发明实施例提供了一种神经网络模型生成方法及装置，方法包括：获取预设结构的第一神经网络模型；其中，第一神经网络模型包括至少一个批标准化BN层；基于目标样本图像和目标损失函数，对第一神经网络模型进行模型训练，得到第二神经网络模型；其中，目标损失函数为基于原始损失函数和BN层的模型参数计算得到的；确定第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型；其中，目标卷积核为第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核；基于第三神经网络模型，生成目标神经网络模型。如此，能够降低目标神经网络模型的结构复杂度，提高目标神经网络模型的适用性。

Description

一种神经网络模型生成方法及装置

技术领域

本发明涉及深度学习技术领域，特别是涉及一种神经网络模型生成方法及装置。

背景技术

随着计算机技术的快速发展，以深度学习为代表的AI(ArtificialIntelligence，人工智能)技术在各方面得到了广泛应用。例如，基于样本图像和预设损失函数，对预设结构的神经网络模型进行训练，使得训练得到的神经网络模型可以自动识别图像中的对象(例如，人物、动物等)。

然而，学习能力强、拟合能力好的神经网络模型的结构比较复杂，相应的，基于训练得到的神经网络模型对数据进行处理，对运行该神经网络模型的设备的性能要求较高，也就导致相关技术中神经网络模型的适用性较差。

发明内容

本发明实施例的目的在于提供一种神经网络模型生成方法及装置，以降低神经网络模型的结构复杂度，提高神经网络模型的适用性。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种神经网络模型生成方法，所述方法包括：

获取预设结构的第一神经网络模型；其中，所述第一神经网络模型包括至少一个BN(Batch Normalization，批标准化)层；

基于目标样本图像和目标损失函数，对所述第一神经网络模型进行模型训练，得到第二神经网络模型；其中，所述目标损失函数为基于原始损失函数和所述BN层的模型参数计算得到的；所述第二神经网络模型的输入参数为所述目标样本图像、输出参数为所述目标样本图像中每一像素点属于预设类别的概率；

确定所述第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型；其中，所述目标卷积核为所述第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核；

基于所述第三神经网络模型，生成目标神经网络模型。

可选的，所述目标损失函数的计算过程包括：

针对每一BN层，基于预设公式计算该BN层对应的正则化约束；其中，所述预设公式为：

R＝λ₁|γ|+λ₂|β|

R表示该BN层对应的正则化约束，λ₁和λ₂表示预设权重；γ表示该BN层的缩放因子，β表示该BN层的偏置；|γ|表示γ的范数，|β|表示β的范数；

计算各个BN层对应的正则化约束与所述原始损失函数的总和值，得到所述目标损失函数。

可选的，所述基于所述第三神经网络模型，生成目标神经网络模型，包括：

针对所述第三神经网络模型中的每一BN层，按照该BN层的前一网络层输出数据的维度，对该BN层的维度进行调整，得到第四神经网络模型；

基于所述目标样本图像和所述原始损失函数，对所述第四神经网络模型进行模型训练，得到目标神经网络模型。

可选的，在确定所述第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型之前，所述方法还包括：

基于每一备选阈值，确定所述第二神经网络模型中除备选卷积核以外的网络模型结构，作为该备选阈值对应的备选神经网络模型；其中，所述备选卷积核为所述第二神经网络模型中对应的BN层的模型参数的绝对值小于该备选阈值的卷积核；

获取该备选阈值对应的备选神经网络模型，对预设测试图像进行处理的处理结果的精确度；

从各个备选阈值中，确定对应的备选神经网络模型的精确度满足预设条件，且数值最大的备选阈值，作为目标阈值。

可选的，在从各个备选阈值中，确定对应的备选神经网络模型的精确度满足预设条件，且数值最大的备选阈值，作为目标阈值之前，所述方法还包括：

获取所述第二神经网络模型对所述预设测试图像进行处理的处理结果的精确度，作为目标精确度；

所述从各个备选阈值中，确定对应的备选神经网络模型的精确度满足预设条件，且数值最大的备选阈值，作为目标阈值，包括：

从各个备选阈值中，确定对应的备选神经网络模型的精确度与所述目标精确度的差值的绝对值小于预设数值的备选阈值，作为待处理阈值；

确定数值最大的待处理阈值，作为目标阈值。

可选的，在基于目标样本图像和目标损失函数，对所述第一神经网络模型进行模型训练，得到第二神经网络模型之前，所述方法还包括：

获取原始样本图像；

基于预设的图像增强处理算法，对所述原始样本图像进行增强处理，得到目标样本图像。

在本发明实施的第二方面，还提供了一种神经网络模型生成方法，所述方法包括：

获取预设结构的第一神经网络模型；其中，所述第一神经网络模型包括至少一个批标准化BN层；

基于目标样本图像和目标损失函数，对所述第一神经网络模型进行模型训练，得到第二神经网络模型；其中，所述目标损失函数为基于原始损失函数和所述BN层的模型参数计算得到的；所述第二神经网络模型的输入参数为所述目标样本图像、输出参数为所述目标样本图像包含的对象属于预设对象类别的概率；

基于所述第三神经网络模型，生成目标神经网络模型。

在本发明实施的第三方面，还提供了一种神经网络模型生成装置，所述装置包括：

第一神经网络模型获取模块，用于获取预设结构的第一神经网络模型；其中，所述第一神经网络模型包括至少一个批标准化BN层；

第一训练模块，用于基于目标样本图像和目标损失函数，对所述第一神经网络模型进行模型训练，得到第二神经网络模型；其中，所述目标损失函数为基于原始损失函数和所述BN层的模型参数计算得到的；所述第二神经网络模型的输入参数为所述目标样本图像、输出参数为所述目标样本图像中每一像素点属于预设类别的概率；

第三神经网络模型获取模块，用于确定所述第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型；其中，所述目标卷积核为所述第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核；

目标神经网络模型获取模块，用于基于所述第三神经网络模型，生成目标神经网络模型。

可选的，所述装置还包括：

目标损失函数计算模块，用于针对每一BN层，基于预设公式计算该BN层对应的正则化约束；其中，所述预设公式为：

R＝λ₁|γ|+λ₂|β|

可选的，所述目标神经网络模型获取模块，具体用于针对所述第三神经网络模型中的每一BN层，按照该BN层的前一网络层输出数据的维度，对该BN层的维度进行调整，得到第四神经网络模型；

可选的，所述装置还包括：

备选神经网络模型获取模块，用于在确定所述第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型之前，基于每一备选阈值，确定所述第二神经网络模型中除备选卷积核以外的网络模型结构，作为该备选阈值对应的备选神经网络模型；其中，所述备选卷积核为所述第二神经网络模型中对应的BN层的模型参数的绝对值小于该备选阈值的卷积核；

第一精确度获取模块，用于获取该备选阈值对应的备选神经网络模型，对预设测试图像进行处理的处理结果的精确度；

目标阈值确定模块，用于从各个备选阈值中，确定对应的备选神经网络模型的精确度满足预设条件，且数值最大的备选阈值，作为目标阈值。

可选的，所述装置还包括：

第二精确度获取模块，用于在从各个备选阈值中，确定对应的备选神经网络模型的精确度满足预设条件，且数值最大的备选阈值，作为目标阈值之前，获取所述第二神经网络模型对所述预设测试图像进行处理的处理结果的精确度，作为目标精确度；

所述目标阈值确定模块，具体用于从各个备选阈值中，确定对应的备选神经网络模型的精确度与所述目标精确度的差值的绝对值小于预设数值的备选阈值，作为待处理阈值；

确定数值最大的待处理阈值，作为目标阈值。

可选的，所述装置还包括：

原始样本图像获取模块，用于在基于目标样本图像和目标损失函数，对所述第一神经网络模型进行模型训练，得到第二神经网络模型之前，获取原始样本图像；

目标样本图像获取模块，用于基于预设的图像增强处理算法，对所述原始样本图像进行增强处理，得到目标样本图像。

在本发明实施的第四方面，还提供了一种神经网络模型生成装置，所述装置包括：

第二神经网络模型获取模块，用于获取预设结构的第一神经网络模型；其中，所述第一神经网络模型包括至少一个批标准化BN层；

第二训练模块，用于基于目标样本图像和目标损失函数，对所述第一神经网络模型进行模型训练，得到第二神经网络模型；其中，所述目标损失函数为基于原始损失函数和所述BN层的模型参数计算得到的；所述第二神经网络模型的输入参数为所述目标样本图像、输出参数为所述目标样本图像包含的对象属于预设对象类别的概率；

第四神经网络模型获取模块，用于确定所述第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型；其中，所述目标卷积核为所述第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核；

目标神经网络模型生成模块，用于基于所述第三神经网络模型，生成目标神经网络模型。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面或第二方面任一所述的神经网络模型生成方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面或第二方面任一所述的神经网络模型生成方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面任一所述的神经网络模型生成方法。

本发明实施例提供的神经网络模型生成方法，可以获取预设结构的第一神经网络模型；其中，第一神经网络模型包括至少一个批标准化BN层。进而，基于目标样本图像和目标损失函数，对第一神经网络模型进行模型训练，得到第二神经网络模型；其中，目标损失函数为基于原始损失函数和BN层的模型参数计算得到的。然后，可以确定第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型；其中，目标卷积核为第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核，并基于第三神经网络模型，生成目标神经网络模型。

由于目标卷积核对应的BN层的模型参数的绝对值小于目标阈值，也就是说，目标卷积核对整个第一神经网络模型的影响较小，因此，从第二神经网络模型中去除目标卷积核，得到第三神经网络模型，能够降低第三神经网络模型的结构复杂度，且能够保证第三神经网络模型对数据进行处理的处理结果的精确度，相应的，也就能够降低目标神经网络模型的结构复杂度，提高目标神经网络模型的适用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种神经网络模型生成方法的流程图；

图2为本发明实施例提供的一种计算目标损失函数的流程图；

图3为本发明实施例提供的另一种神经网络模型生成方法的流程图；

图4为本发明实施例提供的另一种神经网络模型生成方法的流程图；

图5为本发明实施例提供的另一种神经网络模型生成方法的流程图；

图6为本发明实施例提供的一种第二神经网络模型中一个BN层的γ的数值示意图；

图7为本发明实施例提供的一种第二神经网络模型中一个BN层的β的数值示意图；

图8为本发明实施例提供的一种第一神经网络模型的BN层的模型参数的分布直方图；

图9为本发明实施例提供的一种第二神经网络模型的BN层的模型参数的分布直方图；

图10为本发明实施例提供的另一种第二神经网络模型的BN层的模型参数的分布直方图；

图11为本发明实施例提供的一种生成神经网络模型的原理示意图；

图12为本发明实施例中提供的一种神经网络模型生成装置的结构图；

图13为本发明实施例中提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

相关技术中，学习能力强、拟合能力好的神经网络模型的结构比较复杂，相应的，基于训练得到的神经网络模型对数据进行处理，对运行该神经网络模型的设备的性能要求较高，也就导致相关技术中神经网络模型的适用性较差。

为了解决上述问题，本发明实施例提供了一种神经网络模型生成方法，参见图1，图1为本发明实施例提供的一种神经网络模型生成方法的流程图，该方法可以包括以下步骤：

S101：获取预设结构的第一神经网络模型。

其中，第一神经网络模型包括至少一个BN层。

S102：基于目标样本图像和目标损失函数，对第一神经网络模型进行模型训练，得到第二神经网络模型。

其中，目标损失函数为基于原始损失函数和BN层的模型参数计算得到的；第二神经网络模型的输入参数为目标样本图像、输出参数为目标样本图像中每一像素点属于预设类别的概率。

S103：确定第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型。

其中，目标卷积核为第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核。

S104：基于第三神经网络模型，生成目标神经网络模型。

基于本发明实施例提供的神经网络模型生成方法，由于目标卷积核对应的BN层的模型参数的绝对值小于目标阈值，也就是说，目标卷积核对整个第一神经网络模型的影响较小，因此，从第二神经网络模型中去除目标卷积核，得到第三神经网络模型，能够降低第三神经网络模型的结构复杂度，且能够保证第三神经网络模型对数据进行处理的处理结果的精确度，相应的，也就能够降低目标神经网络模型的结构复杂度，提高目标神经网络模型的适用性。

针对步骤S101，第一神经网络模型中的BN层，可以基于自身的模型参数(即γ和β)，对输入的数据进行归一化处理。也就是说，在第一神经网络模型中，除最后的输出网络层以外的每一网络层后都可以设置一个BN层，用于对该网络层输出的数据进行归一化处理，进而，能够提高神经网络模型的泛化能力。

具体的，该网络层后设置的BN层包含的γ和β的个数，可以基于该网络层输出数据的维度一致。例如，第一神经网络模型中除最后一个输出网络层以外，其他网络层中只有卷积核，则针对只包含卷积核的网络层，该网络层后设置的BN层包含的γ和β的个数与该网络层包含的卷积核的个数相同。

针对步骤S102，原始损失函数可以由技术人员根据经验进行设置。例如，原始损失函数可以为交叉熵损失函数、或者，也可以为指数损失函数，但并不限于此。

第二神经网络模型的输出参数为目标样本图像中每一像素点属于预设类别的概率，也就是说，生成的第二神经网络模型可以用于对图像进行语义分割。即，针对输入的图像，第二神经网络模型能够确定出该图像中每一像素点属于预设类别的概率。例如，针对包含有人物的图像，第二神经网络模型能够确定出该图像中像素点属于人物的概率、属于背景的概率，进而，可以确定出该图像中人物对应的区域以及背景对应的区域。

相应的，基于第二神经网络模型确定出的第三神经网络模型，以及生成的目标神经网络模型也可以用于对图像进行语义分割。

在一个实施例中，参见图2，目标损失函数的计算过程可以包括以下步骤：

S201：针对每一BN层，基于预设公式计算该BN层对应的正则化约束。

其中，预设公式为：

R＝λ₁|γ|+λ₂|β|

R表示该BN层对应的正则化约束，λ₁和λ₂表示预设权重；γ表示该BN层的缩放因子，β表示该BN层的偏置。|γ|表示γ的范数，|β|表示β的范数。

S202：计算各个BN层对应的正则化约束与原始损失函数的总和值，得到目标损失函数。

其中，针对同一个BN层，λ₁与λ₂的值可以相同，也可以不同。各BN层对应的λ₁可以相同，也可以不同，各BN层对应的λ₂可以相同，也可以不同。

在本发明实施例中，针对每一BN层，可以基于上述预设公式，计算该BN对应的正则化约束，进而，计算各BN层对应的正则化约束的和值，与原始损失函数的总和值，作为目标损失函数。

然后，可以基于目标损失函数对第一神经网络模型进行模型训练，直至达到收敛，得到第二神经网络模型。

由于训练第一神经网络模型的目标损失函数中包含了BN层的模型参数，使得训练得到的第二神经网络模型中BN层的模型参数稀疏。也就是说，训练得到的第二神经网络模型中BN层的γ和β中有较多趋向于0的数值。

针对步骤S103，目标阈值可以由技术人员根据经验进行设置。

目标卷积核对应的BN层的模型参数的绝对值小于目标阈值，也就是说，目标卷积核对第二神经网络模型的影响较小，因此，可以从第二神经网络模型中将目标卷积核删除，得到第三神经网络模型，以降低第三神经网络模型的结构复杂度，且能够保证对数据进行处理的处理结果的精确度。

在一个实施例中，目标卷积核对应的BN层的模型参数的绝对值小于目标阈值可以为，目标卷积核对应的BN层的至少一个模型参数的绝对值小于目标阈值。例如，目标卷积核对应的BN层的γ的绝对值小于目标阈值，或者，目标卷积核对应的BN层的β的绝对值小于目标阈值，或者，目标卷积核对应的BN层的γ的绝对值和β的绝对值均小于目标阈值。

在一个实施例中，目标阈值也可以是从多个备选阈值中确定出的一个阈值，以进一步降低第三神经网络模型的结构复杂度，且保证对数据进行处理的处理结果的精确度。相应的，参见图3，在图1的基础上，在步骤S103之前，该方法还可以包括以下步骤：

S105：基于每一备选阈值，确定第二神经网络模型中除备选卷积核以外的网络模型结构，作为该备选阈值对应的备选神经网络模型。

其中，备选卷积核为第二神经网络模型中对应的BN层的模型参数的绝对值小于该备选阈值的卷积核。

S106：获取该备选阈值对应的备选神经网络模型，对预设测试图像进行处理的处理结果的精确度。

S107：从各个备选阈值中，确定对应的备选神经网络模型的精确度满足预设条件，且数值最大的备选阈值，作为目标阈值。

其中，各备选阈值可以由技术人员根据经验进行设置。

在本发明实施例中，针对每一备选阈值，可以基于该备选阈值，对第二神经网络模型进行精简，也就是说，从第二神经网络模型中确定除该备选阈值对应的备选卷积核以外的网络模型结构，作为该备选阈值对应的备选神经网络模型。

进而，可以基于每一备选神经网络模型，对预设测试图像进行处理，得到输出结果，通过比较输出结果和预设测试图像的真实标签，可以确定该备选神经网络模型的处理结果的精确度。预设测试图像的真实标签表示预设测试图像中每一像素点属于预设类别的概率。

由于备选阈值越大，确定出的备选卷积核则越多，也就是说，对应的备选神经网络模型的结构越精简，因此，通常会选择较大的备选阈值对应的备选神经网络模型。然而，备选阈值越大，对应的备选神经网络模型的结构越精简，也会导致对应的备选神经网络模型的精确度越低。因此，需要平衡精确度和结构复杂度，确定目标阈值。

一种实现方式中，可以从各个备选阈值中，确定对应的备选神经网络模型的精确度满足预设条件，且数值最大的备选阈值，作为目标阈值。

进而，基于目标阈值确定出的备选神经网络模型(即第三神经网络模型)的结构较精简，且能够保证较高的精确度。

在一个实施例中，参见图4，在图3的基础上，在步骤S107之前，该方法还可以包括以下步骤：

S108：获取第二神经网络模型对预设测试图像进行处理的处理结果的精确度，作为目标精确度。

相应的，S107可以包括：

S1071：从各个备选阈值中，确定对应的备选神经网络模型的精确度与目标精确度的差值的绝对值小于预设数值的备选阈值，作为待处理阈值。

S1072：确定数值最大的待处理阈值，作为目标阈值。

在本发明实施例中，为了尽可能的保证第三神经网络模型的精确度，可以基于第二神经网络模型的精确度(即目标精确度)，确定预设条件。

确定出的待处理阈值对应的备选神经网络模型的精确度，与目标精确度的差值的绝对值小于预设数值，表明待处理阈值对应的备选神经网络模型的精确度仍较高。

进而，如果待处理阈值为一个，则可以直接将该待处理阈值确定为目标阈值。

如果待处理阈值为多个，则可以确定数值最大的一个待处理阈值，为目标阈值。

在一个实施例中，为了进一步提高目标神经网络模型的泛化能力，在S102之前，该方法还可以包括以下步骤：

步骤一：获取原始样本图像。

步骤二：基于预设的图像增强处理算法，对原始样本图像进行增强处理，得到目标样本图像。

在本发明实施例中，图像增强处理算法可以由技术人员根据经验进行设置。

例如，可以对原始样本图像进行左右翻转、随机裁剪、随机亮度增强、随机旋转、随机缩放等增强处理，得到增强处理后的图像，作为目标样本图像。

进而，基于目标样本图像对第一神经网络模型进行模型训练，使得第二神经网络模型能够学习到增强处理后的图像的图像特征，相应的，生成的目标神经网络模型也能够学习到增强处理后的图像的图像特征，进而，能够提高目标神经网络模型对图像进行处理的泛化能力。

在一个实施例中，为了使目标神经网络模型能够达到第二神经网络模型的精确度，参见图5，在图1的基础上，步骤S104可以包括以下步骤：

S1041：针对第三神经网络模型中的每一BN层，按照该BN层的前一网络层输出数据的维度，对该BN层的维度进行调整，得到第四神经网络模型。

S1042：基于目标样本图像和原始损失函数，对第四神经网络模型进行模型训练，得到目标神经网络模型。

在本发明实施例中，由于第三神经网络模型中去除了目标卷积核，因此，可以对相应的BN层的维度进行调整。

针对第三神经网络模型中的每一BN层，按照该BN层的前一网络层输出数据的维度，对该BN层的维度进行调整，使得该BN层的维度与该BN层的前一网络层输出数据的维度一致，得到第四神经网络模型。

此时，第四神经网络模型的精确度低于第二神经网络模型的精确度，因此，为了恢复至第二神经网络模型的精确度，可以基于目标样本图像和原始损失函数，对第四神经网络模型再次进行模型训练，直至达到收敛，得到目标神经网络模型。

在一个实施例中，也可以直接将第四神经网络模型作为目标神经网络模型。

在一个实施例中，以第一神经网络模型为MobileNetV2为例进行说明，相应的，精确度可以用IoU(Intersection over Union，交并比)表示。

相应的，参见图6和图7，图6为本发明实施例提供的一种第二神经网络模型中一个BN层的γ的数值示意图。图7为本发明实施例提供的一种第二神经网络模型中一个BN层的β的数值示意图。

由图6和图7可见，基于目标损失函数训练得到的第二神经网络模型的BN层的模型参数中存在较多接近0的数值，也就是说，训练得到的第二神经网络模型是稀疏的。

参见图8、图9和图10，图8为上述MobileNetV2的BN层的模型参数的分布直方图。图9为对应的一种第二神经网络模型的BN层的模型参数的分布直方图。图10为对应的另一种第二神经网络模型的BN层的模型参数的分布直方图。

图9中，生成该第二神经网络模型所使用的目标损失函数中λ₁和λ₂为0.00001。图10中，生成该第二神经网络模型所使用的目标损失函数中λ₁和λ₂为0.0001。

可见，预设权重λ₁和λ₂越大，则正则化约束的作用越明显，也就是，得到的第二神经网络模型的BN层的模型参数的量级越小，相应的，基于得到的第二神经网络模型，确定出的目标神经网络模型的结构复杂度越低。

其中，图10对应的第二神经网络模型的精确度为0.866，基于图10对应的第二神经网络模型，确定出的第四神经网络模型的精确度为0.841，相对于该第二神经网络模型的精确度0.866，下降较大。因此，可以基于目标样本图像和原始损失函数，对该第四神经网络模型进行模型训练，直至达到收敛，得到目标神经网络模型，此时，目标神经网络模型的精确度能够达到0.864。

进而，将目标神经网络模型部署至移动端，对图像进行语义分割，并获取处理时长(称为第一处理时长)。

另外，可以获取基于原始损失函数对第一神经网络模型进行模型训练得到的第五神经网络模型，并获取基于第五神经网络模型对图像进行语义分割的处理时长(称为第二处理时长)。

第一处理时长相对于第二处理时长降低了22％。

基于相同的发明构思，本发明实施例还提供了一种神经网络模型生成方法，该方法可以包括以下步骤：

步骤一：获取预设结构的第一神经网络模型。

其中，第一神经网络模型包括至少一个批标准化BN层。

步骤二：基于目标样本图像和目标损失函数，对第一神经网络模型进行模型训练，得到第二神经网络模型。

其中，目标损失函数为基于原始损失函数和BN层的模型参数计算得到的；第二神经网络模型的输入参数为目标样本图像、输出参数为目标样本图像包含的对象属于预设对象类别的概率。

步骤三：确定第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型。

步骤四：基于第三神经网络模型，生成目标神经网络模型。

第二神经网络模型的输出参数为目标样本图像包含的对象属于预设对象类别的概率，也就是说，生成的第二神经网络模型可以用于对图像进行目标检测。即，针对输入的图像，第二神经网络模型能够确定出该图像中包含的对象属于预设对象类别的概率。例如，若第二神经网络模型用于检测图像中的人物，则针对输入的图像，第二神经网络模型能够确定出该图像中包含人物的概率。

相应的，基于第二神经网络模型确定出的第三神经网络模型，以及生成的目标神经网络模型也可以用于对图像进行目标检测。

步骤一至步骤四可以参考上述实施例中相关步骤的详细介绍。

参见图11，图11为本发明实施例提供的一种生成神经网络模型的原理示意图。

数据预处理：对原始样本图像进行增强处理，得到目标样本图像。

增加正则化约束：基于预设公式计算预设结构的第一神经网络模型中BN层对应的正则化约束，并计算各个BN层对应的正则化约束与原始损失函数的总和值，得到目标损失函数。

训练模型：基于目标样本图像和目标损失函数，对第一神经网络模型进行模型训练，得到第二神经网络模型(即稀疏模型)。此处的第二神经网络模型可以为用于对图像进行语义分割的模型，或，也可以为用于对图像进行目标检测的模型。

确定阈值，裁剪网络，权重迁移，Fine-tune(微调)：确定每一备选阈值对应的备选神经网络模型的精确度，以及第二神经网络模型的目标精确度；从各个备选阈值中，确定对应的备选神经网络模型的精确度与目标精确度的差值的绝对值小于预设数值的待处理阈值，并确定数值最大的待处理阈值，作为目标阈值。

进而，确定第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型；其中，目标卷积核为第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核。

针对第三神经网络模型中的每一BN层，按照该BN层的前一网络层输出数据的维度，对该BN层的维度进行调整，得到第四神经网络模型。基于目标样本图像和原始损失函数，对第四神经网络模型进行模型训练，直至达到收敛，得到目标神经网络模型(即最终模型)。

基于相同的发明构思，本发明实施例还提供了一种神经网络模型生成装置，参见图12，图12为本发明实施例提供的一种神经网络模型生成装置的结构图，该装置可以包括：

第一神经网络模型获取模块1201，用于获取预设结构的第一神经网络模型；其中，所述第一神经网络模型包括至少一个批标准化BN层；

第一训练模块1202，用于基于目标样本图像和目标损失函数，对所述第一神经网络模型进行模型训练，得到第二神经网络模型；其中，所述目标损失函数为基于原始损失函数和所述BN层的模型参数计算得到的；所述第二神经网络模型的输入参数为所述目标样本图像、输出参数为所述目标样本图像中每一像素点属于预设类别的概率；

第三神经网络模型获取模块1203，用于确定所述第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型；其中，所述目标卷积核为所述第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核；

目标神经网络模型获取模块1204，用于基于所述第三神经网络模型，生成目标神经网络模型。

可选的，所述装置还包括：

R＝λ₁|γ|+λ₂|β|

可选的，所述目标神经网络模型获取模块1204，具体用于针对所述第三神经网络模型中的每一BN层，按照该BN层的前一网络层输出数据的维度，对该BN层的维度进行调整，得到第四神经网络模型；

可选的，所述装置还包括：

确定数值最大的待处理阈值，作为目标阈值。

可选的，所述装置还包括：

基于相同的发明构思，本发明实施例还提供了一种神经网络模型生成装置，该装置可以包括：

本发明实施例还提供了一种电子设备，如图13所示，包括处理器1301、通信接口1302、存储器1303和通信总线1304，其中，处理器1301，通信接口1302，存储器1303通过通信总线1304完成相互间的通信，

存储器1303，用于存放计算机程序；

处理器1301，用于执行存储器1303上所存放的程序时，实现如下步骤：

获取预设结构的第一神经网络模型；其中，所述第一神经网络模型包括至少一个批标准化BN层；基于目标样本图像和目标损失函数，对所述第一神经网络模型进行模型训练，得到第二神经网络模型；其中，所述目标损失函数为基于原始损失函数和所述BN层的模型参数计算得到的；所述第二神经网络模型的输入参数为所述目标样本图像、输出参数为所述目标样本图像中每一像素点属于预设类别的概率；确定所述第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型；其中，所述目标卷积核为所述第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核；基于所述第三神经网络模型，生成目标神经网络模型；

或，获取预设结构的第一神经网络模型；其中，所述第一神经网络模型包括至少一个批标准化BN层；基于目标样本图像和目标损失函数，对所述第一神经网络模型进行模型训练，得到第二神经网络模型；其中，所述目标损失函数为基于原始损失函数和所述BN层的模型参数计算得到的；所述第二神经网络模型的输入参数为所述目标样本图像、输出参数为所述目标样本图像包含的对象属于预设对象类别的概率；确定所述第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型；其中，所述目标卷积核为所述第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核；基于所述第三神经网络模型，生成目标神经网络模型。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的神经网络模型生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的神经网络模型生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种神经网络模型生成方法，其特征在于，所述方法包括：

基于所述第三神经网络模型，生成目标神经网络模型。

2.根据权利要求1所述的方法，其特征在于，所述目标损失函数的计算过程包括：

R＝λ₁|γ|+λ₂|β|

3.根据权利要求1所述的方法，其特征在于，所述基于所述第三神经网络模型，生成目标神经网络模型，包括：

4.根据权利要求1所述的方法，其特征在于，在确定所述第二神经网络模型中除目标卷积核以外的网络模型结构，作为第三神经网络模型之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，在从各个备选阈值中，确定对应的备选神经网络模型的精确度满足预设条件，且数值最大的备选阈值，作为目标阈值之前，所述方法还包括：

确定数值最大的待处理阈值，作为目标阈值。

6.根据权利要求1所述的方法，其特征在于，在基于目标样本图像和目标损失函数，对所述第一神经网络模型进行模型训练，得到第二神经网络模型之前，所述方法还包括：

获取原始样本图像；

7.一种神经网络模型生成方法，其特征在于，所述方法包括：

基于所述第三神经网络模型，生成目标神经网络模型。

8.一种神经网络模型生成装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

R＝λ₁|γ|+λ₂|β|

10.根据权利要求8所述的装置，其特征在于，所述目标神经网络模型获取模块，具体用于针对所述第三神经网络模型中的每一BN层，按照该BN层的前一网络层输出数据的维度，对该BN层的维度进行调整，得到第四神经网络模型；

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

确定数值最大的待处理阈值，作为目标阈值。

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

14.一种神经网络模型生成装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6，或7任一所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6，或7任一所述的方法步骤。