CN114373090A

CN114373090A - 模型轻量化方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114373090A
Application number: CN202011095589.XA
Authority: CN
Inventors: 孔德群; 王晔; 王亚琦
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2022-04-19

Abstract

本发明公开了一种模型轻量化方法、装置、电子设备及计算机可读存储介质，属于人工智能领域。具体实现方案包括：获取原始图像分类模型，对所述原始图像分类模型的结构进行分析，得到精简后的第一网络结构；根据所述第一网络结构，构建搜索空间；在所述搜索空间内进行网络结构搜索，获得目标网络结构。根据本申请中的方案，在获得大型图像分类模型之后，可以基于精简分析后的网络结构，构建网络结构搜索空间，并搜索得到目标网络结构，从而实现网络结构轻量化，使得轻量化后的模型结构可以应用于资源受限的端侧设备。

Description

模型轻量化方法、装置、电子设备及计算机可读存储介质

技术领域

本发明属于人工智能领域，具体涉及一种模型轻量化方法、装置、电子设备及计算机可读存储介质。

背景技术

随着设备智能化程度的提高，考虑到数据隐私性及检测时效性要求，目前用于图像分类的图像分类模型常被要求部署在端侧设备上。但是，由于端侧设备对计算资源、存储资源及能耗的要求都较高，而现有图像分类模型往往具有较深的网络层次和大规模的网络参数，造成现有图像分类模型无法部署在资源受限的端侧设备上。

发明内容

本发明实施例的目的是提供一种模型轻量化方法、装置、电子设备及计算机可读存储介质，以解决现有图像分类模型无法部署在资源受限的端侧设备上的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种模型轻量化方法，包括：

获取原始图像分类模型；

对所述原始图像分类模型的结构进行分析，得到精简后的第一网络结构；

根据所述第一网络结构，构建搜索空间；

在所述搜索空间内进行网络结构搜索，获得目标网络结构。

可选的，所述对所述原始图像分类模型的结构进行分析，得到精简后的第一网络结构，包括：

确定所述原始图像分类模型中的各个目标层结构对所述原始图像分类模型的影响程度值；

选取影响程度值大于预设阈值的目标层结构构成所述第一网络结构。

可选的，所述确定所述原始图像分类模型中的各个目标层结构对所述原始图像分类模型的影响程度值，包括：

分别针对每个目标层结构，执行以下过程：

获取所述原始图像分类模型的第一输出结果，和获取第一模型的第二输出结果；其中，所述第一模型是将所述原始图像分类模型中的所述目标层结构的参数随机赋值后的模型；

计算所述第一输出结果和所述第二输出结果之间的互信息；

根据所述互信息，确定所述影响程度值；

其中，所述互信息越小，所述影响程度值越大。

可选的，所述根据所述互信息，确定所述影响程度值，包括：

对所述互信息进行标准化，得到标准化互信息；

根据所述标准化互信息，确定所述影响程度值。

可选的，所述在所述搜索空间内进行网络结构搜索，获得目标网络结构，包括：

利用如下的目标函数，在所述搜索空间内进行网络结构搜索，直至找到符合要求的目标网络结构；

其中，m表示目标网络结构，ACC(m)表示目标网络结构训练后得到的预测准确率，LAT(m)表示目标网络结构训练后得到的推理时延，T表示预设的目标推理时延；α为预设值，取值为[0，1]。

可选的，所述目标网络结构是利用知识蒸馏方法训练的，所使用的损失函数为：

L＝βL^soft×(1-β)L^hard

其中，L^soft表示所述目标网络结构的输出结果与所述原始图像分类模型的输出结果之间的交叉熵损失值，L^hard表示所述目标网络结构的输出结果与真实标签结果之间的交叉熵损失值；β为预设值，取值为[0，1]。

可选的，所述获得目标网络结构之后，所述方法还包括：

对所述目标网络结构进行分析，得到精简后的第二网络结构；

在所述第二网络结构的预测准确率满足预设条件的情况下，将所述第二网络结构确定为最终的目标网络结构。

第二方面，本发明实施例提供了一种神经网络结构搜索的装置，包括：

获取模块，用于获取原始图像分类模型；

分析模块，用于对所述原始图像分类模型的结构进行分析，得到精简后的第一网络结构；

构建模块，用于根据所述第一网络结构，构建搜索空间；

搜索模块，用于在所述搜索空间内进行网络结构搜索，获得目标网络结构。

可选的，所述分析模块包括：

确定单元，用于确定所述原始图像分类模型中的各个目标层结构对所述原始图像分类模型的影响程度值；

第一选取单元，用于选取影响程度值大于预设阈值的目标层结构构成所述第一网络结构。

可选的，所述确定单元具体用于：

分别针对每个目标层结构，执行以下过程：

计算所述第一输出结果和所述第二输出结果之间的互信息；

根据所述互信息，确定所述影响程度值；

其中，所述互信息越小，所述影响程度值越大。

可选的，所述确定单元还用于：对所述互信息进行标准化，得到标准化互信息，根据所述标准化互信息，确定所述影响程度值。

可选的，所述搜索模块具体用于：

L＝βL^soft×(1-β)L^hard

可选的，所述分析模块还用于：对所述目标网络结构进行分析，得到精简后的第二网络结构；

所述模型轻量化装置还包括：

确定模块，用于在所述第二网络结构的预测准确率满足预设条件的情况下，将所述第二网络结构确定为最终的目标网络结构。

第三方面，本发明实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

在本发明实施例中，可以对获取的原始图像分类模型的结构进行分析，得到精简后的第一网络结构，根据该第一网络结构，构建搜索空间，并在该搜索空间内进行网络结构搜索，获得目标网络结构。由此，在获得大型图像分类模型之后，可以基于精简分析后的网络结构，构建网络结构搜索空间，并搜索得到目标网络结构，从而实现网络结构轻量化，使得轻量化后的模型结构可以应用于资源受限的端侧设备。此外，借助构建的搜索空间进行网络结构搜索，还可以有效避免一般网络结构搜索中由于搜索空间过大导致的时间和资源的消耗，同时使得原始图像分类模型与目标网络之间的参数复用成为可能。

进一步的，本实施例中的模型轻量化方法，还可以针对不同结构的图像分类模型或者其他类模型进行有针对性的模型轻量化，实现网络结构的精简操作，同时减少网络结构搜索时间，获取拥有较高预测准确率、较高鲁棒性、较低计算实验的轻量化网络结构。并且，轻量化网络结构相较于原始图像分类模型，可以具有更加精简的网络结构以及更快的推理速度，更适用于比如智能物联网设备等资源受限的端侧设备。

附图说明

图1是本发明实施例提供的一种模型轻量化方法的流程图；

图2是本发明实施例提供的一种模型轻量化装置的结构示意图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

下面结合附图，通过具体的实施例及其应用场景对本发明实施例提供的模型轻量化方法进行详细地说明。

请参见图1，图1是本发明实施例提供的一种模型轻量化方法的流程图，该方法应用于电子设备，如图1所示，该方法包括如下步骤：

步骤101：获取原始图像分类模型。

本实施例中，上述原始图像分类模型适用的应用场景包括但不限于智慧交通(如红绿灯识别、行人检测等)、智慧医疗(如疾病检测等)、智慧工业(如瑕疵品识别等)、机器人(如目标检测、场景识别等)等多领域场景。

步骤102：对原始图像分类模型的结构进行分析，得到精简后的第一网络结构。

可选的，该原始图像分类模型可选用深度神经网络结构。该原始图像分类模型可以具有不同的网络结构，本实施例不对该原始图像分类模型的结构进行限制。

步骤103：根据第一网络结构，构建搜索空间。

本实施例中，该搜索空间的结点数优选为等于第一网络结构的结点数。进一步的，该搜索空间的结点数也可多于或者少于第一网络结构的结点数。

一种实施方式中，构建搜索空间的过程可以包括：首先，获取目标网络的操作集合；其中该操作集合与原始图像分类模型的类型相关，比如对于计算机视觉应用领域的网络模型，常见的操作包括：1*1卷积、3*3卷积、池化操作、非线性激活函数(如归一化指数函数Softmax、线性整流函数(Rectified Linear Unit，ReLU))等；然后，根据精简后的第一网络结构以及获取的操作集合，设计相应的搜索空间架构；该搜索空间架构初始设定为有向无环图，图中的每个结点可以对应卷积、池化等不同的网络操作；从输入(input)结点到结束的一个子图可以看作一个搜索得到的网络结构。这样由于所有网络结构搜索的输出结果均可视为搜索空间架构图的子图，因此，所有搜索得到的网络结构可以实现参数共用，从而提高网络搜索效率。

可选的，本实施例在构建搜索空间时，还可以结合识别图像中分类目标的情况比如大小等，设计相应的搜索空间架构。

步骤104：在搜索空间内进行网络结构搜索，获得目标网络结构。

需指出的，网络结构搜索即定义一个控制器网络，控制器网络的输出即相应搜索得到的网络结构。控制器网络可在定义的搜索空间中进行搜索，控制器网络获取目标网络结构，通过在指定数据集上训练目标网络获取目标网络的识别准确率，将获取到的识别准确率反馈给控制器网络，控制器网络根据目标网络的识别准确率优化自身的网络参数，此过程迭代进行，直至找到符合要求的目标网络结构。

本发明实施例中，可选的，上述对原始图像分类模型的结构进行分析的过程可以包括：首先，确定原始图像分类模型中的各个目标层结构对该原始图像分类模型的影响程度值；然后，选取影响程度值大于预设阈值的目标层结构构成第一网络结构。其中，该预设阈值可以基于实际需求预先设置。这样，可以基于交叉对比选择出对原始图像分类模型的影响程度较大的目标层结构作为保留结构，从而提升后续构建的搜索空间的准确性。

进一步的，上述确定原始图像分类模型中的各个目标层结构对该原始图像分类模型的影响程度值的过程可以包括：

分别针对每个目标层结构，执行以下过程：

获取原始图像分类模型的第一输出结果，和获取第一模型的第二输出结果；其中，所述第一模型是将所述原始图像分类模型中的所述目标层结构的参数随机赋值后的模型；在获取第一输出结果和第二输出结果时，需对原始图像分类模型和第一模型使用相同的输入数据；

计算第一输出结果和第二输出结果之间的互信息；即确定第一输出结果和第二输出结果之间的差异性；

根据所述互信息，确定所述影响程度值；其中，所述互信息越小，所述影响程度值越大；在根据互信息确定相应的影响程度值时，可以借助求取倒数等运算方式来确定。

需指出的，互信息是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。互信息可以表示两幅图像之间的相似度，当两幅图像的相似度越高时互信息越大。

此外，除了利用互信息来确定第一输出结果和第二输出结果之间的差异性之外，还可以利用其他度量方法如欧式距离、马氏距离等衡量两个输出结果之间的差异性，从而确定出相应目标层结构对原始图像分类模型的影响。

进一步的，为了保证一致性，在根据互信息确定相应的影响程度值时，可以首先对该互信息进行标准化，得到标准化互信息，然后根据所述标准化互信息，确定相应的影响程度值。

一种实施方式中，对原始图像分类模型的结构进行基于交叉对比的精简分析的过程可以包括：

S1：自动化选取原始图像分类模型中的目标层结构，并将该目标层结构的参数随机初始化，比如初始化为0。

S2：利用S1中得到的模型对目标数据进行推理，获取初始化该目标层结构参数后的模型的输出结果2。

S3：采用如下公式计算输出结果1与输出结果2之间的互信息，该输出结果1为利用原始图像分类模型对目标数据进行推理得到的输出结果。

其中，I(X,Y)表示两个随机变量X与Y互信息，X表示输出结果1，Y表示输出结果2；p(x，y)是X和Y的联合概率分布函数，p(x)和p(y)分别是X和Y的边缘概率分布函数。由于互信息适用于比较两张图片之间的相似性，因此对各层网络结构的多通道图片的输出，计算相应的互信息。

S4：为了保证一致性以及后续阈值划分的准确性，采用如下公式对S3中的I(X,Y)计算标准化互信息NMI：

其中，H(X)和H(Y)分别表示X和Y的信息熵。NMI为标准化的互信息，其值介于0到1之间，当X与Y差异较小时，NMI趋近于1，反之趋紧于0。

S5：通过统计原始图像分类模型中各层结构对互信息的影响，设定影响阈值θ，选取去掉(对应参数初始化为0)目标层结构后对模型输出结果的影响大于影响阈值θ的结构作为保留结构。

其中，影响阈值θ的设定方法可选为：首先对获取到的全部NMI进行统计分析，然后根据模型压缩目标选取影响程度前百分之k的目标层，并基于影响程度排名k的目标层对应的NMI来设定影响阈值θ。

本发明实施例中，可选的，上述在搜索空间内进行网络结构搜索，获得目标网络结构的过程可以包括：

其中，m表示目标网络结构，ACC(m)表示目标网络结构训练后得到的预测准确率，LAT(m)表示目标网络结构训练后得到的推理时延，T表示预设的目标推理时延；α为预设值，取值为[0，1]。这样在进行网络结构搜索的过程中，不仅考虑目标网络的预测正确率，同时考虑到目标网络的鲁棒性、计算时延等，使得输出的目标网络在预测准确率尽可能高的前提下拥有更轻量的网络结构。

可理解的，由于推理时延与预测准确率一般无法同时达到最优，因此设置了参数T，T表示预设的目标推理时延，当目标网络的推理时延接近目标时延时，控制器网络倾向于搜索准确率更高的目标网络，反之则倾向于搜索推理时延更短的目标网络。对于控制器网络可以通过梯度下降的方式进行优化，获取最终的目标网络结构输出。

需指出的，在搜索空间内进行网络结构搜索的过程中，当达到目标迭代次数或者相邻两次训练的损失函数变化过小时，可以结束控制器网络的训练和网络结构搜索，获得符合要求的目标网络结构。

可选的，上述目标网络结构是利用知识蒸馏方法训练的，以通过优化蒸馏损失提升收敛速度，获取网络预测准确率。训练中使用的损失函数为：

L＝βL^soft×(1-β)L^hard

其中，L^soft表示目标网络结构的输出结果与原始图像分类模型的输出结果之间的交叉熵损失值，L^hard表示目标网络结构的输出结果与真实标签结果之间的交叉熵损失值；β为预设值，取值为[0，1]。这样，使用蒸馏损失可以加快目标网络收敛速度，提高网络搜索效率。

进一步的，在找到符合要求的目标网络结构之后，可以再次利用蒸馏损失，使用训练数据在原始图像分类模型的辅助下进行训练，获取最终的目标网络模型。

进一步的，由于目标设备的资源受限，在获得目标网络结构之后，本实施例中还可以对该目标网络结构进行分析，得到精简后的第二网络结构，并在该第二网络结构的预测准确率满足预设条件的情况下，将该第二网络结构确定为最终的目标网络结构。其中，得到该第二网络结构的方式可以参见上述得到第一网络结构的方式，在此不再赘述。

例如，获得的目标网络结构为Ψ_f，对该目标网络结构Ψ_f进行精简分析后得到的网络结构为Ψ'_f，则可以对比Ψ_f和Ψ'_f的预测准确率：若Ψ'_f的预测准确率下降在可接受范围之内，如Ψ_f的预测准确率为94％，Ψ'_f的预测准确率为90％，可接受的预测准确率下降范围在5％以内，则选择Ψ'_f作为最终的轻量化后的网络结构。

请参见图2，图2是本发明实施例提供的一种模型轻量化装置的结构示意图，该装置应用于电子设备，如图2所示，该模型轻量化装置20包括：

获取模块21，用于获取原始图像分类模型；

分析模块22，用于对所述原始图像分类模型的结构进行分析，得到精简后的第一网络结构；

构建模块23，用于根据所述第一网络结构，构建搜索空间；

搜索模块24，用于在所述搜索空间内进行网络结构搜索，获得目标网络结构。

可选的，所述分析模块21包括：

可选的，所述确定单元具体用于：

分别针对每个目标层结构，执行以下过程：

获取所述原始图像分类模型的第一输出结果，和获取第一模型的第二输出结果；其中，所述第一模型是从所述原始图像分类模型去掉所述目标层结构后的模型；

计算所述第一输出结果和所述第二输出结果之间的互信息；

根据所述互信息，确定所述影响程度值；

其中，所述互信息越小，所述影响程度值越大。

可选的，所述搜索模块23具体用于：

L＝βL^soft×(1-β)L^hard

所述模型轻量化装置20还包括：

可理解的，本发明实施例的模型轻量化装置20，可以实现上述图1所示的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

此外，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可以实现上述图1所示方法实施例的各个过程且能达到相同的技术效果，为避免重复，这里不再赘述。

请参见图3所示，本发明实施例还提供了一种电子设备30，包括总线31、收发机32、天线33、总线接口34、处理器35和存储器36。

在本发明实施例中，电子设备30还包括：存储在存储器36上并可在处理器35上运行的计算机程序。可选的，所述计算机程序被处理器35执行时可实现如下步骤：

获取原始图像分类模型；

根据所述第一网络结构，构建搜索空间；

在所述搜索空间内进行网络结构搜索，获得目标网络结构。

可理解的，所述计算机程序被处理器35执行时可实现上述图1所示方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

在图3中，总线架构(用总线31来代表)，总线31可以包括任意数量的互联的总线和桥，总线31将包括由处理器35代表的一个或多个处理器和存储器36代表的存储器的各种电路链接在一起。总线31还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口34在总线31和收发机32之间提供接口。收发机32可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器35处理的数据通过天线33在无线介质上进行传输，进一步，天线33还接收数据并将数据传送给处理器35。

处理器35负责管理总线31和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器36可以被用于存储处理器35在执行操作时所使用的数据。

可选的，处理器35可以是CPU、ASIC、FPGA或CPLD。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时可实现上述图1所示方法实施例的各个过程且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台服务分类设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种模型轻量化方法，其特征在于，包括：

获取原始图像分类模型；

根据所述第一网络结构，构建搜索空间；

在所述搜索空间内进行网络结构搜索，获得目标网络结构。

2.根据权利要求1所述的方法，其特征在于，所述对所述原始图像分类模型的结构进行分析，得到精简后的第一网络结构，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述原始图像分类模型中的各个目标层结构对所述原始图像分类模型的影响程度值，包括：

分别针对每个目标层结构，执行以下过程：

计算所述第一输出结果和所述第二输出结果之间的互信息；

根据所述互信息，确定所述影响程度值；

其中，所述互信息越小，所述影响程度值越大。

4.根据权利要求3所述的方法，其特征在于，所述根据所述互信息，确定所述影响程度值，包括：

对所述互信息进行标准化，得到标准化互信息；

根据所述标准化互信息，确定所述影响程度值。

5.根据权利要求1所述的方法，其特征在于，所述在所述搜索空间内进行网络结构搜索，获得目标网络结构，包括：

6.根据权利要求5所述的方法，其特征在于，所述目标网络结构是利用知识蒸馏方法训练的，所使用的损失函数为：

L＝βL^soft×(1-β)L^hard

7.根据权利要求1所述的方法，其特征在于，所述获得目标网络结构之后，所述方法还包括：

8.一种模型轻量化装置，其特征在于，包括：

获取模块，用于获取原始图像分类模型；

构建模块，用于根据所述第一网络结构，构建搜索空间；

9.根据权利要求8所述的装置，其特征在于，所述分析模块包括：

10.根据权利要求9所述的装置，其特征在于，所述搜索模块具体用于：

11.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的模型轻量化方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的模型轻量化方法的步骤。