CN117591130A

CN117591130A - 一种模型部署的方法、装置、存储介质及电子设备

Info

Publication number: CN117591130A
Application number: CN202311559453.3A
Authority: CN
Inventors: 唐董琦; 李若愚
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-02-23

Abstract

本说明书公开了一种模型部署的方法、装置、存储介质及电子设备，在此方法中，目标设备对待调整模型进行多轮调整时，每一轮调整均会从待调整模型所包含网络层中，进行各待调整层的选取，并会根据使用调整策略后的调整后模型的预设运行时长以及调整后模型的预期的输出结果的精确度，来对初始调整策略进行筛选，以得到符合本轮调整的最佳调整策略，每一轮调整均会在上一轮调整后的调整策略进行，以此进行调整策略的逐步优化，并通过最后一轮调整从中确定目标策略，来对待调整模型进行调整，得到目标模型，并对其进行部署。这样一来，在一定程度上减少模型运行时的计算量，并在保证待调整模型输出准确度的前提下，提高运行效率并减少存储资源浪费。

Description

一种模型部署的方法、装置、存储介质及电子设备

技术领域

本说明书涉及计算机技术领域和人工智能领域，尤其涉及一种模型部署的方法、装置、存储介质及电子设备。

背景技术

随着人工智能的不断发展，人工智能模型目前已经应用在诸多领域中，如信息推荐、个人信息及数据的保护，智能驾驶等，而随着人工智能的性能的不断提升以及人工智能算法的不断优化，人工智能模型在各领域中的应用效果也将不断增强。

对于目前的诸多业务场景来说，通常需要人工智能模型能够快速响应，并且给出较为精准的输出结果，但是，如何能够兼顾人工智能模型的运行速度以及人工智能模型输出结果的准确性，则是目前一个亟待解决的技术难题。

发明内容

本说明书实施例提供一种模型部署的方法、装置、存储介质及电子设备，以部分解决上述现有技术存在的问题。

本说明书实施例采用下述技术方案：

本说明书提供的一种模型部署的方法，包括：

目标设备获取待调整模型的模型参数，并根据所述模型参数在本地部署所述待调整模型；

接收针对所述待调整模型的调整指令，以根据所述调整指令，确定所述待调整模型中所包含的网络层，并选取部分网络层，作为各待调整层；

根据每个待调整层对应的各参数精度选项，确定各候选调整策略；

针对每个候选调整策略，按照该候选调整策略，对所述待调整模型中的各待调整层的参数精度进行调整，得到该候选调整策略下对应的调整后模型，并将预设的样本数据输入到该候选调整策略下对应的调整后模型中，得到输出结果，以根据所述输出结果与所述样本数据对应的标准结果之间的偏差，确定该候选调整策略下对应的调整后模型的精确度；

根据每个候选调整策略下对应的调整后模型的精确度以及确定出的按照每个候选调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，从各候选调整策略中选取目标策略，并按照所述目标策略，调整所述待调整模型中所述目标策略针对的待调整层的参数精度，得到目标模型，以将所述目标模型进行部署。

可选地，选取部分网络层，作为各待调整层，具体包括：

针对每个网络层，根据该网络层的输入数据的维度数和/或该网络层的输出数据的维度数，确定该网络层对所述待调整模型的输出结果的影响程度；

根据每个网络层对所述待调整模型的输出结果的影响程度，从各网络层中选择部分网络层，作为各待调整层。

可选地，根据每个待调整层对应的参数精度选项，确定各候选调整策略，具体包括：

根据每个待调整层对应的参数精度选项，确定各初始调整策略；

针对每个初始调整策略，根据该初始调整策略中针对每个待调整层所选择的各参数精度选项的时间参数，预测按照该初始调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，作为该初始调整策略的运行时长，其中，针对每种参数精度选项，若是该参数精度选项对应的参数精度越低，该参数精度选项的时间参数越小；

根据每个初始调整策略的运行时长，从各初始调整策略中确定出各候选调整策略。

可选地，选取部分网络层，作为各待调整层，具体包括：

针对每轮调整，确定在该轮调整下选择出的部分网络层，作为该轮调整下的各待调整层；

根据每个待调整层对应的各参数精度选项，确定各候选调整策略，具体包括：

根据该轮调整下的每个待调整层对应的各参数精度选项，确定该轮调整下所使用的各候选调整策略；

根据每个候选调整策略下对应的调整后模型的精确度以及确定出的按照每个候选调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，从各候选调整策略中选取目标策略，具体包括：

根据每轮调整下的各候选调整策略对应的调整后模型的精确度以及确定出的按照每个调整下的各候选调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，从各轮调整下的各候选调整策略中选取目标策略。

本说明书提供的一种模型部署装置，包括：

获取模块，用于目标设备获取待调整模型的模型参数，并根据所述模型参数在本地部署所述待调整模型；

选取模块，用于接收针对所述待调整模型的调整指令，以根据所述调整指令，确定所述待调整模型中所包含的网络层，并选取部分网络层，作为各待调整层；

第一确定模块，用于根据每个待调整层对应的各参数精度选项，确定各候选调整策略；

第二确定模块，用于针对每个候选调整策略，按照该候选调整策略，对所述待调整模型中的各待调整层的参数精度进行调整，得到该候选调整策略下对应的调整后模型，并将预设的样本数据输入到该候选调整策略下对应的调整后模型中，得到输出结果，以根据所述输出结果与所述样本数据对应的标准结果之间的偏差，确定该候选调整策略下对应的调整后模型的精确度；

部署模块，用于根据每个候选调整策略下对应的调整后模型的精确度以及确定出的按照每个候选调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，从各候选调整策略中选取目标策略，并按照所述目标策略，调整所述待调整模型中所述目标策略针对的待调整层的参数精度，得到目标模型，以将所述目标模型进行部署。

可选地，所述选取模块具体用于，针对每个网络层，根据该网络层的输入数据的维度数和/或该网络层的输出数据的维度数，确定该网络层对所述待调整模型的输出结果的影响程度；根据每个网络层对所述待调整模型的输出结果的影响程度，从各网络层中选择部分网络层，作为各待调整层。

可选地，所述第一确定模块具体用于，根据每个待调整层对应的参数精度选项，确定各初始调整策略；针对每个初始调整策略，根据该初始调整策略中针对每个待调整层所选择的各参数精度选项的时间参数，预测按照该初始调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，作为该初始调整策略的运行时长，其中，针对每种参数精度选项，若是该参数精度选项对应的参数精度越低，该参数精度选项的时间参数越小；根据每个初始调整策略的运行时长，从各初始调整策略中确定出各候选调整策略。

可选地，所述选取模块具体用于，针对每轮调整，确定在该轮调整下选择出的部分网络层，作为该轮调整下的各待调整层；

所述第一确定模块具体用于，根据该轮调整下的每个待调整层对应的各参数精度选项，确定该轮调整下所使用的各候选调整策略；

所述部署模块具体用于，根据每轮调整下的各候选调整策略对应的调整后模型的精确度以及确定出的按照每个调整下的各候选调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，从各轮调整下的各候选调整策略中选取目标策略。

本说明书提供的一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种模型部署的方法。

本说明书提供的一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的一种模型部署的方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

本说明书实施例中目标设备会根据每个网络层对待调整模型的输出结果的影响程度，从各网络层中选择部分网络层作为各待调整层，根据每个待调整层对应的各精度选项，得到候选的调整策略，并依据每个候选的调整策略中包含的精度选项组合，对待调整模型中的各待调整层的参数精度进行调整，得到对应的调整后模型，进而，使用预设的样本数据输入到调整后模型以及待调整模型中，以确定该候选调整策略下对应的调整后模型的精确度，后续，通过每个候选策略对应的调整后模型的精确度以及调整后模型的运行时长，对各候选调整策略进行筛选，通过多轮调整，得到每轮调整下的符合条件的若干个调整策略，从中选出目标策略后，根据目标策略对待调整模型进行参数精度调整，得到目标模型，最终进行模型部署。

在此方法中，通过对待优化模型进行多轮调整，能够得到每轮调整下的符合运行时间和精确度的调整策略，且每轮调整均是在上一轮调整的基础上进行的，这样不仅可以保证进行调整的轮次越多，最终得到的调整策略优化效果越好，且能够在保证模型精确度的前提下，进一步对模型进行参数精度优化，减少计算量，大大提高了模型的运行速度并减少了存储资源浪费。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附

图中：

图1为本说明书实施例提供的一种模型部署的方法的流程示意图；

图2为本说明书实施例提供的一种模型部署装置的结构示意图；

图3为本说明书实施例提供的电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书实施例提供的一种模型部署的方法的流程示意图，包括：

S100：目标设备获取待调整模型的模型参数，并根据所述模型参数在本地部署所述待调整模型。

伴随着深度神经网络的不断应用，人工智能模型的规模也在逐步扩大，同时，数据量的增长和计算能力的提升，人工智能模型的性能也在不断优化，但是，在人工智能模型性能不断优化的同时，也在训练中引入了巨大的参数量和计算量，增加了计算难度及存储资源的消耗。

目前，主要是通过将模型参数精度调整为统一的精度，以达到降低计算量以及提高模型运行速度的目的，比如，将原始的模型参数的精度均统一转化成int8精度。

每一网络层均按照同样的精度进行调整，在一定程度上确实提高了模型的运行速度，但可能导致模型的输出结果的精确度降低，无法在做到模型运行速度快的同时保证模型输出的精确度。

综合上述问题，虽然现有技术也可以针对大规模模型进行参数精度的调整，但仍会造成资源浪费以及模型训练效率低的问题。

为了解决上述问题，在本说明书实施例中，目标设备根据每个网络层对待调整模型的输出结果的影响程度，从各网络层中选择部分网络层，作为各待调整层，根据每个待调整层对应的各精度选项，得到候选的调整策略，并依据每个候选的调整策略中包含的精度选项组合，对待调整模型中的各待调整层的参数精度进行调整，得到对应的调整后模型，之后，使用预设的样本数据输入到调整后模型以及待调整模型中，分别得到对应的输出结果，根据两者之间的偏差，来确定该候选调整策略下对应的调整后模型的精确度，通过多轮调整，得到每轮调整下的符合条件的若干个调整策略，进一步地，通过每个候选策略对应的调整后模型的精确度以及调整候模型的运行时长，对各候选调整策略进行筛选，得到目标策略，并根据目标策略对待调整模型进行参数精度调整，得到目标模型，最终进行模型部署。

在此方法中，通过对待优化模型进行多轮调整，能够得到每轮调整下的符合运行时间和精确度的调整策略，每一轮调整均会在上一轮调整后的调整策略进行，这样不仅可以保证进行调整的轮次越多，最终得到的调整策略优化效果越好，且能够在保证模型精确度的前提下，进一步对模型进行参数精度优化，减少计算量，大大提高了模型的运行速度并减少了资源浪费。

接下来，目标设备需要先获取到待调整模型的模型参数，这里提到的待调整模型可以是指经过预训练后得到的模型，而之所以称之为是待调整模型，是需要在后续过程中，对预训练后的模型中的模型参数进行精度调整，而本说明书中提及的目标设备可以是诸如台式电脑、笔记本电脑等终端设备，也可以是服务器，抑或是专门用于进行模型训练的专用设备。

目标设备在获取到待调整模型的模型参数后，可以根据模型参数在本地进行待调整模型的部署任务，以便后续目标设备对待调整模型进行参数调整操作。

在本说明书中，待调整模型可以具有多种形式，可以是大语言模型，如，聊天生成预训练变压器(Chat Generative Pre-trained Transformer，ChatGPT)等。

S102：接收针对所述待调整模型的调整指令，以根据所述调整指令，确定所述待调整模型中所包含的网络层，并选取部分网络层，作为各待调整层。

在本说明书实施例中，目标设备在接收到针对待调整模型的调整指令后，需要通过执行该调整指令，从待调整模型所包含的各网络层中选取出部分网络层，作为待调整层，也就是说，在后续过程中，需要对选取出的待调整层的模型参数的参数精度进行调整。

其中，目标设备选取待调整层的方式可以有多种，例如，目标设备可以根据每个网络层对该待调整模型的输出结果的影响程度，确定待调整模型需要进行调整的网络层。

具体的，目标设备在进行待调整网络层的选取时，会根据该网络层的输入数据的维度数和/或该网络层的输出数据的维度数，来得到该网络层对待调整模型的输出结果的影响程度的大小，进而，从整体网络层中选出需要进行参数精度调整的网络层，即，待调整层。

通常情况下，若是一个网络层的数据数据的维度数越高，则说明该网络层输出的结果对于模型最终的输出结果的影响程度也越高，该网络层对于推理出最终输出结果的贡献也越大，因此也需要更为慎重的调整该网络层的参数精度，反之，若是一个网络层的数据数据的维度数越低，则说明该网络层输出的结果对于模型最终的输出结果的影响程度可能也越低，该网络层对于推理出最终输出结果的贡献可能也越小，因此可以对该网络层的参数精度进行适当的调整，对于一个网络层的输出数据的维度数亦是如此。

所以，对于任意一个网络层来说，可以通过该网络层的输入数据的维度数和/或输出数据的维度数，来确定该网络层对待调整模型的输出结果的影响程度的大小。其中，可以仅根据该网络层的输入数据的维度数来确定其影响程度，也可以仅根据该网络层的输出数据的维度数来确定其影响程度，抑或是根据该网络层的输入数据的维度数以及输出数据的维度数，来确定其影响程度。

例如，假设一个256维的数据输入到待调整模型中后，需要经过各个网络层的依次处理后，得到最终的输出结果，对于待调整模型中的一个网络层来说，该网络层的输入数据的维度数为128维，与待调整模型最开始的输入数据相比，缩小了128维，则可以预先确定出的各维度数差值与各影响程度之间的对应关系，确定出该网络成的输入数据的维度数与待调整模型的输入数据的维度数的差值所对应的影响程度，即作为该网络层对应的影响程度，其中，若是差值越大，则说明该网络层的输入数据的维度数相比于最初的输入数据的维度数越小，那么，该网络层的影响程度也越小。

当然，在实际应用中，目标设备也可以随机从各网络层中选择部分网络层，作为待调整层。

S104：根据每个待调整层对应的各参数精度选项，确定各候选调整策略。

在本说明书中，参数精度选项包含有若干类型，且每种参数精度均有对应预测的调整后该网络层的时间参数，目标设备从每个待调整层所对应的各参数精度选项中进行该待调整网络层参数精度的选取时，可根据每个待调整层所对应的各参数精度选项进行组合，从而得到若干个初始调整策略。而后，目标设备可以针对每个初始调整策略，预测出使用该调整策略对待调整模型进行调整后的模型的运行时间，进而根据每个初始调整策略的运行时长，从各初始调整策略中确定出各候选调整策略。其中，对于任意一种参数精度选项来说，若是该参数精度选项对应的参数精度越低，则说明将一个网络层的参数精度按照该参数精度选项进行调整后，该网络层的运算时长也将降低，所以，该参数精度选项的时间参数越小。

所以，上述过程实际上可以理解为预先为各参数精度选项设置了与之对应的时间参数，因此，可以通过初始调整策略所包含的各参数精度选项的组合，来大致预测出按照该初始调整策略对待调整模型进行调整后得到的调整后模型的运行时长，以通过确定出的运行时长，这样，不需要通过实际的数据来运行模型以测得真实的运行时长，从而提升了模型的部署效率。而通过确定出的各初始调整策略的运行时长后，实际上可以通过这些运行时长完成对调整策略的一次筛选，得到各候选调整策略，那么，筛选出的各候选调整策略可以理解为是运行时长较短的一些调整策略。

例如，每一个待调整层可进行参数精度的选项有四种，分别为32位浮点数(floating-point number，fp32)、16位浮点数(floating-point number，fp16)、8位整数(int8)及4位整数(int4)，并且，每种参数精度均有对应的时间参数，分别为采用fp32浮点数，则调整后网络层耗时(即上述提到的时间参数)为1，采用fp16浮点数，则调整后网络层耗时记为0.5，采用int8整型，则调整后网络层耗时记为0.25，采用int4整型，则调整后网络层耗时记为0.125，其中，fp16、int8以及int4这三者对应的调整后网络层耗时，是相对于fp32来说的，也就是说，若该调整层进行调整之前是fp32，调整后是fp16，则调整后网络层对应的预测运行耗时是之前的0.5倍，以此类推，预测出的调整后模型的运行时长是每个网络层的时间参数的累加得到的。该待调整层在进行参数精度的选择时，会有多种组合的结果，如，待调整模型一共有10个网络层，从中选择4个作为待调整的网络层，则对待调整网络层来说，一共有256种初始调整策略，其中一个初始调整策略中包含的参数精度选项的组合为int8、int4、int4、int8，则基于这些参数精度选项对应的时间参数所预测出的调整后模型的运行时长可以认为是0.75，另一个初始调整策略中包含的参数精度选项的组合为fp32、int8、int4、int8，则基于这些参数精度选项对应的时间参数所预测出的调整后模型的运行时长可以认为是1.625，可以看出，前者的运行时长要小于后者，则前一个初始调整策略相比于后一个初始调整策略则有更高的概率被选择出来，作为候选调整策略。

在确定出各初始调整策略的运行时长后，可以通过预设的运行时长阈值，对这些初始调整策略进行筛选，选择出低于运行时长阈值的初始调整策略，作为各候选调整策略。

按照上述方法对各初始调整策略进行初次筛选，可以保证使用简单的方法快速筛选出来的各候选调整策略，能够尽可能地满足调整后模型在运行时长的需求，进而，减少后续需要进行进一步筛选的各调整策略的数量，提高了得到目标策略的速度以及模型部署的效率。

S106：针对每个候选调整策略，按照该候选调整策略，对所述待调整模型中的各待调整层的参数精度进行调整，得到该候选调整策略下对应的调整后模型，并将预设的样本数据输入到该候选调整策略下对应的调整后模型中，得到输出结果，以根据所述输出结果与所述样本数据对应的标准结果之间的偏差，确定该候选调整策略下对应的调整后模型的精确度。

在本说明书中，为了保证待调整模型使用目标策略后，既可以提高模型的运行效率，也可保证模型的输出结果的准确度，需要获得使用各候选调整策略后对应的调整后模型的输出结果的准确度，即，该准确度能够反映出模型输出结果的可信度的高低。基于此，目标设备可以根据调整后模型对预设样本数据的输出结果与标准结果之间的偏差，来得到调整后模型的输出结果的准确度。其中，若是偏差越大，则说明调整后模型的输出结果的准确度越低，反之则越高。

需要注意的是，这里提到的标准结果可以是预设的样本数据对应的标签结果(如通过专家经验预先标注得到的结果)，也可以是将预设的样本数据输入到待调整模型后，得到的输出结果。之所以可以将待调整模型的输出结果作为标准结果，是因为待调整模型是训练结束后得到的模型，可以认为是能够达到预期输出效果的。

通过确定出的使用各候选调整策略后对应的调整后模型的输出结果的准确度，可以对各候选调整策略进行进一步筛选，进一步确保在提高模型运行效率的同时，保证调整后模型的性能不会明显的衰减甚至有所提升。

S108：根据每个候选调整策略下对应的调整后模型的精确度以及确定出的按照每个候选调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，从各候选调整策略中选取目标策略，并按照所述目标策略，调整所述待调整模型中所述目标策略针对的待调整层的参数精度，得到目标模型，以将所述目标模型进行部署。

在本说明书中，由于对若干个初始调整策略进行初次筛选时，是按照初始调整策略对待调整层的参数精度调整后所预测出的调整后模型的运行时长来完成的，但是为了进一步地得到符合要求的目标策略，则在确定出每个候选调整策略下对应的调整后模型的精确度后，还可以进一步地结合每个候选调整策略对应的运行时长，从这些候选调整策略中筛选出目标策略。即，可以从精确度和运行时长两个角度出发，从各候选调整策略中选取出精确度较高，且运行时长相比于其他候选调整策略较短的目标策略。

需要说明的是，在对待调整模型进行参数调整时，是进行多轮调整，每一轮调整均会从待调整模型所包含网络层中，进行各待调整层的选取，其中，不同调整轮次下所选择出的各待调整层可以是不完全相同的。

而后，对于每轮调整，目标设备可以根据该轮调整下的每个待调整层对应的各参数精度选项，确定该轮调整下所使用的各候选调整策略，进而通过上述方式确定出该轮调整下的每个候选调整策略对应的调整后模型的精确度。

目标设备可以根据每轮调整下的各候选调整策略对应的调整后模型的精确度以及确定出的按照每个调整下的各候选调整策略对待调整模型进行调整后得到的调整后模型的运行时长，从各轮调整下的各候选调整策略中选取目标策略。

也就是说，本说明书提供的模型部署方法在实际应用中可以存在多轮目标策略的筛选，而后，从各轮调整中所筛选出的各目标策略中确定出最优的目标策略，来对待调整模型进行参数精度的调整，得到目标模型。

从上述方法可以看出，通过对待优化模型进行多轮调整，能够得到每轮调整下的符合运行时间和精确度的调整策略，且每轮调整均是在上一轮调整的基础上进行的，这样不仅可以保证进行调整的轮次越多，最终得到的调整策略优化效果越好，且能够在保证模型精确度的前提下，进一步对模型进行参数精度优化，减少计算量，大大提高了模型的运行速度并减少了存储资源浪费。

以上为本说明书实施例提供的一种模型部署的方法，基于同样的思路，本说明书还提供了相应的装置、存储介质和电子设备。

图2为本说明书实施例提供的一种模型部署装置的结构示意图，所述装置包括：

获取模块201，用于目标设备获取待调整模型的模型参数，并根据所述模型参数在本地部署所述待调整模型；

选取模块202，用于接收针对所述待调整模型的调整指令，以根据所述调整指令，确定所述待调整模型中所包含的网络层，并选取部分网络层，作为各待调整层；

第一确定模块203，用于根据每个待调整层对应的各参数精度选项，确定各候选调整策略；

第二确定模块204，用于针对每个候选调整策略，按照该候选调整策略，对所述待调整模型中的各待调整层的参数精度进行调整，得到该候选调整策略下对应的调整后模型，并将预设的样本数据输入到该候选调整策略下对应的调整后模型中，得到输出结果，以根据所述输出结果与所述样本数据对应的标准结果之间的偏差，确定该候选调整策略下对应的调整后模型的精确度；

部署模块205，用于根据每个候选调整策略下对应的调整后模型的精确度以及确定出的按照每个候选调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，从各候选调整策略中选取目标策略，并按照所述目标策略，调整所述待调整模型中所述目标策略针对的待调整层的参数精度，得到目标模型，以将所述目标模型进行部署。

可选地，所述选取模块202具体用于：针对每个网络层，根据该网络层的输入数据的维度数和/或该网络层的输出数据的维度数，确定该网络层对所述待调整模型的输出结果的影响程度；根据每个网络层对所述待调整模型的输出结果的影响程度，从各网络层中选择部分网络层，作为各待调整层。

可选地，所述第一确定模块203具体用于，根据每个待调整层对应的参数精度选项，确定各初始调整策略；针对每个初始调整策略，根据该初始调整策略中针对每个待调整层所选择的各参数精度选项的时间参数，预测按照该初始调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，作为该初始调整策略的运行时长，其中，针对每种参数精度选项，若是该参数精度选项对应的参数精度越低，该参数精度选项的时间参数越小；根据每个初始调整策略的运行时长，从各初始调整策略中确定出各候选调整策略。

可选地，所述选取模块202具体用于，针对每轮调整，确定在该轮调整下选择出的部分网络层，作为该轮调整下的各待调整层；

所述第一确定模块203具体用于，根据该轮调整下的每个待调整层对应的各参数精度选项，确定该轮调整下所使用的各候选调整策略；

所述部署模块205具体用于，根据每轮调整下的各候选调整策略对应的调整后模型的精确度以及确定出的按照每个调整下的各候选调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，从各轮调整下的各候选调整策略中选取目标策略。

本说明书还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可用于执行上述图1提供的一种模型部署的方法。

基于图1所示的一种模型部署的方法，本说明书实施例还提供了图3所示的电子设备的结构示意图。如图3，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的一种模型部署的方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种模型部署的方法，包括：

2.如权利要求1所述的方法，选取部分网络层，作为各待调整层，具体包括：

3.如权利要求1所述的方法，根据每个待调整层对应的参数精度选项，确定各候选调整策略，具体包括：

4.如权利要求1所述的方法，选取部分网络层，作为各待调整层，具体包括：

5.一种模型部署装置，包括：

6.如权利要求5所述的装置，所述选取模块具体用于，针对每个网络层，根据该网络层的输入数据的维度数和/或该网络层的输出数据的维度数，确定该网络层对所述待调整模型的输出结果的影响程度；根据每个网络层对所述待调整模型的输出结果的影响程度，从各网络层中选择部分网络层，作为各待调整层。

7.如权利要求5所述的装置，所述第一确定模块具体用于，根据每个待调整层对应的参数精度选项，确定各初始调整策略；针对每个初始调整策略，根据该初始调整策略中针对每个待调整层所选择的各参数精度选项的时间参数，预测按照该初始调整策略对所述待调整模型进行调整后得到的调整后模型的运行时长，作为该初始调整策略的运行时长，其中，针对每种参数精度选项，若是该参数精度选项对应的参数精度越低，该参数精度选项的时间参数越小；根据每个初始调整策略的运行时长，从各初始调整策略中确定出各候选调整策略。

8.如权利要求5所述的装置，所述选取模块具体用于，针对每轮调整，确定在该轮调整下选择出的部分网络层，作为该轮调整下的各待调整层；

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-4任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1-4任一项所述的方法。