CN114418128A

CN114418128A - 一种模型部署的方法及装置

Info

Publication number: CN114418128A
Application number: CN202210300510.5A
Authority: CN
Inventors: 王明辉
Original assignee: Xinhuasan Artificial Intelligence Technology Co ltd
Current assignee: Xinhuasan Artificial Intelligence Technology Co ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-04-29
Anticipated expiration: 2042-03-25
Also published as: CN114418128B

Abstract

本说明书公开了一种模型部署的方法及装置，网络设备中部署有智能芯片，该智能芯片中部署有预设的强化学习模型，该网络设备中部署有预设的轻量模型，该轻量模型的模型框架占用的存储空间，小于该强化学习模型的模型框架占用的存储空间，网络设备可以获取自身在设定时长内获得的经验数据，并根据经验数据，对该轻量模型进行训练，得到训练后的轻量模型，最后，根据训练后的轻量模型的网络参数，对强化学习模型进行更新，以使该网络设备通过更新后的强化学习模型，进行任务执行，相比于现有技术，不需要网络设备安装大型的模型框架以及通过智能芯片的软件栈对强化学习模型进行处理，从而节省了网络设备的计算资源，提高了网络设备的计算效率。

Description

一种模型部署的方法及装置

技术领域

本说明书涉及网络设备领域，尤其涉及一种模型部署的方法及装置。

背景技术

当前，在交换机、路由器等网络设备处实现边缘智能，能够使得网络设备在运行时为自己确定出更合理的策略。

在实际应用中，为了实现边缘智能，可以在网络设备端的智能芯片中部署强化学习模型，使得网络设备通过强化学习模型进行策略的确定，为了使强化学习模型学习到网络设备在运行过程中所获得的实际经验，网络设备需要根据自身所获得的经验数据不断地对该强化学习模型进行训练。

在现有技术中，通常会使用Pytorch、tensorflow框架下的强化学习模型进行训练，并将强化学习模型部署在智能芯片中，如图1所示。

图1为本说明书中提供的一种现有技术中进行模型部署的方式的示意图。

从图1中可以看出，网络设备端需要安装Pytorch、tensorflow等常用的模型框架以及软件栈（如，Cambricon软件栈），在模型框架下对强化学习模型进行训练，在训练得到强化学习模型后，需要通过安装的软件栈将训练后的模型进行转换，得到智能芯片能够读取的模型，从而将模型部署在智能芯片中，但是，这些模型框架以及软件栈所占用的存储空间通常较大，网络设备自身的存储空间有限，这种训练方式会造成网络设备在计算资源上较大的负担。

所以，如何将强化学习模型部署在网络设备上的同时，节约网络设备的计算资源，则是一个亟待解决的问题。

发明内容

本说明书提供一种模型部署的方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供一种模型部署的方法，网络设备中部署有智能芯片，所述智能芯片中部署有预设的强化学习模型，所述网络设备中部署有预设的轻量模型，所述轻量模型的模型框架占用的存储空间，小于所述强化学习模型的模型框架占用的存储空间，包括：

获取所述网络设备在设定时长内获得的经验数据；

根据所述经验数据，对所述轻量模型进行训练，得到训练后的轻量模型；

根据所述训练后的轻量模型的网络参数，对所述强化学习模型进行更新，以使所述网络设备通过更新后的强化学习模型，进行任务执行。

可选地，获取所述网络设备在设定时长内获得的经验数据，具体包括：

在所述设定时长内，通过所述强化学习模型确定所述网络设备在每个时刻所采取的执行策略，并针对每一时刻，获取所述网络设备在该时刻对应的状态数据、该时刻所述网络设备所采取的执行策略以及采取该执行策略后所述网络设备在下一时刻对应的状态数据，作为一组经验数据；

根据所述经验数据，对预设的轻量模型进行训练，得到训练后的网络参数，具体包括：

根据所述设定时长内获取到的每组经验数据，对所述轻量模型进行训练，得到训练后的网络参数。

可选地，根据所述训练后的轻量模型的网络参数，对所述强化学习模型进行更新，具体包括：

获取所述训练后的轻量模型对应的网络参数；

将所述网络参数转换为所述强化学习模型的模型框架下的网络参数，以得到所述强化学习模型的模型框架下的参数文件；

根据所述参数文件，对所述强化学习模型进行更新。

将所述网络设备中备份的强化学习模型的网络参数，替换为所述训练后的轻量模型的网络参数，得到更新后的强化学习模型，并将所述更新后的强化学习模型的模型数据发送给所述智能芯片，以使所述智能芯片将部署的原有的强化学习模型卸载，并加载所述更新后的强化学习模型。

将所述轻量模型中的网络参数进行取整，得到取整后的网络参数；

根据所述取整后的网络参数，对所述强化学习模型进行更新。

可选地，所述智能芯片中部署的强化学习模型，是指定设备通过预设的软件栈将经过训练的强化学习模型进行模型格式处理后，得到所述智能芯片能够加载的强化学习模型，作为目标强化学习模型，并将所述目标强化学习模型部署在所述网络设备内的智能芯片中的。

本说明书提供一种模型部署的装置，所述装置中部署有智能芯片，所述智能芯片中部署有预设的强化学习模型，所述装置中部署有预设的轻量模型，所述轻量模型的模型框架占用的存储空间，小于所述强化学习模型的模型框架占用的存储空间，包括：

获取模块，用于获取所述装置在设定时长内获得的经验数据；

训练模块，用于根据所述经验数据，对所述轻量模型进行训练，得到训练后的轻量模型；

更新模块，用于根据所述训练后的轻量模型的网络参数，对所述强化学习模型进行更新，以使所述装置通过更新后的强化学习模型，进行任务执行。

可选地，所述获取模块具体用于，在所述设定时长内，通过所述强化学习模型确定所述装置在每个时刻所采取的执行策略，并针对每一时刻，获取所述装置在该时刻对应的状态数据、该时刻所述装置所采取的执行策略以及在采取该执行策略后所述装置下一时刻对应的状态数据，作为一组经验数据；

所述训练模块具体用于，根据所述设定时长内获取到的每组经验数据，对所述轻量模型进行训练，得到训练后的网络参数。

可选地，所述更新模块具体用于，获取所述训练后的轻量模型对应的网络参数；将所述网络参数转换为所述强化学习模型的模型框架下的网络参数，以得到所述强化学习模型的模型框架下的参数文件；根据所述参数文件，对所述强化学习模型进行更新。

可选地，所述更新模块具体用于，将所述装置中备份的强化学习模型的网络参数，替换为所述训练后的轻量模型的网络参数，得到更新后的强化学习模型，并将所述更新后的强化学习模型的模型数据发送给所述智能芯片，以使所述智能芯片将部署的原有的强化学习模型卸载，并加载所述更新后的强化学习模型。

可选地，所述更新模块具体用于，将所述轻量模型中的网络参数进行取整，得到取整后的网络参数；根据所述取整后的网络参数，对所述强化学习模型进行更新。

可选地，所述智能芯片中部署的强化学习模型，是指定设备通过预设的软件栈将经过训练的强化学习模型进行模型格式处理后，得到所述智能芯片能够加载的强化学习模型，作为目标强化学习模型，并将所述目标强化学习模型部署在所述装置内的智能芯片中的。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型部署的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述模型部署的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

从上述模型部署的方法中可以看出，网络设备中部署有智能芯片，该智能芯片中部署有预设的强化学习模型，该网络设备中部署有预设的轻量模型，该轻量模型的模型框架占用的存储空间，小于该强化学习模型的模型框架占用的存储空间，网络设备可以获取自身在设定时长内获得的经验数据，并根据经验数据，对该轻量模型进行训练，得到训练后的轻量模型，最后，根据训练后的轻量模型的网络参数，对强化学习模型进行更新，以使该网络设备通过更新后的强化学习模型，进行任务执行。

从上述内容中可以看出，本说明书中的模型部署的方法，可以在需要将强化学习模型应用在网络设备端，并需要在网络设备端进行训练时，通过轻量模型代替该强化学习模型进行训练，并在得到训练后的轻量模型中的网络参数时，直接将原有强化学习模型的网络参数进行替换，从而可以直接得到能够部署在智能芯片的完成训练的强化学习模型，相比于现有技术，不需要安装大型的模型框架以及通过智能芯片的软件栈对强化学习模型进行处理，从而节省了网络设备的计算资源，提高了网络设备的计算效率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中提供的一种现有技术中进行模型部署的方式的示意图；

图2为本说明书提供的一种模型部署的方法的流程示意图；

图3为本说明书中提供的一种模型部署的方法的详细流程示意图；

图4为本说明书提供的一种模型部署的方法的流程示意图；

图5为本说明书提供的一种模型部署的装置示意图；

图6为本说明书提供的对应于图2或图4的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

在此基础上，本说明书提供了一种模型部署的方法，如图2所示。

图2为本说明书中提供的一种模型部署的方法的流程示意图，具体包括以下步骤：具体包括以下步骤。

S201：获取所述网络设备在设定时长内获得的经验数据。

S202：根据所述经验数据，对所述轻量模型进行训练，得到训练后的轻量模型。

S203：根据所述训练后的轻量模型的网络参数，对所述强化学习模型进行更新，以使所述网络设备通过更新后的强化学习模型，进行任务执行。

基于上述提到的现有技术，本说明书提供的模型部署方法能够在节省网络设备的计算资源的条件下，将强化学习模型在网络设备端进行训练，并部署在网络设备的智能芯片中。

该网络设备中部署有智能芯片，该智能芯片中部署有预设的强化学习模型，该网络设备中部署有预设的轻量模型，该轻量模型的模型框架占用的存储空间，小于强化学习模型的模型框架占用的存储空间。这里提到的网络设备可以是指交换机、路由器等网络设备。

其中，该强化学习模型可以被指定设备（如，服务器）预先构建出并在网络设备出厂时部署在该网络设备的智能芯片中，并且，由于智能芯片所能够读取的模型格式是存在限制的，因此该强化学习模型可以是指定设备将在该强化学习模型的模型框架（如，Pytorch框架、Tensorflow框架等常用的模型框架）下训练后得到的初始模型，通过智能芯片对应的软件栈进行处理后得到，并在网络设备出厂时部署在智能芯片中的。

由于网络设备需要对强化学习模型进行一定的训练，使得训练后的强化学习模型能够根据网络设备自身的情况，来进行业务策略的确定，因此需要每隔一段时间，通过自身所获得的经验数据，对强化学习模型进行训练，但是该强化学习模型本身的模型框架占用的存储空间又较大，需要通过轻量模型来代替该强化学习模型进行训练。

因此，网络设备可以获取自身在设定时长内获得的经验数据，并根据该经验数据，对预设的轻量模型进行训练，得到训练后的轻量模型的网络参数，其中，该轻量模型的模型框架占用的存储空间小于该强化学习模型的模型框架占用的存储空间。并且，构建出的该轻量模型的模型结构与上述强化学习模型是一致的(由于该轻量模型的模型框架是轻量的，而强化学习模型的模型框架是常用的模型框架，因此下面的说明中将该轻量模型的模型框架称之为轻量模型框架，将该强化学习模型的模型框架称之为常用模型框架)。

由于上述强化学习模型可以是在服务器端预先被训练并在网络设备出厂时部署在智能芯片中的，有一定的策略决策能力，因此，最初，网络设备还未进行训练时，网络设备可以通过该强化学习模型进行策略的确定，那么，此时网络设备获得的用于对轻量模型进行训练的经验数据，是通过该强化学习模型得到的。

具体的，网络设备可以在设定时长内，通过强化学习模型确定网络设备在每个时刻所采取的策略，并针对每一时刻，获取网络设备在该时刻对应的状态数据、网络设备在该时刻所采取的执行策略以及在采取该执行策略后该网络设备在下一时刻对应的状态数据，作为一组经验数据，并根据设定时长内获取到的每组经验数据，对轻量模型进行训练，得到该轻量模型训练后的网络参数。当然，一组经验数据中还可以包括在该时刻所采取执行策略后，下一时刻所获取的奖励。

将上述轻量模型进行训练后，网络设备可以根据该训练后的轻量模型的网络参数，对强化学习模型进行更新，以使该网络设备通过更新后的强化学习模型，进行任务执行。

具体的，网络设备可以将该网络设备中备份的强化学习模型中的网络参数，替换为训练后的轻量模型的网络参数，从而得到更新后的强化学习模型，并将更新后的强化学习模型的模型数据发送给智能芯片，以使该智能芯片将部署的原有的强化学习模型卸载，并加载上述更新后的强化学习模型，具体可以网络设备可以通过直接存储器访问（DirectMemory Access， DMA）方式将更新后的强化学习模型的模型数据发送给智能芯片。

也就是说，上述轻量模型所对应的模型框架占用的存储空间小，该轻量模型也是强化学习模型，与上述强化学习模型的结构一致，该轻量模型仅是用于训练，在训练完成后，则可以将强化学习模型中的网络参数替换为该轻量模型的网络参数，得到更新后的强化学习模型，以在智能芯片中部署更新后的强化学习模型，原有的强化学习模型卸载即可。

当然，对强化学习模型进行更新的方式不只上述一种，也可以将训练后的轻量模型的网络参数发送给智能芯片，以使智能芯片自身根据该网络参数，对部署的强化学习模型进行更新，这样能够更加节省网络设备的计算资源。

由于上述方式只需要将强化学习模型的网络参数进行替换即可，那么在网络设备端则不需要通过智能芯片的软件栈进行模型格式的转换（因为，该强化学习模型的格式已经是智能芯片所能够读取的模型的格式），不需要占用网络设备过多的内存。并且，由于只需要将强化学习模型的模型参数替换为训练后的轻量模型的网络参数，那么在此网络设备只需要一个轻量化的工具来实现这一功能即可，不再需要智能芯片的大型的软件栈。

在本说明书中，对上述轻量模型进行的训练过程可以是周期性的，即，在每一个业务周期内，可以获取到该业务周期内网络设备的经验数据，并通过该业务周期内的经验数据，通过获取到的该业务周期内的经验数据，对该轻量模型进行训练，得到训练后的轻量模型的网络参数，将强化学习模型的网络参数替换为训练后的轻量模型的网络参数，可以得到该业务周期更新得到的强化学习模型，以在下一业务周期，通过上一业务周期更新得到的强化学习模型，确定网络设备的策略，从而获取到下一业务周期内的经验数据，对上一业务周期训练后的轻量模型进行训练，以进行新一轮的强化学习模型的更新。

需要说明的是，由于上述强化学习模型最初是在常用模型框架下进行训练的，与轻量模型的模型框架（轻量模型框架）是不同的，因此，若是要对该强化学习模型进行网络参数的替换，需要获取训练后的轻量模型对应的网络参数，并将网络参数进行格式转换，将该网络参数转换为该强化学习模型的模型框架下的网络参数，从而得到该强化学习模型的模型框架下的参数文件，进而，可以根据该参数文件，对上述强化学习模型进行更新。

还需说明的是，由于智能芯片的存储空间有限，通常智能芯片中的所部署的模型中的网络参数需要进行量化，如，将该网络参数进行取整。

因此，在进行网络参数替换之前，可以将轻量模型中的网络参数进行取整，得到取整后的网络参数，并根据该取整后的网络参数，对上述强化学习模型进行更新。

下面通过一个完整的例子，对本说明书中的模型部署的方法进行说明，如图3所示。

图3为本说明书中提供的一种模型部署的方法的详细流程示意图。

从图3中可以看出，最初，可以在上述常用模型框架下进行初始的训练，得到最初的强化学习模型，并通过智能芯片对应的软件栈，将该强化学习模型进行处理，得到可以部署在智能芯片中的强化学习模型，该强化学习模型则是在网络设备出厂时，部署在智能芯片中的强化学习模型。

而在网络设备这一端，需要进行个性化的训练，使得强化学习模型能够依据网络设备自身的情况来进行策略的确定，因此，网络设备需要通过自身的经验数据，来训练另一模型框架（该模型框架是一个轻量的模型框架）下的轻量模型，得到新的网络参数，并将该网络参数转换为上述常用模型框架下的网络参数文件，使得可以将智能芯片中部署的强化学习模型的网络参数替换为新的网络参数，从而可以得到更新后的强化学习模型，以通过更新后的强化学习模型为网络设备进行策略的确定，进而进行任务执行。

以上是站在网络设备端的角度，对本说明书中的模型部署的方法进行说明的，由于该方法是需要在网络设备出厂之前，由指定设备（如，服务器）将强化学习模型训练出来，并进行一定的处理，才能将该强化学习模型部署在出厂后的网络设备中，因此，下面站在指定设备端的角度，对上述模型部署的方法进行说明，如图4所示。

图4为本说明书中提供的一种模型部署的方法的流程示意图，具体包括以下步骤：

S401：指定设备通过预设的软件栈将经过训练的强化学习模型进行处理，得到智能芯片能够加载的强化学习模型，作为目标强化学习模型。

S402：将所述目标强化学习模型部署在所述网络设备内的智能芯片中。

指定设备端主要用于训练初始的强化学习模型，后续的流程主要是在网络设备端进行。

指定设备需要训练强化学习模型，并通过预设的软件栈将该强化学习模型进行模型格式处理，得到智能芯片能够加载的强化学习模型，作为目标强化学习模型，并在网络设备出厂时将该目标强化学习模型部署在网络设备的智能芯片中，以使网络设备根据设定时长内获得的经验数据，对预设的轻量模型进行训练，得到训练后的轻量模型的网络参数，并根据该训练后的轻量模型的网络参数，对该强化学习模型进行更新，以使该网络设备通过更新后的强化学习模型，进行任务执行。

上述提到的指定设备可以存在多种，例如，服务器、笔记本、台式电脑以及大型的服务平台，在此不对该指定设备的具体形式进行限定。

其中，指定设备可以获取上述强化学习模型的模型框架下的模型数据，并根据该模型数据，训练该强化学习模型，当然，指定设备还需要获取到一些历史经验数据，来对该强化学习模型进行初始的训练。

例如，服务器可以获取历史经验数据，并根据该历史经验数据，训练第二模型框架下的强化学习模型，其中，该历史经验数据可以是通过若干网络设备在历史上执行不同的执行策略所产生的状态数据得到的，并且，该历史经验数据还可以在实验室通过实验获得。

上述提到的轻量模型的模型框架（轻量模型框架）可以是指DynNet框架，强化学习模型的模型框架（常用模型框架）可以包括Pytorch框架、Tensorflow框架等。由于轻量模型框架相比于常用模型框架，更注重于上述强化学习模型本身所需的算法，而常用模型框架则包含有众多机器学习（或强化学习）算法的数据，因此，轻量模型框架相比于常用模型框架所占用的存储空间大大降低。

从而，轻量模型框架也可以通过对常用模型框架的框架数据进行处理得到，例如，将常用模型框架的框架数据中所包含的与上述强化学习模型相关的算法无关的数据进行删除，得到删除后的框架数据，并将删除后的框架数据进行处理，则也可以得到轻量模型框架。

上述强化学习模型在网络设备上的应用场景可以存在多种，在此不进行限定，例如，网络设备可以通过该强化学习模型确定自身的风扇调速，相应的，在训练轻量模型（实质是通过该轻量模型训练该强化学习模型）时，可以获取每一时刻进行风扇调速的策略、状态数据可以包括（如噪音、能耗、温度等）以及下一时刻的状态信息，来对该轻量模型进行训练，并以噪声更低，能耗更低以及温度低于预设阈值为目标，对该轻量模型进行训练。再例如，还可以通过该强化学习模型进行网络设备（如交换机）的ECN水线配置，策略可以包括网络设备的数据转发等，状态数据可以包括数据流的速率等。

以上为本说明书的一个或多个实施例提供的模型部署的方法，基于同样的思路，本说明书还提供了模型部署的装置，如图5所示。

图5为本说明书提供的一种模型部署的装置的示意图，所述装置中部署有智能芯片，所述智能芯片中部署有预设的强化学习模型，所述装置中部署有预设的轻量模型，所述轻量模型的模型框架占用的存储空间，小于所述强化学习模型的模型框架占用的存储空间，具体包括：

获取模块501，用于获取所述装置在设定时长内获得的经验数据；

训练模块502，用于根据所述经验数据，对所述轻量模型进行训练，得到训练后的轻量模型；

更新模块503，用于根据所述训练后的轻量模型的网络参数，对所述强化学习模型进行更新，以使所述装置通过更新后的强化学习模型，进行任务执行。

可选地，所述获取模块501具体用于，在所述设定时长内，通过所述强化学习模型确定所述装置在每个时刻所采取的执行策略，并针对每一时刻，获取所述装置在该时刻对应的状态数据、该时刻所述装置所采取的执行策略以及在采取该执行策略后所述装置在下一时刻对应的状态数据，作为一组经验数据；所述训练模块502具体用于，根据所述设定时长内获取到的每组经验数据，对所述轻量模型进行训练，得到训练后的网络参数。

可选地，所述更新模块503具体用于，获取所述训练后的轻量模型对应的网络参数；将所述网络参数转换为所述强化学习模型的模型框架下的网络参数，以得到所述强化学习模型的模型框架下的参数文件；根据所述参数文件，对所述强化学习模型进行更新。

可选地，所述更新模块503具体用于，将所述装置中备份的强化学习模型的网络参数，替换为所述训练后的轻量模型的网络参数，得到更新后的强化学习模型，并将所述更新后的强化学习模型的模型数据发送给所述智能芯片，以使所述智能芯片将部署的原有的强化学习模型卸载，并加载所述更新后的强化学习模型。

可选地，所述更新模块503具体用于，将所述轻量模型中的网络参数进行取整，得到取整后的网络参数；根据所述取整后的网络参数，对所述强化学习模型进行更新。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述模型部署的方法。

本说明书还提供了图6所示的电子设备的示意结构图。如图6所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述模型部署的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种模型部署的方法，其特征在于，网络设备中部署有智能芯片，所述智能芯片中部署有预设的强化学习模型，所述网络设备中部署有预设的轻量模型，所述轻量模型的模型框架占用的存储空间，小于所述强化学习模型的模型框架占用的存储空间，包括：

获取所述网络设备在设定时长内获得的经验数据；

2.如权利要求1所述的方法，其特征在于，获取所述网络设备在设定时长内获得的经验数据，具体包括：

在所述设定时长内，通过所述强化学习模型确定所述网络设备在每个时刻所采取的执行策略，并针对每一时刻，获取所述网络设备在该时刻对应的状态数据、该时刻所述网络设备所采取的执行策略以及在采取该执行策略后所述网络设备在下一时刻对应的状态数据，作为一组经验数据；

3.如权利要求1所述的方法，其特征在于，根据所述训练后的轻量模型的网络参数，对所述强化学习模型进行更新，具体包括：

获取所述训练后的轻量模型对应的网络参数；

根据所述参数文件，对所述强化学习模型进行更新。

4.如权利要求1或3所述的方法，其特征在于，根据所述训练后的轻量模型的网络参数，对所述强化学习模型进行更新，具体包括：

5.如权利要求1所述的方法，其特征在于，根据所述训练后的轻量模型的网络参数，对所述强化学习模型进行更新，具体包括：

6.如权利要求1所述的方法，其特征在于，所述智能芯片中部署的强化学习模型，是指定设备通过预设的软件栈将经过训练的强化学习模型进行模型格式处理后，得到所述智能芯片能够加载的强化学习模型，作为目标强化学习模型，并将所述目标强化学习模型部署在所述网络设备内的智能芯片中的。

7.一种模型部署的装置，其特征在于，所述装置中部署有智能芯片，所述智能芯片中部署有预设的强化学习模型，所述装置中部署有预设的轻量模型，所述轻量模型的模型框架占用的存储空间，小于所述强化学习模型的模型框架占用的存储空间，包括：

8.如权利要求7所述的装置，其特征在于，所述获取模块具体用于，在所述设定时长内，通过所述强化学习模型确定所述装置在每个时刻所采取的执行策略，并针对每一时刻，获取所述装置在该时刻对应的状态数据、该时刻所述装置所采取的执行策略以及在采取该执行策略后所述装置下一时刻对应的状态数据，作为一组经验数据；

9.如权利要求7所述的装置，其特征在于，所述更新模块具体用于，获取所述训练后的轻量模型对应的网络参数；将所述网络参数转换为所述强化学习模型的模型框架下的网络参数，以得到所述强化学习模型的模型框架下的参数文件；根据所述参数文件，对所述强化学习模型进行更新。

10.如权利要求7或9所述的装置，其特征在于，所述更新模块具体用于，将所述装置中备份的强化学习模型的网络参数，替换为所述训练后的轻量模型的网络参数，得到更新后的强化学习模型，并将所述更新后的强化学习模型的模型数据发送给所述智能芯片，以使所述智能芯片将部署的原有的强化学习模型卸载，并加载所述更新后的强化学习模型。

11.如权利要求7所述的装置，其特征在于，所述更新模块具体用于，将所述轻量模型中的网络参数进行取整，得到取整后的网络参数；根据所述取整后的网络参数，对所述强化学习模型进行更新。

12.如权利要求7所述的装置，其特征在于，所述智能芯片中部署的强化学习模型，是指定设备通过预设的软件栈将经过训练的强化学习模型进行模型格式处理后，得到所述智能芯片能够加载的强化学习模型，作为目标强化学习模型，并将所述目标强化学习模型部署在所述装置内的智能芯片中的。

13.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~6任一项所述的方法。

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~6任一项所述的方法。