CN115145592A

CN115145592A - 离线模型部署方法和装置、网络设备、分析器

Info

Publication number: CN115145592A
Application number: CN202211067573.7A
Authority: CN
Inventors: 王明辉
Original assignee: New H3C Technologies Co Ltd
Current assignee: New H3C Technologies Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-10-04

Abstract

本公开实施例提供一种离线模型部署方法和装置、网络设备、分析器，所述方法包括：将本设备的状态信息发送至分析器，以使所述分析器基于本设备的状态信息对本设备的AI推理芯片上部署的当前离线模型进行训练，得到目标离线模型；获取所述分析器发送的所述目标离线模型的模型文件的存储位置和文件名；基于所述模型文件的存储位置和文件名对所述模型文件进行下载；通知本设备上的目标AI应用将下载的模型文件下刷到所述AI推理芯片，以使所述AI推理芯片对所述当前离线模型进行更新。

Description

离线模型部署方法和装置、网络设备、分析器

技术领域

本公开涉及人工智能技术领域，尤其涉及离线模型部署方法和装置、网络设备、分析器。

背景技术

目前，很多边缘节点（例如网络设备）上都会安装AI推理芯片，AI推理芯片可以部署离线模型，从而对输入的数据进行推理计算。一些离线模型需要周期性地通过经验回放的方式进行重新训练。然而，重新训练的离线模型需要通过软件栈来生成可以在AI推理芯片上的模型文件，而软件栈所依赖的数据包比较大，难以在边缘节点上部署；并且，AI推理芯片往往仅具有AI推理功能，而不具有AI训练功能。因此，难以在边缘节点上对离线模型进行重新训练，从而导致这些需要周期性地进行重新训练的离线模型在边缘节点上的应用受到限制。

发明内容

第一方面，本公开实施例提供一种离线模型部署方法，应用于网络设备，所述方法包括：

将本设备的状态信息发送至分析器，以使所述分析器基于本设备的状态信息对本设备的AI推理芯片上部署的当前离线模型进行训练，得到目标离线模型；

获取所述分析器发送的所述目标离线模型的模型文件的存储位置和文件名；

基于所述模型文件的存储位置和文件名对所述模型文件进行下载；

通知本设备上的目标AI应用将下载的模型文件下刷到所述AI推理芯片，以使所述AI推理芯片对所述当前离线模型进行更新。

在一些实施例中，所述通知本设备上的目标AI应用将下载的模型文件下刷到所述AI推理芯片，包括：

将本设备上运行的AI应用中应用名与所述模型文件的文件名相对应的AI应用确定为目标AI应用；

通知所述目标AI应用将下载的模型文件下刷到所述AI推理芯片。

在一些实施例中，本设备与所述分析器通过第一接口相连接，所述模型文件的存储位置和文件名由所述分析器调用所述第一接口发送到本设备；和/或

本设备与所述分析器通过第二接口相连接，本设备通过调用所述第二接口对所述模型文件进行下载。

在一些实施例中，所述目标AI应用基于以下方式将下载的模型文件下刷到所述AI推理芯片：

获取所述当前离线模型的任务执行状态，所述当前离线模型的任务执行状态用于表征所述当前离线模型是否正在执行推理任务；

若所述当前离线模型的任务执行状态表征所述当前离线模型正在执行推理任务，在所述推理任务执行完成之后，暂停所述当前离线模型执行新的推理任务，并将下载的模型文件下刷到所述AI推理芯片。

在一些实施例中，所述基于所述模型文件的存储位置和文件名对所述模型文件进行下载，包括：

基于所述模型文件的存储位置和文件名将所述模型文件下载到本设备中的第一存储地址；所述第一存储地址预先映射到所述AI推理芯片中的第二存储地址；

所述目标AI应用基于以下方式将下载的模型文件下刷到所述AI推理芯片：

基于所述第一存储地址与所述第二存储地址之间的映射关系，从所述第一存储地址获取下载的模型文件，并将下载的模型文件下刷到所述第二存储地址。

在一些实施例中，所述将本设备的状态信息发送至分析器，包括：

获取所述分析器对所述状态信息的订阅请求；

基于所述分析器对所述状态信息的订阅请求将本设备的状态信息发送至分析器。

在一些实施例中，本设备在当前时刻的状态信息基于所述当前离线模型对本设备在上一时刻的状态信息的推理计算结果得到。

第二方面，本公开实施例提供一种离线模型部署方法，应用于分析器，所述方法包括：

接收网络设备发送的所述网络设备的状态信息；

基于所述网络设备的状态信息对所述网络设备的AI推理芯片上部署的当前离线模型进行训练，得到目标离线模型；

将所述目标离线模型的模型文件的存储位置和文件名发送至所述网络设备，以使所述网络设备基于所述模型文件的存储位置和文件名对所述模型文件进行下载，下载的模型文件用于对所述当前离线模型进行更新。

第三方面，本公开实施例提供一种离线模型部署装置，应用于网络设备，所述装置包括：

第一发送模块，用于将本设备的状态信息发送至分析器，以使所述分析器基于本设备的状态信息对本设备的AI推理芯片上部署的当前离线模型进行训练，得到目标离线模型；

获取模块，用于获取所述分析器发送的所述目标离线模型的模型文件的存储位置和文件名；

下载模块，用于基于所述模型文件的存储位置和文件名对所述模型文件进行下载；

通知模块，用于通知本设备上的目标AI应用将下载的模型文件下刷到所述AI推理芯片，以使所述AI推理芯片对所述当前离线模型进行更新。

第四方面，本公开实施例提供一种离线模型部署装置，应用于分析器，所述装置包括：

接收模块，用于接收网络设备发送的所述网络设备的状态信息；

训练模块，用于基于所述网络设备的状态信息对所述网络设备的AI推理芯片上部署的当前离线模型进行训练，得到目标离线模型；

第二发送模块，用于将所述目标离线模型的模型文件的存储位置和文件名发送至所述网络设备，以使所述网络设备基于所述模型文件的存储位置和文件名对所述模型文件进行下载，下载的模型文件用于对所述当前离线模型进行更新。

第五方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

第六方面，本公开实施例提供一种网络设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的应用于网络设备的方法。

第七方面，本公开实施例提供一种分析器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的应用于分析器的方法。

在本公开实施例中，通过将网络设备的状态信息发送给分析器，从而能够在分析器中对当前离线模型进行训练，训练出的目标离线模型可以部署到AI推理芯片上，并更新当前离线模型。这样，就完成了旧模型（当前离线模型）到新模型（目标离线模型）的切换，使得能够周期性地通过经验回放的方式对AI推理芯片上部署的当前离线模型进行重新训练，从而能够将强化学习网络等需要周期性地进行重新训练的离线模型也能够应用于网络设备中，实现边缘智能。在万物皆可AI的智能时代，具有重要意义，将极大地提高网络设备的性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是一些实施例的网络设备的应用场景的示意图。

图2是使用Pytorch模型文件制作离线模型的流程图。

图3是一些实施例的强化学习网络的原理示意图。

图4是本公开实施例的离线模型部署方法的流程图。

图5是云边协同方案的实现框图。

图6是网络设备在线模型升级过程的实现框图。

图7是本公开另一实施例的离线模型部署方法的流程图。

图8是本公开实施例的离线模型部署装置的框图。

图9是本公开另一实施例的离线模型部署装置的框图。

图10是本公开实施例的网络设备/分析器的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

参见图1，网络环境的智能运维，往往通过NETCONF协议提供对交换机、路由器等网络设备101的管理，网络设备101则通过Telemetry协议将网络设备101侧的状态信息发送给分析器102，由分析器102负责对网络设备101的状态信息进行分析和处理，例如，对网络设备101进行网络状态评估，和/或对网络设备101的各个端口和链路的流量监控等。Telemetry协议是一项监控设备性能和故障的远程高速数据采集技术。gRPC协议是Telemetry协议的一种，通过推模式（Push Mode）主动把网络设备101的状态信息上送给采集器，从而实现比传统的简单网络管理协议（Simple Network Management Protocol，SNMP）查询方式更实时、更高效的数据采集性能。

网络设备101可用于边缘节点中。在智能时代，万物皆AI。网络设备101需要考虑如何更好拥抱AI，为设备智慧赋能。因此发挥网络设备101的AI算力，实现本地智能、边缘智能，是网络设备101厂商需要考虑的一个重要问题。其中，边缘智能是边缘节点在边缘侧提供的高级数据分析、场景感知、实时决策、自组织与协同等服务，即在交换机等网络设备101上直接接收采集数据并进行算法分析和决策。可以在边缘节点上安装AI推理芯片103，并在AI推理芯片103中部署离线模型来实现边缘智能。还可以在边缘节点上安装AI应用。边缘节点可以采集本节点的状态信息，并通过AI应用将采集的状态信息整理为AI推理芯片103的输入格式后发送给AI推理芯片103，由AI推理芯片103上部署的离线模型基于该状态信息进行推理计算，得到推理结果。AI应用可以基于推理结果选择针对边缘节点所执行的动作（也称为配置信息），并基于配置信息对边缘节点执行相应的操作，从而改变边缘节点的状态信息。

目前，部署在网络设备101等边缘节点上的AI推理芯片103能够支持卷积离线模型（Convolutional Neural Networks，CNN）、长短期记忆网络（Long Short-Term Memory，LSTM）等深度学习算法进行推理计算。AI芯片一般都有一套自己的软件栈，用于制作算法离线模型。例如，可以将Tensorflow、Python等深度学习框架训练好的模型，经量化等处理后得到最终的离线模型。如图2所示，pytorch模型经Cambricon软件栈处理得到可以在AI推理芯片103上运行的离线模型。例如，可以先利用Pytorch的Python API构造并训练模型，得到模型文件.pth或者从torchvision获取模型文件；再利用Cambricon Pytorch提供的quantization_tool.py工具生成INT模型文件；然后，利用Cambricon Pytorch提供的genoff.py工具生成离线模型offline.cambricon；最后，还可以利用CNRT提供的API，构建代码，运行离线模型，从而进行离线推理。

然而，目前的网络设备101尚不支持在AI推理芯片103中部署基于强化学习（Reinforcement Learning）算法的离线模型。强化学习从动物学习、参数扰动自适应控制等理论发展而来，其基本原理可参见图3，如果Agent（智能体）的某个行为策略导致环境正的强化信号（奖赏），那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

强化学习把学习看作试探评价过程，Agent选择一个动作用于环境，环境接收该动作后状态信息发生变化，同时产生一个强化信号（奖赏或惩罚）反馈给Agent，Agent根据强化信号和环境当前的状态信息再选择下一个动作，选择的原则是使受到正的强化信号的概率增大。选择的动作不仅影响立即强化信号，而且影响环境下一时刻的状态信息及最终的强化信号。在将强化学习网络应用于网络设备101时，Agent即为AI应用，环境即为网络设备101，Agent选择的动作即为对网络设备101的配置信息。

例如，DQN（Deep Q-Learning Network）就是一种将深度学习(Deep Learning)与强化学习相结合的离线模型，其实现了从感知到动作的端到端的革命性算法。DQN是基于值迭代的算法，通过深度离线模型拟合一个函数（function）来产生Q值，使得相近的状态得到相近的输出动作。由于深度强化学习网络需要不断从环境中去学习，因此在部署DQN之后，还需要周期性地通过经验回放（Experience Replay）的方式对离线模型进行重新训练。

然而，通过图2可以看出，制作离线模型的过程中涉及到Pytorch深度学习框架和Cambricon软件栈，其中包括大量的依赖包，每一个都是好几个G的大小，很难在交换机等网络设备101上部署。这就使得AI推理芯片103中采用的离线模型无法在设备自身进行训练并生成。并且，很多AI推理芯片103仅具有推理功能，没有训练功能。这使得强化学习网络难以在边缘节点的AI推理芯片103上应用。由于强化学习网络在许多网络智能应用中都是首选的算法，因此，有必要对上述问题进行改善，从而使强化学习网络能够应用于边缘节点的AI推理芯片103。

基于此，本公开提供一种离线模型部署方法，应用于网络设备101，参见图4，所述方法包括：

步骤401：将本设备的状态信息发送至分析器，以使所述分析器基于本设备的状态信息对本设备的AI推理芯片103上部署的当前离线模型进行训练，得到目标离线模型；

步骤402：获取所述分析器102发送的所述目标离线模型的模型文件的存储位置和文件名；

步骤403：基于所述模型文件的存储位置和文件名对所述模型文件进行下载；

步骤404：通知本设备上的目标AI应用将下载的模型文件下刷到所述AI推理芯片103，以使所述AI推理芯片103对所述当前离线模型进行更新。

在本公开实施例中，网络设备101的状态信息可以被发送给分析器102，以便在分析器102中对当前离线模型进行训练，训练出的目标离线模型可以部署到AI推理芯片103上，用于更新当前离线模型。这样，就完成了旧模型（当前离线模型）到新模型（目标离线模型）的切换，使得能够周期性地通过经验回放的方式对AI推理芯片103上部署的当前离线模型进行重新训练，从而能够将强化学习网络等需要周期性地进行重新训练的离线模型也能够应用于网络设备101中，实现边缘智能。在万物皆可AI的智能时代，具有重要意义，将极大地提高网络设备101的性能。

本公开实施例的方案可以应用于网络设备101。在步骤401中，网络设备101可以包括但不限于路由器和/或交换机，网络设备101的状态信息可以包括但不限于网络设备101的单板温度、CPU利用率、内存占用率、功率、风扇转速、数据吞吐量等中的一者或多者。

网络设备101可以安装AI推理芯片103，AI推理芯片103上可以部署离线模型。所述离线模型可以是强化学习网络，例如DQN、深度强化学习算法（Deep ReinforcementLearning，DRL）或者采用深度确定性策略梯度算法（Deep Deterministic PolicyGradient，DDPG）的强化学习网络。还可以在边缘节点上安装AI应用，一个边缘节点上可以安装一个或多个AI应用，不同的AI应用对应不同的离线模型。可以将AI推理芯片103当前部署的离线模型称为当前离线模型。

网络设备101在当前时刻的状态信息可以基于当前离线模型对网络设备101在上一时刻的状态信息的推理计算结果得到。例如，网络设备101在t+1时刻的状态信息可以基于当前离线模型对网络设备101在t时刻的状态信息的推理计算结果得到，网络设备101在t+2时刻的状态信息可以基于当前离线模型对网络设备101在t+1时刻的状态信息的推理计算结果得到。其中，t时刻为t+1时刻的上一时刻，t+1时刻为t+2时刻的上一时刻。

进一步地，基于当前离线模型对网络设备101在当前时刻的上一时刻的状态信息的推理计算结果，可以得到网络设备101在当前时刻的上一时刻的配置信息。基于网络设备101在当前时刻的上一时刻的配置信息可以得到网络设备101在当前时刻的状态信息。例如，基于当前离线模型对网络设备101在t时刻的状态信息的推理计算结果，可以得到网络设备101在t时刻的配置信息，基于网络设备101在t时刻的配置信息可以得到网络设备101在t+1时刻的状态信息。

在AI推理芯片103上部署的当前离线模型为强化学习网络的情况下，当前离线模型对应的AI应用作为Agent与环境（即网络设备101）交互，网络设备101的状态信息可以表示为（S _t, A _t,γ _t+1, S _t+1），其中，对网络设备101在t时刻的状态信息S _t下采用配置信息A _t，得到奖赏或惩罚γ _t+1，得到网络设备101在t+1时刻的状态信息S _t+1。状态信息{S _t,S _t+1,…}可以由网络设备101采集后发送给目标AI应用，目标AI应用将这些状态信息作为入参传递给AI推理芯片103做推理计算。

在t+1时刻的奖赏或惩罚γ _t+1可以基于预先设置的目标条件以及在t+1时刻的状态信息S _t+1确定。例如，假设状态信息为网络设备101的温度，则目标条件可以是降低网络设备101的温度。在t时刻采用配置信息A _t（例如，调整网络设备101中风扇的占空比）对网络设备101进行配置之后，如果在t+1时刻网络设备101的温度相比于t时刻网络设备101的温度降低了，则表示经过配置后得到的状态信息与目标条件是一致的，从而t+1时刻的γ_t+1为正（奖赏）；如果在t+1时刻网络设备101的温度相比于t时刻网络设备101的温度升高了，则表示经过配置后得到的状态信息与目标条件不一致，从而t+1时刻的γ _t+1为负（惩罚）。

本领域技术人员可以理解，上述例子仅为示例性说明，并非用于限制本公开。例如，除了用于对风扇的占空比进行调节的配置信息之外，本公开实施例中采用的配置信息还可以是其他类型的配置信息。相应地，目标条件可以是其他条件，确定奖励或惩罚的方式可以根据实际需要设置。

可以将网络设备101的状态信息实时地发送至分析器102，或者先对采集的状态信息进行存储，并按照一定的频率将状态信息发送至分析器102。例如，在对状态信息进行实时发送的例子中，在采集到网络设备101在t时刻的状态信息S _t之后，可以将S _t发送至分析器102；在采集到网络设备101在t+1时刻的状态信息S _t+1之后，可以将S _t+1发送至分析器102。又例如，在按照一定的频率发送状态信息的例子中，可以对采集到的状态信息S _t，S_t+1，……，S _t+k进行存储，并一次性将状态信息{S _t, S _t+1,…, S _t+k}发送至分析器102。采集的状态信息可以采用gRpc协议等网络设备101与分析器102之间现有的协议，从网络设备101发送到分析器102。

在一些实施例中，可以获取所述分析器102对所述状态信息的订阅请求；基于所述分析器102对所述状态信息的订阅请求将所述网络设备101的状态信息发送至分析器102。具体来说，订阅请求中可以携带所需发送的状态信息的种类、发送频率、发送格式和/或分析器102用于接收所述状态信息的端口号等信息。网络设备101获取到订阅请求之后，可以对订阅请求进行解析，得到订阅请求中携带的各种信息，并基于订阅请求中携带的信息将对应种类的状态信息以分析器102所要求的发送频率发送到分析器102的对应端口。进一步地，网络设备101还可以接收分析器102发送的订阅停止指令，并响应于该订阅停止指令停止向分析器102发送网络设备101的状态信息。订阅停止指令中可以携带需要停止订阅的状态信息的种类。网络设备101获取到订阅停止指令之后，可以对订阅停止指令进行解析，得到订阅停止指令中携带的需要停止订阅的状态信息的种类，从而停止将相应种类的状态信息发送到分析器102。

分析器102可以将从网络设备101获取到的状态信息作为经验数据保存在Memory中，并定期使用这些经验数据对当前离线模型进行训练，这个过程成为经验回放。可以预先在分析器102上可以安装Pytorch等深度学习框架对当前离线模型进行训练，还可以进一步使用AI推理芯片103对应的软件栈，将训练后的离线模型生成可以被AI推理芯片103使用的离线模型（即目标离线模型）。

在训练当前离线模型时，可以基于相邻两个时刻的状态信息确定所述相邻两个时刻中前一时刻的配置信息，并基于每个时刻的配置信息以及该时刻的状态信息对当前离线模型进行训练。例如，接着前面的例子，可以基于网络设备101在t时刻的状态信息S _t和网络设备101在t+1时刻的状态信息S _t+1确定t时刻对网络设备101的配置信息A _t；同理，可以基于网络设备101在t+1时刻的状态信息S _t+1和网络设备101在t+2时刻的状态信息S _t+2确定t+1时刻对网络设备101的配置信息A _t+1。然后，可以基于{(S _t, A _t), (S _t+1, A_t+1),…}共同对当前离线模型进行训练。

在步骤402和步骤403中，可以获取所述分析器102发送的所述目标离线模型的模型文件的存储位置和文件名，并基于所述模型文件的存储位置和文件名对所述模型文件进行下载。

具体来说，参见图5，网络设备101中的软件模块（在网络设备为交换机时，软件模块即图中的交换机SW）可以采集交换机芯片的状态信息，并通过gRPC协议将这些状态信息发送给分析器。分析器102可以通过NETCONF协议与网络设备101中的软件模块进行交互，以便通知网络设备101模型文件的存储位置和文件名。网络设备101可以将目标离线模型（例如Cambr模型）的模型文件下载并保存到本地的Flash等存储单元中。

在相关技术中，分析器102与网络设备101之间的协同通常使用Kubernets技术，它需要在分析器102和网络设备101都安装相应的软件，Kubernets是基于容器部署的管理技术，要求网络设备101上的AI应用也必须是容器化部署。然而，一些网络设备101不支持容器技术，导致分析器102与网络设备101之间的协同方案无法适用于此类网络设备101。而NETCONF协议提供了一种更简单的方式来管理（例如，查询、配置、修改、删除）网络设备101，就像数据库操作中的数据操纵语言（Data Manipulation Language，DML）。可以通过NETCONF协议在网络设备101与分析器102之间新增接口，例如，应用程序编程接口（Application Programming Interface，API），可以直接通过调用API对网络设备101进行操作。由于NETCONF协议是当前交换机等网络设备101都支持的管理协议，分析器102产品经常通过NETCONF协议与网络设备101通信以实现信息获取和配置下发，因此，这种方式能够适用于各种网络设备101。

在一些实施例中，所述网络设备101与所述分析器102通过第一接口相连接，所述模型文件的存储位置和文件名由所述分析器102调用所述第一接口发送到所述网络设备101。在另一些实施例中，所述网络设备101与所述分析器102通过第二接口相连接，所述网络设备101通过调用所述第二接口对所述模型文件进行下载。

在步骤404中，网络设备101上可以安装一个或多个AI应用，且不同的AI应用对应于不同的离线模型。因此，在将目标离线模型的模型文件下载到网络设备101之后，需要确定用于将下载的模型文件下刷到AI推理芯片103的目标AI应用是哪一个AI应用。在一些实施例中，所述模型文件的文件名可以与所述目标AI应用的应用名相对应，例如，模型文件的文件名与目标AI应用的应用名一致，或者模型文件的文件名中的部分字段与目标AI应用的应用名一致。可以将本设备上运行的AI应用中应用名与所述模型文件的文件名相对应的AI应用确定为目标AI应用，并通知所述目标AI应用将下载的模型文件下刷到所述AI推理芯片。以模型文件的文件名与目标AI应用的应用名一致的情况为例，参见图6，假设网络设备101中包括两个AI应用，其应用名分别为AI ECN和AI KPI。如果模型文件的文件名为AIECN，则应用名为AI ECN的AI应用为目标AI应用，可以通过运行在用户态的模型管理模块通知应用名为AI ECN的AI应用将下载的模型文件下刷到所述AI推理芯片103。本公开实施例中网络设备101只需要获取模型文件的文件名，就可以知道该模型文件属于哪个AI应用，并通过进程间通信（Inter-Process Communication，IPC）方式通知该本地AI应用，实现方式简单。

在另一些实施例中，如果网络设备101上仅安装有一个AI应用，可以直接将该AI应用确定为目标AI应用。在再一些实施例中，可以由用户手动从网络设备101上安装的AI应用中选择目标AI应用。除了以上列举的方式之外，还可以根据实际情况，采用其他方式确定目标AI应用，此处不再一一列举。

在确定目标AI应用之后，所述目标AI应用可以通过直接存储器访问（DirectMemory Access，DMA）方式将下载的模型文件下刷到AI推理芯片103。通过DMA方式下刷模型文件能够有效提高模型文件的传输效率。具体来说，可以预先将网络设备101中的第一存储地址映射到AI推理芯片103中的第二存储地址，基于所述模型文件的存储位置和文件名将所述模型文件下载到所述第一存储地址，然后由目标AI用于基于所述第一存储地址与所述第二存储地址之间的映射关系，从所述第一存储地址获取下载的模型文件，并将下载的模型文件下刷到所述第二存储地址。推理计算的结果可以通过RPC IO接口从AI推理芯片返回给目标AI应用。

在一些实施例中，将模型文件下刷到AI推理芯片103之后，在AI推理芯片103中同时存在旧模型（当前离线模型）和新模型（目标离线模型）。对当前离线模型进行更新，可以是在将目标离线模型的模型文件下刷到AI推理芯片103之后，删除当前离线模型，该过程称为旧模型到新模型的切换过程。相关AI应用可以暂停旧模型的推理计算，然后通知AI推理芯片103将AI算法关联的离线模型从旧模型切换到新模型，从而完成模型在线升级。具体来说，目标AI应用可以获取所述当前离线模型的任务执行状态，所述当前离线模型的任务执行状态用于表征所述当前离线模型是否正在执行推理任务；若所述当前离线模型的任务执行状态表征所述当前离线模型正在执行推理任务，在所述推理任务执行完成之后，暂停所述当前离线模型执行新的推理任务，并将下载的模型文件下刷到所述AI推理芯片103。也就是说，只要述当前离线模型正在执行推理任务，则在当前执行的推理任务执行完成之后，就会暂停所述当前离线模型，以便使当前离线模型不再执行新的推理任务。然后，再将新模型的模型文件下刷到AI推理芯片103中，从而完成模型的在线升级。这样，可以减少旧模型到新模型的切换过程对推理任务的影响。在对所述当前离线模型进行更新之后，目标AI应用就可以重新进行推理计算了，此后的推理计算将使用新模型。

进一步地，在对所述当前离线模型进行更新之后，可以返回步骤401，并重新进行下一轮训练。每一轮训练之后，更新后的当前离线模型可以作为下一轮训练时的当前离线模型。训练方式可以参照前述实施例，此处不再赘述。在一些实施例中，训练当前离线模型的频率可以是固定的，例如，每隔固定的训练周期T对当前离线模型进行一次重新训练；在另一些实施例中，训练当前离线模型的频率可以变化，例如，重新训练当前离线模型的频率可以逐渐减小。

本公开实施例使用分析器102进行强化学习网络训练，尤其适用于一些离线（offline）算法，如DQN和DDPG等，这些模型能够支持先采集大量数据并存储，然后再基于预先采集的数据进行离线模型训练。本公开实施例中可以根据实际需要采集各种状态信息，数据的多样性及丰富性较高，有利于训练过程的快速收敛；此外，由于分析器102一般处于云端，而云端的计算资源丰富，便于进行离线模型训练以及模型文件制作。

参见图7，本公开实施例还提供另一种离线模型部署方法，应用于分析器102，所述方法包括：

步骤701：接收网络设备101发送的所述网络设备101的状态信息；

步骤702：基于所述网络设备101的状态信息对所述网络设备101的AI推理芯片103上部署的当前离线模型进行训练，得到目标离线模型；

步骤703：将所述目标离线模型的模型文件的存储位置和文件名发送至所述网络设备101，以使所述网络设备101基于所述模型文件的存储位置和文件名对所述模型文件进行下载，下载的模型文件用于对所述当前离线模型进行更新。

本公开实施例的方案可以应用于分析器102。在步骤701中，网络设备的状态信息可以由网络设备101采用gRPC协议等数据传输协议发送到分析器102。网络设备101在向分析器102发送状态信息的同时，还可以将该状态信息也发送给本地的AI推理芯片。AI推理芯片根据网络设备101在当前时刻的状态信息获取的推理计算结果可以用于确定网络设备101在下一时刻的状态信息。具体来说，AI推理芯片根据网络设备101在当前时刻的状态信息获取的推理计算结果可以发送给网络设备101上的目标AI应用，以使目标AI应用得到网络设备101在当前时刻的配置信息，基于网络设备101在当前时刻的配置信息对网络设备101进行配置可以得到网络设备101在当前时刻的下一时刻的状态信息。

具体地，分析器102可以向网络设备101发送对所述状态信息的订阅请求，并接收网络设备101基于所述订阅请求返回的状态信息。订阅请求中可以携带所需发送的状态信息的种类、发送频率、发送格式和/或分析器102用于接收所述状态信息的端口号等信息。分析器102还可以向网络设备101发送订阅停止指令，以使网络设备101停止发送状态信息。

在步骤702中，分析器102可以将从网络设备101获取到的状态信息作为经验数据保存在Memory中，并定期使用这些经验数据对当前离线模型进行训练，这个过程成为经验回放。可以预先在分析器102上可以安装Pytorch等深度学习框架对当前离线模型进行训练，还可以进一步使用AI推理芯片103对应的软件栈，将训练后的离线模型生成可以被AI推理芯片103使用的离线模型（即目标离线模型）。

在步骤703中，分析器102可以向网络设备101发送目标离线模型的模型文件的存储位置和文件名，以使网络设备101基于所述模型文件的存储位置和文件名对所述模型文件进行下载，并通知所述网络设备101上的目标AI应用将下载的模型文件下刷到所述AI推理芯片103。在将下载的模型文件下刷到所述AI推理芯片103之后，可以删除当前离线模型，从而实现对当前离线模型的更新。

本公开实施例的具体细节可参见前述由网络设备101执行的方法的实施例，此处不再赘述。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

参见图8，本公开实施例还提供一种离线模型部署装置，应用于网络设备，所述装置包括：

第一获取模块801，用于将本设备的状态信息发送至分析器，以使所述分析器基于本设备的状态信息对本设备的AI推理芯片上部署的当前离线模型进行训练，得到目标离线模型；

获取模块802，用于获取所述分析器发送的所述目标离线模型的模型文件的存储位置和文件名；

下载模块803，用于基于所述模型文件的存储位置和文件名对所述模型文件进行下载；

通知模块804，用于通知本设备上的目标AI应用将下载的模型文件下刷到所述AI推理芯片，以使所述AI推理芯片对所述当前离线模型进行更新。

参见图9，本公开实施例还提供一种离线模型部署装置，应用于分析器，所述装置包括：

接收模块901，用于接收网络设备发送的所述网络设备的状态信息；

训练模块902，用于基于所述网络设备的状态信息对所述网络设备的AI推理芯片上部署的当前离线模型进行训练，得到目标离线模型；

第二发送模块903，用于将所述目标离线模型的模型文件的存储位置和文件名发送至所述网络设备，以使所述网络设备基于所述模型文件的存储位置和文件名对所述模型文件进行下载，下载的模型文件用于对所述当前离线模型进行更新。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本说明书实施例还提供一种网络设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述任一实施例中应用于网络设备101的方法。

本说明书实施例还提供一种分析器，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述任一实施例中应用于分析器102的方法。

图10示出了本说明书实施例所提供的一种更为具体的网络设备或分析器的硬件结构示意图，该设备可以包括：处理器1001、存储器1002、输入/输出接口1003、通信接口1004和总线1005。其中处理器1001、存储器1002、输入/输出接口1003和通信接口1004通过总线1005实现彼此之间在设备内部的通信连接。

处理器1001可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。处理器1001还可以包括显卡，所述显卡可以是Nvidiatitan X显卡或者1080Ti显卡等。

存储器1002可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1002可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1002中，并由处理器1001来调用执行。

输入/输出接口1003用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1004用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1005包括一通路，在设备的各个组件（例如处理器1001、存储器1002、输入/输出接口1003和通信接口1004）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1001、存储器1002、输入/输出接口1003、通信接口1004以及总线1005，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备101等）执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、图像采集装置电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种离线模型部署方法，其特征在于，应用于网络设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通知本设备上的目标AI应用将下载的模型文件下刷到所述AI推理芯片，包括：

3.根据权利要求1所述的方法，其特征在于，本设备与所述分析器通过第一接口相连接，所述模型文件的存储位置和文件名由所述分析器调用所述第一接口发送到本设备；和/或

4.根据权利要求1所述的方法，其特征在于，所述目标AI应用基于以下方式将下载的模型文件下刷到所述AI推理芯片：

5.根据权利要求1所述的方法，其特征在于，所述基于所述模型文件的存储位置和文件名对所述模型文件进行下载，包括：

6.根据权利要求1所述的方法，其特征在于，所述将本设备的状态信息发送至分析器，包括：

获取所述分析器对所述状态信息的订阅请求；

7.根据权利要求1所述的方法，其特征在于，本设备在当前时刻的状态信息基于所述当前离线模型对本设备在上一时刻的状态信息的推理计算结果得到。

8.一种离线模型部署方法，其特征在于，应用于分析器，所述方法包括：

接收网络设备发送的所述网络设备的状态信息；

9.一种离线模型部署装置，其特征在于，应用于网络设备，所述装置包括：

10.一种离线模型部署装置，其特征在于，应用于分析器，所述装置包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8任意一项所述的方法。

12.一种网络设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任意一项所述的方法。

13.一种分析器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求8所述的方法。