CN117010474A

CN117010474A - 一种模型部署方法、装置、设备及存储介质

Info

Publication number: CN117010474A
Application number: CN202211366920.6A
Authority: CN
Inventors: 李子牛; 赵沛霖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-11-07

Abstract

本申请公开了一种模型部署方法、装置、设备及存储介质，本申请实施例可应用于机器学习等场景。具体的，该方法包括：在线上部署初始强化学习模型的过程中，将当前环境状态信息输入初始强化学习模型输出响应动作信息；在响应动作信息与预设标准动作信息的动作差异信息满足预设动作干预条件的情况下，基于预设标准动作信息，确定下一环境状态信息并生成第一训练样本；基于下一环境状态信息跳转至将当前环境状态信息输入初始强化学习模型输出响应动作信息，直至达到预设分析结束条件；基于模型部署过程中得到的多个第一训练样本，对初始强化学习模型进行模型训练。利用本申请的技术方案，可以在提升模型训练效率的同时，提升模型线上运行性能。

Description

一种模型部署方法、装置、设备及存储介质

技术领域

本申请涉及计算机应用技术领域，尤其涉及一种模型部署方法、装置、设备及存储介质。

背景技术

人工智能(artificial intelligence，AI)是研究用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学，例如针对复杂游戏中的AI学习，主要采用强化学习(Reinforcement Learning，RL)算法。

强化学习算法是一种模型在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的算法，相关技术中，将初始强化学习模型部署到线上环境进行在线训练的过程中，由于线上部署时模型的实时决策特点，产生的样本会非常多，导致样本存储代价和训练计算代价较大，降低了模型训练效率，从而影响了模型部署的进度；此外，由于初始强化学习模型的决策功能尚未完全成熟，其线上的实时决策过度偏离预设标准决策时，可能会对线上环境的稳定性和安全性产生一定影响。

发明内容

本申请提供了一种模型部署方法、装置、设备及存储介质，可以有效降低样本存储代价和训练计算代价，在提升模型训练效率的同时，提升模型线上运行性，此外，能够保证目标线上环境的稳定性和安全性，本申请技术方案如下：

一方面，提供了一种模型部署方法，所述方法包括：

获取目标线上环境的当前环境状态信息；

在将初始强化学习模型部署到所述目标线上环境的过程中，将所述当前环境状态信息输入所述初始强化学习模型进行动作响应分析，输出响应动作信息；

在所述响应动作信息与预设标准动作信息的动作差异信息满足预设动作干预条件的情况下，基于所述预设标准动作信息，确定目标价值信息和所述当前环境状态信息的下一环境状态信息，所述预设标准动作信息为基于预设标准决策信息确定的与所述当前环境状态信息对应的动作信息；

基于所述当前环境状态信息、所述响应动作信息、所述预设标准动作信息、所述目标价值信息和所述下一环境状态信息，生成第一训练样本；

基于所述下一环境状态信息，跳转至所述将所述当前环境状态信息输入所述初始强化学习模型进行动作响应分析，输出响应动作信息，直至达到预设分析结束条件；

基于所述初始强化学习模型部署到所述目标线上环境的过程中得到的多个第一训练样本，对所述初始强化学习模型进行模型训练，得到目标强化学习模型；

将所述目标强化学习模型部署到所述目标线上环境。

另一方面，提供了一种模型部署装置，所述装置包括：

当前环境状态信息获取模块，用于获取目标线上环境的当前环境状态信息；

动作响应分析模块，用于在将初始强化学习模型部署到所述目标线上环境的过程中，将所述当前环境状态信息输入所述初始强化学习模型进行动作响应分析，输出响应动作信息；

动作干预模块，用于在所述响应动作信息与预设标准动作信息的动作差异信息满足预设动作干预条件的情况下，基于所述预设标准动作信息，确定目标价值信息和所述当前环境状态信息的下一环境状态信息，所述预设标准动作信息为基于预设标准决策信息确定的与所述当前环境状态信息对应的动作信息；

第一训练样本生成模块，用于基于所述当前环境状态信息、所述响应动作信息、所述预设标准动作信息、所述目标价值信息和所述下一环境状态信息，生成第一训练样本；

第一跳转模块，用于基于所述下一环境状态信息，跳转至所述将所述当前环境状态信息输入所述初始强化学习模型进行动作响应分析，输出响应动作信息，直至达到预设分析结束条件；

第一模型训练模块，用于基于所述初始强化学习模型部署到所述目标线上环境的过程中得到的多个第一训练样本，对所述初始强化学习模型进行模型训练，得到目标强化学习模型；

第一模型部署模块，用于将所述目标强化学习模型部署到所述目标线上环境。

另一方面，提供了一种模型部署设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如第一方面所述的模型部署方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如第一方面所述的模型部署方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如第一方面所述的模型部署方法。

本申请提供的一种模型部署方法、装置、设备及存储介质，具有如下技术效果：

本申请在对强化学习模型进行线上部署的应用场景中，通过将初始强化学习模型部署到目标线上环境，将目标线上环境的当前环境状态信息输入初始强化学习模型进行动作响应分析，输出响应动作信息，并基于预设标准决策信息确定与当前环境状态信息对应的预设标准动作信息，在模型输出的响应动作信息与预设标准动作信息的动作差异信息满足预设动作干预条件的情况下，基于预设标准动作信息，确定目标价值信息和当前环境状态信息的下一环境状态信息，即在模型决策过度偏离预设标准决策的时候，使用预设标准动作信息替代模型决策出的响应动作信息，以提升动作执行的准确性，从而保证目标线上环境的稳定性和安全性；此外，仅采集对应动作差异信息满足预设动作干预条件的数据作为训练样本对初始强化学习模型进行模型训练，能够有效降低样本存储代价和训练计算代价，在提升模型训练效率的同时，提升模型线上运行性能，从而加快模型部署进度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种模型部署方法的流程示意图；

图3是本申请实施例提供的一种初始强化学习模型训练方法的流程示意图；

图4是本申请实施例提供的一种模型部署流程的示意图；

图5是本申请实施例提供的一种基于初始强化学习模型部署到目标线上环境的过程中得到的多个第一训练样本，对初始强化学习模型进行模型训练，得到目标强化学习模型的流程示意图；

图6是本申请实施例提供的另一种模型部署方法的流程示意图；

图7是本申请实施例提供的另一种模型部署流程的示意图；

图8是本申请实施例提供的一种基于初始强化学习模型部署到目标线上环境的过程中得到的多个第二训练样本，对初始强化学习模型进行模型训练，得到目标强化学习模型的流程示意图；

图9是本申请实施例提供的一种训练迭代过程的流程示意图；

图10是本申请实施例提供的一种任务场景的示意图；

图11是申请实施例提供的一种自动驾驶应用场景下自动驾驶控制模型部署方法的流程示意图；

图12是本申请实施例提供的一种模型部署装置的组成框图；

图13是本申请实施例提供的一种模型部署设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

为便于对本申请实施例的理解，下面先对几个概念进行简单介绍：

强化学习(Reinforcement Learning，RL)：也称为再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决模型在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

通常强化学习的训练过程可以为：通过模型与环境进行多次交互，获得每次交互的动作、状态、激励(reward)，然后将这多组(动作，状态，激励)作为训练数据，对模型进行一次训练，采用上述过程，对模型进行下一轮训练，直至满足收敛条件。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如，本申请实施例中主要是利用机器学习中强化学习技术，通过势能函数的价值评估，控制智能体强化学习策略，提高智能体的探索能力和多样性。又例如，本申请实施例中还利用机器学习中深度学习，通过神经网络模型训练获得势能函数。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，该应用环境中可以包括客户端10和服务器端20，客户端10和服务器端20可以通过无线通信方式进行间接地连接。客户端10向服务器端20发送模型部署指令，服务器端20响应于模型部署指令，获取目标线上环境的当前环境状态信息，在将初始强化学习模型部署到目标线上环境的过程中，将当前环境状态信息输入初始强化学习模型进行动作响应分析，输出响应动作信息，然后在响应动作信息与预设标准动作信息的动作差异信息满足预设动作干预条件的情况下，基于预设标准动作信息，确定目标价值信息和当前环境状态信息的下一环境状态信息，并基于当前环境状态信息、响应动作信息、预设标准动作信息、目标价值信息和下一环境状态信息，生成第一训练样本，预设标准动作信息为基于预设标准决策信息确定的与当前环境状态信息对应的动作信息；然后基于下一环境状态信息，跳转至将当前环境状态信息输入初始强化学习模型进行动作响应分析，输出响应动作信息，直至达到预设分析结束条件，再基于初始强化学习模型部署到目标线上环境的过程中得到的多个第一训练样本，对初始强化学习模型进行模型训练，得到目标强化学习模型，最后将目标强化学习模型部署到目标线上环境。需要说明的是，图1仅仅是一种示例。

客户端可以是智能手机、电脑(如台式电脑、平板电脑、笔记本电脑)、数字助理、智能语音交互设备(如智能音箱)、智能可穿戴设备、车载终端等类型的实体设备，也可以是运行于实体设备中的软体，比如计算机程序。第一客户端所对应的操作系统可以是安卓系统(Android系统)、iOS系统(是由苹果公司开发的移动操作系统)、Linux系统(一种操作系统)、Microsoft Windows系统(微软视窗操作系统)等。

服务器端可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。服务器端可以为对应的客户端提供后台服务。

上述客户端10和服务器端20可以用于构建一个有关模型部署的系统，该系统可以是分布式系统。以分布式系统为区块链系统为例，由多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端形成，节点之间形成组成的点对点(P2P，Peer ToPeer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

上述区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

需要说明的是，本申请提供的模型部署方法既可以应用在客户端，也可以应用在服务器端，并不以上述应用环境的实施例为限。

以下介绍本申请提供的一种模型部署方法的具体实施例，图2是本申请实施例提供的一种模型部署方法的流程示意图，本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的，如图2所示，所述方法可以包括：

S201，获取目标线上环境的当前环境状态信息。

在本说明书实施例中，目标线上环境可以为初始强化学习模型对应的在线运行环境，初始强化学习模型可以与目标线上环境进行持续交互。

在本说明书实施例中，当前环境状态信息可以表征目标线上环境存在的一种环境状态。

在一个可选的实施例中，可以从目标线上环境中随机获取一个环境状态信息作为当前环境状态信息；在另一个可选的实施例中，可以预先设置目标线上环境的环境状态集合，并从环境状态集合中选择一个环境状态信息作为当前环境状态信息。

在本说明书实施例中，初始强化学习模型可以为对预设强化学习模型进行初步训练后得到强化学习模型，初始强化学习模型的在线性能可以满足目标线上环境的基本应用需求。

在一个可选的实施例中，预设强化学习模型可以为基于表演者-评价者(Actor-Critic，AC)算法的模型(以下简称AC模型)，预设强化学习模型中包含表演者模型(即动作选择模型(Actor))和评价者模型(即价值分析模型(Critic))，其中，动作选择模型负责给出当前环境状态下的动作，价值分析模型负责预测当前环境状态下到结束时刻能获得的长期回报信息。

在本说明书实施例中，如图3所示，上述初始强化学习模型可以通过如下方式进行训练：

S301，获取第三训练样本，第三训练样本为与目标线上环境对应的默认交互数据；

具体的，第三训练样本可以为基于预设通用策略知识，生成的与目标线上环境对应的默认交互数据。可选的，这里的预设通用策略知识可以结合大量样本用户的历史交互数据进行提取分析后得到，也可以由人类专家的经验知识得到。

在一个示例中，第三训练样本可以为离线数据集，该离线数据集包括多个训练样本，每一训练样本可以包括：样本当前环境状态信息s，样本当前环境状态信息对应的样本动作信息a，样本动作信息a对应的样本即时激励信息r(s，a)和样本下一环境状态信息s′，即任一训练样本e＝(s，a，r，s′)，e∈离线数据集D。

S302，基于第三训练样本对预设强化学习模型进行模型训练，得到初始强化学习模型。

在一个可选的示例中，在预设强化学习模型包括预设动作选择模型和预设价值分析模型的情况下，上述基于第三训练样本对预设强化学习模型进行模型训练，得到初始强化学习模型可以包括：

1)基于时序差分算法和第三训练样本，确定价值损失信息；

具体的，这里的时序差分算法是一种强化学习算法，它继承了动态规划(DynamicProgramming)和蒙特卡罗方法(Monte Carlo Methods)的优点，从而可以用当前状态和当前动作获得的即时激励加上下一个状态的长期回报估计来作为在当前状态会获得的长期回报。

具体的，这里的价值损失信息可以表示为：

其中，D₀表示第三训练样本，(s，a，r，s′)表示第三训练样本中的任一训练样本，θ_critic表示预设价值分析模型的模型参数，θ_actor表示预设动作选择模型的模型参数，表示预设动作选择模型在下一状态s′上的动作选择策略，/>r(s，a)表示样本当前环境状态信息s下基于样本动作信息a得到的即时激励信息，/>表示预设价值分析模型在当前时刻基于样本当前环境状态信息s和样本动作信息a预测出的未来的长期回报信息，γ表示折扣因子。

2)以最小化该价值损失信息为更新目标，更新预设价值分析模型的模型参数，得到更新后的预设价值分析模型；

具体的，预设价值分析模型更新算法可以通过如下公式表示：

通过最小化价值损失信息来提升预设价值分析模型的性能。

3)基于更新后的预设价值分析模型，确定多个第三训练样本对应的累积回报信息；

具体的，这里的累积回报信息可以表示为：

4)以最大化该累积回报信息为更新目标，更新预设动作选择模型的模型参数，得到更新后的预设动作选择模型；

具体的，预设动作选择模型更新算法可以通过如下公式表示：

通过最大化累积回报信息来提升预设动作选择模型的性能。

5)将更新后的预设价值分析模型和更新后的预设动作选择模型，作为初始强化学习模型。

在本说明书实施例中，除了使用上述模型训练方法之外，还可以使用其他的离线强化学习算法对预设强化学习模型进行训练，例如：TD3+BC(Twin Delayed DeepDeterministic Policy Gradient and Behavior Cloning，一种基于双延迟深度确定性策略和行为克隆的离线强化学习算法)、BRAC(Behavior Regularized OfflineReinforcement Learning，行为规范化离线强化学习)、CQL(Conservative Q-Learning，保守Q学习)等，此处不做限定。

由以上实施例可见，通过第三训练样本对预设强化学习模型进行离线训练，使得模型基本满足线上环境的应用要求，再通过线上环境和预设标准决策信息对初始强化学习模型进行在线训练，使得模型进一步贴合标准应用要求，在保证线上环境的稳定性的同时，进一步基于高效的在线训练来提升模型的运行性能。

S202，在将初始强化学习模型部署到目标线上环境的过程中，将当前环境状态信息输入初始强化学习模型进行动作响应分析，输出响应动作信息。

在本说明书实施例中，响应动作信息可以为初始强化学习模型对当前环境状态信息进行动作响应分析后得到的动作信息。

在实际应用中，初始强化学习模型可以与目标线上环境进行持续交互，初始强化学习模型可以基于动作选择策略对目标线上环境的当前环境状态信息进行动作响应分析，得到响应动作信息，目标线上环境可以根据当前环境状态信息和响应动作信息反馈出即时激励信息和下一环境状态信息，初始强化学习模型还可以根据当前环境状态信息和响应动作信息预测未来的长期回报信息。

S203，在响应动作信息与预设标准动作信息的动作差异信息满足预设动作干预条件的情况下，基于预设标准动作信息，确定目标价值信息和当前环境状态信息的下一环境状态信息，预设标准动作信息为基于预设标准决策信息确定的与当前环境状态信息对应的动作信息。

在本说明书实施例中，预设标准动作信息可以为基于预设标准决策信息确定的与当前环境状态信息对应的动作信息。具体的，这里的预设标准决策信息可以为基于专家知识得到的决策信息，也可以为基于用户个性化的策略得到的决策信息。

在本说明书实施例中，动作差异信息可以表征响应动作信息与预设标准动作信息之间的动作差异情况，具体的，可以根据预先设置的动作评价方法对响应动作信息与预设标准动作信息进行差异分析，得到动作差异信息。

在一个具体的实施例中，动作差异信息可以包括：响应动作信息与预设标准动作信息的距离信息。可选的，这里的距离信息可以包括但不限于欧式距离、曼哈顿距离等。

在本说明书实施例中，预设动作干预条件可以为通过预设标准动作信息对响应动作信息进行动作干预的预设条件，具体的，预设动作干预条件可以结合实际应用中目标线上环境的应用需求和预设标准决策信息对应的动作决策差异容忍度进行预先设置，可选的，预设动作干预条件可以包括：动作决策差异容忍度。

在本说明书实施例中，目标价值信息可以表征基于当前环境状态信息下的动作执行情况，得到的动作价值评估情况。具体的，目标价值信息可以包括：即时激励信息和长期回报信息，即时激励信息可以表征目标线上环境对当前环境状态信息下的动作执行情况实时反馈的奖励价值，长期回报信息可以表征初始强化学习模型对当前环境状态信息下的动作执行情况预测出的未来的长期回报价值。

在一个示例中，在响应动作信息与预设标准动作信息的动作差异信息满足预设动作干预条件的情况下，基于预设标准动作信息，确定目标价值信息和当前环境状态信息的下一环境状态信息可以包括：在动作差异信息满足预设动作干预条件的情况下，即动作差异信息超出动作决策差异容忍度的情况下，用预设标准动作信息来代替模型得出的响应动作信息以执行预设标准动作信息，并使目标线上环境根据当前环境状态信息和预设标准动作信息来反馈即时激励信息和下一环境状态信息。

S204，基于当前环境状态信息、响应动作信息、预设标准动作信息、目标价值信息和下一环境状态信息，生成第一训练样本。

具体的，这里的目标价值信息和下一环境状态信息是目标线上环境基于当前环境状态信息和预设标准动作信息确定的。

S205，基于下一环境状态信息，跳转至将当前环境状态信息输入初始强化学习模型进行动作响应分析，输出响应动作信息，直至达到预设分析结束条件。

具体的，基于下一环境状态信息，重复执行步骤S202至步骤S204的样本采集过程，直至达到预设分析结束条件。

在一个可选的实施例中，上述达到预设分析结束条件可以为动作响应分析的步数达到预设分析步数。本说明书实施例中，预设分析步数可以结合实际应用中对模型的训练速度和精准度预先设置。

S206，基于初始强化学习模型部署到目标线上环境的过程中得到的多个第一训练样本，对初始强化学习模型进行模型训练，得到目标强化学习模型。

S207，将目标强化学习模型部署到目标线上环境。

为了便于理解，本申请实施例提供了基于图2的模型部署方法得到的一种模型部署流程的示意图，具体的，如图4所示，为了解决模型在线决策过度偏离预设标准决策对线上环境带来不良影响的问题，以预设标准决策为专家决策为例，在模型在线实时决策过度偏离专家决策，即模型输出动作违背专家意愿的情况下，执行专家动作，基于专家动作确定环境反馈的下一状态和即时激励，并采集相关数据作为训练样本；在模型输出动作符合专家意愿的情况下，执行模型输出动作，无需采集样本，直至当前的模型决策回合结束，然后基于当前模型决策回合采集的训练样本对模型进行训练，并将训练好的模型重新部署到线上。

在一个具体的示例中，上述模型部署流程可以应用于类似自动驾驶这样对实时执行动作的准确性要求较高的场景中，如果模型输出动作非常不好，过度偏离专家决策的标准动作，需要直接使用标准动作替换模型输出动作，以确保应用场景的安全性。

由以上实施例可见，在模型输出的响应动作信息与预设标准动作信息的动作差异信息满足预设动作干预条件的情况下，基于预设标准动作信息，确定目标价值信息和当前环境状态信息的下一环境状态信息，即在模型决策过度偏离预设标准决策的时候，使用预设标准动作信息替代模型决策出的响应动作信息，以提升动作执行的准确性，从而保证目标线上环境的稳定性和安全性；此外，仅采集对应动作差异信息满足预设动作干预条件的数据作为训练样本对初始强化学习模型进行模型训练，能够有效降低样本存储代价和训练计算代价，在提升模型训练效率的同时，提升模型线上运行性能，从而加快模型部署进度。

在本说明书实施例中，可以综合考虑预设标准决策对应的动作决策差异容忍度和在线环境的反馈激励来更新模型参数，在最大化动作带来的长期回报价值的同时，尽可能减少动作差异，以综合提升强化学习模型的在线运行性能。

在一个具体的实施例中，如图5所示，初始强化学习模型可以包括：初始动作选择模型和初始价值分析模型，上述基于初始强化学习模型部署到目标线上环境的过程中得到的多个第一训练样本，对初始强化学习模型进行模型训练，得到目标强化学习模型可以包括：

S501，基于时序差分算法，确定多个第一训练样本中目标价值信息对应的价值损失信息；

具体的，这里的价值损失信息可以表征目标价值信息的时序差分误差。

在一个具体的实施例中，这里的价值损失信息可以表示为：

其中，D₁表示第一训练样本，(s,a₁,r,s’)表示多个第一训练样本中的任一训练样本，s表示当前环境状态信息，a₁表示基于预设标准决策信息确定的与当前环境状态信息对应的预设标准动作信息，s’表示下一环境状态信息，r(s,a₁)表示目标线上环境在当前环境状态信息s下基于预设标准动作信息a₁反馈的即时激励信息，θ_critic表示初始价值分析模型的模型参数，θ_actor表示初始动作选择模型的模型参数，表示初始动作选择模型在下一环境状态信息s’上的动作选择策略，/>表示初始价值分析模型在当前时刻基于当前环境状态信息s和预设标准动作信息a₁预测出的未来的长期回报信息，表示初始价值分析模型基于下一环境状态信息s’和动作选择策略预测出的未来的长期回报信息，γ表示折扣因子。

S502，以最小化价值损失信息为更新目标，更新初始价值分析模型的模型参数，得到更新后的价值分析模型；

具体的，这里的初始价值分析模型更新算法可以通过如下公式表示：

通过最小化价值损失信息来提升初始价值分析模型的性能。

S503，基于更新后的价值分析模型，确定多个第一训练样本中预设标准动作信息对应的更新价值信息；

具体的，这里的更新价值信息可以表征基于更新后的价值分析模型对当前状态的长期回报信息进行更新得到的更新回报信息。

S504，基于多个第一训练样本对应的更新价值信息与多个第一训练样本对应的动作差异信息的差值，确定累积价值信息；

具体的，这里的累积价值信息可以表征多个第一训练样本对应的更新价值信息与动作差异信息的差异情况。

在一个具体的实施例中，这里的动作差异信息可以包括：第一训练样本中响应动作信息与预设标准动作信息的距离信息。可选的，这里的距离信息可以包括但不限于欧式距离、欧式距离的平方等。

在一个具体的实施例中，在动作差异信息为欧式距离的平方的情况下，这里的累积价值信息可以表示为：

其中，D₁表示第一训练样本，(s,a₀,a₁)表示多个第一训练样本中的任一训练样本，s表示当前环境状态信息，a₁表示基于预设标准决策信息确定的与当前环境状态信息对应的预设标准动作信息，θ′_critic表示更新后的价值分析模型的模型参数，θ_actor表示初始动作选择模型的模型参数，表示初始动作选择模型在当前环境状态信息s上的动作选择策略即响应动作信息a₀，/>表示更新后的价值分析模型基于当前环境状态信息s和动作选择策略/>预测出的未来的长期回报信息，/>表示动作选择策略/>与预设标准动作信息a₁之间的欧式距离。

S505，以最大化累积价值信息为更新目标，更新初始动作选择模型的模型参数，得到更新后的动作选择模型；

具体的，初始动作选择模型更新算法可以通过如下公式表示：

通过最大化累积价值信息来提升初始动作选择模型的性能。

S506，将更新后的价值分析模型和更新后的动作选择模型，作为目标强化学习模型。

由以上实施例可见，先以最小化价值损失信息为更新目标，更新初始价值分析模型的模型参数，再以最大化累积价值信息为更新目标，更新初始动作选择模型的模型参数，可以综合考虑预设标准决策对应的动作决策差异容忍度和在线环境的反馈激励来更新模型参数，从而更加高效地提升强化学习模型的在线运行性能。

在一些可选的实施例中，在一些模型在线测试场景或者对实时执行动作的精准性要求较低的模型在线应用场景中，可以在动作差异信息满足预设动作干预条件的情况下，不使用预设标准动作信息来代替模型输出的响应动作信息，仍执行模型输出的响应动作信息，以使目标线上环境根据当前环境状态信息和响应动作信息来反馈即时激励信息和下一环境状态信息，然后采集相关信息作为训练样本，从而减少动作替换带来的计算代价，提升样本采集的效率。相应的，如图6所示，在动作差异信息满足预设动作干预条件的情况下，上述方法还可以包括：

S208，基于响应动作信息，确定下一环境状态信息；

具体的，这里的下一环境状态信息可以由目标线上环境根据当前环境状态信息和响应动作信息反馈得到。

S209，基于当前环境状态信息、响应动作信息和预设标准动作信息，生成第二训练样本；

S210，基于下一环境状态信息，跳转至将当前环境状态信息输入初始强化学习模型进行动作响应分析，输出响应动作信息，直至达到预设分析结束条件；

具体的，基于下一环境状态信息，重复执行步骤S202、步骤S208和步骤S209的样本采集过程，直至达到预设分析结束条件。

S211，基于初始强化学习模型部署到目标线上环境的过程中得到的多个第二训练样本，对初始强化学习模型进行模型训练，得到目标强化学习模型。

为了便于理解，本申请实施例提供了基于图6的模型部署方法得到的另一种模型部署流程的示意图，具体的，参见图7，在模型在线实时决策过度偏离专家决策，即模型输出动作违背专家意愿的情况下，不修改模型输出动作，仍基于模型输出动作确定环境反馈的下一状态和即时激励，只是需要采集相关数据作为训练样本；在模型输出动作符合专家意愿的情况下，执行模型输出动作，无需采集样本，直至当前的模型决策回合结束，然后基于当前模型决策回合采集的训练样本对模型进行训练，并将训练好的模型重新部署到线上。

在一个具体的示例中，上述模型部署流程可以应用于类似游戏AI这样对实时执行动作的准确性要求较低的场景任务，在模型输出动作不好的情况下，仍然可以保留模型输出动作继续下一轮的模型决策，以减少动作替换带来的计算代价。

由以上实施例可见，在一些模型在线测试场景或者对实时执行动作的精准性要求较低的模型在线应用场景，可以在动作差异信息满足预设动作干预条件的情况下，仍根据当前环境状态信息和响应动作信息来反馈即时激励信息和下一环境状态信息，然后采集相关数据作为训练样本，从而减少动作替换带来的计算代价，提升样本采集的效率，从而提升模型训练效率。

在一个具体的实施例中，初始强化学习模型可以包括：初始动作选择模型，如图8所示，上述基于初始强化学习模型部署到目标线上环境的过程中得到的多个第二训练样本，对初始强化学习模型进行模型训练，得到目标强化学习模型可以包括：

S801，对多个第二训练样本中的响应动作信息和多个第二训练样本中的预设标准动作信息进行差异分析，确定动作损失信息；

在一个具体的实施例中，这里的动作损失信息可以表征第二训练样本中的响应动作信息与动作损失信息的差异情况。

在一个具体的实施例中，这里的动作损失信息可以包括：第二训练样本中的响应动作信息与动作损失信息的距离信息。可选的，这里的距离信息可以包括但不限于欧式距离、欧式距离的平方等。

在一个具体的实施例中，在动作损失信息为欧式距离的平方的情况下，这里的动作损失信息可以表示为：其中，D₂表示第二训练样本，(s,a₀,a₁)表示多个第二训练样本中的任一训练样本，s表示当前环境状态信息，a₁表示基于预设标准决策信息确定的与当前环境状态信息对应的预设标准动作信息，θ_actor表示初始动作选择模型的模型参数，/>表示初始动作选择模型在当前环境状态信息s上的动作选择策略即响应动作信息a₀，/>表示动作选择策略/>与预设标准动作信息a₁之间的欧式距离。

S802，以最小化动作损失信息为更新目标，更新初始动作选择模型的模型参数，得到更新后的动作选择模型；

具体的，这里的初始动作选择模型更新算法可以通过如下公式表示：

通过最小化动作损失信息来提升初始动作选择模型的性能。

S803，基于更新后的动作选择模型，得到目标强化学习模型。

在一个可选的实施例中，初始强化学习模型还可以包括：初始价值分析模型，由于这里未对模型动作进行替换，初始价值分析模型的长期回报预测是根据响应动作信息进行的，因此出于提升模型训练效率的考虑，无需对初始价值分析模型进行模型训练，因此可以将更新后的动作选择模型和初始价值分析模型作为目标强化学习模型。

由以上实施例可见，在基于多个第二训练样本，对初始强化学习模型进行模型训练的过程中，由于仅对初始动作选择模型进行训练，能够在保证模型训练精度的同时，提升模型训练效率，进一步减少模型训练代价。

在一个可选的实施例中，如图9所示，在上述基于初始强化学习模型部署到目标线上环境的过程中得到的多个第一训练样本，对初始强化学习模型进行模型训练，得到目标强化学习模型之后，上述方法还可以包括：

S212，基于目标强化学习模型，跳转至获取目标线上环境的当前环境状态信息，直至达到预设模型训练收敛条件；

S213，将当前的目标强化学习模型部署到目标线上环境。

具体的，可以进行多轮样本采集-模型训练的训练迭代过程，直至达到预设模型训练收敛条件，以进一步提升强化学习模型的在线运行性能。

具体的，这里的预设模型训练收敛条件可以为训练迭代操作的次数达到预设训练次数。可选的，达到预设模型训练收敛条件也可以为当前目标强化学习模型的模型质量信息满足模型运行性能要求。本说明书实施例中，预设训练次数可以结合实际应用中对网络的训练速度和精准度预先设置。

在一个可选的实施例中，在上述基于下一环境状态信息，跳转至将当前环境状态信息输入初始强化学习模型进行动作响应分析，输出响应动作信息，直至达到预设分析结束条件之后，上述方法还可以包括：

基于初始强化学习模型部署到目标线上环境的过程中得到的目标价值信息和动作差异信息，对初始强化学习模型进行模型质量分析，得到模型质量信息；

相应的，上述直至达到预设模型训练收敛条件可以包括：直至当前的模型质量信息达到预设模型训练收敛条件。

具体的，模型质量信息可以用于表征强化学习模型在线运行性能的好坏情况。

具体的，可以综合考虑目标在线环境的反馈激励和预设标准决策信息对应的动作差异，来分析强化学习模型的模型质量，在一个具体的实施例中，这里的模型质量分析算法可以通过如下公式表示：

其中，S表示模型质量信息，T表示初始强化学习模型部署到目标线上环境的过程中进行的多步动作响应分析的步数，s(t)表示第t步环境状态信息，a₀(t)表示与第t步环境状态信息对应的响应动作信息，a₁(t)表示基于预设标准决策信息确定的与第t步环境状态信息对应的预设标准动作信息，E[·]表示取期望，r(s(t),a₀(t))表示目标线上环境在第t步环境状态信息s(t)下基于响应动作信息a₀(t)反馈的即时激励信息，γ表示折扣因子，I{·}表示一个示例函数，即如果事件成立，那么取值为1，如果不成立，那么取值为0，α₁＞0和α₂＞0是用来平衡环境激励和动作差异的两个系数，τ＞0是表示动作决策差异容忍度的参数。

在一个可选的实施例中，预设模型训练收敛条件可以包括：模型质量信息不再变化，即当前目标强化学习模型的模型质量信息与上一目标强化学习模型的模型质量信息相比，没有提升。

由以上实施例可见，可以进行多轮样本采集-模型训练的训练迭代过程，直至达到预设模型训练收敛条件，并且在训练迭代过程中进行模型质量分析，以进一步提升强化学习模型的在线运行性能。

参见图10，图10是本申请实施例提供的一种任务场景的示意图。具体的，模型被部署到线上环境中后，会有专家来指导监督，即基于预设标准决策信息进行动作干预，然后线上环境会提供反馈信息，基于执行动作和环境反馈信息生成数据集，利用这个数据集，我们可以进一步提升对模型调优(训练)，以提升模型的性能。

参见图11，图11是申请实施例提供的一种自动驾驶应用场景下自动驾驶控制模型部署方法的流程示意图，这里的初始强化学习模型可以为初始自动驾驶控制模型，目标线上环境可以为自动驾驶车辆所在的驾驶场景，具体的，该驾驶场景可以包括：仿真驾驶场景或实际驾驶场景；目标线上环境的环境状态信息可以为车辆状态信息和周围驾驶环境信息，具体的，车辆状态信息可以包括：车速、车辆行驶方向等，周围驾驶环境信息可以包括：周围障碍物的相关信息、交通信号灯指示信息等。

步骤S1101中，基于离线样本数据集对初始自动驾驶控制模型进行离线训练。

具体的，离线样本数据集可以为基于预设通用驾驶控制策略，生成的与驾驶场景对应的默认交互数据。可选的，这里的预设通用驾驶控制可以结合大量样本用户的历史交互数据进行提取分析后得到，也可以由人类专家的经验知识得到。

步骤S1102中，在将初始自动驾驶控制模型部署到自动驾驶车辆之后，自动驾驶车辆可以基于预设目的地启动自动驾驶任务。

步骤S1103中，在执行自动驾驶任务的过程中，将当前车辆状态信息和当前驾驶环境信息输入初始自动驾驶控制模型进行驾驶控制分析，输出目标车辆状态调节指令。

可选的，目标车辆状态调节指令可以包括：目标车速调节指令和目标行驶方向调节指令。

步骤S1104中，判断目标车辆状态调节指令与标准车辆状态调节指令的调节差异信息是否满足预设指令干预条件。

具体的，基于预设标准决策信息可以确定与当前车辆状态信息和当前驾驶环境信息对应的标准车辆状态调节指令，可选的，标准车辆状态调节指令可以包括：标准车速调节指令和标准行驶方向调节指令。

具体的，这里的预设标准决策信息可以为基于专家知识得到的驾驶控制决策信息，也可以为基于用户个性化的驾驶控制策略得到的驾驶控制决策信息。

具体的，这里的调节差异信息可以用于表征目标车辆状态调节指令与标准车辆状态调节指令之间的调节差异情况，可选的，调节差异信息可以包括：车速调节差异信息和方向调节差异信息，其中，车速调节差异信息可以用于表征目标车速调节指令和标准车速调节指令之间的调节差异情况，方向调节差异信息可以用于表征目标行驶方向调节指令和标准行驶方向调节指令之间的调节差异情况。

具体的，这里的预设指令干预条件可以为通过标准车辆状态调节指令对目标车辆状态调节指令进行指令干预的预设条件，实际应用中，预设指令干预条件可以结合自动驾驶的安全性要求和驾驶路线的准确性要求进行预先设置，可选的，预设指令干预条件可以包括：调节差异容忍度。

步骤S1105中，在调节差异信息满足预设指令干预条件的情况下，基于标准车辆状态调节指令，确定当前车辆状态信息的下一车辆状态信息、当前驾驶环境信息的下一驾驶环境信息以及指令评价信息。

具体的，这里的指令评价信息可以用于评价当前执行的车辆状态调节指令对自动驾驶任务完成情况的影响，指令评价信息可以包括：即时评价信息和长期评价信息，例如，长期评价信息可以为当前行驶位置与预设目的地所在位置之间的距离，即时评价信息可以为第一距离与第二距离的差值，其中，第一距离为在当前车辆状态调节指令的执行时刻车辆与预设目的地的距离，第二距离为在下一车辆状态调节指令的执行时刻车辆与预设目的地的距离，一般的，即时评价信息和长期评价信息可以为负值。

步骤S1106中，基于当前车辆状态信息、当前驾驶环境信息、目标车辆状态调节指令、标准车辆状态调节指令、指令评价信息、下一车辆状态信息和下一驾驶环境信息，生成第一训练样本；然后基于下一车辆状态信息和下一驾驶环境信息，跳转至步骤S1103，直至自动驾驶车辆完成自动驾驶任务，到达预设目的地。

步骤S1107中，在调节差异信息不满足预设指令干预条件的情况下，不进行指令干预，仍然执行模型输出的目标车辆状态调节指令，并基于目标车辆状态调节指令，确定当前车辆状态信息的下一车辆状态信息、当前驾驶环境信息的下一驾驶环境信息，以及指令评价信息；然后基于下一车辆状态信息和下一驾驶环境信息，跳转至步骤S1103，直至自动驾驶车辆完成自动驾驶任务，到达预设目的地。

步骤S1108中，判断自动驾驶车辆是否完成自动驾驶任务，到达预设目的地。

步骤S1109中，在自动驾驶车辆到达预设目的地的情况下，基于初始自动驾驶控制模型部署到自动驾驶车辆之后得到的多个第一训练样本，对初始自动驾驶控制模型进行模型训练，得到目标自动驾驶控制模型。

在一个具体的实施例中，初始自动驾驶控制模型可以包括：初始指令生成模型和初始指令评价模型，基于多个第一训练样本，对初始自动驾驶控制模型进行模型训练，得到目标自动驾驶控制模型可以包括：

基于时序差分算法，确定多个第一训练样本中指令评价信息对应的评价损失信息；以最小化评价损失信息为更新目标，更新初始指令评价模型的模型参数，得到更新后的指令评价模型；基于更新后的指令评价模型，确定多个第一训练样本中标准车辆状态调节指令对应的更新评价信息；基于多个第一训练样本对应的更新评价信息与多个第一训练样本对应的调节差异信息的差值，确定累积评价信息；以最大化累积评价信息为更新目标，更新初始指令生成模型的模型参数，得到更新后的指令生成模型；将更新后的指令评价模型和更新后的指令生成模型，作为目标自动驾驶控制模型。

具体的，这里的评价损失信息可以表征指令评价信息的时序差分误差。这里的更新评价信息可以表征基于更新后的指令评价模型对当前状态的长期评价信息进行更新得到的更新评价信息。这里的累积评价信息可以表征多个第一训练样本对应的更新评价信息与调节差异信息的差异情况。

在一个具体的实施例中，上述自动驾驶应用场景下的自动驾驶控制模型部署方法还可以包括：

S1110，在调节差异信息满足预设指令干预条件的情况下，执行模型输出的目标车辆状态调节指令，并基于目标车辆状态调节指令，确定当前车辆状态信息的下一车辆状态信息、当前驾驶环境信息的下一驾驶环境信息。

S1111，基于当前车辆状态信息、当前驾驶环境信息、目标车辆状态调节指令和标准车辆状态调节指令，生成第二训练样本。

S1112，基于下一车辆状态信息和下一驾驶环境信息，重复执行步骤S1103、S1110和S1111的样本采集过程，直至自动驾驶车辆完成自动驾驶任务，到达预设目的地。

S1113，在自动驾驶车辆到达预设目的地的情况下，基于初始自动驾驶控制模型部署到自动驾驶车辆之后得到的多个第二训练样本，对初始自动驾驶控制模型进行模型训练，得到目标自动驾驶控制模型。

在一个具体的实施例中，初始自动驾驶控制模型可以包括：初始指令生成模型，基于多个第二训练样本，对初始自动驾驶控制模型进行模型训练，得到目标自动驾驶控制模型可以包括：

对多个第二训练样本中的目标车辆状态调节指令和多个第二训练样本中的标准车辆状态调节指令进行差异分析，确定调节损失信息；以最小化调节损失信息为更新目标，更新初始指令生成模型的模型参数，得到更新后的指令生成模型；基于更新后的指令生成模型，得到目标自动驾驶控制模型。

在一个可选的实施例中，上述自动驾驶控制模型部署方法还可以包括：基于初始自动驾驶控制模型部署到自动驾驶车辆的过程中得到的指令评价信息和调节差异信息，对初始自动驾驶控制模型进行模型质量分析，得到模型质量信息；相应的，上述直至达到预设模型训练收敛条件可以包括：直至当前的模型质量信息达到预设模型训练收敛条件。

具体的，模型质量信息可以用于表征自动驾驶控制模型在自动驾驶车辆中运行性能的好坏情况。

由以上实施例可见，在目标车辆状态调节指令过度偏离标准车辆状态调节指令的时候，使用标准车辆状态调节指令替代模型决策出的目标车辆状态调节指令，以提升车辆状态调节的准确性，从而保证自动驾驶控制的稳定性和安全性。

由以上本申请实施例提供的技术方案可见，一方面，在一些对实时执行动作的准确性要求较高的模型线上部署场景中，通过将初始强化学习模型部署到目标线上环境，将目标线上环境的当前环境状态信息输入初始强化学习模型进行动作响应分析，输出响应动作信息，并基于预设标准决策信息确定与当前环境状态信息对应的预设标准动作信息，在模型输出的响应动作信息与预设标准动作信息的动作差异信息满足预设动作干预条件的情况下，基于预设标准动作信息，确定目标价值信息和当前环境状态信息的下一环境状态信息，即在模型决策过度偏离预设标准决策的时候，使用预设标准动作信息替代模型决策出的响应动作信息，以提升动作执行的准确性，从而保证目标线上环境的稳定性和安全性，并且，在初始强化学习模型包括初始动作选择模型和初始价值分析模型的情况下，先以最小化价值损失信息为更新目标，更新初始价值分析模型的模型参数，再以最大化累积价值信息为更新目标，更新初始动作选择模型的模型参数，可以综合考虑预设标准决策对应的动作决策差异容忍度和在线环境的反馈激励来更新模型参数，从而更加高效地提升强化学习模型的在线运行性能；另一方面，在对实时执行动作的精准性要求较低的模型在线应用场景中，可以在动作差异信息满足预设动作干预条件的情况下，仍根据当前环境状态信息和响应动作信息来反馈即时激励信息和下一环境状态信息，然后采集相关数据作为训练样本，从而减少动作替换带来的计算代价，提升样本采集的效率，从而提升模型训练效率，由于对初始强化学习模型进行模型训练的过程仅对初始动作选择模型进行训练，能够在保证模型训练精度的同时，提升模型训练效率，进一步减少模型训练代价；此外，可以进行多轮样本采集-模型训练的训练迭代过程，直至达到预设模型训练收敛条件，并且在训练迭代过程中进行模型质量分析，以进一步提升强化学习模型的在线运行性能。

本申请实施例还提供了一种模型部署装置，如图12所示，该模型部署装置可以包括：

当前环境状态信息获取模块1210，用于获取目标线上环境的当前环境状态信息；

动作响应分析模块1220，用于在将初始强化学习模型部署到目标线上环境的过程中，将当前环境状态信息输入初始强化学习模型进行动作响应分析，输出响应动作信息；

动作干预模块1230，用于在响应动作信息与预设标准动作信息的动作差异信息满足预设动作干预条件的情况下，基于预设标准动作信息，确定目标价值信息和当前环境状态信息的下一环境状态信息，预设标准动作信息为基于预设标准决策信息确定的与当前环境状态信息对应的动作信息；

第一训练样本生成模块1240，用于基于当前环境状态信息、响应动作信息、预设标准动作信息、目标价值信息和下一环境状态信息，生成第一训练样本；

第一跳转模块1250，用于基于下一环境状态信息，跳转至将当前环境状态信息输入初始强化学习模型进行动作响应分析，输出响应动作信息，直至达到预设分析结束条件；

第一模型训练模块1260，用于基于初始强化学习模型部署到目标线上环境的过程中得到的多个第一训练样本，对初始强化学习模型进行模型训练，得到目标强化学习模型；

第一模型部署模块1270，用于将目标强化学习模型部署到目标线上环境。

在本说明书实施例中，上述装置还可以包括：

第三训练样本获取模块，用于获取第三训练样本，第三训练样本为与目标线上环境对应的默认交互数据；

第二模型训练模块，用于基于第三训练样本对预设强化学习模型进行模型训练，得到初始强化学习模型。

在一个具体的实施例中，初始强化学习模型可以包括：初始动作选择模型和初始价值分析模型，上述第一模型训练模块1260包括：

价值损失信息确定单元，用于基于时序差分算法，确定多个第一训练样本中目标价值信息对应的价值损失信息；

价值分析模型更新单元，用于以最小化价值损失信息为更新目标，更新初始价值分析模型的模型参数，得到更新后的价值分析模型；

更新价值信息确定单元，用于基于更新后的价值分析模型，确定多个第一训练样本中预设标准动作信息对应的更新价值信息；

累积价值信息确定单元，用于基于多个第一训练样本对应的更新价值信息与多个第一训练样本对应的动作差异信息的差值，确定累积价值信息；

第一动作选择模型更新单元，用于以最大化累积价值信息为更新目标，更新初始动作选择模型的模型参数，得到更新后的动作选择模型；

第一目标强化学习模型单元，用于将更新后的价值分析模型和更新后的动作选择模型，作为目标强化学习模型。

在一个可选的实施例中，在动作差异信息满足预设动作干预条件的情况下，上述装置还可以包括：

下一环境状态信息确定模块，用于基于响应动作信息，确定下一环境状态信息；

第二训练样本生成模块，用于基于当前环境状态信息、响应动作信息和预设标准动作信息，生成第二训练样本；

第二跳转模块，用于基于下一环境状态信息，跳转至将当前环境状态信息输入初始强化学习模型进行动作响应分析，输出响应动作信息，直至达到预设分析结束条件；

第三模型训练模块，用于基于初始强化学习模型部署到目标线上环境的过程中得到的多个第二训练样本，对初始强化学习模型进行模型训练，得到目标强化学习模型。

在一个具体的实施例中，初始强化学习模型可以包括：初始动作选择模型，上述第三模型训练模块可以包括：

动作损失信息确定单元，用于对多个第二训练样本中的响应动作信息和多个第二训练样本中的预设标准动作信息进行差异分析，确定动作损失信息；

第二动作选择模型更新单元，用于以最小化动作损失信息为更新目标，更新初始动作选择模型的模型参数，得到更新后的动作选择模型；

第二目标强化学习模型单元，用于基于更新后的动作选择模型，得到目标强化学习模型。

在一个可选的实施例中，上述装置还可以包括：

第三跳转模块，用于基于目标强化学习模型，跳转至获取目标线上环境的当前环境状态信息，直至达到预设模型训练收敛条件；

第二模型部署模块，用于将当前的目标强化学习模型部署到目标线上环境。

在一个可选的实施例中，上述装置还可以包括：

模型质量分析模块，用于基于初始强化学习模型部署到目标线上环境的过程中得到的目标价值信息和动作差异信息，对初始强化学习模型进行模型质量分析，得到模型质量信息；

相应的，上述直至达到预设模型训练收敛条件可以包括：

直至当前的模型质量信息达到预设模型训练收敛条件。

需要说明的是，装置实施例中的装置与方法实施例基于同样的发明构思。

本申请实施例提供了一种模型部署设备，该模型部署设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的模型部署方法。

进一步地，图13示出了一种用于实现本申请实施例所提供的模型部署方法的模型部署设备的硬件结构示意图，所述模型部署设备可以参与构成或包含本申请实施例所提供的模型部署装置。如图13所示，模型部署设备130可以包括一个或多个(图中采用1302a、1302b，……，1302n来示出)处理器1302(处理器1302可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1304、以及用于通信功能的传输装置1306。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图13所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，模型部署设备130还可包括比图13中所示更多或者更少的组件，或者具有与图13所示不同的配置。

应当注意到的是上述一个或多个处理器1302和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到模型部署设备130(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器1304可用于存储应用软件的软件程序以及模块，如本申请实施例中所述的模型部署方法对应的程序指令/数据存储装置，处理器1302通过运行存储在存储器1304内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种模型部署方法。存储器1304可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1304可进一步包括相对于处理器1302远程设置的存储器，这些远程存储器可以通过网络连接至模型部署设备130。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括模型部署设备130的通信供应商提供的无线网络。在一个实例中，传输装置1306包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实施例中，传输装置1306可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与模型部署设备130(或移动设备)的用户界面进行交互。

本申请的实施例还提供了一种计算机可读存储介质，所述存储介质可设置于模型部署设备之中以保存用于实现方法实施例中模型部署方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的模型部署方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如方法实施例提供的模型部署方法。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种模型部署方法，其特征在于，所述方法包括：

获取目标线上环境的当前环境状态信息；

将所述目标强化学习模型部署到所述目标线上环境。

2.根据权利要求1所述的方法，其特征在于，所述初始强化学习模型包括：初始动作选择模型和初始价值分析模型，所述基于所述初始强化学习模型部署到所述目标线上环境的过程中得到的多个第一训练样本，对所述初始强化学习模型进行模型训练，得到目标强化学习模型包括：

基于时序差分算法，确定所述多个第一训练样本中目标价值信息对应的价值损失信息；

以最小化所述价值损失信息为更新目标，更新所述初始价值分析模型的模型参数，得到更新后的价值分析模型；

基于所述更新后的价值分析模型，确定所述多个第一训练样本中预设标准动作信息对应的更新价值信息；

基于所述多个第一训练样本对应的更新价值信息与所述多个第一训练样本对应的动作差异信息的差值，确定累积价值信息；

以最大化所述累积价值信息为更新目标，更新所述初始动作选择模型的模型参数，得到更新后的动作选择模型；

将所述更新后的价值分析模型和所述更新后的动作选择模型，作为所述目标强化学习模型。

3.根据权利要求1所述的方法，其特征在于，在所述动作差异信息满足所述预设动作干预条件的情况下，所述方法还包括：

基于所述响应动作信息，确定所述下一环境状态信息；

基于所述当前环境状态信息、所述响应动作信息和所述预设标准动作信息，生成第二训练样本；

基于所述下一环境状态信息，跳转至所述将所述当前环境状态信息输入所述初始强化学习模型进行动作响应分析，输出响应动作信息，直至达到所述预设分析结束条件；

基于所述初始强化学习模型部署到所述目标线上环境的过程中得到的多个第二训练样本，对所述初始强化学习模型进行模型训练，得到所述目标强化学习模型。

4.根据权利要求3所述的方法，其特征在于，所述初始强化学习模型包括：初始动作选择模型，所述基于所述初始强化学习模型部署到所述目标线上环境的过程中得到的多个第二训练样本，对所述初始强化学习模型进行模型训练，得到所述目标强化学习模型包括：

对所述多个第二训练样本中的响应动作信息和所述多个第二训练样本中的预设标准动作信息进行差异分析，确定动作损失信息；

以最小化所述动作损失信息为更新目标，更新所述初始动作选择模型的模型参数，得到更新后的动作选择模型；

基于所述更新后的动作选择模型，得到所述目标强化学习模型。

5.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

获取第三训练样本，所述第三训练样本为与所述目标线上环境对应的默认交互数据；

基于所述第三训练样本对预设强化学习模型进行模型训练，得到所述初始强化学习模型。

6.根据权利要求1至4任一所述的方法，其特征在于，在所述基于所述初始强化学习模型部署到所述目标线上环境的过程中得到的多个第一训练样本，对所述初始强化学习模型进行模型训练，得到目标强化学习模型之后，所述方法还包括：

基于所述目标强化学习模型，跳转至所述获取目标线上环境的当前环境状态信息，直至达到预设模型训练收敛条件；

将当前的目标强化学习模型部署到所述目标线上环境。

7.根据权利要求6所述的方法，其特征在于，在所述基于所述下一环境状态信息，跳转至所述将所述当前环境状态信息输入所述初始强化学习模型进行动作响应分析，输出响应动作信息，直至达到预设分析结束条件之后，所述方法还包括：

基于所述初始强化学习模型部署到所述目标线上环境的过程中得到的目标价值信息和动作差异信息，对所述初始强化学习模型进行模型质量分析，得到模型质量信息；

相应的，所述直至达到预设模型训练收敛条件包括：

直至当前的模型质量信息达到所述预设模型训练收敛条件。

8.一种模型部署装置，其特征在于，所述装置包括：

9.一种模型部署设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的模型部署方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的模型部署方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的模型部署方法。