CN116974584A

CN116974584A - 模型部署方法、装置、设备及存储介质

Info

Publication number: CN116974584A
Application number: CN202211544925.3A
Authority: CN
Inventors: 李子牛; 赵沛霖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-10-31

Abstract

本申请实施例提供一种模型部署方法、装置、设备及存储介质，该方法包括：获取N个离线强化学习模型，针对每个离线强化学习模型，获取目标对象在目标环境中的第一状态信息，将第一状态信息输入离线强化学习模型，输出第一状态信息对应的动作策略，采用第一状态信息对应的动作策略控制目标对象进行动作，反馈第一状态信息对应的奖励，输出第一状态信息对应的预期动作策略，根据第一状态信息对应的奖励、第一状态信息对应的动作策略和第一状态信息对应的预期动作策略，确定离线强化学习模型的线上评估信息，根据每个离线强化学习模型的线上评估信息，确定N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型并部署。

Description

模型部署方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种模型部署方法、装置、设备及存储介质。

背景技术

近些年来，强化学习算法在各种各样的场景中被广泛应用。其中，离线强化学习算法使用已有的数据集来训练模型，而不需要与环境交互，因此受到广泛关注。而随着离线强化学习模型训练的迭代轮数不同，会产生不同的离线强化学习模型。

如何将训练好的不同的离线强化学习模型部署在线上(如终端设备)使用，相关技术中，采用免超参数调优的策略筛选算法来部署，该算法使用离线数据集来预测不同离线强化学习模型的性能，筛选出预测性能最好的离线强化学习模型部署。

然而，上述算法受限于离线数据集的覆盖度和离线数据集的样本多样性，如果离线数据集质量比较差，会导致筛选出的离线强化学习模型在线上使用阶段的性能较差。

发明内容

本申请实施例提供一种模型部署方法、装置、设备及存储介质，可以提升离线强化学习模型在线上使用阶段的性能。

第一方面，本申请实施例提供一种模型部署方法，包括：

获取N个离线强化学习模型，所述N为正整数；

针对所述N个离线强化学习模型中的每个离线强化学习模型，获取目标对象在目标环境中的第一状态信息，将所述第一状态信息输入所述离线强化学习模型，输出所述第一状态信息对应的动作策略，采用所述第一状态信息对应的动作策略控制所述目标对象进行动作，反馈所述第一状态信息对应的奖励，并输出所述第一状态信息对应的预期动作策略；

根据所述第一状态信息对应的奖励、所述第一状态信息对应的动作策略和所述第一状态信息对应的预期动作策略，得到所述第一状态信息对应的评估参数；

根据所述第一状态信息对应的评估参数，确定所述离线强化学习模型的线上评估信息；

根据所述每个离线强化学习模型的线上评估信息，确定所述N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，部署所述目标离线强化学习模型，所述目标参数用于表征所述离线强化学习模型的性能。

第二方面，本申请实施例提供一种模型部署装置，包括：

第一获取模块，用于获取N个离线强化学习模型，所述N为正整数；

第二获取模块，用于：针对所述N个离线强化学习模型中的每个离线强化学习模型，获取目标对象在目标环境中的第一状态信息，将所述第一状态信息输入所述离线强化学习模型，输出所述第一状态信息对应的动作策略，采用所述第一状态信息对应的动作策略控制所述目标对象进行动作，反馈所述第一状态信息对应的奖励，并输出所述第一状态信息对应的预期动作策略，根据所述第一状态信息对应的奖励、所述第一状态信息对应的动作策略和所述第一状态信息对应的预期动作策略，得到所述第一状态信息对应的评估参数；

处理模块，用于：根据所述第一状态信息对应的评估参数，确定所述离线强化学习模型的线上评估信息，根据所述每个离线强化学习模型的线上评估信息，确定所述N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，部署所述目标离线强化学习模型，所述目标参数用于表征所述离线强化学习模型的性能。

第三方面，本申请实施例提供一种计算机设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行第一方面的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，包括指令，当其在计算机程序上运行时，使得所述计算机执行如第一方面的方法。

第五方面，本申请实施例提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使得所述计算机执行如第一方面的方法。

综上，在本申请实施例中，通过获取N个离线强化学习模型，针对所述N个离线强化学习模型中的每个离线强化学习模型，确定离线强化学习模型的线上评估信息，具体是获取目标对象在目标环境中的第一状态信息，将所述第一状态信息输入所述离线强化学习模型，输出所述第一状态信息对应的动作策略，采用所述第一状态信息对应的动作策略控制所述目标对象进行动作，反馈所述第一状态信息对应的奖励，并输出所述第一状态信息对应的预期动作策略，根据所述第一状态信息对应的奖励、所述第一状态信息对应的动作策略和所述第一状态信息对应的预期动作策略，得到所述第一状态信息对应的评估参数，根据所述第一状态信息对应的评估参数，确定所述离线强化学习模型的线上评估信息。在后续每次部署时，根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数以及预设筛选方法，确定出N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，并部署目标离线强化学习模型，目标参数用于表征离线强化学习模型的性能。由于在后续每次部署时，是根据每个离线强化学习模型的历史数据(即累计线上评估信息和累计被部署的次数)以及预设筛选方法，从N个离线强化学习模型中确定出性能满足预设条件的目标离线强化学习模型部署，且累计线上评估信息是强化学习模型的在线反馈信息，从而可保证在N+1次之后每次线上部署的均是N个离线强化学习模型中性能满足预设条件的强化学习模型，因此，可以提升离线强化学习模型在线上使用阶段的性能。

进一步地，在本申请实施例中，离线强化学习模型的线上评估信息不仅考虑环境奖励，还考虑了强化学习模型部署在线上环境的预期动作，从而使得确定出的离线强化学习模型可达到预期的性能要求。另一方面，本实施例的方法，一方面计算代价较小，且不需要过多的存储代价，而且更新规则较为简单，运行时间较少。由于本实施例的方法具有较小的计算代价，可以方便离线强化学习模型的部署，将使得离线强化学习更容易在实际中使用。

附图说明

图1为本申请实施例提供的一种模型部署方法的实施场景示意图；

图2为本申请实施例提供的一种模型部署方法的流程图；

图3为本申请实施例提供的一种模型部署方法的流程图；

图4为本申请实施例提供的一种模型部署方法的流程图；

图5为本申请实施例提供的一种模型部署装置的结构示意图；

图6是本申请实施例提供的计算机设备300的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

需要说明的是，本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在介绍本申请实施例技术方案之前，下面先对本申请实施例相关知识进行介绍：

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

深度学习(Deep Learning，DL)：是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次，这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

强化学习(reinforcement leaming，RL)：是机器学习的范式和方法论之一，通常用于解决序列决策问题，主要包括环境和智能体两个组成成分，智能体根据环境的状态选择动作执行，环境根据智能体的动作转移到新的状态并反馈一个数值的奖励，智能体根据环境反馈的奖励不断优化策略。

强化学习通常可以表示为马尔科夫决策过程，一个标准的马尔科夫决策过程M＝(S，A，P，r，γ，ρ)。其中S表示状态空间，A表示动作空间，P表示状态转移函数，r表示环境奖励函数，γ表示折扣因子，ρ表示初始状态分布。给定这些信息，策略π(a|s)指定了在状态s上选择动作a的概率。从一个初始状态开始，策略与环境不断交互，可以产生一个很长的轨迹。一个策略的累计环境奖励可以通过如下公式(1)表示：

其中，γ表示折扣因子，a_t表示t时的动作，s_t表示t时的状态，π(s_t)表示状态s_t对应动作，”(·|s_t，a_t)表示给定S_t和a_t时S_t+1的概率。

离线强化学习(Offline reinforcement learning，Offline RL)：是一类完全从离线的数据中进行学习的强化学习方法，不与环境交互采样，通常这类方法使用动作约束来控制在线测试时数据分布与离线数据分布的差异。本申请实施例中，离线强化学习具体是指给定一个离线的数据集D＝{(s_i,a_i,r_i,s_i+1)}，这里(s_i,a_i,r_i,s_i+1)表示一个样本，即状态-动作-奖励-下一个状态，利用这个数据集D来训练离线强化学习模型。具体的离线强化学习算法可以包括(deep Q-network，DQN)、离线策略算法(Soft Actor–critic，SAC)或BRAC等等。

相关技术中，在进行离线强化学习模型部署时，由于采用的是离线数据集预测不同离线强化学习模型的性能，筛选出预测性能最好的离线强化学习模型部署，所部署的离线强化学历模型是固定不变的，而线上环境多变，会导致筛选出的离线强化学习模型在线上使用阶段的性能较差。为解决这一问题，本申请实施例通过在第1次至第N次部署时，依次部署N个离线强化学习模型，以获取N个离线强化学习模型中每个离线强化学习模型的线上评估信息，在后续每次部署时，根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数，确定出N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，并部署目标离线强化学习模型，目标参数用于表征离线强化学习模型的性能。由于在后续每次部署时，是根据每个离线强化学习模型的历史数据(即累计线上评估信息和累计被部署的次数)，从N个离线强化学习模型中确定出性能满足预设条件的目标离线强化学习模型部署，且累计线上评估信息是强化学习模型的在线反馈信息，从而可保证在N+1次之后每次线上部署的均是N个离线强化学习模型中性能满足预设条件的强化学习模型，因此，可以提升离线强化学习模型在线上使用阶段的性能。

本申请实施例可应用于各种场景，包括但不限于游戏AI、推荐系统、自动驾驶、电网控制、机器人控制等场景。例如，推荐系统中存在给用户推荐好友或产品等任务，例如基于圈子的推荐，基于地理、人物任务关系、兴趣爱好组成的圈子，进行产品和广告的推荐等。其中，自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景。

需要说明的是，上面介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

示例性的，图1为本申请实施例提供的一种模型部署方法的实施场景示意图，如图1所示，本申请实施例的实施场景涉及服务器1和终端设备2，终端设备2可以通过通信网络与服务器1进行数据通信。通信网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

其中，在一些可实现方式中，终端设备2是指一类具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作系统、具有较强处理能力的设备。终端设备可以是智能手机、平板电脑、便携式笔记本电脑、台式电脑等终端设备或电话手表等，但不限于此。可选的，本申请实施例中，终端设备2中安装有各类应用程序，如视频类应用程序、新闻类应用程序等。

其中，在一些可实现方式中，终端设备2包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

图1中的服务器1可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。本申请实施例对此不做限制。本申请实施例中，服务器1可以为终端设备2中安装的某个应用程序的后台服务器。

在一些可实现方式中，图1示例性地示出了一个终端设备、一台服务器，实际上可以包括其他数量的终端设备和服务器，本申请实施例对此不做限制。

在一些实施例中，预先训练好多个离线强化学习模型，接着需要对该多个离线强化学习模型进行线上部署，线上部署后，用户通过终端设备使用相关强化学习模型，服务器可获取到线上数据集。终端设备2可使用本申请实施例提供的模型部署方法，通过使用本申请实施例提供的模型部署方法，可保证在N+1次之后每次线上部署的均是N个离线强化学习模型中性能满足预设条件的强化学习模型，因此，可以提升离线强化学习模型在线上使用阶段的性能。

下面将对本申请实施例技术方案进行详细阐述：

图2为本申请实施例提供的一种模型部署方法的流程图，本申请实施例的执行主体为具有模型部署功能的装置，例如模型部署装置，该模型部署装置例如可以为终端设备，如图2所示，该方法可以包括：

S101、获取N个离线强化学习模型，N为正整数。

具体地，N个离线强化学习模型是通过离线强化学习训练得到的，本申请实施例中，见上述定义，离线强化学习具体是指给定一个离线的数据集D＝{(s_i,a_i,r_i,s_i+1)}，这里(s_i,a_i,r_i,s_i+1)表示一个样本，即状态-动作-奖励-下一个状态，利用这个数据集D来训练离线强化学习模型。具体的离线强化学习算法本实施例不做限制。可选的，本实施例中获取N个离线强化学习模型，可以是接收输入的N个离线强化学习模型。

S102、针对N个离线强化学习模型中的每个离线强化学习模型，获取目标对象在目标环境中的第一状态信息，将第一状态信息输入离线强化学习模型，输出第一状态信息对应的动作策略，采用第一状态信息对应的动作策略控制目标对象进行动作，反馈第一状态信息对应的奖励，并输出第一状态信息对应的预期动作策略。

S103、根据第一状态信息对应的奖励、第一状态信息对应的动作策略和第一状态信息对应的预期动作策略，得到第一状态信息对应的评估参数。

可选的，第一状态信息对应的预期动作策略为以第一状态信息为输入的决策函数的输出。

S104、根据第一状态信息对应的评估参数，确定离线强化学习模型的线上评估信息。

具体地，本申请实施例中，可以是在第1次至第N次部署时，依次部署N个离线强化学习模型，获取N个离线强化学习模型中每个离线强化学习模型的线上评估信息。每个离线强化学习模型的线上评估信息的获取过程可以为S102-S104所示，其中，根据第一状态信息对应的评估参数，确定离线强化学习模型的线上评估信息，可以是根据预设时间内的多个第一状态信息对应的评估参数，确定离线强化学习模型的线上评估信息，例如预设时间内有T+1个第一状态信息，则可以根据T+1个第一状态信息对应的评估参数(即T个评估参数)确定离线强化学习模型的线上评估信息。

具体地，在一般的离线强化学习中，通常可以使用不同算法(或者不同参数)得到N个不同的离线强化学习模型，但是事先不知道这N个离线强化学习模型中哪一个离线强化学习模型在线上使用阶段的性能可以表现得很好。本实施例的部署目标是从N个离线强化学习模型中筛选出性能满足预设条件(如性能最好)的那一个。为了筛选模型，本实施例中需要将模型部署到线上来进行评估，以得到N个离线强化学习模型中每个离线强化学习模型的线上评估信息。具体部署到线上可以是将离线强化学习模型部署在终端设备中使用。

本实施例中，在第1次至第N次部署时，依次部署N个离线强化学习模型，每次部署一个离线强化学习模型时，可以获取到该离线强化学习模型的线上评估信息。

可选的，每个离线强化学习模型的线上评估信息可以根据离线强化学习模型的线上轨迹中多个第一状态信息对应的评估参数确定，其中，一个第一状态信息对应的评估参数包括第一状态信息对应的奖励、第一状态信息对应的动作策略和第一状态信息对应的预期动作策略。可以理解的是，将离线强化学习模型部署到线上后，从一个初始状态开始，策略与环境不断交互，可以产生一个很长的轨迹。该轨迹称为离线强化学习模型的线上轨迹，该离线强化学习模型的线上轨迹包括多个第一状态信息，每个第一状态信息上对应有选择的动作。

可选的，在一种可实施的方式中，S104中根据第一状态信息对应的评估参数，确定离线强化学习模型的线上评估信息，具体可以为：

S1041、根据第一状态信息对应的评估参数、第一权重系数和第二权重系数，确定离线强化学习模型的线上评估信息。

可选的，作为一种可实施的方式，S1041中根据第一状态信息对应的评估参数、第一权重系数和第二权重系数，确定离线强化学习模型的线上评估信息，具体可以为：

S1、计算预设权重参数、第一状态信息对应的奖励以及第一权重系数的乘积，得到第一数值。

S2、根据示例函数、第一状态信息对应的动作策略、第一状态信息对应的预期动作策略以及用于表征预期动作容忍程度的参数，计算得到第一状态信息的示例函数值，计算第一状态信息的示例函数值与第二权重系数的乘积，得到第二数值。

S3、将第一数值减去第二数值的差确定为离线强化学习模型的线上评估值。

具体地，在一种可实施的方式中，可以是根据预设时间内的多个第一状态信息对应的评估参数，确定离线强化学习模型的线上评估信息，例如预设时间内有T+1个第一状态信息，则可以根据T+1个第一状态信息对应的评估参数(即T个评估参数)确定离线强化学习模型的线上评估信息，其中，根据T+1个第一状态信息对应的评估参数(即T个评估参数)确定离线强化学习模型的线上评估信息S，可以通过如下公式(2)表示：

其中，α₁＞0，α₂＞0分别是第一权重系数和第二权重系数，第一权重系数和第二权重系数是用于平衡环境反馈奖励和状态信息对应的预期动作的满意程度。γ表示折扣因子(取值可以为0-1)，a_t表示t时的动作策略，s_t表示t时的状态信息，r(s_t，a_t)表示状态信息s_t对应的奖励，T表示离线强化学习模型的线上轨迹中的状态信息的数量，π(s_t)表示状态信息s_t对应的离线强化学习模型输出的动作策略，π^E(s_t)表示状态信息s_t对应的预期动作策略，表示一个示例函数，即如果事件成立，那么取值为1，如果不成立，那么取值为0。τ表示预期动作策略容忍程度的参数，τ＞0。||·||₂是指求2范数。/>表示求期望。

本申请实施例中，从上述公式(2)可以看出，目标是在线上部署的时候能够使得最大化线上评估信息S。为了实现这个目标，离线强化学习模型能尽可能最大化环境奖励，同时使得输出的动作策略与预期动作策略相同。

可以看出，上述最大化线上评估信息S是一个随机变量，随机因素来源于环境的转移。如果离线强化学习模型比较倾向于选择与预期动作策略一致的决策，那么第二项惩罚就比较小。此时可能第一项环境奖励比较小。经过评估之后，可以知道N个离线强化学习模型的性能优劣。由于在线评估得到的线上评估信息S是随机的，因此需要将一个离线强化学习模型部署多次后，才能确定一个离线强化学习模型的性能优劣。因此，本实施例中先将N个离线强化学习模型中的每个离线强化学习模型先部署一次，接着进行后续的部署，经过多轮部署，最终确定出性能满足预设条件的离线强化学习模型。

S105、根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数，确定N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，部署目标离线强化学习模型，目标参数用于表征离线强化学习模型的性能。

具体地，在第i次部署时，根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数，确定出N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，部署目标离线强化学习模型，目标参数用于表征离线强化学习模型的性能，i大于N。

具体地，一个离线强化学习模型的累计线上评估信息是指该离线强化学习模型在截止到第i次部署时获得的累计线上评估信息，例如，截止到第i次部署时该离线强化学习模型被部署了n次，则其累计线上评估信息为n次部署获得的线上评估信息的累加。一个离线强化学习模型的累计被部署的次数是指该离线强化学习模型在截止到第i次部署时累计被部署的次数。

本实施例中，通过根据每个离线强化学习模型的历史数据进行每次的部署，可以实现自适应地筛选出性能满足预设条件的离线强化学习模型进行部署，可以随着环境的变化而变化。

可选的，本实施例中，根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数以及预设筛选方法，确定出N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，有如下两种可实施的方式：

方式一、目标参数为离线强化学习模型的上置信区间参数值，此时在第i次部署时，具体可以采用基于上置信区间的估计算法，可以使用如下公式(3)所示的筛选方法：

其中，是在截止到第k次部署时第i个离线强化学习模型的累计线上评估信息，β是一个超参数，β>0，/>是第k次部署时第i个离线强化学习模型的置信区间。本实施例中，/>其中/>是截止到第k次部署时第i个离线强化学习模型累计被部署的次数，即第i个离线强化学习模型已经被部署的次数。

基于上置信区间的估计是乐观的。由于该估计是乐观的，所以它不会错失部署任何一个离线强化学习模型的机会。具体而言，对于一个乐观估计，如果部署某个离线强化学习模型后，如果其真实性能没有乐观估计的那么好，那么乐观估计的值将会减少，这个模型被选择的可能性也会降低。

可以看到，在上公式(3)中，如果离线强化学习模型被部署的次数较少，那么其置信区间(bonus)将比较大。这样，即使估计的线上评估信息不准确，这个离线强化学习模型仍然有很大的可能被筛选出来部署。相反，如果一个离线强化学习模型的线上评估信息(例如为线上反馈值)很小，同时经过多次尝试之后，置信区间(bonus)也会比较小。那么可以相信这个离线强化学习模型大概率不是最优模型，它在之后被部署的可能性也就很低。对于最优的那个线上评估信息模型，由于其线上反馈值是最大的，所以经过足够多的尝试之后，它被筛选出来部署的概率是最大。

作为一种可实施的方式，此时在第i次部署时，根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数，确定N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，具体可以为：

S1051、针对每个离线强化学习模型，根据离线强化学习模型的累计被部署的次数，计算离线强化学习模型的置信区间。

具体地，本实施例中，两个变量为X和n，待部署的离线强化学习模型有N个，这两个变量都是N维的向量，在X和n里，下标k表示迭代轮数，上标i表示第i个元素。X和n的具体含义分别是：表示截止到第k次部署时第i个离线强化学习模型获得的累计线上评估信息，即为公式(2)中的S，/>表示截止到第k次部署时第i个离线强化学习模型累计被部署的次数。因此，/>就是第i个离线强化学习模型的估计反馈值。

具体地，针对一个离线强化学习模型，根据该离线强化学习模型的累计被部署的次数，计算离线强化学习模型的置信区间

S1052、根据离线强化学习模型的累计线上评估信息和离线强化学习模型的累计被部署的次数，计算离线强化学习模型的估计反馈值。

具体地，根据离线强化学习模型的累计线上评估信息和离线强化学习模型的累计被部署的次数/>计算离线强化学习模型的估计反馈值即为/>

S1053、根据离线强化学习模型的估计反馈值、超参数和离线强化学习模型的置信区间，计算得到离线强化学习模型的上置信区间参数值。

具体地，根据离线强化学习模型的估计反馈值超参数β和离线强化学习模型的置信区间/>计算得到离线强化学习模型的上置信区间参数值为/>

S1054、将N个离线强化学习模型中上置信区间参数值最大的离线强化学习模型确定为目标离线强化学习模型。

具体地，目标离线强化学习模型的置信区间参数值可以表示为：即为N个离线强化学习模型的上置信区间参数值中最大的上置信区间参数值。

可选的，作为一种可实施的方式，在第i次部署时，根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数，将N个离线强化学习模型中上置信区间参数值最大的离线强化学习模型确定为目标离线强化学习模型，部署该目标离线强化学习模型，具体可以采用如下的方式：

根据上述流程可以看出，每次部署完一个离线强化学习模型后，都会对应地更新X和n。可选的，上述流程可以预设停止条件，例如观测一段时间，若该观测时间内一直部署的是同一个离线强化学习模型则停止。本实施例的上述算法，一方面计算代价很小，可以看到这个算法只需要维护两个N维的向量，而不需要过多的存储代价；而且更新规则较为简单，运行时间也会比较少；另一方面该算法是一个自适应算法。自适应体现在，这个算法的筛选方式会与历史数据有关。具体地，由于X和n分别是和观测到的历史数据有关的，模型的筛选规则也与历史数据有关。因此，可以根据历史数据，自适应地筛除掉不太好的模型，从而保留性能比较好的模型。

理论上可以证明，如果每次得到的反馈值是一个有界的随机变量，取值是有限的，那么在K趋向于无穷的时候，这个算法一定可以筛选出N个离线强化学习模型里性能最好的那一个。在K不是无穷，这个算法的遗憾(regret)是数学证明也可以将性能最好的选择出来，具体的证明细节和原始的UCB算法的证明基本相同，此处不再赘述。

需要说明的是，上述算法是在N个给定的离线强化学习模型里筛选出性能最好的模型来部署，因此，这个算法能实现的最好的性能也由N个离线强化学习模型里最好的那一个模型来决定。因此，在实现该算法的时候需要合适的选择离线强化学习训练算法。

方式二、目标参数为离线强化学习模型的后验期望，可以使用辛普森采样(Thompson Sampling)方法进行筛选，在第i次部署时，根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数，确定出N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，具体可以为：

S1051’、针对每个离线强化学习模型，根据离线强化学习模型的累计线上评估信息和累计被部署的次数，计算得到离线强化学习模型的后验期望。

S1052’、将N个离线强化学习模型中后验期望最大的离线强化学习模型确定为目标离线强化学习模型。

可选的，本实施例的方法在S105之后，还可以包括：

获取目标对象在目标环境中的第二状态信息，将第二状态信息输入目标离线强化学习模型，输出第二状态信息对应的动作策略，采用第二状态信息对应的动作策略控制目标对象进行动作，反馈第二状态信息对应的奖励，并输出第二状态信息对应的预期动作策略，根据第二状态信息对应的奖励、第二状态信息对应的动作策略和第二状态信息对应的预期动作策略，得到第二状态信息对应的评估参数，根据第二状态信息对应的评估参数，确定目标离线强化学习模型的线上评估信息。

可选的，在一种可实施的方式中，部署目标离线强化学习模型，具体可以为：

获取线上数据集，使用线上数据集对目标离线强化学习模型进行训练，得到训练后的目标离线强化学习模型，部署训练后的目标离线强化学习模型。

通过确定出目标离线强化学习模型后，使用线上数据集对目标离线强化学习模型再次进行训练，再部署训练后的目标离线强化学习模型，可进一步提升目标离线强化学习模型的性能。

本实施例提供的模型部署方法，通过获取N个离线强化学习模型，针对N个离线强化学习模型中的每个离线强化学习模型，确定离线强化学习模型的线上评估信息，具体是获取目标对象在目标环境中的第一状态信息，将第一状态信息输入离线强化学习模型，输出第一状态信息对应的动作策略，采用第一状态信息对应的动作策略控制目标对象进行动作，反馈第一状态信息对应的奖励，并输出第一状态信息对应的预期动作策略，根据第一状态信息对应的奖励、第一状态信息对应的动作策略和第一状态信息对应的预期动作策略，得到第一状态信息对应的评估参数，根据第一状态信息对应的评估参数，确定离线强化学习模型的线上评估信息。在后续每次部署时，根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数以及预设筛选方法，确定出N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，并部署目标离线强化学习模型，目标参数用于表征离线强化学习模型的性能。由于在后续每次部署时，是根据每个离线强化学习模型的历史数据(即累计线上评估信息和累计被部署的次数)以及预设筛选方法，从N个离线强化学习模型中确定出性能满足预设条件的目标离线强化学习模型部署，且累计线上评估信息是强化学习模型的在线反馈信息，从而可保证在N+1次之后每次线上部署的均是N个离线强化学习模型中性能满足预设条件的强化学习模型，因此，可以提升离线强化学习模型在线上使用阶段的性能。

下面结合图3，采用一个具体的实施例，详细说明本申请实施例提供的模型部署方法的详细过程。

图3为本申请实施例提供的一种模型部署方法的流程图，该方法的执行主体可以是终端设备，本实施例中以目标参数为离线强化学习模型的上置信区间参数值为例，如图3所示，该方法可以包括：

S201、获取N个离线强化学习模型，N为正整数。

S202、在第1次至第N次部署时，依次部署N个离线强化学习模型，获取N个离线强化学习模型中每个离线强化学习模型的线上评估信息。

具体地，在部署每个离线强化学习模型时，获取每个离线强化学习模型的线上评估信息的过程可以为：

S2021、获取目标对象在目标环境中的第一状态信息，将第一状态信息输入离线强化学习模型，输出第一状态信息对应的动作策略，采用第一状态信息对应的动作策略控制目标对象进行动作，反馈第一状态信息对应的奖励，并输出第一状态信息对应的预期动作策略。

S2022、根据第一状态信息对应的奖励、第一状态信息对应的动作策略和第一状态信息对应的预期动作策略，得到第一状态信息对应的评估参数。

S2023根据第一状态信息对应的评估参数，确定离线强化学习模型的线上评估信息。

可选的，在一种可实施的方式中，在离线强化学习模型使用时间内例如有T+1个状态信息，获取的离线强化学习模型的线上评估信息S可以通过如下公式(2)表示：

S203、在第i次部署时，根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数，确定N个离线强化学习模型中上置信区间参数值最大的离线强化学习模型，部署该上置信区间参数值最大的离线强化学习模型，i大于N。

作为一种可实施的方式，在第i次部署时，S203具体可以为：

S2031、针对每个离线强化学习模型，根据离线强化学习模型的累计被部署的次数，计算离线强化学习模型的置信区间。

S2032、根据离线强化学习模型的累计线上评估信息和离线强化学习模型的累计被部署的次数，计算离线强化学习模型的估计反馈值。

S2033、根据离线强化学习模型的估计反馈值、超参数和离线强化学习模型的置信区间，计算得到离线强化学习模型的上置信区间参数值。

S2034、将N个离线强化学习模型中上置信区间参数值最大的离线强化学习模型确定为目标离线强化学习模型。

本实施例提供的方法，通过获取待部署的N个离线强化学习模型，在第1次至第N次部署时，依次部署N个离线强化学习模型，获取N个离线强化学习模型中每个离线强化学习模型的线上评估信息，在第i次部署时，根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数，确定出N个离线强化学习模型中上置信区间参数值最大的离线强化学习模型，部署该上置信区间参数值最大的离线强化学习模型。由于在后续每次部署时，是根据每个离线强化学习模型的历史数据(即累计线上评估信息和累计被部署的次数)，从N个离线强化学习模型中确定出上置信区间参数值最大的离线强化学习模型部署，且累计线上评估信息是强化学习模型的在线反馈信息，从而可保证在N+1次之后每次线上部署的均是N个离线强化学习模型中性能最好的强化学习模型，因此，可以提升离线强化学习模型在线上使用阶段的性能。而且，本实施例中的线上评估信息不仅考虑环境奖励，还考虑了强化学习模型部署在线上环境的预期动作，从而使得确定出的离线强化学习模型可达到预期的性能要求。另一方面，本实施例的方法，一方面计算代价较小，且不需要过多的存储代价，而且更新规则较为简单，运行时间较少。由于本实施例的方法具有较小的计算代价，可以方便离线强化学习模型的部署，将使得离线强化学习更容易在实际中使用。

下面以本申请实施例的模型部署方法应用于游戏AI的场景为例，采用一个具体的实施例，详细说明本申请实施例提供的模型部署方法的详细过程。

在游戏AI的场景中，目标环境为游戏环境，游戏环境是游戏类应用程序在终端设备上运行时显示的虚拟环境。游戏环境可以是对真实世界的仿真环境，也可以是半仿真半虚构的三维环境，还可以是纯虚构的三维环境。可选的，游戏环境还用于至少两个游戏角色之间的游戏环境对战(如多人博弈游戏，如多人射击游戏，多人追击游戏，多人躲藏游戏)，例如在该游戏环境中具有可供至少两个游戏角色使用的游戏资源。

目标对象可以是游戏角色，是指在游戏环境中的可活动对象，该活动对象可以是虚拟人物、虚拟动物、动漫人物等中的至少一种。示例性地，当前游戏环境为三维游戏环境时，游戏角色是三维立体模型，每个游戏角色在三维游戏环境中具有自身的形状和体积，占据三维游戏环境中的一部分空间。可选的，游戏角色可以是多人在线战术竞技游戏中的英雄人物、士兵或中立生物。

本申请实施例中的离线强化学习模型，为预先训练的用于对游戏环境中的游戏角色进行动作策略控制的决策模型，例如，该离线强化学习模型可以在某个特定的游戏环境下，根据自身对游戏环境的感知，按照已有的指示或者通过自主学习，与其它游戏角色进行沟通协作或者对战，在其所处的游戏环境中自主地完成设定的目标。

本申请实施例的模型部署方法，例如预先训练了N个离线强化学习模型，在线上部署时，如何将N个离线强化学习模型中性能满足预设条件(例如性能最优)的离线强化学习模型应用于某一设定的游戏角色中，是本申请实施例在游戏场景中要解决的技术问题，通过本申请实施例下述的模型部署方法，可以保证在N+1次部署之后每次线上部署的均是N个离线强化学习模型中性能满足预设条件的强化学习模型，因此，可以提升离线强化学习模型在线上使用阶段的性能。

图4为本申请实施例提供的一种模型部署方法的流程图，该方法的执行主体可以是终端设备，如图4所示，该方法可以包括：

S301、获取N个离线强化学习模型，N为正整数。

S302、在第1次至第N次部署时，依次部署N个离线强化学习模型，获取N个离线强化学习模型中每个离线强化学习模型的线上评估信息。

S3021、获取目标游戏角色在当前游戏环境中的第一状态信息，将第一状态信息输入离线强化学习模型，输出第一状态信息对应的动作策略，采用第一状态信息对应的动作策略控制目标游戏角色进行动作，反馈第一状态信息对应的奖励，并输出第一状态信息对应的预期动作策略。

具体地，例如，在战术竞技游戏环境中，目标游戏角色的第一状态信息例如可以是目标游戏角色当前所处的区域，第一状态信息对应的动作策略例如可以是射击、搜寻、躲避，第一状态信息对应的动作策略还可以包括移动动作策略，例如可以是角度调整、动作位移、左转、右转或姿态调整等等。采用动作策略控制目标游戏角色进行动作，其中的动作即为动作策略指示的动作。第一状态信息对应的预期动作策略为第一状态信息对应的理论的动作策略。第一状态信息对应的奖励可以为第一状态信息对应环境反馈的奖励。

S3022、根据第一状态信息对应的奖励、第一状态信息对应的动作策略和第一状态信息对应的预期动作策略，得到第一状态信息对应的评估参数。

S3023根据第一状态信息对应的评估参数，确定离线强化学习模型的线上评估信息。

本实施例中，在第1次至第N次部署时，依次部署N个离线强化学习模型，每次部署一个离线强化学习模型时，可以获取到该离线强化学习模型的线上评估信息。本实施例中的部署可以为使用一个离线强化学习模型预设时间，即第1次使用第1个离线强化学习模型预设时间，接着第2次使用第2个离线强化学习模型预设时间，...，第N次使用第N个离线强化学习模型预设时间。每次使用一个离线强化学习模型预设时间后，可以获取到该离线强化学习模型的线上评估信息。

其中，α₁＞0，α₂＞0分别是第一权重系数和第二权重系数，第一权重系数和第二权重系数是用于平衡环境反馈奖励和状态信息对应的预期动作的满意程度。γ表示折扣因子(取值可以为0-1)，a_t表示t时的动作策略，s_t表示t时的状态信息，r(s_t，a_t)表示状态信息s_t对应的奖励，T表示离线强化学习模型的线上轨迹中的状态信息的数量，π(s_t)表示状态信息s_t对应的离线强化学习模型输出的动作策略，π^E(s_t)表示状态信息s_t对应的预期动作策略，表示一个示例函数，即如果事件成立，那么取值为1，如果不成立，那么取值为0。τ表示预期动作策略容忍程度的参数，τ>0。‖.‖₂是指求2范数。/>表示求期望。

S303、在第i次部署时，根据每个离线强化学习模型的累计线上评估信息和累计被部署的次数，确定N个离线强化学习模型中上置信区间参数值最大的离线强化学习模型为目标离线强化学习模型，部署该目标离线强化学习模型，i大于N。

作为一种可实施的方式，在第i次部署时，S303具体可以为：

S3031、针对每个离线强化学习模型，根据离线强化学习模型的累计被部署的次数，计算离线强化学习模型的置信区间。

S3032、根据离线强化学习模型的累计线上评估信息和离线强化学习模型的累计被部署的次数，计算离线强化学习模型的估计反馈值。

S3033、根据离线强化学习模型的估计反馈值、超参数和离线强化学习模型的置信区间，计算得到离线强化学习模型的上置信区间参数值。

S3034、将N个离线强化学习模型中上置信区间参数值最大的离线强化学习模型确定为目标离线强化学习模型。

可选的，上述过程S302-S303的过程具体可以采用如下的方式：

需要说明的是，本实施例是以一个应用场景为例，本申请实施例提供的模型部署方法还可以用于其它场景，在其它场景中，目标对象、目标环境、状态信息、动作、反馈状态信息对应的奖励等可以根据应用场景进行定义，本申请实施例对应用场景不做限制。

图5为本申请实施例提供的一种模型部署装置的结构示意图，如图5所示，该装置可以包括：第一获取模块11、第二获取模块12和处理模块13。

其中，第一获取模块11用于获取N个离线强化学习模型，所述N为正整数；

第二获取模块12用于：针对所述N个离线强化学习模型中的每个离线强化学习模型，获取目标对象在目标环境中的第一状态信息，将所述第一状态信息输入所述离线强化学习模型，输出所述第一状态信息对应的动作策略，采用所述第一状态信息对应的动作策略控制所述目标对象进行动作，反馈所述第一状态信息对应的奖励，并输出所述第一状态信息对应的预期动作策略，根据所述第一状态信息对应的奖励、所述第一状态信息对应的动作策略和所述第一状态信息对应的预期动作策略，得到所述第一状态信息对应的评估参数；

处理模块13用于：根据所述第一状态信息对应的评估参数，确定所述离线强化学习模型的线上评估信息，根据所述每个离线强化学习模型的线上评估信息，确定所述N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，部署所述目标离线强化学习模型，所述目标参数用于表征所述离线强化学习模型的性能。

在一实施例中，第二获取模块12还用于：

获取所述目标对象在所述目标环境中的第二状态信息，将所述第二状态信息输入所述目标离线强化学习模型，输出所述第二状态信息对应的动作策略，采用所述第二状态信息对应的动作策略控制所述目标对象进行动作，反馈所述第二状态信息对应的奖励，并输出所述第二状态信息对应的预期动作策略；

根据所述第二状态信息对应的奖励、所述第二状态信息对应的动作策略和所述第二状态信息对应的预期动作策略，得到所述第二状态信息对应的评估参数；

根据所述第二状态信息对应的评估参数，确定所述目标离线强化学习模型的线上评估信息。

可选的，第二获取模块12具体用于：

根据所述第一状态信息对应的评估参数、第一权重系数和第二权重系数，确定所述离线强化学习模型的线上评估信息。

可选的，第二获取模块12用于：

计算预设权重参数、所述第一状态信息对应的奖励以及所述第一权重系数的乘积，得到第一数值；

根据示例函数、所述第一状态信息对应的动作策略、所述第一状态信息对应的预期动作策略以及用于表征预期动作容忍程度的参数，计算得到所述第一状态信息的示例函数值，计算所述第一状态信息的示例函数值与所述第二权重系数的乘积，得到第二数值；

将第一数值减去第二数值的差确定为所述离线强化学习模型的线上评估值。

可选的，所述第一状态信息对应的预期动作策略为以所述第一状态信息为输入的决策函数的输出。

可选的，处理模块13用于：

针对所述每个离线强化学习模型，根据所述离线强化学习模型的累计被部署的次数，计算所述离线强化学习模型的置信区间；

根据所述离线强化学习模型的累计线上评估信息和所述离线强化学习模型的累计被部署的次数，计算所述离线强化学习模型的估计反馈值；

根据离线强化学习模型的估计反馈值、超参数和所述离线强化学习模型的置信区间，计算得到所述离线强化学习模型的上置信区间参数值；

将所述N个离线强化学习模型中上置信区间参数值最大的离线强化学习模型确定为所述目标离线强化学习模型。

可选的，处理模块13用于：

针对所述每个离线强化学习模型，根据所述离线强化学习模型的累计线上评估信息和累计被部署的次数，计算得到所述离线强化学习模型的后验期望；

将所述N个离线强化学习模型中后验期望最大的离线强化学习模型确定为所述目标离线强化学习模型。

可选的，处理模块13用于：

获取线上数据集；

使用所述线上数据集对所述目标离线强化学习模型进行训练，得到训练后的目标离线强化学习模型，部署所述训练后的目标离线强化学习模型。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图5所示的模型部署装置可以执行计算机设备对应的方法实施例，并且该装置中的各个模块的前述和其它操作和/或功能分别为了实现计算机设备对应的方法实施例，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的模型部署装置和信息预测装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图6是本申请实施例提供的计算机设备300的示意性框图。

如图6所示，该计算机设备300可包括：

存储器310和处理器320，该存储器310用于存储计算机程序，并将该程序代码传输给该处理器320。换言之，该处理器320可以从存储器310中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器320可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请实施例的一些实施例中，该处理器320可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请实施例的一些实施例中，该存储器310包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请实施例的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器310中，并由该处理器320执行，以完成本申请实施例提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。

如图6所示，该计算机设备还可包括：

收发器330，该收发器330可连接至该处理器320或存储器310。

其中，处理器320可以控制该收发器330与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器330可以包括发射机和接收机。收发器330还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请实施例还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上内容，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以该权利要求的保护范围为准。

Claims

1.一种模型部署方法，其特征在于，包括：

获取N个离线强化学习模型，所述N为正整数；

根据所述每个离线强化学习模型的累计线上评估信息和累计被部署的次数，确定所述N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，部署所述目标离线强化学习模型，所述目标参数用于表征所述离线强化学习模型的性能。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一状态信息对应的评估参数，确定所述离线强化学习模型的线上评估信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述线上评估信息为线上评估值，所述根据所述第一状态信息对应的评估参数、第一权重系数和第二权重系数，确定所述离线强化学习模型的线上评估信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一状态信息对应的预期动作策略为以所述第一状态信息为输入的决策函数的输出。

6.根据权利要求1所述的方法，其特征在于，所述目标参数为离线强化学习模型的上置信区间参数值，所述根据所述每个离线强化学习模型的累计线上评估信息和累计被部署的次数，确定所述N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，包括：

7.根据权利要求1所述的方法，其特征在于，所述目标参数为离线强化学习模型的后验期望，所述根据所述每个离线强化学习模型的累计线上评估信息和累计被部署的次数，确定所述N个离线强化学习模型中目标参数满足预设条件的目标离线强化学习模型，包括：

8.根据权利要求1所述的方法，其特征在于，所述部署所述目标离线强化学习模型，包括：

获取线上数据集；

9.一种模型部署装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机程序上运行时，使得所述计算机执行如权利要求1至8中任一项所述的方法。

12.一种包含指令的计算机程序产品，其特征在于，当所述指令在计算机上运行时，使得所述计算机执行权利要求1至8中任一项所述方法。