CN116956007A

CN116956007A - 人工智能模型的预训练方法、装置、设备及存储介质

Info

Publication number: CN116956007A
Application number: CN202211717291.7A
Authority: CN
Inventors: 杨友钊; 刘戈; 邱福浩; 付强; 张玥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-10-27

Abstract

本申请公开了一种人工智能AI模型的预训练方法、装置、设备及存储介质，属于人工智能技术领域。本申请在训练AI模型时，基于目标对局模式指示的对局收益目标进行虚拟对局。通过对视觉观测信息进行坐标系转换，以忽略不同虚拟环境的结构和视觉差异所导致的视觉观测信息的差异，使得AI模型能够以对局状态特征的形式，从虚拟对象的视角来准确地学习虚拟对局状态，提升AI模型在不同虚拟环境下的表征能力；进而基于收益信息，使得AI模型在目标对局模式下的任一种虚拟环境中进行虚拟对局时，能够做出对该对局收益目标有价值的决策。因此，上述技术方案可以在保证模型性能的前提下大大提升预训练AI模型在不同虚拟环境下的泛化性。

Description

人工智能模型的预训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种人工智能模型的预训练方法、装置、设备及存储介质。

背景技术

强化学习(Reinforcement Learning，RL)是一种机器学习方法，用于描述和解决智能体(agent)在与环境的交互过程中如何学习策略以实现回报最大化或特定目标的问题。基于强化学习算法所设计的人工智能(Artificial Intelligence，AI)模型能够模拟智能体根据环境所输出的状态进行决策，来确定下一步的动作。强化学习能够应用在训练游戏AI模型的场景中，例如，对拟人性要求较高的第一人称射击(First-Person Shooter，FPS)游戏中，通常期望由游戏AI模型控制的非玩家角色(Non-Player Character，NPC)能够像真实玩家一样进行策略性的移动、瞄准以及与队友进行配合等操作。

相关技术中，主要采用基于深度学习的Q学习(Deep Q-learning，DQN)算法，来迭代训练AI模型。其中，通常将对游戏环境的视觉观测图像，作为训练AI模型时的输入样本，以模拟真实玩家所观测到的游戏画面。

然而，游戏通常有多种对局模式，每种对局模式可能对应于多种完全不同的虚拟环境，例如，同一游戏模式下可选择多种游戏地图。采用上述技术方案训练AI模型时，不同虚拟环境对应的视觉观测图像通常差异较大，导致训练得到的AI模型仅能够应用在一种虚拟环境中，AI模型在不同虚拟环境下的泛化性很差。

发明内容

本申请实施例提供了一种人工智能AI模型的预训练方法、装置、设备及存储介质，能够有效提升AI模型的泛化性，提升AI模型训练的效率。该技术方案如下：

一方面，提供了一种人工智能模型的预训练方法，该方法包括：

调用人工智能模型在目标对局模式下的至少一种虚拟环境中进行虚拟对局，该目标对局模式指示该虚拟对局的对局收益目标；

基于该虚拟对局内的视觉观测信息，获取环境图像和对象信息，以该人工智能模型控制的虚拟对象在该虚拟环境中的位置为坐标系中心，对该环境图像和该对象信息进行坐标系转换，生成对局状态特征，该对象信息描述该虚拟对局中虚拟对象的对战状态，该环境图像描述该虚拟对局中的环境状态，该对局状态特征从该人工智能模型控制的虚拟对象的视角描述虚拟对局状态；

基于对局状态特征以及该对局状态特征的收益信息，对该人工智能模型进行预训练，得到预训练人工智能模型，该收益信息指示该虚拟对局状态对实现该对局收益目标的价值，该预训练人工智能模型用于训练该目标对局模式下的任一种虚拟环境中所采用的人工智能模型。

一方面，提供了一种人工智能模型的预训练装置，该装置包括：

调用模块，用于调用人工智能模型在目标对局模式下的至少一种虚拟环境中进行虚拟对局，该目标对局模式指示该虚拟对局的对局收益目标；

获取模块，用于基于该虚拟对局内的视觉观测信息，获取环境图像和对象信息，以该人工智能模型控制的虚拟对象在该虚拟环境中的位置为坐标系中心，对该环境图像和该对象信息进行坐标系转换，生成对局状态特征，该对象信息描述该虚拟对局中虚拟对象的对战状态，该环境图像描述该虚拟对局中的环境状态，该对局状态特征从该人工智能模型控制的虚拟对象的视角描述虚拟对局状态；

训练模块，用于基于对局状态特征以及该对局状态特征的收益信息，对该人工智能模型进行预训练，得到预训练人工智能模型，该收益信息指示该虚拟对局状态对实现该对局收益目标的价值，该预训练人工智能模型用于训练该目标对局模式下的任一种虚拟环境中所采用的人工智能模型。

在一种可能实施方式中，该视觉观测信息包括该虚拟对局的对局画面，该获取模块，用于：

对该对局画面进行图像特征提取，得到环境图像包括的深度图像，该深度图像指示该虚拟环境中的障碍物与该人工智能模型控制的虚拟对象之间的距离；或，

对该对局画面进行图像特征提取，得到以该虚拟对象为视觉中心的环形射线图像，该环境图像包括的该环形射线图像指示该虚拟对象的视野范围内以及视野范围外的环境状态。

在一种可能实施方式中，该训练模块，包括：

损失确定单元，用于基于对局状态特征以及该对局状态特征的收益信息，确定损失值，该损失值指示该人工智能的决策方式以及决策收益与对局收益目标之间的差距；

调整单元，用于基于该损失值，调整该人工智能模型的模型参数，以使调整后的该人工智能模型得到的损失值符合训练停止条件。

在一种可能实施方式中，该对局收益目标包括参考决策方式和参考决策收益；该损失确定单元，用于执行下述至少一项：

基于该对局状态特征和参考对局状态特征，确定第一损失值，该第一损失值指示该人工智能模型在虚拟对局中的决策方式与参考决策方式之间的差距；

基于该收益信息和参考收益信息，确定第二损失值，该第二损失值指示该人工智能模型在虚拟对局中的决策收益与参考决策收益之间的差距。

在一种可能实施方式中，该装置还包括：

决策单元，用于将该对局状态特征输入该人工智能模型的决策网络，确定虚拟对象动作；

收益确定单元，用于基于该人工智能模型的价值网络，根据该虚拟对象动作的奖励值和该虚拟对局状态的当前价值，确定该虚拟对局状态对应的收益信息，该奖励值指示在该虚拟对局状态下执行该虚拟对象动作后对实现对局目标的影响。

在一种可能实施方式中，该调用模块，用于：

调用该人工智能模型和该人工智能模型的至少一个历史版本模型，在该目标对局模式下的至少一种虚拟环境中进行虚拟对局，该人工智能模型基于该历史版本模型进行模型参数调整得到。

在一种可能实施方式中，该调用模块，用于：

基于设备容量信息，确定该历史版本模型的目标数量；

调用该人工智能模型和目标数量个该历史版本模型，在该目标对局模式下的至少一种虚拟环境中进行多个虚拟对局。

在一种可能实施方式中，该装置还包括：

初始化模块，用于基于该预训练人工智能模型的模型参数，初始化该目标对局模式下的目标虚拟环境中所采用的目标人工智能模型，该目标人工智能模型用于在该目标虚拟环境中根据虚拟对局状态决策虚拟对象动作以实现该对局收益目标；

目标训练模块，用于调用该目标人工智能模型在目标虚拟环境中进行目标虚拟对局，基于该目标虚拟对局对应的对局状态特征和收益信息，训练该目标人工智能模型。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该计算机程序由该一个或多个处理器加载并执行以实现上述人工智能模型的预训练方法。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该计算机程序由处理器加载并执行以实现上述人工智能模型的预训练方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述人工智能模型的预训练方法。

本申请在训练AI模型时，基于目标对局模式指示的对局收益目标进行虚拟对局。通过对视觉观测信息进行坐标系转换，以忽略不同虚拟环境的结构和视觉差异所导致的视觉观测信息的差异，使得AI模型能够以对局状态特征的形式，从虚拟对象的视角来准确地学习虚拟对局状态，提升AI模型在不同虚拟环境下的表征能力；进而基于收益信息，使得AI模型在目标对局模式下的任一种虚拟环境中进行虚拟对局时，能够做出对该对局收益目标有价值的决策。因此，上述技术方案可以在保证模型性能的前提下大大提升预训练AI模型在不同虚拟环境下的泛化性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种人工智能模型的预训练方法的实施环境示意图；

图2是本申请实施例提供的一种人工智能模型的预训练方法的流程图；

图3是本申请实施例提供的一种坐标系转换的示意图；

图4是本申请实施例提供的一种人工智能模型的预训练方法的流程图；

图5是本申请实施例提供的一种基于对局画面进行特征提取的示意图；

图6是本申请实施例提供的一种基于强化学习的模型训练示意图；

图7是本申请实施例提供的一种AI模型的预训练方法的流程图；

图8是本申请实施例提供的一种人工智能模型的预训练方法的原理图；

图9是本申请实施例提供的另一种人工智能模型的预训练方法的原理图；

图10是本申请实施例提供的一种人工智能模型的预训练装置的结构示意图；

图11是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个模型是指两个或两个以上的模型。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的对局画面、游戏数据都是在充分授权的情况下获取的。

下面先对本申请涉及的术语进行介绍。

虚拟环境：是应用程序在终端上运行时显示(或提供)的虚拟环境。该虚拟环境可以是对真实世界的仿真环境，也可以是半仿真半虚构的虚拟环境，还可以是纯虚构的虚拟环境。虚拟环境可以是二维虚拟环境、2.5维虚拟环境或者三维虚拟环境中的任意一种，本申请实施例对虚拟环境的维度不加以限定。例如，虚拟环境可以包括天空、陆地、海洋等，该陆地可以包括沙漠、城市等环境元素，用户或AI模型可以控制虚拟对象在该虚拟环境中进行移动。

虚拟对象：是指在虚拟环境中的可活动对象。该可活动对象可以是虚拟人物、虚拟动物、动漫人物等，比如：在虚拟环境中显示的人物、动物、植物、油桶、墙壁、石块等。该虚拟对象可以是该虚拟环中的一个虚拟的用于代表玩家的虚拟形象。虚拟环境中可以包括多个虚拟对象，每个虚拟对象在虚拟环境中具有自身的形状和体积，占据虚拟环境中的一部分空间。

以射击类游戏为例，用户或AI模型可以控制虚拟对象在虚拟环境的天空中自由下落、滑翔或者打开降落伞进行下落等，在陆地上跑动、跳动、爬行、弯腰前行等，也可以控制虚拟对象在海洋中游泳、漂浮或者下潜等，当然，用户或AI模型也可以控制虚拟对象乘坐虚拟载具在该虚拟环境中进行移动，例如，该虚拟载具可以是虚拟汽车、虚拟飞行器、虚拟游艇等，在此仅以上述场景进行举例说明，本申请实施例对此不作限定。用户或AI模型也可以控制虚拟对象通过虚拟道具与其他虚拟对象进行战斗等方式的互动，例如，该虚拟道具可以是手雷或集束雷等投掷类虚拟道具，也可以是射击类虚拟道具，本申请对虚拟道具的类型不作限定。

本申请提供的技术方案涉及人工智能领域。人工智能(ArtificialIntelligence，AI)技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

强化学习RL技术是本申请提供的人工智能模型的预训练方法涉及的主要技术之一。强化学习又称为增强学习或试错学习，是一种让智能体(agent)与环境(environment)不断交互，并根据环境的反馈(reward)，进行自我学习的一种机器学习算法。即，强化学习将学习看作一个试探评价过程，选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号反馈给agent，agent根据该强化信号和当前环境状态再选择下一个动作，选择的原则通常是使受到正反馈(奖励)的概率增大。简言之，强化学习是学习从环境状态(state)到行为(action)的映射，使得agent选择的行为能够获得环境最大的奖赏。

在本申请实施例提供的人工智能模型的预训练方法，能够在多种应用场景下用于训练用于智能体，本申请的技术方案训练出的人工智能AI模型也即是一种能够根据环境进行决策的智能体。例如，本申请的技术方案可以应用于游戏场景中，则AI模型可以根据游戏环境(通常是游戏画面)进行决策，控制游戏对局中的虚拟对象做出游戏动作，也即相当于在游戏环境中采取动作与游戏环境进行交互。

在强化学习中，state指代agent所处的游戏环境的环境状态。在本申请实施例中，state通常为游戏画面。reward指代agent与游戏环境进行交互时收到的反馈奖励。其中，reward通常为一个数值变量，其数值的大小表示对agent做出的特定动作好坏与否的评价。

接下来，对本申请涉及的实施环境进行介绍。

图1是本申请实施例提供的一种人工智能模型的预训练方法的实施环境示意图，参见图1，该实施环境包括服务器110和终端120。

其中，该服务器110用于运行进行虚拟对局。在一些实施例中，该虚拟对局可以是游戏应用程序中的游戏对局，例如，该游戏应用程序可以为第一人称射击游戏(First-Person Shooting game，FPS)、第三人称射击游戏(Third-Personal Shooting，TPS)、多人在线战术竞技游戏(Multiplayer Online Battle Arena games，MOBA)、虚拟现实应用程序、三维地图程序或者多人竞技类生存游戏等。服务器100能够调用人工智能AI模型在目标对局模式下的至少一种虚拟环境中进行虚拟对局，以对AI模型进行预训练；并且，能够基于预训练得到的预训练AI模型进行微调，以得到目标对局模式下的任一种虚拟环境中所采用的AI模型。

其中，终端120安装和运行有上述支持进行虚拟对局的应用程序。终端120可以是用户使用的终端，用户使用终端120操作位于虚拟环境中的虚拟对象进行活动，该活动包括但不限于：调整身体姿态、爬行、步行、奔跑、骑行、跳跃、驾驶、拾取、射击、攻击、投掷中的至少一种。示意性的，虚拟对象是虚拟人物，比如仿真人物角色或动漫人物角色。在一些实施例中，服务器110能够基于训练得到的AI模型能够为用户通过终端120参与的虚拟对局中，控制虚拟对象与用户控制的虚拟对象进行互动。可选地，该AI模型控制的虚拟对象能够作为用户控制的虚拟对象的对手、队友或作为场景中的中立角色，本申请对此不作限定。

其中，服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端120可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

可选地，终端120可以通过有线或无线网络的方式与服务器110建立网络连接。服务器110用于为支持虚拟对局的应用程序提供后台服务，相应地，终端120中用户进行虚拟对局所产生的游戏数据，可以在获得用户充分授权的情况下，作为服务器110进行AI模型训练的样本数据。在一些实施例中，终端120在获得用户充分授权的情况下，能够将获取到的游戏画面或游戏对局状态相关的数据，发送给该服务器110，服务器110则能够基于该游戏画面等数据进行AI模型的预训练。

在一些实施例中，可以由服务器110和终端120共同执行上述人工智能模型的预训练方法。其中，可以由服务器110承担主要计算工作，终端120承担次要计算工作；或者，服务器110承担次要计算工作，终端120承担主要计算工作；或者，服务器110和终端120二者之间采用分布式计算架构进行协同计算，本申请实施例对此不作限定。

在介绍完本申请实施例的实施环境后，下面对本申请实施例提供的人工智能模型的预训练方法进行说明。图2是本申请实施例提供的一种人工智能模型的预训练方法的流程图，该方法由计算机设备执行，该计算机设备可以为上述服务器110或终端120，参见图2，该方法包括下述步骤201至步骤203。

201、计算机设备调用人工智能AI模型在目标对局模式下的至少一种虚拟环境中进行虚拟对局，该目标对局模式指示该虚拟对局的对局收益目标。

其中，目标对局模式对应于多种虚拟环境，每种虚拟环境所提供的对局场景和交互体验存在差异。在一些实施例中，不同的虚拟环境可以是指不同的虚拟地图或虚拟主题所提供的对局场景，例如，沙漠地图和雨林地图，又例如，街区主题和工厂主题等，本申请对此不作限定。

本申请提供的技术方案采用强化学习思想，将目标对局模式指示的对局收益目标，作为人工智能模型在训练过程中所学习的目标，以使预训练得到的AI模型在目标对局模式下的任一种虚拟环境进行虚拟对局时，做出能够达到获胜目标的行为决策。

在本申请实施例中，目标对局模式指示了虚拟对局所遵循的对战规则，也即指示了虚拟对象在虚拟对局中进行交互过程中的对局收益目标。不同的对局模式对应于不同的对局收益目标。

在一些实施例中，该目标对局模式指示的对局收益目标是击败其他虚拟对象，则人工智能模型在训练过程中可以将击败其他虚拟对象作为学习的目标，通过加强能够成功击败其他虚拟对象的决策倾向，例如，做出攻击或追击等动作，来实现对局收益目标。在另一些实施例中，该目标对局模式指示的对局收益目标是摧毁目标阵营的虚拟据点，则人工智能模型在训练过程中可以将摧毁目标阵营的虚拟据点作为学习的目标，通过加强能够成功摧毁目标阵营的虚拟据点的决策倾向，例如，做出逃跑或恢复生命值等动作，来实现对局收益目标。示例性地，虚拟对局是指FPS游戏对局，对局收益目标可以是指游戏对局的获胜目标。在FPS游戏中，不同的对局模式也即指示不同的游戏玩法，例如，团竞模式是将参与游戏对局的玩家分成两个敌对阵营，玩家从固定区域出生，分散在地图中互相竞争，以在固定时间内击败指定数量的其他玩家为目的；爆破模式是将参与游戏对局的玩家分成两个阵营，在地图中设置多个爆破点，第一阵营的玩家以摧毁全部爆破点或者击败第二阵营的玩家为获胜目标，第二阵营的玩家以保护爆破点不被摧毁或击败第一阵营的玩家为获胜目标。上述对局模式的介绍仅为示例性的，并不对本申请中目标对局模式造成限定。

202、计算机设备基于该虚拟对局内的视觉观测信息，获取环境图像和对象信息，以该AI模型控制的虚拟对象在该虚拟环境中的位置为坐标系中心，对该环境图像和该对象信息进行坐标系转换，生成对局状态特征，该对象信息描述该虚拟对局中虚拟对象的对战状态，该环境图像描述该虚拟对局中的环境状态，该对局状态特征从该AI模型控制的虚拟对象的视角描述虚拟对局状态。

在本申请实施例中，视觉观测信息是指以真实玩家的视觉角度进行观察所能够获取到的信息，例如，用户在终端的游戏界面中能够看到的游戏画面。基于此，能够帮助AI模型更好地模拟真实玩家的对局方式，提升AI模型的拟人性。

在一些实施例中，该虚拟对局为FPS游戏对局，该AI模型控制的虚拟对象作为主视角虚拟对象与其他虚拟对象进行对战，则该视觉观测信息包括该AI模型控制的虚拟对象在虚拟环境中所观察到的信息。

在一些实施例中，该环境图像包括该虚拟环境中的环境部分对应的图像，例如，游戏场景中的障碍物、掩体或景物等。

在一些实施例中，该对象信息包括与虚拟对局中参与对战的虚拟对象相关的可视化信息，例如，游戏画面中显示的玩家的生命值、对手的生命值或装备情况等等。

为了便于理解，本申请提供了一种坐标系转换的示意图，参见图3。在本申请实施例中，视觉观测信息是以虚拟环境作为坐标系表示的，例如，参见图3中(a)部分的地图坐标系，本申请实施例中，游戏画面中的敌人、队友和道具等环境单元都是以其在虚拟地图中的绝对坐标进行表示的。本申请以AI模型所控制的虚拟对象在虚拟环境中的位置作为坐标系中心进行坐标系转换，能够将各种环境单元在虚拟环境中的绝对位置，转换为与虚拟对象所在位置的相对位置，则能够得到以AI模型控制的虚拟对象的视角所描述的虚拟对局状态，参见图3中(b)部分的玩家坐标系，相当于模拟玩家视角，以玩家本身位置建立坐标系。

其中，该对局状态特征从该AI模型控制的虚拟对象的视角描述虚拟对局状态。该虚拟对局状态也即是该虚拟环境中进行的虚拟对局的状态。在本申请实施例中，根据强化学习思想，该AI模型作为智能体，该虚拟对局状态也即是环境的状态，AI模型决策的下一步动作也即是AI模型控制虚拟对象在虚拟对局中做出的动作，例如，攻击对方、恢复自身血量等游戏操作。可以理解地，AI模型所学习的环境也即是在该虚拟环境中进行的虚拟对局，虚拟对局中虚拟对象的属性值、虚拟对象的位置以及虚拟环境中道具的位置都属于环境状态的一部分。

通过上述技术方案，可以有效地忽略不同虚拟环境的环境结构区别和视觉差异所导致的视觉观测信息的差异，从而使得AI模型能够学习到以AI模型控制的虚拟对象的视角为准的一种通用化特征表达方式，以对局状态特征的形式来准确地表示虚拟对局状态，大大提升AI模型在不同虚拟环境下的表征能力。

203、计算机设备基于对局状态特征以及该对局状态特征的收益信息，对该AI模型进行预训练，得到预训练人工智能模型，该收益信息指示该虚拟对局状态对实现该对局收益目标的价值，该预训练人工智能模型用于训练该目标对局模式下的任一种虚拟环境中所采用的人工智能模型。

其中，该收益信息是指该对局状态特征所指示的虚拟对局状态对于达成对局收益目标的价值，也即是，该收益信息指示当前虚拟环境所处的状态对实现虚拟对局的对局收益目标的作用。

在一些实施例中，该AI模型基于步骤202得到的对局状态特征进行决策，得到下一步执行的虚拟对象动作，并按照根据该虚拟对象动作执行后的虚拟对局状态，确定虚拟对象动作的反馈奖励。

在一些实施例中，该收益信息可以根据虚拟环境中的该反馈奖励确定。该反馈奖励的规则可以按照目标对局模式对应的该对局收益目标来设置。例如，对局收益目标为击败敌方虚拟对象，若AI模型决策的动作使得敌方虚拟对象的生命值减小，则本次决策能够受到正向的反馈奖励。

在一些实施例中，计算机设备基于该收益信息，通过调整AI模型的模型参数，使调整后的AI模型迭代前述步骤201至步骤202所得到的收益信息所指示的价值变大，直至收益信息满足预设条件，或者，迭代次数满足预设次数，得到预训练AI模型。

在一些实施例中，基于步骤203得到的预训练AI模型，可以作为具有良好泛化性的预训练模型，在目标对局模式下的任一种虚拟环境中，进行进一步的微调，以快速地、高效地得到针对该任一种虚拟环境具有更好性能表现的AI模型。

通过上述技术方案，在训练AI模型时，通过对视觉观测信息进行坐标系转换，以忽略不同虚拟环境的结构和视觉差异所导致的视觉观测信息的差异，使得AI模型能够以对局状态特征的形式，从虚拟对象的视角来准确地学习虚拟对局状态，提升AI模型在不同虚拟环境下的表征能力；进而基于收益信息，使得AI模型在目标对局模式下的任一种虚拟环境中进行虚拟对局时，能够做出对该对局收益目标有价值的决策。因此，上述技术方案可以在保证模型性能的前提下大大提升预训练AI模型在不同虚拟环境下的泛化性。

上述内容是对本申请技术方案的简介，下面对本申请实施例提供的人工智能模型的预训练方法进行进一步说明。图4是本申请实施例提供的一种人工智能模型的预训练方法的流程图，该方法由计算机设备执行，该计算机设备可以为上述服务器110或终端120，参见图4，该方法包括下述步骤401至步骤405。

401、计算机设备调用人工智能模型在目标对局模式下的至少一种虚拟环境中进行虚拟对局，该目标对局模式指示该虚拟对局的对局收益目标。

本步骤参考步骤201。

在一些实施例中，计算机设备采用自对弈方式进行虚拟对局。在这种示例下，计算机设备调用该人工智能模型和该人工智能模型的至少一个历史版本模型，在该目标对局模式下的至少一种虚拟环境中进行虚拟对局，该人工智能模型基于该历史版本模型进行模型参数调整得到。在一些实施例中，当一场虚拟对局由多个参与方时，可以调用多个AI模型进行自对弈。示例性的，自对弈时计算机设备使用历史版本模型与当前版本的AI模型进行对弈，以收集当前版本的AI模型在对局过程中产生的训练数据。

在一些实施例中，历史版本模型是指模型的迭代更新次数小于当前版本的AI模型的AI模型。在一些实施例中，在训练AI模型的过程中，AI模型每更新一次模型参数，则将更新后的AI模型存入自对弈使用的对手模型池中。在进行自对弈时，即可直接从对手模型池中选取任意历史版本模型与当前版本的AI模型进行对弈。

在一些实施例中，一场虚拟对局由多个虚拟对象共同参与，例如，由十个虚拟角色共同参与。在一些实施例中，在计算机设备调用AI模型控制一个虚拟对象的情况下，可以从版本池任选任意个历史版本模型控制其他虚拟对象，还可以由真实玩家控制其他虚拟对象。

需要说明的是，在AI模型控制的虚拟对象与真实玩家进行虚拟对局的情况下，虚拟对局的进行过程中所产生的数据和相关信息的收集是在获得真实玩家充分授权的情况下进行的，例如，在用户加入虚拟对局前，显示提示信息“是否允许本次对局所产生的游戏数据将被收集用于提升游戏体验？”，在用户选择允许的情况下，获取虚拟对局过程中的游戏数据。

在一些实施例中，计算机设备按照设备容量信息来确定进行自对弈的规模。在一些实施例中，计算机设备基于设备容量信息，确定该历史版本模型的目标数量，进而调用该人工智能模型和目标数量个该历史版本模型，在该目标对局模式下的至少一种虚拟环境中进行多个虚拟对局。其中，该设备容量信息可以是用于进行AI模型的参数迭代更新的服务器的容量信息，例如，服务器的运行负载信息；还可以是用于运行虚拟对局的服务器、训练机或其他终端设备的容量信息，例如，可用于运行虚拟对局的终端的数量，本申请对此不作限定。基于此，即可根据机器设备的实际情况，灵活地并发启动多个虚拟对局，提高对局数据生成的效率。

在一些实施例中，计算机设备调用该AI模型，针对单个虚拟环境进行虚拟对局，以在该单个虚拟环境中快速地学习目标对局模式下的通用能力。在另一些实施例中，计算机设备可以调用该AI模型，在多虚拟环境中进行虚拟对局，以学习更好的泛化能力。

402、计算机设备基于该虚拟对局内的视觉观测信息，获取环境图像和对象信息。

其中，该对象信息描述该虚拟对局中虚拟对象的对战状态，该环境图像描述该虚拟对局中的环境状态，该对局状态特征从该人工智能模型控制的虚拟对象的视角描述虚拟对局状态。对视觉观测信息、环境图像和对象信息的介绍参考步骤202，在此不赘述。

在一些实施例中，视觉观测信息包括在一个时刻AI模型所控制的虚拟对象能够获取到的虚拟对局所处的状态。示例性的，该视觉观测信息包括该虚拟对局的对局画面。可选地，视觉观测信息包括在控制虚拟对象的应用程序的对局画面中显示的信息，例如，显示在对局画面中的对战数据、环境画面、图标、控件中的至少一种。本申请实施例提供了一种基于对局画面进行特征提取的示意图，如图5所示，其中，对局画面500左上角的圆形区域501是提供整体视野的小地图，其中的黑框三角形指示AI模型控制的虚拟对象当前的位置和朝向；左下角的矩形区域502中显示有虚拟对象当前的属性值，其中生命属性为80，护甲属性为0；矩形区域503指示虚拟对象当前视线内观察到的部分障碍物。

在一些实施例中，针对视觉观测信息包括的不同类型的信息可以提取出多种类型的特征。下面可以基于视觉观测信息提取出的几种不同类型的特征信息。

类型一、环境图像中的视线类信息。

在一些实施例中，该视线类信息包括深度图像，则步骤401的实现过程可以包括：对该对局画面进行图像特征提取，得到环境图像包括的深度图像，该深度图像指示该虚拟环境中的障碍物与该人工智能模型控制的虚拟对象之间的距离。参考图5中505，人形图像头部的环形指示从眼部所在高度进行观察得到的深度图像，人形图像下半身的环形指示从虚拟对象半身高度进行观察的视线类信息，例如，半蹲姿态或俯视姿态下观察到的环境。基于此，该深度图像能够用于模拟真实玩家对前方障碍物的识别过程，从而提升AI模型对环境的感知能力。

在另一些实施例中，该视线类信息包括环形射线图像，则步骤401的实现过程可以包括：对该对局画面进行图像特征提取，得到以该虚拟对象为视觉中心的环形射线图像，该环境图像包括的该环形射线图像指示该虚拟对象的视野范围内以及视野范围外的环境状态。参见图5中505，环形射线图像中加粗的线段部分指示虚拟对象的视野范围内，可以通过在该加粗线段上进行标记，来指示其他虚拟对象或障碍物与AI模型控制的虚拟对象之间的相对位置，505中非加粗的部分，则为虚拟对象视野范围外，这些部分可以指示虚拟对象在此前的对局画面中所获取到的沿途的环境状态。基于此，该环形射线图像能够用于模拟真实玩家对周围环境的记忆和组合过程，从而提升AI模型对环境的记忆和整合能力。

类型二、环境图像中的视野覆盖类信息。

其中，该视野覆盖类信息指示虚拟对象在所处位置和朝向下在虚拟环境中能够观察到的空间范围。

在一些实施例中，该视野覆盖信息包括视野图像。该视野图像是环境图像的一种。则步骤401的实现过程可以包括：对该对局画面进行图像特征提取，得到以该虚拟对象为视觉中心的视野图像，该视野图像指示虚拟对象在所处位置和朝向下在虚拟环境中能够观察到的空间范围。参见图5，计算机设备基于小地图501中的图像进行特征提取，得到视野覆盖类信息504。504包括代表虚拟对象整体视野的视野图像，视野图像中的斜线填充区域也即是虚拟对象可以观察到的空间范围。在一些实施例中，该视野图像能够指导AI模型控制虚拟对象进行移动，以获得更好的视野。基于此，该视野图像能够用于提升真实玩家对全局情况的掌控能力，从而指导AI模型制定整体的对局策略。

类型三、对象信息。

在一些实施例中，该对象信息包括虚拟对局中AI模型控制的虚拟对象的属性信息、其他虚拟对象的属性信息以及其他虚拟对象与AI模型控制的虚拟对象之间相对位置中至少一项。例如，该属性信息可以为生命值、装备数量、弹药数量。示例性地，该属性信息可以用向量表示，向量的每一维度用于表示一种属性值。在一些实施例中，该相对位置可以为其他虚拟对象相对于AI模型控制的虚拟对象的朝向。示例性地，该相对位置可以用向量表示，向量的方向指示其他虚拟对象相对于AI控制的虚拟对象的方向，向量的大小指示相对距离。

在一些实施例中，可以通过对虚拟对局的对局画面进行识别，提取出对象信息。在一些实施例中，可以对对局画面中属性栏所在区域进行识别，以快速地获取属性信息，提升获取对象信息的效率。可选地，用于显示对象的属性信息的属性栏参见图5中502，计算机设备可以从对局画面500中的502中识别出虚拟对象的生命值和护甲值(装备的一种)，从而以向量信息506的形式表示该对象信息。基于此，能够将散落在对局盘面中的多种复杂信息，整合为便于AI模型学习的特征向量，大大提升了AI模型对对局状态的掌控能力。

在另一些实施例中，还可以获取虚拟对局中产生的声音信息，基于声音信息进行特征提取。例如，该声音信息可以是虚拟对象移动产生的脚步声、对战产生的攻击音效或虚拟载具移动产生的噪音等，本申请对此不作限定。在一些实施例中，可以对声音信息进行特征提取，得到声音特征向量。可选地，该声音信息具有方位信息，该方位信息指示该声音的来源。在一些实施例中，该声音信息分为多个声道，声音特征向量在每个声道对应的分量，能够表征该声道对应方向上的声音强弱，还能够用于计算声源位置。基于此，AI模型通过对声音特征向量的不同分量进行分析，即可确定声音的来源。示例性地，左声道分量声音强于右声道分量的声音，则声源大概率在虚拟对象的左侧。

基于此，能够提供更丰富模态的环境观测信息，进一步模拟真实玩家的对局体验，提升AI模型学习的维度和层次，提升AI模型的拟人性。

在本申请实施例中，该环境图像和对象信息相当于对视觉观测信息进行特征提取得到的特征信息。通过上述过程对对局画面进行图像化和向量化的特征提取，可以从多个维度来提取出与真实玩家的视角相近的观测信息，从而提升特征的真实性，进而提升AI模型进行决策时的拟人性。

在一些实施例中，上述对局画面的尺寸、环境图像以及特征向量等数据尺寸可以根据计算资源的限制和AI模型的要求精度确定，本申请对此不做限定。

403、计算机设备以该人工智能模型控制的虚拟对象在该虚拟环境中的位置为坐标系中心，对该环境图像和该对象信息进行坐标系转换，生成对局状态特征。

本步骤参考步骤202，在此不作赘述。

在一些实施例中，该对局状态特征包括以特征向量形式表示的对象信息以及以特征图像形式表示的环境图像等，本申请对此不作限定。

在一些实施例中，计算机设备对该环境图像和对象信息进行坐标转换，并进行编码，以将维度不一致的环境图像和对象信息等，处理成为维度一致的对局状态特征，以便于后续的AI模型训练过程中使用。

通过上述过程来得到对局状态特征，大大地降低了虚拟对局的状态空间和后续动作空间的维度，从而增强了对局状态特征在不同虚拟环境中的通用性，进而能够提升预训练得到的AI模型在不同虚拟环境中的泛化性和性能表现。

上述步骤402至步骤403相当于步骤202的一种可能实现方式，步骤402至步骤403可以视作对AI模型的特征提取网络进行训练的过程。

404、计算机设备基于对局状态特征以及该对局状态特征的收益信息，确定损失值，该损失值指示该人工智能的决策方式以及决策收益与对局收益目标之间的差距。

在一些实施例中，计算机设备在执行本步骤404之前，能够基于该对局状态特征，获取该对局状态特征的收益信息，该过程包括下述步骤一和步骤二。

步骤一、将该对局状态特征输入该人工智能模型的决策网络，确定虚拟对象动作。

在一些实施例中，AI模型包括价值网络和决策网络。其中，决策网络用于根据当前时刻的对局状态特征，决定虚拟对象在下一时刻的动作；价值网络用于预估当前时刻的虚拟对局状态的价值，也即是，计算对局状态特征的收益信息。可选地，决策网络和价值网络为深度神经网络，神经网络结构可以是任意的，本实施例对此不作限定。在一些实施例中，价值网络和决策网络可以包括输入层、隐藏层和输出层，其中隐藏层可以由：卷积层、激活层、池化层、全连接层中的至少一种构成。

在一些实施例中，该决策网络根据对局状态特征，确定可选的各个虚拟对象动作的执行概率，将其中执行概率符合决策的虚拟对象动作，例如，执行概率最大的，输出为下一时刻虚拟对象所执行的动作。示例性地，该虚拟对象动作可以是调整身体姿态、爬行、步行、奔跑、骑行、跳跃、驾驶、拾取、射击、攻击、投掷等，在不同的虚拟环境中，所能够执行的动作可以不同，例如，在有河流的虚拟环境中，虚拟对象的动作可以是游泳，本申请对此不做限定。

步骤二、基于该人工智能模型的价值网络，根据该虚拟对象动作的奖励值和该虚拟对局状态的当前价值，确定该虚拟对局状态对应的收益信息，该奖励值指示在该虚拟对局状态下执行该虚拟对象动作后对实现对局目标的影响。

其中，该奖励值是指该虚拟对象动作执行后的反馈奖励(reward)。

在本申请实施例中，虚拟对局状态的收益信息是一种连续分布，虚拟对局状态对最终的对局收益目标所带来的影响会体现在接下来的所有时刻，因此，虚拟对局状态的收益信息可以基于接下来所有时刻的反馈奖励进行累加得到。而实际中在整个对局到达结束状态之前，无法直接获取所有的反馈奖励来计算出每个虚拟对局状态的收益。因此，可以采用贝尔曼Bellman方程，使得计算当前虚拟对局状态的收益仅和下一虚拟对局状态的价值以及当前虚拟对象动作执行后得到的反馈奖励reward相关。参见公式(1)和公式(2)。

公式(1)中，G_t是t时刻虚拟对局状态的收益信息(也称累计回报收益)；R_t+1是t+1时刻的反馈奖励，k为虚拟对局状态的数量，n和k均为正整数。

V_θ(s)＝E[G_t|S_t＝s]

＝E[R_t+1+λR_t+2+λ²R_t+3+...|S_t＝s]

＝E[R_t+1+λv(S_t+1)|S_t＝s] (2)

公式(2)中，V_θ(s)是虚拟对局状态s的预估价值(预估累计回报收益)；G_t是t时刻虚拟对局状态的收益信息(也称累计回报收益)；E是期望函数；λ和R_t+1参考公式(1)，v(S_t+1)是t+1时刻的虚拟对局状态。

公式(1)和公式(2)可以作为价值函数来设计上述价值网络的架构。

在一些实施例中，反馈奖励reward的参考因素可以虚拟对象动作执行后，虚拟对象的生命值hp、虚拟对象对其他虚拟对象或可攻击目标所造成伤害damage value、虚拟对象的状态与专家数据所提供的标准状态之间的整体分布差异以及对局结束状态round endstatus等。其中，专家数据是指由技术人员按照一定预设标准人工筛选出的虚拟对局数据，专家数据能够提供被认为是优质玩家的对局表现作为AI模型训练过程中的参考。可选地，专家数据可以从真实玩家的优质对战数据中筛选得到。

在一些实施例中，上述参考因素可以根据虚拟对局内容的不同进行因素的增加或删除，不同因素之间的权重也可以随着模型训练过程进行动态调优，本申请对此不作限定。

在一些实施例中，该对局收益目标包括参考决策方式和参考决策收益。其中，参考决策方式为AI模型的预训练提供了决策方式的标准参考，参考决策收益为AI模型的预训练指示了收益信息的收敛方向。

在一些实施例中，损失值包括第一损失值。计算机设备基于该对局状态特征和参考对局状态特征，确定第一损失值，该第一损失值指示该人工智能模型在虚拟对局中的决策方式与参考决策方式之间的差距。

在一些实施例中，计算机设备采用生成对抗模仿学习(Generative AdversarialImitation Learning，GAIL)的架构来预训练AI模型。GAIL架构下，采用一种基于专家数据的判别器来对模型的决策进行评价。通过将AI模型的状态动作样本对输入判别器，由判别器识别该状态动作样本是否为专家数据，最终目标是使得判别器将AI模型的状态动作样本识别为专家数据。其中，该专家数据可以是从优质对局数据中提取出的状态动作样本。

GAIL的思想是用精选的专家数据作为指导，使得AI模型能够快速地学习到向专家数据所提供的决策方式，从而减少AI模型在训练前期进行策略探索所耗费的大量时间，从而有效地提升模型的预训练效率。在这种示例下，该第一损失值是指该独居状态特征和专家数据提供的参考对局状态特征之间的差距。示例性地，该第一损失值可以是对局状态特征和参考对局状态特征在向量空间中的距离，距离越大第一损失值越大，则AI模型当前的决策方式与专家数据提供的参考标准相差越大。

在一些实施例中，基于该收益信息和参考收益信息，确定第二损失值，该第二损失值指示该AI模型在虚拟对局中的决策收益与参考决策收益之间的差距。可选地，该参考收益信息可以是最大化的累计回报收益，AI模型决策所达到的收益信息越接近最大化的累计回报收益，则第二损失值越小，因此，该AI模型达成对局收益目标的能力越强。

405、计算设备基于该损失值，调整该人工智能模型的模型参数，以使调整后的该人工智能模型得到的损失值符合训练停止条件。

在一些实施例中，该训练停止条件可以是指AI模型的能力值达到预设能力值、训练已进行到目标迭代时间或者已迭代了目标次数，本申请对此不作限定。其中，用于评判能力值的指标可以按照目标对局模式的对局收益目标来设置，例如，对局收益目标是击败虚拟对象，则能力值的指标可以是击败虚拟对象的数量；对局收益目标是存活到最后，则能力值的指标可以是存活时长，本申请对此不作限定。

在一些实施例中，AI模型基于前述步骤得到的对局状态特征、决策得到的虚拟对象动作以及收益信息，分别相当于AI模型的输入状态数据、模型的输出预测动作以及虚拟环境给予的反馈奖励，基于此，可以通过调整AI模型的策略网络的模型参数，使得决策得到的虚拟对象动作能够带来更好的反馈奖励，调整AI模型的价值网络的模型参数，使得对虚拟对局状态中的不同因素进行合理的反馈奖励，进而得到更准确的收益信息，为决策提供更有效的指导。

在一些实施例中，还可以进一步地利用专家数据，评估AI模型的对局策略数据分布与专家数据的对局策略数据分布之间的差异性。从而通过调整模型参数，使得AI模型的决策方式更加符合专家数据提供的参考标准。可选地，结合上述多种数据，AI模型能够利用近似策略优化(Proximal Policy Optimization，PPO)算法、异步优化演员-评论家(Asynchronous Advantage Actor-Critic，A3C)算法或深度确定性策略梯度(DeepDeterministic Policy Gradient，DDPG)算法等强化学习算法，以最大化收益信息(累计回报收益)为目标进行迭代训练，从而有效地提高AI对状态环境的动作准确度和拟人性。

为了便于理解上述基于强化学习的训练过程，本申请提供了一种基于强化学习的模型训练示意图，参见图6，其中，AI模型包括输入层input、隐层hidden和输出层output，基于强化学习算法，AI模型将虚拟对局给出的虚拟对局状态state作为输入，决策输出下一步虚拟对象动作action，并根据虚拟对局给出的反馈奖励reward不断调整决策方式，以得到能够最大化收益信息的模型参数，输出预训练AI模型。

并且，提供了一种以玩家位置为坐标系中心的特征建模方案，结合图像化和向量化的特征表达方式，对虚拟对局中的复杂信息进行通用化提取，从而能够有效地适应虚拟对局的状态空间的高复杂性，使得AI模型可以更快的学习到不同虚拟环境的通用化环境感知能力以及发生在不同虚拟环境中的多样化对战行为，提高AI模型对不同虚拟环境的适应能力，进而提高AI模型的泛化能力。

进一步地，结合强化学习方法，基于上述方式构建的相对特征、计算得到的收益信息并引入专家数据进行训练，进一步提高AI模型的能力。

此外，还可以多机器并行实现AI模型的自对弈以及专家数据的抽取，高效地生成用于训练的对局数据。

在一些实施例中，通过上述步骤401至步骤405，即可得到在目标对局模式中具有通用性，针对目标对局模式下的各个虚拟环境均能表现出良好泛化性的预训练AI模型。下面基于上述实施例，进一步提供一种AI模型的预训练方法。图7是本申请实施例提供的一种AI模型的预训练方法的流程图，参见图7，方法能够在上述步骤405之后执行，该方法包括下述步骤701和步骤702。

701、计算机设备基于步骤401至步骤405预训练得到的预训练人工智能模型的模型参数，初始化该目标对局模式下的目标虚拟环境中所采用的目标人工智能模型，该目标人工智能模型用于在该目标虚拟环境中根据虚拟对局状态决策虚拟对象动作以实现该对局收益目标。

其中，该目标虚拟环境可以是目标对局模式下的任一种虚拟环境，例如，计算机设备基于目标对局模式下的地图1进行预训练，得到了预训练AI模型，则在本步骤中，可以基于目标对局模式下的地图1、地图2和地图3中任一种，进行进一步的模型微调。基于此，可以利用预训练AI模型的良好泛化能力，快速地提升预训练AI模型在某一虚拟环境中的性能表现。

在一些实施例中，可以采用权重初始化、蒸馏法或surgery中任一种方式来初始化目标AI模型。在一些实施例中，计算机设备将该预训练AI模型的网络各层的权重和偏置，赋值给目标AI模型，以实现权重参数的迁移。在一些实施例中，计算机设备采用权重初始化的方式，可以得到预初始化AI模型的维度一致的目标AI模型。在另一些实施例中，计算机设备采用蒸馏的方式，可以按照模型训练需求，得到比预初始化AI模型的维度更大或更小的目标AI模型，本申请对此不作限定。

702、计算机设备调用该目标人工智能模型在目标虚拟环境中进行目标虚拟对局，基于该目标虚拟对局对应的对局状态特征和收益信息，训练该目标人工智能模型。

本步骤参考步骤203以及步骤404至步骤405的介绍，在此不作赘述。

通过上述技术方案，AI模型可以在快速学得不同虚拟环境下的通用基础能力(决策能力和环境感知能力)的基础上，采用强化学习方法继续训练，从而进一步提高AI模型在虚拟环境中的能力上限，有效地降低不同虚拟环境中重新训练AI模型所耗费的成本，提高AI模型的扩图效率。

本申请实施例提供了一种人工智能模型的预训练方法的原理图，参见图8，其中，该人工智能模型的预训练方法可以包括两个模块，模块1是基于相对特征建模的预训练模块，模块2是跨环境训练模块。其中，该模块1所执行的步骤(基于相对特征建模的预训练模块)也即是步骤401至步骤405预训练得到预训练AI模型的过程；该模块2所执行的步骤(强化训练过程)也即是步骤701至步骤702基于预训练AI模型进一步训练目标AI模型的过程。

其中，模块1在执行步骤的过程中会经过阶段1和阶段2：阶段1是相对特征建模过程，也即是指得到以AI模型所控制的虚拟对象的位置为坐标中心(参考图3)表示的对局状态特征的过程；阶段2是强化训练过程，是指基于对局状态特征和收益信息等，对AI模型进行预训练得到预训练AI模型的过程。

参见图8，该阶段1中，模块1中的自对弈模块用于进行虚拟对局，特征提取模块用于执行步骤402，相对特征表达模块用于执行步骤403。阶段2中，收益计算模块用于在执行步骤404前计算收益信息，神经网络训练模块用于执行步骤404至步骤405，专家数据生成模块用于抽取训练过程中使用到的专家数据。

其中，模块2是指基于预训练得到的AI模型，针对不同的虚拟环境进行迁移学习的过程。参见图8，模块2又分为初始化模块和强化训练模块。初始化模块用于执行步骤701。示例性地，初始化模块能够通过权重初始化或者蒸馏方案实现不同虚拟环境之间AI模型迁移过程，也即是，目标虚拟环境中采用的目标AI模型可以通过初始化模块，快速学习AI模型的通用能力。强化训练模块用于执行步骤702。示例性地，强化训练模块能够基于初始化模块初始化得到的AI模型(包括决策policy网络和价值value网络)，继续训练AI模型。在继续训练阶段，可以结合PPO算法来迭代更新policy网络和value网络，同时利用专家数据生成模块生成的专家数据和自对弈模块生成的自对弈数据训练判别器，通过评判自对弈数据相比于专家数据的优劣，并基于该评判结果给出状态回报收益intrinsic-reward，回传到模块1中的神经网络训练模块。

下面基于上述图2至图8，提供一种AI模型的预训练方法，该方法由计算机设备执行，该方法包括下述步骤1至步骤8，步骤1至步骤8的原理参考前文，在此不作赘述。

步骤1：利用基于相对特征建模的预训练模块，训练单个虚拟环境的AI模型，得到可用于初始化的预训练AI模型。

步骤2：利用步骤1得到的预训练AI模型，结合初始化模块，通过权重初始化方案或者蒸馏方案，将步骤1得到的AI模型的模型参数，迁移到目标虚拟环境所采用的目标AI模型中。

步骤3：评估迁移之后的目标AI模型的能力，若目标AI模型的能力达到目标值则进入步骤4，否则返回步骤1，调整基于相对特征建模的预训练模块，提升预训练AI模型的能力。

其中，用于评判能力值的指标可以按照目标对局模式的对局收益目标来设置，例如，对局收益目标是击败虚拟对象，则能力值的指标可以是击败虚拟对象的数量；对局收益目标是存活到最后，则能力值的指标可以是存活时长，本申请对此不作限定。

步骤4：将步骤3得到的AI模型同步到自对弈环境中，同时在对手模型池中选择对手AI模型，在多机器并行启动自对弈脚本，得到目标AI模型输出的样本数据(状态动作对<state_rl，action_rl>)，并计算得到对应的收益信息。

本步骤4进行的自对弈过程与前文步骤401同理，在此不作赘述。

步骤5：多机器并行启动专家数据生成模块，抽取专家数据(状态动作样本对<state_expert，action_expert>)。

步骤6：结合步骤4、5得到的专家样本数据<state_expert，action_expert>、自对弈得到的样本数据<state_rl，action_rl>以及自对弈样本数据对应的收益信息，根据PPO算法对目标AI模型的模型参数进行更新。

步骤7：模型参数迭代目标步数后，将更新后的模型加入到对手模型池中，以供后续进行的虚拟对局。

步骤8：评估AI模型的能力，如果目标AI模型的能力达到预设能力值；或者，训练已进行到目标迭代时间或迭代了目标次数，则停止训练，保存当下的目标AI模型。否则，回到步骤4继续训练。

结合上述内容，本申请实施例提供了另一种人工智能模型的预训练方法的原理图，参见图9，该方法包括相对特征建模阶段、强化学习阶段和跨环境训练阶段，其中，该相对特征建模阶段的原理参考图5以及图8中的相关介绍；强化学习阶段参考图6以及图8中的相关介绍，跨环境训练阶段参考图8以及步骤1至步骤8中的相关介绍，在此不作赘述。

图10是本申请实施例提供的一种人工智能模型的预训练装置的结构示意图，参见图10，该装置包括：

调用模块1001，用于调用人工智能模型在目标对局模式下的至少一种虚拟环境中进行虚拟对局，该目标对局模式指示该虚拟对局的对局收益目标；

获取模块1002，用于基于该虚拟对局内的视觉观测信息，获取环境图像和对象信息，以该人工智能模型控制的虚拟对象在该虚拟环境中的位置为坐标系中心，对该环境图像和该对象信息进行坐标系转换，生成对局状态特征，该对象信息描述该虚拟对局中虚拟对象的对战状态，该环境图像描述该虚拟对局中的环境状态，该对局状态特征从该人工智能模型控制的虚拟对象的视角描述虚拟对局状态；

训练模块1003，用于基于对局状态特征以及该对局状态特征的收益信息，对该人工智能模型进行预训练，得到预训练人工智能模型，该收益信息指示该虚拟对局状态对实现该对局收益目标的价值，该预训练人工智能模型用于训练该目标对局模式下的任一种虚拟环境中所采用的人工智能模型。

在一种可能实施方式中，该视觉观测信息包括该虚拟对局的对局画面，该获取模块1002，用于：

在一种可能实施方式中，该训练模块1003，包括：

在一种可能实施方式中，该装置还包括：

在一种可能实施方式中，该调用模块1001，用于：

基于设备容量信息，确定该历史版本模型的目标数量；

在一种可能实施方式中，该装置还包括：

进一步地，结合强化学习方法，基于上述方式构建的相对特征、计算得到的收益信息并引入专家数据进行训练，进一步提高AI模型的能力。此外，还可以多机器并行实现AI模型的自对弈以及专家数据的抽取，高效地生成用于训练的对局数据。

需要说明的是：上述实施例提供的人工智能模型的预训练装置在执行相应步骤时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的人工智能模型的预训练装置与人工智能模型的预训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器用于存储至少一条计算机程序，该至少一段计算机程序由该处理器加载并执行以实现上述的人工智能模型的预训练方法。以计算机设备为服务器为例，图11是本申请实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1101和一个或多个的存储器1102，其中，该一个或多个存储器1102中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器1101加载并执行以实现上述人工智能模型的预训练方法。当然，该服务器1100还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1100还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的人工智能模型的预训练方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述人工智能模型的预训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人工智能模型的预训练方法，其特征在于，所述方法包括：

调用人工智能模型在目标对局模式下的至少一种虚拟环境中进行虚拟对局，所述目标对局模式指示所述虚拟对局的对局收益目标；

基于所述虚拟对局内的视觉观测信息，获取环境图像和对象信息，以所述人工智能模型控制的虚拟对象在所述虚拟环境中的位置为坐标系中心，对所述环境图像和所述对象信息进行坐标系转换，生成对局状态特征，所述对象信息描述所述虚拟对局中虚拟对象的对战状态，所述环境图像描述所述虚拟对局中的环境状态，所述对局状态特征从所述人工智能模型控制的虚拟对象的视角描述虚拟对局状态；

基于对局状态特征以及所述对局状态特征的收益信息，对所述人工智能模型进行预训练，得到预训练人工智能模型，所述收益信息指示所述虚拟对局状态对实现所述对局收益目标的价值，所述预训练人工智能模型用于训练所述目标对局模式下的任一种虚拟环境中所采用的人工智能模型。

2.根据权利要求1所述的方法，其特征在于，所述视觉观测信息包括所述虚拟对局的对局画面，所述基于所述虚拟对局内的视觉观测信息，获取环境图像，包括：

对所述对局画面进行图像特征提取，得到环境图像包括的深度图像，所述深度图像指示所述虚拟环境中的障碍物与所述人工智能模型控制的虚拟对象之间的距离；或，

对所述对局画面进行图像特征提取，得到以所述虚拟对象为视觉中心的环形射线图像，所述环境图像包括的所述环形射线图像指示所述虚拟对象的视野范围内以及视野范围外的环境状态。

3.根据权利要求1所述的方法，其特征在于，所述基于对局状态特征以及所述对局状态特征的收益信息，对所述人工智能模型进行预训练，得到预训练人工智能模型，包括：

基于对局状态特征以及所述对局状态特征的收益信息，确定损失值，所述损失值指示所述人工智能的决策方式以及决策收益与对局收益目标之间的差距；

基于所述损失值，调整所述人工智能模型的模型参数，以使调整后的所述人工智能模型得到的损失值符合训练停止条件。

4.根据权利要求3所述的方法，其特征在于，所述对局收益目标包括参考决策方式和参考决策收益；所述基于对局状态特征以及所述对局状态特征的收益信息，确定损失值，包括下述至少一项：

基于所述对局状态特征和参考对局状态特征，确定第一损失值，所述第一损失值指示所述人工智能模型在虚拟对局中的决策方式与参考决策方式之间的差距；

基于所述收益信息和参考收益信息，确定第二损失值，所述第二损失值指示所述人工智能模型在虚拟对局中的决策收益与参考决策收益之间的差距。

5.根据权利要求1所述的方法，其特征在于，在所述基于对局状态特征以及所述对局状态特征的收益信息，对所述人工智能模型进行预训练，得到预训练人工智能模型之前，所述方法还包括：

将所述对局状态特征输入所述人工智能模型的决策网络，确定虚拟对象动作；

基于所述人工智能模型的价值网络，根据所述虚拟对象动作的奖励值和所述虚拟对局状态的当前价值，确定所述虚拟对局状态对应的收益信息，所述奖励值指示在所述虚拟对局状态下执行所述虚拟对象动作后对实现对局目标的影响。

6.根据权利要求1所述的方法，其特征在于，所述调用人工智能模型在目标对局模式下的至少一种虚拟环境中进行虚拟对局，包括：

调用所述人工智能模型和所述人工智能模型的至少一个历史版本模型，在所述目标对局模式下的至少一种虚拟环境中进行虚拟对局，所述人工智能模型基于所述历史版本模型进行模型参数调整得到。

7.根据权利要求6所述的方法，其特征在于，所述调用所述人工智能模型和所述人工智能模型的至少一个历史版本模型，在所述目标对局模式下的至少一种虚拟环境中进行虚拟对局，包括：

基于设备容量信息，确定所述历史版本模型的目标数量；

调用所述人工智能模型和目标数量个所述历史版本模型，在所述目标对局模式下的至少一种虚拟环境中进行多个虚拟对局。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述预训练人工智能模型的模型参数，初始化所述目标对局模式下的目标虚拟环境中所采用的目标人工智能模型，所述目标人工智能模型用于在所述目标虚拟环境中根据虚拟对局状态决策虚拟对象动作以实现所述对局收益目标；

调用所述目标人工智能模型在目标虚拟环境中进行目标虚拟对局，基于所述目标虚拟对局对应的对局状态特征和收益信息，训练所述目标人工智能模型。

9.一种人工智能模型的预训练装置，其特征在于，所述装置包括：

调用模块，用于调用人工智能模型在目标对局模式下的至少一种虚拟环境中进行虚拟对局，所述目标对局模式指示所述虚拟对局的对局收益目标；

获取模块，用于基于所述虚拟对局内的视觉观测信息，获取环境图像和对象信息，以所述人工智能模型控制的虚拟对象在所述虚拟环境中的位置为坐标系中心，对所述环境图像和所述对象信息进行坐标系转换，生成对局状态特征，所述对象信息描述所述虚拟对局中虚拟对象的对战状态，所述环境图像描述所述虚拟对局中的环境状态，所述对局状态特征从所述人工智能模型控制的虚拟对象的视角描述虚拟对局状态；

训练模块，用于基于对局状态特征以及所述对局状态特征的收益信息，对所述人工智能模型进行预训练，得到预训练人工智能模型，所述收益信息指示所述虚拟对局状态对实现所述对局收益目标的价值，所述预训练人工智能模型用于训练所述目标对局模式下的任一种虚拟环境中所采用的人工智能模型。

10.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求8任一项所述的人工智能模型的预训练方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的人工智能模型的预训练方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括程序代码，所述程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述程序代码，所述处理器执行所述程序代码，使得所述计算机设备执行如权利要求1至权利要求8任一项所述的人工智能模型的预训练方法。