CN109902820A

CN109902820A - Ai模型训练方法、装置、存储介质及设备

Info

Publication number: CN109902820A
Application number: CN201910127573.3A
Authority: CN
Inventors: 申俊峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2019-06-18
Anticipated expiration: 2039-02-20
Also published as: CN109902820B

Abstract

本发明公开了一种AI模型训练方法、装置、存储介质及设备，属于人工智能技术领域。该方法应用于至少两个训练机中的任意一个训练机，每个训练机均与参数服务器通信连接，每一个训练机与至少一个终端设备通信连接，与一个训练机通信连接的每个终端设备均各自对应一个模型训练环境，该方法包括：对于任意一个训练机的任意一个模型训练环境，获取候选样本集；基于候选样本集获取AI模型当前的网络参数的梯度；将网络参数的梯度发送至参数服务器，参数服务器用于基于网络参数的梯度对AI模型当前的网络参数进行更新；从参数服务器中获取更新后的网络参数，并以更新后的网络参数替换模型训练环境中AI模型当前的网络参数。本发明加快了模型训练速度。

Description

AI模型训练方法、装置、存储介质及设备

技术领域

本发明涉及人工智能技术领域，特别涉及一种AI模型训练方法、装置、存储介质及设备。

背景技术

AI(Artificial Intelligence，人工智能)，是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。时下AI技术已被广泛应用于多种场景下，比如游戏场景便是其中一种。

其中，游戏AI重点关注AI技术带给玩家的游戏体验，目的是让游戏表现出与人类的智能行为/活动相类似，或者与玩家的思维/感知相符合的特性。而针对游戏场景来说，智能模拟的重点便是训练算法模型，在本文中也称之为AI模型，进而通过将建立的AI模型应用到实际的游戏场景中，来提升玩家的游戏体验。相关技术在AI模型的训练过程中接入单个游戏终端完成样本采集，之后在单个训练机上基于采集到的样本完成AI模型训练。然而，基于单个训练机进行模型训练会严重限制模型的训练速度，为此，如何进行AI模型训练，以确保AI效果，成为了本领域技术人员亟待解决的一个问题。

发明内容

本发明实施例提供了一种AI模型训练方法、装置、存储介质及设备，解决了相关技术存在的模型训练速度慢的问题。所述技术方案如下：

一方面，提供了一种AI模型训练方法，所述方法应用于至少两个训练机中的任意一个训练机，所述至少两个训练机中的每个训练机均与参数服务器通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，所述方法包括：

对于任意一个训练机的任意一个模型训练环境，获取与所述模型训练环境包含的终端设备匹配的候选样本集，所述候选样本集中至少包括所述终端设备显示的环境状态画面以及与所述环境状态画面匹配的交互动作，所述环境状态画面为目标交互活动中的角色对象参与交互活动时生成的画面；

基于所述候选样本集获取AI模型当前的网络参数的梯度；

将所述网络参数的梯度发送至参数服务器，所述参数服务器用于基于所述网络参数的梯度对所述AI模型当前的网络参数进行更新；

从所述参数服务器中获取更新后的网络参数，并以所述更新后的网络参数替换所述模型训练环境中所述AI模型当前的网络参数。

另一方面，提供了一种AI模型训练方法，所述方法应用于参数服务器，所述参数服务器与至少两个训练机中的每一个训练机均通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，所述方法包括：

接收来自于任意一个训练机的任意一个模型训练环境的网络参数的梯度，所述网络参数的梯度是所述训练机基于与所述模型训练环境包含的终端设备匹配的候选样本集获取到的，所述候选样本集中至少包括所述终端设备显示的环境状态画面以及与所述环境状态画面匹配的交互动作，所述环境状态画面为目标交互活动中的角色对象参与交互活动时生成的画面；

基于所述网络参数的梯度对AI模型当前的网络参数进行更新；

接收来自于任意一个训练机的任意一个模型训练环境的参数拉取请求；

向发起参数拉取请求的训练机发送更新后的网络参数，所述发起参数拉取请求的训练机用于以所述更新后的网络参数替换相应模型训练环境中所述AI模型当前的网络参数。

另一方面，提供了一种AI模型训练方法，所述方法应用于AI模型训练系统，所述系统包括至少两个训练机、参数服务器以及至少两个终端设备，所述至少两个训练机中的每个训练机均与所述参数服务器通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，所述方法包括：

对于任意一个训练机的任意一个模型训练环境，所述训练机获取与所述模型训练环境包含的终端设备匹配的候选样本集，所述候选样本集中至少包括所述终端设备显示的环境状态画面以及与所述环境状态画面匹配的交互动作，所述环境状态画面为目标交互活动中的角色对象参与交互活动时生成的画面；

所述训练机基于所述候选样本集获取AI模型当前的网络参数的梯度，并将所述网络参数的梯度发送至参数服务器；

所述参数服务器在接收到所述网络参数的梯度后，基于所述网络参数的梯度对所述AI模型当前的网络参数进行更新；

所述参数服务器接收来自于任意一个训练机的任意一个模型训练环境的参数拉取请求；

所述参数服务器向发起参数拉取请求的训练机发送更新后的网络参数；

所述发起参数拉取请求的训练机以所述更新后的网络参数替换相应模型训练环境中所述AI模型当前的网络参数。

另一方面，提供了一种AI模型训练装置，所述装置应用于至少两个训练机中的任意一个训练机，所述至少两个训练机中的每个训练机均与参数服务器通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，所述装置包括：

第一获取模块，用于对于任意一个训练机的任意一个模型训练环境，获取与所述模型训练环境包含的终端设备匹配的候选样本集，所述候选样本集中至少包括所述终端设备显示的环境状态画面以及与所述环境状态画面匹配的交互动作，所述环境状态画面为目标交互活动中的角色对象参与交互活动时生成的画面；

第二获取模块，用于基于所述候选样本集获取AI模型当前的网络参数的梯度；

发送模块，用于将所述网络参数的梯度发送至参数服务器，所述参数服务器用于基于所述网络参数的梯度对所述AI模型当前的网络参数进行更新；

第三获取模块，用于从所述参数服务器中获取更新后的网络参数；

更新模块，用于以所述更新后的网络参数替换所述模型训练环境中所述AI模型当前的网络参数。

另一方面，提供了一种AI模型训练装置，所述装置应用于参数服务器，所述参数服务器与至少两个训练机中的每一个训练机均通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，所述装置包括：

第一接收模块，用于接收来自于任意一个训练机的任意一个模型训练环境的网络参数的梯度，所述网络参数的梯度是所述训练机基于与所述模型训练环境包含的终端设备匹配的候选样本集获取到的，所述候选样本集中至少包括所述终端设备显示的环境状态画面以及与所述环境状态画面匹配的交互动作，所述环境状态画面为目标交互活动中的角色对象参与交互活动时生成的画面；

更新模块，用于基于所述网络参数的梯度对AI模型当前的网络参数进行更新；

第二接收模块，用于接收来自于任意一个训练机的任意一个模型训练环境的参数拉取请求；

发送模块，用于向发起参数拉取请求的训练机发送更新后的网络参数，所述发起参数拉取请求的训练机用于以所述更新后的网络参数替换相应模型训练环境中所述AI模型当前的网络参数。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述训练机执行的AI模型训练方法；或，如上述参数服务器执行的AI模型训练方法。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述训练机执行的AI模型训练方法；或，如上述参数服务器执行的AI模型训练方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例在训练游戏AI时，基于参数服务器、至少两个训练机以及至少两个终端设备的分布式架构，其中，至少两个训练机中的每个训练机均与参数服务器通信连接，每一个训练机与至少一个终端设备通信连接，而与一个训练机通信连接的每个终端设备均各自对应一个模型训练环境，且参数服务器中的模型结构与任意一个模型训练环境中的模型结构一致；基于以上架构，本发明实施例提供的AI模型训练方法实现了单个训练机连接多个终端设备，多个模型训练环境并行进行游戏AI训练，且通过参数服务器统一基于网络参数的梯度完成网络参数的更新和同步，由于实现了基于多个训练机的多个模型训练环境并行进行游戏AI模型训练，因此有效提升了游戏AI模型的训练速度，确保了游戏AI效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种AI模型训练方法涉及的实施环境示意图；

图2是本发明实施例提供的一种AI模型训练方法的流程图；

图3是本发明实施例提供的一种模型训练以及样本集生成的过程示意图；

图4是本发明实施例提供的一种梯度更新以及参数同步的过程示意图；

图5是本发明实施例提供的一种手游训练环境的示意图；

图6是本发明实施例提供的一种AI模型训练方法的流程图；

图7是本发明实施例提供的一种AI模型训练装置的结构示意图；

图8是本发明实施例提供的一种AI模型训练装置的结构示意图；

图9是本发明实施例提供的一种参数服务器的结构示意图；

图10是本发明实施例提供的一种训练机的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例可能涉及到的一些名词进行解释说明。

AI：英文全称Artificial Intelligence，中文名称人工智能。

示例性地，游戏AI是一种能让游戏开发者为玩家创造引人入胜的游戏体验的技术。换一种表达方式，无论采取何种手段，只要能给玩家以某种智能程度的错觉，使得游戏更能令人沉迷于其中、更具有挑战性、更好玩，那便可看作为游戏AI。即，游戏AI并不是要做到最大化成功率，并不以胜利为单一目的进行游戏AI设计，而是以让玩家有一段更美妙的游戏体验而设计。

强化学习：又称为试错学习，是一种让智能体(Agent)与环境(environment)不断交互，并根据环境的反馈(reward)，进行自我学习的一种机器学习算法。

换一种表达方式，强化学习是一种Agent以试错的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使得Agent获得最大的奖赏。

示例性地，如果Agent的某个行为策略导致环境正的奖赏，那么Agent以后产生这个行为策略的趋势便会加强，Agent的目标是发现最优策略以使期望的折扣奖赏和最大。

即，强化学习将学习看作一个试探评价过程，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号反馈给Agent，Agent根据该强化信号和当前环境状态再选择下一个动作，选择的原则通常是使受到正强化(奖)的概率增大。

简言之，强化学习是学习从环境状态到行为的映射，使得Agent选择的行为能够获得环境最大的奖赏。

Agent：指代强化学习中的智能体。

在本发明实施例中，Agent能够根据游戏环境进行决策，做出特定的动作。即，Agent在游戏环境中采取动作与游戏环境进行交互。

state：指代Agent所处的游戏环境的环境状态。

在本发明实施例中，state通常即为游戏画面。

reward：指代Agent与游戏环境进行交互时收到的反馈激励。

其中，reward通常为一个数值变量，其数值的大小表示对Agent做出的特定动作好坏与否的评价。

手游：通常指代运行在移动终端设备上的游戏应用。

在本发明实施例中，安装有手游的移动终端设备也称之为手游终端，或简称为终端设备。

手游终端：指代手机游戏运行的移动终端设备。示例性地，手游终端通常为智能手机、或平板电脑等。

训练机：在本发明实施例中，训练机指代用于训练AI模型的计算机设备。

其中，训练机通常为包含GPU(Graphics Processing Unit，图形处理单元)计算资源的计算机。

示例性地，AI模型在本文中为深度神经网络。

深度神经网络：英文全称Deep Neural Networks，简称DNN。

其中，深度神经网络是深度学习的基础，而深度学习的概念源于人工神经网络的研究，深度学习是机器学习中一种基于对数据进行表征学习的方法。换一种表达方式，深度学习是机器学习研究中的一个新领域，其动机在于建立、模拟人脑进行分析学习的神经网络。

玩家：在本发明实施例中也称之为用户。

其中玩家也可称为游戏者，是一种游戏业界与游戏参与者之间的术语。广义上讲，玩家泛指玩游戏的用户，即参与任何形式游戏的人。

特殊地，在角色扮演类游戏中，玩家通常在游戏世界中扮演其中的可控角色，通过操作这些可控角色去完成游戏或是自己所设定的目标。此外，部分玩家在角色扮演类游戏中还可以作为主角或是游戏剧情的关键。

总结来讲，玩家是游戏的体验者、使用者、评价者和消费者。根据性格和喜好的差异，不同的玩家喜爱的游戏类型也各不相同。

交互活动：在本发明实施例中，交互活动是对任何类型游戏的统称。

角色对象：也可称之为游戏角色或玩家角色，在本发明实施例中，角色对象指代游戏中可由玩家控制的某个角色或某个对象。

接下来，对本发明实施例提供的一种AI模型训练方法所涉及的实施环境进行介绍说明。

参见图1，该实施环境中包括：至少两个训练机、至少两个手游终端以及一个参数服务器。

即，在本发明实施例中用于模型训练的训练机为至少两个，其中，至少两个训练机中的每个训练机均与参数服务器通信连接，每一个训练机与至少一个终端设备通信连接，而与一个训练机通信连接的每个终端设备均各自对应一个模型训练环境。另外，参数服务器中的模型结构与任意一个模型训练环境中的模型结构一致。该种分布式结构的模型训练方式实现了：

(1)、单个训练机可连接单个手游终端或至少两个手游终端

在本发明实施例中，根据训练机的性能以及神经网络的复杂度，每个训练机可连接单个手游终端或至少两个手游终端。

需要说明的第一点是，如图1所示，通常每个手游终端对应训练机上的一个AI训练进程，而每个手游终端及其对应的AI训练进程又可看作是一个强化学习训练环境。其中，参见图1，每个强化学习训练环境中均包括一个AI模型；示例性地，该AI模型在本文中为深度神经网络。另外，在本文中该强化学习训练环境也称之为模型训练环境。

需要说明的第二点是，如图1所述，AI训练进程会获取手游终端的手游环境状态即前文提及的state，并将获取到的手游环境状态作为深度神经网络的输入，而深度神经网络会输出游戏动作，并作用到手游终端的手游环境中去。其中，手游环境状态通常即为游戏画面，本发明实施例对此不进行具体限定。

(2)、将一个训练机作为全局深度神经网络参数的参数服务器

在本发明实施例中，参数服务器中的神经网络结构和各个强化学习训练环境中的神经网络结构一致。

其中，参数服务器上保存的深度神经网络参数为训练过程中最新的深度神经网络参数。示例性地，每个强化学习训练环境周期性地从参数服务器上拉取最新的深度神经网络参数，并作为该强化学习训练环境的深度神经网络参数。

(3)、至少两个训练机进行异步深度神经网络参数训练

如图1所示，各个强化学习训练环境之间可并行进行深度神经网络参数的梯度计算，并发送计算好的梯度到参数服务器，进而触发进行全局深度神经网络参数的更新。

基于上述实施环境可知，本发明实施例提出了一种分布式架构的深度强化学习方法来训练手游AI，该种训练方法可以显著提高手游AI的训练速度，进而确保了AI效果。详细来说，本发明实施例基于分布式架构的深度强化学习方法来训练手游AI，至少具有以下特点：

A、接入至少两个手游终端进行样本采集

在进行基于深度强化学习的手游AI训练过程中，样本生成速度慢是制约训练速度的一个重要因素。为此，本发明实施例通过接入至少两个手游终端，可以更迅速地生成样本以用于完成手游AI训练。另外，由于样本生成速度快，所以模型训练的速度也得以加快。

示例性地，Agent在手游环境中尝试各种动作并收到反馈的reward，在此过程中，会累积大量样本，在本发明实施例中，样本的格式为(s,a,r,s’)。其中，s表示游戏画面，a表示在s下采取的游戏动作，r表示采取游戏动作a得到的reward，s’表示采取游戏动作a后得到的下一时刻的游戏画面。其中，游戏动作在本文中也称之为交互动作。

在本发明实施例中，在训练深度神经网络即AI模型时，从样本集中挑选小批量的样本进行深度神经网络参数的梯度计算。

B、基于至少两个手游终端的强化学习训练环境进行策略探索

示例性地，在与手游环境的交互过程中，会根据当前深度神经网络参数选择最优动作；在进行基于深度强化学习的手游AI训练过程中，通过接入至少两个手游终端，在至少两个强化学习训练环境中进行策略探索，从而能够更高概率、更快速地探索到最优策略，完成最优动作选择，即能够更快速地将模型训练到具备一定精度，提升了训练速度、确保了AI效果。

基于上述两个步骤的描述可知，本发明实施例通过接入至少两个手游终端，显著提高了样本的生成速度，加快了探索到最优策略的概率和速度。

C、至少两个训练机进行深度神经网络参数的梯度计算和参数更新

在进行基于深度强化学习的手游AI训练过程中，本发明实施例通过至少两个训练机计算和更新梯度，并基于梯度更新完成深度神经网络参数更新，加快了训练速度，能更充分利用计算资源；即本发明实施例可通过增加手游终端和训练机的数量提升训练速度，该种分布式架构更容易进行扩展。

图2是本发明实施例提供的一种AI模型训练方法的流程图。该方法的交互主体为图1所示的参数服务器、手游终端以及训练机。参见图2，本发明实施例提供的方法流程包括：

单个模型训练环境的模型训练

在本发明实施例中，游戏AI模型通常指代深度神经网络，以深度神经网络为例，单个模型训练环境进行游戏AI模型训练，即是计算深度神经网络参数的梯度其中，W指代深度神经网络参数。下面通过步骤201和步骤202对网络参数的梯度的计算方式进行解释说明。需要说明的是，对于图1中示出的任意一个训练机中的任意一个训练环境，均可采取下述的方式进行模型训练即进行游戏AI训练。示例性地，梯度计算的执行主体为训练机上的游戏AI训练进程。其中，手游终端在本文中也称之为终端设备。

201、对于任意一个训练机的任意一个模型训练环境，获取与该模型训练环境包含的终端设备匹配的候选样本集。

其中，候选样本集中至少包括手游终端显示的环境状态画面以及与环境状态画面匹配的交互动作，而环境状态画面为目标游戏中的角色对象参与游戏时生成的画面。

在本发明实施例中，由于是基于分布式架构，采取强化学习来训练游戏AI模型，所以得到的样本集源自游戏AI模型输出。

即，对于一个模型训练环境来说，初始时，手游终端向当前的游戏AI模型输入一个环境状态画面，为了便于区分，在本文中将输入的环境状态画面称之为第一环境状态画面；当前的游戏AI模型会根据当前的网络参数选择一个最优的交互动作输出或随机挑选一个交互动作输出，由于此时游戏AI模型的精度不高，所以输出的交互动作也不太精确；而这个包含输入环境状态画面和输出交互动作的样本便会作为一个训练样本应用到后续对游戏AI模型的训练过程中。而随着对模型的不断训练，游戏AI模型输出的交互动作会越来越精确，越来越符合预期。

换一种表达方式，模型训练过程是一种试错学习过程，通过不断向模型输入环境状态和模型不断输出交互动作，并基于模型输出来不断地对网络参数进行修正，能够使得模型的精度逐步提高。

基于以上描述，在本发明实施例中，候选样本集的生成包括但不限于采取以下方式：每当模型训练环境中包含的手游终端向当前的游戏AI模型输入一个第一环境状态画面时，获取当前的游戏AI模型输出的交互动作，并获取与输出的交互动作匹配的反馈激励，以及在输出交互动作后下一时刻的第二环境状态画面；将输入的第一环境状态画面、输出的交互动作、反馈激励以及下一时刻的第二环境状态画面，作为一个候选样本扩充到候选样本集中。

也即，对于候选样本集中的每一个样本，该样本中包括第一环境状态画面、在第一环境状态画面下采取的交互动作、在采取交互动作后得到的反馈激励、以及在采取交互动作后下一时刻的第二环境状态画面。

其中，候选样本集通常称为replaymemory。在一种可能的实现方式中，候选样本集中每一个样本的格式均为(s,a,r,s’)。示例性地，s指代手游终端输入到游戏AI模型的游戏画面，a指代在游戏画面s下游戏AI模型输出的游戏动作，r表示输出游戏动作a后得到的反馈激励，s’表示采取游戏动作a后得到的下一时刻的游戏画面。即游戏AI模型在输出游戏动作a后，该游戏动作a会作用到手游终端的手游环境中，进而触发终端设备变换到下一时刻的游戏画面。

202、基于候选样本集获取游戏AI模型当前的网络参数的梯度。

在本发明实施例中，基于候选样本集获取游戏AI模型当前的网络参数的梯度，包括但不限于：在候选样本集中进行样本选取，得到训练样本集；基于训练样本集获取目标损失函数，基于目标损失函数获取游戏AI模型当前的网络参数的梯度。

在一种可能的实现方式中，可在候选样本集中随机挑选小批量的样本作为训练样本集，本发明实施例对此不进行具体限定。

在另一种可能的实现方式中，目标损失函数的计算公式为：

loss＝[y-Q(s,a)]²

y＝r+γ*max_aQ(s',a)

其中，Q(s,a)指代在环境状态s下对应交互动作a的价值；s'指代在环境状态s下采取交互动作a后下一时刻的环境状态；r指代在环境状态s下采取交互动作a后得到的反馈激励；γ为常数，指代价值Q(s,a)的折扣系数，其取值范围为0到1。示例性地，γ的取值通常为0.99。

在另一种可能的实现方式中，在得到目标损失函数后，基于目标损失函数获取游戏AI模型当前的网络参数的梯度的方式包括但不限于：对目标损失函数进行求导运算，得到游戏AI模型当前的网络参数的梯度。

需要说明的第一点是，如图3所示，上述网络参数的梯度计算过程可简述为：在样本集replay memory中进行样本选择得到训练样本集；之后，基于训练样本集进行深度神经网络训练，得到深度神经网络参数的梯度，同时还会得到格式为(s,a,r,s’)的样本，将这个样本扩充到样本集replay memory中，以用于后续的深度神经网络训练过程中。

需要说明的第二点是，在本发明实施例中，全部训练机中的全部模型训练环境均是按照上述步骤201至步骤202的描述完成网络参数的梯度的计算。因此本发明实施例不但实现了基于多个手游终端进行样本采集，提升了样本生成速度，而且通过接入多个手游终端，形成了多个模型训练环境，且多个模型训练环境可以并行进行游戏AI训练，因此本发明实施例能够在多个模型训练环境中进行策略探索，从而可以更高概率、更快速地探索到最优策略，即更快速地使得模型达到一定的精准度，提升了训练速度，确保了游戏AI效果。

全局网络参数的更新和同步

203、将获取到的网络参数的梯度发送至参数服务器。

在本发明实施例中，参见图4，任意一个模型训练环境在计算得到网络参数的梯度后，相应的训练机均会向参数服务器发送计算得到的梯度，进而基于梯度更新完成全局网络参数更新。

换一种表达方式，在计算出单个模型训练环境的网络参数的梯度▽w后，便通过参数服务器实现对全局网络参数进行更新。

204、参数服务器基于接收到的网络参数的梯度，对游戏AI模型当前的网络参数进行更新。

在一种可能的实现方式中，参数服务器采用RMSProp优化器进行参数更新。其中，RMSProp优化器是一种深度学习网络优化算法，在获取到网络参数的梯度，基于RMSProp优化器对游戏AI模型当前的网络参数进行更新，包括但不限于：基于网络参数的梯度，获取游戏AI模型的网络参数更新量；基于游戏AI模型当前的网络参数和该网络参数更新量，获取更新后的网络参数。

205、任意一个训练机的任意一个模型训练环境从参数服务器中获取更新后的网络参数，并以更新后的网络参数替换该模型训练环境中游戏AI模型当前的网络参数。

在本发明实施例中，每经过一段时间，每个训练机中的各个模型训练环境便会从参数服务器中拉取一次最新的网络参数，并以拉取到的最新的网络参数来替换该模型训练环境中当前的网络参数。

示例性地，训练机会通过向参数服务器发送参数拉取请求的方式来获取最新的网络参数，本发明实施例对此不进行具体限定。在一种可能的实现方式中，拉取一次网络参数的间隔时间可为一个游戏对局的时长，本发明实施例对此同样不进行具体限定。

基于以上描述可知，本发明实施例的整体训练流程为：

不断的重复上述步骤201至步骤205，简言之，每个训练机的每个模型训练环境并行运行，执行游戏AI训练，即每个模型训练环境根据接入的手游终端采集训练样本，并基于训练样本计算出游戏AI模型的网络参数的梯度▽w；之后，基于梯度▽w对参数服务器上保存的网络参数进行更新；而每经过一段时间，每个训练机的各个模型训练环境便会从参数服务器拉取最新的神经网络参数，用以替换本地当前的网络参数。

本发明实施例在进行游戏AI训练时，基于一个参数服务器、至少两个训练机以及至少两个手游终端的分布式架构来训练游戏AI，其中，至少两个训练机中的每个训练机均与参数服务器通信连接，每一个训练机与至少一个终端设备通信连接，而与一个训练机通信连接的每个终端设备均各自对应一个模型训练环境，且参数服务器中的模型结构与任意一个模型训练环境中的模型结构一致；

基于以上架构，本发明实施例提供的AI模型训练方法实现了单个训练机连接多个手游终端，多个模型训练环境并行进行游戏AI训练，且通过参数服务器完成梯度更新、以及网络参数的更新和同步，由于可通过多个手游终端进行样本采集，因此提高了样本的生成速度，进而能更快速地生成样本用于训练；另外，由于基于多个模型训练环境并行进行游戏AI模型训练，因此加快了探索到最优策略的概率和速度，加快了模型训练速度，本发明实施例能够有效提升游戏AI模型的训练速度，确保了游戏AI效果。

在另一个实施方式中，下面以训练某款飞车手游AI为例，对本发明实施例提出的基于分布式架构的深度强化学习手游AI训练方法进行举例说明。其中，图5示出了某款飞车手游的单个模型训练环境。在图5中，左侧部分表示模型训练环境的深度神经网络部分，右侧部分表示接入的某款飞车手游终端。

如图5所示，在游戏AI训练过程中，游戏AI训练进程实时获取手游终端的游戏画面作为深度神经网络的输入；其中，该游戏画面为该款飞车手游中手游终端控制的角色对象参与游戏时生成的画面。之后，游戏AI训练进程根据深度神经网络当前的网络参数和输入的游戏画面，计算出游戏动作并输出该游戏动作到游戏环境中，而游戏环境会对该游戏动作进行反馈。

其中，输出的游戏动作包括但不限于：向左、向右、左飘逸、右飘逸、不输出任何动作等，本发明实施例对此不进行具体限定。另外，训练过程中的reward可根据赛车速度计算；示例性地，赛车速度越快，则给予的reward越高；而当赛车速度有一定幅度的下降或赛车速度较低时，则给予较低的reward。而网络参数的更新和同步过程同前述步骤所述。

在另一个实施方式中，本发明实施例提供了一种游戏AI模型训练方法，该方法应用于游戏AI模型训练系统。其中，该系统包括至少两个训练机、参数服务器以及至少两个终端设备，至少两个训练机中的每个训练机均与参数服务器通信连接，每一个训练机与至少一个终端设备通信连接，与一个训练机通信连接的每个终端设备均各自对应一个模型训练环境，参数服务器中的模型结构与任意一个模型训练环境中的模型结构一致，参见图6，该方法包括：

601、对于训练机A的任意一个模型训练环境，训练机A获取与该模型训练环境包含的终端设备匹配的候选样本集，并基于候选样本集获取游戏AI模型当前的网络参数的梯度。

其中，训练机A可为该系统中的任意一个训练机。候选样本集中至少包括终端设备显示的环境状态画面以及与环境状态画面匹配的交互动作，其中，环境状态画面为目标交互活动中的角色对象参与交互活动时生成的画面。

602、训练机A将网络参数的梯度发送至参数服务器。

603、参数服务器在接收到网络参数的梯度后，基于网络参数的梯度对游戏AI模型当前的网络参数进行更新。

604、参数服务器接收来自于训练机B的任意一个模型训练环境的参数拉取请求。

其中，训练机B可为包括训练机A在内的任意一个训练机。

605、参数服务器向发起参数拉取请求的训练机B发送更新后的网络参数。

606、训练机B以更新后的网络参数替换相应模型训练环境中游戏AI模型当前的网络参数。

本发明实施例在进行游戏AI训练时，基于一个参数服务器、至少两个训练机以及至少两个手游终端的分布式架构，其中，至少两个训练机中的每个训练机均与参数服务器通信连接，每一个训练机与至少一个终端设备通信连接，而与一个训练机通信连接的每个终端设备均各自对应一个模型训练环境，且参数服务器中的模型结构与任意一个模型训练环境中的模型结构一致；

基于以上架构，本发明实施例提供的游戏AI模型训练方法实现了单个训练机连接多个手游终端，多个模型训练环境并行进行游戏AI训练，且通过参数服务器完成梯度更新、以及网络参数的更新和同步，由于可通过多个手游终端进行样本采集，因此提高了样本的生成速度，进而能更快速地生成样本用于训练；另外，由于基于多个模型训练环境并行进行游戏AI模型训练，因此加快了探索到最优策略的概率和速度，加快了模型训练速度，本发明实施例能够有效提升游戏AI模型的训练速度，确保了游戏AI效果。

图7是本发明实施例提供的一种AI模型训练装置的结构示意图。该装置应用于至少两个训练机中的任意一个训练机，所述至少两个训练机中的每个训练机均与参数服务器通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，参见图7，该装置包括：

第一获取模块701，用于对于任意一个训练机的任意一个模型训练环境，获取与所述模型训练环境包含的终端设备匹配的候选样本集，候选样本集中至少包括所述终端设备显示的环境状态画面以及与所述环境状态画面匹配的交互动作，环境状态画面为目标交互活动中的角色对象参与交互活动时生成的画面；

第二获取模块702，用于基于所述候选样本集获取AI模型当前的网络参数的梯度；

发送模块703，用于将所述网络参数的梯度发送至参数服务器，所述参数服务器用于基于所述网络参数的梯度对所述AI模型当前的网络参数进行更新；

第三获取模块704，用于从所述参数服务器中获取更新后的网络参数；

更新模块705，用于以所述更新后的网络参数替换所述模型训练环境中所述AI模型当前的网络参数。

本发明实施例在进行游戏AI训练时，基于参数服务器、至少两个训练机以及至少两个终端设备的分布式架构，其中，至少两个训练机中的每个训练机均与参数服务器通信连接，每一个训练机与至少一个终端设备通信连接，而与一个训练机通信连接的每个终端设备均各自对应一个模型训练环境，且参数服务器中的模型结构与任意一个模型训练环境中的模型结构一致；基于以上架构，本发明实施例提供的AI模型训练装置实现了单个训练机连接多个终端设备，多个模型训练环境并行进行游戏AI训练，且通过参数服务器统一基于网络参数的梯度完成网络参数的更新和同步，由于实现了基于多个训练机的多个模型训练环境并行进行游戏AI模型训练，因此有效提升了游戏AI模型的训练速度，确保了游戏AI效果。

在一种可能的实现方式中，对于所述候选样本集中的每一个样本，所述样本中包括第一环境状态画面、在所述第一环境状态下输出的交互动作、在输出所述交互动作后得到的反馈激励、以及在输出所述交互动作后下一时刻的第二环境状态画面。

在一种可能的实现方式中，所述第二获取模块，用于在所述候选样本集中进行样本选取，得到训练样本集；基于所述训练样本集获取目标损失函数，并基于所述目标损失函数获取所述AI模型当前的网络参数的梯度。

在一种可能的实现方式中，所述目标损失函数的计算公式为：

loss＝[y-Q(s,a)]²

y＝r+γ*max_aQ(s',a)

其中，Q(s,a)指代在环境状态s下对应交互动作a的价值；s'指代在所述环境状态s下输出所述交互动作a后下一时刻的环境状态；r指代在所述环境状态s下输出交互动作a后得到的反馈激励；γ为常数，指代价值Q(s,a)的折扣系数。

在一种可能的实现方式中，该装置还包括：

样本采集模块，用于每当所述模型训练环境中包含的终端设备向当前的AI模型输入一个第一环境状态画面时，获取所述当前的AI模型输出的交互动作，并获取与所述输出的交互动作匹配的反馈激励，以及在输出所述交互动作后下一时刻的第二环境状态画面；将输入的第一环境状态画面、所述输出的动作、所述反馈激励以及所述下一时刻的第二环境状态画面，作为一个候选样本扩充到所述候选样本集中。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图8是本发明实施例提供的一种AI模型训练装置，该装置应用于参数服务器，所述参数服务器与至少两个训练机中的每一个训练机均通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，参见图8，该装置包括：

第一接收模块801，用于接收来自于任意一个训练机的任意一个模型训练环境的网络参数的梯度，所述网络参数的梯度是所述训练机基于与所述模型训练环境包含的终端设备匹配的候选样本集获取到的，所述候选样本集中至少包括所述终端设备显示的环境状态画面以及与所述环境状态画面匹配的交互动作，所述环境状态画面为目标交互活动中的角色对象参与交互活动时生成的画面；

更新模块802，用于基于所述网络参数的梯度对AI模型当前的网络参数进行更新；

第二接收模块803，用于接收来自于任意一个训练机的任意一个模型训练环境的参数拉取请求；

发送模块804，用于向发起参数拉取请求的训练机发送更新后的网络参数，所述发起参数拉取请求的训练机用于以所述更新后的网络参数替换相应模型训练环境中所述AI模型当前的网络参数。

在一种可能的实现方式中，所述更新模块，还用于基于所述网络参数的梯度，获取所述AI模型的网络参数更新量；基于所述AI模型当前的网络参数和所述网络参数更新量，获取更新后的网络参数。

需要说明的是：上述实施例提供的AI模型训练装置在训练AI模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的AI模型训练装置与AI模型训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本发明实施例提供的一种参数服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)901和一个或一个以上的存储器902，其中，所述存储器902中存储有至少一条指令，所述至少一条指令由所述处理器901加载并执行以实现上述各个方法实施例提供的AI模型训练方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由参数服务器中的处理器执行以完成上述实施例中的AI模型训练方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图10是本发明实施例提供的一种训练机的结构示意图，该训练机1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1001和一个或一个以上的存储器1002，其中，所述存储器1002中存储有至少一条指令，所述至少一条指令由所述处理器1001加载并执行以实现上述各个方法实施例提供的AI模型训练方法。当然，该训练机还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该训练机还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由训练机中的处理器执行以完成上述实施例中的AI模型训练方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种AI模型训练方法，其特征在于，所述方法应用于至少两个训练机中的任意一个训练机，所述至少两个训练机中的每个训练机均与参数服务器通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，所述方法包括：

基于所述候选样本集获取人工智能AI模型当前的网络参数的梯度；

2.根据权利要求1所述的方法，其特征在于，对于所述候选样本集中的每一个样本，所述样本中包括第一环境状态画面、在所述第一环境状态画面下输出的交互动作、在输出所述交互动作后得到的反馈激励、以及在输出所述交互动作后下一时刻的第二环境状态画面。

3.根据权利要求1所述的方法，其特征在于，所述基于所述候选样本集获取AI模型当前的网络参数的梯度，包括：

在所述候选样本集中进行样本选取，得到训练样本集；

基于所述训练样本集获取目标损失函数，并基于所述目标损失函数获取所述AI模型当前的网络参数的梯度。

4.根据权利要求3所述的方法，其特征在于，所述目标损失函数的计算公式为：

loss＝[y-Q(s,a)]²

y＝r+γ*max_aQ(s',a)

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

每当所述模型训练环境中包含的终端设备向当前的AI模型输入一个第一环境状态画面时，获取所述当前的AI模型输出的交互动作，并获取与所述输出的交互动作匹配的反馈激励，以及在输出所述交互动作后下一时刻的第二环境状态画面；

将输入的第一环境状态画面、所述输出的交互动作、所述反馈激励以及所述下一时刻的第二环境状态画面，作为一个候选样本扩充到所述候选样本集中。

6.一种AI模型训练方法，其特征在于，所述方法应用于参数服务器，所述参数服务器与至少两个训练机中的每一个训练机均通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，所述方法包括：

基于所述网络参数的梯度对人工智能AI模型当前的网络参数进行更新；

7.根据权利要求6所述的方法，其特征在于，所述基于所述网络参数的梯度对AI模型当前的网络参数进行更新，包括：

基于所述网络参数的梯度，获取所述AI模型的网络参数更新量；

基于所述AI模型当前的网络参数和所述网络参数更新量，获取更新后的网络参数。

8.一种AI模型训练方法，其特征在于，所述方法应用于AI模型训练系统，所述系统包括至少两个训练机、参数服务器以及至少两个终端设备，所述至少两个训练机中的每个训练机均与所述参数服务器通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，所述方法包括：

所述训练机基于所述候选样本集获取人工智能AI模型当前的网络参数的梯度，并将所述网络参数的梯度发送至参数服务器；

9.一种AI模型训练装置，其特征在于，所述装置应用于至少两个训练机中的任意一个训练机，所述至少两个训练机中的每个训练机均与参数服务器通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，所述装置包括：

第二获取模块，用于基于所述候选样本集获取人工智能AI模型当前的网络参数的梯度；

10.根据权利要求9所述的装置，其特征在于，所述第二获取模块，用于在所述候选样本集中进行样本选取，得到训练样本集；基于所述训练样本集获取目标损失函数，并基于所述目标损失函数获取所述AI模型当前的网络参数的梯度。

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：

样本采集模块，用于每当所述模型训练环境中包含的终端设备向当前的AI模型输入一个第一环境状态画面时，获取所述当前的AI模型输出的交互动作，并获取与所述输出的交互动作匹配的反馈激励，以及在输出所述交互动作后下一时刻的第二环境状态画面；将输入的第一环境状态画面、所述输出的交互动作、所述反馈激励以及所述下一时刻的第二环境状态画面，作为一个候选样本扩充到所述候选样本集中。

12.一种AI模型训练装置，其特征在于，所述装置应用于参数服务器，所述参数服务器与至少两个训练机中的每一个训练机均通信连接，每一个所述训练机与至少一个终端设备通信连接，与一个所述训练机通信连接的每个终端设备均各自对应一个模型训练环境，所述参数服务器中的模型结构与任意一个所述模型训练环境中的模型结构一致，所述装置包括：

更新模块，用于基于所述网络参数的梯度对人工智能AI模型当前的网络参数进行更新；

13.根据权利要求12所述的装置，其特征在于，所述更新模块，还用于基于所述网络参数的梯度，获取所述AI模型的网络参数更新量；基于所述AI模型当前的网络参数和所述网络参数更新量，获取更新后的网络参数。

14.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至5中任一个权利要求所述的AI模型训练方法；或，如权利要求6至7中任一个权利要求所述的AI模型训练方法。

15.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至5中任一个权利要求所述的AI模型训练方法；或，如权利要求6至7中任一个权利要求所述的AI模型训练方法。