CN113996063A

CN113996063A - 游戏中虚拟角色的控制方法、装置及计算机设备

Info

Publication number: CN113996063A
Application number: CN202111275605.8A
Authority: CN
Inventors: 张胜寒; 周航; 刘宇
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-01
Also published as: WO2023071854A1

Abstract

本公开提供了一种游戏中虚拟角色的控制方法、装置、计算机设备及存储介质，其中，该方法应用于目标智能体；游戏包括多个虚拟角色；多个虚拟角色中包括受控于目标智能体的第一虚拟角色、以及未受控于目标智能体的第二虚拟角色；该方法包括：获取游戏过程中的当前游戏状态信息；当前游戏状态信息包括下述至少一种：第一虚拟角色的当前状态信息、第二虚拟角色的当前状态信息、游戏的游戏场景的当前状态信息；利用预先训练的目标神经网络，基于当前游戏状态信息进行动作预测处理，得到第一虚拟角色执行动作的动作信息；基于动作信息，控制第一虚拟角色执行动作。

Description

游戏中虚拟角色的控制方法、装置及计算机设备

技术领域

本公开涉及深度学习技术领域，具体而言，涉及一种游戏中虚拟角色的控制方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，将人工智能(Artificial Intelligence，AI)应用到游戏领域已经成为当前游戏行业的发展趋势，目前，一些游戏中使用了基于预设规则设置的游戏内置bot来担任玩家的游戏伙伴，在实际游戏过程中，游戏内置bot仅能根据预设规则控制虚拟角色执行规定的动作，灵活性较差，导致了基于游戏内置bot控制的虚拟角色游戏能力差，应用范围有限。

发明内容

本公开实施例至少提供一种游戏中虚拟角色的控制方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种游戏中虚拟角色的控制方法，应用于目标智能体；所述游戏包括多个虚拟角色；多个所述虚拟角色中包括受控于所述目标智能体的第一虚拟角色、以及未受控于所述目标智能体的第二虚拟角色；所述方法包括：获取游戏过程中的当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述第一虚拟角色的当前状态信息、所述第二虚拟角色的当前状态信息、所述游戏的游戏场景的当前状态信息；利用预先训练的目标神经网络，基于所述当前游戏状态信息进行动作预测处理，得到所述第一虚拟角色执行动作的动作信息；基于所述动作信息，控制所述第一虚拟角色执行所述动作。

这样，控制第一虚拟角色的目标智能体获取游戏过程中的当前游戏状态信息，当前游戏状态信息包括了第一虚拟角色的当前状态信息、第二虚拟角色的当前状态信息以及游戏场景的当前状态信息中的至少一种，然后利用预先训练的目标神经网络，基于当前游戏状态信息、对第一虚拟角色执行的动作进行预测处理，得到第一虚拟角色执行动作的动作信息，并利用预测得到的动作信息，控制第一虚拟角色执行动作，该目标神经网络较之游戏内置bot，具有更高的决策智能，因而也具有更强的决策能力，不止能够用于低端局或者新手局，随着目标神经网络的能力不断增强，还可以用于更多的高端游戏对局中，具有更广的应用范围。

一种可选的实施方式中，受控于所述目标智能体的所述第一虚拟角色至少有一个；所述动作信息包括下述至少一种：动作时刻、以及动作类型、所述第一虚拟角色中执行动作的目标第一虚拟角色、以及所述第二虚拟角色中属于动作对象的目标第二虚拟角色、所述第一虚拟角色执行动作时在所述游戏场景中的动作位置。

一种可选的实施方式中，所述第一虚拟角色的当前状态信息包括下述至少一种：所述第一虚拟角色具有的第一虚拟资类型、第一虚拟资源量、第一建筑状态、第一技能状态、在所述游戏场景中的第一位置、第一生命值、第一魔法值、第一阵营信息、第一增益数据、第一减益数据；所述第二虚拟角色的当前状态信息包括下述至少一种：所述第二虚拟角色具有的第二虚拟资源类型、第二虚拟资源量、第二建筑状态、第二技能状态、在所述游戏场景中的第二位置、第二生命值、第二魔法值、第二阵营信息、第二增益数据、第二减益数据、类型信息；所述游戏场景的当前状态信息包括下述至少一种：所述第一虚拟角色的可视区域信息、第三虚拟资源类型、虚拟资源位置、以及虚拟资源刷新的剩余时间。

一种可选的实施方式中，所述动作类型包括下述至少一种：攻击、资源采集、建造、生产、侦查、撤退。

一种可选的实施方式中，采用下述方式训练所述目标神经网络：获取多个玩家分别对应的游戏对局的游戏数据；基于所述游戏对局对应的游戏数据，生成样本数据；所述样本数据包括：多个动作时刻分别对应的样本动作信息、以及样本游戏状态信息；利用所述样本数据对原始神经网络进行监督训练，得到初始化神经网络；对所述初始化神经网络进行第一强化训练，得到至少一个目标神经网络。

这样，先利用监督学习的方式，得到初始化神经网络，再对初始化神经网络进行第一强化训练，使得最终得到的目标神经网络除了能够学习到人类玩家各种类型的动作外，还能够学习到更多的对局信息，能够不断提升由目标神经网络构成的目标智能体的决策智能，因而能够进一步提升目标智能体的应用范围。

一种可选的实施方式中，所述利用所述样本数据对原始神经网络进行监督训练，得到初始化神经网络，包括：将多个所述动作时刻分别对应的所述样本游戏状态信息作为输入数据，将所述多个动作时刻分别对应的样本动作信息作为监督数据，对所述原始神经网络进行监督训练，得到所述初始化神经网络。

这样，利用大量的样本数据，对原始神经网络进行监督训练，使得得到的初始化神经网络能够学习到更多的动作信息，便于后续进行第一强化训练。

一种可选的实施方式中，所述对所述初始化神经网络进行第一强化训练，得到至少一个目标神经网络，包括：对所述初始化神经网络进行至少两次迭代训练，并基于最后一次迭代得到的备选神经网络，得到所述目标神经网络；其中，对于任一次迭代训练过程，包括：确定至少一个待训练神经网络，以及确定辅助神经网络；其中，所述待训练神经网络包括所述初始化神经网络和/或所述任一次迭代训练过程的前一次迭代训练过程生成的备选神经网络；所述辅助神经网络包括：用于对所述待训练神经网络进行游戏对抗能力训练的第一辅助神经网络、以及用于对所述待训练神经网络进行游戏对抗能力训练和/或游戏配合能力训练的第二辅助神经网络；利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程的备选神经网络；其中，不同的待训练神经网络对应的第一训练参数不同。

这样，在对待训练神经网络进行训练过程中，利用多种类型的辅助神经网络对待训练神经网络进行强化训练，使待训练神经网络构成第一智能体能够与基于各种类型的辅助神经网络构成的第二智能体，分别控制属于相同和/或不同游戏阵营的虚拟角色进行游戏对局，便于神经网络能够学习到更多的对局信息，不断提升其决策智能、以及泛化能力，因而能够进一步提升智能体的应用范围。

一种可选的实施方式中，所述任一次迭代训练过程的所述第二辅助神经网络，包括下述至少一种：至少一次历史迭代训练过程分别对应的备选神经网络；利用第二辅助神经网络、以及第二训练参数，对所述待训练神经网络进行第二强化训练后，得到的神经网络。

这样，能够为待训练神经网络的第一强化训练过程，提供更丰富的对手、和队友，以增强待训练神经网络的泛化能力，提升其决策智能。

一种可选的实施方式中，所述利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程的备选神经网络，包括：对所述待训练神经网络进行多轮强化训练，并在每轮强化训练中，按照预设的筛选规则，从所述辅助神经网络中，确定目标辅助神经网络；基于所述每轮强化训练对应的第一待训练神经网络构成第一智能体、以及基于所述目标辅助神经网络构成第二智能体，利用所述每轮强化训练对应的第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到每轮强化训练对应的样本游戏数据；其中，每轮强化训练对应的第一待训练神经网络包括所述任一次迭代过程确定的待训练神经网络，或对所述任一次迭代过程确定的待训练神经网络经过至少一轮强化训练后得到的第二待训练神经网络；利用所述每轮强化训练对应的样本游戏数据、以及所述待训练神经网络对应的第一训练参数，对所述每轮强化训练对应的第一待训练神经网络进行第一强化训练，得到每轮强化训练后的第二待训练神经网络；将最后一轮得到的第二待训练神经网络，确定为所述任一次迭代训练过程对应的备选神经网络。

这样，在对待训练神经网络进行每轮强化训练过程中，利用待训练神经网络构成的第一智能体、与基于辅助神经网络构成的第二智能体分别控制不同的虚拟角色进行游戏对局，并利用游戏对局的游戏数据对待训练神经网络进行强化训练，以得到备选神经网络，通过上述方式生成的备选神经网络随着利用第一智能体控制虚拟角色进行游戏对局数量的增加，能够学习到对局过程中更多的对局信息，其决策智能较高，进一步能够提升后续基于目标神经网络构成的智能体的应用范围。

一种可选的实施方式中，所述确定至少一个待训练神经网络，包括：响应于所述任一次迭代训练过程为首次迭代训练过程，将所述初始化神经网络确定为所述任一次迭代训练过程的待训练神经网络；响应于所述任一次迭代训练过程为非首次迭代训练过程，基于所述任一次迭代训练过程的前一次迭代训练过程确定的至少一个备选神经网络分别对应的性能信息，确定所述任一次迭代训练过程对应的待训练神经网络，以及将所述初始化神经网络确定为所述任一次迭代训练过程对应的待训练神经网络。

这样，基于任一次迭代训练过程的前一次迭代训练过程确定的多个备选神经网络分别对应的性能信息，选取决策能力较好的备选神经网络，作为该次迭代训练过程对应的待训练神经网络，为后续训练生成目标神经网络提供了决策能力较强的数据基础，进一步能够提升后续基于目标神经网络构成的智能体的应用范围。

一种可选的实施方式中，所述辅助神经网络包括：第一辅助神经网络；样本游戏数据包括：第一样本游戏数据；所述基于所述待训练神经网络构成第一智能体、以及基于所述辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到样本游戏数据包括：基于所述待训练神经网络构成第一智能体、以及基于所述第一辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制属于不同游戏阵营的虚拟角色进行游戏对局，得到所述第一样本游戏数据。

这样，利用待训练神经网络构成的第一智能体、与基于第一辅助神经网络构成的第二智能体分别控制不同游戏阵营的虚拟角色进行游戏对局，即利用第一辅助神经网络，对待训练神经网络进行强化训练，使得待训练神经网络与不同类型的对手进行对局，提升了最终生成的目标神经网络的泛化能力，且随着对局数量的增多，第一智能体能够学习到更多的对局信息，从而能够提升其决策能力以及应用范围。

一种可选的实施方式中，所述方法还包括：利用所述第一样本游戏数据、以及第三训练参数，对所述第一辅助神经网络进行第三强化训练，得到新的第一辅助神经网络；所述新的第一辅助神经网络，用于在所述任一次迭代训练过程对所述待训练神经网络进行游戏对抗能力训练，或者在所述任一次迭代训练过程的下一次迭代训练过程中，对所述下一次迭代训练过程对应的待训练神经网络进行游戏对抗能力训练。

这样，通过对第一辅助神经网络进行强化训练，以丰富用于对待训练神经网络进行训练的对手类型，进一步提升了后续生成的目标神经网络的泛化能力、以及决策能力。

一种可选的实施方式中，所述方法还包括：利用至少一次历史迭代训练过程对应的历史待训练神经网络构成第一智能体、以及基于所述任一次迭代训练过程对应的第一辅助神经网络构成第二智能体，利用第一智能体和第二智能体分别控制属于不同游戏阵营的虚拟角色进行游戏对局，得到第三样本游戏数据；利用所述第三样本游戏数据训练所述任一次迭代训练过程的第一辅助神经网络。

一种可选的实施方式中，所述辅助神经网络包括：第二辅助神经网络；样本游戏数据包括：第二样本游戏数据；所述基于所述待训练神经网络构成第一智能体、以及基于所述辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到样本游戏数据，包括：基于所述待训练神经网络构成第一智能体、以及基于所述第二辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制属于不同游戏阵营和/或相同游戏阵营的虚拟角色进行游戏对局，得到所述第二样本游戏数据。

这样，利用待训练神经网络构成的第一智能体、与基于第二辅助神经网络构成的第二智能体分别控制不同游戏阵营和/或相同游戏阵营的虚拟角色进行游戏对局，即利用第二辅助神经网络，对待训练神经网络进行强化训练，使得待训练神经网络与不同类型的对手进行对局和/或组队，提升了最终生成的目标神经网络的泛化能力，且随着对局数量的增多，第一智能体能够学习到更多的对局信息，从而能够提升其决策能力以及应用范围。

一种可选的实施方式中，所述利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程对应的备选神经网络，包括：针对每个待训练神经网络，利用其他待训练神经网络、以及所述每个待训练神经网络对应的第一训练参数，对所述每个待训练神经网络进行第四强化训练，以及利用所述辅助神经网络、以及所述每个待训练神经网络对应的第一训练参数，对所述待训练神经网络进行第一强化训练；基于对多个所述待训练神经网络进行第一强化训练以及第四强化训练的结果，得到所述任一次迭代训练过程对应的备选神经网络。

这样，分别利用其他待训练神经网络、以及辅助神经网络，对待训练神经网络进行强化训练，使得待训练神经网络与不同类型的对手进行对局和/或组队，以提升了最终生成的目标神经网络的泛化能力。

第二方面，本公开实施例还提供一种游戏中虚拟角色的控制装置，应用于目标智能体；所述游戏包括多个虚拟角色；多个所述虚拟角色中包括受控于所述目标智能体的第一虚拟角色、以及未受控于所述目标智能体的第二虚拟角色；所述装置包括：获取模块，用于获取游戏过程中的当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述第一虚拟角色的当前状态信息、所述第二虚拟角色的当前状态信息、所述游戏的游戏场景的当前状态信息；处理模块，用于利用预先训练的目标神经网络，基于所述当前游戏状态信息进行动作预测处理，得到所述第一虚拟角色执行动作的动作信息；控制模块，用于基于所述动作信息，控制所述第一虚拟角色执行所述动作。

一种可选的实施方式中，所述处理模块采用下述方式训练所述目标神经网络：获取多个玩家分别对应的游戏对局的游戏数据；基于所述游戏对局对应的游戏数据，生成样本数据；所述样本数据包括：多个动作时刻分别对应的样本动作信息、以及样本游戏状态信息；利用所述样本数据对原始神经网络进行监督训练，得到初始化神经网络；对所述初始化神经网络进行第一强化训练，得到至少一个目标神经网络。

一种可选的实施方式中，所述处理模块在所述利用所述样本数据对原始神经网络进行监督训练，得到初始化神经网络时，具体用于：将多个所述动作时刻分别对应的所述样本游戏状态信息作为输入数据，将所述多个动作时刻分别对应的样本动作信息作为监督数据，对所述原始神经网络进行监督训练，得到所述初始化神经网络。

一种可选的实施方式中，所述处理模块在所述对所述初始化神经网络进行第一强化训练，得到至少一个目标神经网络时，具体用于：对所述初始化神经网络进行至少两次迭代训练，并基于最后一次迭代得到的备选神经网络，得到所述目标神经网络；其中，对于任一次迭代训练过程，包括：确定至少一个待训练神经网络，以及确定辅助神经网络；其中，所述待训练神经网络包括所述初始化神经网络和/或所述任一次迭代训练过程的前一次迭代训练过程生成的备选神经网络；所述辅助神经网络包括：用于对所述待训练神经网络进行游戏对抗能力训练的第一辅助神经网络、以及用于对所述待训练神经网络进行游戏对抗能力训练和/或游戏配合能力训练的第二辅助神经网络；利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程的备选神经网络；其中，不同的待训练神经网络对应的第一训练参数不同。

一种可选的实施方式中，所述处理模块在所述利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程的备选神经网络时，具体用于：对所述待训练神经网络进行多轮强化训练，并在每轮强化训练中，按照预设的筛选规则，从所述辅助神经网络中，确定目标辅助神经网络；基于所述每轮强化训练对应的第一待训练神经网络构成第一智能体、以及基于所述目标辅助神经网络构成第二智能体，利用所述每轮强化训练对应的第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到每轮强化训练对应的样本游戏数据；其中，每轮强化训练对应的第一待训练神经网络包括所述任一次迭代过程确定的待训练神经网络，或对所述任一次迭代过程确定的待训练神经网络经过至少一轮强化训练后得到的第二待训练神经网络；利用所述每轮强化训练对应的样本游戏数据、以及所述待训练神经网络对应的第一训练参数，对所述每轮强化训练对应的第一待训练神经网络进行第一强化训练，得到每轮强化训练后的第二待训练神经网络；将最后一轮得到的第二待训练神经网络，确定为所述任一次迭代训练过程对应的备选神经网络。

一种可选的实施方式中，所述处理模块在所述确定至少一个待训练神经网络时，具体用于：响应于所述任一次迭代训练过程为首次迭代训练过程，将所述初始化神经网络确定为所述任一次迭代训练过程的待训练神经网络；响应于所述任一次迭代训练过程为非首次迭代训练过程，基于所述任一次迭代训练过程的前一次迭代训练过程确定的至少一个备选神经网络分别对应的性能信息，确定所述任一次迭代训练过程对应的待训练神经网络，以及将所述初始化神经网络确定为所述任一次迭代训练过程对应的待训练神经网络。

一种可选的实施方式中，所述辅助神经网络包括：第一辅助神经网络；样本游戏数据包括：第一样本游戏数据；所述处理模块在所述基于所述待训练神经网络构成第一智能体、以及基于所述辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到样本游戏数据时，具体用于：基于所述待训练神经网络构成第一智能体、以及基于所述第一辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制属于不同游戏阵营的虚拟角色进行游戏对局，得到所述第一样本游戏数据。

一种可选的实施方式中，所述处理模块，还用于利用所述第一样本游戏数据、以及第三训练参数，对所述第一辅助神经网络进行第三强化训练，得到新的第一辅助神经网络；所述新的第一辅助神经网络，用于在所述任一次迭代训练过程对所述待训练神经网络进行游戏对抗能力训练，或者在所述任一次迭代训练过程的下一次迭代训练过程中，对所述下一次迭代训练过程对应的待训练神经网络进行游戏对抗能力训练。

一种可选的实施方式中，所述处理模块，还用于利用至少一次历史迭代训练过程对应的历史待训练神经网络构成第一智能体、以及基于所述任一次迭代训练过程对应的第一辅助神经网络构成第二智能体，利用第一智能体和第二智能体分别控制属于不同游戏阵营的虚拟角色进行游戏对局，得到第三样本游戏数据；利用所述第三样本游戏数据训练所述任一次迭代训练过程的第一辅助神经网络。

一种可选的实施方式中，所述辅助神经网络包括：第二辅助神经网络；样本游戏数据包括：第二样本游戏数据；所述处理模块在所述基于所述待训练神经网络构成第一智能体、以及基于所述辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到样本游戏数据时，具体用于：基于所述待训练神经网络构成第一智能体、以及基于所述第二辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制属于不同游戏阵营和/或相同游戏阵营的虚拟角色进行游戏对局，得到所述第二样本游戏数据。

一种可选的实施方式中，所述处理模块在所述利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程对应的备选神经网络时，具体用于：针对每个待训练神经网络，利用其他待训练神经网络、以及所述每个待训练神经网络对应的第一训练参数，对所述每个待训练神经网络进行第四强化训练，以及利用所述辅助神经网络、以及所述每个待训练神经网络对应的第一训练参数，对所述待训练神经网络进行第一强化训练；基于对多个所述待训练神经网络进行第一强化训练以及第四强化训练的结果，得到所述任一次迭代训练过程对应的备选神经网络。

第三方面，本公开可选实现方式还提供一种计算机设备，处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述游戏中虚拟角色的控制装置、计算机设备、及计算机可读存储介质的效果描述参见上述游戏中虚拟角色的控制方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种游戏中虚拟角色的控制方法的流程图；

图2示出了本公开实施例所提供的游戏中虚拟角色的控制方法中，一种目标神经网络的生成方法的流程图；

图3示出了本公开实施例所提供的游戏中虚拟角色的控制方法中，一种备选神经网络生成方法的流程图；

图4示出了本公开实施例所提供的一种游戏中虚拟角色的控制装置的示意图；

图5示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，智能体设计是多人合作类游戏设计中一项重要组成部分，智能体具有一定的决策智能，利用所具有的决策智能，能够在游戏中控制虚拟角色和玩家进行游戏。在多人合作类游戏中，除真实玩家互相组队、或者对抗外，现有的虚拟角色还可以通过智能体的控制与玩家组队、或者对抗。但当前用于控制虚拟角色的智能体，通常是基于预设规则设定的游戏内置bot充当；在游戏过程中，游戏内置bot仅能根据预设规则执行规定的动作，灵活性较差，这导致智能体的决策能力差，仅能够用于低端、或者新手对局；而对于高端对局，智能体的决策能力往往无法和玩家的游戏能力相匹配，导致当前的智能体的应用范围受到限制。

此外，当前也有一些基于简单训练的神经网络构成的智能体；但当前的神经网络训练方式，仅仅是利用玩家在游戏过程中的操作数据构成样本数据，然后利用数量足够的样本数据对神经网络进行训练，这种训练过程缺失了和其他玩家或者智能体之间的配合信息，造成了智能体和玩家之间、智能体和智能体之间的配合能力较差，进而也会导致智能体的决策能力受到限制。

基于上述研究，本公开提供了一种游戏中虚拟角色的控制方法，控制第一虚拟角色的目标智能体获取游戏过程中的当前游戏状态信息，当前游戏状态信息包括了第一虚拟角色的当前状态信息、第二虚拟角色的当前状态信息以及游戏场景的当前状态信息中的至少一种，然后利用预先训练的目标神经网络，基于当前游戏状态信息、对第一虚拟角色执行的动作进行预测处理，得到第一虚拟角色执行动作的动作信息，并利用预测得到的动作信息，控制第一虚拟角色执行动作，该目标神经网络较之游戏内置bot，具有更高的决策智能，因而也具有更强的决策能力，不止能够用于低端局或者新手局，随着目标神经网络的能力不断增强，还可以用于更多的高端游戏对局中，具有更广的应用范围。

此外，由于目标智能体可以相对灵活地根据队友(玩家或智能体)或对手(玩家或智能体)的当前状态信息、以及游戏场景的当前状态信息，进行下一步动作的预测，从而提高了目标智能体与玩家、以及目标智能体与其他智能体之间的配合度，进一步提升目标智能体的决策能力。

此外，本公开实施例还提供了目标神经网络的具体训练方式，先利用监督学习的方式，得到初始化神经网络，再利用初始化神经网络构成智能体，并利用智能体控制虚拟角色进行游戏对局，并利用游戏对局的游戏数据对智能体进行强化训练，随着利用智能体控制虚拟角色进行游戏对局数量的增加，使得神经网络能够学习到对局过程中更多的对局信息，不断提升其决策智能，因而能够进一步提升智能体的应用范围。

针对现有方案所存在的缺陷以及所提出的解决方案，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种游戏中虚拟角色的控制方法进行详细介绍，本公开实施例所提供的游戏中虚拟角色的控制方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备。在一些可能的实现方式中，该游戏中虚拟角色的控制方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面对本公开实施例提供的游戏中虚拟角色的控制方法加以说明。

参见图1所示，为本公开实施例提供的游戏中虚拟角色的控制方法的流程图，应用于目标智能体；所述游戏包括多个虚拟角色；多个所述虚拟角色中包括受控于所述目标智能体的第一虚拟角色、以及未受控于所述目标智能体的第二虚拟角色，所述方法包括步骤S101～S103，其中：

S101、获取游戏过程中的当前游戏状态信息。

其中，智能体包括利用深度学习技术、以及强化学习等技术训练生成的，能够操控游戏中的虚拟角色进行游戏的人工智能(Artificial Intelligence，AI)；游戏中包含多个虚拟角色，其中，多个虚拟角色包括：目标智能体控制的第一虚拟角色、以及未受控于目标智能体的第二虚拟角色；这里，受控于目标智能体的第一虚拟角色至少有一个；未受控于目标智能体的第二虚拟角色可以包括：人类玩家控制的第二虚拟角色、以及其他的智能体控制的第二虚拟角色、以及游戏中的非玩家虚拟角色，这里游戏中的非玩家虚拟角色例如可以包括但不限于游戏场景中的非玩家角色(Non-player Character，NPC)等，比如游戏场景中的小兵、野怪等。

在实施中，当前游戏状态信息包括但不限于下述至少一种：第一虚拟角色的当前状态信息、第二虚拟角色的当前状态信息、游戏的游戏场景的当前状态信息；其中，第一虚拟角色的当前状态信息包括但不限于下述至少一种：第一虚拟角色具有的第一虚拟资类型、第一虚拟资源量、第一建筑状态、第一技能状态、在所述游戏场景中的第一位置、第一生命值、第一魔法值、第一阵营信息、第一增益数据、第一减益数据。

这里，第一虚拟资源类型例如可以包括但不限于第一虚拟角色拥有的用于购买道具等物品的金币、第一虚拟角色拥有的建筑材料、第一虚拟角色拥有的建筑、以及第一虚拟角色拥有的战斗单位的种类等中的至少一种；第一虚拟资源量例如可以包括对应虚拟资源的数量，如第一虚拟角色拥有的金币数量、第一虚拟角色拥有的建筑材料数量、第一虚拟角色拥有的建筑数量、以及第一虚拟角色拥有的战斗单位的数量等中的至少一种；第一建筑状态包括第一虚拟角色拥有的建筑所处的状态，例如可以包括但不限于：已完成建设状态、未建设状态、正在建设状态、损坏状态、剩余血量等中的至少一种；第一技能状态例如可以包括但不限于：第一虚拟角色具有的技能数量、技能等级、技能是否在冷却状态、技能类型等中的至少一种，其中，若技能处于冷却状态中时，第一技能状态还包括该技能需要冷却的时间；技能类型例如可以包括攻击技能、防守技能等中的至少一种；在游戏场景中的第一位置包括目标虚拟角色在游戏场景中的位置信息；第一阵营信息例如可以包括但不限于：第一虚拟角色所归属的阵营，例如包括：友方阵营、敌方阵营、中立阵营等；第一增益数据(buff)例如可以包括但不限于：第一虚拟角色的生命值增益数据、魔法值增益数据、状态增益等中的至少一种；第一减益数据(debuff)例如可以包括但不限于：第一虚拟角色的生命值减益数据、魔法值减益数据、状态减益等中的至少一种。

另外，第二虚拟角色的当前状态信息可以包括但不限于下述至少一种：第二虚拟角色具有的第二虚拟资源类型、第二虚拟资源量、第二建筑状态、第二技能状态、在游戏场景中的第二位置、第二生命值、第二魔法值、第二阵营信息、第二增益数据、第二减益数据、类型信息；这里，第二虚拟资源类型例如可以包括但不限于游戏中第二虚拟角色拥有的用于购买道具等物品的金币、第二虚拟角色拥有的建筑材料、第二虚拟角色拥有的建筑、以及第二虚拟角色拥有的战斗单位的种类等中的至少一种；第二虚拟资源量可以包括对应的虚拟资源的数量，如第二虚拟角色拥有的金币数量、第二虚拟角色拥有的建筑材料数量、第二虚拟角色的建筑数量、以及第二虚拟角色的战斗单位的数量等中的至少一种；第二建筑状态包括第二虚拟角色拥有的建筑所处的状态，例如可以包括但不限于：已完成建设状态、未建设状态、正在建设状态、损坏状态、剩余血量等中的至少一种；第二技能状态例如可以包括但不限于：第二虚拟角色具有的技能数量、技能等级、技能是否在冷却状态、技能类型等中的至少一种，其中，若技能处于冷却状态中时，第二技能状态还包括该技能需要冷却的时间；技能类型例如可以包括攻击技能、防守技能等中的至少一种；在游戏场景中的第二位置包括第二虚拟角色在游戏场景中的位置信息；第二阵营信息例如可以包括但不限于：第二虚拟角色所归属的阵营，例如可以包括但不限于友方阵营、敌方阵营、中立阵营等；第二增益数据(buff)例如可以包括但不限于：第二虚拟角色的生命值增益数据、魔法值增益数据、状态增益等中的至少一种；第二减益数据(debuff)例如可以包括但不限于：第二虚拟角色的生命值减益数据、魔法值减益数据、状态减益等中的至少一种；类型信息包括玩家控制的第二虚拟角色、以及其他智能体控制的第二虚拟角色、以及游戏场景中的小兵、游戏场景中的野怪等中的至少一种；这里，玩家控制的第二虚拟角色、以及其他智能体控制的第二虚拟角色、以及游戏场景中的小兵可以属于相同阵营，也可以属于不同阵营，但游戏场景中的野怪与玩家控制的第二虚拟角色、以及其他智能体控制的第二虚拟角色、以及游戏场景中的小兵属于不同阵营，即敌对阵营。

另外，游戏场景的当前状态信息可以包括但不限于下述至少一种：第一虚拟角色的可视区域信息、第三虚拟资源类型、虚拟资源位置、以及虚拟资源刷新的剩余时间等；其中，第一虚拟角色的可视区域信息可以包括但不限于：位于第一虚拟角色当前可视范围内的游戏地图区域；第三虚拟资源类型例如可以包括但不限于：游戏场景中未占据的建筑、以及未被招纳的战斗单位、未采集的资源等中的至少一种；虚拟资源位置例如可以包括但不限于上述资源在游戏场景中的所处位置，例如游戏场未占据的建筑的位置、以及未被招纳的战斗单位的位置、未采集的资源的位置等中的至少一种；虚拟资源刷新的剩余时间例如可以包括但不限于：游戏场景中可供采集的资源的可供采集时间、游戏场景中野怪、小怪等的刷新时间等中的至少一种。

在具体实施中，在游戏过程中，基于S101获取到的当前时刻的游戏过程中，目标智能体控制第一虚拟角色的当前游戏状态信息、以及未受控于目标智能体的第二虚拟角色的当前状态信息、以及游戏的游戏场景的当前状态信息后，本公开实施例可以通过S102进行下一步处理，具体描述如下：

S102、利用预先训练的目标神经网络，基于所述当前游戏状态信息进行动作预测处理，得到所述第一虚拟角色执行动作的动作信息。

其中，动作信息可以包括但不限于下述至少一种：动作时刻、以及动作类型；这里，动作时刻包括执行该动作的时间点；动作类型可以包括但不限于：攻击、资源采集、建造、生产、侦查、撤退等中的至少一种；其中，攻击又可包括：多种不同的攻击类型，例如发射普通攻击技能攻击、发生大招攻击技能攻击、利用虚拟武器攻击等；其中，利用虚拟武器攻击例如可以包括但不限于利用炮弹攻击、利用子弹攻击等中的至少一种；此处的普通攻击技能、大招攻击技能、以及虚拟武器可以根据实际游戏设定，此处不做具体限制；此外，由于目标智能体控制的第一虚拟角色可以有多个，因此动作信息还可以包括但不限于下述至少一种：第一虚拟角色执行动作的目标第一虚拟角色、以及第二虚拟角色中属于动作对象的目标第二虚拟角色、第一虚拟角色执行动作时在游戏场景中的动作位置；这里，目标第一虚拟角色包括第一虚拟角色中执行动作的虚拟角色，目标第二虚拟角色包括第二虚拟角色中承受动作的虚拟角色，如被攻击的第二虚拟角色；第一虚拟角色执行动作时在游戏场景中的动作位置例如可以包括但不限于：第一虚拟角色执行动作时在游戏地图中的移动位置、以及第一虚拟角色执行动作时在游戏地图中的攻击位置等中的至少一种。示例性的，游戏场景中包括目标智能体控制的虚拟角色a1、以及承受动作的虚拟角色b1、若目标智能体预测到虚拟角色a1在执行攻击动作时，虚拟角色b1运动到游戏场景的位置1处，则虚拟角色a1执行攻击动作时在游戏地图中的攻击位置可以包括位置1所在的游戏地图区域；在一种可能的实施方式中，还可以控制虚拟角色a1移动到位置1处，再对虚拟角色b1进行攻击。

在本公开实施例中，还提供了一种目标神经网络的生成方法的流程图，包括步骤S201～S204，其中：

S201、获取多个玩家分别对应的游戏对局的游戏数据。

其中，获取到的游戏对局包括即时战略游戏的历史游戏对局的战斗回放文件，该战斗回放文件例如包括游戏内置的类型文件，用于记录玩家在游戏过程中的操作；其可以通过游戏内置引擎辅助，利用相应的解压缩功能将战斗回放文件进行转换，得到游戏数据。该游戏数据包括玩家的多个操作分别对应的游戏状态信息。另外，游戏数据还可以包括游戏过程中的视频数据，可以对该视频数据进行处理，从中获取所需要的信息，信息的具体类型与模型所需要的输入信息相关，可以根据不同游戏智能体所需要的输入数据确定。

S202、基于所述游戏对局对应的游戏数据，生成样本数据。

其中，样本数据包括：多个动作时刻分别对应的样本动作信息、以及样本游戏状态信息；样本动作信息可以包括但不限于样本动作时刻、以及样本动作类型、以及执行样本动作的虚拟角色、以及用于承受样本动作的虚拟角色、以及虚拟角色在执行样本动作时在游戏场景中的动作位置；其中样本动作类型例如可以包括但不限于攻击、资源采集、建造、生产、侦查、撤退等中的至少一种；此外，样本游戏状态信息包括样本动作发生时，游戏场景中各虚拟角色的状态信息、以及游戏场景的状态信息；这里，针对各虚拟角色的状态信息、以及游戏场景的状态信息的描述可以参见S101所示的具体实施方式中的相关描述，重复之处不再赘述。

在实施中，由于在一个游戏对局中，玩家的操作数量较多，例如可以达到几百次；与动作对应的游戏状态数据也达到几百帧；一组输入数据过长，不利于模型的训练，因此本公开实施例中，可以设置一最大帧数，例如为64帧，基于该最大帧数，将游戏对局的游戏数据，划分为多组输入数据，每组输入数据包括64帧游戏状态信息、以及与64帧游戏状态信息分别对应的动作信息。其中，可以将每一组64帧游戏状态信息作为一个样本，并将该组64帧游戏状态信息对应的动作信息作为监督数据。

承接上述S202，基于游戏对局对应的游戏数据，生成样本数据之后，本公开实施例提供的目标神经网络生成方法还包括：

S203、利用所述样本数据对原始神经网络进行监督训练，得到初始化神经网络。

其中，原始神经网络例如可以包括由循环神经网络、卷积神经网络等多种结构共同构建的复杂网络。

在基于上述S202生成样本数据后，可以将样本数据中的多个动作时刻分别对应的样本状态信息作为输入数据，将多个动作时刻对应的样本动作信息作为监督数据，对原始神经网络进行监督训练，得到初始化神经网络。

在具体实施中，在得到初始化神经网络后，可以利用初始化神经网络、与预设的基于规则生成的游戏内置bot进行对战，根据游戏结果、以及游戏内置bot的水平，确定该初始化神经网络的水平。

S204、对所述初始化神经网络进行第一强化训练，得到至少一个目标神经网络。

在具体实施中，对初始化神经网络进行至少两次迭代训练，并基于最后一次迭代得到的备选神经网络，得到目标神经网络；其中，对于任一次迭代训练过程，包括：确定至少一个待训练神经网络，以及确定辅助神经网络；利用辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对待训练神经网络进行第一强化训练，得到任一次迭代训练过程的备选神经网络。

其中，待训练神经网络Main player：包括初始化神经网络和/或任一次迭代训练过程的前一次迭代训练过程生成的备选神经网络。

例如，假如迭代训练过程包括N个，其中的第i个迭代训练过程中，对应的待训练神经网络例如包括：初始化神经网络和/或第(i-1)个迭代训练过程得到的备选神经网络。其中，第(i-1)个迭代训练过程得到备选神经网络的过程，与第i个迭代训练过程得到备选神经网络的过程类似，具体可参见下述描述，在此不再赘述。

辅助神经网络包括：用于对待训练神经网络进行游戏对抗能力训练的第一辅助神经网络、以及用于对待训练神经网络进行游戏对抗能力训练和/或游戏配合能力训练的第二辅助神经网络。

此处，游戏对抗能力训练，是指用基于辅助神经网络构成的第二智能体，与待训练神经网络的第一智能体，分别控制属于不同阵营的虚拟角色进行游戏对局。这样，能够使得待训练神经网络学习怎样做出攻击性的动作决策。

游戏配合能力训练，是指用基于辅助神经网络构成的第二智能体，与待训练神经网络构成的第一智能体，分别控制属于相同阵营的虚拟角色进行游戏对局。这样，能够使得待训练神经网络学习怎样做出和队友进行配合的动作决策。

在具体实施中，第一辅助神经网络Main Exploiter player：由于用于对待训练神经网络进行游戏对抗能力训练，因此针对待训练神经网络有多个的情况下，每个待训练神经网络均设置一个对应的第一辅助神经网络。与每个待训练神经网络对应的第一辅助神经网络构成的第二智能体，仅用于作为对应待训练神经网络构成的第一智能体的对手。

第二辅助神经网络History player：

由于既可以用于对待训练神经网络进行游戏对抗能力训练，又能够进行游戏配合能力训练，因此，与每个待训练神经网络对应的第二辅助神经网络构成的第二智能体，即可以用于作为对应待训练神经网络构成的第一智能体的对手，又可以作为队友。

第二辅助神经网络例如可以包括下述几种：

(1)：至少一次历史迭代训练过程分别对应的备选神经网络。

假设当前的迭代训练过程，为N个迭代训练过程中的第i个迭代训练过程，则对应的历史迭代训练过程，包括第1～第(i-1)个迭代训练过程中的任一个。

在具体实施中，可以将任一个历史迭代训练过程中确定的备选神经网络，作为第二辅助神经网络。

(2)：利用第二辅助神经网络、以及第二训练参数，对所述待训练神经网络进行第二强化训练后，得到的神经网络。

此处，可以为待训练神经网络设置区别于第一训练参数的第二训练参数，然后利用第二辅助神经网络对待训练神经网络进行第二强化训练，当第二强化训练到一定阶段后，将得到的神经网络作为第二辅助神经网络。

另外，针对第二辅助神经网络，还可以直接利用第二辅助神经网络构成网络组History Team player；该网络组中包括多个第二辅助神经网络，通过多个第二辅助神经网络能够分别构成不同的第二智能体，利用第二智能体控制多个第二虚拟角色，与由待训练神经网络构成的第一智能体控制的第一虚拟角色进行游戏对局，其中，多个第二虚拟角色和第一虚拟角色属于不同游戏阵营。

此外，第二辅助神经网络还包括League Exploiter player：用于丰富待训练神经网络构成的第一智能体遇见的对手类型；League Exploiter player通过由Historyplayer构成的第二智能体分别控制属于不同阵营的虚拟角色进行游戏对局，训练生成；在对待训练神经网络的第一强化训练过程中，可以基于League Exploiter player构成的第二智能体、与待训练神经网络构成的第一智能体分别控制属于相同游戏阵营和/或不同游戏阵营的虚拟角色进行游戏对局，以对待训练神经网络的第一强化训练，从而增强待训练神经网络的泛化能力，提升其决策智能。

在实施时，不同的待训练神经网络对应的第一训练参数不同；不同的待训练神经网络对应的第一训练参数、以及用于对待训练神经网络进行第二强化训练的第二训练参数可以根据实际训练需求设定，在此不做具体限制。

在具体实施中，可以根据但不限于下述A1～A2中的至少一种方式，确定至少一个待训练神经网络：

A1、响应于第i个迭代训练过程为首次迭代训练过程，将初始化神经网络确定为第i个迭代训练过程的待训练神经网络。

A2、响应于第i个迭代训练过程为非首次迭代训练过程，基于第i个迭代训练过程的前一次迭代训练过程，也即第(i-1)个迭代训练过程确定的多个备选神经网络分别对应的性能信息，确定第i个迭代训练过程对应的待训练神经网络，和/或，将初始化神经网络确定为第i个迭代训练过程对应的待训练神经网络。

这里，可以根据但不限于下述B1～B3中的至少一种方式，确定第(i-1)个迭代训练过程确定的多个备选神经网络分别对应的性能信息：

B1、利用第(i-1)个迭代训练过程确定的各备选神经网络构成的智能体、与基于预设规则生成的游戏内置bot分别控制属于不同游戏阵营的虚拟角色进行游戏对局，根据游戏对局结果，确定各备选神经网络的性能信息。

B2、将第(i-1)个迭代训练过程确定的各备选神经网络构成的智能体分别控制属于不同游戏阵营的虚拟角色进行两两对局，根据游戏对局结果，确定各备选神经网络的性能信息。

B3、利用第(i-1)个迭代训练过程确定的各备选神经网络构成的智能体、与人类玩家分别控制属于不同游戏阵营的虚拟角色进行游戏对局，根据游戏对局结果、以及人类玩家的游戏等级、以及人类玩家的游戏评分等信息，确定各备选神经网络的性能信息。

在具体实施中，在基于上述B1～B3确定多个备选神经网络分别对应的性能信息后，可以根据但不限于下述C1～C2中的至少一种，基于第(i-1)个迭代训练过程确定的多个备选神经网络分别对应的性能信息，确定第i个迭代训练过程对应的待训练神经网络：

C1、基于第(i-1)个迭代训练过程确定的多个备选神经网络分别对应的性能信息，将性能信息大于预设性能信息阈值的备选神经网络，确定为第i个迭代训练过程对应的待训练神经网络。

其中，预设性能信息阈值可以根据实际需求设定，此处不做具体限制。

C2、根据第(i-1)个迭代训练过程确定的多个备选神经网络分别对应的性能信息，将多个备选神经网络按照性能信息由大到小的顺序进行排列，基于排列结果，将排列顺序位于预设排列顺序位之前的备选神经网络，确定为第i个迭代训练过程对应的待训练神经网络。

其中，预设排列顺序位可以根据实际需求设定，此处不做具体限制。

在具体实施中，除了可以在第(i-1)个迭代训练过程确定的多个备选神经网络中，选取性能信息相对较好的备选神经网络，作为第i个迭代训练过程对应的待训练神经网络外，还可以将初始化神经网络确定为第i个迭代训练过程对应的待训练神经网络。

在具体实施中，在利用辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对待训练神经网络进行第一强化训练，得到第i个迭代训练过程的备选神经网络时，还可以参见图3所示的本公开实施例提供的一种备选神经网络生成方法，生成备选神经网络，该方法包括步骤S301～S304，其中：

S301、对待训练神经网络进行多轮强化训练，并在每轮强化训练中，按照预设筛选规则，从辅助神经网络中，确定目标辅助神经网络。

其中，预设筛选规则可以根据实际需求设定，示例性的，可以包括但不限于下述D1～D4中的至少一种：

D1、当辅助神经网络包括多至少一次历史迭代训练过程分别对应的备选神经网络、以及利用第二辅助神经网络和第二训练参数，对待训练神经网络进行第二强化训练后得到的神经网络的情况下，在对待训练神经网络进行训练时，可以在至少一次历史迭代训练过程分别对应的备选神经网络、以及利用第二辅助神经网络和第二训练参数，对待训练神经网络进行第二强化训练后得到的神经网络中，选取任一备选神经网络或神经网络，作为目标辅助神经网络。

示例性的，若待训练神经网络包括M1、至少一次历史迭代训练过程分别对应的备选神经网络、以及利用第二辅助神经网络和第二训练参数，对待训练神经网络进行第二强化训练后得到的神经网络包括M2、M3、M4、M5；则可以选取M2、M3、M4、M5中的任一个，作为对M1进行训练时所用的目标辅助神经网络。

D2、当辅助神经网络包括至少一次历史迭代训练过程分别对应的备选神经网络、以及利用第二辅助神经网络和第二训练参数，对待训练神经网络进行第二强化训练后得到的神经网络的情况下，在对待训练神经网络进行训练时，可以在至少一次历史迭代训练过程分别对应的备选神经网络、以及利用第二辅助神经网络和第二训练参数，对待训练神经网络进行第二强化训练后得到的神经网络中，选取多个备选神经网络或多个神经网络，作为目标辅助神经网络。

示例性的，以游戏对局为3v3为例，若待训练神经网络包括M1、至少一次历史迭代训练过程分别对应的备选神经网络、以及利用第二辅助神经网络和第二训练参数，对待训练神经网络进行第二强化训练后得到的神经网络包括M2、M3、M4、M5；则可以选取M2、M3、M4、M5中任意三个，作为对M1进行训练时所用的目标辅助神经网络。

D3、当辅助神经网络包括：用于对待训练神经网络进行游戏对抗能力训练的第一辅助神经网络的情况下，在对待训练神经网络进行训练时，可以在第一辅助神经网络中，选取与待训练神经网络对应的第一辅助神经网络，作为目标辅助神经网络，以实现对待训练神经网络的针对性训练。

示例性的，若待训练神经网络包括M1、用于对待训练神经网络进行游戏对抗能力训练的第一辅助神经网络包括ME1、ME2、ME3、ME4、ME5，此时由于用于对M1进行弱点训练的第一辅助神经网络为ME1，则可以选取与M1对应的ME1，作为对M1进行训练时所用的目标辅助神经网络。

D4、当辅助神经网络包括：History player、History Team player时，可以按照埃洛等级分系统(Elo rating systEm，ELO)，在第二辅助神经网络History player、HistoryTeam player中随机选取第二辅助神经网络，作为目标辅助神经网络。

承接上述S301，在确定目标辅助神经网络之后，本公开实施例提供的备选神经网络生成方法还包括：

S302、基于每轮强化训练对应的第一待训练神经网络构成第一智能体、以及基于目标辅助神经网络构成第二智能体，利用每轮强化训练对应的第一智能体和第二智能体分别控制不同的虚拟角色进行游戏对局，得到每轮强化训练对应的样本游戏数据。

其中，每轮强化训练对应的第一待训练神经网络包括任一次迭代过程确定的待训练神经网络，或对任一次迭代过程确定的待训练神经网络经过至少一轮强化训练后得到的第二待训练神经网络。

例如，假如迭代训练过程包括N个，其中的第i个迭代训练过程中，每轮强化训练对应的第一待训练神经网络例如包括：第i个迭代训练过程确定的待训练神经网络，或者对第i个迭代训练过程确定的待训练神经网络经过至少一轮强化训练后得到的第二待训练神经网络。

在具体实施中，可以采用但不限于下述E1～E2中的至少一种方式，利用每轮强化训练对应的第一待训练神经网络构成的第一智能体、与基于目标辅助神经网络构成的第二智能体分别控制不同的虚拟角色进行游戏对局，得到每轮强化训练对应的样本游戏数据：

E1、在辅助神经网络包括：第一辅助神经网络的情况下，样本游戏数据包括：第一样本游戏数据；可以基于待训练神经网络构成第一智能体、以及基于第一辅助神经网络构成第二智能体，利用第一智能体和第二智能体分别控制属于不同游戏阵营的虚拟角色进行游戏对局，得到第一样本游戏数据。

在辅助神经网络包括第一辅助神经网络的情况下，为了起到对待训练的神经网络进行针对性训练的效果，因此在游戏对局过程中，将待训练神经网络构成第一智能体、以及基于第一辅助神经网络构成第二智能体设置为敌对双方，以确定待训练的神经网络中的弱点，从而得到对待训练神经网络进行针对性训练后的第一样本游戏数据。

示例性的，以游戏对局为3v3为例，若待训练神经网络构成的第一智能体包括A1、基于第一辅助神经网络构成的第二智能体包括A2，则利用A1控制游戏中第一阵营的虚拟角色a1、a2、a3、利用A2控制游戏中第二阵营(即与第一阵营为敌对阵营的阵营)的虚拟角色b1、b2、b3进行游戏对局，以得到第一样本游戏数据。

示例性的，还可以利用第一辅助神经网络对利用不同的待训练神经网络构成的第一智能体之间的配合进行弱点训练，以游戏对局为3v3为例，基于待训练神经网络M1构成第一智能体A10、基于待训练神经网络M2构成第一智能体A11、基于待训练神经网络M2构成第一智能体A12、基于第一辅助神经网络ME1构成第二智能体A2；利用A10控制第一阵营的虚拟角色a1、利用A11控制第一阵营的虚拟角色a2、利用A12控制第一阵营的虚拟角色a3，并利用A2控制游戏中第二阵营(即与第一阵营为敌对阵营的阵营)的虚拟角色b1、b2、b3与虚拟角色a1、a2、a3进行游戏对局，以得到第一样本游戏数据。

在得到第一样本游戏数据后，还可以利用下述F1～F2中的至少一种方式，对第一辅助神经网络进行强化训练：

F1、利用第一样本游戏数据、以及第三训练参数，对第一辅助神经网络进行第三强化训练，得到新的第一辅助神经网络。

其中，新的第一辅助神经网络，用于在任一次迭代训练过程对待训练神经网络进行游戏对抗能力训练，或者在任一次迭代训练过程的下一次迭代训练过程中，对下一次迭代训练过程对应的待训练神经网络进行游戏对抗能力训练。这里，第三训练参数可以根据实际需求设定，此处不做具体限制。

例如，假如迭代训练过程包括N个，其中的第i个迭代训练过程中，新的第一辅助神经网络可以用于对第i个迭代训练过程对应的待训练神经网络进行游戏对抗能力训练，或者对第(i+1)个迭代训练过程对应的待训练神经网络进行游戏对抗能力训练。其中，第(i+1)个迭代训练过程得到备选神经网络的过程，与第i个迭代训练过程得到备选神经网络的过程类似，重复之处不再赘述。

F2、利用至少一次历史迭代训练过程对应的历史待训练神经网络构成第一智能体、以及基于任一次迭代训练过程对应的第一辅助神经网络构成第二智能体，利用第一智能体和第二智能体分别控制属于不同游戏阵营的虚拟角色进行游戏对局，得到第三样本游戏数据；利用第三样本游戏数据训练当前迭代周期的第一辅助神经网络。

示例性的，以游戏对局为3v3为例，若历史待训练神经网络构成的第一智能体包括A11、基于第i个迭代训练过程对应的第一辅助神经网络构成第二智能体包括A21，则利用A11控制游戏中第一阵营的虚拟角色a1、a2、a3、利用A21控制游戏中第二阵营(即与第一阵营为敌对阵营的阵营)的虚拟角色b1、b2、b3与虚拟角色a1、a2、a3进行游戏对局，以得到第三样本游戏数据；然后利用第三样本游戏数据训练第i个迭代训练过程的第一辅助神经网络。

此外，还可以利用History player、History Team player，对任一次迭代训练过程的第一辅助神经网络进行强化训练；示例性的，可以基于第i个迭代训练过程的第一辅助神经网络构成第二智能体；按照ELO规则在History player中随机选取第一神经网络，并基于选取的第一神经网络构成第三智能体；按照ELO规则在History player、History Teamplayer中随机选取第二神经网络，并基于选取的第二神经网络构成第四智能体；利用第二智能体、以及第三智能体分别控制游戏中同一阵营的虚拟角色，并利用第四智能体控制游戏中与第二智能体和第三智能体控制的虚拟角色处于不同阵营的虚拟角色，进行游戏对局，得到第四样本游戏数据；利用第四样本游戏数据训练第i个迭代训练过程的第一辅助神经网络。

比如，以游戏对局为3v3为例，若基于第i个迭代训练过程的第一辅助神经网络构成的第二智能体包括A21、按照ELO规则在History player中随机选取第一神经网络，并基于选取的第一神经网络构成第三智能体包括A3、按照ELO规则在History player、HistoryTeam player中随机选取第二神经网络，并基于选取的第二神经网络构成第四智能体包括A4；则利用A21和A3分别控制游戏中第一阵营的虚拟角色a1、a2、a3(即A21和A3控制的虚拟角色为队友)，利用A4控制游戏中第二阵营(即与第一阵营为敌对阵营的阵营)的虚拟角色b1、b2、b3与虚拟角色a1、a2、a3进行游戏对局，以得到第四样本游戏数据；然后利用第四样本游戏数据训练第i个迭代训练过程的第一辅助神经网络。

E2、在辅助神经网络包括：第二辅助神经网络的情况下，样本游戏数据包括：第二样本游戏数据；可以基于待训练神经网络构成第一智能体、以及基于第二辅助神经网络构成第二智能体，利用第一智能体和第二智能体分别控制属于不同游戏阵营和/或相同游戏阵营的虚拟角色进行游戏对局，得到第二样本游戏数据。

在具体实施中，可以采用下述G1～G3中的至少一种方式，基于待训练神经网络构成第一智能体、以及基于第二辅助神经网络构成第二智能体，利用第一智能体和第二智能体分别控制不同游戏阵营和/或相同游戏阵营的虚拟角色进行对局，得到第二样本游戏数据：

G1、在第二辅助神经网络包括League Exploiter player的情况下，基于待训练神经网络构成第一智能体、基于第二辅助神经网络League Exploiter player构成第二智能体；利用第一智能体和第二智能体分别控制不同游戏阵营和/或相同游戏阵营的虚拟角色进行对局，得到第二样本游戏数据。

示例性的，以游戏对局为3v3为例，若待训练神经网络构成的第一智能体包括A1、基于第二辅助神经网络League Exploiter player构成第二智能体包括A2，则利用A1控制游戏中第一阵营的虚拟角色a1、a2、a3、利用A2控制游戏中第二阵营(即与第一阵营为敌对阵营的阵营)的虚拟角色b1、b2、b3与虚拟角色a1、a2、a3进行游戏对局，以得到第二样本游戏数据。

在具体实施中，在得到第二样本游戏数据后，还可以利用下述H1～H2中的至少一种方式，对第二辅助神经网络League Exploiter player进行强化训练：

H1、利用第二样本游戏数据、以及第五训练参数，对第二辅助神经网络进行第三强化训练，得到新的第二辅助神经网络。

其中，新的第二辅助神经网络，用于在任一次迭代训练过程对待训练神经网络进行游戏对抗能力训练和/或游戏配合能力训练，或者在任一次迭代训练过程的下一次迭代训练过程中，对下一次迭代训练过程对应的待训练神经网络进行游戏对抗能力训练和/或游戏配合能力训练；这里，第五训练参数可以根据实际需求设定，此处不做具体限制。

例如，假如迭代训练过程包括N个，其中的第i个迭代训练过程中，新的的第二辅助神经网络可以用于对第i个迭代训练过程对应的待训练神经网络进行游戏对抗能力训练和/或游戏配合能力训练，或者对第(i+1)个迭代训练过程对应的待训练神经网络进行游戏对抗能力训练和/或游戏配合能力训练。其中，第(i+1)个迭代训练过程得到备选神经网络的过程，与第i个迭代训练过程得到备选神经网络的过程类似，重复之处不再赘述。

H2、利用History player、History Team player，对第二辅助神经网络LeagueExploiter player进行强化训练。

示例性的，可以基于第二辅助神经网络League Exploiter player构成第二智能体；按照ELO规则在History player、History Team player中随机选取第一神经网络，并基于选取的第一神经网络构成第三智能体；利用第二智能体控制游戏中第一阵营的虚拟角色a1、a2、a3，并利用第三智能体控制游戏中第二阵营的虚拟角色b1、b2、b3(这里，第二阵营包括与第一阵营为敌对阵营的阵营)，进行游戏对局，得到第五样本游戏数据；利用第五样本游戏数据训练第二辅助神经网络League Exploiter player。

比如，以游戏对局为3v3为例，若基于第二辅助神经网络League Exploiterplayer构成第二智能体包括A2、按照ELO规则在History player、History Team player中随机选取第一神经网络，并基于选取的第一神经网络构成第三智能体包括A3；则利用A2控制游戏中第一阵营的虚拟角色a1、a2、a3，利用A3控制游戏中第二阵营(即与第一阵营为敌对阵营的阵营)的虚拟角色b1、b2、b3与虚拟角色a1、a2、a3进行游戏对局，以得到第五样本游戏数据；然后利用第五样本游戏数据训练第二辅助神经网络League Exploiter player。

示例性的，还可以基于第二辅助神经网络League Exploiter player构成第二智能体；按照ELO规则在History player中随机选取第一神经网络，并基于选取的第一神经网络构成第三智能体；按照ELO规则在History player、History Team player中随机选取第二神经网络，并基于选取的第二神经网络构成第四智能体；利用第二智能体、以及第三智能体分别控制游戏中同一阵营的虚拟角色，并利用第四智能体控制游戏中与第二智能体和第三智能体控制的虚拟角色处于不同阵营的虚拟角色，进行游戏对局，得到第五样本游戏数据；利用第五样本游戏数据训练第二辅助神经网络League Exploiter player。

比如，以游戏对局为3v3为例，若基于第二辅助神经网络League Exploiterplayer构成第二智能体包括A2、按照ELO规则在History player中随机选取第一神经网络，并基于选取的第一神经网络构成第三智能体包括A3、按照ELO规则在History player、History Team player中随机选取第二神经网络，并基于选取的第二神经网络构成第四智能体包括A4；则利用A2和A3分别控制游戏中第一阵营的虚拟角色a1、a2、a3(即A21和A3控制的虚拟角色为队友)，利用A4控制游戏中第二阵营(即与第一阵营为敌对阵营的阵营)的虚拟角色b1、b2、b3与虚拟角色a1、a2、a3进行游戏对局，以得到第五样本游戏数据；然后利用第五样本游戏数据训练第二辅助神经网络League Exploiter player。

G2、在第二辅助神经网络包括至少一次历史迭代训练过程分别对应的备选神经网络、以及利用第二辅助神经网络和第二训练参数，对待训练神经网络进行第二强化训练后得到的神经网络的情况下，基于待训练神经网络构成第一智能体、基于第二辅助神经网络构成第二智能体；利用第一智能体和第二智能体分别控制不同游戏阵营和/或相同游戏阵营的虚拟角色进行对局，得到第二样本游戏数据。

需要说明的是，构成第一智能体时采用的待训练神经网络可以相同、也可以不同；另外，构成第二智能体时采用的第二辅助神经网络可以相同、也可以不同；可以根据实际需求设定，此处不做具体限制。

示例性的，以游戏对局为3v3为例，构成第一智能体时采用的待训练神经网络相同，比如均为M1，构成第二智能体时采用的第二辅助神经网络也相同，比如均为M2，则游戏对局中的第一阵营中的虚拟角色a1、a2、a3可以是由M1构成的第一智能体控制的，游戏对局中的第二阵营(即与第一阵营敌对的阵营)中的虚拟角色b1、b2、b3可以是由M2构成的第二智能体控制的；第一智能体通过控制虚拟角色a1、a2、a3、与第二智能体控制的虚拟角色b1、b2、b3进行游戏对局，得到第二样本游戏数据。

示例性的，以游戏对局为3v3为例，构成第一智能体时采用的待训练神经网络可以相同，比如可以包括M1，构成第二智能体时采用的第二辅助神经网络不同，比如可以包括M2、M3、M4，则游戏对局中的第一阵营中的虚拟角色a1、a2、a3可以是由M1构成的第一智能体控制的，游戏对局中的第二阵营(即与第一阵营敌对的阵营)中的虚拟角色b1可以是由M2构成的第二智能体控制的，游戏对局中的第二阵营中的虚拟角色b2可以是由M3构成的第二智能体控制的，游戏对局中的第二阵营中的虚拟角色b3可以是由M4构成的第二智能体控制的；第一智能体通过控制虚拟角色a1、a2、a3、与第二智能体控制的虚拟角色b1、b2、b3进行对局，得到第二样本游戏数据。

示例性的，以游戏对局为3v3为例，构成第一智能体时采用的待训练神经网络可以不同，比如可以包括M1、M2、M3，构成第二智能体时采用的第二辅助神经网络不同，比如可以包括M4、M5、M6，则游戏对局中的第一阵营中的虚拟角色a1可以是由M1构成的第一智能体控制的、游戏对局中的第一阵营中的虚拟角色a2可以是由M2构成的第一智能体控制的a2、游戏对局中的第一阵营中的虚拟角色a3可以是由M3构成的第一智能体控制的；游戏对局中的第二阵营(即与第一阵营敌对的阵营)中的虚拟角色b1可以是由M4构成的第二智能体控制的、游戏对局中的第二阵营中的虚拟角色b2可以是由M5构成的第二智能体控制的、游戏对局中的第二阵营中的虚拟角色b3可以是由M6构成的第二智能体控制的；第一智能体通过控制虚拟角色a1、a2、a3、与第二智能体控制的虚拟角色b1、b2、b3进行对局，得到第二样本游戏数据。

G3、在第二辅助神经网络包括History player、History Team player的情况下，基于待训练神经网络构成第一智能体、基于第二辅助神经网络(即History player、History Team player)构成第二智能体；利用第一智能体和第二智能体分别控制游戏中不同游戏阵营的虚拟角色进行对局，得到第二样本游戏数据。

示例性的，可以基于待训练神经网络构成第一智能体；按照ELO规则在Historyplayer、History Team player中随机选取第一神经网络，并基于选取的第一神经网络构成第二智能体；利用第一智能体控制游戏中第一阵营的虚拟角色a1、a2、a3，并利用第二智能体控制游戏中第二阵营的虚拟角色b1、b2、b3(这里，第二阵营包括与第一阵营为敌对阵营的阵营)，进行游戏对局，得到第二样本游戏数据。

此外，还可以基于待训练神经网络构成第一智能体A1；按照ELO规则在Historyplayer中选取第一神经网络，并基于选取的第一神经网络构成第二智能体A2；按照ELO规则在History player、History Team player中随机选取第二神经网络，并基于选取的第二神经网络构成第二智能体A3；利用第一智能体A1和第二智能体A2分别控制游戏中第一阵营的虚拟角色a1、a2、a3，并利用第二智能体A3控制游戏中第二阵营的虚拟角色b1、b2、b3(这里，第二阵营包括与第一阵营为敌对阵营的阵营)，进行游戏对局，得到第二样本游戏数据。

在具体实施中，在基于上述E1～E2中的具体实施方式，得到样本游戏数据后，本公开实施例提供的备选神经网络生成方法还包括：

S303、利用每轮强化训练对应的样本游戏数据、以及待训练神经网络对应的第一训练参数，对每轮强化训练对应的第一待训练神经网络进行第一强化训练，得到每轮强化训练后的第二待训练神经网络。

S304、将最后一轮得到的第二待训练神经网络，确定为任一次迭代训练过程对应的备选神经网络。

除此之外，还可以采用下述方式确定任一次迭代训练过程(例如第i个迭代训练过程)对应的备选神经网络：可以针对每个待训练神经网络，利用其他待训练神经网络、以及每个待训练神经网络对应的第一训练参数，对每个待训练神经网络进行第四强化训练，以及利用辅助神经网络、以及每个待训练神经网络对应的第一训练参数，对待训练神经网络进行第一强化训练；基于对多个待训练神经网络进行第一强化训练以及第四强化训练的结果，得到任一次迭代训练过程对应的备选神经网络。

在得到多次迭代训练过程(例如N次迭代训练过程)对应的备选神经网络之后，可以将最后一次迭代得到的备选神经网络，作为目标神经网络。

在具体实施中，在得到目标神经网络之后，可以采用但不限于下述I1～I4中的至少一种方式，确定目标神经网络的性能：

I1、利用目标神经网络构成的智能体、与基于预设规则生成的游戏内置bot分别控制属于不同游戏阵营的虚拟角色进行游戏对局，根据游戏对局结果、以及游戏内置bot的性能信息，确定目标神经网络的性能。

I2、将多个目标神经网络分别构成的智能体分别控制属于不同游戏阵营的虚拟角色之间进行两两对局，根据游戏对局结果，确定各目标神经网络的性能。

I3、利用目标神经网络构成的智能体、与人类玩家分别控制属于不同游戏阵营的虚拟角色进行游戏对局，根据游戏对局结果、以及人类玩家的游戏等级、以及人类玩家的游戏评分等信息，确定目标神经网络的性能。

I4、利用目标神经网络构成的智能体与人类玩家进行组队，并与人类玩家队伍分别控制属于不同游戏阵营的虚拟角色进行游戏对局，根据游戏对局结果、以及人类玩家的游戏等级、以及人类玩家的游戏评分等信息，确定目标神经网络的性能。

在基于上述I1～I4确定目标神经网络的性能后，可以选取性能最好的目标神经网络作为后续对动作进行预测处理的目标神经网络。

示例性的，性能最好的目标神经网络可以包括下述J1～J4中的至少一种：

J1、在利用目标神经网络构成的智能体、与基于预设规则生成的游戏内置bot分别控制属于不同游戏阵营的虚拟角色进行游戏对局的方式，确定目标神经网络的性能的情况下，可以选取与不同等级的游戏内置bot进行游戏对局后，胜率均较高的智能体对应的目标神经网络，作为性能最好的目标神经网络。

J2、在利用多个目标神经网络分别构成的智能体分别控制属于不同游戏阵营的虚拟角色进行两两对局的方式，确定目标神经网络的性能的情况下，可以选取胜率较高，且ELO分数逐渐收敛(即ELO分数无法明显提升)的智能体对应的目标神经网络，作为性能最好的目标神经网络。

J3、在利用目标神经网络构成的智能体、与人类玩家分别控制属于不同游戏阵营的虚拟角色进行游戏对局的方式，确定目标神经网络的性能的情况下，可以选取胜率较高，且ELO分数逐渐收敛(即ELO分数无法明显提升)的智能体对应的目标神经网络，作为性能最好的目标神经网络。

J4、在利用目标神经网络构成的智能体与人类玩家进行组队，并与人类玩家队伍分别控制属于不同游戏阵营的虚拟角色进行游戏对局的方式，确定目标神经网络的性能的情况下，可以选取胜率较高，且ELO分数逐渐收敛(即ELO分数无法明显提升)的智能体对应的目标神经网络，作为性能最好的目标神经网络。

在确定性能最好的目标神经网络之后，可以将基于S101获取到的当前游戏状态信息输入到目标神经网络中，以利用目标神经网络进行动作预测处理，预测目标智能体控制的第一虚拟角色执行动作时刻、执行动作类型、以及在目标智能体控制的第一虚拟角色包括多个时，预测目标智能体控制执行动作的目标第一虚拟角色；在目标智能体控制目标第一虚拟角色执行的动作包括攻击等类型的动作时，预测多个第二虚拟角色中被攻击的目标第二虚拟角色、以及目标智能体控制目标第一虚拟角色执行动作时的移动位置、攻击位置等动作位置。

承接上述S102，本公开实施例提供的游戏中虚拟角色的控制方法还包括：

S103、基于所述动作信息，控制所述第一虚拟角色执行所述动作。

示例性的，若预测目标智能体控制执行动作的目标第一虚拟角色为虚拟角色a1、预测的动作类型包括释放大招技能攻击、预测的被攻击对象为虚拟角色b1、预测的目标第一虚拟角色在执行攻击动作时的移动位置为位置1时，则在当前时刻到达预测的执行动作时刻后，目标智能体控制虚拟角色a1移动到位置1所在的游戏地图区域，并释放大招技能攻击虚拟角色b1。

本公开实施例中，控制第一虚拟角色的目标智能体获取游戏过程中的当前游戏状态信息，当前游戏状态信息包括了第一虚拟角色的当前状态信息、第二虚拟角色的当前状态信息以及游戏场景的当前状态信息中的至少一种，然后利用预先训练的目标神经网络，基于当前游戏状态信息、对第一虚拟角色执行的动作进行预测处理，得到第一虚拟角色执行动作的动作信息，并利用预测得到的动作信息，控制第一虚拟角色执行动作，该目标神经网络较之游戏内置bot，具有更高的决策智能，因而也具有更强的决策能力，不止能够用于低端局或者新手局，随着目标神经网络的能力不断增强，还可以用于更多的高端游戏对局中，具有更广的应用范围。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与游戏中虚拟角色的控制方法对应的游戏中虚拟角色的控制装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述游戏中虚拟角色的控制方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，为本公开实施例提供的一种游戏中虚拟角色的控制装置的示意图，应用于目标智能体；所述游戏包括多个虚拟角色；多个所述虚拟角色中包括受控于所述目标智能体的第一虚拟角色、以及未受控于所述目标智能体的第二虚拟角色；所述装置包括：获取模块401、处理模块402、控制模块403；其中，

获取模块401，用于获取游戏过程中的当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述第一虚拟角色的当前状态信息、所述第二虚拟角色的当前状态信息、所述游戏的游戏场景的当前状态信息；处理模块402，用于利用预先训练的目标神经网络，基于所述当前游戏状态信息进行动作预测处理，得到所述第一虚拟角色执行动作的动作信息；控制模块403，用于基于所述动作信息，控制所述第一虚拟角色执行所述动作。

一种可选的实施方式中，处理模块402采用下述方式训练所述目标神经网络：获取多个玩家分别对应的游戏对局的游戏数据；基于所述游戏对局对应的游戏数据，生成样本数据；所述样本数据包括：多个动作时刻分别对应的样本动作信息、以及样本游戏状态信息；利用所述样本数据对原始神经网络进行监督训练，得到初始化神经网络；对所述初始化神经网络进行第一强化训练，得到至少一个目标神经网络。

一种可选的实施方式中，处理模块402在所述利用所述样本数据对原始神经网络进行监督训练，得到初始化神经网络时，具体用于：将多个所述动作时刻分别对应的所述样本游戏状态信息作为输入数据，将所述多个动作时刻分别对应的样本动作信息作为监督数据，对所述原始神经网络进行监督训练，得到所述初始化神经网络。

一种可选的实施方式中，处理模块402在所述对所述初始化神经网络进行第一强化训练，得到至少一个目标神经网络时，具体用于：对所述初始化神经网络进行至少两次迭代训练，并基于最后一次迭代得到的备选神经网络，得到所述目标神经网络；其中，对于任一次迭代训练过程，包括：确定至少一个待训练神经网络，以及确定辅助神经网络；其中，所述待训练神经网络包括所述初始化神经网络和/或所述任一次迭代训练过程的前一次迭代训练过程生成的备选神经网络；所述辅助神经网络包括：用于对所述待训练神经网络进行游戏对抗能力训练的第一辅助神经网络、以及用于对所述待训练神经网络进行游戏对抗能力训练和/或游戏配合能力训练的第二辅助神经网络；利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程的备选神经网络；其中，不同的待训练神经网络对应的第一训练参数不同。

一种可选的实施方式中，处理模块402在所述利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程的备选神经网络时，具体用于：对所述待训练神经网络进行多轮强化训练，并在每轮强化训练中，按照预设的筛选规则，从所述辅助神经网络中，确定目标辅助神经网络；基于所述每轮强化训练对应的第一待训练神经网络构成第一智能体、以及基于所述目标辅助神经网络构成第二智能体，利用所述每轮强化训练对应的第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到每轮强化训练对应的样本游戏数据；其中，每轮强化训练对应的第一待训练神经网络包括所述任一次迭代过程确定的待训练神经网络，或对所述任一次迭代过程确定的待训练神经网络经过至少一轮强化训练后得到的第二待训练神经网络；利用所述每轮强化训练对应的样本游戏数据、以及所述待训练神经网络对应的第一训练参数，对所述每轮强化训练对应的第一待训练神经网络进行第一强化训练，得到每轮强化训练后的第二待训练神经网络；将最后一轮得到的第二待训练神经网络，确定为所述任一次迭代训练过程对应的备选神经网络。

一种可选的实施方式中，处理模块402在所述确定至少一个待训练神经网络时，具体用于：响应于所述任一次迭代训练过程为首次迭代训练过程，将所述初始化神经网络确定为所述任一次迭代训练过程的待训练神经网络；响应于所述任一次迭代训练过程为非首次迭代训练过程，基于所述任一次迭代训练过程的前一次迭代训练过程确定的至少一个备选神经网络分别对应的性能信息，确定所述任一次迭代训练过程对应的待训练神经网络，以及将所述初始化神经网络确定为所述任一次迭代训练过程对应的待训练神经网络。

一种可选的实施方式中，所述辅助神经网络包括：第一辅助神经网络；样本游戏数据包括：第一样本游戏数据；处理模块402在所述基于所述待训练神经网络构成第一智能体、以及基于所述辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到样本游戏数据时，具体用于：基于所述待训练神经网络构成第一智能体、以及基于所述第一辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制属于不同游戏阵营的虚拟角色进行游戏对局，得到所述第一样本游戏数据。

一种可选的实施方式中，处理模块402，还用于利用所述第一样本游戏数据、以及第三训练参数，对所述第一辅助神经网络进行第三强化训练，得到新的第一辅助神经网络；所述新的第一辅助神经网络，用于在所述任一次迭代训练过程对所述待训练神经网络进行游戏对抗能力训练，或者在所述任一次迭代训练过程的下一次迭代训练过程中，对所述下一次迭代训练过程对应的待训练神经网络进行游戏对抗能力训练。

一种可选的实施方式中，处理模块402，还用于利用至少一次历史迭代训练过程对应的历史待训练神经网络构成第一智能体、以及基于所述任一次迭代训练过程对应的第一辅助神经网络构成第二智能体，利用第一智能体和第二智能体分别控制属于不同游戏阵营的虚拟角色进行游戏对局，得到第三样本游戏数据；利用所述第三样本游戏数据训练所述任一次迭代训练过程的第一辅助神经网络。

一种可选的实施方式中，所述辅助神经网络包括：第二辅助神经网络；样本游戏数据包括：第二样本游戏数据；处理模块402在所述基于所述待训练神经网络构成第一智能体、以及基于所述辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到样本游戏数据时，具体用于：基于所述待训练神经网络构成第一智能体、以及基于所述第二辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制属于不同游戏阵营和/或相同游戏阵营的虚拟角色进行游戏对局，得到所述第二样本游戏数据。

一种可选的实施方式中，处理模块402在所述利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程对应的备选神经网络时，具体用于：针对每个待训练神经网络，利用其他待训练神经网络、以及所述每个待训练神经网络对应的第一训练参数，对所述每个待训练神经网络进行第四强化训练，以及利用所述辅助神经网络、以及所述每个待训练神经网络对应的第一训练参数，对所述待训练神经网络进行第一强化训练；基于对多个所述待训练神经网络进行第一强化训练以及第四强化训练的结果，得到所述任一次迭代训练过程对应的备选神经网络。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一技术构思，本申请实施例还提供了一种计算机设备。参照图5所示，为本申请实施例提供的计算机设备500的结构示意图，包括处理器501、存储器502、和总线503。其中，存储器502用于存储执行指令，包括内存5021和外部存储器5022；这里的内存5021也称内存储器，用于暂时存放处理器501中的运算数据，以及与硬盘等外部存储器5022交换的数据，处理器501通过内存5021与外部存储器5022进行数据交换，当计算机设备500运行时，处理器501与存储器502之间通过总线503通信，使得处理器501执行以下指令：

获取游戏过程中的当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述第一虚拟角色的当前状态信息、所述第二虚拟角色的当前状态信息、所述游戏的游戏场景的当前状态信息；利用预先训练的目标神经网络，基于所述当前游戏状态信息进行动作预测处理，得到所述第一虚拟角色执行动作的动作信息；基于所述动作信息，控制所述第一虚拟角色执行所述动作。

其中，处理器501的具体处理流程可以参照上述方法实施例的记载，这里不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的游戏中虚拟角色的控制方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的游戏中虚拟角色的控制方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

本公开涉及增强现实领域，通过获取现实环境中的目标对象的图像信息，进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理，从而得到与具体应用匹配的虚拟与现实相结合的AR效果。示例性的，目标对象可涉及与人体相关的脸部、肢体、手势、动作等，或者与物体相关的标识物、标志物，或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、SLAM、三维重建、图像注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。具体应用不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景，还可以涉及与人相关的特效处理，比如妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。可通过卷积神经网络，实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种游戏中虚拟角色的控制方法，其特征在于，应用于目标智能体；所述游戏包括多个虚拟角色；多个所述虚拟角色中包括受控于所述目标智能体的第一虚拟角色、以及未受控于所述目标智能体的第二虚拟角色；所述方法包括：

获取游戏过程中的当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述第一虚拟角色的当前状态信息、所述第二虚拟角色的当前状态信息、所述游戏的游戏场景的当前状态信息；

利用预先训练的目标神经网络，基于所述当前游戏状态信息进行动作预测处理，得到所述第一虚拟角色执行动作的动作信息；

基于所述动作信息，控制所述第一虚拟角色执行所述动作。

2.根据权利要求1所述的方法，其特征在于，受控于所述目标智能体的所述第一虚拟角色至少有一个；

所述动作信息包括下述至少一种：动作时刻、以及动作类型、所述第一虚拟角色中执行动作的目标第一虚拟角色、以及所述第二虚拟角色中属于动作对象的目标第二虚拟角色、所述第一虚拟角色执行动作时在所述游戏场景中的动作位置。

3.根据权利要求1所述的方法，其特征在于，所述第一虚拟角色的当前状态信息包括下述至少一种：所述第一虚拟角色具有的第一虚拟资类型、第一虚拟资源量、第一建筑状态、第一技能状态、在所述游戏场景中的第一位置、第一生命值、第一魔法值、第一阵营信息、第一增益数据、第一减益数据；

所述第二虚拟角色的当前状态信息包括下述至少一种：所述第二虚拟角色具有的第二虚拟资源类型、第二虚拟资源量、第二建筑状态、第二技能状态、在所述游戏场景中的第二位置、第二生命值、第二魔法值、第二阵营信息、第二增益数据、第二减益数据、类型信息；

所述游戏场景的当前状态信息包括下述至少一种：所述第一虚拟角色的可视区域信息、第三虚拟资源类型、虚拟资源位置、以及虚拟资源刷新的剩余时间。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述动作类型包括下述至少一种：攻击、资源采集、建造、生产、侦查、撤退。

5.根据权利要求1-4任一项所述的方法，其特征在于，采用下述方式训练所述目标神经网络：

获取多个玩家分别对应的游戏对局的游戏数据；

基于所述游戏对局对应的游戏数据，生成样本数据；所述样本数据包括：多个动作时刻分别对应的样本动作信息、以及样本游戏状态信息；

利用所述样本数据对原始神经网络进行监督训练，得到初始化神经网络；

对所述初始化神经网络进行第一强化训练，得到至少一个目标神经网络。

6.根据权利要求5所述的方法，其特征在于，所述利用所述样本数据对原始神经网络进行监督训练，得到初始化神经网络，包括：

将多个所述动作时刻分别对应的所述样本游戏状态信息作为输入数据，将所述多个动作时刻分别对应的样本动作信息作为监督数据，对所述原始神经网络进行监督训练，得到所述初始化神经网络。

7.根据权利要求5或6所述的方法，其特征在于，所述对所述初始化神经网络进行第一强化训练，得到至少一个目标神经网络，包括：

对所述初始化神经网络进行至少两次迭代训练，并基于最后一次迭代得到的备选神经网络，得到所述目标神经网络；其中，对于任一次迭代训练过程，包括：

确定至少一个待训练神经网络，以及确定辅助神经网络；其中，所述待训练神经网络包括所述初始化神经网络和/或所述任一次迭代训练过程的前一次迭代训练过程生成的备选神经网络；所述辅助神经网络包括：用于对所述待训练神经网络进行游戏对抗能力训练的第一辅助神经网络、以及用于对所述待训练神经网络进行游戏对抗能力训练和/或游戏配合能力训练的第二辅助神经网络；

利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程的备选神经网络；其中，不同的待训练神经网络对应的第一训练参数不同。

8.根据权利要求7所述的方法，其特征在于，所述任一次迭代训练过程的所述第二辅助神经网络，包括下述至少一种：

至少一次历史迭代训练过程分别对应的备选神经网络；

利用第二辅助神经网络、以及第二训练参数，对所述待训练神经网络进行第二强化训练后，得到的神经网络。

9.根据权利要求7或8所述的方法，其特征在于，所述利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程的备选神经网络，包括：

对所述待训练神经网络进行多轮强化训练，并在每轮强化训练中，按照预设的筛选规则，从所述辅助神经网络中，确定目标辅助神经网络；

基于所述每轮强化训练对应的第一待训练神经网络构成第一智能体、以及基于所述目标辅助神经网络构成第二智能体，利用所述每轮强化训练对应的第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到每轮强化训练对应的样本游戏数据；其中，每轮强化训练对应的第一待训练神经网络包括所述任一次迭代过程确定的待训练神经网络，或对所述任一次迭代过程确定的待训练神经网络经过至少一轮强化训练后得到的第二待训练神经网络；

利用所述每轮强化训练对应的样本游戏数据、以及所述待训练神经网络对应的第一训练参数，对所述每轮强化训练对应的第一待训练神经网络进行第一强化训练，得到每轮强化训练后的第二待训练神经网络；

将最后一轮得到的第二待训练神经网络，确定为所述任一次迭代训练过程对应的备选神经网络。

10.根据权利要求7-9任一项所述的方法，其特征在于，所述确定至少一个待训练神经网络，包括：

响应于所述任一次迭代训练过程为首次迭代训练过程，将所述初始化神经网络确定为所述任一次迭代训练过程的待训练神经网络；

响应于所述任一次迭代训练过程为非首次迭代训练过程，基于所述任一次迭代训练过程的前一次迭代训练过程确定的至少一个备选神经网络分别对应的性能信息，确定所述任一次迭代训练过程对应的待训练神经网络，以及将所述初始化神经网络确定为所述任一次迭代训练过程对应的待训练神经网络。

11.根据权利要求7-10任一项所述的方法，其特征在于，所述辅助神经网络包括：第一辅助神经网络；样本游戏数据包括：第一样本游戏数据；

所述基于所述待训练神经网络构成第一智能体、以及基于所述辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到样本游戏数据包括：

基于所述待训练神经网络构成第一智能体、以及基于所述第一辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制属于不同游戏阵营的虚拟角色进行游戏对局，得到所述第一样本游戏数据。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

利用所述第一样本游戏数据、以及第三训练参数，对所述第一辅助神经网络进行第三强化训练，得到新的第一辅助神经网络；

所述新的第一辅助神经网络，用于在所述任一次迭代训练过程对所述待训练神经网络进行游戏对抗能力训练，或者在所述任一次迭代训练过程的下一次迭代训练过程中，对所述下一次迭代训练过程对应的待训练神经网络进行游戏对抗能力训练。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

利用至少一次历史迭代训练过程对应的历史待训练神经网络构成第一智能体、以及基于所述任一次迭代训练过程对应的第一辅助神经网络构成第二智能体，利用第一智能体和第二智能体分别控制属于不同游戏阵营的虚拟角色进行游戏对局，得到第三样本游戏数据；

利用所述第三样本游戏数据训练所述任一次迭代训练过程的第一辅助神经网络。

14.根据权利要求7-13任一项所述的方法，其特征在于，所述辅助神经网络包括：第二辅助神经网络；样本游戏数据包括：第二样本游戏数据；

所述基于所述待训练神经网络构成第一智能体、以及基于所述辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制不同的虚拟角色进行游戏对局，得到样本游戏数据，包括：

基于所述待训练神经网络构成第一智能体、以及基于所述第二辅助神经网络构成第二智能体，利用所述第一智能体和所述第二智能体分别控制属于不同游戏阵营和/或相同游戏阵营的虚拟角色进行游戏对局，得到所述第二样本游戏数据。

15.根据权利要求7-14任一项所述的方法，其特征在于，所述利用所述辅助神经网络、以及至少一个待训练神经网络分别对应的第一训练参数，对所述待训练神经网络进行第一强化训练，得到所述任一次迭代训练过程对应的备选神经网络，包括：

针对每个待训练神经网络，利用其他待训练神经网络、以及所述每个待训练神经网络对应的第一训练参数，对所述每个待训练神经网络进行第四强化训练，以及利用所述辅助神经网络、以及所述每个待训练神经网络对应的第一训练参数，对所述待训练神经网络进行第一强化训练；

基于对多个所述待训练神经网络进行第一强化训练以及第四强化训练的结果，得到所述任一次迭代训练过程对应的备选神经网络。

16.一种游戏中虚拟角色的控制装置，其特征在于，应用于目标智能体；所述游戏包括多个虚拟角色；多个所述虚拟角色中包括受控于所述目标智能体的第一虚拟角色、以及未受控于所述目标智能体的第二虚拟角色，所述装置包括：

获取模块，用于获取游戏过程中的当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述第一虚拟角色的当前状态信息、所述第二虚拟角色的当前状态信息、所述游戏的游戏场景的当前状态信息；

处理模块，用于利用预先训练的目标神经网络，基于所述当前游戏状态信息进行动作预测处理，得到所述第一虚拟角色执行动作的动作信息；

控制模块，用于基于所述动作信息，控制所述第一虚拟角色执行所述动作。

17.一种计算机设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至15任一项所述的游戏中虚拟角色的控制方法的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至15任一项所述的游戏中虚拟角色的控制方法的步骤。