CN108888958B

CN108888958B - 虚拟场景中的虚拟对象控制方法、装置、设备及存储介质

Info

Publication number: CN108888958B
Application number: CN201810651172.3A
Authority: CN
Inventors: 艾长青; 张力柯; 潘晖; 范奇; 何庆玮; 荆彦青
Original assignee: Shenzhen Tencent Network Information Technology Co Ltd
Current assignee: Shenzhen Tencent Network Information Technology Co Ltd
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2023-03-21
Anticipated expiration: 2038-06-22
Also published as: CN108888958A

Abstract

本申请是关于一种虚拟场景中的虚拟对象控制方法。该方法包括：获取虚拟场景中的各个虚拟对象的第一类型特征，以及各个虚拟对象中的指定对象的第二类型特征；将各个虚拟对象的第一类型特征以及指定对象的第二类型特征输入行为确定模型，获得行为信息，行为信息用于指示指定对象可执行的至少一项行为；将各个虚拟对象的第一类型特征输入目标确定模型，获得目标信息，目标信息用于指示所述各个虚拟对象中的第一虚拟对象；控制指定对象对第一虚拟对象执行行为信息对应的至少一项行为。本方案能够准确性的确定指定对象需要执行的行为和目标对象，从而提高执行对象的行动方案确定的准确性，提高对指定对象的控制效果。

Description

虚拟场景中的虚拟对象控制方法、装置、设备及存储介质

技术领域

本申请实施例涉及机器学习技术领域，特别涉及一种虚拟场景中的虚拟对象控制方法、装置、设备及存储介质。

背景技术

在游戏等虚拟场景中，多个用户账号之间可以组成同一个队伍，并在虚拟场景中控制各自对应的虚拟对象进行协同行动。

为了避免队伍中某一个或多个用户账号突然离线而影响队伍中的其它用户账号对应的用户的使用体验，人工智能(Artificial Intelligence，AI)可以接管离线的用户账号对虚拟对象的控制。在相关技术中，虚拟场景的开发人员可以预先设置虚拟对象的行为树，该行为树指示虚拟对象在不同情况下需要执行的行动。当某一个用户账号离线，且该用户账号对应的虚拟对象需要执行行动时，AI根据虚拟场景当前的情况(包括虚拟场景中的各个虚拟对象的状态以及虚拟场景的环境状态等情况)查询该虚拟对象的行为树，获得该虚拟对象的行动方案(比如，针对哪一个虚拟对象执行哪些行为)，并根据查询到的行动方案控制该离线的用户账号对应的虚拟对象。

由于实际的虚拟场景中需要考虑的因素太多，使用行为树无法完全穷举，只能在有限的范围内考虑一些重要的因素对行为树进行建模，导致根据行为树查询到的行动方案的准确性较低。

发明内容

本申请实施例提供了一种虚拟场景中的虚拟对象控制方法、装置、设备及存储介质，可以用于解决相关技术中根据行为树查询到的行动方案的准确性较低的问题，技术方案如下：

第一方面，提供了一种虚拟场景中的虚拟对象控制方法，所述方法包括：

所述虚拟场景中包含至少两个对象组，每个所述对象组中包含至少一个虚拟对象，所述方法包括：

获取所述虚拟场景中的各个虚拟对象的第一类型特征，以及所述各个虚拟对象中的指定对象的第二类型特征，所述第一类型特征用于指示对应的虚拟对象的属性，所述第二类型特征用于指示对应的虚拟对象的行为能力；

将所述各个虚拟对象的第一类型特征以及所述指定对象的第二类型特征输入行为确定模型，获得行为信息，所述行为信息用于指示所述指定对象可执行的至少一项行为；

将所述各个虚拟对象的第一类型特征输入目标确定模型，获得目标信息，所述目标信息用于指示所述各个虚拟对象中的第一虚拟对象；

控制所述指定对象对所述第一虚拟对象执行所述行为信息对应的至少一项行为。

第二方面，提供了一种虚拟场景中的虚拟对象控制装置，所述虚拟场景中包含至少两个对象组，每个所述对象组中包含至少一个虚拟对象，所述装置包括：

特征获取模块，用于获取所述虚拟场景中的各个虚拟对象的第一类型特征，以及所述各个虚拟对象中的指定对象的第二类型特征，所述第一类型特征用于指示对应的虚拟对象的属性，所述第二类型特征用于指示对应的虚拟对象的行为能力；

行为信息获取模块，用于将所述各个虚拟对象的第一类型特征以及所述指定对象的第二类型特征输入行为确定模型，获得行为信息，所述行为信息用于指示所述指定对象可执行的至少一项行为；

目标信息获取模块，用于将所述各个虚拟对象的第一类型特征输入目标确定模型，获得目标信息，所述目标信息用于指示所述各个虚拟对象中的第一虚拟对象；

控制模块，用于控制所述指定对象对所述第一虚拟对象执行所述行为信息对应的至少一项行为。

第三方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的虚拟场景中的虚拟对象控制方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的虚拟场景中的虚拟对象控制方法。

本申请提供的技术方案可以包括以下有益效果：

服务器通过训练好的两个机器学习模型，对虚拟场景中的各个虚拟对象的属性和行为的特征进行处理，以分别确定指定对象需要执行的行为和执行行为的目标对象，再控制指定对象，对目标对象执行确定的行为，由于虚拟对象的属性和行为能够较为全面的体现虚拟场景的实际情况，因此，通过机器学习模型和虚拟对象的属性和行为的特征，能够准确性的确定指定对象需要执行的行为和目标对象，从而提高执行对象的行动方案确定的准确性，提高对指定对象的控制效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的终端的结构示意图；

图2是根据一示例性实施例示出的一种回合制虚拟场景的显示界面示意图；

图3是根据一示例性实施例示出的另一回合制虚拟场景的显示界面示意图；

图4是根据一示例性实施例示出的一种虚拟场景服务系统的结构示意图；

图5是根据一示例性实施例示出的一种虚拟场景中的虚拟对象控制方法的流程图；

图6是根据一示例性实施例示出的一种虚拟场景中的虚拟对象控制方法的流程图；

图7是图6所示实施例涉及的一种行为确定模型的结构图；

图8是图6所示实施例涉及的一种行为确定模型的结构图；

图9是根据一示例性实施例示出的一种模型训练及更新的流程示意图；

图10是根据一示例性实施例示出的一种虚拟场景中的虚拟对象控制装置的结构方框图；

图11是根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请实施例提出了一种对虚拟场景中的虚拟对象进行控制的方案，该方案能够使得系统自动对虚拟场景中的虚拟对象进行合理的控制。为了便于理解，下面对本申请实施例涉及的几个名词进行解释。

(1)虚拟场景

虚拟场景是指用计算机生成的一种虚拟的场景环境，它能够提供一个多媒体的虚拟世界，虚拟场景中通常包含一至多个虚拟对象，上述的虚拟对象可以是虚拟场景中由用户通过用户账号进行控制，或者，由AI进行控制的对象，比如，虚拟对象可以是虚拟场景中的虚拟人物/动物(比如虚拟玩家角色、虚拟宠物以及虚拟怪物等)或者虚拟载具(比如虚拟车辆等)等。用户可通过操作设备或操作界面对虚拟场景中可操作的虚拟对象进行控制，比如，以虚拟对象的视角观察虚拟场景中的物体、人物、风景等，或通过虚拟对象和虚拟场景中的物体、人物、风景或者其它虚拟对象等进行互动，例如，通过操作一个虚拟士兵对目标敌军进行攻击等。

虚拟场景通常由终端等计算机设备中的应用程序生成基于终端中的硬件(比如屏幕)进行展示。该终端可以是智能手机、平板电脑或者电子书阅读器等移动终端；或者，该终端也可以是笔记本电脑或者固定式计算机的个人计算机设备。

在本申请各个实施例中，展示虚拟场景的终端可以是具有短距离无线通信功能的移动终端。请参考图1，其是根据一示例性实施例示出的终端的结构示意图。如图1所示，该终端包括主板110、外部输出/输入设备120、存储器130、外部接口140、电容触控系统150以及电源160。

其中，主板110中集成有处理器和控制器等处理元件。

外部输出/输入设备120可以包括显示组件(比如显示屏)、声音播放组件(比如扬声器)、声音采集组件(比如麦克风)以及各类按键等。

存储器130中存储有程序代码和数据。

外部接口140可以包括耳机接口、充电接口以及数据接口等。

电容触控系统150可以集成在外部输出/输入设备120的显示组件或者按键中，电容触控系统150用于检测用户在显示组件或者按键上执行的触控操作。

电源160用于对终端中的其它各个部件进行供电。

在本申请实施例中，主板110中的处理器可以通过执行或者调用存储器中存储的程序代码和数据生成虚拟场景，并将生成的虚拟场景通过外部输出/输入设备120进行展示。在展示虚拟场景的过程中，可以通过电容触控系统150检测用户与虚拟场景进行交互时执行的触控操作；或者，也可以通过鼠标键盘等外部输入设备接收用户与虚拟场景进行交互时执行的点击或输入操作。

其中，虚拟场景可以是三维的虚拟场景，或者，虚拟场景也可以是二维的虚拟场景。

(2)回合制

在本申请实施例中，回合制的虚拟场景，是指虚拟场景中的各个虚拟对象分为至少两组，且依次主动采取行动(即由用户或者AI主动控制虚拟对象执行一项或多项行为)，每次仅允许一个或部分虚拟对象主动采取行动，而其它虚拟对象则无法主动采取行动，而对于虚拟对象的被动行为则可以不做限制。

以虚拟场景是二维的虚拟场景为例，请参考图2，其是根据一示例性实施例示出的一种回合制的虚拟场景的显示界面示意图。如图2所述，虚拟场景的显示界面200中包含的虚拟对象分为两组，分别为对象组210和对象组220。其中，对象组210中包含三个虚拟对象，而对象组220中包含6个虚拟对象。

在图2所示的回合制的虚拟场景中，对象组210中的各个虚拟对象和对象组220中的各个虚拟对象之间进行对战，且两个对象组中的各个虚拟对象在用户或者AI的控制下轮流主动采取行动，比如，攻击对方组的虚拟对象，或者，对己方组的虚拟对象进行防御或者治疗，直至对方组或者己方组中的全部虚拟对象均都被淘汰。

回合制的虚拟场景可以包括但不限于完全回合制的虚拟场景和半即时回合制的虚拟场景等。

其中，完全回合制的虚拟场景，是指虚拟场景中的多组虚拟对象，在一个回合内轮流主动采取一次行动。

比如，以图2所示的虚拟场景为例，在一个回合内，对象组210和对象组220中的一个对象组(比如对象组210)中的各个虚拟对象首先依次主动采取一次行动，然后，另一对象组(比如对象组220)中的各个虚拟对象再依次主动采取一次行动。

而半即时回合制的虚拟场景，是指虚拟场景中的各个虚拟对象分别遵循各自的回合算法，每个虚拟对象在主动采取一次行动后，等待一段时间或者累积一定的行动点数，当等待时间到达，或者，累积的行动点数达到一定的点数数值时，可以再次主动采取一次行动。在半即时回合制的虚拟场景中，各个虚拟对象并不完全依次主动采取行动，在某一个虚拟对象两次主动采取行动之间，另一虚拟对象可以被允许主动采取两次或者更多次的行动。

比如，请参考图3，其是根据一示例性实施例示出的另一回合制的虚拟场景的显示界面示意图。如图3所述，虚拟场景的显示界面300中包含的虚拟对象分为两组，分别为对象组310和对象组320。其中，对象组310中包含一个虚拟对象，而对象组320中包含2个虚拟对象。在显示界面300中还包含一动作条330，该动作条330上显示有各个虚拟对象对应的对象图标330a，并且，每个对象图标分别从动作条330的左侧开始向右侧移动，当某一对象图标移动至动作条330最右侧时，该对象图标对应的虚拟对象被允许主动采取一次行动，并且，在该虚拟对象主动采取一次行动之后，该对象图标再次从动作条330最左侧开始向右移动。其中，各个虚拟对象对应的对象图标的移动速度可以不同。

图4是根据一示例性实施例示出的一种虚拟场景服务系统的结构示意图。该系统包括：若干个终端420和服务器集群440。

终端420可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器等等。

终端420中可以安装有支持虚拟场景的应用程序，例如，终端420中可以安装有支持回合制的虚拟场景的应用程序(比如回合制游戏客户端)，相应的，服务器集群440可以是支持虚拟场景的应用程序对应的服务器。

终端420与服务器集群440之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

服务器集群440是一台服务器，或者由若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心。

可选的，该系统还可以包括管理设备460，该管理设备460与服务器集群340之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

在本申请实施例中，终端420可以展示虚拟场景，用户通过终端420对虚拟场景中的当前虚拟对象(即终端420当前登录的用户账号对应的虚拟对象)进行控制，当用户账号离线，或者，用户设置将当前虚拟对象交由服务器进行控制时，服务器中的AI可以自动对该当前虚拟对象进行控制。此外，服务器中的AI还可以对虚拟场景中的非用户控制的虚拟对象进行控制。其中，服务器中的AI控制虚拟对象的方式可以如后续实施例所示。

图5是根据一示例性实施例示出的一种虚拟场景中的虚拟对象控制方法的流程图，该虚拟场景中的虚拟对象控制方法可以用于计算机设备，比如服务器中，以对虚拟场景中的虚拟对象进行控制，其中，该虚拟场景中包含至少两个对象组，每个对象组中包含至少一个虚拟对象。比如，该虚拟场景可以回合制游戏场景。如图5所示，该虚拟场景中的虚拟对象控制方法可以包括如下步骤：

步骤51，获取虚拟场景中的各个虚拟对象的第一类型特征，以及各个虚拟对象中的指定对象的第二类型特征。

其中，该第一类型特征用于指示对应的虚拟对象的属性，该第二类型特征用于指示对应的虚拟对象的行为能力。

虚拟场景中的虚拟对象通常具有若干种属性，并且，每个虚拟对象具有各自的行为能力，比如，可以执行多种不同的攻击行为或者防御行为等。在本申请实施例中，当服务器需要控制虚拟场景中的某个指定对象时，可以获取当前虚拟场景中的各个虚拟对象的属性的特征(即上述第一类型特征)以及该指定对象的行为的特征(即上述第二类型特征)。

其中，上述服务器需要控制虚拟场景中的某个指定对象的时机，可以是轮到该指定对象执行行为的时机。

比如，以上述指定对象是离线的用户账号控制的虚拟对象为例，当虚拟场景中的某一虚拟对象对应的用户账号离线(比如主动下线或者因网络原因掉线)后，服务器检测到用户账号处于离线状态，将该用户账号控制的虚拟对象确定为指定对象，后续当轮到该指定对象执行行为时，服务器获取当前虚拟场景中的各个虚拟对象的属性的特征以及该指定对象的行为的特征。

上述指定对象可以不限于离线的用户账号控制的虚拟对象。比如，上述虚拟对象还可以是虚拟场景中由AI控制的虚拟对象。例如，以虚拟场景是游戏场景为例，该游戏场景中包含玩家1通过用户账号控制的虚拟角色1、由玩家2通过用户账号控制的虚拟角色2，以及，由AI控制的虚拟怪物3，其中，在初始时，服务器仅将虚拟怪物3确定为指定对象，当玩家1的用户账号离线时，服务器将虚拟角色1确定为指定对象，或者，当玩家2设置将当前控制的虚拟对象交由系统AI控制(比如，设置虚拟角色2为托管状态，或者设置虚拟角色2自动战斗)时，服务器确定虚拟角色2为指定对象，并由AI接管对虚拟角色2的控制。

步骤52，将各个虚拟对象的第一类型特征以及指定对象的第二类型特征输入行为确定模型，获得行为信息，该行为信息用于指示该指定对象可执行的至少一项行为。

步骤53，将各个虚拟对象的第一类型特征输入目标确定模型，获得目标信息，该目标信息用于指示该各个虚拟对象中的第一虚拟对象。

步骤54，控制该指定对象对该第一虚拟对象执行该行为信息对应的至少一项行为。

在本申请实施例中，服务器需要对指定对象进行控制时，服务器可以通过机器学习模型对虚拟场景中的各个虚拟对象的特征进行处理，通过两个机器学习模型分别获得指定对象所要执行的行为，以及，执行行为的目标对象，并控制指定对象对目标对象执行确定的至少一项行为。在此过程中，服务器通过训练好的两个机器学习模型，对虚拟场景中的各个虚拟对象的属性和行为的特征进行处理，以分别确定指定对象需要执行的行为和执行行为的目标对象，再控制指定对象，对目标对象执行确定的行为，由于虚拟对象的属性和行为能够较为全面的体现虚拟场景的实际情况，因此，通过机器学习模型和虚拟对象的属性和行为的特征，能够准确性的确定指定对象需要执行的行为和目标对象，从而提高执行对象的行动方案确定的准确性，提高对指定对象的控制效果。

上述图5所示的方案，可以应用于各种包含虚拟对象，且虚拟对象具有预定的属性和行为能力的虚拟场景中，该虚拟场景包括但不限于回合制的虚拟场景以及即时动作类的虚拟场景等。本申请下面的实施例将以上述图5所示的方案应用于回合制的虚拟场景为例进行说明。

图6是根据一示例性实施例示出的一种虚拟场景中的虚拟对象控制方法的流程图，该虚拟场景中的虚拟对象控制方法可以用于计算机设备，比如服务器中，以对虚拟场景中的虚拟对象进行控制，其中，该虚拟场景中包含至少两个对象组，每个对象组中包含至少一个虚拟对象。比如，该虚拟场景可以回合制游戏场景。如图6所示，该虚拟场景中的虚拟对象控制方法可以包括如下步骤：

步骤601，获取虚拟场景中的各个虚拟对象的第一类型特征，以及各个虚拟对象中的指定对象的第二类型特征。

以本申请所示的方案应用于双方或多方对战的回合制游戏场景为例，在回合制游戏场景中可以获取的数据包括用户控制的虚拟对象和AI控制的虚拟对象(为了叙述的方便，将用户控制的虚拟对象和AI控制的虚拟对象统称为虚拟对象)，每个虚拟对象包含了若干基础属性特征，比如血量(也称为生命值)、蓝量(有些场景也称为魔法值)、攻击力、防御、敏捷度、命中率，同时，每个虚拟对象也具有若干普攻、1技能、2技能、大招等行为能力，每种行为又有若干特征，比如蓝耗、攻击范围或是防守范围、技能所带的附加状态，比如对自己或友方对象施加的增益状态(Buff)，或者，对敌方对象施加的负面状态(DeBuff)等等，以及Buff或者DeBuff的类型等(其中，Buff的类型可以包括加血，加物理防御，加物理攻击等等，DeBuff的类型可以是减血，减物理防御，减物理攻击等等)。

本方案根据上述描述的属性特征(即上述第一类型特征)的数据将其分类两大类，一类是静态的属性特征，一类是动态的属性特征。静态的属性特征是描述虚拟对象不随时间改变的一些属性，比如角色的血量上限、攻击力、防御、敏捷度、命中率、技能的蓝耗等，这些属性可以很好的表征虚拟对象在回合制游戏中的角色地位，比如通过这些静态属性可以区分哪些虚拟对象是防御型的、哪些虚拟对象是治疗型的、哪些虚拟对象是攻击型的。

动态的属性特征是虚拟对象在战斗过程中，随着对战进行而改变的一些属性特征，比如技能攻击的具体值或加血的具体值、虚拟对象的当前血量、当前拥有的蓝量，虚拟对象身上有哪些类型的Buff或者DeBuff等。上述动态的属性特征的具体数据可以从实际的游戏场景中获取，也可以通过游戏方提供的SDK模拟游戏场景来获取。这些动态的属性特征会影响到当前状态需要使用的技能，比如虚拟对象血量较低，可能会倾向于释放加血技能，当蓝量不足时，倾向于使用普通攻击技能。

对于上述用于表征各个虚拟对象的基础攻击力、总血量等属性的静态的属性特征，第i个角色的静态的属性特征可表示为：

S_i＝{s_i，1，s_i，2，...，s_i，F}；

其中，F为每个虚拟对象的静态的特征个数，这里每个虚拟对象的静态的特征个数相同，所有虚拟对象的静态的属性特征的集合可表示为：

S＝{S₁，S₂，...，S_i，...}；

用于表征随着回合对战的进行，状态值不断变化的属性的动态的属性特征，第i个虚拟对象的动态的属性特征可表示为：

D_i＝{d_i，1，d_i，2，...，d_i，G}；

其中，G为每个虚拟对象的动态的特征个数，这里每个虚拟对象的动态的特征个数相同，所有虚拟对象的动态的属性特征的集合可表示为：

D＝{D₁，D₂，...，D_i，...}；

为了能更好的分析和建模，本申请实施例还可以把某个具体的虚拟对象的动态和静态的属性特征单独分析，统称为虚拟对象i的属性特征，可表示为：

R_i＝{S_i，D_i}；

为了能区别每种行为(即技能)，本申请实施例还可以单独分析每种行为的特征，虚拟对象i的第j种行为的特征可表示为：

T_i，j＝{t_i，j，1，t_i，j，2，...，t_i，j，k，...}；

步骤602，将各个虚拟对象的第一类型特征以及指定对象的第二类型特征输入行为确定模型，获得行为信息，该行为信息用于指示该指定对象可执行的至少一项行为。

在一种可能的实现方式中，行为确定模型的输入是虚拟场景中的各个虚拟对象的第一类型特征(即静态的属性特征和动态的属性特征)，以及指定对象的第二类型特征(即行为的特征)，输出的是指定对象的每一种行为被执行的概率。服务器可以根据行为确定模型输出的每一种行为被执行的概率，将行为确定模型输出的每一种行为被执行的概率获取为上述行为信息。其中，该行为信息指示的至少一项行为，可以是确定模型输出的被执行的概率最高的至少一项行为。

比如，在回合制的游戏场景中，在每个回合中，服务器控制的虚拟对象(即上述指定对象)需要选择一个技能进行释放，为此采用机器学习模型对虚拟对象需要释放的技能进行建模。请参考图7，其示出了本申请实施例涉及的一种行为确定模型的结构图。如图7所示，该行为确定模型的输入数据中，S_i，D_i，R_i，T_i，k，分别表示虚拟对象i的静态的属性特征、动态的属性特征、当前需要预测技能释放的虚拟对象i的特征和虚拟对象i的各个技能的特征。图7所示的模型的输出节点个数(也称维度数)可以根据虚拟场景中的各个虚拟对象的主动技能的个数进行确定，比如，在某个虚拟场景中，各个虚拟对象的主动技能最多不超过5个，则该模型的输出节点的个数可以设置为5，对于其它虚拟场景，可以根据虚拟场景中的虚拟对象的主动技能数量进行相应调整，其模型框架可以不变。在图7所示的模型中，包含输入层、隐藏层以及输出层，隐藏层可以包含若干层线性整流函数(Rectified LinearUnit，ReLU)，输出层可以是全连接层。其中，输入特征的维度数、隐藏层的层数，每个隐藏层的维度数以及输出维度数都可以由开发者自行设定，比如，在某一个游戏场景使用的模型中，模型的输入特征可以为1165维，隐藏层是两层，维度数分别为2048，1024，输出维度是5，模型的输出表示释放每个技能的可能性，对于其他游戏场景，维度数可作相应的调整，其模型框架不变。

在本申请实施例中，当预测出行为后，需要判断行为是针对己方对象执行(比如防御技能)还是针对对方对象执行(比如攻击技能)，若是针对己方对象执行，则执行步骤607，采用一定的策略从我方对象中选择一个虚拟对象执行确定的行为，否则，执行下述步骤603，通过目标确定模型，从对方对象中确定一个虚拟对象执行确定的行为。

步骤603，当行为信息指示的至少一项行为是针对指定对象所在的对象组之外的其它虚拟对象的行为时，将该各个虚拟对象的第一类型特征输入目标确定模型，获得目标信息，该目标信息用于指示该其它虚拟对象中的第一虚拟对象。

可选的，在将该各个虚拟对象的第一类型特征输入目标确定模型，获得该目标信息时，可以将该各个虚拟对象的第一类型特征输入该目标确定模型，获得该目标确定模型输出的目标概率数组，该目标概率数组用于指示该指定对象所在的对象组之外的其它虚拟对象的被选择概率；并将该目标概率数组获取为该目标信息。

可选的，在控制该指定对象对该第一虚拟对象执行该行为信息对应的至少一项行为之前，可以根据该目标概率数组，将被选择概率最大的虚拟对象确定为该第一虚拟对象。

比如，在回合制游戏场景中，若同队伍中各个虚拟对象在每个回合集中攻击某个目标，通常有利于在游戏中获胜，本申请所示的方案，可以采用机器学习模型对需要被执行上述确定的至少一项行为的虚拟对象(即第一虚拟对象)进行建模，请参考图8，其示出了本申请实施例涉及的一种目标确定模型的结构图。如图8所示，该目标确定模型中，特征S_i，D_i分别表示虚拟对象i的静态的属性特征和动态的属性特征，在一种可能的回合制游戏场景中，i∈[1，20]，分别代表我方的10个虚拟对象和敌方的10个虚拟对象。对于其它游戏场景，其虚拟对象的数量可以作相应的调整，其模型框架不变。考虑到模型的通用型，在本申请实施例中，可以将血量、敏捷度、防御值等静态或动态的属性特征都做了归一化处理，即采用归一化后的相对值作为输入特征，有利于提高模型的通用型。图8所示的模型的输出节点个数(也称维度数)可以根据虚拟场景中，除了指定对象所在的对象组之外的其它各个虚拟对象的个数进行确定，比如，在某个游戏场景中，敌方虚拟对象的个数最多不超过10个，则该模型的输出节点的个数可以设置为10，对于其它虚拟场景，可以根据虚拟场景中的虚拟对象的主动技能数量进行相应调整，其模型框架可以不变。在图8所示的模型中，包含输入层、隐藏层以及输出层，输入特征为270维，隐藏层为两层，维度数分别为800、400、输出维度为10。对于其它游戏场景，各层维度数可作相应的调整，其模型框架可以不变。

步骤604，控制该指定对象对该第一虚拟对象执行该行为信息对应的至少一项行为。

可选的，当该指定对象对应的用户账号处于离线状态，或者，当该指定对象被设置为由人工智能进行控制时，执行控制该指定对象对该第一虚拟对象执行该行为信息对应的至少一项行为的步骤。

在本申请实施例中，可以在指定对象的用户账号掉线或者设置托管时，由系统控制指定对象对确定的第一虚拟对象执行确定的至少一项行为。

步骤605，获取该指定对象对该第一虚拟对象执行该行为信息对应的至少一项行为的执行结果。

步骤606，根据该执行结果对该行为确定模型和该目标确定模型进行更新。

在一种可能的实现方式中，上述行为确定模型和目标确定模型可以是服务器预先设置若干个训练样本，并通过训练样本进行训练获得的机器学习模型。上述训练样本可以是用户在实际对虚拟场景中的虚拟对象进行控制时采集的样本，比如，训练样本中可以包括某一虚拟场景中某一个回合下的各个虚拟对象的第一类型属性、其中虚拟对象A的第二类型属性，以及该虚拟对象A对应的用户在该回合中控制该虚拟对象A执行的行为。

在上述可能的实现方式中，指定对象对该第一虚拟对象执行该行为信息对应的至少一项行为的执行结果，可以包括指定对象对该第一虚拟对象执行该行为信息对应的至少一项行为后的各个虚拟对象的状态等。服务器获取到执行结果后，将该执行结果，以及上述行为信息和目标信息作为新的训练样本，并通过该新的训练样本对行为确定模型和该目标确定模型进行训练更新。

在另一种可能的实现方式中，上述行为确定模型以及目标确定模型可以是增强学习模型。其中，增强学习模型的特点是不需要明确的训练样本，在训练过程中向模型输入的数据类型和实际使用的过程中向模型输入的数据类型一致，模型通过输出结果所产生的效果不断迭代更新，直至可以付诸使用。

在本申请实施例中，当上述行为确定模型以及目标确定模型是增强学习模型时，指定对象对该第一虚拟对象执行该行为信息对应的至少一项行为的执行结果，可以是指定对象对该第一虚拟对象执行该行为信息对应的至少一项行为后，虚拟场景中各个虚拟对象的状态，比如是否被淘汰等。在对该行为确定模型和该目标确定模型进行更新时，服务器可以将根据指定对象按照行为确定模型以及目标确定模型的输出结果执行行为之前，虚拟场景中的各个虚拟对象的状态，与根据指定对象按照行为确定模型以及目标确定模型的输出结果执行行为后，虚拟场景中的各个虚拟对象的状态进行比对，获得指定对象对该第一虚拟对象执行该行为信息对应的至少一项行为对于上述确定模型以及目标确定模型的激励值，并根据该激励数值，以及行为确定模型以及目标确定模型的输出结果，对行为确定模型以及目标确定模型进行更新。

在增强学习中，需要设置激励以不断的更新模型。比如，在回合制游戏场景中，激励计算需要考虑的因素可以包括：1)每场战斗最终的输赢；2)在某个回合的状态中，敌方被淘汰多还是我方被淘汰多；3)战斗进行的回合数，若胜利并且使用的回合数越少，说明目标和技能预测越正确，激励应该正向越大，反之，若失败并且使用的回合数越少，激励就应该负向越大。

其中，在训练上述目标确定模型和行为确定模型时，可以使用中央处理器(Central Processing Unit，CPU)或者图形处理器(Graphics Processing Unit，GPU)对模型进行训练和更新，其中，使用GPU能更快的训练和更新模型。

步骤607，当该行为信息指示的至少一项行为是针对该指定对象所在的对象组之内的虚拟对象的行为时，根据该指定对象所在的对象组之内的虚拟对象的指定类型属性，确定出该指定对象所在的对象组之内的虚拟对象中的第二虚拟对象。

可选的，在确定出该指定对象所在的对象组之内的虚拟对象中的第二虚拟对象时，可以将该指定对象所在的对象组之内的虚拟对象中，对应该指定类型属性的属性数值最低的虚拟对象确定为该第二虚拟对象。

比如，在回合制游戏中，当确定的技能是防御性技能时，系统可以将我方角色中，血量最低或者防御力最低的角色确定为释放技能的对象。

或者，将该指定对象所在的对象组之内的虚拟对象中，对应该指定类型属性的属性数值最高的虚拟对象确定为该第二虚拟对象。

步骤608，控制该指定对象对该第二虚拟对象执行该行为信息对应的至少一项行为。

步骤609，获取该指定对象对该第二虚拟对象执行该行为信息对应的至少一项行为的执行结果。

步骤610，根据该执行结果对该行为确定模型进行更新。

其中，上述步骤609至步骤610中对行为确定模型进行更新的步骤，与上述步骤605至步骤606中对行为确定模型和目标确定模型进行更新的步骤类似，此处不再赘述。

综上所述，本申请实施例所示的方案中，服务器通过训练好的两个机器学习模型，对虚拟场景中的各个虚拟对象的属性和行为的特征进行处理，以分别确定指定对象需要执行的行为和执行行为的目标对象，再控制指定对象，对目标对象执行确定的行为，由于虚拟对象的属性和行为能够较为全面的体现虚拟场景的实际情况，因此，通过机器学习模型和虚拟对象的属性和行为的特征，能够准确性的确定指定对象需要执行的行为和目标对象，从而提高执行对象的行动方案确定的准确性，提高对指定对象的控制效果。

在一种可能的应用中，通过本申请上述图5或图6所示的方案，回合制游戏场景的服务器可以采用深度强化学习(Deep Q-Learning，DQN)技术对玩家方的角色进行建模，以达到当玩家掉线时可以接管玩家继续战斗的目的。在回合制游戏场景中需要找到攻击的目标，为此，服务器对需要攻击的目标建立一个增强学习预测模型(对应上述目标确定模型)。同时，由于需要根据当前状态预测我方角色使用哪个技能攻击，为此服务器建立一个预测释放哪个技能的增强学习模型(对应上述行为确定模型)。即本方案中的AI，是对攻击目标和技能释放分别建模的双模型回合制游戏AI。这两个模型的结构可以相同，不同的是输入的特征、数量以及输出的目标。

请参考图9，其是根据一示例性实施例示出的一种模型训练及更新的流程示意图。如图9所示，上述双模型回合制游戏AI的模型架构主要分为三个层次，底层是针对角色的基本信息和战斗过程中的状态信息提取出模型需要的特征，其作用是通过战斗信息和角色基本信息分别提取动态的属性特征和静态的属性特征，并对提取的特征进行归一化等处理。中间层是模型训练层，在这一层主要通过双预测模型分别完成攻击目标预测和角色技能释放预测，攻击目标、角色技能释放的好坏的判断(激励计算)以及模型的更新。最上层是与项目组提供的软件开发工具包(Software Development Kit，SDK)或者服务器的场景控制逻辑进行交互，比如，在模型训练阶段，将模型预测的结果通过接口与SDK进行交互，由SDK根据模型预测结果模拟执行动作，并收集当前回合结束后的状态信息以进行下一轮的迭代，在实际应用阶段，控制虚拟场景中的指定对象按照模型预测结果执行动作，并收集当前回合结束后的状态信息以进行下一轮的迭代；收集的状态信息将反馈给中间层，以对模型进行更新。

为了验证方案的有效性，本申请所示的方案对某回合制游戏进行实验，训练模型时，只需要与项目组提供的SDK进行实时交互即可，不需要事先收集大量的对战。本方案采用了分别训练攻击目标预测模型和技能预测模型的方式。在训练目标预测模型中，总共训练了约8000场，每一场战斗包含12-20个回合不等，总训练次数超过10万次。在训练技能预测模型中，总共训练约9000场，训练次数大约在17万次。经过测试发现，使用本方案模型用户的胜率在20％左右，相比于随机使用技能选择目标攻击策略不到1％的胜率而言，用户胜率有了很大的提升。

通过本申请所示的方案，可以在回合制游戏场景中采用对需要攻击的目标、和当前角色需要释放的技能分别建模，然后将两个模型进行综合，有效的解决了在回合制游戏场景中，当个别用户账号离线时影响其他用户的体验的问题，并能够解决了采用行为树+进行建模时缺乏通用性，建模时考虑因素受限的问题。

图10是根据一示例性实施例示出的一种虚拟场景中的虚拟对象控制装置的结构方框图。该虚拟场景中的虚拟对象控制装置可以用于计算机设备中，以执行图5或图6所示实施例中的全部或者部分步骤。其中，虚拟场景中包含至少两个对象组，每个对象组中包含至少一个虚拟对象，该虚拟场景中的虚拟对象控制装置可以包括：

特征获取模块1001，用于获取所述虚拟场景中的各个虚拟对象的第一类型特征，以及所述各个虚拟对象中的指定对象的第二类型特征，所述第一类型特征用于指示对应的虚拟对象的属性，所述第二类型特征用于指示对应的虚拟对象的行为能力；

行为信息获取模块1002，用于将所述各个虚拟对象的第一类型特征以及所述指定对象的第二类型特征输入行为确定模型，获得行为信息，所述行为信息用于指示所述指定对象可执行的至少一项行为；

目标信息获取模块1003，用于将所述各个虚拟对象的第一类型特征输入目标确定模型，获得目标信息，所述目标信息用于指示所述各个虚拟对象中的第一虚拟对象；

控制模块1004，用于控制所述指定对象对所述第一虚拟对象执行所述行为信息对应的至少一项行为。

可选的，所述目标信息获取模块1003，具体用于当所述行为信息指示的至少一项行为是针对所述指定对象所在的对象组之外的其它虚拟对象的行为时，执行所述将所述各个虚拟对象的第一类型特征输入目标确定模型，获得目标信息的步骤。

可选的，所述目标信息获取模块1003，具体用于，

将所述各个虚拟对象的第一类型特征输入所述目标确定模型，获得所述目标确定模型输出的目标概率数组，所述目标概率数组用于指示所述指定对象所在的对象组之外的其它虚拟对象的被选择概率；

将所述目标概率数组获取为所述目标信息。

可选的，所述装置还包括：

第一对象确定模块，用于在所述控制模块1004控制所述指定对象对所述第一虚拟对象执行所述行为信息对应的至少一项行为之前，根据所述目标概率数组，将被选择概率最大的虚拟对象确定为所述第一虚拟对象。

可选的，所述装置还包括：

第二对象确定模块，用于当所述行为信息指示的至少一项行为是针对所述指定对象所在的对象组之内的虚拟对象的行为时，根据所述指定对象所在的对象组之内的虚拟对象的指定类型属性，确定出所述指定对象所在的对象组之内的虚拟对象中的第二虚拟对象；

所述控制模块1004，还用于控制所述指定对象对所述第二虚拟对象执行所述行为信息对应的至少一项行为。

可选的，所述第二对象确定模块，具体用于，

将所述指定对象所在的对象组之内的虚拟对象中，对应所述指定类型属性的属性数值最低的虚拟对象确定为所述第二虚拟对象；

或者，

将所述指定对象所在的对象组之内的虚拟对象中，对应所述指定类型属性的属性数值最高的虚拟对象确定为所述第二虚拟对象。

可选的，所述装置还包括：

第一执行结果获取模块，用于获取所述指定对象对所述第一虚拟对象执行所述行为信息对应的至少一项行为的执行结果；

第一更新模块，用于根据所述执行结果对所述行为确定模型和所述目标确定模型进行更新。

可选的，所述装置还包括：

第二执行结果获取模块，用于获取所述指定对象对所述第二虚拟对象执行所述行为信息对应的至少一项行为的执行结果；

第二更新模块，用于根据所述执行结果对所述行为确定模型进行更新。

可选的，在控制所述指定对象对所述第一虚拟对象执行所述行为信息对应的至少一项行为时，所述控制模块1004，具体用于，

当所述指定对象对应的用户账号处于离线状态，或者，当所述指定对象被设置为由人工智能进行控制时，执行控制所述指定对象对所述第一虚拟对象执行所述行为信息对应的至少一项行为的步骤。

可选的，所述行为确定模型和所述目标确定模型是增强学习模型。

综上所述，本申请实施例所示的方案中，通过训练好的两个机器学习模型，对虚拟场景中的各个虚拟对象的属性和行为的特征进行处理，以分别确定指定对象需要执行的行为和执行行为的目标对象，再控制指定对象，对目标对象执行确定的行为，由于虚拟对象的属性和行为能够较为全面的体现虚拟场景的实际情况，因此，通过机器学习模型和虚拟对象的属性和行为的特征，能够准确性的确定指定对象需要执行的行为和目标对象，从而提高执行对象的行动方案确定的准确性，提高对指定对象的控制效果。

图11是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1100包括中央处理单元(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入/输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入/输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1107可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理单元1101通过执行该一个或一个以上程序来实现图5或图6所示的方法的全部或者部分步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法的全部或者部分步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种虚拟场景中的虚拟对象控制方法，其特征在于，所述虚拟场景中包含至少两个对象组，每个所述对象组中包含至少一个虚拟对象，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述各个虚拟对象的第一类型特征输入目标确定模型，获得目标信息，包括：

当所述行为信息指示的至少一项行为是针对所述指定对象所在的对象组之外的其它虚拟对象的行为时，执行所述将所述各个虚拟对象的第一类型特征输入目标确定模型，获得目标信息的步骤。

3.根据权利要求2所述的方法，其特征在于，所述将所述各个虚拟对象的第一类型特征输入目标确定模型，获得所述目标信息，包括：

将所述目标概率数组获取为所述目标信息。

4.根据权利要求3所述的方法，其特征在于，所述控制所述指定对象对所述第一虚拟对象执行所述行为信息对应的至少一项行为之前，所述方法还包括：

根据所述目标概率数组，将被选择概率最大的虚拟对象确定为所述第一虚拟对象。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当所述行为信息指示的至少一项行为是针对所述指定对象所在的对象组之内的虚拟对象的行为时，根据所述指定对象所在的对象组之内的虚拟对象的指定类型属性，确定出所述指定对象所在的对象组之内的虚拟对象中的第二虚拟对象；

控制所述指定对象对所述第二虚拟对象执行所述行为信息对应的至少一项行为。

6.根据权利要求5所述的方法，其特征在于，所述当所述行为信息指示的至少一项行为是针对所述指定对象所在的对象组之内的虚拟对象的行为时，根据所述指定对象所在的对象组之内的虚拟对象的指定类型属性，确定出所述指定对象所在的对象组之内的虚拟对象中的第二虚拟对象，包括：

或者，

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述指定对象对所述第一虚拟对象执行所述行为信息对应的至少一项行为的执行结果；

根据所述执行结果对所述行为确定模型和所述目标确定模型进行更新。

8.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述指定对象对所述第二虚拟对象执行所述行为信息对应的至少一项行为的执行结果；

根据所述执行结果对所述行为确定模型进行更新。

9.根据权利要求1所述的方法，其特征在于，所述控制所述指定对象对所述第一虚拟对象执行所述行为信息对应的至少一项行为，包括：

10.根据权利要求1至9任一所述的方法，其特征在于，所述行为确定模型和所述目标确定模型是增强学习模型。

11.一种虚拟场景中的虚拟对象控制装置，其特征在于，所述虚拟场景中包含至少两个对象组，每个所述对象组中包含至少一个虚拟对象，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述目标信息获取模块，具体用于当所述行为信息指示的至少一项行为是针对所述指定对象所在的对象组之外的其它虚拟对象的行为时，执行所述将所述各个虚拟对象的第一类型特征输入目标确定模型，获得目标信息的步骤。

13.根据权利要求12所述的装置，其特征在于，所述目标信息获取模块，具体用于，

将所述目标概率数组获取为所述目标信息。

14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的虚拟场景中的虚拟对象控制方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的虚拟场景中的虚拟对象控制方法。