CN112933600A

CN112933600A - 虚拟对象控制方法、装置、计算机设备和存储介质

Info

Publication number: CN112933600A
Application number: CN202110255524.5A
Authority: CN
Inventors: 王善意; 杨木; 武建芳; 王宇舟; 郭仁杰; 杨正云; 杨少杰; 刘永升
Original assignee: Super Parameter Technology Shenzhen Co ltd
Current assignee: Super Parameter Technology Shenzhen Co ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-11
Anticipated expiration: 2041-03-09
Also published as: CN112933600B

Abstract

本申请涉及一种虚拟对象控制方法、装置、计算机设备和存储介质。包括：获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征；将当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及候选视野角度集合中各个候选视野角度对应的视野预测概率；基于各个候选交互任务对应的交互任务预测概率从候选交互任务集合中选取候选交互任务，作为目标交互任务；选取候选视野角度，作为目标视野角度；控制目标虚拟对象将视野调整到目标视野角度，并执行目标交互任务。提高了目标虚拟对象的灵活性以及任务执行的准确度。

Description

虚拟对象控制方法、装置、计算机设备和存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种虚拟对象控制方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的不断发展，基于虚拟环境的游戏越来越普遍，例如，用户可以在射击游戏中与其他游戏玩家在虚拟环境中进行竞技。

在虚拟环境中，可以通过人工智能进行竞技，例如在游戏玩家掉线时进行托管，利用交互模型代替玩家在虚拟环境中进行竞技。然而目前的交互模型存在输出的任务不够灵活的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种虚拟对象控制方法、装置、计算机设备和存储介质。

一种虚拟对象控制方法，所述方法包括：获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征；将所述当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及所述候选视野角度集合中各个候选视野角度对应的视野预测概率，所述候选交互任务集合包括多个候选交互任务，所述候选视野角度集合包括多个候选视野角度；基于各个所述候选交互任务对应的交互任务预测概率从所述候选交互任务集合中选取候选交互任务，作为目标交互任务；基于各个所述候选视野角度对应的视野预测概率从所述候选视野角度集合中选取候选视野角度，作为目标视野角度；控制所述目标虚拟对象将视野调整到所述目标视野角度，并执行所述目标交互任务。

一种虚拟对象控制装置，所述装置包括：当前状态特征获取模块，用于获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征；预测概率得到模块，用于将所述当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及所述候选视野角度集合中各个候选视野角度对应的视野预测概率，所述候选交互任务集合包括多个候选交互任务，所述候选视野角度集合包括多个候选视野角度；目标交互任务得获取模块，用于基于各个所述候选交互任务对应的交互任务预测概率从所述候选交互任务集合中选取候选交互任务，作为目标交互任务；目标视野角度获取模块，用于基于各个所述候选视野角度对应的视野预测概率从所述候选视野角度集合中选取候选视野角度，作为目标视野角度；执行模块，用于控制所述目标虚拟对象将视野调整到所述目标视野角度，并执行所述目标交互任务。

在一些实施例中，所述预测概率得到模块用于：将所述当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率、所述候选视野角度集合中各个候选视野角度对应的视野预测概率、以及各个所述候选交互任务对应的候选子任务集合中各个候选子任务的子任务预测概率，所述候选子任务集合包括多个候选子任务；所述控制所述目标虚拟对象将视野调整到所述目标视野角度，并执行所述目标交互任务包括：基于所述目标交互任务对应的候选子任务的子任务预测概率，从所述目标交互任务对应的候选子任务集合中选取候选子任务，作为目标子任务；控制所述目标虚拟对象将视野调整到所述目标视野角度，并执行所述目标子任务。

在一些实施例中，所述交互模型包括并行任务预测输出层以及非并行任务预测输出层，所述预测概率得到模块用于：将所述当前状态特征输入到已训练的交互模型的特征提取层中进行特征提取，得到提取特征；将所述提取特征输入到所述并行任务预测输出层中，所述并行任务预测输出层输出所述候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及所述候选视野角度集合中各个候选视野角度对应的视野预测概率；将所述提取特征输入到所述非并行任务预测输出层中，得到各个所述候选交互任务对应的候选子任务集合中各个候选子任务的子任务预测概率。

在一些实施例中，所述目标视野角度包括第一目标方向角度以及第二目标方向角度；所述预测概率得到模块用于：所述已训练的交互模型输出在上下方向对应的第一候选方向角度集合中，各个第一候选方向角度对应的第一视野预测概率，所述第一候选方向角度集合包括对上下方向对应的上下角度范围进行划分得到的多个第一候选方向角度；所述已训练的交互模型输出在左右方向对应的第二候选方向角度集合中，各个第二候选方向角度对应的第二视野预测概率，所述第二候选方向角度集合包括对左右方向对应的左右角度范围进行划分得到的多个第二候选方向角度；所述基于各个所述候选视野角度对应的视野预测概率从所述候选视野角度集合中选取候选视野角度，作为目标视野角度包括：基于所述第一视野预测概率从所述第一候选方向角度集合中选取得到第一候选方向角度，作为第一目标方向角度；基于所述第二视野预测概率从所述第二候选方向角度集合中选取得到第二候选方向角度，作为第二目标方向角度。

在一些实施例中，所述当前状态特征获取模块包括：声音确定单元，用于确定目标虚拟对象所处的当前虚拟环境中产生的声音；声音位置获取单元，用于获取所述声音对应的声音位置，作为所述目标虚拟对象所处的当前虚拟环境对应的当前状态特征。

在一些实施例中，所述已训练的交互模型的训练模块用于：获取训练虚拟对象当前所处的训练虚拟环境对应的训练状态特征；将所述训练状态特征输入到待训练的交互模型中进行视野预测以及交互任务预测，得到所述候选交互任务集合中各个候选交互任务对应的训练预测概率，以及所述候选视野角度集合中各个候选视野角度对应的训练视野预测概率；基于各个所述候选交互任务对应的训练预测概率从所述候选交互任务集合中选取候选交互任务，作为训练交互任务；基于所述候选视野角度集合中各个候选视野角度对应的训练视野预测概率，从所述候选视野角度集合中选取候选视野角度，作为训练视野角度；控制所述训练虚拟对象将视野调整到所述训练视野角度，并执行所述训练交互任务，得到所述训练虚拟对象当前所处的训练虚拟环境对应的更新状态；基于更新状态特征调整待训练的交互模型的模型参数，得到已训练的交互模型。

在一些实施例中，所述训练模块用于：获取所述训练交互任务对应的训练预测概率中最大的训练预测概率；产生随机数；当所述随机数在所述最大的训练预测概率的数值范围内时，则选取所述最大的训练预测概率对应的候选交互任务，作为训练交互任务；当所述随机数在所述最大的训练预测概率的数值范围外时，则随机选取所述候选交互任务集合中的候选交互任务，作为训练交互任务。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征；将所述当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及所述候选视野角度集合中各个候选视野角度对应的视野预测概率，所述候选交互任务集合包括多个候选交互任务，所述候选视野角度集合包括多个候选视野角度；基于各个所述候选交互任务对应的交互任务预测概率从所述候选交互任务集合中选取候选交互任务，作为目标交互任务；基于各个所述候选视野角度对应的视野预测概率从所述候选视野角度集合中选取候选视野角度，作为目标视野角度；控制所述目标虚拟对象将视野调整到所述目标视野角度，并执行所述目标交互任务

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征；将所述当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及所述候选视野角度集合中各个候选视野角度对应的视野预测概率，所述候选交互任务集合包括多个候选交互任务，所述候选视野角度集合包括多个候选视野角度；基于各个所述候选交互任务对应的交互任务预测概率从所述候选交互任务集合中选取候选交互任务，作为目标交互任务；基于各个所述候选视野角度对应的视野预测概率从所述候选视野角度集合中选取候选视野角度，作为目标视野角度；控制所述目标虚拟对象将视野调整到所述目标视野角度，并执行所述目标交互任务。

上述虚拟对象控制方法、装置、计算机设备和存储介质，获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征；将当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及候选视野角度集合中各个候选视野角度对应的视野预测概率，候选交互任务集合包括多个候选交互任务，候选视野角度集合包括多个候选视野角度；基于各个候选交互任务对应的交互任务预测概率从候选交互任务集合中选取候选交互任务，作为目标交互任务；基于各个候选视野角度对应的视野预测概率从候选视野角度集合中选取候选视野角度，作为目标视野角度；控制目标虚拟对象将视野调整到目标视野角度，并执行目标交互任务。由于基于当前状态特征，可以并行进行多任务预测，得到目标视野角度以及目标交互任务，并控制目标虚拟对象将视野调整到目标视野角度，并执行目标交互任务，故可以使得目标虚拟对象在调整视野角度时，也可以执行目标交互任务，故提高了目标虚拟对象的灵活性以及任务执行的准确度。

附图说明

图1为一个实施例中虚拟对象控制方法的应用环境图；

图2为一个实施例中虚拟对象控制方法的流程示意图；

图3为一个实施例中交互模型的处理原理示意图；

图4为一个实施例中上下方向对应的角度范围的示意图；

图5为一个实施例中左右方向对应的角度范围的示意图；

图6为另一个实施例中虚拟对象控制方法的流程示意图；

图7为另一个实施例中型训练以及模型应用的流程示意图；

图8为一个实施例中虚拟对象控制装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的虚拟对象控制方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端110上运行有交互应用，服务器104可以执行本申请实施例提供的虚拟对象控制方法，控制所对应的目标虚拟对象将视野调整到目标视野角度，并执行目标交互任务，终端102可以显示将视野调整到目标视野角度，并执行目标交互任务的结果。以游戏为例，终端上可以运行有游戏应用，当游戏玩家需要托管游戏时，可以向服务器104发送托管请求，服务器104接收到该游戏托管请求时，将终端102的游戏应用上登录的用户账号对应的游戏角色例如A角色作为目标虚拟对象，执行本申请实施例提供的虚拟对象控制方法，如果得到目标视野角度为向上10度以及向右20度，目标交互任务为射击，则控制A角色将瞄准角度调整到向上10度以及向右20度，并进行射击，终端102上可以显示射击的结果。

可以理解，本申请实施例提供的虚拟对象控制方法，还可以应用于各种3D类游戏的温暖局、玩家训练、掉线托管或者人机对战等应用场景。温暖局是指游戏玩家在游戏中的失败次数超过预设次数或者失败程度超过预设程度时，通过人工智能模型与游戏玩家进行交互，该人工智能模型的交互等级低于该游戏玩家，从而使得游戏玩家能够在游戏中获胜。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种虚拟对象控制方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征。

其中，虚拟对象指在应用中例如游戏应用中虚拟出来的角色，为虚拟环境中的活动实体，可以由计算机设备或者人通过操作进行控制。虚拟对象可以是三维或者二维的，可以是人物虚拟对象或者动物虚拟对象等，目标虚拟对象是指所要控制的虚拟对象。例如，目标虚拟对象可以是游戏中的英雄角色。

虚拟环境是虚拟对象进行交互的环境，可以是二维交互环境或者三维交互环境。例如游戏运行时，可以通过屏幕显示虚拟环境，虚拟对象在该虚拟环境中进行交互。例如，游戏应用在运行时，可以显示图像帧，利用图像帧表示英雄人物所处的环境，以便游戏玩家了解英雄人物当前所处的环境。当前虚拟环境是指当前所处的虚拟环境。

状态特征是用于表示当前的状态的特征。状态用于表示目标虚拟对象所处的状况。例如可以包括对象信息特征、物资信息特征、声音信息特征、毒圈信息特征、装备信息特征或者全局信息特征中的至少一个。对象信息特征例如可以包括目标虚拟对象的等级特征以及得分特征。等级特征根据目标虚拟对象的游戏等级确定，得分特征根据目标虚拟对象的游戏得分确定。物资信息特征是根据物资信息得到的特征，例如游戏中的物资的数量或者类型等。装备信息特征是根据拥有的装备得到的特征。毒圈信息特征是根据毒圈得到的特征，例如毒圈的扩散时长等。在游戏过程中，会有一个圈驱逐游戏玩家到一个较小的地方交火，这个圈俗称为电圈”或者“毒圈”。全局信息特征根据全局信息所得到的特征。例如，游戏的小地图(全局地图)中显示全局的局面状况，则可以对小地图的图像特征进行提取，得到全局特征。例如可以对小地图进行区域划分，得到多个区域。可以获取小地图中各个区域分别对应的特征，例如物资量或者是否有悬崖等，作为该区域对应的全局特征。声音特征是虚拟环境中发出的声音的特征。例如声音对应的情感或者声音的坐标位置的至少一种。例如可以将声音输入到情感识别模型中进行情感的识别，得到该声音所对应的情感，例如是愤怒或者是开心。通过声音的情感特征，能够使得交互模型更加智能，能够基于情感确定要执行的任务。

具体地，服务器可以首先根据游戏服务器提供的数据接口对当前虚拟环境特征抽取，抽取的特征包括玩家信息特征、物资信息特征、声音信息特征、毒圈信息特征、装备信息特征以及全局信息特征等。例如可以获取当前虚拟环境对应的当前图像帧，对当前图像帧对应的信息进行特征抽取。

步骤S204，将当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及候选视野角度集合中各个候选视野角度对应的视野预测概率，候选交互任务集合包括多个候选交互任务，候选视野角度集合包括多个候选视野角度。

其中，交互模型是已经经过训练的机器学习模型，例如可以是采用PPO(ProximalPolicy Optimization，近端策略优化算法)强化学习算法训练得到的。交互模型可以是强化学习模型。

视野预测是指预测视野所对应的方向，例如对于射击游戏，可以是射击工具瞄准的方向，候选视野角度是候选的视野角度。交互任务是用于进行交互的任务，可以包括移动、攻击或者姿态控制的至少一种，候选交互任务是候选的交互任务，交互模型的目的是从候选的交互任务中选出要执行的任务。多个是指至少两个。交互任务预测概率是模型输出的预测得到的交互任务的概率。概率越大，说明该候选交互任务被选为要执行的任务的可能性越大。视野预测概率是模型输出的预测得到的视野的概率。视野可以通过角度进行表示，视野角度可以包括上下方向的角度或者左右方向的角度的至少一个，可以以目标对象所在的当前视线方向作为参考方向，候选视野方向是相对于参考方向而言的，是两个方向的夹角。

具体地，交互模型包括任务预测层以及视野预测层。可以将当前状态特征输入到交互模型中，任务预测层进行任务预测，得到交互任务预测概率，视野预测层进行视野角度的预测，得到各个视野角度的预测概率。

步骤S206，基于各个候选交互任务对应的交互任务预测概率从候选交互任务集合中选取候选交互任务，作为目标交互任务。

具体地，可以将满足概率条件的候选交互任务作为目标交互任务。例如可以将交互任务预测概率最大的候选交互任务作为目标交互任务，也可以是将交互任务预测概率最大且概率大于概率阈值的候选交互任务作为目标交互任务。可以理解，如果所有的候选交互任务均不满足概率条件，则不选取目标交互任务，此时，服务器可以控制目标虚拟对象不执行交互任务。

步骤S208，基于各个候选视野角度对应的视野预测概率从候选视野角度集合中选取候选视野角度，作为目标视野角度。

具体地，可以将满足概率条件的候选视野角度作为目标视野角度。例如可以将视野预测概率最大的候选视野角度作为目标视野角度，也可以是将视野预测概率最大且概率大于概率阈值的候选视野角度作为目标视野角度。

步骤S210，控制目标虚拟对象将视野调整到目标视野角度，并执行目标交互任务。

具体地，在得到目标视野角度以及目标交互任务后，服务器可以在控制目标虚拟对象将视野调整到目标视野角度的同时，执行该目标交互任务。例如，假设目标交互任务是进行移动，目标视野角度是往左10度以及往上20度。则控制目标虚拟对象将射击工具的瞄准角度往左移动10度以及往上移动20度。

上述虚拟对象控制方法中，由于基于当前状态特征，可以并行进行多任务预测，得到目标视野角度以及目标交互任务，并控制目标虚拟对象将视野调整到目标视野角度，并执行目标交互任务，故可以使得目标虚拟对象在调整视野角度时，也可以执行目标交互任务，故提高了目标虚拟对象的灵活性以及准确度。

在一些实施例中，获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征包括：确定目标虚拟对象所处的当前虚拟环境中产生的声音；获取声音对应的声音位置，作为目标虚拟对象所处的当前虚拟环境对应的当前状态特征。

具体地，当前环境中产生的声音可以是虚拟对象产生的，也可以是环境中的其他事物产生的，例如可以是爆炸的声音。声音的位置可以用坐标表示。通过获取声音的位置，作为当前虚拟环境对应的当前状态特征，可以使得在进行交互任务预测时，考虑声音的远近来进行预测，提高了预测的准确度。例如可以结合声音的位置以及情感进行预测，使得交互模型能够既考虑声音的位置也考虑声音的情感。

在一个实施例中，步骤S204即将当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及候选视野角度集合中各个候选视野角度对应的视野预测概率包括：将当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率、候选视野角度集合中各个候选视野角度对应的视野预测概率、以及各个候选交互任务对应的候选子任务集合中各个候选子任务的子任务预测概率，候选子任务集合包括多个候选子任务。步骤S210即控制目标虚拟对象将视野调整到目标视野角度，并执行目标交互任务包括：基于目标交互任务对应的候选子任务的子任务预测概率，从目标交互任务对应的候选子任务集合中选取候选子任务，作为目标子任务；控制目标虚拟对象将视野调整到目标视野角度，并执行目标子任务。

其中，一个候选交互任务可以包括多个候选子任务，子任务是属于交互任务的，子任务为更加细化的任务。子任务预测概率是预测的子任务的执行概率，概率越大，则被选为执行的子任务的可能性越大。交互模型在输出交互任务预测概率以及视野预测概率时，还输出候选子任务集合中各个候选子任务的子任务概率。服务器可以从目标交互任务对应的候选子任务中，选取子任务预测概率自最大的候选子任务，作为目标子任务。由于在得到目标交互任务时，服务器还可以进一步确定属于目标交互任务的更加细化的子任务，从而执行该子任务，从而使得任务的执行更加准确。

举个实际的例子，假设候选交互任务包括“姿态控制”以及“攻击”，“姿态控制”对应的候选子任务包括“蹲”和“趴”，“攻击”对应的候选子任务包括“是”和“否”。模型输出的“姿态控制”对应的交互任务预测概率为0.8，“攻击”对应的交互任务预测概率为0.2。“蹲”的子任务预测概率为0.9，“趴”对应的子任务预测概率为0.1，“攻击”对应的候选子任务“是”对应的子任务预测概率为0.95，“攻击”对应的候选子任务“否”对应的子任务预测概率为0.05。则由于候选交互任务中“姿态控制”的概率大于“攻击”对应的概率，因此服务器选取“姿态控制”作为目标交互任务，然后再从“姿态控制”对应的候选子任务“蹲”和“趴”中，选取概率最大的子任务“蹲”作为目标子任务。然后服务器控制目标虚拟对象执行该目标子任务。

在一些实施例中，候选交互任务对应的候选子任务包括“是”或者“否”。“是”表示要执行该候选交互任务，“否”表示不执行候选交互任务。则服务器在确定了目标交互任务之后，进一步判断该目标交互任务对应的候选子任务中，“是”或者“否”所分别对应的概率，如果“是”对应的子任务概率大于“否”对应的子任务概率，则执行该目标交互任务。如果“是”对应的子任务概率小于“否”对应的子任务概率，则不执行该目标交互任务。通过使得候选交互任务对应的候选子任务包括“是”或者“否”，即使通过交互任务预测概率选取出来了目标交互任务，也需要进行进一步的判断，确定是否执行该目标交互任务。即相当于模型是先从多个候选交互任务中选取了最优的候选交互任务，然后再基于最优的候选交互任务对应的两个子标签“是”或者“否”确定该最优的候选交互任务是否能够执行，模拟了人执行任务时的精细判断过程，从而使得模型的任务预测更加准确。

在一些实施例中，交互模型包括并行任务预测输出层以及非并行任务预测输出层，将当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率、候选视野角度集合中各个候选视野角度对应的视野预测概率，以及各个候选交互任务对应的候选子任务集合中各个候选子任务的子任务预测概率包括：将当前状态特征输入到已训练的交互模型的特征提取层中进行特征提取，得到提取特征；将提取特征输入到并行任务预测输出层中，并行任务预测输出层输出候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及候选视野角度集合中各个候选视野角度对应的视野预测概率；将提取特征输入到非并行任务预测输出层中，得到各个候选交互任务对应的候选子任务集合中各个候选子任务的子任务预测概率。

其中，交互模型包括特征提取层、并行任务预测输出层以及非并行任务预测输出层。特征提取层用于进行特征提取，例如包括FC(fully connected layers，全连接)网络以及LSTM(Long Short-Term Memory，长短期记忆)网络。并行任务预测输出层用于输出并行的任务的预测概率，并行的任务包括视野预测任务以及候选交互任务，并行任务预测输出层所对应的任务是并行的，其中，并行任务输出层所对应的交互任务可以称为主任务。例如视野调整与目标交互任务的执行是并行的。非并行任务预测输出层用于输出不是并行的任务的预测概率。即在确定目标交互任务之后，需要从目标交互任务对应的候选子任务中选取一个候选子任务作为目标子任务。在游戏中，某些动作是需要同时执行。例如人类玩家在进行射击时，需要根据敌人位置实时进行上下瞄准和左右瞄准，从而选定目标并进行射击。因此第一层任务即并行任务预测输出层输出各个候选交互任务的概率以及视野调整的任务。而某些动作是互斥不能同时执行的，例如不能同时执行趴和蹲这两种姿态控制动作；而且人类由于反应时间存在上限的原因，同一时刻不能执行过多指令，因此在第二层任务即非并行任务预测输出层输出的并行执行任务对应的子任务预测概率。通过并行任务预测输出层以及非并行任务预测输出层，而且非并行任务预测输出层中的子任务是属于并行任务预测输出层中的交互任务的，从而使得任务的执行更加准确以及灵活。

以射击游戏为例，对于射击游戏，从以下两点进行考虑：1、某些动作是需要同时执行。例如人类玩家在进行射击时，需要根据敌人位置进行实时进行上下瞄准和左右瞄准，从而选定目标进行射击。2、某些动作是互斥不能同时执行的，例如不能同时执行捡物资和攻击；而且人类由于反应时间存在上限的原因，同一时刻不能执行过多指令。因此为了达到更加真实的拟人效果的同时，不超过人类正常执行速度以及满足动作的合法性，可以在第一层任务上将任务划分为3个：主任务、左右瞄准任务以及上下瞄准任务，且将第二层任务设置为非并行执行任务。其中主任务包括移动、攻击、姿态控制、吃药或者捡物资的至少一种。第二层是移动、攻击、姿态控制、吃药、捡物资等主任务分别对应的子任务，子任务为非并行任务。第二层不同的任务对应第一层主任务的不同标签。当主任务预测完后，确定主任务所对应的需要执行的子任务后，然后根据子任务的预测结果选择需要执行的具体子任务，从而使得能够在达到更加真实的拟人效果的同时，不超过人类正常执行速度以及满足动作的合法性。可以理解，上述模型结构仅是一种示例，还可以采用其他模型结构，例如将移动，打药，跳等分别作为主任务。或者加入残差网络(ResNet),注意力机制(Attention)等。

如图3所示，为交互模型的处理原理示意图，服务器根据游戏服务器提供的数据接口进行特征抽取，抽取的特征包括玩家信息特征、物资信息特征、声音信息特征、毒圈信息特征、装备信息特征以及全局信息特征等向量特征，抽取的向量特征，可以通过全神经网络(Fully Connected Neural Network，FC)或卷积网络(Convolution neural network，CNN)进行特征抽取，提取后的特征进行融合，输入到LSTM(Long Short-Term Memory)网络中。其中LSTM具有一定的记忆功能，可以有效的处理时序数据。例如可以对游戏中的敌方与我方的血量变化，敌方与我方的血量变化移动位置进行预判。经过LSTM后，将输出的特征接入多个不同的任务网络，每个任务网络具有自己所对应的全连接层，通过全连接层从动作空间中选取要输出的动作。

在一些实施例中，目标视野角度包括第一目标方向角度以及第二目标方向角度；交互模型输出候选视野角度集合中各个候选视野角度对应的视野预测概率的步骤包括：已训练的交互模型输出在上下方向对应的第一候选方向角度集合中，各个第一候选方向角度对应的第一视野预测概率，第一候选方向角度集合包括对上下方向对应的上下角度范围进行划分得到的多个第一候选方向角度；已训练的交互模型输出在左右方向对应的第二候选方向角度集合中，各个第二候选方向角度对应的第二视野预测概率，第二候选方向角度集合包括对左右方向对应的左右角度范围进行划分得到的多个第二候选方向角度；基于各个候选视野角度对应的视野预测概率从候选视野角度集合中选取候选视野角度，作为目标视野角度包括：基于第一视野预测概率从第一候选方向角度集合中选取得到第一候选方向角度，作为第一目标方向角度；基于第二视野预测概率从第二候选方向角度集合中选取得到第二候选方向角度，作为第二目标方向角度。

其中，第一目标方向角度以及第二目标方向角度不同，第一目标方向角度是上下方向的角度，第二目标方向角度是左右方向的角度。上下角度范围是指上下方向所对应的视野调整范围，第一候选方向角度集合是对上下方向所对应的上下角度范围进行划分得到的，如图4所示，为上下方向对应的角度范围的示意图。水平视线是虚拟对象在水平方向上的视线，虚线表示虚拟对象可以相对于水平视线进行上下瞄准。上下方向的角度也可以称为是pitch角度，假设角度范围是-15至15度，是相对角度，则模型对应有31个角度标签，每个角度标签表示一个候选方向角度，其中的一个标签表示不进行角度调整。例如其中标签0表示不进行角度调整，1-15表示分别表示向上瞄准1到15度，16-30分别表示向下瞄准1到15度。例如标签为3，则表示向上瞄准3度，标签为16度，表示向下瞄准1度。

左右角度范围是指左右方向所对应的视野调整范围。左右方向的角度也可以称为yaw角度。。第二候选方向角度集合是对左右方向所对应的左右角度范围进行划分得到的，如图5所示，水平视线是虚拟对象在水平方向上视线，虚线表示虚拟对象可以相对于水平视线进行左右瞄准，yaw角度范围是-30-30度，是相对角度。左右视野角度拥有31个标签，其中0表示不进行角度调整，1-15分别表示表示向左瞄准1-30度，16-31分别表示向右瞄准1到30度。

在对角度范围进行划分时，可以是基于设置的划分值进行划分，得到角度标签，例如假设划分值是3度，假设角度范围为30度，则可以是每3度对应一个标签，从而得到10个角度标签。

具体地，交互模型可以输出各个候选角度范围对应的预测概率，服务器从第一候选方向角度集合中选取概率最大的第一候选方向角度，作为第一目标方向角度，服务器从第二候选方向角度集合中选取概率最大的第二候选方向角度，作为第二目标方向角度。例如，假设上下方向上，概率最大的是标签1，则向上1度为第一目标方向角度。假设左右方向上，概率最大的是标签2，则向左2度为第二目标方向角度。通过对左右方向以及上下方向的视野角度进行预测，可以使得方向的调整更加灵活以及准确。例如，3D场景下要考虑整个空间信息，AI要射击时需要同时进行左右瞄准和上下瞄准。因此，设计合理的动作空间非常重要。如果瞄准空间过大，会导致模型探索空间过大，加大模型参数量和计算量。如果空间过小，模型瞄准时会不及时，难以根据敌人位置变化进行调整。通过对候选角度范围进行划分，根据需要控制划分值的大小，能够使得瞄准空间在合适的范围内。

在一些实施例中，如图6所示，已训练的交互模型的训练步骤包括：

步骤S602，获取训练虚拟对象当前所处的训练虚拟环境对应的训练状态特征。

其中，训练虚拟对象是用于进行模型训练的虚拟对象，可以与目标虚拟对象是角色相同的虚拟对象。训练虚拟环境是训练虚拟对象所处的环境，训练状态特征是训练虚拟对象所对应的状态特征。

具体地，服务器可以获取当前时刻之前的连续16帧图像帧对应的状态信息，作为当前所处的训练虚拟环境对应的训练状态特征。其中，这里的当前时刻是指训练的时刻。

步骤S604，将训练状态特征输入到待训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的训练预测概率，以及候选视野角度集合中各个候选视野角度对应的训练视野预测概率。

具体地，训练预测概率是待训练的交互模型输出的候选交互任务对应的预测概率。训练视野预测概率是待训练的交互模型输出的候选视野角度对应的预测概率。服务器将训练状态特征输入到待训练的交互模型中，进行进一步的特征提取，得到提取的特征，将提取的特征输入到并行任务预测输出层，并行任务预测输出层输出各个候选交互任务对应的训练预测概率以及各个候选视野角度对应的训练视野预测概率。

步骤S606，基于各个候选交互任务对应的训练预测概率从候选交互任务集合中选取候选交互任务，作为训练交互任务。

具体地，可以是从候选交互任务集合中选取训练预测概率最大的候选交互任务，作为训练交互任务。

在一些实施例中，基于各个候选交互任务对应的训练预测概率从候选交互任务集合中选取候选交互任务，作为训练交互任务包括：获取训练交互任务对应的训练预测概率中最大的训练预测概率；产生随机数；当随机数在最大的训练预测概率的数值范围内时，则选取最大的训练预测概率对应的候选交互任务，作为训练交互任务；当随机数在最大的训练预测概率的数值范围外时，则随机选取候选交互任务集合中的候选交互任务，作为训练交互任务。

当得到最大的训练预测概率时，可以确定最大的训练预测概率所对应的数值范围以及随机数产生的范围，其中最大的训练预测概率所对应的数值范围的数值数量除以随机数产生的范围所对应的数值数量，等于最大的训练预测概率。例如，假设候选交互任务中，训练预测概率中最大的是“攻击”任务对应的概率，为0.9，随机数产生的范围是0至99，则0.9对应的数值范围可以为0至89。故可以利用随机数产生算法在0至99的范围内产生一个随机数，假设该随机数在0至89内，则将“攻击”任务作为训练交互任务，如果该随机数在90至99内，则随机选取一个候选交互任务作为训练交互任务。通过本申请实施例，可以从候选交互任务集合中选取训练预测概率最大的候选交互任务，作为预选择的候选交互任务，然后再将预选择的候选交互任务所对应的训练预测概率作为预选择的候选交互任对应的被选择的概率，基于该被选择的概率进一步确定预选择的候选交互任务是否被选中。因此使得训练时，并非总是采用概率最大的候选交互任务作为训练交互任务，而是在有些情况下还可以随机选择训练交互任务，给予模型更多的探索空间，提高模型的灵活性。

步骤S608，基于候选视野角度集合中各个候选视野角度对应的训练视野预测概率，从候选视野角度集合中选取候选视野角度，作为训练视野角度。

具体地，服务器可以获取训练视野预测概率最大的候选视野角度，作为训练视野角度。

步骤S610，控制训练虚拟对象将视野调整到训练视野角度，并执行训练交互任务，得到训练虚拟对象当前所处的训练虚拟环境对应的更新状态。

具体地，服务器控制训练虚拟对象将视野调整到训练视野角度，并执行训练交互任务之后，训练虚拟环境中的状态会发生改变，则可以得到更新后的状态。

步骤S612，基于更新状态调整待训练的交互模型的模型参数，得到已训练的交互模型。

具体地，可以基于更新状态确定将视野调整到训练视野角度，并执行训练交互任务的价值，朝着使得价值变大的方向调整模型的参数.可以理解，可以执行多次步骤S602～S612，直至模型收敛。其中，价值可以是正的，也可以是负的。价值用于反馈在控制训练虚拟对象将视野调整到训练视野角度，并执行训练交互任所得到的奖励。因此价值可以用于评价控制训练虚拟对象将视野调整到训练视野角度，并执行训练交互任的效果，为训练虚拟环境对于执行任务的反馈。例如可以基于Bellman(贝尔曼)方程计算得到价值。其中调整模型参数的方法可以根据需要设置，例如可以是可以采用近端策略优化(Proximal PolicyOptimization，PPO)算法、A3C或者DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)等。

以射击游戏为例，可以通过下表计算奖励值，即当状态为胜利时，则获得5奖励值。

状态	奖励值
		胜利	5.0
血量	1.0
		击杀	2.0
远距离攻击	1.0
		近距离攻击	3.0

如图7所示，为一些实施例中模型训练以及模型应用的流程示意图，包括离线训练流程和在线接入流程。离线训练流程可以是基于PPO(Proximal Policy Optimization)强化学习算法进行模型训练。在线接入流程指的是将离线训练流程得到的模型加载至在线流程中，将抽取实时的在线特征，输入到模型中，得到实时预测结果。其中，离线特征抽取模块用于抽取连续的图像数据例如16帧数据作为特征，并将抽取的特征放到环境模块中使用。环境模块用于使用训练模块的模型和离线特征抽取模块得到的特征，预测人工智能执行的动作。将动作输入到游戏环境中，并计算执行该动作所得到的奖励以及价值等信息。数据缓存模块用于接收环境模块产生的动作概率、奖励以及价值等信息进行封装，并进行缓存。训练模块从该数据缓存模块抽取数据进行训练，训练模块用于从数据缓存模块抽取数据，并归一化处理，例如将特征中的距离进行归一化，并使用深度强化学习算法进行参数优化，并将新的参数提供给环境模块。在线接入流程中的在线特征抽取模块用于对在线的单图像帧实时数据抽取特征，并将抽取特征传递给在线预测模块进行使用。在线预测模块使用在线特征抽取模块的特征作为输入，利用离线模块提供的模型进行动作预测，结果解析与执行模块对在线预测模块输出的结果进行解析，将其解析成游戏需要的格式并执行该结果，例如执行目标较任务并调整视野角度。

本申请实施例中，通过同时调整得到视野角度以及交互任务的模型的模型参数，使得训练得到的交互模型能够同时输出准确的视野角度以及交互任务。

本申请实施例提供的虚拟对象控制方法可以通过人工智能(ArtificialIntelligence，AI)对虚拟对象进行调整，交互模型可以是基于DRL(Deep ReinforcementLearning，深度强化学习)所得到的深度神经网络的DNN(Deep Neural Network，深度神经网络)。可以进行多任务学习(Multi-Task Learning)，可以应用于基于3D(3Dimension)的FPS((First-person shooting game，第一人称射击游戏)中，通过控制目标虚拟对象将视野调整到目标视野角度的同时，执行目标交互任务，可以解决射击精度较低，AI转向不够灵活，无法实时调整射击目标的问题，即通过构建多任务的建模方式可以保证AI同时具有精准射击、拟人、探索空间的基本能力。而且，由于模型可以反复进行预测，因此在涉及目标距离较远时能够探索式射击，例如当候选交互任务包括移动任务以及射击任务时，可以通过反复预测，使得目标虚拟对象向待射击的对象移动，且可以不断的调整瞄准的角度，直至更新后的状态符合射击的条件以及射击的角度，从而模型基于更新后的状态得到目标交互任务是射击，可以控制目标虚拟对象进行射击，因此可远距离探索式射击。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种虚拟对象控制装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：

当前状态特征获取模块802，用于获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征；

预测概率得到模块804，用于将当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及候选视野角度集合中各个候选视野角度对应的视野预测概率，候选交互任务集合包括多个候选交互任务，候选视野角度集合包括多个候选视野角度；

目标交互任务得获取模块806，用于基于各个候选交互任务对应的交互任务预测概率从候选交互任务集合中选取候选交互任务，作为目标交互任务；

目标视野角度获取模块808，用于基于各个候选视野角度对应的视野预测概率从候选视野角度集合中选取候选视野角度，作为目标视野角度；

执行模块810，用于控制目标虚拟对象将视野调整到目标视野角度，并执行目标交互任务。

在一些实施例中，预测概率得到模块用于：将当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率、候选视野角度集合中各个候选视野角度对应的视野预测概率、以及各个候选交互任务对应的候选子任务集合中各个候选子任务的子任务预测概率，候选子任务集合包括多个候选子任务；控制目标虚拟对象将视野调整到目标视野角度，并执行目标交互任务包括：基于目标交互任务对应的候选子任务的子任务预测概率，从目标交互任务对应的候选子任务集合中选取候选子任务，作为目标子任务；控制目标虚拟对象将视野调整到目标视野角度，并执行目标子任务。

在一些实施例中，交互模型包括并行任务预测输出层以及非并行任务预测输出层，预测概率得到模块用于：将当前状态特征输入到已训练的交互模型的特征提取层中进行特征提取，得到提取特征；将提取特征输入到并行任务预测输出层中，并行任务预测输出层输出候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及候选视野角度集合中各个候选视野角度对应的视野预测概率；将提取特征输入到非并行任务预测输出层中，得到各个候选交互任务对应的候选子任务集合中各个候选子任务的子任务预测概率。

在一些实施例中，目标视野角度包括第一目标方向角度以及第二目标方向角度；预测概率得到模块用于：已训练的交互模型输出在上下方向对应的第一候选方向角度集合中，各个第一候选方向角度对应的第一视野预测概率，第一候选方向角度集合包括对上下方向对应的上下角度范围进行划分得到的多个第一候选方向角度；已训练的交互模型输出在左右方向对应的第二候选方向角度集合中，各个第二候选方向角度对应的第二视野预测概率，第二候选方向角度集合包括对左右方向对应的左右角度范围进行划分得到的多个第二候选方向角度；基于各个候选视野角度对应的视野预测概率从候选视野角度集合中选取候选视野角度，作为目标视野角度包括：基于第一视野预测概率从第一候选方向角度集合中选取得到第一候选方向角度，作为第一目标方向角度；基于第二视野预测概率从第二候选方向角度集合中选取得到第二候选方向角度，作为第二目标方向角度。

在一些实施例中，当前状态特征获取模块包括：声音确定单元，用于确定目标虚拟对象所处的当前虚拟环境中产生的声音；声音位置获取单元，用于获取声音对应的声音位置，作为目标虚拟对象所处的当前虚拟环境对应的当前状态特征。

在一些实施例中，已训练的交互模型的训练模块用于：获取训练虚拟对象当前所处的训练虚拟环境对应的训练状态特征；将训练状态特征输入到待训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的训练预测概率，以及候选视野角度集合中各个候选视野角度对应的训练视野预测概率；基于各个候选交互任务对应的训练预测概率从候选交互任务集合中选取候选交互任务，作为训练交互任务；基于候选视野角度集合中各个候选视野角度对应的训练视野预测概率，从候选视野角度集合中选取候选视野角度，作为训练视野角度；控制训练虚拟对象将视野调整到训练视野角度，并执行训练交互任务，得到训练虚拟对象当前所处的训练虚拟环境对应的更新状态；基于更新状态特征调整待训练的交互模型的模型参数，得到已训练的交互模型。

在一些实施例中，训练模块用于：获取训练交互任务对应的训练预测概率中最大的训练预测概率；产生随机数；当随机数在最大的训练预测概率的数值范围内时，则选取最大的训练预测概率对应的候选交互任务，作为训练交互任务；当随机数在最大的训练预测概率的数值范围外时，则随机选取候选交互任务集合中的候选交互任务，作为训练交互任务。

关于虚拟对象控制装置的具体限定可以参见上文中对于虚拟对象控制方法的限定，在此不再赘述。上述虚拟对象控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储虚拟对象控制数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种虚拟对象控制方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种虚拟对象控制方法，其特征在于，所述方法包括：

获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征；

将所述当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及所述候选视野角度集合中各个候选视野角度对应的视野预测概率，所述候选交互任务集合包括多个候选交互任务，所述候选视野角度集合包括多个候选视野角度；

基于各个所述候选交互任务对应的交互任务预测概率从所述候选交互任务集合中选取候选交互任务，作为目标交互任务；

基于各个所述候选视野角度对应的视野预测概率从所述候选视野角度集合中选取候选视野角度，作为目标视野角度；

控制所述目标虚拟对象将视野调整到所述目标视野角度，并执行所述目标交互任务。

2.根据权利要求1所述的方法，其特征在于，所述将所述当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及所述候选视野角度集合中各个候选视野角度对应的视野预测概率包括：

将所述当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率、所述候选视野角度集合中各个候选视野角度对应的视野预测概率、以及各个所述候选交互任务对应的候选子任务集合中各个候选子任务的子任务预测概率，所述候选子任务集合包括多个候选子任务；

所述控制所述目标虚拟对象将视野调整到所述目标视野角度，并执行所述目标交互任务包括：

基于所述目标交互任务对应的候选子任务的子任务预测概率，从所述目标交互任务对应的候选子任务集合中选取候选子任务，作为目标子任务；

控制所述目标虚拟对象将视野调整到所述目标视野角度，并执行所述目标子任务。

3.根据权利要求2所述的方法，其特征在于，所述交互模型包括并行任务预测输出层以及非并行任务预测输出层，所述将所述当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率、所述候选视野角度集合中各个候选视野角度对应的视野预测概率，以及各个所述候选交互任务对应的候选子任务集合中各个候选子任务的子任务预测概率包括：

将所述当前状态特征输入到已训练的交互模型的特征提取层中进行特征提取，得到提取特征；

将所述提取特征输入到所述并行任务预测输出层中，所述并行任务预测输出层输出所述候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及所述候选视野角度集合中各个候选视野角度对应的视野预测概率；

将所述提取特征输入到所述非并行任务预测输出层中，得到各个所述候选交互任务对应的候选子任务集合中各个候选子任务的子任务预测概率。

4.根据权利要求1所述的方法，其特征在于，所述目标视野角度包括第一目标方向角度以及第二目标方向角度；

所述交互模型输出所述候选视野角度集合中各个候选视野角度对应的视野预测概率的步骤包括：

所述已训练的交互模型输出在上下方向对应的第一候选方向角度集合中，各个第一候选方向角度对应的第一视野预测概率，所述第一候选方向角度集合包括对上下方向对应的上下角度范围进行划分得到的多个第一候选方向角度；

所述已训练的交互模型输出在左右方向对应的第二候选方向角度集合中，各个第二候选方向角度对应的第二视野预测概率，所述第二候选方向角度集合包括对左右方向对应的左右角度范围进行划分得到的多个第二候选方向角度；

所述基于各个所述候选视野角度对应的视野预测概率从所述候选视野角度集合中选取候选视野角度，作为目标视野角度包括：

基于所述第一视野预测概率从所述第一候选方向角度集合中选取得到第一候选方向角度，作为第一目标方向角度；

基于所述第二视野预测概率从所述第二候选方向角度集合中选取得到第二候选方向角度，作为第二目标方向角度。

5.根据权利要求1所述的方法，其特征在于，所述获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征包括：

确定目标虚拟对象所处的当前虚拟环境中产生的声音；

获取所述声音对应的声音位置，作为所述目标虚拟对象所处的当前虚拟环境对应的当前状态特征。

6.根据权利要求1所述的方法，其特征在于，所述已训练的交互模型的训练步骤包括：

获取训练虚拟对象当前所处的训练虚拟环境对应的训练状态特征；

将所述训练状态特征输入到待训练的交互模型中进行视野预测以及交互任务预测，得到所述候选交互任务集合中各个候选交互任务对应的训练预测概率，以及所述候选视野角度集合中各个候选视野角度对应的训练视野预测概率；

基于各个所述候选交互任务对应的训练预测概率从所述候选交互任务集合中选取候选交互任务，作为训练交互任务；

基于所述候选视野角度对应的训练视野预测概率，从所述候选视野角度集合中选取候选视野角度，作为训练视野角度；

控制所述训练虚拟对象将视野调整到所述训练视野角度，并执行所述训练交互任务，得到所述训练虚拟对象当前所处的训练虚拟环境对应的更新状态；

基于更新状态特征调整待训练的交互模型的模型参数，得到已训练的交互模型。

7.根据权利要求6所述的方法，其特征在于，所述基于各个所述候选交互任务对应的训练预测概率从所述候选交互任务集合中选取候选交互任务，作为训练交互任务包括：

获取所述训练交互任务对应的训练预测概率中最大的训练预测概率；

产生随机数；

当所述随机数在所述最大的训练预测概率的数值范围内时，则选取所述最大的训练预测概率对应的候选交互任务，作为训练交互任务；

当所述随机数在所述最大的训练预测概率的数值范围外时，则随机选取所述候选交互任务集合中的候选交互任务，作为训练交互任务。

8.一种虚拟对象控制装置，其特征在于，所述装置包括：

当前状态特征获取模块，用于获取目标虚拟对象所处的当前虚拟环境对应的当前状态特征；

预测概率得到模块，用于将所述当前状态特征输入到已训练的交互模型中进行视野预测以及交互任务预测，得到候选交互任务集合中各个候选交互任务对应的交互任务预测概率，以及所述候选视野角度集合中各个候选视野角度对应的视野预测概率，所述候选交互任务集合包括多个候选交互任务，所述候选视野角度集合包括多个候选视野角度；

目标交互任务得获取模块，用于基于各个所述候选交互任务对应的交互任务预测概率从所述候选交互任务集合中选取候选交互任务，作为目标交互任务；

目标视野角度获取模块，用于基于各个所述候选视野角度对应的视野预测概率从所述候选视野角度集合中选取候选视野角度，作为目标视野角度；

执行模块，用于控制所述目标虚拟对象将视野调整到所述目标视野角度，并执行所述目标交互任务。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。