CN111643905B

CN111643905B - 一种信息处理方法、装置及计算机可读存储介质

Info

Publication number: CN111643905B
Application number: CN202010402014.1A
Authority: CN
Inventors: 黄超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2021-08-03
Anticipated expiration: 2040-05-13
Also published as: CN111643905A

Abstract

本申请实施例公开了一种信息处理方法、装置及计算机可读存储介质，本申请实施例通过获取虚拟对象移动生成的目标帧；将每一目标帧按照颜色标准转化处理，得到目标标识号集；确定遍历地图样本图像的目标规划路径集；获取虚拟对象完成目标规划路径集中每一目标规划路径对应的样本帧，并对样本帧进行颜色标准转化处理，获得每一目标规划路径相应的样本标识号集；对比目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径；控制虚拟对象按照交集最小的目标规划路径进行移动。以此，对比探索过的目标帧的目标标识号集和每一目标规划路径的样本标识号集的交集，选出最佳的目标规划路径进行探索，极大的提升了信息处理的效率。

Description

一种信息处理方法、装置及计算机可读存储介质

技术领域

本申请涉及通信技术领域，具体涉及一种信息处理方法、装置及计算机可读存储介质。

背景技术

随着互联网技术的飞速发展，智能终端处理器的处理能力也越来越强，从而衍生出很多在大屏幕或超大屏幕上基于人机交互实现操控的应用，例如联机第一人称射击类(First-person shooting game，FPS)游戏，此类游戏可以支持丰富的场景，进行生动的互动娱乐。

现有技术中，在游戏开发及应用中，很多场景下都会用到游戏人工智能(Artificial Intelligence，AI)，即游戏AI，该游戏AI可以替代测试人员的角色，通过人工设定固定路线，使得游戏AI根据固定路线探索游戏场景，到达更多游戏地图中的不同区域，增加触发游戏bug的概率。

在对现有技术的研究和实践过程中，本申请的发明人发现，现有技术中，固定路线的探索方法只适合简单场景，对于FPS游戏中场景复杂度较高的场景，需要探索很长的时间，信息处理的效率较低。

发明内容

本申请实施例提供一种信息处理方法、装置及计算机可读存储介质，可以提升信息处理的效率。

为解决上述技术问题，本申请实施例提供以下技术方案：

一种信息处理方法，包括：

获取虚拟对象移动生成的目标帧；

将每一目标帧按照颜色标准转化处理，得到目标标识号集；

确定遍历地图样本图像的目标规划路径集，所述目标规划路径集中的不同规划路径形成的交集小于其他规划路径集中不同规划路径形成的交集；

获取虚拟对象完成所述目标规划路径集中每一目标规划路径对应的样本帧，并对样本帧进行颜色标准转化处理，获得每一目标规划路径相应的样本标识号集；

对比所述目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径；

控制所述虚拟对象按照所述交集最小的目标规划路径进行移动。

一种信息处理装置，包括：

获取单元，用于获取虚拟对象移动生成的目标帧；

目标转化单元，用于将每一目标帧按照颜色标准转化处理，得到目标标识号集；

确定单元，用于确定遍历地图样本图像的目标规划路径集，所述目标规划路径集中的不同规划路径形成的交集小于其他规划路径集中不同规划路径形成的交集；

样本转化单元，用于获取虚拟对象完成所述目标规划路径集中每一目标规划路径对应的样本帧，并对样本帧进行颜色标准转化处理，获得每一目标规划路径相应的样本标识号集；

对比单元，用于对比所述目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径；

移动单元，用于控制所述虚拟对象按照所述交集最小的目标规划路径进行移动。

在一些实施例中，所述样本转化单元，用于：

获取虚拟对象完成所述目标规划路径集中每一目标规划路径对应的样本帧，将每一目标规划路径相应的样本帧分割为预设数量的网格区域；

计算每一网格区域中像素的红、绿、和蓝颜色通道的均值和标准差；

将所述均值和标准差进行量化处理，得到每一网格区域的六维向量；

将同一样本帧中的每一网格区域的六维向量进行组合，生成每一目标规划路径的样本帧对应的样本标识号；

将每一目标规划路径的样本标识号组合，得到每一目标规划路径相应的样本标识号集。

在一些实施例中，所述对比单元，用于：

将所述目标标识号集中的多个目标标识号分别与每一目标规划路径相应的样本标识号集中的多个样本标识号进行交集匹配；

确定交集最小的目标规划路径的目标路径标识；

所述移动单元，用于控制所述虚拟对象基于所述目标路径标识按照预设策略模型进行地图样本图像探索。

在一些实施例中，所述移动单元，还用于：

获取虚拟对象的当前目标帧；

将所述当前目标帧和目标路径标识输入预设策略模型，得到所述预设策略模型输出的相应目标路径标识的动作概率向量；

将动作概率向量中概率最大的动作确定为目标动作，控制所述虚拟对象执行目标动作实现地图样本图像探索。

在一些实施例中，所述装置还包括：

更新单元，用于将所述当前目标帧按照颜色标准转化处理，得到当前目标标识号；

当检测到所述当前目标标识号在所述目标标识号集中不存在交集时，将所述当前目标标识号加入目标标识号集，以实现目标标识号集更新。

一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述信息处理方法中的步骤。

本申请实施例通过获取虚拟对象移动生成的目标帧；将每一目标帧按照颜色标准转化处理，得到目标标识号集；确定遍历地图样本图像的目标规划路径集；获取虚拟对象完成目标规划路径集中每一目标规划路径对应的样本帧，并对样本帧进行颜色标准转化处理，获得每一目标规划路径相应的样本标识号集；对比目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径；控制虚拟对象按照交集最小的目标规划路径进行移动。以此，对比探索过的目标帧的目标标识号集和每一目标规划路径的样本标识号集的交集，选出最佳的目标规划路径进行探索，极大的提升了信息处理的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的信息处理系统的场景示意图；

图2是本申请实施例提供的信息处理方法的流程示意图；

图3是本申请实施例提供的信息处理方法的另一流程示意图；

图4a为本申请实施例提供的信息处理方法的产品示意图；

图4b为本申请实施例提供的信息处理方法的另一产品示意图；

图4c为本申请实施例提供的多任务深度神经网络模型的结构示意图；

图5是本申请实施例提供的信息处理装置的结构示意图；

图6是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种信息处理方法、装置、及计算机可读存储介质。

请参阅图1，图1为本申请实施例所提供的信息处理系统的场景示意图，包括：终端A、和服务器(该信息处理系统还可以包括除终端A之外的其他终端，终端具体个数在此处不作限定)，终端A与服务器之间可以通过通信网络连接，该通信网络，可以包括无线网络以及有线网络，其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体，图中并未示意出。终端A可以通过通信网络与服务器进行信息交互，比如终端A通过游戏应用在线将当前图像即当前目标帧发送至服务器。

该信息处理系统可以包括信息处理装置，该信息处理装置具体可以集成在服务器中，如图1所示，该服务器获取虚拟对象移动生成的目标帧，将每一目标帧按照颜色标准转化处理，得到目标标识号集，确定遍历地图样本图像的目标规划路径集，该目标规划路径集中的不同规划路径形成的交集小于其他规划路径集中不同规划路径形成的交集，获取虚拟对象完成该目标规划路径集中每一目标规划路径对应的样本帧，并对样本帧进行颜色标准转化处理，获得每一目标规划路径相应的样本标识号集，对比该目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径，控制该虚拟对象按照该交集最小的目标规划路径进行移动，基于此，在接收终端A发送的当前目标帧时，可以基于最小的目标规划路径和当前目标帧生成当前的探索指令，该探索指令指示目标动作，将该探索指令发送至终端A。

该信息处理系统中终端A可以安装各种用户需要的应用，比如FPS游戏应用等，终端A可以实时获取当前游戏的图像，即当前目标帧，将该当前目标帧发送至服务器，接收服务器反馈的探索指令，根据探索指令指示的目标动作控制游戏AI进行自动移动探索。

需要说明的是，图1所示的信息处理系统的场景示意图仅仅是一个示例，本申请实施例描述的信息处理系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着信息处理系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，将从信息处理装置的角度进行描述，该信息处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。

请参阅图2，图2是本申请实施例提供的信息处理方法的流程示意图。该信息处理方法包括：

在步骤101中，获取虚拟对象移动生成的目标帧。

需要说明的是，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

例如，本申请实施例中的虚拟对象为AI对象，可以是指游戏应用中能够参与的对象，例如，虚拟对象可以为游戏中的人、动物或者其他可以移动的虚拟角色，后续可以通过游戏AI控制该虚拟对象模仿用户操作的形式进行相应的移动。

需要说明的是，游戏bug是指游戏系统缺陷产生的漏洞，游戏bug往往需要虚拟对象到达特定的位置出发，例如，游戏中常出现的崩溃、游戏画面卡死等问题。在FPS游戏中，需控制游戏AI在一定时间内尽可能的探索更多的游戏场景，即让游戏AI到达尽可能多的游戏位置，增加触发游戏bug的概率，为后续的bug检测提供更多的数据。以此，需要提供一种在固定时间尽可能遍历更多游戏位置的方法。

其中，在FPS游戏往往由多帧游戏画面组成，在该游戏画面中存在相应的小地图图像，该小地图图像包含虚拟对象在游戏场景中的位置信息，后续为了简化计算量，我们对于每帧游戏画面，只需要提取相应的小地图图像即可，该地图样本图像为不包含位置的小地图图像样本，即纯小地图图像。本申请实施例为了后续更好的进行智能探索，可以获取虚拟对象在该地图样本图像中历史进行移动生成的多个目标帧，该多个目标帧为包含每一帧虚拟对象的位置的多个小地图图像，该多个目标帧可以反映虚拟对象已经探索过历史位置信息。

在步骤102中，将每一目标帧按照颜色标准转化处理，得到目标标识号集。

其中，该颜色标准可以为RGB色彩模式，RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，该目标帧由多个像素组成，每一像素由该RGB色彩模式生成颜色，以此，本申请实施方式可以将每一目标帧按照颜色标准转化处理，将包含虚拟对象的位置的目标帧相应的图像转化为可以用字符进行文字化表示的目标标识号，该目标标识号可以从字符形式上表示出虚拟对象的位置，使得后续可以直接通过该目标标识号进行场景匹配，实现快速计算。

在一些实施方式中，该将每一目标帧按照颜色标准转化处理，得到目标标识号集的步骤，可以包括：

(1)将每一目标帧分割为预设数量的网格区域；

(2)计算每一网格区域中像素的红、绿、和蓝颜色通道的均值和标准差；

(3)将该均值和标准差进行量化处理，得到每一网格区域的六维向量；

(4)将同一目标帧中的每一网格区域的六维向量进行组合，生成每一目标帧对应的目标标识号；

(5)将该目标标识号组合，得到目标帧相应的目标标识号集。

其中，将每一目标帧分割为预设数量的网格区域，如按照10*10的规格，将每一目标帧分割为100个网格区域，计算每一网格区域全部像素的R、G和B颜色通道的均值和标准差，该均值和标准差的取值范围与R、G和B颜色通道的取值范围一样，均为数字0～255，将该均值和标准差进行量化处理，将全部均值和标准差统一为取值范围0～9的数字范围，进行向量合并，得到每一网格区域的六维向量，该六维向量可以反映了该网格区域的色彩规律。

进一步的，将同一目标帧中的每一网格区域的六维向量按照从左至右和从上至下的顺序进行组合，生成每一目标帧相应的目标标识号，该目标标识号可以反映整个目标帧的色彩规律，将所有的目标标识号组合，得到目标帧相应的目标标识号集。

在一些实施方式中，该将该均值和标准差进行量化处理，得到每一网格区域的六维向量的步骤，可以包括：

(1.1)将每一均值和标准差与预设单位进行比值并取整，得到范围为个位数的目标均值和目标标准差；

(1.2)将同一网格区域内的红、绿、蓝颜色通道的目标均值和目标标准差进行向量转化，得到每一网格区域的六维向量。

其中，计算目标均值和目标标准差的公式可以如下：

y＝floor(x/26)

该x即为均值或者标准差，该floor代表向下取整，y为目标均值或者目标标准差，通过上述公式，计算每一均值和标准差与预设单位26的比值，并通过floor函数进行取整，得到范围为0至9的目标均值和目标标准差，R、G和B颜色通道分别对应一个目标均值和目标标准差。

进一步的，将同一网格区域内的R、G和B颜色通道的目标均值和目标标准差进行向量转化，得到每一网格区域的六维向量。

在步骤103中，确定遍历地图样本图像的目标规划路径集。

其中，本申请实施例与相关技术不同的是，本申请实施例设定的路径集合为遍历整个地图样本图像中所有路径的目标规划路径集，该目标规划路径集包括多个目标规划路径，该目标规划路径集中的不同规划路径形成的交集小于其他规划路径集中不同规划路径形成的交集，即该目标规划路径集中的不同规划路径在实现遍历整个地图样本图像中所有路径的前提下，彼此之间的重复路线又最少，使得后续游戏AI按照该目标规划路径集进行探索时，可以实现更高的探索效率。

在一些实施方式中，该确定遍历地图样本图像的目标规划路径集的步骤，可以包括：

(1)获取地图样本图像进行路径规划，得到遍历该地图样本图像的多个规划路径集，该规划路径集中包括多个规划路径；

(2)获取每一规划路径集中多个规划路径之间的交集，将多个规划路径之间的交集最小的规划路径集确定为目标规划路径集。

其中，可以对该地图样本图像进行路径规划分析，得到可以同时遍历该地图样本图像的多个规划路径集，该规划路径集中包括多个规划路径。

进一步的，为了使得后续游戏AI在以规划路径集的不同规划路径上高效的探索，需要尽量减少路径彼此之间的重复路线，以此，获取每一规划路径集中多个规划路径之间的交集，将多个规划路径之间的路线的交集最小的规划路径集确定为目标规划路径集。

在步骤104中，获取虚拟对象完成目标规划路径集中每一目标规划路径对应的样本帧，并对样本帧进行颜色标准转化处理，获得每一目标规划路径相应的样本标识号集。

在一实施方式中，本申请实施例针对目标规划路径集中的每一目标规划路径会进行录制，即可以通过人工控制虚拟对象按照每一目标规划路径进行模拟移动操作，并采集虚拟对象在人工完成该目标规划路径集中每一目标规划路径相应生成的多个样本信息，该样本信息包括样本帧、路径标识和对应的动作标签，该样本帧为人工录制过程中包含虚拟对象位置信息的小地图图像，每一目标规划路径对应一个路径标识，该动作标签为虚拟对象在当前样本帧的操作信息，如上移动、下移动、左移动和右移动等等。每一目标规划路径相应的多个样本信息可以反映出虚拟对象在完成每一目标规划路径时的移动规律信息，每一目标规划路径的样本信息不同。

基于此，可以通过机器学习(Machine Learning,ML)的方式对移动规律信息进行学习，该机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。以此，利用每一目标规划路径的样本信息学习在每一目标规划路径下地图样本图像的探索策略，该探索策略可以通过模仿人工专家的决策数据的样本信息而获得，例如，可以利用多路径模仿学习算法离线学习样本帧的图像与相应的动作标签之间的规律，得到多任务深度神经网络模型，得到预设策略模型，该预设策略模型可以根据相应的路径标识和图像帧输出指引动作进行后续的自动探索，创建具有模仿人类操作行为的探索能力的游戏AI，且该游戏AI在不同的规划路径上具有不同的探索方式，可以实现灵活的多线探索。

其中，获取虚拟对象完成该目标规划路径集中每一目标规划路径对应的样本帧，该每一目标规划路径对应的样本帧反映了虚拟对象在完成每一目标规划路径时的样本位置规律信息。

进一步的，本申请实施例将每一样本帧按照颜色标准转化处理，将包含虚拟对象的样本位置的样本帧相应的图像同样转化为可以用字符进行文字化标识的样本标识号，该样本标识号可以从字符上表示出虚拟对象的样本位置，进而得到每一目标规划路径相应的样本标识号集，该每一目标规划路径相应的样本标识号集反映了人工录制完成每一目标规划路径的样本位置规律。

在一些实施方式中，该对样本帧进行颜色标准转化处理，得到每一目标规划路径相应的样本标识号集的步骤，可以包括：

(1)将每一目标规划路径相应的样本帧分割为预设数量的网格区域；

(4)将同一样本帧中的每一网格区域的六维向量进行组合，生成每一目标规划路径的样本帧对应的样本标识号；

(5)将每一目标规划路径的样本标识号组合，得到每一目标规划路径相应的样本标识号集。

其中，将每一目标规划路径相应的样本帧分割为预设数量的网格区域，如按照10*10的规格，将每一样本帧分割为100个网格区域，计算每一网格区域全部像素的R、G和B颜色通道的均值和标准差，该均值和标准差的取值范围与R、G和B颜色通道的取值范围一样，均为数字0～255，将该均值和标准差进行量化处理，将全部均值和标准差统一为取值范围0～9的数字范围，进行向量合并，得到每一网格区域的六维向量，该六维向量可以反映了该网格区域的色彩规律。

进一步的，将同一样本帧中的每一网格区域的六维向量按照从左至右和从上至下的顺序进行组合，生成每一样本帧相应的样本标识号，该样本标识号可以反映整个样本帧的色彩规律，将每一目标规划路径的所有的样本标识号组合，得到每一目标规划路径相应的样本帧相应的样本标识集。

在步骤105中，对比目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径。

其中，该目标标识号集可以反映出已经探索过的历史位置信息，由于本申请实施例具有多个不同的目标规划路径，在虚拟对象初始化之后，即回到起始点时，面临多个不同的目标规划路径的探索选择，为了实现更有效的探索，选择与历史位置信息的重复部分更少的目标规划路径进行探索明显能探索的位置更多，以此，需要分别对比目标标识号集和每一目标规划路径的样本标识号集的交集，该交集越大，说明重复的位置越多，以该目标规划路径进行游戏AI探索，容易出现重复的位置探索，该交集越小，说明重复的位置越少，以该目标规划路径进行游戏AI探索，越容易探索到新的位置，所以将交集最小的目标规划路径确定为探索路径。

在一些实施方式中，该对比目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径的步骤，包括：

(1)将该目标标识号集中的多个目标标识号分别与每一目标规划路径相应的样本标识号集中的多个样本标识号进行交集匹配；

(2)确定交集最小的目标规划路径的目标路径标识。

其中，将该目标标识号集中多个目标标识号分别与每一目标规划路径相应的样本标识号集中的多个样本标识号进行交集匹配，确定交集最小，即重复位置区域最少的目标规划路径的目标路径标识。

在步骤105中，控制虚拟对象按照交集最小的目标规划路径进行移动。

其中，控制虚拟对象按照交集最小的目标规划路径结合机器学习的预设策略模型进行地图样本图像探索，可以高效的探索更多的位置区域，相对于固定路线的重复探索，极大的提升了探索效率。

在一实施方式中，可以基于该目标规划路径的目标路径标识和当前画面帧按照预设策略模型输出该目标路径标识的探索动作，基于该探索动作进行地图样本图像探索。

由上述可知，本申请实施例通过获取虚拟对象移动生成的目标帧；将每一目标帧按照颜色标准转化处理，得到目标标识号集；确定遍历地图样本图像的目标规划路径集；获取虚拟对象完成目标规划路径集中每一目标规划路径对应的样本帧，并对样本帧进行颜色标准转化处理，获得每一目标规划路径相应的样本标识号集；对比目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径；控制虚拟对象按照交集最小的目标规划路径进行移动。以此，对比探索过的目标帧的目标标识号集和每一目标规划路径的样本标识号集的交集，选出最佳的目标规划路径进行探索，极大的提升了信息处理的效率。

结合上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该信息处理装置具体集成在服务器中为例进行说明，具体参照以下说明。

请参阅图3，图3为本申请实施例提供的信息处理方法的另一流程示意图。

该方法流程可以包括：

在步骤201中，服务器获取虚拟对象移动生成的目标帧。

其中，请一并参阅图4a所示，图4a为本申请实施例提供的信息处理方法的产品示意图，图4a为FPS游戏应的游戏画面，包括地图控件11和动作信息控件12，该地图控件11用于显示地图样本图像和虚拟对象相应的位置111，该动作操作控件12用于采集动作信息控制该虚拟对象进行移动，该动作操作控件12包括动作信息0、1、2、3、4、5、6、7、8区域，通过该8个区域将移动方向进行分割，该0表示没有动作信息。获取虚拟对象在历史进行移动在该地图控件11的小地图信息，将虚拟对象在该地图控件11的小地图信息作为目标帧，得到多个目标帧，该多个目标帧可以反映虚拟对象已经探索过历史位置信息。

在步骤202中，服务器将每一目标帧分割为预设数量的网格区域，计算每一网格区域中像素的红、绿、和蓝颜色通道的均值和标准差，将每一均值和标准差与预设单位进行比值并取整，得到范围为个位数的目标均值和目标标准差，将同一网格区域内的红、绿、蓝颜色通道的目标均值和目标标准差进行向量转化，得到每一网格区域的六维向量。

其中，服务器将每一目标帧分割为预设数量的网格区域，如按照10*10的规格，将每一目标帧分割为100个网格区域，计算每一网格区域全部像素的R、G和B颜色通道的均值和标准差，该均值和标准差的取值范围与R、G和B颜色通道的取值范围一样，均为数字0～255，计算目标均值和目标标准差的公式可以如下：

y＝floor(x/26)

进一步的，将同一网格区域内的R、G和B颜色通道的目标均值和目标标准差进行向量转化，得到每一网格区域的六维向量，该六维向量可以反映了该网格区域的色彩规律。

在步骤203中，服务器将同一目标帧中的每一网格区域的六维向量进行组合，生成每一目标帧对应的目标标识号，将目标标识号组合，得到目标帧相应的目标标识号集。

其中，将同一目标帧中的每一网格区域的六维向量按照从左至右和从上至下的顺序进行组合，生成每一目标帧相应的目标标识号，该目标标识号可以反映整个目标帧的色彩规律，将所有的目标标识号组合，得到目标帧相应的目标标识号集。

在步骤204中，服务器获取地图样本图像进行路径规划，得到遍历地图样本图像的多个规划路径集，获取每一规划路径集中多个规划路径之间的交集，将多个规划路径之间的交集最小的规划路径集确定为目标规划路径集。

其中，可以对该地图样本图像进行路径规划分析，得到可以同时遍历该地图样本图像中所有路径的多个规划路径集，该规划路径集中包括多个规划路径。

进一步的，为了使得后续游戏AI在以规划路径集的不同规划路径上高效的探索，需要尽量减少彼此之间的重复路线，以此，获取每一规划路径集中多个规划路径之间的交集，将多个规划路径之间的路线的交集最小的规划路径集确定为目标规划路径集。请一并参阅图4b所示，图4b为本申请实施例提供的信息处理方法的另一产品示意图，该目标规划路径集包括目标规划路径13、目标规划路径14和目标规划路径15，该目标规划路径13、目标规划路径14和目标规划路径15形成的交集小于其他规划路径集中不同规划路径形成的路线交集。

在步骤205中，服务器采集虚拟对象完成目标规划路径集中每一目标规划路径生成的样本信息。

其中，请继续参阅图4b所示，服务器采集人工控制虚拟对象完成目标规划路径11、目标规划路径12和目标规划路径13中每一目标规划路径进行模拟移动操作生成的样本信息，该样本信息包括样本帧、路径标识和对应的动作标签，该样本帧为人工录制过程中包含虚拟对象位置信息的小地图图像，每一目标规划路径对应一个路径标识，如路径标识13、14或15，该动作标签为虚拟对象在当前样本帧的操作信息，如0、1、2、3、4、5、6、7、8移动等等。每一目标规划路径相应的多个样本信息可以反映出虚拟对象在完成每一目标规划路径时的移动规律信息，每一目标规划路径的样本信息不同。

在步骤206中，服务器将样本信息中的样本帧和路径标识作为多任务深度神经网络模型的输入，将样本帧对应的样本动作标签用于多任务深度神经网络模型对相应路径标识的输出进行多任务监督训练，直至类别交叉熵损失收敛，得到预设策略模型。

其中，可以利用每一目标规划路径的样本信息学习在每一目标规划路径下地图样本图像的探索策略，该探索策略可以通过模仿人工专家的决策数据的样本信息而获得，该多任务深度神经网络模型可以为多任务卷积神经网络模型(Convolutional NeuralNetwork，CNN)，请一并图4c所示，图4c为本申请实施例提供的多任务深度神经网络模型的结构示意图，该多任务神经网路模型包括预设数量的公用卷积层，例如图4c所示的2个公用卷积层，为了更好的处理样本帧，将该样本帧缩放至150*150像素，通过公共卷积层简单的对缩放后的样本帧进行图像提取，由于多个样本帧之间具有相同的特征，因此，通过公用卷积层进行统一处理，可以降低部分冗余量，降低计算量。后续通过不同的子任务网络结构对不同路径的样本帧进行处理，每一子任务网络具有独立的5个卷积层、2个池化层和2个全连接层，用于单独根据不同路径的样本帧的进行单独的特征提取，例如该子任务1网络用于目标规划路径13的样本帧的后续单独处理、该子任务2网络用于目标规划路径14的样本帧的后续单独处理和子任务3用于目标规划路径15的样本帧的后续单独处理，通过全连接层输出相应的动作概率，该公用卷积层只设置2层是为了防止不同任务之间共享特征，导致区分度过低。

基于此，本申请实施例将样本信息的样本帧和路径标识作为该多任务神经网络模型的输入，该多任务神经网络在通过公用卷据层进行处理后，会根据不同的路径标识将公用卷积层处理后的特征输入相应的子任务网络中进行后续特征提取，将样本帧对应的样本动作标签用于该多任务深度神经网络模型对相应路径标识的输出进行多任务监督训练，直至类别交叉熵损失收敛，得到预设策略模型，该类别交叉熵损失收敛可以用如下公式表示：

该L为类别交叉熵损失，该n对应样本帧的序号，N是总的样本个数，k是子任务网络的序号，K是子任务网络的总数，c是动作信息的类别序号，C是动作类别的总数，y_n,k,c代表第n个样本是不是第k个任务的第c个类别，0代表不是，1代表是。D(x)是模型输入图像x后得到的所有子任务的类别概率，D_k,c(x_n)是模型输入第n张图像后得到的第k个子任务的第c个类别的概率。通过上述类别交叉熵损失不断学习每一目标规划路径的移动规律，直至该类别交叉熵损失收敛，得到预设策略模型，该预设策略模型可以根据相应的路径标识和图像帧输出指引动作进行后续的自动探索，创建具有探索能力的游戏AI，且该游戏AI在不同的规划路径上具有不同的探索方式，可以实现灵活的多线探索。

在步骤207中，服务器获取虚拟对象完成目标规划路径集中每一目标规划路径对应的样本帧，将每一目标规划路径相应的样本帧分割为预设数量的网格区域，计算每一网格区域中像素的红、绿、和蓝颜色通道的均值和标准差，将均值和标准差进行量化处理，得到每一网格区域的六维向量。

其中，服务器将每一目标规划路径相应的样本帧分割为预设数量的网格区域，如按照10*10的规格，将每一样本帧分割为100个网格区域，计算每一网格区域全部像素的R、G和B颜色通道的均值和标准差，该均值和标准差的取值范围与R、G和B颜色通道的取值范围一样，均为数字0～255，计算目标均值和目标标准差的公式可以如下：

y＝floor(x/26)

该x即为均值或者标准差，该floor代表向下取整，y为目标均值或者目标标准差，通过上述公式，计算每一均值和标准差与预设单位26进的比值，并通过floor函数进行取整，得到范围为0至9的目标均值和目标标准差，R、G和B颜色通道分别对应一个目标均值和目标标准差。

在步骤208中，服务器将同一样本帧中的每一网格区域的六维向量进行组合，生成每一目标规划路径的样本帧对应的样本标识号，将每一目标规划路径的样本标识号组合，得到每一目标规划路径相应的样本标识号集。

其中，服务器将同一样本帧中的每一网格区域的六维向量按照从左至右和从上至下的顺序进行组合，生成每一样本帧相应的样本标识号，该样本标识号可以反映整个样本帧的色彩规律，将每一目标规划路径的所有的样本标识号组合，得到每一目标规划路径的样本帧相应的样本标识集。

在步骤209中，服务器将目标标识号集中的多个目标标识号分别与每一目标规划路径相应的样本标识号集中的多个样本标识号进行交集匹配，确定交集最小的目标规划路径的目标路径标识。

其中，该目标标识号集可以反映出已经探索过的历史位置信息，请继续参阅图4b，由于本申请实施例具有目标规划路径13、目标规划路径14和目标规划路径15，在虚拟对象初始化之后，即回到起始点时，面临目标规划路径13、目标规划路径14和目标规划路径15的探索选择，为了实现更有效的探索，选择与历史位置信息的重复部分最少的目标规划路径进行探索明显能探索的位置更多，以此，需要将目标标识号集中多个目标标识号分别与目标规划路径13相应的样本标识号集、目标规划路径14相应的样本标识号集和目标规划路径15相应的样本标识号集进行交集匹配，该交集越大，说明两者重复的位置越多，该交集越小，说明重复的位置越少，所以将交集最小的目标规划路径确定为探索路径，例如，将交集最小的目标规划路径13确定为探索路径，获取该目标规划路径13的目标路径标识13。

在步骤210中，服务器获取虚拟对象的当前目标帧，将当前目标帧和目标路径标识输入预设策略模型，得到预设策略模型输出的相应目标路径标识的动作概率向量，将动作概率向量中概率最大的动作确定为目标动作，控制虚拟对象执行目标动作实现地图样本图像探索。

其中，该目标规划路径13与历史位置信息的重复区域最小，基于该目标规划路径13结合预设策略模型进行地图样本图像探索，可以探索更多的位置区域，以此，服务器获取虚拟对象当前目标帧，当前目标帧反映了虚拟对象当前的位置，请一并参阅图4c，将该当前目标帧和目标路径标识输入预设策略模型，该预测策略模型可以通过子任务3网络输出目标路径标识13的动作概率向量，该动作概率向量越大，说明移动的概率越大，将动作向量中概率最大的动作确定为目标动作，如目标动作3，以此，控制虚拟对象执行目标动作3实现在地图样本图像中进行移动，以此类推，控制该虚拟对象不断进行探索，直至虚拟对象初始化，返回起始点，进行下一次路径选择探索。

在步骤211中，服务器将当前目标帧按照颜色标准转化处理，得到当前目标标识号，当检测到当前目标标识号在目标标识号集中不存在交集时，将当前目标标识号加入目标标识号集，以实现目标标识号集更新。

其中，服务器需要不断更新探索位置，即可以将当前目标帧分割为预设数量的网格区域，如按照10*10的规格，将当前目标帧分割为100个网格区域，计算每一网格区域全部像素的R、G和B颜色通道的均值和标准差，该均值和标准差的取值范围与R、G和B颜色通道的取值范围一样，均为数字0～255，计算目标均值和目标标准差的公式可以如下：

y＝floor(x/26)

进一步的，将同一网格区域内的R、G和B颜色通道的目标均值和目标标准差进行向量转化，得到每一网格区域的六维向量，将当前目标帧中的每一网格区域的六维向量按照从左至右和从上至下的顺序进行组合，生成当前目标帧相应的当前目标标识号，该当前目标标识号可以反映整个当前目标帧的色彩规律，该当前目标标识号可能已经存在于历史的目标标识号集中，因此，可以检测当前目标标识号是否在目标标识号集中存在交集，当检测到当前目标标识号在目标标识号集中不存在交集时，说明当前目标标识号对应的探索位置为新的位置，可以将当前目标标识号加入目标标识号集，以实现目标标识号集更新。当检测到当前目标标识号在目标标识号集中存在交集时，说明目标标识号集已经存在当前目标标识号，该为当前目标标识号对应的探索位置为旧的位置，不进行更新，基于此，实现目标标识号集持续更新，而由于该目标标识号集更新变化，在虚拟对象回到起始点时，可以基于变化后的目标标识号集选择其他最佳的目标规划路径进行高效探索，以此类推，在虚拟对象回到起始点后，不断的基于实际探索情况选择最佳的目标规划路径，持续进行高效探索。

进一步的，本申请实施例还通过不断更新目标标识号集，使得服务器不断择优选择最佳的目标规划路径进行高效探索，进一步的提升了信息处理的效率。

为便于更好的实施本申请实施例提供的信息处理方法，本申请实施例还提供一种基于上述信息处理方法的装置。其中名词的含义与上述信息处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图5，图5为本申请实施例提供的信息处理装置的结构示意图，其中该信息处理装置可以包括获取单元301、目标转化单元302、确定单元303、样本转化单元304、对比单元305以及移动单元306等。

获取单元301，用于获取虚拟对象移动生成的目标帧。

目标转化单元302，用于将每一目标帧按照颜色标准转化处理，得到目标标识号集。

在一些实施方式中，该目标转化单元302，包括：

分割子单元，用于将每一目标帧分割为预设数量的网格区域；

计算子单元，用于计算每一网格区域中像素的红、绿、和蓝颜色通道的均值和标准差；

量化子单元，用于将该均值和标准差进行量化处理，得到每一网格区域的六维向量；

第一组合子单元，用于将同一目标帧中的每一网格区域的六维向量进行组合，生成每一目标帧对应的目标标识号；

第二组合子单元，用于将该目标标识号组合，得到目标帧相应的目标标识号集。

在一些实施方式中，该量化子单元，用于：将每一均值和标准差与预设单位进行比值并取整，得到范围为个位数的目标均值和目标标准差；将同一网格区域内的红、绿、蓝颜色通道的目标均值和目标标准差进行向量转化，得到每一网格区域的六维向量。

确定单元303，用于确定遍历地图样本图像的目标规划路径集，该目标规划路径集中的不同规划路径形成的交集小于其他规划路径集中不同规划路径形成的交集。

在一些实施方式中，该确定单元303，用于：

获取地图样本图像进行路径规划，得到遍历该地图样本图像的多个规划路径集，该规划路径集中包括多个规划路径；获取每一规划路径集中多个规划路径之间的交集，将多个规划路径之间的交集最小的规划路径集确定为目标规划路径集。

在一些实施方式中，该装置还包括：

采集单元，用于采集虚拟对象完成该目标规划路径集中每一目标规划路径生成的样本信息，该样本信息包括样本帧、路径标识和对应的样本动作标签；

训练单元，用于将该样本信息中的样本帧和路径标识作为多任务深度神经网络模型的输入，该多任务神经网络模型包括预设数量的共用卷积层，将该样本帧对应的样本动作标签用于该多任务深度神经网络模型对相应路径标识的输出进行多任务监督训练，直至类别交叉熵损失收敛，得到预设策略模型。

样本转化单元304，用于获取虚拟对象完成该目标规划路径集中每一目标规划路径对应的样本帧，并对样本帧进行颜色标准转化处理，获得每一目标规划路径相应的样本标识号集。

在一些实施方式中，该样本转化单元304，用于：获取虚拟对象完成该目标规划路径集中每一目标规划路径对应的样本帧，将每一目标规划路径相应的样本帧分割为预设数量的网格区域；计算每一网格区域中像素的红、绿、和蓝颜色通道的均值和标准差；将该均值和标准差进行量化处理，得到每一网格区域的六维向量；将同一样本帧中的每一网格区域的六维向量进行组合，生成每一目标规划路径的样本帧对应的样本标识号；将每一目标规划路径的样本标识号组合，得到每一目标规划路径相应的样本标识号集。

对比单元305，用于对比该目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径。

在一些实施方式中，该对比单元305，用于：

将该目标标识号集中的多个目标标识号分别与每一目标规划路径相应的样本标识号集中的多个样本标识号进行交集匹配；确定交集最小的目标规划路径的目标路径标识。

移动单元306，用于控制该虚拟对象按照该交集最小的目标规划路径进行移动。

在一些实施方式中，该移动单元306，用于控制该虚拟对象基于该目标路径标识按照预设策略模型进行地图样本图像探索。

在一些实施方式中，该移动单元306，还用于获取虚拟对象的当前目标帧；将该当前目标帧和目标路径标识输入预设策略模型，得到该预设策略模型输出的相应目标路径标识的动作概率向量；将动作概率向量中概率最大的动作确定为目标动作，控制该虚拟对象执行目标动作实现地图样本图像探索。

在一些实施方式中，该装置还包括：

更新单元，用于将该当前目标帧按照颜色标准转化处理，得到当前目标标识号；当检测到该当前目标标识号在该目标标识号集中不存在交集时，将该当前目标标识号加入目标标识号集，以实现目标标识号集更新。

以上各个单元的具体实施可参见前面的实施例，在此不再赘述。

由上述可知，本申请实施例通过获取单元301获取虚拟对象移动生成的目标帧；目标转化单元302将每一目标帧按照颜色标准转化处理，得到目标标识号集；确定单元303确定遍历地图样本图像的目标规划路径集；样本转化单元304获取虚拟对象完成目标规划路径集中每一目标规划路径对应的样本帧，并对样本帧进行颜色标准转化处理，获得每一目标规划路径相应的样本标识号集；对比单元305对比目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径；移动单元306控制虚拟对象按照交集最小的目标规划路径进行移动。以此，对比探索过的目标帧的目标标识号集和每一目标规划路径的样本标识号集的交集，选出最佳的目标规划路径进行探索，极大的提升了信息处理的效率。

本申请实施例还提供一种计算机设备，如图6所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；可选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，可选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现前述实施例提供的各种方法步骤，如下：

获取虚拟对象移动生成的目标帧；将每一目标帧按照颜色标准转化处理，得到目标标识号集；确定遍历地图样本图像的目标规划路径集，该目标规划路径集中的不同规划路径形成的交集小于其他规划路径集中不同规划路径形成的交集；获取虚拟对象完成该目标规划路径集中每一目标规划路径对应的样本帧，并对样本帧进行颜色标准转化处理，获得每一目标规划路径相应的样本标识号集；对比该目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径；控制该虚拟对象按照该交集最小的目标规划路径进行移动。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对信息处理方法的详细描述，此处不再赘述。

由上述可知，本申请实施例的计算机设备可以通过获取虚拟对象移动生成的目标帧；将每一目标帧按照颜色标准转化处理，得到目标标识号集；确定遍历地图样本图像的目标规划路径集；获取虚拟对象完成目标规划路径集中每一目标规划路径对应的样本帧，并对样本帧进行颜色标准转化处理，获得每一目标规划路径相应的样本标识号集；对比目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径；控制虚拟对象按照交集最小的目标规划路径进行移动。以此，对比探索过的目标帧的目标标识号集和每一目标规划路径的样本标识号集的交集，选出最佳的目标规划路径进行探索，极大的提升了信息处理的效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种信息处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种信息处理方法、装置及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种信息处理方法，其特征在于，包括：

获取虚拟对象移动生成的目标帧；

将每一目标帧分割为预设数量的网格区域，计算每一网格区域中像素的红、绿、和蓝颜色通道的均值和标准差，将所述均值和标准差进行量化处理，得到每一网格区域的六维向量；

将同一目标帧中的每一网格区域的六维向量进行组合，生成每一目标帧对应的目标标识号；

将所述目标标识号组合，得到目标帧相应的目标标识号集；

获取虚拟对象完成所述目标规划路径集中每一目标规划路径对应的样本帧；

将每一目标规划路径相应的样本帧分割为预设数量的网格区域，计算每一网格区域中像素的红、绿、和蓝颜色通道的均值和标准差，将所述均值和标准差进行量化处理，得到每一网格区域的六维向量；

将每一目标规划路径的样本标识号组合，得到每一目标规划路径相应的样本标识号集；

2.根据权利要求1所述的信息处理方法，其特征在于，所述将所述均值和标准差进行量化处理，得到每一网格区域的六维向量的步骤，包括：

将每一均值和标准差与预设单位进行比值并取整，得到范围为个位数的目标均值和目标标准差；

将同一网格区域内的红、绿、蓝颜色通道的目标均值和目标标准差进行向量转化，得到每一网格区域的六维向量。

3.根据权利要求1所述的信息处理方法，其特征在于，所述确定遍历地图样本图像的目标规划路径集的步骤，包括：

获取地图样本图像进行路径规划，得到遍历所述地图样本图像的多个规划路径集，所述规划路径集中包括多个规划路径；

获取每一规划路径集中多个规划路径之间的交集，将多个规划路径之间的交集最小的规划路径集确定为目标规划路径集。

4.根据权利要求1至3任一项所述的信息处理方法，其特征在于，所述方法还包括：

采集虚拟对象完成所述目标规划路径集中每一目标规划路径生成的样本信息，所述样本信息包括样本帧、路径标识和对应的样本动作标签；

将所述样本信息中的样本帧和路径标识作为多任务深度神经网络模型的输入，所述多任务深度神经网络模型包括预设数量的共用卷积层，将所述样本帧对应的样本动作标签用于所述多任务深度神经网络模型对相应路径标识的输出进行多任务监督训练，直至类别交叉熵损失收敛，得到预设策略模型。

5.根据权利要求4所述的信息处理方法，其特征在于，所述对比所述目标标识号集和每一样本标识号集的交集，确定交集最小的目标规划路径的步骤，包括：

确定交集最小的目标规划路径的目标路径标识；

所述控制所述虚拟对象按照所述交集最小的目标规划路径进行移动的步骤，包括：

控制所述虚拟对象基于所述目标路径标识按照预设策略模型进行地图样本图像探索。

6.根据权利要求5所述的信息处理方法，其特征在于，所述控制所述虚拟对象基于所述目标路径标识按照预设策略模型进行地图样本图像探索的步骤，包括：

获取虚拟对象的当前目标帧；

7.根据权利要求6所述的信息处理方法，其特征在于，所述控制所述虚拟对象执行目标动作实现地图样本图像探索的步骤之后，还包括：

将所述当前目标帧按照颜色标准转化处理，得到当前目标标识号；

8.一种信息处理装置，其特征在于，包括：

获取单元，用于获取虚拟对象移动生成的目标帧；

目标转化单元，包括：分割子单元，用于将每一目标帧分割为预设数量的网格区域，计算子单元，用于计算每一网格区域中像素的红、绿、和蓝颜色通道的均值和标准差，量化子单元，用于将所述均值和标准差进行量化处理，得到每一网格区域的六维向量；

第二组合子单元，用于将所述目标标识号组合，得到目标帧相应的目标标识号集；

样本转化单元，用于获取虚拟对象完成所述目标规划路径集中每一目标规划路径对应的样本帧；并将每一目标规划路径相应的样本帧分割为预设数量的网格区域，计算每一网格区域中像素的红、绿、和蓝颜色通道的均值和标准差，将所述均值和标准差进行量化处理，得到每一网格区域的六维向量；将同一样本帧中的每一网格区域的六维向量进行组合，生成每一目标规划路径的样本帧对应的样本标识号；将每一目标规划路径的样本标识号组合，得到每一目标规划路径相应的样本标识号集；

9.根据权利要求8所述的信息处理装置，其特征在于，所述量化子单元，用于：

10.根据权利要求8所述的信息处理装置，其特征在于，所述确定单元，用于：

11.根据权利要求8至10任一项所述的信息处理装置，其特征在于，所述装置还包括：

采集单元，用于采集虚拟对象完成所述目标规划路径集中每一目标规划路径生成的样本信息，所述样本信息包括样本帧、路径标识和对应的样本动作标签；

训练单元，用于将所述样本信息中的样本帧和路径标识作为多任务深度神经网络模型的输入，所述多任务深度神经网络模型包括预设数量的共用卷积层，将所述样本帧对应的样本动作标签用于所述多任务深度神经网络模型对相应路径标识的输出进行多任务监督训练，直至类别交叉熵损失收敛，得到预设策略模型。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的信息处理方法中的步骤。

13.一种计算机设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至7任一项所述的信息处理方法中的步骤。