CN112686362A - 游戏空间寻路模型训练方法和装置、电子设备及存储介质 - Google Patents

游戏空间寻路模型训练方法和装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112686362A
CN112686362A CN202011577794.XA CN202011577794A CN112686362A CN 112686362 A CN112686362 A CN 112686362A CN 202011577794 A CN202011577794 A CN 202011577794A CN 112686362 A CN112686362 A CN 112686362A
Authority
CN
China
Prior art keywords
information
position information
acting force
game space
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011577794.XA
Other languages
English (en)
Other versions
CN112686362B (zh
Inventor
何纬朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Pixel Software Technology Co Ltd
Original Assignee
Beijing Pixel Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Pixel Software Technology Co Ltd filed Critical Beijing Pixel Software Technology Co Ltd
Priority to CN202011577794.XA priority Critical patent/CN112686362B/zh
Priority claimed from CN202011577794.XA external-priority patent/CN112686362B/zh
Publication of CN112686362A publication Critical patent/CN112686362A/zh
Application granted granted Critical
Publication of CN112686362B publication Critical patent/CN112686362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本申请提供的游戏空间寻路模型训练方法和装置、电子设备及存储介质,涉及游戏技术领域。在本申请中,首先,获得第一训练数据,其中,第一训练数据包括配置有重力的目标对象在游戏空间进行寻路的初始位置信息、目标位置信息和初始作用力信息;其次,基于神经网络模型对初始位置信息、目标位置信息和初始作用力信息进行处理,得到第一作用力信息;然后,基于当前位置信息与目标位置信息之间的位置距离信息,对神经网络模型进行参数更新处理,其中,当前位置信息为目标对象基于第一作用力信息运动之后的位置信息。基于上述方法,可以改善基于现有技术训练得到的模型进行寻路时存在模拟出的寻路真实度较低的问题。

Description

游戏空间寻路模型训练方法和装置、电子设备及存储介质
技术领域
本申请涉及游戏技术领域,具体而言,涉及一种游戏空间寻路模型训练方法和装置、电子设备及存储介质。
背景技术
在三维游戏中,游戏角色的移动是较为普遍的一种操作,而移动操作的前提是合理、有效地进行寻路操作。但是,经发明人研究发现,基于现有技术训练得到的模型进行寻路时,存在模拟出的寻路真实度较低的问题。
发明内容
有鉴于此,本申请的目的在于提供一种游戏空间寻路模型训练方法和装置、电子设备及存储介质,以改善基于现有技术训练得到的模型进行寻路时存在模拟出的寻路真实度较低的问题。
为实现上述目的,本申请实施例采用如下技术方案:
一种游戏空间寻路模型训练方法,包括:
获得第一训练数据,其中,该第一训练数据包括配置有重力的目标对象在游戏空间进行寻路的初始位置信息、目标位置信息和初始作用力信息,该初始作用力信息包括重力方向的作用力信息;
基于预先构建的神经网络模型对所述初始位置信息、所述目标位置信息和所述初始作用力信息进行处理,得到第一作用力信息,其中,该第一作用力信息用于操控所述目标对象运动;
基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理,得到游戏空间寻路模型,其中,该当前位置信息为所述目标对象基于所述第一作用力信息运动之后的位置信息,该游戏空间寻路模型用于对所述目标对象在游戏空间进行寻路。
在本申请实施例较佳的选择中,在上述游戏空间寻路模型训练方法中,所述基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理的步骤,包括:
在基于所述第一作用力信息操控所述目标对象运动之后,判断是否满足预设的寻路终止条件,其中,该寻路终止条件包括该目标对象运动后的当前位置信息与所述目标位置信息相同;
若满足所述寻路终止条件,则基于所述当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理。
在本申请实施例较佳的选择中,在上述游戏空间寻路模型训练方法中,所述基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理的步骤,还包括:
若不满足所述寻路终止条件,则将所述目标对象在基于所述第一作用力信息运动后的当前位置信息、该目标位置信息和该第一作用力信息,作为新的第一训练数据;
基于所述神经网络模型对所述新的第一训练数据进行处理,得到新的第一作用力信息,并在基于该新的第一作用力信息操控所述目标对象运动之后,再次执行所述判断是否满足预设的寻路终止条件的步骤;
在满足所述寻路终止条件时,获取每一次基于所述第一作用力信息和所述新的第一作用力信息操控所述目标对象运动之后的当前位置信息;
基于每一次获取的所述当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理。
在本申请实施例较佳的选择中,在上述游戏空间寻路模型训练方法中,所述基于每一次获取的所述当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理的步骤,包括:
将所述第一训练数据、每一次形成的所述新的第一训练数据和所述目标对象每一次运动之后的当前位置信息与所述目标位置信息之间的位置距离信息,作为参数更新信息;
基于所述参数更新信息和预设的梯度下降算法,对所述神经网络模型进行参数更新处理。
在本申请实施例较佳的选择中,在上述游戏空间寻路模型训练方法中,所述基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理的步骤,还包括:
在每一次基于所述新的第一作用力信息操控所述目标对象运动之后,获取基于每一次该目标对象运动之后的当前位置信息与所述目标位置信息之间的位置距离信息形成的第一变化趋势信息;
在所述第一变化趋势信息不满足第一预设变化趋势信息时,对所述神经网络模型的超参数进行调整,其中,该超参数包括神经网络的网络层数。
在本申请实施例较佳的选择中,在上述游戏空间寻路模型训练方法中,该方法还包括:
a,在得到所述游戏空间寻路模型之后,获得第二训练数据,其中,该第二训练数据包括配置有重力的目标对象在游戏空间进行寻路的新的初始位置信息、新的目标位置信息和新的初始作用力信息,该新的初始作用力信息包括重力方向的作用力信息;
b,基于所述游戏空间寻路模型对所述第二训练数据进行处理,得到第二作用力信息,其中,该第二作用力信息用于操控所述目标对象运动;
c,基于新的当前位置信息与所述新的目标位置信息之间的位置距离信息,对所述游戏空间寻路模型进行参数更新处理,得到新的游戏空间寻路模型,其中,该新的当前位置信息为所述目标对象基于所述第二作用力信息运动之后的位置信息。
在本申请实施例较佳的选择中,在上述游戏空间寻路模型训练方法中,依次执行步骤a、步骤b和步骤c至少一次,该方法还包括:
基于每一次所述目标对象运动之后的所述当前位置信息与所述目标位置信息之间的位置距离信息、所述新的当前位置信息与所述新的目标位置信息之间的位置距离信息,形成的第二变化趋势信息;
在所述第二变化趋势信息不满足第二预设变化趋势信息时,对所述神经网络模型的超参数进行调整,其中,该超参数包括所述游戏空间寻路模型的网络层数和/或对该游戏空间寻路模型进行参数更新处理的更新频率。
本申请实施例还提供了一种游戏空间寻路模型训练装置,包括:
训练数据获得模块,用于获得第一训练数据,其中,该第一训练数据包括配置有重力的目标对象在游戏空间进行寻路的初始位置信息、目标位置信息和初始作用力信息,该初始作用力信息包括重力方向的作用力信息;
作用力信息获得模块,用于基于预先构建的神经网络模型对所述初始位置信息、所述目标位置信息和所述初始作用力信息进行处理,得到第一作用力信息,其中,该第一作用力信息用于操控所述目标对象运动;
网络模型更新模块,用于基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理,得到游戏空间寻路模型,其中,该当前位置信息为所述目标对象基于所述第一作用力信息运动之后的位置信息,该游戏空间寻路模型用于对所述目标对象在游戏空间进行寻路。
在上述基础上,本申请实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
与所述存储器连接的处理器,用于执行该存储器存储的计算机程序,以实现上述的游戏空间寻路模型训练方法。
在上述基础上,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被执行时,实现上述的游戏空间寻路模型训练方法。
本申请提供的游戏空间寻路模型训练方法和装置、电子设备及存储介质,通过对目标对象配置重力,且对应的训练数据包括重力方向的作用力,使得训练数据更为充分,如此,可以保证对神经网络模型进行更为合理、有效地参数更新处理,从而保证基于得到的游戏空间寻路模型进行寻路时,呈现出的寻路效果能够更为真实的被模拟出来,进而改善基于现有技术训练得到的模型进行寻路时存在模拟出的寻路真实度较低的问题。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本申请实施例提供的电子设备的结构框图。
图2为本申请实施例提供的游戏空间寻路模型训练方法包括的各步骤的流程示意图。
图3为图2中步骤S130包括的子步骤的流程示意图。
图4为图2中步骤S130包括的其它子步骤的流程示意图。
图5为图4中步骤S136包括的子步骤的流程示意图。
图6为图2中步骤S130包括的其它子步骤的另一流程示意图。
图7为本申请实施例提供的游戏空间寻路模型训练方法包括的其它步骤的流程示意图。
图8为本申请实施例提供的游戏空间寻路模型训练方法包括的其它步骤的另一流程示意图。
图9为本申请实施例提供的游戏空间寻路模型训练装置包括的各功能模块的方框示意图。
图标:10-电子设备;12-存储器;14-处理器;100-游戏空间寻路模型训练装置;110-训练数据获得模块;120-作用力信息获得模块;130-网络模型更新模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本申请的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,本申请实施例提供了一种电子设备10,可以包括存储器12、处理器14和游戏空间寻路模型训练装置100。
其中,所述存储器12和处理器14之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述游戏空间寻路模型训练装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器12中的软件功能模块。所述处理器14用于执行所述存储器12中存储的可执行的计算机程序,例如,所述游戏空间寻路模型训练装置100所包括的软件功能模块及计算机程序等,以实现本申请实施例提供的游戏空间寻路模型训练方法。
可选地,所述存储器12可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。
并且,所述处理器14可以是一种通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)等。
可以理解,图1所示的结构仅为示意,所述电子设备10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。例如,所述电子设备10还可以包括用于与其它设备进行信息交互的通信单元。
其中,在一种可以替代的示例中,所述电子设备10可以是一种具有数据处理能力的服务器。
结合图2,本申请实施例还提供一种游戏空间寻路模型训练方法,可应用于上述电子设备10。其中。所述游戏空间寻路模型训练方法有关的流程所定义的方法步骤,可以由所述电子设备10实现。
下面将对图2所示的具体流程,进行详细阐述。
步骤S110,获得第一训练数据。
在本实施例中,在对神经网络模型有训练需求时,所述电子设备10可以获得第一训练数据,用于进行训练。
其中,所述第一训练数据可以包括配置有重力的目标对象在游戏空间进行寻路的初始位置信息、目标位置信息和初始作用力信息,该初始作用力信息可以包括重力方向的作用力信息。
步骤S120,基于预先构建的神经网络模型对所述初始位置信息、所述目标位置信息和所述初始作用力信息进行处理,得到第一作用力信息。
在本实施例中,在基于步骤S110获得所述第一训练数据之后,所述电子设备10可以基于该预先构建的神经网络模型对该第一训练数据中的所述初始位置信息、所述目标位置信息和所述初始作用力信息进行处理,如此,可以得到该第一训练数据对应的第一作用力信息。
其中,所述第一作用力信息可以用于操控所述目标对象运动。
步骤S130,基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理,得到游戏空间寻路模型。
在本实施例中,在基于步骤S120得到所述第一作用力信息之后,可以基于该第一作用力信息操控所述目标对象运动,如此,所述电子设备10可以基于该目标对象运动的位置信息(运动后的当前位置信息)与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理,如此,可以得到游戏空间寻路模型。
也就是说,所述当前位置信息为所述目标对象基于所述第一作用力信息运动之后的位置信息,所述游戏空间寻路模型用于对所述目标对象在游戏空间进行寻路(在通过该游戏空间寻路模型进行寻路时,可以先计算出作用力信息,然后,基于该作用力信息操作目标对象运动)。
基于上述方法,通过采用具有重力方向的作用力的训练数据,使得训练数据更为充分,如此,可以保证对神经网络模型进行更为合理、有效地参数更新处理,从而保证基于得到的游戏空间寻路模型进行寻路时,呈现出的寻路效果能够更为真实的被模拟出来,进而改善基于现有技术训练得到的模型进行寻路时存在模拟出的寻路真实度较低的问题。
第一方面,对于步骤S110需要说明的是,获得所述第一训练数据的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,可以基于预先为目标对象配置的重力和对应的游戏环境(或者说,对应游戏的游戏地图),构建对应的三维空间寻路的学习环境,如此,可以在该学习环境下指定一定大小的三维空间内,操控该目标对象进行寻路。
其中,目标对象的初始位置和目标位置可以是在上述三维空间内随机确定的两个不同的位置,初始作用力在包括重力方向的作用力的基础上,为了能够在三维空间内进行有效的运动还可以包括其它方向上的作用力,例如,若该三维空间的三个维度中的一个维度为重力方向,则该其它方向上的作用力可以包括重力方向以外的另外两个维度的作用力。
可以理解的是,初始作用力在各个方向(或维度)上可以都为0。
第二方面,对于步骤S120需要说明的是,得到所述第一作用力信息的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,可以基于SAC(Soft Acotr-Critic)算法,对所述初始位置信息、所述目标位置信息和所述初始作用力信息进行处理,得到第一作用力信息。
也就是说,所述神经网络模型可以是指SAC算法。其中,在构建该神经网络模型时,可以对该神经网络模型初始的网络超参数进行配置,如对网络层数进行配置,也可以对该神经网络模型初始的网络权重参数进行配置,如在-0.5到0.5的范围内对该网络权重参数进行初始配置。
第三方面,对于步骤S130需要说明的是,进行参数更新处理的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,为保证参数更新处理的有效性,结合图3,步骤S130可以包括步骤S131和步骤S132,具体内容如下所述。
步骤S131,在基于所述第一作用力信息操控所述目标对象运动之后,判断是否满足预设的寻路终止条件。
在本实施例中,在基于步骤S120得到所述第一作用力信息之后,可以基于该第一作用力信息操控所述目标对象运动,如此,在该目标对象运动之后,可以判断是否满足预设的寻路终止条件。
其中,所述寻路终止条件可以包括所述目标对象运动后的当前位置信息与所述目标位置信息相同。也就是说,作为一种可能的示例,在所述目标对象从初始位置运动至目标位置时,可以认为完成一个寻路回合。
并且,在判断出满足所述寻路终止条件时,可以执行步骤S132。
步骤S132,基于所述当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理。
在本实施例中,在基于步骤S131判断出满足所述寻路终止条件时,可以基于所述当前位置信息一所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理,实现对该神经网络模型的训练。
可选地,在上述示例中,基于步骤S131判断是否满足寻路终止条件的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,若所述寻路终止条件为所述目标对象运动后的当前位置信息与所述目标位置信息相同,如此,只有在所述目标对象从初始位置运动至目标位置之后,才判定满足寻路终止条件。
又例如,在另一种可以替代的示例中,若所述寻路终止条件在包括上述条件的基础上,还包括其他条件,如所述目标对象运动出特定区域、所述目标对象运动至障碍物位置、所述目标对象基于作用力信息多次运动之后仍然为运动至所述目标位置等。基于此,只要所述目标对象的运动满足前述的任意一种情形,都可以判定满足寻路终止条件。
可选地,在上述示例中,基于步骤S132对所述神经网络模型进行参数更新处理的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,在得到所述目标对象基于所述第一作用力信息运动后的当前位置信息之后,可以计算该当前位置信息与所述目标位置信息之间的位置距离信息(如计算当前位置与目标位置之间的直线距离,可以理解的是,在其它示例中,也可以是计算其它距离,如非直线距离),如此,可以基于该位置距离信息得到对应的奖励信息(其中,该奖励信息与该位置距离信息具有负相关关系,如将位置距离的倒数作为奖励),然后,可以基于该奖励信息对所述神经网络模型进行参数更新处理。
在上述示例的基础上,对于步骤S130还需要说明的是,若基于步骤S131判断出不满足所述寻路终止条件,具体的处理方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,为保证得到的游戏空间寻路模型可以用于在游戏空间进行有效的寻路,结合图4,步骤S130还可以包括步骤S133、步骤S134、步骤S135和步骤S136,具体内容如下所述。
步骤S133,将所述目标对象在基于所述第一作用力信息运动后的当前位置信息、该目标位置信息和该第一作用力信息,作为新的第一训练数据。
在本实施例中,在基于步骤S131判断出不满足所述寻路终止条件时,可以将所述目标对象在基于所述第一作用力信息运动后的当前位置信息、该目标位置信息和该第一作用力信息,作为新的第一训练数据。
步骤S134,基于所述神经网络模型对所述新的第一训练数据进行处理,得到新的第一作用力信息,并在基于该新的第一作用力信息操控所述目标对象运动之后,再次执行所述判断是否满足预设的寻路终止条件的步骤。
在本实施例中,在基于步骤S133得到所述新的第一训练数据之后,可以基于所述神经网络模型对该新的第一训练数据进行处理,如此,可以得到新的第一作用力信息。
其中,在得到所述新的第一作用力信息之后,可以基于该新的第一作用力信息操控所述目标对象(再次)运动,如此,可以在该运动之后,再次执行判断是否满足预设的寻路终止条件的步骤(具体内容,可以参照前文对步骤S131的解释说明)。
并且,在再次判断出不满足所述寻路终止条件时,可以再次执行步骤S133(如此,针对不满足所述训练终止条件的情形,可以将每一次基于所述神经网络模型得到的第一作用力信息和新的第一作用力信息作为训练数据的一部分,使得下一次可以被神经网络模型进行处理);在再次判断出满足所述寻路终止条件时,可以执行步骤S135。
步骤S135,获取每一次基于所述第一作用力信息和所述新的第一作用力信息操控所述目标对象运动之后的当前位置信息。
在本实施例中,在基于步骤S134判断出满足所述寻路终止条件时,可以获取每一次基于所述第一作用力信息(基于执行步骤S120得到)和所述新的第一作用力信息(基于每一次执行步骤S134得到)操控所述目标对象运动之后的当前位置信息。
步骤S136,基于每一次获取的所述当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理。
在本实施例中,在基于步骤S135获取到所述当前位置信息之后,可以针对每一次获取的所述当前位置信息(该当前位置信息至少为两个),计算该当前位置信息与所述目标位置信息之间的位置距离信息,如此,可以得到至少两个位置距离信息,然后,可以基于该至少两个位置距离信息对所述神经网络模型进行参数更新处理。
也就是说,基于前述的示例,在判断出满足所述寻路终止条件时,至少操控所述目标对象运动一次,完成一个寻路回合,即在一个寻路回合中,至少操控所述目标对象运动一次。
基于此,在判断出满足所述寻路终止条件时,即完成一个寻路回合之后,可以基于该寻路回合中每一次操控所述目标对象运动之后的当前位置信息(至少有一个当前位置信息)与所述目标位置信息之间的位置距离信息(至少有一个位置距离信息),对所述神经网络模型进行参数更新处理。
可以理解的是,在上述示例中,基于步骤S136对所述神经网络模型进行参数更新处理的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,为了能够对所述神经网络模型进行更为可靠的参数更新处理,结合图5,步骤S136可以包括步骤S136a和步骤S136b,具体内容如下所述。
步骤S136a,将所述第一训练数据、每一次形成的所述新的第一训练数据和所述目标对象每一次运动之后的当前位置信息与所述目标位置信息之间的位置距离信息,作为参数更新信息。
在本实施例中,在基于步骤S135获取到所述当前位置信息之后,可以将所述目标对象每一次运动之后的当前位置信息与所述目标位置信息之间的位置距离信息、所述第一训练数据和每一次形成的所述新的第一训练数据,作为参数更新信息。
步骤S136b,基于所述参数更新信息和预设的梯度下降算法,对所述神经网络模型进行参数更新处理。
在本实施例中,在基于步骤S136a得到所述参数更新信息之后,可以基于该参数更新信息(其中,对于所述位置距离信息,可以进行相应的转换,如前文所述,将对应的距离的倒数作为奖励信息,以进行参数更新处理)和预设的梯度下降(Gradient Descent)算法,对所述神经网络模型进行参数更新处理(如对神经网络模型的网络参数进行更新处理)。
在上述示例的基础上,对于步骤S130还需要说明的是,基于不同的需求,步骤S130还可以包括其它不同的步骤。
例如,在一种可以替代的示例中,为了保证得到的游戏空间寻路模型具有较高的寻路可靠度,以及保证训练过程合理、有效,结合图6,步骤S130还可以包括步骤S137和步骤S138,具体内容如下所述。
步骤S137,在每一次基于所述新的第一作用力信息操控所述目标对象运动之后,获取基于每一次该目标对象运动之后的当前位置信息与所述目标位置信息之间的位置距离信息形成的第一变化趋势信息。
在本实施例中,在基于执行步骤S134的基础上,可以在每一次基于所述新的第一作用力信息操控所述目标对象运动之后,获取基于每一次该目标对象运动(包括基于所述第一作用力信息和所述新的第一作用力信息操作目标对象进行的运动)之后的当前位置信息与所述目标位置信息之间的位置距离信息形成的第一变化趋势信息。
步骤S138,在所述第一变化趋势信息不满足第一预设变化趋势信息时,对所述神经网络模型的超参数进行调整。
在本实施例中,在基于步骤S137得到所述第一变化趋势信息之后,可以确定该第一变化趋势信息是否满足预设第一变化趋势信息,如此,可以在该第一变化趋势信息不满足该第一预设变化趋势信息时,对所述神经网络模型的超参数(该超参数可以包括神经网络模型的网络层数)进行调整,以保证对该神经网络模型进行参数更新处理的有效性和可靠性。
可选地,在上述示例中,基于步骤S137获取的所述第一变化趋势信息的具体内容不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,可以基于得到多个位置距离信息,确定该多个位置距离信息之间的变化趋势,以得到所述第一变化趋势信息。
又例如,在另一种可以替代的示例中,可以基于得到的多个位置距离信息,先得到对应的奖励信息(如前文中将位置距离信息的倒数作为奖励信息),如此,可以确定得到的多个奖励信息之间的变化趋势,以得到所述第一变化趋势信息。
其中,基于上述两种示例的不同,所述第一预设变化趋势信息的具体内容不会不同。例如,若所述第一变化趋势信息表示多个位置距离信息之间的变化趋势,由于所述目标对象需要从当前位置运动至目标位置,即不断的靠近目标位置,因而,该多个位置距离信息可之间的变化趋势为逐渐减小。如此,所述第一预设变化趋势信息可以为逐渐减小。
又例如,若所述第一变化趋势信息表示多个奖励信息之间的变化趋势,且该奖励信息位置距离信息的倒数时,该多个奖励信息之间的变化趋势为逐渐增大,因而,所述第一预设变化趋势信息可以为逐渐增大。
可选地,在上述示例中,基于步骤S138对所述神经网络模型的超参数进行调整的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,所述超参数可以包括所述神经网络模型的网络层数,如此,可以通过增加该网络层数,以实现对所述神经网络模型的超参数的调整。
在上述示例的基础上,还需要对步骤S130需要说明的是,为了避免模型训练过程或参数更新处理过程中,导致资源浪费的问题,若判断出基于步骤S137得到的所述第一变化趋势信息不满足第一预设变化趋势信息,可以先停止基于所述新的第一作用力信息操控所述目标对象进行运动,直到基于步骤S138对所述神经网络模型的超参数进行调整完成之后。
在上述示例的基础上,基于不同的需求,所述游戏空间寻路模型训练方法还可以包括其它不同的步骤。
例如,在一种可以替代的示例中,为了进一步提高所述游戏空间寻路模型的寻路效果,如进一步提高基于该游戏空间寻路模型进行寻路的寻路效率,结合图7,所述游戏空间寻路模型训练方法还可以包括步骤S140、步骤S150和步骤S160,具体内容如下所述。
步骤S140,获得第二训练数据。
在本实施例中,在基于步骤S130得到所述游戏空间寻路模型之后,为了对该游戏空间寻路模型进行进一步的参数更新处理,所述电子设备10可以获得用于进行该参数更新处理的第二训练数据。
其中,所述第二训练数据可以包括配置有重力的目标对象在游戏空间进行寻路的新的初始位置信息、新的目标位置信息和新的初始作用力信息(例如,在一种可以替代的示例中,可以在上述的三维空间内随机确定的两个不同的位置,初始作用力在各个维度上可以都为0,在其它示例中,也可以是其它方式确定的位置,初始作用力也可以不为0),该新的初始作用力信息包括重力方向的作用力信息。
步骤S150,基于所述游戏空间寻路模型对所述第二训练数据进行处理,得到第二作用力信息。
在本实施例中,在基于步骤S140得到所述第二训练数据之后,所述电子设备10可以基于所述游戏空间寻路模型对该第二训练数据进行处理,如此,可以得到第二作用力信息。
其中,所述第二作用力信息可以用于操控所述目标对象运动。
步骤S160,基于新的当前位置信息与所述新的目标位置信息之间的位置距离信息,对所述游戏空间寻路模型进行参数更新处理,得到新的游戏空间寻路模型。
在本实施例中,在基于步骤S150得到所述第二作用力信息,且在基于该第二作用力信息操控所述目标对象运动之后,所述电子设备10可以基于新的当前位置信息与所述新的目标位置信息之间的位置距离信息,对所述游戏空间寻路模型进行参数更新处理,得到新的游戏空间寻路模型。
其中,所述新的当前位置信息为所述目标对象基于所述第二作用力信息运动之后的位置信息(即该目标对象基于所述第二作用力信息从所述新的初始位置信息运动后的位置信息)。
对于上述的步骤S140、步骤S150和步骤S160需要说明的是,其具体的执行过程或内容可以参照前文对步骤S110、步骤S120和步骤S130的相关解释说明,在此不再一一赘述。
并且,对于上述的步骤S140、步骤S150和步骤S160还需要说明的是,执行的次数不受限制,即对所述游戏空间寻路模型进行参数更新处理的次数不受限制,可以根据实际应用需求进行选择。
也就是说,上述的步骤S140、步骤S150和步骤S160可以依次执行至少一次。基于此,为了保证进行参数更新处理的有效性,避免更新出现资源浪费的问题,结合图8,所述游戏空间寻路模型训练方法还可以包括步骤S170和步骤S180,具体内容如下所述。
步骤S170,基于每一次所述目标对象运动之后的所述当前位置信息与所述目标位置信息之间的位置距离信息、所述新的当前位置信息与所述新的目标位置信息之间的位置距离信息,形成的第二变化趋势信息。
在本实施例中,在每一次执行步骤S150得到所述第二作用力信息,并基于该第二作用力信息操控所述目标对象运动之后,所述电子设备10可以基于每一次所述目标对象运动之后的所述当前位置信息(包括基于步骤S120形成的所述当前位置信息和基于步骤S150形成的所述新的当前位置信息)与所述目标位置信息之间的位置距离信息、所述新的当前位置信息与所述新的目标位置信息之间的位置距离信息,形成的第二变化趋势信息。
步骤S180,在所述第二变化趋势信息不满足第二预设变化趋势信息时,对所述神经网络模型的超参数进行调整。
在本实施例中,在基于步骤S170形成所述第二变化趋势信息之后,所述电子设备10可以判断该第二变化趋势信息是否满足第二预设变化趋势信息,然后,在所述第二变化趋势信息不满足该第二预设变化趋势信息时,对所述神经网络模型的超参数进行调整。
其中,在步骤S180中的超参数可以包括所述游戏空间寻路模型的网络层数和/或对该游戏空间寻路模型进行参数更新处理的更新频率。
对于步骤S170需要说明的是,所述第二变化趋势信息的具体内容不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,所述第二变化趋势可以包括执行步骤S110-步骤S130形成的第一变化趋势信息和每一次执行步骤S140-步骤S160形成的第一变化趋势信息之间的变化趋势。
也就是说,由于对所述游戏空间寻路模型进行参数更新处理之后,作为一种需要的结果时,寻路的效率会越来越高,如此,形成的多个所述第一变化趋势信息之间也需要按照一定的趋势变化,例如,前一个所述第一变化趋势信息小于后一个所述第一变化趋势信息(作为一种具体的应用示例,前一个所述第一变化趋势信息对应的相邻两个位置距离信息之间的差值,小于后一个所述第一变化趋势信息对应的相邻两个位置距离信息之间的差值,如此,表明寻路的效率在提高)。
对于步骤S180需要说明的是,对所述更新频率进行调整可以是指,降低该更新频率。例如,在对所述更新频率进行调整之前,可以在每一个寻路回合完成之后,基于该寻路回合对应的奖励信息进行参数更新处理;在对所述更新频率进行调整之后,可以在每两个、三个等多个寻路回合完成之后,基于该多个寻路回合对应的奖励信息进行参数更新处理。
同样地,在所述第二变化趋势信息不满足所述第二预设变化趋势信息时,也可以停止操控所述目标对象进行运动,以避免资源浪费的问题。
结合图9,本申请实施例还提供一种游戏空间寻路模型训练装置100,可应用于上述电子设备10。其中,该游戏空间寻路模型训练装置100包括训练数据获得模块110、作用力信息获得模块120和网络模型更新模块130。
所述训练数据获得模块110,可以用于获得第一训练数据,其中,该第一训练数据包括配置有重力的目标对象在游戏空间进行寻路的初始位置信息、目标位置信息和初始作用力信息,该初始作用力信息包括重力方向的作用力信息。在本实施例中,所述训练数据获得模块110可用于执行图2所示的步骤S110,关于所述训练数据获得模块110的相关内容可以参照前文对步骤S110的描述。
所述作用力信息获得模块120,可以用于基于预先构建的神经网络模型对所述初始位置信息、所述目标位置信息和所述初始作用力信息进行处理,得到第一作用力信息,其中,该第一作用力信息用于操控所述目标对象运动。在本实施例中,所述作用力信息获得模块120可用于执行图2所示的步骤S120,关于所述作用力信息获得模块120的相关内容可以参照前文对步骤S120的描述。
所述网络模型更新模块130,可以用于基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理,得到游戏空间寻路模型,其中,该当前位置信息为所述目标对象基于所述第一作用力信息运动之后的位置信息,该游戏空间寻路模型用于对所述目标对象在游戏空间进行寻路。在本实施例中,所述网络模型更新模块130可用于执行图2所示的步骤S130,关于所述网络模型更新模块130的相关内容可以参照前文对步骤S130的描述。
需要说明的是,基于一定的需求,在上述示例的基础上,所述游戏空间寻路模型训练装置100还可以包括其它模块。
例如,在一种可以替代的示例中,其它模块可以用于:
在得到所述游戏空间寻路模型之后,获得第二训练数据,其中,该第二训练数据包括配置有重力的目标对象在游戏空间进行寻路的新的初始位置信息、新的目标位置信息和新的初始作用力信息,该新的初始作用力信息包括重力方向的作用力信息;
基于所述游戏空间寻路模型对所述第二训练数据进行处理,得到第二作用力信息,其中,该第二作用力信息用于操控所述目标对象运动;
基于新的当前位置信息与所述新的目标位置信息之间的位置距离信息,对所述游戏空间寻路模型进行参数更新处理,得到新的游戏空间寻路模型,其中,该新的当前位置信息为所述目标对象基于所述第二作用力信息运动之后的位置信息。
并且,在上述示例的基础上,基于一定的需求,其它模块还可以用于:
基于每一次所述目标对象运动之后的所述当前位置信息与所述目标位置信息之间的位置距离信息、所述新的当前位置信息与所述新的目标位置信息之间的位置距离信息,形成的第二变化趋势信息;
在所述第二变化趋势信息不满足第二预设变化趋势信息时,对所述神经网络模型的超参数进行调整,其中,该超参数包括所述游戏空间寻路模型的网络层数和/或对该游戏空间寻路模型进行参数更新处理的更新频率。
在本申请实施例中,对应于上述的游戏空间寻路模型训练方法,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序运行时执行上述游戏空间寻路模型训练方法的各个步骤。
其中,前述计算机程序运行时执行的各步骤,在此不再一一赘述,可参考前文对所述游戏空间寻路模型训练方法的解释说明。
综上所述,本申请提供的游戏空间寻路模型训练方法和装置、电子设备及存储介质,通过对目标对象配置重力,且对应的训练数据包括重力方向的作用力,使得训练数据更为充分,如此,可以保证对神经网络模型进行更为合理、有效地参数更新处理,从而保证基于得到的游戏空间寻路模型进行寻路时,呈现出的寻路效果能够更为真实的被模拟出来,进而改善基于现有技术训练得到的模型进行寻路时存在模拟出的寻路真实度较低的问题,使得具有较高的实用价值。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种游戏空间寻路模型训练方法,其特征在于,包括:
获得第一训练数据,其中,该第一训练数据包括配置有重力的目标对象在游戏空间进行寻路的初始位置信息、目标位置信息和初始作用力信息,该初始作用力信息包括重力方向的作用力信息;
基于预先构建的神经网络模型对所述初始位置信息、所述目标位置信息和所述初始作用力信息进行处理,得到第一作用力信息,其中,该第一作用力信息用于操控所述目标对象运动;
基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理,得到游戏空间寻路模型,其中,该当前位置信息为所述目标对象基于所述第一作用力信息运动之后的位置信息,该游戏空间寻路模型用于对所述目标对象在游戏空间进行寻路。
2.根据权利要求1所述的游戏空间寻路模型训练方法,其特征在于,所述基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理的步骤,包括:
在基于所述第一作用力信息操控所述目标对象运动之后,判断是否满足预设的寻路终止条件,其中,该寻路终止条件包括该目标对象运动后的当前位置信息与所述目标位置信息相同;
若满足所述寻路终止条件,则基于所述当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理。
3.根据权利要求2所述的游戏空间寻路模型训练方法,其特征在于,所述基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理的步骤,还包括:
若不满足所述寻路终止条件,则将所述目标对象在基于所述第一作用力信息运动后的当前位置信息、该目标位置信息和该第一作用力信息,作为新的第一训练数据;
基于所述神经网络模型对所述新的第一训练数据进行处理,得到新的第一作用力信息,并在基于该新的第一作用力信息操控所述目标对象运动之后,再次执行所述判断是否满足预设的寻路终止条件的步骤;
在满足所述寻路终止条件时,获取每一次基于所述第一作用力信息和所述新的第一作用力信息操控所述目标对象运动之后的当前位置信息;
基于每一次获取的所述当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理。
4.根据权利要求3所述的游戏空间寻路模型训练方法,其特征在于,所述基于每一次获取的所述当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理的步骤,包括:
将所述第一训练数据、每一次形成的所述新的第一训练数据和所述目标对象每一次运动之后的当前位置信息与所述目标位置信息之间的位置距离信息,作为参数更新信息;
基于所述参数更新信息和预设的梯度下降算法,对所述神经网络模型进行参数更新处理。
5.根据权利要求3所述的游戏空间寻路模型训练方法,其特征在于,所述基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理的步骤,还包括:
在每一次基于所述新的第一作用力信息操控所述目标对象运动之后,获取基于每一次该目标对象运动之后的当前位置信息与所述目标位置信息之间的位置距离信息形成的第一变化趋势信息;
在所述第一变化趋势信息不满足第一预设变化趋势信息时,对所述神经网络模型的超参数进行调整,其中,该超参数包括神经网络的网络层数。
6.根据权利要求1-5任意一项所述的游戏空间寻路模型训练方法,其特征在于,该方法还包括:
a,在得到所述游戏空间寻路模型之后,获得第二训练数据,其中,该第二训练数据包括配置有重力的目标对象在游戏空间进行寻路的新的初始位置信息、新的目标位置信息和新的初始作用力信息,该新的初始作用力信息包括重力方向的作用力信息;
b,基于所述游戏空间寻路模型对所述第二训练数据进行处理,得到第二作用力信息,其中,该第二作用力信息用于操控所述目标对象运动;
c,基于新的当前位置信息与所述新的目标位置信息之间的位置距离信息,对所述游戏空间寻路模型进行参数更新处理,得到新的游戏空间寻路模型,其中,该新的当前位置信息为所述目标对象基于所述第二作用力信息运动之后的位置信息。
7.根据权利要求6所述的游戏空间寻路模型训练方法,其特征在于,依次执行步骤a、步骤b和步骤c至少一次,该方法还包括:
基于每一次所述目标对象运动之后的所述当前位置信息与所述目标位置信息之间的位置距离信息、所述新的当前位置信息与所述新的目标位置信息之间的位置距离信息,形成的第二变化趋势信息;
在所述第二变化趋势信息不满足第二预设变化趋势信息时,对所述神经网络模型的超参数进行调整,其中,该超参数包括所述游戏空间寻路模型的网络层数和/或对该游戏空间寻路模型进行参数更新处理的更新频率。
8.一种游戏空间寻路模型训练装置,其特征在于,包括:
训练数据获得模块,用于获得第一训练数据,其中,该第一训练数据包括配置有重力的目标对象在游戏空间进行寻路的初始位置信息、目标位置信息和初始作用力信息,该初始作用力信息包括重力方向的作用力信息;
作用力信息获得模块,用于基于预先构建的神经网络模型对所述初始位置信息、所述目标位置信息和所述初始作用力信息进行处理,得到第一作用力信息,其中,该第一作用力信息用于操控所述目标对象运动;
网络模型更新模块,用于基于当前位置信息与所述目标位置信息之间的位置距离信息,对所述神经网络模型进行参数更新处理,得到游戏空间寻路模型,其中,该当前位置信息为所述目标对象基于所述第一作用力信息运动之后的位置信息,该游戏空间寻路模型用于对所述目标对象在游戏空间进行寻路。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
与所述存储器连接的处理器,用于执行该存储器存储的计算机程序,以实现权利要求1-7任意一项所述的游戏空间寻路模型训练方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被执行时,实现权利要求1-7任意一项所述的游戏空间寻路模型训练方法。
CN202011577794.XA 2020-12-28 游戏空间寻路模型训练方法和装置、电子设备及存储介质 Active CN112686362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011577794.XA CN112686362B (zh) 2020-12-28 游戏空间寻路模型训练方法和装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011577794.XA CN112686362B (zh) 2020-12-28 游戏空间寻路模型训练方法和装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112686362A true CN112686362A (zh) 2021-04-20
CN112686362B CN112686362B (zh) 2024-06-07

Family

ID=

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071306A1 (en) * 2003-02-05 2005-03-31 Paul Kruszewski Method and system for on-screen animation of digital objects or characters
CN109364484A (zh) * 2018-12-20 2019-02-22 北京像素软件科技股份有限公司 游戏角色移动测试方法及装置
CN109475773A (zh) * 2017-03-17 2019-03-15 B·瑞奇 用于模拟游戏事件的方法和设备
US10467274B1 (en) * 2016-11-10 2019-11-05 Snap Inc. Deep reinforcement learning-based captioning with embedding reward
CN111127612A (zh) * 2019-12-24 2020-05-08 北京像素软件科技股份有限公司 游戏场景节点的更新方法、装置、存储介质和电子设备
CN111190926A (zh) * 2019-11-25 2020-05-22 腾讯云计算(北京)有限责任公司 资源缓存方法、装置、设备及存储介质
CN111202985A (zh) * 2020-01-16 2020-05-29 网易(杭州)网络有限公司 2d游戏中的路径规划方法、系统及电子设备
CN111603761A (zh) * 2020-05-15 2020-09-01 歌尔智能科技有限公司 游戏手柄及其唤醒方法、装置及计算机可读存储介质
CN111860763A (zh) * 2020-06-05 2020-10-30 北京嘀嘀无限科技发展有限公司 模型训练、参数预测方法和装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071306A1 (en) * 2003-02-05 2005-03-31 Paul Kruszewski Method and system for on-screen animation of digital objects or characters
US10467274B1 (en) * 2016-11-10 2019-11-05 Snap Inc. Deep reinforcement learning-based captioning with embedding reward
CN109475773A (zh) * 2017-03-17 2019-03-15 B·瑞奇 用于模拟游戏事件的方法和设备
CN109364484A (zh) * 2018-12-20 2019-02-22 北京像素软件科技股份有限公司 游戏角色移动测试方法及装置
CN111190926A (zh) * 2019-11-25 2020-05-22 腾讯云计算(北京)有限责任公司 资源缓存方法、装置、设备及存储介质
CN111127612A (zh) * 2019-12-24 2020-05-08 北京像素软件科技股份有限公司 游戏场景节点的更新方法、装置、存储介质和电子设备
CN111202985A (zh) * 2020-01-16 2020-05-29 网易(杭州)网络有限公司 2d游戏中的路径规划方法、系统及电子设备
CN111603761A (zh) * 2020-05-15 2020-09-01 歌尔智能科技有限公司 游戏手柄及其唤醒方法、装置及计算机可读存储介质
CN111860763A (zh) * 2020-06-05 2020-10-30 北京嘀嘀无限科技发展有限公司 模型训练、参数预测方法和装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
布伟光等: "遗传算法和牛顿力学在游戏开发中的应用研究", 《微处理机》, vol. 30, no. 03, 15 June 2009 (2009-06-15), pages 87 - 89 *

Similar Documents

Publication Publication Date Title
Ladosz et al. Exploration in deep reinforcement learning: A survey
CN109164821B (zh) 一种无人机姿态训练方法及装置
CN108227710B (zh) 自动驾驶控制方法和装置、电子设备、程序和介质
US20240135251A1 (en) Artificial intelligence controller that procedurally tailors itself to an application
Hausknecht Cooperation and communication in multiagent deep reinforcement learning
CN110812844B (zh) 一种游戏中的寻路方法、终端及可读存储介质
Gallagher et al. Learning to play Pac-Man: An evolutionary, rule-based approach
Santos et al. Dyna-H: A heuristic planning reinforcement learning algorithm applied to role-playing game strategy decision systems
US11157316B1 (en) Determining action selection policies of an execution device
US11580378B2 (en) Reinforcement learning for concurrent actions
CN110327624B (zh) 一种基于课程强化学习的游戏跟随方法和系统
Cuevas et al. A novel evolutionary algorithm inspired by the states of matter for template matching
CN108176050B (zh) 寻路方法和装置
CN111105034A (zh) 基于反事实回报的多智能体深度强化学习方法、系统
CN113359859B (zh) 一种组合导航避障方法、系统、终端设备及存储介质
Kersandt Deep reinforcement learning as control method for autonomous uavs
US11204803B2 (en) Determining action selection policies of an execution device
CN115300910B (zh) 基于多智能体强化学习的去混淆游戏策略模型生成方法
CN113962390B (zh) 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN112016678A (zh) 用于增强学习的策略生成网络的训练方法、装置和电子设备
KR20240008386A (ko) 리스크 척도를 나타내는 파라미터에 기반하여 훈련된 모델을 사용하여, 주어진 상황에 대한 디바이스의 행동을 결정하는 방법 및 시스템
CN112686362A (zh) 游戏空间寻路模型训练方法和装置、电子设备及存储介质
CN112686362B (zh) 游戏空间寻路模型训练方法和装置、电子设备及存储介质
Martins et al. Heuristically-accelerated reinforcement learning: A comparative analysis of performance
Brochu Interactive Bayesian optimization: learning user preferences for graphics and animation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant