CN115212575A - 连续状态空间智能体构建方法 - Google Patents

连续状态空间智能体构建方法 Download PDF

Info

Publication number
CN115212575A
CN115212575A CN202211134442.6A CN202211134442A CN115212575A CN 115212575 A CN115212575 A CN 115212575A CN 202211134442 A CN202211134442 A CN 202211134442A CN 115212575 A CN115212575 A CN 115212575A
Authority
CN
China
Prior art keywords
time
intelligent agent
agent
data
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211134442.6A
Other languages
English (en)
Other versions
CN115212575B (zh
Inventor
武文
董润铮
孟庆超
王俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xuanjia Network Technology Co ltd
Original Assignee
Nanjing Huiji Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Huiji Information Technology Co ltd filed Critical Nanjing Huiji Information Technology Co ltd
Priority to CN202211134442.6A priority Critical patent/CN115212575B/zh
Publication of CN115212575A publication Critical patent/CN115212575A/zh
Application granted granted Critical
Publication of CN115212575B publication Critical patent/CN115212575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • A63F13/57Simulating properties, behaviour or motion of objects in the game world, e.g. computing tyre load in a car race game
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/63Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor by the player, e.g. authoring using a level editor
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/837Shooting of targets
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/8076Shooting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开一种连续状态空间智能体构建方法。本发明涉及计算机技术领域,解决现有智能体构建方法无法在有限的数据、较短的开发时间和较低的硬件成本的条件下实现快速构建,适应复杂多变的连续状态空间环境下的决策,并具有快速迭代的能力的问题。本发明通过获取游戏日志数据并进行数字化处理,组成多层复合数据结构;利用游戏日志数据训练智能体,训练智能体需要的数据量极少,对开发的硬件要求低,便于实现低成本快速构造智能体,可在有限的数据、较短的开发时间和较低的硬件成本的条件下实现快速构建智能体,使智能体适应复杂多变的连续状态空间环境下的决策,并具有快速迭代的能力。

Description

连续状态空间智能体构建方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种连续状态空间智能体构建方法。
背景技术
智能体是人工智能领域中一个重要的概念,任何独立的能够思考并可以同环境交互的实体都可以抽象为智能体,游戏等相关领域智能体的人工智能(英文:ArtificialIntelligence,简称:AI)决策结构主要为行为树和有限状态机。
申请号201210042044.1的专利公开一种在三维动画引擎底层实现人机交互的方法,利用有限状态机将三维角色需要的功能操作进行封装,然后设计有限状态机的运行规则,从而实现三维动画引擎底层的人机交互功能。有限状态机的实现通常是将每个状态写成类,再用一个载体管理这些状态的切换。有限状态机拥有有限数量的状态,不同的输入决定了下一个状态的迁移。有限状态机的缺点是:各个状态类之间互相依赖严重,耦合度高,结构不灵活,可扩展性不高,难以脚本化和可视化。有限状态机适用于状态数量少的应用场景。
申请号201510336860.7的专利公开一种行为处理方法及装置,将待执行的目标技能子树挂载于角色行为树进行遍历执行,充分利用行为树的递归与逻辑特性。行为树的实现通常是将状态空间中的主要情况都抽象成一个个节点,然后把每一个节点连接成一棵树,每个节点代表一个行为,每个行为都可以有子行为,所有行为都有一个先决条件,就是产生的这些行为的条件。行为树的缺点是:每一帧都从根节点开始,有可能会访问到所有的节点,消耗更多的算力。对于行为树的编写十分依赖环境,适用范围狭窄。
除此之外,基于模型的机器学习解决方案针对各种环境都需要大量的数据,开发周期较长,方法输出不稳定,而且对异常值敏感。监督学习方案由于其线性假设,与现实情况差异较大,在复杂环境中表现通常很差,而强化学习方案需要大量的环境开发工作和昂贵的硬件。
因此,如何在有限的数据、较短的开发时间和较低的硬件成本的条件下构建有效的智能体,使其能够适应复杂多变的连续状态空间环境下的决策,并具有快速迭代的能力,是业内亟待解决的问题。
发明内容
本发明的目的在于提供一种连续状态空间智能体构建方法,以解决现有智能体构建方法无法在有限的数据、较短的开发时间和较低的硬件成本的条件下实现快速构建,适应复杂多变的连续状态空间环境下的决策,并具有快速迭代的能力的问题。
本发明提供一种连续状态空间智能体构建方法,包括:
获取游戏日志数据,所述游戏日志数据包括输入数据和输出数据;所述输入数据包括多个时间节点下的敌人位置信息、角色方向角和角色位置信息,所述输出数据包括在与输入数据相同的时间节点下,玩家控制角色做出的键盘鼠标操作信息;
对所述输入数据和输出数据进行数字化处理,组成多层复合数据结构;所述多层复合数据结构中,底层为时间节点组成的时间序列,中层为空间位置组成的路径数据,顶层为搜索树来加快搜索速度;
取数个历史时间节点构成第一时间序列,将当前时间节点下智能体的空间位置作为所述第一时间序列的特征值;
对所述特征值在搜索树中进行搜索,得到与所述特征值的差距小于临界值且长度与第一时间序列相同的第二时间序列;
比较所述第一时间序列与所述第二时间序列的加权平均方差;
根据所述加权平均方差,在第二时间序列中取得与第一时间序列的最近邻时间节点,将所述最近邻时间节点作为下一个时间节点输出。
进一步,比较所述第一时间序列与所述第二时间序列的加权平均方差,包括:
将第一时间序列与第二时间序列中的每一个时间节点求闵可夫斯基距离,并按照与当前时间节点的时间间隔对所述每一个时间节点赋予权重;
采用以下公式计算所述闵可夫斯基距离:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
表示闵可夫斯基距离,dx表示两个对应的时间节点的空间维度的对应差值,若空间维度为3维,设两个时间节点的空间维度分别为(x0,y0,z0),(x1,y1,z1),则dx0表示x1-x0,dx1表示y1-y0,dx2表示z1-z0,当p=1时为曼哈顿距离,当p=2时为欧氏距离,k表示空间维度。
进一步地,所述方法还包括智能体异常状态处理:
判断智能体移动速度计算值是否符合预期;
如果智能体移动速度计算值不符合预期,利用多层复合数据结构中包含的空间位置对智能体当前位置进行矫正,或者临时使用随机值进行处理。
进一步地,所述方法还包括响应互动状态:
对不同角色的输出和过程量进行综合判断,判断为可互动状态则对智能体执行动作空间中指定的互动动作。
进一步地,在第一人称射击游戏中,响应互动状态的整个流程为:预测敌人位置,根据智能体与敌人的相对位置,计算智能体的射击角度,智能体偏转至射击角度后进行瞄准,执行开火动作,更新状态。
进一步地,所述射击角度计算公式如下:
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
式中,P表示垂直方向角,垂直方向的0°方向为xy平面方向;Y表示水平方向角,水平方向的0°方向为x轴方向;dx、dy、dz分别表示智能体和敌人的空间位置对应维度的差值。
进一步地,所述方法还包括:
构建第一轻量级目标检测网络,输入实时游戏画面;
根据实时游戏画面对其中的人物进行识别并得到人物在画面中的位置,由此进行智能体发现敌人和触发瞄准射击的决策。
进一步地,所述方法还包括:
构建第二轻量级目标检测网络,输入实时双通道游戏声音,根据实时双通道游戏声音对声源所在方向进行定位,辅助智能体发现敌人。
本发明的有益效果如下:本发明提供的一种连续状态空间智能体构建方法,利用游戏日志数据训练智能体,训练智能体需要的数据量极少,对开发的硬件要求低,便于实现低成本快速构造智能体,可在有限的数据、较短的开发时间和较低的硬件成本的条件下实现快速构建智能体,使智能体适应复杂多变的连续状态空间环境下的决策,并具有快速迭代的能力。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的连续状态空间智能体构建方法流程图;
图2为底层时序结构示意图;
图3为顶层搜索树的搜索过程示意图;
图4为输出的数据驱动的方法流程图;
图5为集成的深度学习网络部分相关的并发决策流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下结合附图,详细说明本发明各实施例提供的技术方案。
请参阅图1,本发明提供一种连续状态空间智能体构建方法,包括:
S101,获取游戏日志数据,所述游戏日志数据包括输入数据和输出数据;所述输入数据包括多个时间节点下的敌人位置信息、角色方向角和角色位置信息,所述输出数据包括在与输入数据相同的时间节点下,玩家控制角色做出的键盘鼠标操作信息。
角色方向角以(P,Y)表示,P为垂直方向角,Y为水平方向角;角色位置信息以x,y,z坐标表示,敌人位置信息以x1,y1,z1坐标表示。
本申请利用游戏日志数据,实现使用较少的数据快速构建能够适用复杂环境的连续状态空间智能体,该方法能够快速迭代,新数据可以直接加入数据集而不必进行重新训练。本申请使用UE4引擎下的Shooter game游戏作为示例说明。Shooter game游戏是UE4引擎上的开源游戏,目前市面上大部分第一个人称射击类游戏(First-Person ShooterGame, FPS)都是采用Shooter game游戏模式,用Shooter game游戏作为说明,更有说服力。除获取游戏日志数据外,本方案无需对原始游戏做其他操作。UE4 是 Unreal Engine 4 的缩写,中文译为“虚幻引擎4”。UE4 是一款代码开源、商业收费、学习免费的游戏引擎,支持PC、手机、掌机等各种平台。 本方法对于数据的要求是在环境中各区域拥有尽可能均匀的数据。在Shooter game游戏中,本申请获取游戏日志数据,游戏日志数据输出频率为0.2秒。输出频率可以根据需要设置为其他值。玩家进行游戏的同时,本申请利用获取游戏日志数据对需要的数据进行读取,一组完整的输入数据需要有:角色状态(包括:角色方向角,角色位置信息)、敌人位置信息。输出数据为在与输入数据相同的时间节点下,玩家做出的操作,抽象为键盘鼠标输出。
S102,对所述输入数据和输出数据进行数字化处理,组成多层复合数据结构;所述多层复合数据结构中,底层为时间节点组成的时间序列,中层为空间位置组成的路径数据,顶层为搜索树来加快搜索速度。
对于三维空间FPS游戏,请参阅图2,底层按照时间序列组织数据,之后可选择按照空间位置组织游戏中路径数据,顶层组成搜索树来加快搜索速度,组成多层复合数据结构。双向链表组织连续的时序序列。每个节点都存储一个时间节点的有效数据、一个前置节点地址和一个后置节点地址。这个链表中的节点将作为上层数据结构的节点数据。这个结构按照时间顺序存储,由它的节点作为所有数据结构的节点数据,由此可以实现在顶层搜索树中搜索到的每一个节点,都可以方便地找到其时间维度上的前置节点和后置节点。
请参阅图3,上方三个箭头指示的为根节点,下方三个箭头指示的为A节点,直线为分割平面,在k维空间中构造二叉搜索树(k-dimensional树)便于根据k维特征快速搜索数据集中的近邻节点,其中的每个节点都包含下层数据结构的节点作为其节点数据。在这个图示二维例子中,分割超平面都垂直于轴,搜索过程为从左到右:假设现在需要搜寻右下角的一个点,首先要做的就是比较这个点的x坐标和根点的x坐标值,由于x坐标值大于根节点的x坐标,所以只需要在右边搜寻,接下来,要比较该节点和右边A节点y值的大小。后面依此类推。在底层时序结构和顶层搜索结构之间可按需构建其他的逻辑结构,这些结构共用底层节点作为节点数据,节省内存空间并维持其可扩展性。
S103,取数个历史时间节点构成第一时间序列,将当前时间节点下智能体的空间位置作为所述第一时间序列的特征值。
例如,在Shooter game中,取20个历史时间节点,时间长度约4秒,构成第一时间序列。
S104,对所述特征值在搜索树中进行搜索,得到与所述特征值的差距小于临界值且长度与第一时间序列相同的第二时间序列。
S105,比较所述第一时间序列与所述第二时间序列的加权平均方差。
具体地,将第一时间序列与第二时间序列中的每一个时间节点求闵可夫斯基距离,并按照与当前时间节点的时间间隔对所述每一个时间节点赋予权重;
采用以下公式计算所述闵可夫斯基距离:
Figure 521282DEST_PATH_IMAGE002
其中,
Figure 907264DEST_PATH_IMAGE004
表示闵可夫斯基距离,dx表示两个对应的时间节点的空间维度的对应差值,若空间维度为3维,设两个时间节点的空间维度分别为(x0,y0,z0),(x1,y1,z1),则dx0表示x1-x0,dx1表示y1-y0,dx2表示z1-z0,当p=1时为曼哈顿距离,当p=2时为欧氏距离,k表示空间维度。
S106,根据所述加权平均方差,在第二时间序列中取得与第一时间序列的最近邻时间节点,将所述最近邻时间节点作为下一个时间节点输出。
在本实施例中,所述方法还包括智能体异常状态处理:判断智能体移动速度计算值是否符合预期;如果智能体移动速度计算值不符合预期,利用多层复合数据结构中包含的空间位置对智能体当前位置进行矫正,或者临时使用随机值进行处理。
智能体异常状态可包括:智能体受到环境中障碍物阻挡等。
在本实施例中,所述方法还包括响应互动状态:对不同角色的输出和过程量进行综合判断,判断为可互动状态则对智能体执行动作空间中指定的互动动作。
响应互动状态可包括:智能体对其他角色的射击、追逐等。
在本实施例中,在第一人称射击游戏中,响应互动状态的整个流程为:预测敌人位置,根据智能体与敌人的相对位置,计算智能体的射击角度,智能体偏转至射击角度后进行瞄准,执行开火动作,更新状态。
在本实施例中,所述射击角度计算公式如下:
Figure 421422DEST_PATH_IMAGE006
Figure 784008DEST_PATH_IMAGE008
式中,P表示垂直方向角,垂直方向的0°方向为xy平面方向;Y表示水平方向角,水平方向的0°方向为x轴方向;dx、dy、dz分别表示智能体和敌人的空间位置对应维度的差值。
如图4所示,本发明的方法由osWatcher模块输出的数据驱动。首先针对环境构造数据集和动作空间,dataRepository模块负责加载数据集并在内存中组织复合数据结构,与此同时osWatcher监控游戏日志文件的变化并获取游戏的音视频输出,并实时维护一块共享内存,其中包含并发计算的各个controller子模块所需的数据,该数据来自于日志的时序队列、视频帧的图像和各通道声音信息,viewController模块将随着时序序列的每次更新,根据内存中的数据在动作空间中进行决策。
针对类似的复杂状态空间的实际问题,其中重要的随机寻路过程等各种非函数(或某些复杂非线性多目标决策)问题中,深度学习网络表现很差。完全依靠深度学习网络进行推理需要通过利用大量相应数据训练多个不同目标的复杂网络,或构建强化学习环境依托昂贵硬件进行学习等成本较高的做法。而在物体检测等传统深度学习的优势领域,则可以将其集成到本方法的并发计算系统中,通过应用少量数据预训练并在应用过程中不断迭代的方式来优化整个系统的表现。
例如,在作为射击游戏中,本申请可首先设计利用历史数据对敌人位置和自身位置各自分别进行时序、空间搜索的索敌方法并与寻路方法进行并发计算,实现了简单的发现敌人、瞄准射击的互动竞技动作。为了在此基础上获得性能和效率更高的整体表现,如图5所示,所述方法还包括:构建第一轻量级目标检测网络,输入实时游戏画面;根据实时游戏画面对其中的人物进行识别并得到人物在画面中的位置,由此进行智能体发现敌人和触发瞄准射击的决策。构建第二轻量级目标检测网络,输入实时双通道游戏声音,根据实时双通道游戏声音对声源所在方向进行定位,辅助智能体发现敌人,使智能体的整体表现更加接近人为控制。而后,利用目标检测网络实现识别多种目标,如游戏场景中的可拾取道具等,使得智能体可理解的游戏内信息更加丰富,能够做出更加复杂的决策表现。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (8)

1.一种连续状态空间智能体构建方法,其特征在于,包括:
获取游戏日志数据,所述游戏日志数据包括输入数据和输出数据;所述输入数据包括多个时间节点下的敌人位置信息、角色方向角和角色位置信息,所述输出数据包括在与输入数据相同的时间节点下,玩家控制角色做出的键盘鼠标操作信息;
对所述输入数据和输出数据进行数字化处理,组成多层复合数据结构;所述多层复合数据结构中,底层为时间节点组成的时间序列,中层为空间位置组成的路径数据,顶层为搜索树来加快搜索速度;
取数个历史时间节点构成第一时间序列,将当前时间节点下智能体的空间位置作为所述第一时间序列的特征值;
对所述特征值在搜索树中进行搜索,得到与所述特征值的差距小于临界值且长度与第一时间序列相同的第二时间序列;
比较所述第一时间序列与所述第二时间序列的加权平均方差;
根据所述加权平均方差,在第二时间序列中取得与第一时间序列的最近邻时间节点,将所述最近邻时间节点作为下一个时间节点输出。
2.如权利要求1所述的连续状态空间智能体构建方法,其特征在于,比较所述第一时间序列与所述第二时间序列的加权平均方差,包括:
将第一时间序列与第二时间序列中的每一个时间节点求闵可夫斯基距离,并按照与当前时间节点的时间间隔对所述每一个时间节点赋予权重;
采用以下公式计算所述闵可夫斯基距离:
Figure DEST_PATH_IMAGE001
其中,
Figure 13175DEST_PATH_IMAGE002
表示闵可夫斯基距离,dx表示两个对应的时间节点的空间维度的对应差值,若空间维度为3维,设两个时间节点的空间维度分别为(x0,y0,z0),(x1,y1,z1),则dx0表示x1-x0,dx1表示y1-y0,dx2表示z1-z0,当p=1时为曼哈顿距离,当p=2时为欧氏距离,k表示空间维度。
3.如权利要求2所述的连续状态空间智能体构建方法,其特征在于,所述方法还包括智能体异常状态处理:
判断智能体移动速度计算值是否符合预期;
如果智能体移动速度计算值不符合预期,利用多层复合数据结构中包含的空间位置对智能体当前位置进行矫正,或者临时使用随机值进行处理。
4.如权利要求3所述的连续状态空间智能体构建方法,其特征在于,所述方法还包括响应互动状态:
对不同角色的输出和过程量进行综合判断,判断为可互动状态则对智能体执行动作空间中指定的互动动作。
5.如权利要求4所述的连续状态空间智能体构建方法,其特征在于,在第一人称射击游戏中,响应互动状态的整个流程为:预测敌人位置,根据智能体与敌人的相对位置,计算智能体的射击角度,智能体偏转至射击角度后进行瞄准,执行开火动作,更新状态。
6.如权利要求5所述的连续状态空间智能体构建方法,其特征在于,所述射击角度计算公式如下:
Figure DEST_PATH_IMAGE003
Figure 133840DEST_PATH_IMAGE004
式中,P表示垂直方向角,垂直方向的0°方向为xy平面方向;Y表示水平方向角,水平方向的0°方向为x轴方向;dx、dy、dz分别表示智能体和敌人的空间位置对应维度的差值。
7.如权利要求6所述的连续状态空间智能体构建方法,其特征在于,所述方法还包括:
构建第一轻量级目标检测网络,输入实时游戏画面;
根据实时游戏画面对其中的人物进行识别并得到人物在画面中的位置,由此进行智能体发现敌人和触发瞄准射击的决策。
8.如权利要求7所述的连续状态空间智能体构建方法,其特征在于,所述方法还包括:
构建第二轻量级目标检测网络,输入实时双通道游戏声音,根据实时双通道游戏声音对声源所在方向进行定位,辅助智能体发现敌人。
CN202211134442.6A 2022-09-19 2022-09-19 连续状态空间智能体构建方法 Active CN115212575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211134442.6A CN115212575B (zh) 2022-09-19 2022-09-19 连续状态空间智能体构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211134442.6A CN115212575B (zh) 2022-09-19 2022-09-19 连续状态空间智能体构建方法

Publications (2)

Publication Number Publication Date
CN115212575A true CN115212575A (zh) 2022-10-21
CN115212575B CN115212575B (zh) 2022-12-20

Family

ID=83617482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211134442.6A Active CN115212575B (zh) 2022-09-19 2022-09-19 连续状态空间智能体构建方法

Country Status (1)

Country Link
CN (1) CN115212575B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107970608A (zh) * 2017-11-09 2018-05-01 腾讯科技(成都)有限公司 关卡游戏的设置方法和装置、存储介质、电子装置
CN110025959A (zh) * 2019-01-25 2019-07-19 清华大学 用于控制智能体的方法和设备
CN110141867A (zh) * 2019-04-23 2019-08-20 广州多益网络股份有限公司 一种游戏智能体训练方法及装置
CN110302537A (zh) * 2019-07-10 2019-10-08 深圳市腾讯网域计算机网络有限公司 虚拟对象控制方法、装置、存储介质和计算机设备
US20200234167A1 (en) * 2019-01-23 2020-07-23 Royal Bank Of Canada System and method for tree-based machine learning
CN112221152A (zh) * 2020-10-27 2021-01-15 腾讯科技(深圳)有限公司 人工智能ai模型的训练方法、装置、设备及介质
CN112329348A (zh) * 2020-11-06 2021-02-05 东北大学 一种面向非完全信息条件下军事对抗博弈的智能决策方法
CN112598131A (zh) * 2020-12-29 2021-04-02 中国科学院自动化研究所 推演数据生成及行动方案推演系统、方法及装置
CN112843725A (zh) * 2021-03-15 2021-05-28 网易(杭州)网络有限公司 智能体处理方法及装置
CN113255967A (zh) * 2021-04-28 2021-08-13 北京理工大学 信号时序逻辑约束下基于终点回溯的任务规划方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107970608A (zh) * 2017-11-09 2018-05-01 腾讯科技(成都)有限公司 关卡游戏的设置方法和装置、存储介质、电子装置
US20200234167A1 (en) * 2019-01-23 2020-07-23 Royal Bank Of Canada System and method for tree-based machine learning
CN110025959A (zh) * 2019-01-25 2019-07-19 清华大学 用于控制智能体的方法和设备
CN110141867A (zh) * 2019-04-23 2019-08-20 广州多益网络股份有限公司 一种游戏智能体训练方法及装置
CN110302537A (zh) * 2019-07-10 2019-10-08 深圳市腾讯网域计算机网络有限公司 虚拟对象控制方法、装置、存储介质和计算机设备
CN112221152A (zh) * 2020-10-27 2021-01-15 腾讯科技(深圳)有限公司 人工智能ai模型的训练方法、装置、设备及介质
CN112329348A (zh) * 2020-11-06 2021-02-05 东北大学 一种面向非完全信息条件下军事对抗博弈的智能决策方法
CN112598131A (zh) * 2020-12-29 2021-04-02 中国科学院自动化研究所 推演数据生成及行动方案推演系统、方法及装置
CN112843725A (zh) * 2021-03-15 2021-05-28 网易(杭州)网络有限公司 智能体处理方法及装置
CN113255967A (zh) * 2021-04-28 2021-08-13 北京理工大学 信号时序逻辑约束下基于终点回溯的任务规划方法和装置

Also Published As

Publication number Publication date
CN115212575B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
Luo et al. End-to-end active object tracking and its real-world deployment via reinforcement learning
Lei et al. Dynamic path planning of unknown environment based on deep reinforcement learning
Li et al. Propagation networks for model-based control under partial observation
Luo et al. End-to-end active object tracking via reinforcement learning
Pinto et al. Asymmetric actor critic for image-based robot learning
Wu et al. Spatial action maps for mobile manipulation
Kuffner et al. RRT-connect: An efficient approach to single-query path planning
EP3992857A1 (en) Method and device for generating neural network model, and computer-readable storage medium
Šeda Roadmap methods vs. cell decomposition in robot motion planning
Cagnoni Genetic and evolutionary computation for image processing and analysis
Zhong et al. Ad-vat+: An asymmetric dueling mechanism for learning and understanding visual active tracking
Singh et al. Structured world belief for reinforcement learning in pomdp
WO2020199690A1 (zh) 基于云平台共享学习系统及方法、共享平台及方法、介质
WO2020181934A1 (zh) 一种基于粒子群算法确定目标对象位置的方法和装置
Yu et al. Hybrid attention-oriented experience replay for deep reinforcement learning and its application to a multi-robot cooperative hunting problem
CN114779792B (zh) 基于模仿与强化学习的医药机器人自主避障方法及系统
CN113128432A (zh) 一种基于演化计算的多任务神经网络架构搜索方法
CN114494553B (zh) 基于渲染时间估计和lod选择的实时渲染方法、系统及设备
CN115265547A (zh) 一种未知环境下基于强化学习的机器人主动导航方法
CN115212575B (zh) 连续状态空间智能体构建方法
Golluccio et al. Objects relocation in clutter with robot manipulators via tree-based q-learning algorithm: Analysis and experiments
Parisotto Meta reinforcement learning through memory
CN116360437A (zh) 智能机器人路径规划方法、装置、设备及存储介质
Asokan et al. A new Multi-Bug Path Planning algorithm for robot navigation in known environments
Majumder et al. Pathfinding and navigation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230413

Address after: F18, Block B, Building 1, Chuangzhi Building, No. 17 Xinghuo Road, Jiangbei New District, Nanjing, Jiangsu Province, 210000

Patentee after: NANJING XUANJIA NETWORK TECHNOLOGY Co.,Ltd.

Address before: 213 Guangzhou Road, Gulou District, Nanjing City, Jiangsu Province, 210000

Patentee before: Nanjing Huiji Information Technology Co.,Ltd.

TR01 Transfer of patent right