CN115212575A

CN115212575A - 连续状态空间智能体构建方法

Info

Publication number: CN115212575A
Application number: CN202211134442.6A
Authority: CN
Inventors: 武文; 董润铮; 孟庆超; 王俊杰
Original assignee: Nanjing Huiji Information Technology Co ltd
Current assignee: Nanjing Xuanjia Network Technology Co ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-10-21
Anticipated expiration: 2042-09-19
Also published as: CN115212575B

Abstract

本发明公开一种连续状态空间智能体构建方法。本发明涉及计算机技术领域，解决现有智能体构建方法无法在有限的数据、较短的开发时间和较低的硬件成本的条件下实现快速构建，适应复杂多变的连续状态空间环境下的决策，并具有快速迭代的能力的问题。本发明通过获取游戏日志数据并进行数字化处理，组成多层复合数据结构；利用游戏日志数据训练智能体，训练智能体需要的数据量极少，对开发的硬件要求低，便于实现低成本快速构造智能体，可在有限的数据、较短的开发时间和较低的硬件成本的条件下实现快速构建智能体，使智能体适应复杂多变的连续状态空间环境下的决策，并具有快速迭代的能力。

Description

连续状态空间智能体构建方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种连续状态空间智能体构建方法。

背景技术

智能体是人工智能领域中一个重要的概念，任何独立的能够思考并可以同环境交互的实体都可以抽象为智能体，游戏等相关领域智能体的人工智能（英文：ArtificialIntelligence，简称：AI）决策结构主要为行为树和有限状态机。

申请号201210042044.1的专利公开一种在三维动画引擎底层实现人机交互的方法，利用有限状态机将三维角色需要的功能操作进行封装，然后设计有限状态机的运行规则，从而实现三维动画引擎底层的人机交互功能。有限状态机的实现通常是将每个状态写成类，再用一个载体管理这些状态的切换。有限状态机拥有有限数量的状态，不同的输入决定了下一个状态的迁移。有限状态机的缺点是：各个状态类之间互相依赖严重，耦合度高，结构不灵活，可扩展性不高，难以脚本化和可视化。有限状态机适用于状态数量少的应用场景。

申请号201510336860.7的专利公开一种行为处理方法及装置，将待执行的目标技能子树挂载于角色行为树进行遍历执行，充分利用行为树的递归与逻辑特性。行为树的实现通常是将状态空间中的主要情况都抽象成一个个节点，然后把每一个节点连接成一棵树，每个节点代表一个行为，每个行为都可以有子行为，所有行为都有一个先决条件，就是产生的这些行为的条件。行为树的缺点是：每一帧都从根节点开始，有可能会访问到所有的节点，消耗更多的算力。对于行为树的编写十分依赖环境，适用范围狭窄。

除此之外，基于模型的机器学习解决方案针对各种环境都需要大量的数据，开发周期较长，方法输出不稳定，而且对异常值敏感。监督学习方案由于其线性假设，与现实情况差异较大，在复杂环境中表现通常很差，而强化学习方案需要大量的环境开发工作和昂贵的硬件。

因此，如何在有限的数据、较短的开发时间和较低的硬件成本的条件下构建有效的智能体，使其能够适应复杂多变的连续状态空间环境下的决策，并具有快速迭代的能力，是业内亟待解决的问题。

发明内容

本发明的目的在于提供一种连续状态空间智能体构建方法，以解决现有智能体构建方法无法在有限的数据、较短的开发时间和较低的硬件成本的条件下实现快速构建，适应复杂多变的连续状态空间环境下的决策，并具有快速迭代的能力的问题。

本发明提供一种连续状态空间智能体构建方法，包括：

获取游戏日志数据，所述游戏日志数据包括输入数据和输出数据；所述输入数据包括多个时间节点下的敌人位置信息、角色方向角和角色位置信息，所述输出数据包括在与输入数据相同的时间节点下，玩家控制角色做出的键盘鼠标操作信息；

对所述输入数据和输出数据进行数字化处理，组成多层复合数据结构；所述多层复合数据结构中，底层为时间节点组成的时间序列，中层为空间位置组成的路径数据，顶层为搜索树来加快搜索速度；

取数个历史时间节点构成第一时间序列，将当前时间节点下智能体的空间位置作为所述第一时间序列的特征值；

对所述特征值在搜索树中进行搜索，得到与所述特征值的差距小于临界值且长度与第一时间序列相同的第二时间序列；

比较所述第一时间序列与所述第二时间序列的加权平均方差；

根据所述加权平均方差，在第二时间序列中取得与第一时间序列的最近邻时间节点，将所述最近邻时间节点作为下一个时间节点输出。

进一步，比较所述第一时间序列与所述第二时间序列的加权平均方差，包括：

将第一时间序列与第二时间序列中的每一个时间节点求闵可夫斯基距离，并按照与当前时间节点的时间间隔对所述每一个时间节点赋予权重；

采用以下公式计算所述闵可夫斯基距离：

；

其中，

表示闵可夫斯基距离，dx表示两个对应的时间节点的空间维度的对应差值，若空间维度为3维，设两个时间节点的空间维度分别为（x₀，y₀，z₀），（x₁，y₁，z₁），则dx₀表示x₁-x₀，dx₁表示y₁-y₀，dx₂表示z₁-z₀，当p=1时为曼哈顿距离，当p=2时为欧氏距离，k表示空间维度。

进一步地，所述方法还包括智能体异常状态处理：

判断智能体移动速度计算值是否符合预期；

如果智能体移动速度计算值不符合预期，利用多层复合数据结构中包含的空间位置对智能体当前位置进行矫正，或者临时使用随机值进行处理。

进一步地，所述方法还包括响应互动状态：

对不同角色的输出和过程量进行综合判断，判断为可互动状态则对智能体执行动作空间中指定的互动动作。

进一步地，在第一人称射击游戏中，响应互动状态的整个流程为：预测敌人位置，根据智能体与敌人的相对位置，计算智能体的射击角度，智能体偏转至射击角度后进行瞄准，执行开火动作，更新状态。

进一步地，所述射击角度计算公式如下：

；

；

式中，P表示垂直方向角，垂直方向的0°方向为xy平面方向；Y表示水平方向角，水平方向的0°方向为x轴方向；dx、dy、dz分别表示智能体和敌人的空间位置对应维度的差值。

进一步地，所述方法还包括：

构建第一轻量级目标检测网络，输入实时游戏画面；

根据实时游戏画面对其中的人物进行识别并得到人物在画面中的位置，由此进行智能体发现敌人和触发瞄准射击的决策。

进一步地，所述方法还包括：

构建第二轻量级目标检测网络，输入实时双通道游戏声音，根据实时双通道游戏声音对声源所在方向进行定位，辅助智能体发现敌人。

本发明的有益效果如下：本发明提供的一种连续状态空间智能体构建方法，利用游戏日志数据训练智能体，训练智能体需要的数据量极少，对开发的硬件要求低，便于实现低成本快速构造智能体，可在有限的数据、较短的开发时间和较低的硬件成本的条件下实现快速构建智能体，使智能体适应复杂多变的连续状态空间环境下的决策，并具有快速迭代的能力。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的连续状态空间智能体构建方法流程图；

图2为底层时序结构示意图；

图3为顶层搜索树的搜索过程示意图；

图4为输出的数据驱动的方法流程图；

图5为集成的深度学习网络部分相关的并发决策流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下结合附图，详细说明本发明各实施例提供的技术方案。

请参阅图1，本发明提供一种连续状态空间智能体构建方法，包括：

S101，获取游戏日志数据，所述游戏日志数据包括输入数据和输出数据；所述输入数据包括多个时间节点下的敌人位置信息、角色方向角和角色位置信息，所述输出数据包括在与输入数据相同的时间节点下，玩家控制角色做出的键盘鼠标操作信息。

角色方向角以（P，Y）表示，P为垂直方向角，Y为水平方向角；角色位置信息以x，y，z坐标表示，敌人位置信息以x1，y1，z1坐标表示。

本申请利用游戏日志数据，实现使用较少的数据快速构建能够适用复杂环境的连续状态空间智能体，该方法能够快速迭代，新数据可以直接加入数据集而不必进行重新训练。本申请使用UE4引擎下的Shooter game游戏作为示例说明。Shooter game游戏是UE4引擎上的开源游戏，目前市面上大部分第一个人称射击类游戏（First-Person ShooterGame, FPS）都是采用Shooter game游戏模式，用Shooter game游戏作为说明，更有说服力。除获取游戏日志数据外，本方案无需对原始游戏做其他操作。UE4 是 Unreal Engine 4 的缩写，中文译为“虚幻引擎4”。UE4 是一款代码开源、商业收费、学习免费的游戏引擎，支持PC、手机、掌机等各种平台。本方法对于数据的要求是在环境中各区域拥有尽可能均匀的数据。在Shooter game游戏中，本申请获取游戏日志数据，游戏日志数据输出频率为0.2秒。输出频率可以根据需要设置为其他值。玩家进行游戏的同时，本申请利用获取游戏日志数据对需要的数据进行读取，一组完整的输入数据需要有：角色状态（包括：角色方向角，角色位置信息）、敌人位置信息。输出数据为在与输入数据相同的时间节点下，玩家做出的操作，抽象为键盘鼠标输出。

S102，对所述输入数据和输出数据进行数字化处理，组成多层复合数据结构；所述多层复合数据结构中，底层为时间节点组成的时间序列，中层为空间位置组成的路径数据，顶层为搜索树来加快搜索速度。

对于三维空间FPS游戏，请参阅图2，底层按照时间序列组织数据，之后可选择按照空间位置组织游戏中路径数据，顶层组成搜索树来加快搜索速度，组成多层复合数据结构。双向链表组织连续的时序序列。每个节点都存储一个时间节点的有效数据、一个前置节点地址和一个后置节点地址。这个链表中的节点将作为上层数据结构的节点数据。这个结构按照时间顺序存储，由它的节点作为所有数据结构的节点数据，由此可以实现在顶层搜索树中搜索到的每一个节点，都可以方便地找到其时间维度上的前置节点和后置节点。

请参阅图3，上方三个箭头指示的为根节点，下方三个箭头指示的为A节点，直线为分割平面，在k维空间中构造二叉搜索树（k-dimensional树）便于根据k维特征快速搜索数据集中的近邻节点，其中的每个节点都包含下层数据结构的节点作为其节点数据。在这个图示二维例子中，分割超平面都垂直于轴，搜索过程为从左到右：假设现在需要搜寻右下角的一个点，首先要做的就是比较这个点的x坐标和根点的x坐标值，由于x坐标值大于根节点的x坐标，所以只需要在右边搜寻，接下来，要比较该节点和右边A节点y值的大小。后面依此类推。在底层时序结构和顶层搜索结构之间可按需构建其他的逻辑结构，这些结构共用底层节点作为节点数据，节省内存空间并维持其可扩展性。

S103，取数个历史时间节点构成第一时间序列，将当前时间节点下智能体的空间位置作为所述第一时间序列的特征值。

例如，在Shooter game中，取20个历史时间节点，时间长度约4秒，构成第一时间序列。

S104，对所述特征值在搜索树中进行搜索，得到与所述特征值的差距小于临界值且长度与第一时间序列相同的第二时间序列。

S105，比较所述第一时间序列与所述第二时间序列的加权平均方差。

具体地，将第一时间序列与第二时间序列中的每一个时间节点求闵可夫斯基距离，并按照与当前时间节点的时间间隔对所述每一个时间节点赋予权重；

采用以下公式计算所述闵可夫斯基距离：

；

其中，

S106，根据所述加权平均方差，在第二时间序列中取得与第一时间序列的最近邻时间节点，将所述最近邻时间节点作为下一个时间节点输出。

在本实施例中，所述方法还包括智能体异常状态处理：判断智能体移动速度计算值是否符合预期；如果智能体移动速度计算值不符合预期，利用多层复合数据结构中包含的空间位置对智能体当前位置进行矫正，或者临时使用随机值进行处理。

智能体异常状态可包括：智能体受到环境中障碍物阻挡等。

在本实施例中，所述方法还包括响应互动状态：对不同角色的输出和过程量进行综合判断，判断为可互动状态则对智能体执行动作空间中指定的互动动作。

响应互动状态可包括：智能体对其他角色的射击、追逐等。

在本实施例中，在第一人称射击游戏中，响应互动状态的整个流程为：预测敌人位置，根据智能体与敌人的相对位置，计算智能体的射击角度，智能体偏转至射击角度后进行瞄准，执行开火动作，更新状态。

在本实施例中，所述射击角度计算公式如下：

；

；

如图4所示，本发明的方法由osWatcher模块输出的数据驱动。首先针对环境构造数据集和动作空间，dataRepository模块负责加载数据集并在内存中组织复合数据结构，与此同时osWatcher监控游戏日志文件的变化并获取游戏的音视频输出，并实时维护一块共享内存，其中包含并发计算的各个controller子模块所需的数据，该数据来自于日志的时序队列、视频帧的图像和各通道声音信息，viewController模块将随着时序序列的每次更新，根据内存中的数据在动作空间中进行决策。

针对类似的复杂状态空间的实际问题，其中重要的随机寻路过程等各种非函数（或某些复杂非线性多目标决策）问题中，深度学习网络表现很差。完全依靠深度学习网络进行推理需要通过利用大量相应数据训练多个不同目标的复杂网络，或构建强化学习环境依托昂贵硬件进行学习等成本较高的做法。而在物体检测等传统深度学习的优势领域，则可以将其集成到本方法的并发计算系统中，通过应用少量数据预训练并在应用过程中不断迭代的方式来优化整个系统的表现。

例如，在作为射击游戏中，本申请可首先设计利用历史数据对敌人位置和自身位置各自分别进行时序、空间搜索的索敌方法并与寻路方法进行并发计算，实现了简单的发现敌人、瞄准射击的互动竞技动作。为了在此基础上获得性能和效率更高的整体表现，如图5所示，所述方法还包括：构建第一轻量级目标检测网络，输入实时游戏画面；根据实时游戏画面对其中的人物进行识别并得到人物在画面中的位置，由此进行智能体发现敌人和触发瞄准射击的决策。构建第二轻量级目标检测网络，输入实时双通道游戏声音，根据实时双通道游戏声音对声源所在方向进行定位，辅助智能体发现敌人，使智能体的整体表现更加接近人为控制。而后，利用目标检测网络实现识别多种目标，如游戏场景中的可拾取道具等，使得智能体可理解的游戏内信息更加丰富，能够做出更加复杂的决策表现。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。