CN117406706B

CN117406706B - 结合因果模型和深度强化学习的多智能体避障方法及系统

Info

Publication number: CN117406706B
Application number: CN202311014776.4A
Authority: CN
Inventors: 于沂渭; 范衠; 王顺鸽; 王诏君; 李文姬; 魏沛蔚; 翟昊; 郝志峰
Original assignee: Shantou University
Current assignee: Shantou University
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2024-04-09
Anticipated expiration: 2043-08-11
Also published as: CN117406706A

Abstract

本发明公开了一种结合因果模型和深度强化学习的多智能体避障方法、系统、设备及介质，其中所述方法包括：针对多智能体中的每个智能体，实时获取所述智能体与目标点之间的相对位置信息、所述智能体的当前运行速度及其对周围环境采集到的连续三帧图像；利用因果模型对所述连续三帧图像进行学习，并在学习过程中利用马尔科夫毯进行特征筛选，得到有效特征信息；利用深度强化学习模型对所述有效特征信息、所述相对位置信息和所述当前运行速度进行处理，得到所述智能体在下一时刻的运动控制信息。本发明所提出的避障控制策略可以适用于不同的现实环境，并且可以在无通信环境下稳定执行。

Description

结合因果模型和深度强化学习的多智能体避障方法及系统

技术领域

本发明涉及智能控制技术领域，具体是涉及一种结合因果模型和深度强化学习的多智能体避障方法、系统、设备及介质。

背景技术

随着人工智能、机器学习和自主控制技术的不断发展，利用多智能体进行环境探测已经是机器人技术领域的热点研究方向之一，其中的多智能体避障控制策略是尤为重要的一环。目前已有学者提出一种基于视觉的无人机分布式避障策略学习方法，在三维空间中采用基于策略梯度的强化学习算法和自动编码器，主要对无人机提供的深度图像和惯性测量信息进行解析以获取无人机的下一个控制指令，但是该方法过于依赖无人机在训练过程中遇到的环境，当无人机从训练环境迁移到现实环境中运行时，对无人机的控制效果不佳。

发明内容

本发明提供一种结合因果模型和深度强化学习的多智能体避障方法、系统、设备及介质，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

第一方面，提供一种结合因果模型和深度强化学习的多智能体避障方法，所述方法包括：

针对多智能体中的每个智能体，实时获取所述智能体与目标点之间的相对位置信息、所述智能体的当前运行速度及其对周围环境采集到的连续三帧图像；

利用因果模型对所述连续三帧图像进行学习，并在学习过程中利用马尔科夫毯进行特征筛选，得到有效特征信息；

利用深度强化学习模型对所述有效特征信息、所述相对位置信息和所述当前运行速度进行处理，得到所述智能体在下一时刻的运动控制信息。

进一步地，所述因果模型包括编码器和解码器，所述编码器中设置有多个编码层，所述解码器中设置有多个解码层，所述多个编码层与所述多个解码层的数量相同。

进一步地，所述利用因果模型对所述连续三帧图像进行学习，并在学习过程中利用马尔科夫毯进行特征筛选，得到有效特征信息包括：

将所述连续三帧图像进行拼接得到待解析图像，利用所述编码器对高维表示的所述待解析图像进行多次非线性编码得到低维特征信息，再利用马尔科夫毯对所述低维特征信息进行筛选得到关联特征信息，最后利用所述解码器对所述关联特征信息进行多次解码得到有效特征信息。

进一步地，所述利用马尔科夫毯对所述低维特征信息进行筛选得到关联特征信息包括：

所述低维特征信息中包含若干个特征量，利用马尔科夫毯对所述若干个特征量之间的依赖关系进行学习，以将其中存在依赖关系的所有特征量作为关联特征信息输出。

进一步地，所述因果模型以学习损失最小化为目标函数，所述目标函数的表达式为：

L_CAE＝L_D+λ₁L_C+λ₂L_Y+λ₃L_R；

其中，L_CAE为所述因果模型的学习损失，λ₁、λ₂、λ₃均为平衡参数，L_D为重构损失，L_C为编码损失，L_R为正则化损失，L_Y为交叉熵损失，n为学习率，||·||指代范数，X_s为输入数据，为重构数据，Z为低维特征信息，A为邻接矩阵，l(·)指代交叉熵函数，f(MB)指代使用因果特征表示的分类器，y_s为低维特征信息Z包含的人工标签信息，l为所述多个编码层或者所述多个解码层的数量，/>为第j个编码层的权重矩阵，/>为第j个编码层的偏置向量，为第j个解码层的权重矩阵，/>为第j个解码层的偏置向量。

进一步地，所述深度强化学习模型包括动作网络和评价网络，所述动作网络和所述评价网络均是由输入层、隐藏层和全连接层所组成的多层感知机，利用Q值拟合函数、KL散度损失函数和所述因果模型的目标函数来对所述动作网络和所述评价网络进行参数更新。

进一步地，所述利用深度强化学习模型对所述有效特征信息、所述相对位置信息和所述当前运行速度进行处理，得到所述智能体在下一时刻的运动控制信息包括：

将所述有效特征信息、所述相对位置信息和所述当前运行速度进行拼接，得到拼接特征信息；

利用所述动作网络对所述拼接特征信息进行处理，得到所述智能体在下一时刻的矢量运行速度；

利用所述评价网络对所述拼接特征信息和所述矢量运行速度进行处理，得到所述矢量运行速度对应的评价值。

第二方面，提供一种结合因果模型和深度强化学习的多智能体避障系统，所述系统包括：

获取模块，用于针对多智能体中的每个智能体，实时获取所述智能体与目标点之间的相对位置信息、所述智能体的当前运行速度及其对周围环境采集到的连续三帧图像；

学习模块，用于利用因果模型对所述连续三帧图像进行学习，并在学习过程中利用马尔科夫毯进行特征筛选，得到有效特征信息；

处理模块，用于利用深度强化学习模型对所述有效特征信息、所述相对位置信息和所述当前运行速度进行处理，得到所述智能体在下一时刻的运动控制信息。

第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序以实现如第一方面所述的结合因果模型和深度强化学习的多智能体避障方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的结合因果模型和深度强化学习的多智能体避障方法。

本发明至少具有以下有益效果：通过引入深度强化学习模型对单个智能体所处的关联环境信息和当前运行速度以及该智能体与目标点之间的相对位置信息进行分析，以获取到该智能体在下一时刻的运动控制信息，可以提高该智能体运行的可靠性和安全性；并且针对该关联环境信息的获取方式，提出通过引入因果模型和马尔科夫毯对该智能体所处的局部环境信息进行分析，可以从中获取该智能体在执行任务时真正需要考虑到的关联环境信息，忽略无关的背景干扰信息，使得该深度强化学习模型可以有效部署到不同的现实环境中应用，由此提高整个避障控制策略的适用性；此外，整个避障控制策略无需综合考虑到多智能体所处的全局环境信息和总体运行情况，可以确保在无通信环境下执行的稳定性，且对计算资源的要求低。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明实施例中的一种结合因果模型和深度强化学习的多智能体避障方法的流程示意图；

图2是本发明实施例与现有技术的应用效果比对示意图；

图3是本发明实施例中的一种结合因果模型和深度强化学习的多智能体避障系统的组成示意图；

图4是本公开实施例中的计算机设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序，应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限定于清楚列出的那些步骤或单元，而是可以包含没有清楚列出的对于这些过程、方法、产品或装置固有的其他步骤或单元。

深度强化学习(DRL，Deep Reinforcement Learning)是目前机器学习领域中重要的研究分支之一，其可以通过直接与环境进行交互实现端到端的学习，当将深度强化学习部署到现实环境时，需要对现实环境的不同变化具有鲁棒性，也就是在部署过程中能够转移和适应不可见的环境，尽管训练有素的智能体可以解决复杂的任务，但是也很难将经验转移到新的环境中，使得任务之间的泛化仍然很困难。为此，本发明提出引入因果模型来理解不同领域的分布变化，将复杂的特征分布进行分解以发掘出分布在不同领域的不变性和变化性，进而配合深度强化学习来完成智能体任务。

请参考图1，图1是本发明实施例提供的一种结合因果模型和深度强化学习的多智能体避障方法的流程示意图，所述方法包括如下：

步骤S110、针对多智能体中的每个智能体，实时获取所述智能体与目标点之间的相对位置信息、所述智能体的当前运行速度及其对周围环境采集到的连续三帧图像；

步骤S120、利用因果模型对所述连续三帧图像进行学习，并在学习过程中利用马尔科夫毯进行特征筛选，得到有效特征信息；

步骤S130、利用深度强化学习模型对所述有效特征信息、所述相对位置信息和所述当前运行速度进行处理，得到所述智能体在下一时刻的运动控制信息。

在本发明实施例中，所述智能体上设置有惯性测量设备、测距传感器、摄像头和中央处理器，所述惯性测量设备是由加速度计和陀螺仪所组成的，所述加速度计用于测量所述智能体的加速度并将其传输至所述中央处理器，所述陀螺仪用于测量所述智能体的旋转速率并将其传输至所述中央处理器，所述中央处理器用于根据接收到的所述加速度和所述旋转速率来计算出所述智能体的运行速度，所述测距传感器用于测量所述智能体与目标点之间的相对位置信息并将其传输至所述中央处理器，所述摄像头用于针对所述智能体的周围环境采集连续三帧图像并将其传输至所述中央处理器，所述中央处理器还用于执行上述步骤S120和上述步骤S130；由此可见，本发明仅靠单个智能体自身携带的相关设备并对局部信息进行分析就可以实现自主运动控制，可在无通信环境下实施。

在本发明实施例中，上述步骤S120中提及到的所述因果模型又称为因果自编码器，其主要包括设置有多个编码层的编码器以及设置有多个解码层的解码器，所述多个编码层的数量与所述多个解码层的数量相同，所述多个编码层顺次连接，所述多个解码层顺次连接，最后一个编码层与第一个解码层相连接，其中每个编码层和每个解码层均采用非线性激活函数(如sigmoid函数)；本发明在传统多智能体深度强化学习避障控制策略的基础上，将所述因果模型作为基本构建块来学习到具有因果关系的特征表示，可以更好地捕捉不同域之间的高维信息的相似性和差异性，从而实现跨域智能体控制策略的迁移，同时还可以通过对抗性训练来提高所述因果模型的鲁棒性和可解释性。

在此基础上，上述步骤S120的具体实施过程包括如下：

步骤S121、将所述连续三帧图像进行拼接，以获取到单通道的待解析图像；

步骤S122、将高维表示的所述待解析图像输入至所述编码器中进行多次非线性编码，以获取到低维特征信息；

步骤S123、由于所述低维特征信息中可能包含有一些与所述智能体执行任务时的无关信息(例如图像背景信息等等)，利用马尔科夫毯对所述低维特征信息进行筛选，以获取关联特征信息，具体表现为：

所述马尔科夫毯是一种用于表示高维数据的概率图模型，其中每个节点代表一个特征，不同节点之间的连接表示它们之间的依赖关系；所述低维特征信息中实际包含有若干个特征量，通过所述马尔科夫毯来学习所述若干个特征量之间的依赖关系，以将所述若干个特征量全部划分为存在依赖关系的第一特征量集合和毫无依赖关系的第二特征量集合，再将所述第一特征量集合定义为关联特征信息，对所述第二特征量集合忽略不计；

步骤S124、将所述关联特征信息输入至所述解码器中进行多次解码，以获取到有效特征信息。

在本发明实施例中，所述因果模型在实际应用过程中是以学习损失最小化为目标函数的，相应的表达式为：

L_CAE＝L_D+λ₁L_C+λ₂L_Y+λ₃L_R；

式中，L_CAE为所述因果模型的学习损失，L_D为重构损失，又称为所述解码器的学习损失，L_C为编码损失，又称为所述编码器的学习损失，L_Y为交叉熵损失，L_R为正则化损失，λ₁、λ₂、λ₃均为提前给定的平衡参数；

具体的，本发明通过所述重构损失L_D和所述正则化损失L_R最小化输入数据和输出数据之间的重构误差以学习低维表示，相应的表达式为：

式中，n为学习率，X_s为所述因果模型的输入数据，为所述因果模型所输出的重构数据，l为所述多个编码层的数量，又称为所述多个解码层的数量，/>为所述多个编码层中的第j个编码层的偏置向量，/>为所述多个编码层中的第j个编码层的权重矩阵，/>为所述多个解码层中的第j个解码层的偏置向量，/>为所述多个解码层中的第j个解码层的权重矩阵，||·||为范数符号。

具体的，本发明通过所述编码损失L_C和所述交叉熵损失L_Y来学习对未知目标域具有高泛化能力的因果低维表示，相应的表达式为：

L_C＝||Z-ZA||²；L_Y＝l[f(MB)，y_s]；

式中，Z为低维特征信息，A为邻接矩阵，f(MB)为使用因果特征表示的分类器，MB为经过所述马尔科夫毯学习之后保留的关联特征信息，y_s为低维特征信息Z中所包含的人工标签信息，l(·)为交叉熵函数。

在本发明实施例中，上述步骤S130中提及到的所述深度强化学习模型主要包括评价网络和动作网络，所述评价网络和所述动作网络均是由按序相连的输入层、隐藏层和全连接层所组成的多层感知机，并且对所述评价网络和所述动作网络进行参数更新就是沿着所述因果模型的目标函数、KL散度损失函数和Q值拟合函数的梯度方向进行反向传播，Q值反映的是环境的回报，KL散度反映的是最小化Q值拟合函数和控制策略所引起的玻尔兹曼分布。

具体的，对所述深度强化学习模型的预先训练过程主要包括两个阶段：

第一个阶段为控制多智能体按照同一控制策略执行目标任务，实时通过所述因果模型学习到每个智能体所关联的有效特征信息，再将其实时输入至所述深度强化学习模型中进行处理以获取每个智能体在下一时刻的矢量运行速度并作出调整，在此过程中实时获取每个智能体关联的轨迹信息并将其存储至给定的经验回放池，其中/>为第i个智能体在当前时刻t的本体位置，/>为第i个智能体在当前时刻t的矢量运行速度，/>为第i个智能体在当前时刻t的奖励函数值，/>为第i个智能体在下一时刻t+1的本体位置，/>为第i个智能体在当前时刻t的运动终止信息；

第二个阶段为在所述经验回放池的存储空间达到满载状态的情况下，暂停运行上述第一个阶段，从所述经验回放池中随机抽取出一定数量的轨迹信息，再基于所述因果模型的目标函数、所述KL散度损失函数和所述Q值拟合函数来对所述深度强化学习模型进行反向传播训练，以完成对所述评价网络和所述动作网络的参数更新。

在本发明实施例中，上述步骤S130的具体实施过程包括如下：

步骤S131、将所述当前运行速度、所述相对位置信息和所述有效特征信息进行拼接，以获取拼接特征信息；

步骤S132、将所述拼接特征信息输入至所述动作网络进行处理，以获取所述智能体在下一时刻的矢量运行速度；

步骤S133、将所述矢量运行速度和所述拼接特征信息输入至所述评价网络进行处理，以获取反映所述矢量运行速度可靠性的评价值。

为了验证本发明的可靠性，技术人员提出将在源域实验场景下(即障碍物数量为0)训练得到的控制策略迁移到不同的目标域实验场景下(即障碍物数量大于0)使用，主要利用成功率、额外距离/标准差、SPL(Success weighted by Path Length)和平均时间步这四项指标，对本发明所提出的因果模型与深度强化学习模型相结合的应用效果以及现有技术所提出的SAC(Soft Actor Critic)算法与AE(Auto Encoder)算法相结合的应用效果进行对比说明，具体参见图2所示，可以看出本发明的应用效果更佳。

在本发明实施例中，通过引入深度强化学习模型对单个智能体所处的关联环境信息和当前运行速度以及该智能体与目标点之间的相对位置信息进行分析，以获取到该智能体在下一时刻的运动控制信息，可以提高该智能体运行的可靠性和安全性；并且针对该关联环境信息的获取方式，提出通过引入因果模型和马尔科夫毯对该智能体所处的局部环境信息进行分析，可以从中获取该智能体在执行任务时真正需要考虑到的关联环境信息，忽略无关的背景干扰信息，使得该深度强化学习模型可以有效部署到不同的现实环境中应用，由此提高整个避障控制策略的适用性；此外，整个避障控制策略无需综合考虑到多智能体所处的全局环境信息和总体运行情况，可以确保在无通信环境下执行的稳定性，且对计算资源的要求低。

请参考图3，图3是本发明实施例提供的一种结合因果模型和深度强化学习的多智能体避障系统的组成示意图，所述系统包括：

获取模块210，用于针对多智能体中的每个智能体，实时获取所述智能体的当前运行速度、所述智能体和目标点之间的相对位置信息以及所述智能体对周围环境所采集的连续三帧图像；

学习模块220，用于将所述连续三帧图像输入至因果模型中进行学习，并且在学习过程中引入马尔科夫毯进行特征筛选，以获取有效特征信息；

处理模块230，用于将所述当前运行速度、所述相对位置信息和所述有效特征信息输入至深度强化学习模型中进行处理，以获取所述智能体在下一时刻的运动控制信息。

在本发明实施例中，所述智能体上设置有惯性测量设备、测距传感器、摄像头和中央处理器，所述惯性测量设备是由加速度计和陀螺仪所组成的，所述加速度计用于测量所述智能体的加速度并将其传输至所述中央处理器，所述陀螺仪用于测量所述智能体的旋转速率并将其传输至所述中央处理器，所述中央处理器用于根据接收到的所述加速度和所述旋转速率来计算出所述智能体的运行速度，所述测距传感器用于测量所述智能体与目标点之间的相对位置信息并将其传输至所述中央处理器，所述摄像头用于针对所述智能体的周围环境采集连续三帧图像并将其传输至所述中央处理器，所述中央处理器还用于运行所述学习模块220和所述处理模块230；由此可见，本发明仅靠单个智能体自身携带的相关设备并对局部信息进行分析就可以实现自主运动控制，可以在无通信环境下实施。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所实现的功能与上述方法实施例相同，并且所达到的有益效果与上述方法实施例相同，在此不再赘述。

此外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中的结合因果模型和深度强化学习的多智能体避障方法。其中，所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammableRead-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是说，存储设备包括由设备(例如计算机、手机等)以可读的形式存储或传输信息的任何介质，可以是只读存储器、磁盘或光盘等。

此外，图4是本发明实施例提供的计算机设备的硬件结构示意图，所述计算机设备包括处理器320、存储器330、输入单元340和显示单元350等器件。本领域技术人员可以理解，图4示出的设备结构器件并不构成对所有设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器330可用于存储计算机程序310以及各功能模块，处理器320运行存储在存储器330的计算机程序310，从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器，或者包括内存储器和外存储器。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器或者随机存储器。外存储器可以包括硬盘、软盘、U盘、磁带等。本发明实施例所公开的存储器330包括但不限于上述这些类型的存储器。本发明实施例所公开的存储器330只作为例子而非作为限定。

输入单元340用于接收信号的输入，以及接收用户输入的关键字。输入单元340可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户利用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元350可用于显示用户输入的信息或提供给用户的信息以及终端设备的各种菜单。显示单元350可采用液晶显示器、有机发光二极管等形式。处理器320是终端设备的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器330内的软件程序和/或模块，以及调用存储在存储器330内的数据，执行各种功能和处理数据。

作为一个实施例，所述计算机设备包括处理器320、存储器330和计算机程序310，其中所述计算机程序310被存储在所述存储器330中并被配置为由所述处理器320所执行，所述计算机程序310被配置用于执行上述实施例中的结合因果模型和深度强化学习的多智能体避障方法。

尽管本申请的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求，考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本申请的预定范围。此外，上文以发明人可预见的实施例对本申请进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本申请的非实质性改动仍可代表本申请的等效改动。

Claims

1.一种结合因果模型和深度强化学习的多智能体避障方法，其特征在于，所述方法包括：

利用因果模型对所述连续三帧图像进行学习，并在学习过程中利用马尔科夫毯进行特征筛选，得到有效特征信息；所述因果模型包括编码器和解码器，所述编码器中设置有多个编码层，所述解码器中设置有多个解码层，所述多个编码层与所述多个解码层的数量相同；

利用深度强化学习模型对所述有效特征信息、所述相对位置信息和所述当前运行速度进行处理，得到所述智能体在下一时刻的运动控制信息；所述深度强化学习模型包括动作网络和评价网络，所述动作网络和所述评价网络均是由输入层、隐藏层和全连接层所组成的多层感知机，利用Q值拟合函数、KL散度损失函数和所述因果模型的目标函数来对所述动作网络和所述评价网络进行参数更新；

其中，所述利用因果模型对所述连续三帧图像进行学习，并在学习过程中利用马尔科夫毯进行特征筛选，得到有效特征信息包括：

将所述连续三帧图像进行拼接得到待解析图像，利用所述编码器对高维表示的所述待解析图像进行多次非线性编码得到低维特征信息，再利用马尔科夫毯对所述低维特征信息进行筛选得到关联特征信息，最后利用所述解码器对所述关联特征信息进行多次解码得到有效特征信息；

其中，所述利用深度强化学习模型对所述有效特征信息、所述相对位置信息和所述当前运行速度进行处理，得到所述智能体在下一时刻的运动控制信息包括：

2.根据权利要求1所述的结合因果模型和深度强化学习的多智能体避障方法，其特征在于，所述利用马尔科夫毯对所述低维特征信息进行筛选得到关联特征信息包括：

3.根据权利要求1所述的结合因果模型和深度强化学习的多智能体避障方法，其特征在于，所述因果模型以学习损失最小化为目标函数，所述目标函数的表达式为：

L_CAE＝L_D+λ₁L_C+λ₂L_Y+λ₃L_R；

L_C＝‖Z-ZA‖²；/>

其中，L_CAE为所述因果模型的学习损失，λ₁、λ₂、λ₃均为平衡参数，L_D为重构损失，L_C为编码损失，L_R为正则化损失，L_Y为交叉熵损失，n为学习率，‖·‖指代范数，X_s为输入数据，为重构数据，Z为低维特征信息，A为邻接矩阵，/>指代交叉熵函数，f(MB)指代使用因果特征表示的分类器，y_s为低维特征信息Z包含的人工标签信息，l为所述多个编码层或者所述多个解码层的数量，/>为第j个编码层的权重矩阵，/>为第j个编码层的偏置向量，/>为第j个解码层的权重矩阵，/>为第j个解码层的偏置向量。

4.一种结合因果模型和深度强化学习的多智能体避障系统，其特征在于，应用于如权利要求1至3中任一项所述的结合因果模型和深度强化学习的多智能体避障方法，所述系统包括：

5.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1至3任一项所述的结合因果模型和深度强化学习的多智能体避障方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的结合因果模型和深度强化学习的多智能体避障方法。