CN116027670B

CN116027670B - 一种多Agent协作粉体能源物料传输控制系统、方法及介质

Info

Publication number: CN116027670B
Application number: CN202310109468.3A
Authority: CN
Inventors: 刘洋; 王永富
Original assignee: 东北大学
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-06-16
Anticipated expiration: 2043-02-14
Also published as: CN116027670A

Abstract

本发明属于粉体能源物料的传输与控制领域，公开了一种多Agent协作粉体能源物料传输控制系统、方法及介质。非法闯入人员及违规操作检测模块采用了使用自制数据集训练和改进的YOLOv5n网络模型，检测到非法闯入人员或违规操作时报警；三维重建及质量计算模块采用了使用自制数据集训练和改进的3D‑R2N2网络模型，实现料堆RGB图像对应的体积元素空间模型的生成，利用辅助参照物得到单个体积元素的体积进而得到料堆体积，并计算出已传输物料的质量，从而提高粉体能源物料传输控制系统的可靠性。通过在多智能体强化学习仿真试验台和真实环境中训练MADDPG算法，使得粉体能源物料传输控制系统逐步达到人类可接受的传输水平。

Description

一种多Agent协作粉体能源物料传输控制系统、方法及介质

技术领域

本发明涉及粉体能源物料传输与控制领域，特别是涉及一种多Agent协作粉体能源物料传输控制系统、方法及介质。

背景技术

随着全球粉体能源整体需求的持续增长和现代科学技术的不断进步，粉体能源物料传输控制技术作为战略性新兴产业的一个重要组成部分正在世界范围内迅速发展。多Agent强化学习技术在人民的生产和生活中得到了广泛的普及，多Agent强化学习技术通过编队控制、任务规划、路径规划、感知避障及动态自组织网络通信等关键技术，实现多Agent的智能协作控制，将大而复杂的系统改造成小的、彼此互相通信和协调的、易于管理的系统，进而并行地处理复杂的多个任务，提高算法的执行效率。将多Agent强化学习技术与粉体能源物料传输控制技术结合，能够大大提高粉体能源物料传输控制系统的自动化水平和工作效率，但是，如何更好地实现基于多Agent协作的粉体能源物料传输控制系统和装置仍是粉体能源物料的传输与控制领域的一个热点问题，得到了国内外研究人员十分广泛的关注。

实际生产环境中，在煤粉等粉体能源物料堆场里往往漂浮着大量的粉尘，极易遮挡运输车辆驾驶员的视线从而引起交通事故；容易引起尘肺、变态过敏反应等职业病的发生；对防火防爆、禁火禁烟有着极为严格的管理要求；另外，人力装卸效率较低，劳动强度大，因此粉体能源物料堆场环境的无人化、智能化势在必行。目前大多数粉体能源物料传输控制系统都是在多种昂贵传感器提供的外界环境的相关信息的基础上使用传统控制方法控制的，孙珊珊的“粉体稠密气力输送研究”中使用传统控制方法对单Agent进行单目标决策，这种方法存在运营经济性不高和传输效率较低的问题，无法应用于大批量粉体能源物料的快速分类传输。目前大多数粉体能源物料传输控制系统中粉体能源的传输往往是按需进行的，其需求具有很强的不规律性，时断时续的情况比较普遍，会因系统空转带来大量的电能消耗，效率极其低下。传统粉体能源物料传输控制系统一般是在建立外界环境和物料传输过程的近似数学模型的基础上设计控制器进行控制，对模型的数学建模具有依赖性，由于外界环境和粉体能源物料传输过程中的各种影响因素无法全部地考虑，所以很难精确地建模和控制。传统物料传输控制系统没有考虑到粉体能源物料在长期存放时产生的损耗、自燃等问题；这些问题大大影响了物料传输控制系统的经济性、实用性和可靠性。

发明内容

本发明主要解决的技术问题是传统粉体能源物料传输控制系统在粉体能源物料堆场环境中传输效果不佳的问题，提出了一种多Agent协作粉体能源物料传输控制系统、方法及介质，基于改进的3D-R2N2和改进的YOLOv5n实现。首先，采用RGB相机对外界环境进行感知，其次，采用多Agent深度强化学习方法代替传统的控制方法，提高了物料传输控制系统的经济性、实用性和可靠性。另外，本发明还加入非法闯入人员及违规操作检测功能和优先传输呆滞粉体能源物料的设定，提高了粉体能源物料传输控制系统的安全性。本发明使用深度学习三维重建的方式代替传统称重系统计算粉体能源物料的质量，简化了物料传输控制系统的机械结构，提高了物料传输控制系统的可靠性。本发明使用密闭的气力传输方式代替传统的皮带传输方式从而减少粉体能源物料堆场的粉尘污染，有效传输距离可达500米，完全可以在崎岖复杂的地形下长距离大运力传输粉体能源物料。本发明在粉体能源物料堆场环境中的应用具有极大的实际应用价值与现实意义，大大提高了粉体能源物料传输的自动化程度，节省了人工成本，很大程度上提高了粉体能源物料传输的效率。

本发明为了达到上述目的采用的技术方案是：一种多Agent协作粉体能源物料传输控制系统，包括探测单元、气力传输系统、总控上位机和车载下位机；

探测单元布置在各个粉体能源物料气力传输车预设的探测位置处，采用车载RGB摄像头采集各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的RGB视频；

气力传输系统的入料口吸嘴布置在各个粉体能源物料气力传输车预设位置处，气力传输系统其余部件布置在物料出料口预设位置处，采用吸送式气力传输装置采集物料并通过柔性可伸缩管道传输到物料出料口；吸送式气力传输装置包括吸嘴、分离器、风机、除尘器、消声器等部件；车载下位机安装于粉体能源物料气力传输车上，其嵌入自动行驶粉体能源物料气力传输车控制程序，自动行驶粉体能源物料气力传输车控制程序包括非法闯入人员及违规操作检测模块、粉体能源物料料堆三维重建及质量计算模块、决策控制模块，用于控制多Agent协作粉体能源物料的传输；非法闯入人员及违规操作检测模块采用改进的YOLOv5n网络模型；粉体能源物料料堆三维重建及质量计算模块采用改进的3D-R2N2网络模型；

总控上位机嵌入自动行驶粉体能源物料气力传输车预训练程序，自动行驶粉体能源物料气力传输车预训练程序包括强化学习预训练模块，用于预训练MADDPG算法；总控上位机与多个车载下位机建立联系。

所述非法闯入人员及违规操作检测模块中使用自制非法闯入人员及违规操作数据集，对改进的YOLOv5n网络模型进行训练，将划定界限的监控区域范围内各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的RGB视频的原始视频帧输入已训练的改进的YOLOv5n网络模型，对各个粉体能源物料气力传输车前方的环境进行目标检测，将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来得到新的视频帧；

自制非法闯入人员及违规操作数据集为利用车载RGB摄像头采集的非法闯入人员RGB图像或违规操作的原始视频帧、以及该原始视频帧进行标签标定后的原始视频帧；

所述改进的YOLOv5n网络模型，包括骨干模块、瓶颈模块、头部模块；

骨干模块包括依次连接的第一卷积层、第一CBS模块、第一C3模块、第二CBS模块、第二C3模块、第三CBS模块、第三C3模块、第四CBS模块和快速金字塔池化模块；瓶颈模块包括依次连接的第四C3模块、第五CBS模块、第一次上采样操作、第一次拼接操作、第五C3模块和第六CBS模块以及第二次上采样操作、第二次拼接操作、第一GTC3模块、接收第一GTC3模块输出语义特征的第七CBS模块、接收第七CBS模块和第六CBS模块输出语义特征的第三次拼接操作、接收第三次拼接操作输出语义特征的第二GTC3模块；第一次拼接操作用于拼接第一次上采样操作和第三C3模块输出的语义特征；头部模块包括接收第一GTC3模块输出语义特征的第一卷积层、接收第二GTC3模块输出语义特征的第二卷积层以及各自对应的目标检测结果；

所述每个CBS模块包括依次连接的位置卷积层、批归一化层、SiLU激活函数，SiLU激活函数具体为

，其中/>

是自然常数，/>

为SiLU激活函数的输入；

所述每个C3模块包括两个分支，其中第一分支包括依次连接的CBS模块、残差单元，第二分支包括卷积层，第一分支和第二分支输出的语义特征通过拼接操作生成各个C3模块的输出；所述残差单元包括依次连接的恒等映射、第一个CBS模块、第二个CBS模块、加和操作；

所述快速金字塔池化模块包括依次连接的CBS模块、由恒等映射组成的第一分支、由一个最大池化层组成的第二分支、由两个最大池化层依次相连组成的第三分支、由三个池化层依次相连组成的第四分支、所有分支输出的语义特征通过拼接操作输出到CBS模块后，得到快速金字塔池化模块的输出；

所述每个GTC3模块包括依次连接的第一1×1卷积层分支，第一CBS模块，由依次相连的Ghost module模块、深度可分离卷积层、SEGhost module模块构成的第一分支，恒等映射第二分支，由依次相连的第二CBS模块、多头自注意力模块、卷积层构成的第三分支；第一分支与第二分支在SEGhost module模块后进行加和操作后与第三分支输出的语义特征进行拼接操作输出的语义特征经过第二1×1卷积层后与第一1×1卷积层分支输出的语义特征加和后经过第三CBS模块作用后得到各个GTC3模块的输出；

所述Ghost module模块包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积层组成的第二分支、第一分支和第二分支输出的语义特征通过拼接操作得到Ghost module模块的输出；

所述SEGhost module模块包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积层组成的第二分支、第一分支和第二分支通过拼接操作后经过依次相连的全局池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数作用后与第一分支和第二分支通过拼接操作后输出的语义特征相乘得到SEGhost module模块的输出。

ReLU激活函数具体为

，其中/>

为ReLU激活函数的输入；

Sigmoid激活函数具体为

，其中/>

是自然常数，/>

为Sigmoid激活函数的输入，

所述粉体能源物料料堆三维重建及质量计算模块通过自制粉体能源物料料堆三维重建数据集进行训练，用以对粉体能源物料堆场中的粉体能源物料料堆进行三维重建生成料堆RGB图像，计算料堆RGB图像对应的体积元素空间模型，利用辅助参照物得到单个体积元素的实际体积进而得到料堆体积；取料前将每个料堆的时间戳记为

并存储在总控上位机中；

自制粉体能源物料料堆三维重建数据集为利用车载RGB摄像头采集的粉体能源物料料堆RGB图像、粉体能源物料料堆RGB图像对应的三维CAD模型；

所述辅助参照物为一已知体积的圆锥状物体，放置于各粉体能源物料料堆预设的能被探测单元探测的位置处；

所述改进的3D-R2N2网络模型，包括编码器模块、三维卷积-长短期记忆模块、解码器模块；

编码器模块包括依次连接的快速空间金字塔池化模块、恒等映射、第一残差模块、第一个1×1卷积层、恒等映射、第二残差模块、第一语义特征融合模块、第三残差模块、第二语义特征融合模块、多头自注意力模块、第四残差模块和第五残差模块；三维卷积-长短期记忆模块包括依次相连的全连接层和三维卷积-长短期记忆层；解码器模块包括依次连接的第六残差模块、第七残差模块、第八残差模块、第九残差模块和3×3×3卷积层；解码器模块的输出经三维归一化指数函数作用后生成分割图；

快速空间金字塔池化模块包括四个分支，其中第一分支包括3×3池化操作，第二分支包括两个依次相连的3×3池化操作，第三分支包括三个依次相连的3×3池化操作，第四分支是恒等映射分支，快速空间金字塔池化模块中的第一分支、第二分支、第三分支、第四分支通过拼接操作输出快速空间金字塔池化结果；

所述第一残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、3×3卷积层、加和操作、池化操作；

所述第二残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作；

所述第三残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作；

所述多头自注意力模块包括依次连接的3×3可分离卷积层、多头自注意力结构、1×1卷积层；

所述第四残差模块包括依次连接的池化操作、恒等映射、3×3可分离卷积层、3×3卷积层、加和模块；

所述第五残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块；

所述第六残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块；

所述第七残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块；

所述第八残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、3×3×3卷积层、加和模块；

第一语义特征融合模块和第二语义特征融合模块均有两个输入分支，分别接收粉体能源物料堆场状态的浅层语义特征和深层语义特征，分别经过平均池化后经拼接操作得到一个语义特征向量、随后依次经过池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数后得到系数

和1-/>

，分别与浅层语义特征和深层语义特征相乘，与浅层语义特征和一个小于0.5的系数/>

相乘得到的结果拼接后，经1×1卷积操作得到输出结果。

所述强化学习预训练模块使用预先采集的规范行驶的经验样本集

作为专家经验数据集，对MADDPG算法进行预训练，将各个粉体能源物料气力传输车前方环境状态的RGB视频输入经预训练的改进的YOLOv5n网络模型后输出的未戴安全帽、反光马甲或行为异常的人体目标标记出来的新的视频帧/>

、已传输物料的质量/>

和料堆堆放时间/>

输入经预训练的MADDPG算法，获得MADDPG算法的损失函数值，优化MADDPG算法参数；其中，/>

是各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态，/>

是行驶动作和气力传输系统启停指令，/>

是新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态，/>

是本次行驶动作指令的奖励值；

所述决策控制模块根据MADDPG算法获取的损失函数值和优化MADDPG算法参数在多智能体强化学习仿真试验台仿真环境中迭代获得离线决策模型；对离线决策模型在真实环境中进行迭代获得最终决策模型，根据粉体能源物料堆场环境进行推理决策。

一种多Agent协作粉体能源物料传输控制方法，包括以下步骤：

S1：将每个料堆开始堆放时的时间戳记为起始时间戳

，取料前每个料堆的时间戳记为/>

，使用公式/>

计算出料堆堆放时间/>

；使用预先采集的粉体能源物料气力传输车规范行驶动作的经验样本集/>

作为专家经验数据集，对MADDPG算法进行预训练直至达到设定的最大迭代次数/>

或MADDPG算法收敛为止；利用车载RGB摄像头采集粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧

，输入到非法闯入人员及违规操作检测模块，该非法闯入人员及违规操作检测模块为使用非法闯入人员及违规操作数据集训练过的改进的YOLOv5n网络模型，输出新的视频帧/>

，其包括检测到的未戴安全帽、未着反光马甲和行为异常的人员目标标记；当作业区域内无未戴安全帽、未着反光马甲或行为异常的人员或未戴安全帽、未着反光马甲或行为异常的人员未在作业区域内，进行下一步；当作业区域内有未戴安全帽、未着反光马甲或行为异常的人员，报警；

S2：粉体能源物料料堆三维重建及质量计算；采集不同堆场环境下粉体能源物料料堆RGB图像并利用SolidWorks软件建立粉体能源物料料堆RGB图像对应的三维CAD模型，建立自制粉体能源物料料堆三维重建数据集，采用自制粉体能源物料料堆三维重建数据集对改进的3D-R2N2网络模型进行训练，将利用车载RGB摄像头采集的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧

输入经过训练的改进的3D-R2N2网络模型得到体积元素空间模型/>

，通过测量已知体积为/>

的参照物/>

的体积元素的个数

计算出单个体积元素的体积/>

，通过体积元素空间模型/>

体积元素的个数

计算出粉体能源物料料堆的起始体积/>

；在粉体能源物料传输过程中持续测量每个粉体能源物料料堆的当前体积/>

，测得已传输物料的体积/>

；根据粉体物料的密度/>

计算出已传输物料的质量/>

；其中，/>

为粉体能源物料气力传输车的数目，已传输物料的总质量/>

；

S3：设有

个料堆，将已传输物料的总质量/>

，各个料堆堆放时间/>

，检测到的各个粉体能源物料气力传输车的将未戴安全帽、反光马甲或行为异常的人体目标标记出来的新的视频帧/>

作为各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>

，输入到经过预训练的MADDPG算法中；当已传输物料的总质量/>

达到期望值

时，停止粉体能源物料的传输；经过预训练的MADDPG算法依据状态/>

从其动作空间中选择对应的行驶动作和气力传输系统开关指令/>

并输出，经行驶动作和气力传输系统开关指令/>

后形成新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态

，通过奖励函数计算本次驾驶动作指令的奖励值/>

，并将状态/>

、行驶动作和气力传输系统开关指令/>

、本次行驶动作指令的奖励值/>

和新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>

作为转移样本/>

存入经验回放缓存池中；从经验回放缓存池中随机抽取转移样本，计算MADDPG算法的损失函数值/>

和优化MADDPG算法参数/>

，料堆取料概率优先级为/>

，其中/>

是料堆总数；

S4：在经过生成对抗网络辅助生成的多智能体强化学习仿真试验台仿真环境中重复步骤S3直至达到设定的最大迭代次数

或者算法收敛为止，生成离线决策模型/>

；在真实环境中重复步骤S3，对离线决策模型/>

进行更新直至迭代次数达到/>

或者算法收敛为止，生成最终决策模型/>

；

S5：利用最终决策模型

进行实车推理决策。

所述步骤S2，具体包括以下步骤：

S2.1.1：利用RGB摄像头采集各种粉体能源物料料堆环境下粉体能源物料料堆的RGB图像；

S2.1.2：使用SolidWorks软件建立粉体能源物料料堆的RGB图像对应的三维CAD模型；

S2.1.3：将粉体能源物料料堆的RGB图像及其对应的三维CAD模型作为一个样本，按照比例φ将所有样本随机划分为训练集与测试集；

S2.2：生成体积元素空间模型

S2.2.1：使用2D卷积网络结构2D-CNN作为编码器对各个粉体能源物料气力传输车前方的粉体能源物料料堆的RGB图像

进行特征提取和编码为低维特征向量/>

作为编码输入；

S2.2.2：将低维特征向量

送入作为中间结构的3D-LSTM单元得到三维网格结构；

S2.2.3：将三维网格结构输入解码器3D反卷积网络，并将体积元素转换成三维概率矩阵；通过三维概率矩阵进行像素重建生成体积元素空间模型

。

所述步骤S3，计算MADDPG算法的损失函数值

和优化MADDPG算法参数/>

的具体过程具体为：

S3.1、随机初始化每个粉体能源物料气力传输车的策略网络

和策略网络参数/>

、评估网络/>

和评估网络参数/>

，其中

为每一个粉体能源物料气力传输车在粉体能源物料堆场环境状态对应采取的气力传输系统启停指令动作；/>

为每个粉体能源物料气力传输车各自的状态；随机初始化每个粉体能源物料气力传输车的目标策略网络/>

和目标策略网络参数/>

、目标评估网络/>

和目标评估网络参数/>

；初始化每个粉体能源物料气力传输车的经验回放缓存池/>

和动作探索噪声/>

；初始化各个粉体能源物料气力传输车前方粉体能源物料堆场环境和所有粉体能源物料气力传输车状态集合；

S3.2、对每一个粉体能源物料气力传输车

执行以下步骤：

S3.2.1根据当前粉体能源物料气力传输车的观察状态、策略网络和噪声探索策略选择动作

+/>

,其中/>

为时间步序号；

S3.2.2粉体能源物料气力传输车

执行当前动作/>

得到下一状态/>

和奖励

，并且将经验/>

存入经验回放缓存池/>

，其中/>

为时间步序号；

S3.3、每执行Z步，对每个粉体能源物料气力传输车，按照以下步骤训练神经网络：

S3.3.1根据

计算当前粉体能源物料气力传输车Z步经验的策略损失，其中，

为采取策略/>

时评估网络的值，/>

为采取策略/>

时目标评估网络的值，/>

是衰减因子；

S3.3.2从经验回放缓存池

中随机抽取小批次的经验,包含/>

个经验；

S3.3.3通过目标评估网络计算每个经验动作期望回报：

S3.3.4最小化损失以更新评估网络参数:

其中，

表示Loss损失函数；

S3.3.5通过以下梯度更新当前智能体的策略网络参数:

其中，

表示在策略网络参数/>

下的策略梯度，/>

和/>

分别表示评估网络状态-动作值函数梯度和策略网络函数的梯度，/>

表示随机抽取小批次的经验样本数量；

S3.4、每执行B步，对每个智能体，按照以下公式更新目标策略网络和目标评估网络参数：

其中，

是软更新比例系数；

S3.5：循环运行步骤S3.2-S3.4直至达到最大迭代次数或者算法收敛为止。

所述步骤S3中，总奖励函数

包括料堆距离奖励函数/>

、安全距离奖励函数/>

、避免气力传输管道损坏奖励函数/>

、速度奖励函数/>

，具体为：

料堆距离奖励函数

和安全距离奖励函数/>

，如式（1）所示：

（1）

其中，

、/>

为常数；/>

为粉体能源物料气力传输车吸嘴距离料堆的间距；

为粉体能源物料气力传输车周围车辆、障碍物与粉体能源物料气力传输车的间距，

、/>

均由粉体能源物料气力传输车传感器计算获取；

避免气力传输管道损坏奖励函数

，如式（2）所示：

（2）

其中，

是常数，过度拉伸指/>

；

速度奖励函数

，如式（3）所示：

（3）

其中，

是常数，/>

为粉体能源物料气力传输车允许行驶的最高时速，/>

为粉体能源物料气力传输车当前行驶时速，单位均为/>

；

总奖励函数

，如式（4）所示：

（4）

所述步骤S4中，仿真试验台是一种新型的强化学习训练方式。与目前强化学习多在仿真训练环境中进行强化学习训练完全不同，本申请所述在自动驾驶仿真试验台中进行训练，具体包括步骤如下：

S4.1.1：对用于训练粉体能源物料气力传输车的粉体能源物料堆场环境使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape，对反映真实环境中不可移动物体的位置和形状进行三维建模；

S4.1.2：对粉体能源物料气力传输车的轮廓坐标进行界定；

S4.1.3：在训练过程中，根据粉体能源物料气力传输车位置状态、车轮速度、行驶方向等变量计算得出粉体能源物料气力传输车新的位置状态，使得车轮的动作空间、状态空间和总奖励函数

与在真实粉体能源物料堆场环境中进行训练时相同，车轮运行的介质为真实粉体能源物料堆场环境中车轮运行的介质，比如泥土、沙地、沥青等；输入图片均是真实粉体能源物料气力传输车车载摄像头拍摄的根据车轮动作而变化的视频帧，与真实训练环境中粉体能源物料气力传输车探测单元探测到的视频帧相同，其余各部件的运行机理与正常粉体能源物料气力传输车相同，各项物理参数与真实环境相同；同时此仿真试验台不能移动，从而克服强化学习在真实环境中训练时面临的碰撞损害问题；

相对于在仿真训练环境中进行强化学习训练，本发明在一种多智能体强化学习仿真试验台中进行训练具有与真实环境相同的物理环境；相对于在真实环境中进行强化学习训练，本申请所述在多智能体强化学习仿真试验台中进行训练能够避免各个智能体（粉体能源物料气力传输车）与环境中其余物体发生真实碰撞而导致训练成本过高的问题。

S4.2：使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape进行三维建模

S4.2.1：采用椭球形状作为初始形状，并使用各种随机采样的视角和光照条件渲染大量非自然的粉体能源物料堆场环境RGB图像；

S4.2.2：用预训练的生成对抗网络对粉体能源物料堆场环境RGB图像进行重建，得到其在生成对抗网络图像空间的投影，即投影样本；投影样本有与粉粉体能源物料堆场环境RGB图像同种类型的视角与光照，同时生成对抗网络的生成特性将投影样本约束在真实图像空间中，从而消除粉体能源物料堆场环境RGB图像中不真实的畸变与光影；

S4.2.3：将投影样本作为渲染步骤的学习目标真实值，优化三维粉体能源物料堆场环境；由于投影样本中包含了生成对抗网络学得的物体三维信息，因此物体形状会更加准确；

S4.2.4：用优化后的三维粉体能源物料堆场环境作为初始形状再重复步骤S4.2.1- S4.2.3，迭代多次，直至网络收敛。

一种介质，所述介质为计算机可读存储介质，该计算机可读存储介质上存储有基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制程序，其中所述多Agent协作粉体能源物料传输控制程序被处理器执行时，实现所述基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制方法的步骤。

本发明的有益效果：

1、使用多Agent协作粉体能源物料传输控制系统代替传统皮带传输装置对粉体能源物料进行传输，有效克服了皮带传输装置通用性不强、结构复杂、输送线路局限性大、不能够自动取料的缺点，提高了粉体能源的传输效率。

2、为了克服传统控制方法对外界驾驶环境的数学模型依赖性大从而导致控制方法的控制精度低、鲁棒性差的缺点，应用多Agent深度强化学习算法MADDPG，充分利用了真实堆场环境中按照规则在各种状态时行驶的信息来加强自动气力传输车的运动规划和控制。

3、改进YOLOv5n网络模型，从而提高网络模型每秒处理图片数量和检测准确率，减少网络模型的参数数量；使用经过训练的改进YOLOv5n网络模型对RGB摄像头采集的RGB图像中的非法闯入人员进行目标检测，在检测到非法闯入人员及违规操作时报警，提高了系统的安全性。

4、改进3D-R2N2网络模型，从而提高网络模型的交并比指标；为了向总控上位机提供传输粉体能源物料质量的准确信息，将RGB摄像头采集的RGB图像输入改进的3D-R2N2模型进行三维体素建模，再通过参照物体积和体积元素块数量计算出传输粉体能源物料料堆质量，原粉体能源物料料堆质量和现有粉体能源物料料堆质量之差即为传输质量，克服了皮带秤计量不准、零点波动等缺点，采用单视图纯视觉三维重建方法，提高了建模速度和效率，减少了建模成本。

5. 为了避免陈煤自燃、物料受潮等问题造成粉体能源物料的损失，对堆放时间长的料堆赋予较大的优先传输权重，提高了系统的安全性。

6、针对目前没有粉体能源物料料场深度强化学习仿真环境的问题，通过基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape方式生成多种粉体能源物料料场强化学习仿真环境3D模型；

7、设计了一种多智能体强化学习仿真实验台，提出了多层次联合训练方法，分别在试验台和真实环境中训练无人驾驶物料气力传输车。通过无人驾驶物料气力传输车与真实环境直接进行交互，使得误差、延迟和噪声等干扰因素作为环境模型的一部分被MADDPG算法隐式地建模，并在值估计和决策生成过程中被充分地考虑，既能避免强化学习模型对训练数据集的依赖的问题，又提高了算法的训练效率和鲁棒性。

附图说明

图1为本发明实施例提供的多Agent协作粉体能源物料传输控制系统的结构示意图；

图2为本发明实施例提供的多Agent协作粉体能源物料传输控制系统的自制粉体能源物料料堆三维重建数据集中料堆图像的三维重建测试结果；

图3为本发明实施例提供的多Agent协作粉体能源物料传输控制方法的流程示意图；

图4为现有的3D-R2N2网络模型结构图；

图5为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中的改进3D-R2N2网络模型结构图；

图6为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中融合模块示意图；

图7为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中多头自注意力模块示意图；

图8（a）为现有的YOLOv5n网络模型结构图；

图8（b）为图8（a）中CBS模块的具体示意图；

图8（c）为图8（a）中残差单元的具体示意图；

图8（d）为图8（a）中C3模块的具体示意图；

图8（e）为图8（a）中快速金字塔池化的具体示意图；

图9（a）为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络模型结构图；

图9（b）为图9（a）中CBS模块的具体示意图；

图9（c）为图9（a）中残差单元的具体示意图；

图9（d）为图9（a）中C3模块的具体示意图；

图9（e）为图9（a）中快速金字塔池化的具体示意图；

图9（f）为图9（a）中GTC3模块的具体示意图；

图9（g）为图9（a）中SEGhost module的具体示意图；

图9（h）为图9（a）中Ghost module的具体示意图；

图10（a）为本发明实施例提供多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络生成结果图一；

图10（b）为本发明实施例提供多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络生成结果图二；

图10（c）为本发明实施例提供多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络生成结果图三；

图11为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中MADDPG算法流程示意图；

图12（a）为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中多智能体强化学习仿真试验台组成示意图；

图12（b）为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中各多智能体强化学习仿真试验台工作方式示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作一步详细描述。

本实施例主要解决的技术问题是传统粉体能源物料传输控制系统在粉体能源物料堆场环境中传输效果不佳的问题，提出了多Agent协作粉体能源物料传输控制系统，基于改进的3D-R2N2和改进的YOLOv5n实现。首先，采用Mobileye 8 摄像头对外界环境进行感知，其次，采用多Agent深度强化学习方法代替传统的控制方法，提高了物料传输控制系统的经济性、实用性和可靠性。另外，本实施例还加入非法闯入人员及违规操作检测装置和优先传输呆滞粉体能源物料的设定，提高了粉体能源物料传输控制系统的安全性。本发明使用深度学习三维重建的方式代替传统称重系统计算粉体能源物料的质量，简化了物料传输控制系统的机械结构，提高了物料传输控制系统的可靠性。本实施例使用密闭的气力传输方式代替传统的皮带传输方式从而减少粉体能源物料堆场的粉尘污染，有效传输距离可达500米，完全可以在崎岖复杂的地形下长距离大运力传输粉体能源物料。本实施例在粉体能源物料堆场环境中的应用具有极大的实际应用价值与现实意义，大大提高了粉体能源物料传输的自动化程度，节省了人工成本，很大程度上提高了粉体能源物料传输的效率。

一种多Agent协作粉体能源物料传输控制系统，如图1所示，包括探测单元、气力输送系统、总控上位机、车载下位机。探测单元布置在各个粉体能源物料气力传输车预设的探测位置处，采用型号为Mobileye 8的车载RGB摄像头采集各个粉体能源物料气力传输车前方环境状态的RGB视频。气力输送系统的入料口吸嘴布置在各个粉体能源物料气力传输车预设的位置处，其余部件布置在物料出料口附近，采用吸送式气力传输装置采集物料并通过柔性可伸缩管道传输到物料出料口。车载下位机安装于粉体能源物料气力传输车上，其嵌入自动行驶粉体能源物料气力传输车控制程序，自动行驶粉体能源物料气力传输车控制程序包括非法闯入人员及违规操作检测模块、粉体能源物料料堆三维重建及质量计算模块、决策控制模块。总控上位机嵌入强化学习模块，实现多Agent协作粉体能源物料传输控制。

非法闯入人员及违规操作检测模块采用改进的YOLOv5n网络模型：使用自制非法闯入人员及违规操作数据集，对改进的YOLOv5n网络模型进行预训练，随后将划定界限的监控区域范围内各个粉体能源物料气力传输车前方环境状态的RGB视频的原始视频帧输入经预训练的改进的YOLOv5n网络模型，对各个粉体能源物料气力传输车的前方环境进行目标检测，将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来得到新的视频帧；如图10（a）、图10（b）、图10（c）分别为改进的YOLOv5n网络模型生成图，分别代表规范操作人员、未戴安全帽或未着反光马甲的人员、行为异常的人员。

为进一步突出本发明显著的实质性效果，与现有的YOLOv5n模型及现有的YOLOv5x模型，在每秒处理图片数量、准确率、

和网络参数数量四个标准上进行对比。

表1改进YOLOv5n网络模型在非法闯入人员及违规目标检测数据集中与现有网络模型的每秒处理图片数量、准确率、

和网络参数数量对比表

由表1可知，本发明提出的改进的YOLOv5n模型相对于现有的YOLOv5n模型在每秒处理图片数量、准确率、mAP@0.5和网络参数数量上均有提高，尤其在准确率和mAP@0.5上具有显著提高，网络参数数量得到了减少；相对于现有的YOLOv5x模型在每秒处理图片数量、准确率、mAP@0.5上均有提高，尤其在每秒处理图片数量上具有显著提高，网络参数数量得到了显著减少。

所述改进的YOLOv5n网络模型基于现有的YOLOv5n网络模型进行改进，现有的YOLOv5n网络模型根据图8（a）所示，图8（b）-图8（e）分别为现有的YOLOv5n网络模型中CBS模块、残差单元、C3模块、快速金字塔池化的具体示意图。

改进的YOLOv5n网络模型如图9（a）所示，其包括骨干模块、瓶颈模块、预测模块；

其中，骨干模块包括依次连接的第一卷积层、第一CBS模块、第一C3模块、第二CBS模块、第二C3模块、第三CBS模块、第三C3模块、第四CBS模块和SPPF模块；瓶颈模块包括依次连接的第四C3模块、第五CBS模块、第一次上采样操作、第一次拼接操作，其中第一次拼接操作拼接第一次上采样操作和第三C3模块输出的语义特征、第五C3模块和第六CBS模块以及第二次上采样操作、第二次拼接操作、第一GTC3模块；接收第一GTC3模块输出特征的第七CBS模块、接收第七CBS模块和第六CBS模块输出语义特征的第三次拼接操作、接收第三次拼接操作输出的第二GTC3模块；头部模块包括接收第一GTC3模块输出特征的第一Conv卷积、接收第二GTC3模块输出语义特征的第二Conv卷积以及各自对应的目标检测结果；CBS模块如图9（b）所示，包括依次连接的位置卷积层CoordConv、批归一化层、SiLU激活函数；C3模块如图9（d）所示，包括两个分支，其中第一分支包括依次连接的CBS模块、残差单元，第二分支包括卷积层，第一分支和第二分支输出的语义特征通过拼接操作生成最终结果；残差单元如图9（c）所示，包括依次连接的恒等映射、第一个CBS模块、第二个CBS模块、加和操作；SPPF模块如图9（d）所示，包括依次连接的CBS模块、由恒等映射组成的第一分支、由一个最大池化层组成的第二分支、由两个最大池化层依次相连组成的第三分支、由三个池化层依次相连组成的第四分支、所有分支输出的语义特征通过拼接操作输出到CBS模块后，得到最终结果；GTC3模块如图9（f）所示，包括依次连接的第一1×1卷积层分支、第一CBS模块、由依次相连的Ghost module模块，深度可分离卷积层，SEGhost module模块构成的第一分支；恒等映射第二分支由依次相连的第二CBS模块，SwinT模块，卷积层构成的第三分支，其中第一分支与第二分支在SEGhost module模块后进行加和操作后与第三分支的输出语义特征进行拼接操作输出的语义特征经过第二1×1卷积层后与第一1×1卷积层分支输出的语义特征加和后经过第三CBS模块作用后输出最终结果；Ghost module模块如图9（h）所示，包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积组成的第二分支、第一分支和第二分支通过拼接操作得到最终结果。

SEGhost module模块如图9（g）所示，包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积组成的第二分支、第一分支和第二分支通过拼接操作后经过依次相连的全局池化操作、全连接层、ReLU激活函数作用、全连接层、Sigmoid激活函数作用后与第一分支和第二分支通过拼接操作后输出的语义特征相乘得到最终结果；

所述自制非法闯入人员及违规操作数据集：利用Mobileye 8 摄像头采集的非法闯入人员或违规操作的原始视频帧、非法闯入人员或违规操作的原始视频帧对应的带有标签的原始视频帧；

所述三维重建及质量计算模块，采用改进的3D-R2N2网络模型：使用自制粉体能源物料料堆三维重建数据集进行训练，用以对粉体能源物料堆场中的料堆RGB图像进行三维重建生成料堆RGB图像对应的体积元素空间模型，本发明实施例提供的多Agent协作粉体能源物料传输控制系统的自制粉体能源物料料堆三维重建数据集中料堆图像的三维重建测试结果如图2所示，利用辅助参照物得到单个体积元素的体积进而得到料堆体积。取料前每个料堆的时间戳记为

并存储在总控上位机中。

所述自制粉体能源物料料堆三维重建数据集：利用Mobileye 8 摄像头采集的粉体能源物料料堆RGB图像，粉体能源物料料堆RGB图像对应的三维CAD模型。

所述改进的3D-R2N2网络模型基于现有的3D-R2N2网络模型进行改进，现有的3D-R2N2网络模型如图4所示。改进的3D-R2N2网络模型如图5所示，包括编码器模块、3D-Convolutional LSTM模块、解码器模块；

其中，编码器模块包括依次连接的快速空间金字塔池化模块、恒等映射、第一残差模块、第一个1×1卷积层、恒等映射、第二残差模块、第一语义特征融合模块、第三残差模块、第二语义特征融合模块、MHSA模块、第四残差模块和第五残差模块；3D-Convolutional-LSTM模块包括依次相连的全连接层和3D-LSTM层；解码器模块包括依次连接的第六残差模块、第七残差模块、第八残差模块、第九残差模块和3×3×3卷积层；解码器模块的输出经3DSoftmax层作用后生成分割图；所述快速空间金字塔池化模块SPPF包括四个分支，第一分支包括3×3池化操作，第二分支包括两个依次相连的3×3池化操作，第三分支包括三个依次相连的3×3池化操作，第四分支是恒等映射分支，第一分支、第二分支、第三分支、第四分支通过拼接操作输出快速空间金字塔池化结果。

第一残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、3×3卷积层、加和操作、池化操作；第二残差模块和第二残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作；多头自注意力模块MHSA模块如图7所示，包括依次连接的3×3可分离卷积层、MHSA结构、1×1卷积层；第四残差模块包括依次连接的池化操作、恒等映射、3×3可分离卷积层、3×3卷积层、加和模块；所述第四残差模块包括依次连接的池化操作、恒等映射、3×3可分离卷积层、3×3卷积层、加和模块；所述第五残差模块、第六残差模块和第七残差模块均包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块；所述第八残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、3×3×3卷积层、加和模块；第一语义特征融合模块和第二语义特征融合模块如图6所示，均有两个输入分支，分别接收粉体能源物料堆场状态的浅层语义特征和深层语义特征，分别经过平均池化后经拼接操作得到一个语义特征向量、随后依次经过池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数后得到系数

和1-/>

相乘得到的结果拼接后，经1×1卷积操作得到输出结果。

强化学习预训练模块使用预先采集的规范行驶的经验样本集

作为专家经验数据集，对MADDPG算法进行预训练，将各个粉体能源物料气力传输车前方环境状态的RGB图像输入经预训练的改进的YOLOv5n网络模型后输出的将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来的新的视频帧、已传输物料的质量/>

、取料前每个料堆的时间戳记为/>

输入经预训练的MADDPG算法，获得MADDPG算法的损失函数值，优化MADDPG模型参数；

决策模块根据MADDPG算法获取的损失函数值和优化MADDPG算法参数在自动行驶仿真实验台环境中迭代获得离线决策模型；对离线决策模型在真实环境中进行迭代获得最终决策模型，根据粉体能源物料堆场环境进行推理决策。

一种多Agent协作粉体能源物料传输控制方法，如图3所示，包括以下步骤：

S1：将每个料堆堆放时的时间戳记为起始时间戳

，取料前每个料堆的时间戳记为/>

，使用公式/>

计算出料堆堆放时间/>

。使用预先采集的规范行驶的经验样本集/>

或算法收敛为止；其中，/>

是各个粉体能源物料气力传输车前方环境状态，/>

是行驶动作指令，/>

是新的各个粉体能源物料气力传输车前方环境状态，/>

是本次行驶动作指令的奖励值；利用车载RGB摄像头采集粉体能源物料气力传输车前方环境状态的视频帧/>

，输入到使用非法闯入人员及违规操作数据集预先训练的改进的YOLOv5n网络模型即用以进行非法闯入人员及违规操作的非法闯入人员及违规操作检测模块，输出将检测到的未戴安全帽、未着反光马甲和行为异常的人员目标标记出来的新的视频帧/>

。

S2：采集不同堆场环境下粉体能源物料料堆RGB图像并利用SolidWorks软件建立粉体能源物料料堆RGB图像对应的三维CAD模型，建立自制粉体能源物料料堆三维重建数据集，采用自制粉体能源物料料堆三维重建数据集对改进的3D-R2N2网络模型进行训练，将利用Mobileye 8 摄像头采集的各个粉体能源物料气力传输车前方环境状态的视频帧

输入经过训练的改进3D-R2N2网络模型得到三维重建体积元素空间模型/>

，并通过测量已知体积为/>

的参照物/>

的体积元素的个数/>

计算出单个体积元素的体积/>

，并通过/>

体积元素的个数/>

计算出粉体能源物料料堆的起始体积/>

。同理，在粉体能源物料传输过程中持续测量每个料堆的体积/>

，测得已传输物料的体积

，根据粉体物料的密度/>

计算出已传输物料的质量/>

，其中，/>

为粉体能源物料气力传输车的数目，已传输物料的总质量/>

。

S3：设有

个料堆，将已传输物料的总质量/>

，各个料堆堆放时间/>

达到期望值

并输出，经行驶动作和气力传输系统开关指令/>

后形成新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>

，通过奖励函数计算本次驾驶动作指令的奖励值/>

，并将状态/>

、行驶动作和气力传输系统开关指令/>

、本次行驶动作指令的奖励值/>

作为转移样本/>

和优化MADDPG算法参数/>

，料堆取料概率优先级为/>

，其中/>

是料堆总数；

S4：在经过生成对抗网络辅助生成的多智能体强化学习仿真试验台仿真环境中重复步骤S3直至达到设定的最大迭代次数3000次或者算法收敛为止，生成离线决策模型

；在真实环境中重复步骤S3，对离线决策模型/>

进行更新直至迭代次数达到1500次或者算法收敛为止，生成最终决策模型/>

；

S5：利用最终决策模型

进行实车推理决策。

所述步骤S2建立料堆三维重建数据集的具体过程，包括以下步骤：

S2.1.1：利用RGB摄像头采集各种粉体能源物料料堆场环境下粉体能源物料料堆的RGB图像；

S2.1.2：使用SolidWorks软件建立粉体能源物料料堆的RGB图像对应的三维CAD模型。

S2.1.3：将粉体能源物料料堆的RGB图像及其对应的三维CAD模型作为一个样本，按照比例φ将所有样本随机划分为训练集与测试集。

生成体积元素空间模型

的具体过程，包括以下步骤：

S2.2.1：使用2D卷积网络结构（2D-CNN）作为编码器对各个粉体能源物料气力传输车前方的粉体能源物料料堆的视频帧

进行特征提取和编码为低维特征/>

作为编码输入；

S2.2.2：将低维特征向量

送入作为中间结构的3D-LSTM单元得到三维网格结构，其中三维网格结构包括体素；

S2.2.3：将三维网格结构输入解码器3D反卷积网络，并将体积元素转换成三维概率矩阵；通过三维概率矩阵进行像素重建生成了体积元素空间模型

。

所述的步骤S3中，总奖励函数

包括料堆距离奖励函数/>

、安全距离奖励函数/>

、避免气力传输管道损坏奖励函数/>

、速度奖励函数/>

，具体为：

料堆距离奖励函数

和安全距离奖励函数/>

，如式（1）所示：

（1）

其中，

、/>

为常数；/>

为粉体能源物料气力传输车吸嘴距离料堆的间距；

、/>

均由车辆传感系统计算获取。

避免气力传输管道损坏奖励函数

，如式（2）所示：

（2）

其中，

是常数，过度拉伸指/>

；

速度奖励函数

，如式（3）所示：

（3）

其中，

是常数，/>

为粉体能源物料气力传输车允许行驶的最高时速，/>

为粉体能源物料气力传输车当前行驶时速，单位均为/>

；

总奖励函数

，如式（4）所示：

（4）

所述S3中，计算MADDPG模型的损失函数值

和优化MADDPG模型参数/>

的具体过程，如图11所示，包括以下步骤：

S3.1、随机初始化每个粉体能源物料气力传输车的策略网络

和策略网络参数/>

、评估网络/>

和评估网络参数/>

，其中

为每一个粉体能源物料气力传输车在状态/>

时采取的动作；/>

为每个粉体能源物料气力传输车各自的状态；随机初始化每个粉体能源物料气力传输车的目标策略网络

和目标策略网络参数/>

、目标评估网络/>

和目标评估网络参数/>

；初始化每个粉体能源物料气力传输车的经验回放缓存池/>

和动作探索噪声/>

；初始化各个粉体能源物料气力传输车前方粉体能源物料堆场环境和所有粉体能源物料气力传输车状态集合/>

；/>

S3.2、对每一个粉体能源物料气力传输车

执行以下步骤：

,其中/>

为时间步序号；

S3.2.2粉体能源物料气力传输车

执行当前动作/>

得到下一状态/>

和奖励

，并且将经验/>

存入经验回放缓存池/>

，其中/>

为时间步序号；

S3.3.1根据

计算当前粉体能源物料气力传输车

步经验的策略损失，其中，/>

为采取策略/>

时评估网络的值，/>

为采取策略/>

时目标评估网络的值，/>

是衰减因子；

S3.3.2从经验回放缓存池

中随机抽取小批次的经验,包含/>

个经验；

S3.3.3通过目标评估网络计算每个经验动作期望回报：

S3.3.4最小化损失以更新评估网络参数:

其中，

表示Loss损失函数；

S3.3.5通过以下梯度更新当前智能体的策略网络参数:

其中，

表示在策略网络参数/>

下的策略梯度，/>

和/>

表示随机抽取小批次的经验样本数量；

其中，

是软更新比例系数；/>

所述步骤S4具体如下：

S4.1.1：对用于训练粉体能源物料气力传输车的粉体能源物料堆场环境使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape方式，对反映真实环境中不可移动物体的位置和形状进行三维建模；

S4.1.2：对粉体能源物料气力传输车的轮廓坐标进行界定；

S4.1.3：在训练过程中，根据粉体能源物料气力传输车位置状态和车轮速度、行驶方向等变量计算得出粉体能源物料气力传输车新的位置状态，使得车轮的动作空间、状态空间和自动驾驶奖励函数与在真实粉体能源物料堆场环境中进行训练时相同，车轮运行的介质可以设置为多种材质（泥土、沙地、沥青等），输入图片均是真实粉体能源物料气力传输车车载摄像头捕捉的可根据车轮动作变化的视频帧，与真实训练环境中输入自动驾驶汽车的视频帧相同，其余各部件的运行机理与正常汽车相同，各物理参数完全与真实环境相同，同时此仿真试验台不能移动，从而克服强化学习在真实环境中训练时面临的碰撞损害问题。本发明实施例提供的多Agent协作粉体能源物料传输控制系统中多智能体强化学习仿真试验台组成如图12(a)所示，多智能体强化学习仿真试验台工作方式示意如图12（b）所示。

所述S4中虚拟仿真环境：使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape进行三维建模，其步骤如下：

S4.2.1：用初始化的形状(即椭球)和可微渲染器渲染很多不同视角与光照条件下的粉体能源物料料堆的RGB图像；

S4.2.2：用预训练的生成对抗网络GAN对粉体能源物料料堆的RGB图像进行重建，得到其在GAN图像空间的投影，即投影样本。这些投影样本会继承与粉体能源物料料堆的RGB图像类似的视角与光照，同时GAN的生成特性会将投影样本约束在真实图像空间中，从而消除粉体能源物料料堆的RGB图像中不真实的畸变与光影；

S4.2.3：将投影样本作为渲染步骤的学习目标真实值，从而优化物体三维形状。由于投影样本中包含了GAN学得的物体三维信息，因此物体形状会更加准确。

S4.2.4：用优化后的物体三维形状作为初始形状再重复以上步骤，迭代多次，从而逐步改善物体三维形状直至网络收敛。

一种介质，存储计算机程序，为计算机可读存储介质，该计算机可读存储介质上存储有基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制程序，其中所述多Agent协作粉体能源物料传输控制程序被处理器执行时，实现所述基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制方法的步骤。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。为进一步突出本发明显著的实质性效果，与现有的3D-R2N2网络模型在单视角条件下对交并比评价指标进行对比。

表2改进3D-R2N2网络模型与现有的3D-R2N2网络模型的交并比评价指标比对比表

由表2可知，本发明提出的改进的3D-R2N2网络模型相对于现有的3D-R2N2网络模型在单视角条件下，在交并比评价指标上具有显著提高。

Claims

1.一种多Agent协作粉体能源物料传输控制系统，其特征在于，该多Agent协作粉体能源物料传输控制系统包括探测单元、气力传输系统、总控上位机和车载下位机；

气力传输系统的入料口吸嘴布置在各个粉体能源物料气力传输车预设位置处，气力传输系统其余部件布置在物料出料口预设位置处，采用吸送式气力传输装置采集物料并通过柔性可伸缩管道传输到物料出料口；车载下位机安装于粉体能源物料气力传输车上，其嵌入自动行驶粉体能源物料气力传输车控制程序，自动行驶粉体能源物料气力传输车控制程序包括非法闯入人员及违规操作检测模块、粉体能源物料料堆三维重建及质量计算模块、决策控制模块，用于控制多Agent协作粉体能源物料的传输；非法闯入人员及违规操作检测模块采用改进的YOLOv5n网络模型；粉体能源物料料堆三维重建及质量计算模块采用改进的3D-R2N2网络模型；

2.根据权利要求1所述的多Agent协作粉体能源物料传输控制系统，其特征在于，所述非法闯入人员及违规操作检测模块中使用自制非法闯入人员及违规操作数据集，对改进的YOLOv5n网络模型进行训练，将划定界限的监控区域范围内各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的RGB视频的原始视频帧输入已训练的改进的YOLOv5n网络模型，对各个粉体能源物料气力传输车前方的环境进行目标检测，将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来得到新的视频帧；

所述自制非法闯入人员及违规操作数据集为利用车载RGB摄像头采集的非法闯入人员或违规操作的原始视频帧以及该原始视频帧进行标签标定后的原始视频帧；

所述第一CBS模块、第二CBS模块、第三CBS模块、第四CBS模块、第五CBS模块、第六CBS模块包括依次连接的位置卷积层、批归一化层、SiLU激活函数；

所述第一C3模块、第二C3模块、第三C3模块、第四C3模块、第五C3模块包括两个分支，各个C3模块第一分支包括依次连接的CBS模块、残差单元，各个C3模块第二分支包括卷积层，各个C3模块第一分支和各个C3模块第二分支输出的语义特征通过拼接操作生成各个C3模块的输出；所述残差单元包括依次连接的恒等映射、第一个CBS模块、第二个CBS模块和加和操作；

所述第一GTC3模块、第二GTC3模块包括依次连接的第一1×1卷积层分支，第一CBS模块，由依次相连的Ghost module模块、深度可分离卷积层、SEGhost module模块构成的GTC3模块第一分支，恒等映射GTC3模块第二分支，由依次相连的第二CBS模块、多头自注意力模块、卷积层构成的GTC3模块第三分支；GTC3模块第一分支与GTC3模块第二分支在SEGhostmodule模块后进行加和操作后与GTC3模块第三分支输出的语义特征进行拼接操作输出的语义特征经过第二1×1卷积层后与第一1×1卷积层分支输出的语义特征加和后经过第三CBS模块作用后得到各个GTC3模块的输出；

所述Ghost module模块包括依次连接的卷积层模块、由恒等映射组成的Ghost module模块第一分支、由一个深度可分离卷积层组成的Ghost module模块第二分支，Ghostmodule模块第一分支和Ghost module模块第二分支输出的语义特征通过拼接操作得到Ghost module模块的输出；

所述SEGhost module模块包括依次连接的卷积层模块、由恒等映射组成的SEGhostmodule模块第一分支、由一个深度可分离卷积层组成的SEGhost module模块第二分支，SEGhost module模块第一分支和SEGhost module模块第二分支通过拼接操作后经过依次相连的全局池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数，经作用后与SEGhost module模块第一分支和SEGhost module模块第二分支通过拼接操作后输出的语义特征相乘得到SEGhost module模块的输出。

3.根据权利要求1或2所述的多Agent协作粉体能源物料传输控制系统，其特征在于，所述粉体能源物料料堆三维重建及质量计算模块通过自制粉体能源物料料堆三维重建数据集进行训练，用以对粉体能源物料堆场中的粉体能源物料料堆进行三维重建生成料堆RGB图像，计算料堆RGB图像对应的体积元素空间模型，利用辅助参照物得到单个体积元素的实际体积进而得到料堆体积；取料前将每个料堆的时间戳记为t_t并存储在总控上位机中；

快速空间金字塔池化模块包括四个分支，其中快速空间金字塔池化模块第一分支包括3×3池化操作，快速空间金字塔池化模块第二分支包括两个依次相连的3×3池化操作，快速空间金字塔池化模块第三分支包括三个依次相连的3×3池化操作，快速空间金字塔池化模块第四分支是恒等映射分支，快速空间金字塔池化模块中的四个分支通过拼接操作输出快速空间金字塔池化结果；

所述第二残差模块和第三残差模块均包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作；

所述第五残差模块、第六残差模块和第七残差模块均包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块；

第一语义特征融合模块和第二语义特征融合模块均有两个输入分支，分别接收粉体能源物料堆场状态的浅层语义特征和深层语义特征，分别经过平均池化后经拼接操作得到一个语义特征向量、随后依次经过池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数后得到系数η和1-η，分别与浅层语义特征和深层语义特征相乘，与浅层语义特征和一个小于0.5的系数

相乘得到的结果拼接后，经1×1卷积操作得到输出结果。

4.根据权利要求3所述的多Agent协作粉体能源物料传输控制系统，其特征在于，所述强化学习预训练模块使用预先采集的粉体能源物料气力传输车规范行驶的经验样本集(s_gt,a_gt,r_gt,s_gt+1)_p作为专家经验数据集，对MADDPG算法进行预训练，将未戴安全帽、反光马甲或行为异常的人体目标标记出来的新的视频帧I_o、已传输物料的质量M和料堆堆放时间t_l输入经预训练的MADDPG算法，获得MADDPG算法的损失函数值，优化MADDPG算法参数；其中，s_gt是各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态，a_gt是行驶动作和气力传输系统启停指令，s_gt+1是新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态，r_gt是本次行驶动作指令的奖励值；

5.一种多Agent协作粉体能源物料传输控制方法，其特征在于，包括以下步骤：

S1：将每个料堆开始堆放时的时间戳记为起始时间戳t_y，取料前每个料堆的时间戳记为t_t，使用公式t_l＝t_t-t_y计算出料堆堆放时间t_l；使用预先采集的粉体能源物料气力传输车规范行驶动作的经验样本集(s_gt,a_gt,r_gt,s_gt+1)_p作为专家经验数据集，对MADDPG算法进行预训练直至达到设定的最大迭代次数n₁或MADDPG算法收敛为止；其中，s_gt是各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态，a_gt是行驶动作和气力传输系统启停指令，s_gt+1是新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态，r_gt是本次行驶动作指令的奖励值；利用车载RGB摄像头采集粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧I₁，输入到非法闯入人员及违规操作检测模块，该非法闯入人员及违规操作检测模块为使用非法闯入人员及违规操作数据集训练过的改进的YOLOv5n网络模型，输出新的视频帧I_o，其包括检测到的未戴安全帽、未着反光马甲和行为异常的人员目标标记；当作业区域内无未戴安全帽、未着反光马甲或行为异常的人员或未戴安全帽、未着反光马甲或行为异常的人员未在作业区域内，进行下一步；当作业区域内有未戴安全帽、未着反光马甲或行为异常的人员，报警；

S2：粉体能源物料料堆三维重建及质量计算；采集不同堆场环境下粉体能源物料料堆RGB图像并利用SolidWorks软件建立粉体能源物料料堆RGB图像对应的三维CAD模型，建立自制粉体能源物料料堆三维重建数据集，采用自制粉体能源物料料堆三维重建数据集对改进的3D-R2N2网络模型进行训练，将利用车载RGB摄像头采集的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧I₁输入经过训练的改进的3D-R2N2网络模型得到体积元素空间模型

通过测量已知体积为v_b的参照物β的体积元素的个数n_o计算出单个体积元素的体积/>

通过体积元素空间模型/>

体积元素的个数n计算出粉体能源物料料堆的起始体积V＝nv_d；在粉体能源物料传输过程中持续测量每个粉体能源物料料堆的当前体积V₁，测得已传输物料的体积V_t＝V-V₁；根据粉体物料的密度ρ计算出已传输物料的质量M_f＝ρV_t；其中，N为粉体能源物料气力传输车的数目，已传输物料的总质量M＝M₁+M₂+…+M_N；

S3：设有h个料堆，将已传输物料的总质量M，各个料堆堆放时间t_l1、t_l2…t_lh，检测到的各个粉体能源物料气力传输车的将未戴安全帽、未着反光马甲或行为异常的人体目标标记出来的新的视频帧I_o作为各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态s_t，输入到经过预训练的MADDPG算法中；当已传输物料的总质量M达到期望值M_q时，停止粉体能源物料的传输；经过预训练的MADDPG算法依据状态s_t从其动作空间中选择对应的行驶动作和气力传输系统启停指令a_t并输出，经行驶动作和气力传输系统启停指令a_t后形成新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态s_t+1，通过奖励函数计算本次驾驶动作指令的奖励值r_t，并将s_t、行驶动作和气力传输系统启停指令a_t、本次行驶动作指令的奖励值r_t和新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态s_t+1作为转移样本(s_t,a_t,r_t,s_t+1)存入经验回放缓存池中；从经验回放缓存池中随机抽取转移样本，计算MADDPG算法的损失函数值L和优化MADDPG算法参数w，料堆取料概率优先级为

其中h是料堆总数；

S4：在经过生成对抗网络辅助生成的多智能体强化学习仿真试验台仿真环境中重复步骤S3直至达到设定的最大迭代次数n₂或者算法收敛为止，生成离线决策模型π₁；在真实环境中重复步骤S3，对离线决策模型π₁进行更新直至迭代次数达到n₃或者算法收敛为止，生成最终决策模型π₂；

S5：利用最终决策模型π₂进行实车推理决策。

6.根据权利要求5所述的多Agent协作粉体能源物料传输控制方法，其特征在于，所述步骤S2，具体包括以下步骤：

S2.1.1：利用车载RGB摄像头采集各种粉体能源物料料堆环境下粉体能源物料料堆的RGB图像；

S2.1.3：将粉体能源物料料堆的RGB图像及其对应的三维CAD模型作为一个样本，按照比例

将所有样本随机划分为训练集与测试集；

S2.2.1：使用2D卷积网络结构2D-CNN作为编码器对各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧I₁进行特征提取和编码为低维特征向量T(I₁)作为编码输入；

S2.2.2：将低维特征向量T(I₁)送入作为中间结构的3D-LSTM单元得到三维网格结构；

7.根据权利要求5或6所述的多Agent协作粉体能源物料传输控制方法，其特征在于，所述步骤S3具体为：

S3.1、随机初始化每个粉体能源物料气力传输车的策略网络

和策略网络参数/>

评估网络/>

和评估网络参数/>

其中a₁,a₂,…,a_N为每一个粉体能源物料气力传输车在粉体能源物料堆场环境状态对应采取的气力传输系统启停指令动作；o为每个粉体能源物料气力传输车各自的状态；随机初始化每个粉体能源物料气力传输车的目标策略网络/>

和目标策略网络参数/>

目标评估网络

和目标评估网络参数/>

初始化每个粉体能源物料气力传输车的经验回放缓存池R_i和动作探索噪声Ω_t；初始化各个粉体能源物料气力传输车前方粉体能源物料堆场环境和所有粉体能源物料气力传输车状态集合；

S3.2、对每一个粉体能源物料气力传输车i执行以下步骤：

其中j为时间步序号；

S3.2.2粉体能源物料气力传输车i执行当前动作

得到下一状态/>

和奖励r_i ^j，并且将经验/>

存入经验回放缓存池R_i，其中j为时间步序号；

S3.3.1根据

Loss＝(y-Q^π(s，a₁，a₂，...，a_N))²

计算当前粉体能源物料气力传输车Z步经验的策略损失，其中，Q^π为采取策略π时评估网络的值，Q^π′为采取策略π时目标评估网络的值，γ是衰减因子；

S3.3.2从经验回放缓存池R_i中随机抽取小批次的经验，包含K个经验；

S3.3.3通过目标评估网络计算每个经验动作期望回报：

y_j＝r_j+γQ′(s_j+1，a′₁，a′₂，...，a′_N，θ^Q′)

S3.3.4最小化损失以更新评估网络参数：

其中，L表示Loss损失函数；

S3.3.5通过以下梯度更新当前智能体的策略网络参数:

其中，

表示在策略网络参数θ^π下的策略梯度，/>

和/>

分别表示评估网络状态-动作值函数梯度和策略网络函数的梯度，K表示随机抽取小批次的经验样本数量；

其中，τ是软更新比例系数；

8.根据权利要求7所述的多Agent协作粉体能源物料传输控制方法，其特征在于，所述步骤S3中，总奖励函数r包括料堆距离奖励函数r₁、安全距离奖励函数r₂、避免气力传输管道损坏奖励函数r₃、速度奖励函数r₄，具体为：

料堆距离奖励函数r₁和安全距离奖励函数r₂，如式(1)所示：

其中，k₁、k₂为常数；Δs为粉体能源物料气力传输车吸嘴距离料堆的间距；Δd为粉体能源物料气力传输车周围车辆、障碍物与粉体能源物料气力传输车的间距，Δs、Δd均由粉体能源物料气力传输车传感器计算获取；

避免气力传输管道损坏奖励函数r₃，如式(2)所示：

其中，k₃是常数，过度拉伸指：

速度奖励函数r₄，如式(3)所示：

r₄＝-k₄|Ξ-Ξ_max| (3)

其中，k₄是常数，Ξ_max为粉体能源物料气力传输车允许行驶的最高时速，Ξ为粉体能源物料气力传输车当前行驶时速，单位均为km/h；

总奖励函数r，如式(4)所示：

r＝r₁+r₂+r₃+r₄ (4)。

9.根据权利要求8所述的多Agent协作粉体能源物料传输控制方法，其特征在于，所述步骤S4中，具体包括步骤如下：

S4.1.2：对粉体能源物料气力传输车的轮廓坐标进行界定；

S4.1.3：在训练过程中，根据粉体能源物料气力传输车位置状态、车轮速度、行驶方向计算得出粉体能源物料气力传输车新的位置状态，使得车轮的动作空间、状态空间和总奖励函数r与在真实粉体能源物料堆场环境中进行训练时相同，车轮运行的介质为真实粉体能源物料堆场环境中车轮运行的介质；输入图片均是真实粉体能源物料气力传输车车载摄像头拍摄的根据车轮动作而变化的视频帧，与真实训练环境中粉体能源物料气力传输车探测单元探测到的视频帧相同，其余各部件的运行机理与正常粉体能源物料气力传输车相同，各项物理参数与真实环境相同；

S4.2：使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape进行三维建模；

S4.2.3：将投影样本作为渲染步骤的学习目标真实值，优化三维粉体能源物料堆场环境；

S4.2.4：用优化后的三维粉体能源物料堆场环境作为初始形状再重复步骤S4.2.1-S4.2.3，迭代多次，直至网络收敛。