CN116027670B - 一种多Agent协作粉体能源物料传输控制系统、方法及介质 - Google Patents

一种多Agent协作粉体能源物料传输控制系统、方法及介质 Download PDF

Info

Publication number
CN116027670B
CN116027670B CN202310109468.3A CN202310109468A CN116027670B CN 116027670 B CN116027670 B CN 116027670B CN 202310109468 A CN202310109468 A CN 202310109468A CN 116027670 B CN116027670 B CN 116027670B
Authority
CN
China
Prior art keywords
module
energy material
powder energy
powder
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310109468.3A
Other languages
English (en)
Other versions
CN116027670A (zh
Inventor
刘洋
王永富
Original Assignee
东北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东北大学 filed Critical 东北大学
Priority to CN202310109468.3A priority Critical patent/CN116027670B/zh
Publication of CN116027670A publication Critical patent/CN116027670A/zh
Application granted granted Critical
Publication of CN116027670B publication Critical patent/CN116027670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于粉体能源物料的传输与控制领域,公开了一种多Agent协作粉体能源物料传输控制系统、方法及介质。非法闯入人员及违规操作检测模块采用了使用自制数据集训练和改进的YOLOv5n网络模型,检测到非法闯入人员或违规操作时报警;三维重建及质量计算模块采用了使用自制数据集训练和改进的3D‑R2N2网络模型,实现料堆RGB图像对应的体积元素空间模型的生成,利用辅助参照物得到单个体积元素的体积进而得到料堆体积,并计算出已传输物料的质量,从而提高粉体能源物料传输控制系统的可靠性。通过在多智能体强化学习仿真试验台和真实环境中训练MADDPG算法,使得粉体能源物料传输控制系统逐步达到人类可接受的传输水平。

Description

一种多Agent协作粉体能源物料传输控制系统、方法及介质
技术领域
本发明涉及粉体能源物料传输与控制领域,特别是涉及一种多Agent协作粉体能源物料传输控制系统、方法及介质。
背景技术
随着全球粉体能源整体需求的持续增长和现代科学技术的不断进步,粉体能源物料传输控制技术作为战略性新兴产业的一个重要组成部分正在世界范围内迅速发展。多Agent强化学习技术在人民的生产和生活中得到了广泛的普及,多Agent强化学习技术通过编队控制、任务规划、路径规划、感知避障及动态自组织网络通信等关键技术,实现多Agent的智能协作控制,将大而复杂的系统改造成小的、彼此互相通信和协调的、易于管理的系统,进而并行地处理复杂的多个任务,提高算法的执行效率。将多Agent强化学习技术与粉体能源物料传输控制技术结合,能够大大提高粉体能源物料传输控制系统的自动化水平和工作效率,但是,如何更好地实现基于多Agent协作的粉体能源物料传输控制系统和装置仍是粉体能源物料的传输与控制领域的一个热点问题,得到了国内外研究人员十分广泛的关注。
实际生产环境中,在煤粉等粉体能源物料堆场里往往漂浮着大量的粉尘,极易遮挡运输车辆驾驶员的视线从而引起交通事故;容易引起尘肺、变态过敏反应等职业病的发生;对防火防爆、禁火禁烟有着极为严格的管理要求;另外,人力装卸效率较低,劳动强度大,因此粉体能源物料堆场环境的无人化、智能化势在必行。目前大多数粉体能源物料传输控制系统都是在多种昂贵传感器提供的外界环境的相关信息的基础上使用传统控制方法控制的,孙珊珊的“粉体稠密气力输送研究”中使用传统控制方法对单Agent进行单目标决策,这种方法存在运营经济性不高和传输效率较低的问题,无法应用于大批量粉体能源物料的快速分类传输。目前大多数粉体能源物料传输控制系统中粉体能源的传输往往是按需进行的,其需求具有很强的不规律性,时断时续的情况比较普遍,会因系统空转带来大量的电能消耗,效率极其低下。传统粉体能源物料传输控制系统一般是在建立外界环境和物料传输过程的近似数学模型的基础上设计控制器进行控制,对模型的数学建模具有依赖性,由于外界环境和粉体能源物料传输过程中的各种影响因素无法全部地考虑,所以很难精确地建模和控制。传统物料传输控制系统没有考虑到粉体能源物料在长期存放时产生的损耗、自燃等问题;这些问题大大影响了物料传输控制系统的经济性、实用性和可靠性。
发明内容
本发明主要解决的技术问题是传统粉体能源物料传输控制系统在粉体能源物料堆场环境中传输效果不佳的问题,提出了一种多Agent协作粉体能源物料传输控制系统、方法及介质,基于改进的3D-R2N2和改进的YOLOv5n实现。首先,采用RGB相机对外界环境进行感知,其次,采用多Agent深度强化学习方法代替传统的控制方法,提高了物料传输控制系统的经济性、实用性和可靠性。另外,本发明还加入非法闯入人员及违规操作检测功能和优先传输呆滞粉体能源物料的设定,提高了粉体能源物料传输控制系统的安全性。本发明使用深度学习三维重建的方式代替传统称重系统计算粉体能源物料的质量,简化了物料传输控制系统的机械结构,提高了物料传输控制系统的可靠性。本发明使用密闭的气力传输方式代替传统的皮带传输方式从而减少粉体能源物料堆场的粉尘污染,有效传输距离可达500米,完全可以在崎岖复杂的地形下长距离大运力传输粉体能源物料。本发明在粉体能源物料堆场环境中的应用具有极大的实际应用价值与现实意义,大大提高了粉体能源物料传输的自动化程度,节省了人工成本,很大程度上提高了粉体能源物料传输的效率。
本发明为了达到上述目的采用的技术方案是:一种多Agent协作粉体能源物料传输控制系统,包括探测单元、气力传输系统、总控上位机和车载下位机;
探测单元布置在各个粉体能源物料气力传输车预设的探测位置处,采用车载RGB摄像头采集各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的RGB视频;
气力传输系统的入料口吸嘴布置在各个粉体能源物料气力传输车预设位置处,气力传输系统其余部件布置在物料出料口预设位置处,采用吸送式气力传输装置采集物料并通过柔性可伸缩管道传输到物料出料口;吸送式气力传输装置包括吸嘴、分离器、风机、除尘器、消声器等部件;车载下位机安装于粉体能源物料气力传输车上,其嵌入自动行驶粉体能源物料气力传输车控制程序,自动行驶粉体能源物料气力传输车控制程序包括非法闯入人员及违规操作检测模块、粉体能源物料料堆三维重建及质量计算模块、决策控制模块,用于控制多Agent协作粉体能源物料的传输;非法闯入人员及违规操作检测模块采用改进的YOLOv5n网络模型;粉体能源物料料堆三维重建及质量计算模块采用改进的3D-R2N2网络模型;
总控上位机嵌入自动行驶粉体能源物料气力传输车预训练程序,自动行驶粉体能源物料气力传输车预训练程序包括强化学习预训练模块,用于预训练MADDPG算法;总控上位机与多个车载下位机建立联系。
所述非法闯入人员及违规操作检测模块中使用自制非法闯入人员及违规操作数据集,对改进的YOLOv5n网络模型进行训练,将划定界限的监控区域范围内各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的RGB视频的原始视频帧输入已训练的改进的YOLOv5n网络模型,对各个粉体能源物料气力传输车前方的环境进行目标检测,将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来得到新的视频帧;
自制非法闯入人员及违规操作数据集为利用车载RGB摄像头采集的非法闯入人员RGB图像或违规操作的原始视频帧、以及该原始视频帧进行标签标定后的原始视频帧;
所述改进的YOLOv5n网络模型,包括骨干模块、瓶颈模块、头部模块;
骨干模块包括依次连接的第一卷积层、第一CBS模块、第一C3模块、第二CBS模块、第二C3模块、第三CBS模块、第三C3模块、第四CBS模块和快速金字塔池化模块;瓶颈模块包括依次连接的第四C3模块、第五CBS模块、第一次上采样操作、第一次拼接操作、第五C3模块和第六CBS模块以及第二次上采样操作、第二次拼接操作、第一GTC3模块、接收第一GTC3模块输出语义特征的第七CBS模块、接收第七CBS模块和第六CBS模块输出语义特征的第三次拼接操作、接收第三次拼接操作输出语义特征的第二GTC3模块;第一次拼接操作用于拼接第一次上采样操作和第三C3模块输出的语义特征;头部模块包括接收第一GTC3模块输出语义特征的第一卷积层、接收第二GTC3模块输出语义特征的第二卷积层以及各自对应的目标检测结果;
所述每个CBS模块包括依次连接的位置卷积层、批归一化层、SiLU激活函数,SiLU激活函数具体为
Figure SMS_1
,其中/>
Figure SMS_2
是自然常数,/>
Figure SMS_3
为SiLU激活函数的输入;
所述每个C3模块包括两个分支,其中第一分支包括依次连接的CBS模块、残差单元,第二分支包括卷积层,第一分支和第二分支输出的语义特征通过拼接操作生成各个C3模块的输出;所述残差单元包括依次连接的恒等映射、第一个CBS模块、第二个CBS模块、加和操作;
所述快速金字塔池化模块包括依次连接的CBS模块、由恒等映射组成的第一分支、由一个最大池化层组成的第二分支、由两个最大池化层依次相连组成的第三分支、由三个池化层依次相连组成的第四分支、所有分支输出的语义特征通过拼接操作输出到CBS模块后,得到快速金字塔池化模块的输出;
所述每个GTC3模块包括依次连接的第一1×1卷积层分支,第一CBS模块,由依次相连的Ghost module模块、深度可分离卷积层、SEGhost module模块构成的第一分支,恒等映射第二分支,由依次相连的第二CBS模块、多头自注意力模块、卷积层构成的第三分支;第一分支与第二分支在SEGhost module模块后进行加和操作后与第三分支输出的语义特征进行拼接操作输出的语义特征经过第二1×1卷积层后与第一1×1卷积层分支输出的语义特征加和后经过第三CBS模块作用后得到各个GTC3模块的输出;
所述Ghost module模块包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积层组成的第二分支、第一分支和第二分支输出的语义特征通过拼接操作得到Ghost module模块的输出;
所述SEGhost module模块包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积层组成的第二分支、第一分支和第二分支通过拼接操作后经过依次相连的全局池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数作用后与第一分支和第二分支通过拼接操作后输出的语义特征相乘得到SEGhost module模块的输出。
ReLU激活函数具体为
Figure SMS_4
,其中/>
Figure SMS_5
为ReLU激活函数的输入;
Sigmoid激活函数具体为
Figure SMS_6
,其中/>
Figure SMS_7
是自然常数,/>
Figure SMS_8
为Sigmoid激活函数的输入,
所述粉体能源物料料堆三维重建及质量计算模块通过自制粉体能源物料料堆三维重建数据集进行训练,用以对粉体能源物料堆场中的粉体能源物料料堆进行三维重建生成料堆RGB图像,计算料堆RGB图像对应的体积元素空间模型,利用辅助参照物得到单个体积元素的实际体积进而得到料堆体积;取料前将每个料堆的时间戳记为
Figure SMS_9
并存储在总控上位机中;
自制粉体能源物料料堆三维重建数据集为利用车载RGB摄像头采集的粉体能源物料料堆RGB图像、粉体能源物料料堆RGB图像对应的三维CAD模型;
所述辅助参照物为一已知体积的圆锥状物体,放置于各粉体能源物料料堆预设的能被探测单元探测的位置处;
所述改进的3D-R2N2网络模型,包括编码器模块、三维卷积-长短期记忆模块、解码器模块;
编码器模块包括依次连接的快速空间金字塔池化模块、恒等映射、第一残差模块、第一个1×1卷积层、恒等映射、第二残差模块、第一语义特征融合模块、第三残差模块、第二语义特征融合模块、多头自注意力模块、第四残差模块和第五残差模块;三维卷积-长短期记忆模块包括依次相连的全连接层和三维卷积-长短期记忆层;解码器模块包括依次连接的第六残差模块、第七残差模块、第八残差模块、第九残差模块和3×3×3卷积层;解码器模块的输出经三维归一化指数函数作用后生成分割图;
快速空间金字塔池化模块包括四个分支,其中第一分支包括3×3池化操作,第二分支包括两个依次相连的3×3池化操作,第三分支包括三个依次相连的3×3池化操作,第四分支是恒等映射分支,快速空间金字塔池化模块中的第一分支、第二分支、第三分支、第四分支通过拼接操作输出快速空间金字塔池化结果;
所述第一残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、3×3卷积层、加和操作、池化操作;
所述第二残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作;
所述第三残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作;
所述多头自注意力模块包括依次连接的3×3可分离卷积层、多头自注意力结构、1×1卷积层;
所述第四残差模块包括依次连接的池化操作、恒等映射、3×3可分离卷积层、3×3卷积层、加和模块;
所述第五残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块;
所述第六残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块;
所述第七残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块;
所述第八残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、3×3×3卷积层、加和模块;
第一语义特征融合模块和第二语义特征融合模块均有两个输入分支,分别接收粉体能源物料堆场状态的浅层语义特征和深层语义特征,分别经过平均池化后经拼接操作得到一个语义特征向量、随后依次经过池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数后得到系数
Figure SMS_10
和1-/>
Figure SMS_11
,分别与浅层语义特征和深层语义特征相乘,与浅层语义特征和一个小于0.5的系数/>
Figure SMS_12
相乘得到的结果拼接后,经1×1卷积操作得到输出结果。
所述强化学习预训练模块使用预先采集的规范行驶的经验样本集
Figure SMS_14
作为专家经验数据集,对MADDPG算法进行预训练,将各个粉体能源物料气力传输车前方环境状态的RGB视频输入经预训练的改进的YOLOv5n网络模型后输出的未戴安全帽、反光马甲或行为异常的人体目标标记出来的新的视频帧/>
Figure SMS_18
、已传输物料的质量/>
Figure SMS_20
和料堆堆放时间/>
Figure SMS_15
输入经预训练的MADDPG算法,获得MADDPG算法的损失函数值,优化MADDPG算法参数;其中,/>
Figure SMS_16
是各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,/>
Figure SMS_17
是行驶动作和气力传输系统启停指令,/>
Figure SMS_19
是新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,/>
Figure SMS_13
是本次行驶动作指令的奖励值;
所述决策控制模块根据MADDPG算法获取的损失函数值和优化MADDPG算法参数在多智能体强化学习仿真试验台仿真环境中迭代获得离线决策模型;对离线决策模型在真实环境中进行迭代获得最终决策模型,根据粉体能源物料堆场环境进行推理决策。
一种多Agent协作粉体能源物料传输控制方法,包括以下步骤:
S1:将每个料堆开始堆放时的时间戳记为起始时间戳
Figure SMS_23
,取料前每个料堆的时间戳记为/>
Figure SMS_25
,使用公式/>
Figure SMS_26
计算出料堆堆放时间/>
Figure SMS_21
;使用预先采集的粉体能源物料气力传输车规范行驶动作的经验样本集/>
Figure SMS_24
作为专家经验数据集,对MADDPG算法进行预训练直至达到设定的最大迭代次数/>
Figure SMS_27
或MADDPG算法收敛为止;利用车载RGB摄像头采集粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧
Figure SMS_28
,输入到非法闯入人员及违规操作检测模块,该非法闯入人员及违规操作检测模块为使用非法闯入人员及违规操作数据集训练过的改进的YOLOv5n网络模型,输出新的视频帧/>
Figure SMS_22
,其包括检测到的未戴安全帽、未着反光马甲和行为异常的人员目标标记;当作业区域内无未戴安全帽、未着反光马甲或行为异常的人员或未戴安全帽、未着反光马甲或行为异常的人员未在作业区域内,进行下一步;当作业区域内有未戴安全帽、未着反光马甲或行为异常的人员,报警;
S2:粉体能源物料料堆三维重建及质量计算;采集不同堆场环境下粉体能源物料料堆RGB图像并利用SolidWorks软件建立粉体能源物料料堆RGB图像对应的三维CAD模型,建立自制粉体能源物料料堆三维重建数据集,采用自制粉体能源物料料堆三维重建数据集对改进的3D-R2N2网络模型进行训练,将利用车载RGB摄像头采集的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧
Figure SMS_30
输入经过训练的改进的3D-R2N2网络模型得到体积元素空间模型/>
Figure SMS_34
,通过测量已知体积为/>
Figure SMS_39
的参照物/>
Figure SMS_32
的体积元素的个数
Figure SMS_37
计算出单个体积元素的体积/>
Figure SMS_40
,通过体积元素空间模型/>
Figure SMS_42
体积元素的个数
Figure SMS_29
计算出粉体能源物料料堆的起始体积/>
Figure SMS_36
;在粉体能源物料传输过程中持续测量每个粉体能源物料料堆的当前体积/>
Figure SMS_41
,测得已传输物料的体积/>
Figure SMS_43
;根据粉体物料的密度/>
Figure SMS_31
计算出已传输物料的质量/>
Figure SMS_33
;其中,/>
Figure SMS_35
为粉体能源物料气力传输车的数目,已传输物料的总质量/>
Figure SMS_38
S3:设有
Figure SMS_56
个料堆,将已传输物料的总质量/>
Figure SMS_45
,各个料堆堆放时间/>
Figure SMS_51
,检测到的各个粉体能源物料气力传输车的将未戴安全帽、反光马甲或行为异常的人体目标标记出来的新的视频帧/>
Figure SMS_57
作为各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>
Figure SMS_59
,输入到经过预训练的MADDPG算法中;当已传输物料的总质量/>
Figure SMS_60
达到期望值
Figure SMS_63
时,停止粉体能源物料的传输;经过预训练的MADDPG算法依据状态/>
Figure SMS_53
从其动作空间中选择对应的行驶动作和气力传输系统开关指令/>
Figure SMS_58
并输出,经行驶动作和气力传输系统开关指令/>
Figure SMS_44
后形成新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态
Figure SMS_48
,通过奖励函数计算本次驾驶动作指令的奖励值/>
Figure SMS_47
,并将状态/>
Figure SMS_49
、行驶动作和气力传输系统开关指令/>
Figure SMS_52
、本次行驶动作指令的奖励值/>
Figure SMS_55
和新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>
Figure SMS_54
作为转移样本/>
Figure SMS_62
存入经验回放缓存池中;从经验回放缓存池中随机抽取转移样本,计算MADDPG算法的损失函数值/>
Figure SMS_61
和优化MADDPG算法参数/>
Figure SMS_64
,料堆取料概率优先级为/>
Figure SMS_46
,其中/>
Figure SMS_50
是料堆总数;
S4:在经过生成对抗网络辅助生成的多智能体强化学习仿真试验台仿真环境中重复步骤S3直至达到设定的最大迭代次数
Figure SMS_65
或者算法收敛为止,生成离线决策模型/>
Figure SMS_66
;在真实环境中重复步骤S3,对离线决策模型/>
Figure SMS_67
进行更新直至迭代次数达到/>
Figure SMS_68
或者算法收敛为止,生成最终决策模型/>
Figure SMS_69
S5:利用最终决策模型
Figure SMS_70
进行实车推理决策。
所述步骤S2,具体包括以下步骤:
S2.1.1:利用RGB摄像头采集各种粉体能源物料料堆环境下粉体能源物料料堆的RGB图像;
S2.1.2:使用SolidWorks软件建立粉体能源物料料堆的RGB图像对应的三维CAD模型;
S2.1.3:将粉体能源物料料堆的RGB图像及其对应的三维CAD模型作为一个样本,按照比例φ将所有样本随机划分为训练集与测试集;
S2.2:生成体积元素空间模型
Figure SMS_71
S2.2.1:使用2D卷积网络结构2D-CNN作为编码器对各个粉体能源物料气力传输车前方的粉体能源物料料堆的RGB图像
Figure SMS_72
进行特征提取和编码为低维特征向量/>
Figure SMS_73
作为编码输入;
S2.2.2:将低维特征向量
Figure SMS_74
送入作为中间结构的3D-LSTM单元得到三维网格结构;
S2.2.3:将三维网格结构输入解码器3D反卷积网络,并将体积元素转换成三维概率矩阵;通过三维概率矩阵进行像素重建生成体积元素空间模型
Figure SMS_75
所述步骤S3,计算MADDPG算法的损失函数值
Figure SMS_76
和优化MADDPG算法参数/>
Figure SMS_77
的具体过程具体为:
S3.1、随机初始化每个粉体能源物料气力传输车的策略网络
Figure SMS_80
和策略网络参数/>
Figure SMS_82
、评估网络/>
Figure SMS_85
和评估网络参数/>
Figure SMS_81
,其中
Figure SMS_84
为每一个粉体能源物料气力传输车在粉体能源物料堆场环境状态对应采取的气力传输系统启停指令动作;/>
Figure SMS_87
为每个粉体能源物料气力传输车各自的状态;随机初始化每个粉体能源物料气力传输车的目标策略网络/>
Figure SMS_89
和目标策略网络参数/>
Figure SMS_79
、目标评估网络/>
Figure SMS_83
和目标评估网络参数/>
Figure SMS_86
;初始化每个粉体能源物料气力传输车的经验回放缓存池/>
Figure SMS_88
和动作探索噪声/>
Figure SMS_78
;初始化各个粉体能源物料气力传输车前方粉体能源物料堆场环境和所有粉体能源物料气力传输车状态集合;
S3.2、对每一个粉体能源物料气力传输车
Figure SMS_90
执行以下步骤:
S3.2.1根据当前粉体能源物料气力传输车的观察状态、策略网络和噪声探索策略选择动作
Figure SMS_91
+/>
Figure SMS_92
,其中/>
Figure SMS_93
为时间步序号;
S3.2.2粉体能源物料气力传输车
Figure SMS_94
执行当前动作/>
Figure SMS_95
得到下一状态/>
Figure SMS_96
和奖励
Figure SMS_97
,并且将经验/>
Figure SMS_98
存入经验回放缓存池/>
Figure SMS_99
,其中/>
Figure SMS_100
为时间步序号;
S3.3、每执行Z步,对每个粉体能源物料气力传输车,按照以下步骤训练神经网络:
S3.3.1根据
Figure SMS_101
Figure SMS_102
计算当前粉体能源物料气力传输车Z步经验的策略损失,其中,
Figure SMS_103
为采取策略/>
Figure SMS_104
时评估网络的值,/>
Figure SMS_105
为采取策略/>
Figure SMS_106
时目标评估网络的值,/>
Figure SMS_107
是衰减因子;
S3.3.2从经验回放缓存池
Figure SMS_108
中随机抽取小批次的经验,包含/>
Figure SMS_109
个经验;
S3.3.3通过目标评估网络计算每个经验动作期望回报:
Figure SMS_110
S3.3.4最小化损失以更新评估网络参数:
Figure SMS_111
其中,
Figure SMS_112
表示Loss损失函数;
S3.3.5通过以下梯度更新当前智能体的策略网络参数:
Figure SMS_113
其中,
Figure SMS_114
表示在策略网络参数/>
Figure SMS_115
下的策略梯度,/>
Figure SMS_116
和/>
Figure SMS_117
分别表示评估网络状态-动作值函数梯度和策略网络函数的梯度,/>
Figure SMS_118
表示随机抽取小批次的经验样本数量;
S3.4、每执行B步,对每个智能体,按照以下公式更新目标策略网络和目标评估网络参数:
Figure SMS_119
其中,
Figure SMS_120
是软更新比例系数;
S3.5:循环运行步骤S3.2-S3.4直至达到最大迭代次数或者算法收敛为止。
所述步骤S3中,总奖励函数
Figure SMS_121
包括料堆距离奖励函数/>
Figure SMS_122
、安全距离奖励函数/>
Figure SMS_123
、避免气力传输管道损坏奖励函数/>
Figure SMS_124
、速度奖励函数/>
Figure SMS_125
,具体为:
料堆距离奖励函数
Figure SMS_126
和安全距离奖励函数/>
Figure SMS_127
,如式(1)所示:
Figure SMS_128
(1)
其中,
Figure SMS_129
、/>
Figure SMS_130
为常数;/>
Figure SMS_131
为粉体能源物料气力传输车吸嘴距离料堆的间距;
Figure SMS_132
为粉体能源物料气力传输车周围车辆、障碍物与粉体能源物料气力传输车的间距,
Figure SMS_133
、/>
Figure SMS_134
均由粉体能源物料气力传输车传感器计算获取;
避免气力传输管道损坏奖励函数
Figure SMS_135
,如式(2)所示:
Figure SMS_136
(2)
其中,
Figure SMS_137
是常数,过度拉伸指/>
Figure SMS_138
速度奖励函数
Figure SMS_139
,如式(3)所示:
Figure SMS_140
(3)
其中,
Figure SMS_141
是常数,/>
Figure SMS_142
为粉体能源物料气力传输车允许行驶的最高时速,/>
Figure SMS_143
为粉体能源物料气力传输车当前行驶时速,单位均为/>
Figure SMS_144
总奖励函数
Figure SMS_145
,如式(4)所示:
Figure SMS_146
(4)
所述步骤S4中,仿真试验台是一种新型的强化学习训练方式。与目前强化学习多在仿真训练环境中进行强化学习训练完全不同,本申请所述在自动驾驶仿真试验台中进行训练,具体包括步骤如下:
S4.1.1:对用于训练粉体能源物料气力传输车的粉体能源物料堆场环境使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape,对反映真实环境中不可移动物体的位置和形状进行三维建模;
S4.1.2:对粉体能源物料气力传输车的轮廓坐标进行界定;
S4.1.3:在训练过程中,根据粉体能源物料气力传输车位置状态、车轮速度、行驶方向等变量计算得出粉体能源物料气力传输车新的位置状态,使得车轮的动作空间、状态空间和总奖励函数
Figure SMS_147
与在真实粉体能源物料堆场环境中进行训练时相同,车轮运行的介质为真实粉体能源物料堆场环境中车轮运行的介质,比如泥土、沙地、沥青等;输入图片均是真实粉体能源物料气力传输车车载摄像头拍摄的根据车轮动作而变化的视频帧,与真实训练环境中粉体能源物料气力传输车探测单元探测到的视频帧相同,其余各部件的运行机理与正常粉体能源物料气力传输车相同,各项物理参数与真实环境相同;同时此仿真试验台不能移动,从而克服强化学习在真实环境中训练时面临的碰撞损害问题;
相对于在仿真训练环境中进行强化学习训练,本发明在一种多智能体强化学习仿真试验台中进行训练具有与真实环境相同的物理环境;相对于在真实环境中进行强化学习训练,本申请所述在多智能体强化学习仿真试验台中进行训练能够避免各个智能体(粉体能源物料气力传输车)与环境中其余物体发生真实碰撞而导致训练成本过高的问题。
S4.2:使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape进行三维建模
S4.2.1:采用椭球形状作为初始形状,并使用各种随机采样的视角和光照条件渲染大量非自然的粉体能源物料堆场环境RGB图像;
S4.2.2:用预训练的生成对抗网络对粉体能源物料堆场环境RGB图像进行重建,得到其在生成对抗网络图像空间的投影,即投影样本;投影样本有与粉粉体能源物料堆场环境RGB图像同种类型的视角与光照,同时生成对抗网络的生成特性将投影样本约束在真实图像空间中,从而消除粉体能源物料堆场环境RGB图像中不真实的畸变与光影;
S4.2.3:将投影样本作为渲染步骤的学习目标真实值,优化三维粉体能源物料堆场环境;由于投影样本中包含了生成对抗网络学得的物体三维信息,因此物体形状会更加准确;
S4.2.4:用优化后的三维粉体能源物料堆场环境作为初始形状再重复步骤S4.2.1- S4.2.3,迭代多次,直至网络收敛。
一种介质,所述介质为计算机可读存储介质,该计算机可读存储介质上存储有基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制程序,其中所述多Agent协作粉体能源物料传输控制程序被处理器执行时,实现所述基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制方法的步骤。
本发明的有益效果:
1、使用多Agent协作粉体能源物料传输控制系统代替传统皮带传输装置对粉体能源物料进行传输,有效克服了皮带传输装置通用性不强、结构复杂、输送线路局限性大、不能够自动取料的缺点,提高了粉体能源的传输效率。
2、为了克服传统控制方法对外界驾驶环境的数学模型依赖性大从而导致控制方法的控制精度低、鲁棒性差的缺点,应用多Agent深度强化学习算法MADDPG,充分利用了真实堆场环境中按照规则在各种状态时行驶的信息来加强自动气力传输车的运动规划和控制。
3、改进YOLOv5n网络模型,从而提高网络模型每秒处理图片数量和检测准确率,减少网络模型的参数数量;使用经过训练的改进YOLOv5n网络模型对RGB摄像头采集的RGB图像中的非法闯入人员进行目标检测,在检测到非法闯入人员及违规操作时报警,提高了系统的安全性。
4、改进3D-R2N2网络模型,从而提高网络模型的交并比指标;为了向总控上位机提供传输粉体能源物料质量的准确信息,将RGB摄像头采集的RGB图像输入改进的3D-R2N2模型进行三维体素建模,再通过参照物体积和体积元素块数量计算出传输粉体能源物料料堆质量,原粉体能源物料料堆质量和现有粉体能源物料料堆质量之差即为传输质量,克服了皮带秤计量不准、零点波动等缺点,采用单视图纯视觉三维重建方法,提高了建模速度和效率,减少了建模成本。
5. 为了避免陈煤自燃、物料受潮等问题造成粉体能源物料的损失,对堆放时间长的料堆赋予较大的优先传输权重,提高了系统的安全性。
6、针对目前没有粉体能源物料料场深度强化学习仿真环境的问题,通过基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape方式生成多种粉体能源物料料场强化学习仿真环境3D模型;
7、设计了一种多智能体强化学习仿真实验台,提出了多层次联合训练方法,分别在试验台和真实环境中训练无人驾驶物料气力传输车。通过无人驾驶物料气力传输车与真实环境直接进行交互,使得误差、延迟和噪声等干扰因素作为环境模型的一部分被MADDPG算法隐式地建模,并在值估计和决策生成过程中被充分地考虑,既能避免强化学习模型对训练数据集的依赖的问题,又提高了算法的训练效率和鲁棒性。
附图说明
图1为本发明实施例提供的多Agent协作粉体能源物料传输控制系统的结构示意图;
图2为本发明实施例提供的多Agent协作粉体能源物料传输控制系统的自制粉体能源物料料堆三维重建数据集中料堆图像的三维重建测试结果;
图3为本发明实施例提供的多Agent协作粉体能源物料传输控制方法的流程示意图;
图4为现有的3D-R2N2网络模型结构图;
图5为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中的改进3D-R2N2网络模型结构图;
图6为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中融合模块示意图;
图7为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中多头自注意力模块示意图;
图8(a)为现有的YOLOv5n网络模型结构图;
图8(b)为图8(a)中CBS模块的具体示意图;
图8(c)为图8(a)中残差单元的具体示意图;
图8(d)为图8(a)中C3模块的具体示意图;
图8(e)为图8(a)中快速金字塔池化的具体示意图;
图9(a)为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络模型结构图;
图9(b)为图9(a)中CBS模块的具体示意图;
图9(c)为图9(a)中残差单元的具体示意图;
图9(d)为图9(a)中C3模块的具体示意图;
图9(e)为图9(a)中快速金字塔池化的具体示意图;
图9(f)为图9(a)中GTC3模块的具体示意图;
图9(g)为图9(a)中SEGhost module的具体示意图;
图9(h)为图9(a)中Ghost module的具体示意图;
图10(a)为本发明实施例提供多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络生成结果图一;
图10(b)为本发明实施例提供多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络生成结果图二;
图10(c)为本发明实施例提供多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络生成结果图三;
图11为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中MADDPG算法流程示意图;
图12(a)为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中多智能体强化学习仿真试验台组成示意图;
图12(b)为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中各多智能体强化学习仿真试验台工作方式示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作一步详细描述。
本实施例主要解决的技术问题是传统粉体能源物料传输控制系统在粉体能源物料堆场环境中传输效果不佳的问题,提出了多Agent协作粉体能源物料传输控制系统,基于改进的3D-R2N2和改进的YOLOv5n实现。首先,采用Mobileye 8 摄像头对外界环境进行感知,其次,采用多Agent深度强化学习方法代替传统的控制方法,提高了物料传输控制系统的经济性、实用性和可靠性。另外,本实施例还加入非法闯入人员及违规操作检测装置和优先传输呆滞粉体能源物料的设定,提高了粉体能源物料传输控制系统的安全性。本发明使用深度学习三维重建的方式代替传统称重系统计算粉体能源物料的质量,简化了物料传输控制系统的机械结构,提高了物料传输控制系统的可靠性。本实施例使用密闭的气力传输方式代替传统的皮带传输方式从而减少粉体能源物料堆场的粉尘污染,有效传输距离可达500米,完全可以在崎岖复杂的地形下长距离大运力传输粉体能源物料。本实施例在粉体能源物料堆场环境中的应用具有极大的实际应用价值与现实意义,大大提高了粉体能源物料传输的自动化程度,节省了人工成本,很大程度上提高了粉体能源物料传输的效率。
一种多Agent协作粉体能源物料传输控制系统,如图1所示,包括探测单元、气力输送系统、总控上位机、车载下位机。探测单元布置在各个粉体能源物料气力传输车预设的探测位置处,采用型号为Mobileye 8的车载RGB摄像头采集各个粉体能源物料气力传输车前方环境状态的RGB视频。气力输送系统的入料口吸嘴布置在各个粉体能源物料气力传输车预设的位置处,其余部件布置在物料出料口附近,采用吸送式气力传输装置采集物料并通过柔性可伸缩管道传输到物料出料口。车载下位机安装于粉体能源物料气力传输车上,其嵌入自动行驶粉体能源物料气力传输车控制程序,自动行驶粉体能源物料气力传输车控制程序包括非法闯入人员及违规操作检测模块、粉体能源物料料堆三维重建及质量计算模块、决策控制模块。总控上位机嵌入强化学习模块,实现多Agent协作粉体能源物料传输控制。
非法闯入人员及违规操作检测模块采用改进的YOLOv5n网络模型:使用自制非法闯入人员及违规操作数据集,对改进的YOLOv5n网络模型进行预训练,随后将划定界限的监控区域范围内各个粉体能源物料气力传输车前方环境状态的RGB视频的原始视频帧输入经预训练的改进的YOLOv5n网络模型,对各个粉体能源物料气力传输车的前方环境进行目标检测,将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来得到新的视频帧;如图10(a)、图10(b)、图10(c)分别为改进的YOLOv5n网络模型生成图,分别代表规范操作人员、未戴安全帽或未着反光马甲的人员、行为异常的人员。
为进一步突出本发明显著的实质性效果,与现有的YOLOv5n模型及现有的YOLOv5x模型,在每秒处理图片数量、准确率、
Figure SMS_148
和网络参数数量四个标准上进行对比。
表1改进YOLOv5n网络模型在非法闯入人员及违规目标检测数据集中与现有网络模型的每秒处理图片数量、准确率、
Figure SMS_149
和网络参数数量对比表
Figure SMS_150
由表1可知,本发明提出的改进的YOLOv5n模型相对于现有的YOLOv5n模型在每秒处理图片数量、准确率、mAP@0.5和网络参数数量上均有提高,尤其在准确率和mAP@0.5上具有显著提高,网络参数数量得到了减少;相对于现有的YOLOv5x模型在每秒处理图片数量、准确率、mAP@0.5上均有提高,尤其在每秒处理图片数量上具有显著提高,网络参数数量得到了显著减少。
所述改进的YOLOv5n网络模型基于现有的YOLOv5n网络模型进行改进,现有的YOLOv5n网络模型根据图8(a)所示,图8(b)-图8(e)分别为现有的YOLOv5n网络模型中CBS模块、残差单元、C3模块、快速金字塔池化的具体示意图。
改进的YOLOv5n网络模型如图9(a)所示,其包括骨干模块、瓶颈模块、预测模块;
其中,骨干模块包括依次连接的第一卷积层、第一CBS模块、第一C3模块、第二CBS模块、第二C3模块、第三CBS模块、第三C3模块、第四CBS模块和SPPF模块;瓶颈模块包括依次连接的第四C3模块、第五CBS模块、第一次上采样操作、第一次拼接操作,其中第一次拼接操作拼接第一次上采样操作和第三C3模块输出的语义特征、第五C3模块和第六CBS模块以及第二次上采样操作、第二次拼接操作、第一GTC3模块;接收第一GTC3模块输出特征的第七CBS模块、接收第七CBS模块和第六CBS模块输出语义特征的第三次拼接操作、接收第三次拼接操作输出的第二GTC3模块;头部模块包括接收第一GTC3模块输出特征的第一Conv卷积、接收第二GTC3模块输出语义特征的第二Conv卷积以及各自对应的目标检测结果;CBS模块如图9(b)所示,包括依次连接的位置卷积层CoordConv、批归一化层、SiLU激活函数;C3模块如图9(d)所示,包括两个分支,其中第一分支包括依次连接的CBS模块、残差单元,第二分支包括卷积层,第一分支和第二分支输出的语义特征通过拼接操作生成最终结果;残差单元如图9(c)所示,包括依次连接的恒等映射、第一个CBS模块、第二个CBS模块、加和操作;SPPF模块如图9(d)所示,包括依次连接的CBS模块、由恒等映射组成的第一分支、由一个最大池化层组成的第二分支、由两个最大池化层依次相连组成的第三分支、由三个池化层依次相连组成的第四分支、所有分支输出的语义特征通过拼接操作输出到CBS模块后,得到最终结果;GTC3模块如图9(f)所示,包括依次连接的第一1×1卷积层分支、第一CBS模块、由依次相连的Ghost module模块,深度可分离卷积层,SEGhost module模块构成的第一分支;恒等映射第二分支由依次相连的第二CBS模块,SwinT模块,卷积层构成的第三分支,其中第一分支与第二分支在SEGhost module模块后进行加和操作后与第三分支的输出语义特征进行拼接操作输出的语义特征经过第二1×1卷积层后与第一1×1卷积层分支输出的语义特征加和后经过第三CBS模块作用后输出最终结果;Ghost module模块如图9(h)所示,包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积组成的第二分支、第一分支和第二分支通过拼接操作得到最终结果。
SEGhost module模块如图9(g)所示,包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积组成的第二分支、第一分支和第二分支通过拼接操作后经过依次相连的全局池化操作、全连接层、ReLU激活函数作用、全连接层、Sigmoid激活函数作用后与第一分支和第二分支通过拼接操作后输出的语义特征相乘得到最终结果;
所述自制非法闯入人员及违规操作数据集:利用Mobileye 8 摄像头采集的非法闯入人员或违规操作的原始视频帧、非法闯入人员或违规操作的原始视频帧对应的带有标签的原始视频帧;
所述三维重建及质量计算模块,采用改进的3D-R2N2网络模型:使用自制粉体能源物料料堆三维重建数据集进行训练,用以对粉体能源物料堆场中的料堆RGB图像进行三维重建生成料堆RGB图像对应的体积元素空间模型,本发明实施例提供的多Agent协作粉体能源物料传输控制系统的自制粉体能源物料料堆三维重建数据集中料堆图像的三维重建测试结果如图2所示,利用辅助参照物得到单个体积元素的体积进而得到料堆体积。取料前每个料堆的时间戳记为
Figure SMS_151
并存储在总控上位机中。
所述自制粉体能源物料料堆三维重建数据集:利用Mobileye 8 摄像头采集的粉体能源物料料堆RGB图像,粉体能源物料料堆RGB图像对应的三维CAD模型。
所述改进的3D-R2N2网络模型基于现有的3D-R2N2网络模型进行改进,现有的3D-R2N2网络模型如图4所示。改进的3D-R2N2网络模型如图5所示,包括编码器模块、3D-Convolutional LSTM模块、解码器模块;
其中,编码器模块包括依次连接的快速空间金字塔池化模块、恒等映射、第一残差模块、第一个1×1卷积层、恒等映射、第二残差模块、第一语义特征融合模块、第三残差模块、第二语义特征融合模块、MHSA模块、第四残差模块和第五残差模块;3D-Convolutional-LSTM模块包括依次相连的全连接层和3D-LSTM层;解码器模块包括依次连接的第六残差模块、第七残差模块、第八残差模块、第九残差模块和3×3×3卷积层;解码器模块的输出经3DSoftmax层作用后生成分割图;所述快速空间金字塔池化模块SPPF包括四个分支,第一分支包括3×3池化操作,第二分支包括两个依次相连的3×3池化操作,第三分支包括三个依次相连的3×3池化操作,第四分支是恒等映射分支,第一分支、第二分支、第三分支、第四分支通过拼接操作输出快速空间金字塔池化结果。
第一残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、3×3卷积层、加和操作、池化操作;第二残差模块和第二残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作;多头自注意力模块MHSA模块如图7所示,包括依次连接的3×3可分离卷积层、MHSA结构、1×1卷积层;第四残差模块包括依次连接的池化操作、恒等映射、3×3可分离卷积层、3×3卷积层、加和模块;所述第四残差模块包括依次连接的池化操作、恒等映射、3×3可分离卷积层、3×3卷积层、加和模块;所述第五残差模块、第六残差模块和第七残差模块均包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块;所述第八残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、3×3×3卷积层、加和模块;第一语义特征融合模块和第二语义特征融合模块如图6所示,均有两个输入分支,分别接收粉体能源物料堆场状态的浅层语义特征和深层语义特征,分别经过平均池化后经拼接操作得到一个语义特征向量、随后依次经过池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数后得到系数
Figure SMS_152
和1-/>
Figure SMS_153
,分别与浅层语义特征和深层语义特征相乘,与浅层语义特征和一个小于0.5的系数/>
Figure SMS_154
相乘得到的结果拼接后,经1×1卷积操作得到输出结果。
强化学习预训练模块使用预先采集的规范行驶的经验样本集
Figure SMS_155
作为专家经验数据集,对MADDPG算法进行预训练,将各个粉体能源物料气力传输车前方环境状态的RGB图像输入经预训练的改进的YOLOv5n网络模型后输出的将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来的新的视频帧、已传输物料的质量/>
Figure SMS_156
、取料前每个料堆的时间戳记为/>
Figure SMS_157
输入经预训练的MADDPG算法,获得MADDPG算法的损失函数值,优化MADDPG模型参数;
决策模块根据MADDPG算法获取的损失函数值和优化MADDPG算法参数在自动行驶仿真实验台环境中迭代获得离线决策模型;对离线决策模型在真实环境中进行迭代获得最终决策模型,根据粉体能源物料堆场环境进行推理决策。
一种多Agent协作粉体能源物料传输控制方法,如图3所示,包括以下步骤:
S1:将每个料堆堆放时的时间戳记为起始时间戳
Figure SMS_158
,取料前每个料堆的时间戳记为/>
Figure SMS_159
,使用公式/>
Figure SMS_163
计算出料堆堆放时间/>
Figure SMS_160
。使用预先采集的规范行驶的经验样本集/>
Figure SMS_164
作为专家经验数据集,对MADDPG算法进行预训练直至达到设定的最大迭代次数/>
Figure SMS_165
或算法收敛为止;其中,/>
Figure SMS_168
是各个粉体能源物料气力传输车前方环境状态,/>
Figure SMS_161
是行驶动作指令,/>
Figure SMS_166
是新的各个粉体能源物料气力传输车前方环境状态,/>
Figure SMS_167
是本次行驶动作指令的奖励值;利用车载RGB摄像头采集粉体能源物料气力传输车前方环境状态的视频帧/>
Figure SMS_169
,输入到使用非法闯入人员及违规操作数据集预先训练的改进的YOLOv5n网络模型即用以进行非法闯入人员及违规操作的非法闯入人员及违规操作检测模块,输出将检测到的未戴安全帽、未着反光马甲和行为异常的人员目标标记出来的新的视频帧/>
Figure SMS_162
S2:采集不同堆场环境下粉体能源物料料堆RGB图像并利用SolidWorks软件建立粉体能源物料料堆RGB图像对应的三维CAD模型,建立自制粉体能源物料料堆三维重建数据集,采用自制粉体能源物料料堆三维重建数据集对改进的3D-R2N2网络模型进行训练,将利用Mobileye 8 摄像头采集的各个粉体能源物料气力传输车前方环境状态的视频帧
Figure SMS_170
输入经过训练的改进3D-R2N2网络模型得到三维重建体积元素空间模型/>
Figure SMS_174
,并通过测量已知体积为/>
Figure SMS_176
的参照物/>
Figure SMS_171
的体积元素的个数/>
Figure SMS_179
计算出单个体积元素的体积/>
Figure SMS_181
,并通过/>
Figure SMS_183
体积元素的个数/>
Figure SMS_173
计算出粉体能源物料料堆的起始体积/>
Figure SMS_178
。同理,在粉体能源物料传输过程中持续测量每个料堆的体积/>
Figure SMS_180
,测得已传输物料的体积
Figure SMS_184
,根据粉体物料的密度/>
Figure SMS_172
计算出已传输物料的质量/>
Figure SMS_175
,其中,/>
Figure SMS_177
为粉体能源物料气力传输车的数目,已传输物料的总质量/>
Figure SMS_182
S3:设有
Figure SMS_192
个料堆,将已传输物料的总质量/>
Figure SMS_187
,各个料堆堆放时间/>
Figure SMS_189
,检测到的各个粉体能源物料气力传输车的将未戴安全帽、反光马甲或行为异常的人体目标标记出来的新的视频帧/>
Figure SMS_188
作为各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>
Figure SMS_196
,输入到经过预训练的MADDPG算法中;当已传输物料的总质量/>
Figure SMS_198
达到期望值
Figure SMS_204
时,停止粉体能源物料的传输;经过预训练的MADDPG算法依据状态/>
Figure SMS_193
从其动作空间中选择对应的行驶动作和气力传输系统开关指令/>
Figure SMS_199
并输出,经行驶动作和气力传输系统开关指令/>
Figure SMS_185
后形成新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>
Figure SMS_190
,通过奖励函数计算本次驾驶动作指令的奖励值/>
Figure SMS_194
,并将状态/>
Figure SMS_197
、行驶动作和气力传输系统开关指令/>
Figure SMS_200
、本次行驶动作指令的奖励值/>
Figure SMS_202
和新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>
Figure SMS_195
作为转移样本/>
Figure SMS_201
存入经验回放缓存池中;从经验回放缓存池中随机抽取转移样本,计算MADDPG算法的损失函数值/>
Figure SMS_203
和优化MADDPG算法参数/>
Figure SMS_205
,料堆取料概率优先级为/>
Figure SMS_186
,其中/>
Figure SMS_191
是料堆总数;
S4:在经过生成对抗网络辅助生成的多智能体强化学习仿真试验台仿真环境中重复步骤S3直至达到设定的最大迭代次数3000次或者算法收敛为止,生成离线决策模型
Figure SMS_206
;在真实环境中重复步骤S3,对离线决策模型/>
Figure SMS_207
进行更新直至迭代次数达到1500次或者算法收敛为止,生成最终决策模型/>
Figure SMS_208
S5:利用最终决策模型
Figure SMS_209
进行实车推理决策。
所述步骤S2建立料堆三维重建数据集的具体过程,包括以下步骤:
S2.1.1:利用RGB摄像头采集各种粉体能源物料料堆场环境下粉体能源物料料堆的RGB图像;
S2.1.2:使用SolidWorks软件建立粉体能源物料料堆的RGB图像对应的三维CAD模型。
S2.1.3:将粉体能源物料料堆的RGB图像及其对应的三维CAD模型作为一个样本,按照比例φ将所有样本随机划分为训练集与测试集。
生成体积元素空间模型
Figure SMS_210
的具体过程,包括以下步骤:
S2.2.1:使用2D卷积网络结构(2D-CNN)作为编码器对各个粉体能源物料气力传输车前方的粉体能源物料料堆的视频帧
Figure SMS_211
进行特征提取和编码为低维特征/>
Figure SMS_212
作为编码输入;
S2.2.2:将低维特征向量
Figure SMS_213
送入作为中间结构的3D-LSTM单元得到三维网格结构,其中三维网格结构包括体素;
S2.2.3:将三维网格结构输入解码器3D反卷积网络,并将体积元素转换成三维概率矩阵;通过三维概率矩阵进行像素重建生成了体积元素空间模型
Figure SMS_214
所述的步骤S3中,总奖励函数
Figure SMS_215
包括料堆距离奖励函数/>
Figure SMS_216
、安全距离奖励函数/>
Figure SMS_217
、避免气力传输管道损坏奖励函数/>
Figure SMS_218
、速度奖励函数/>
Figure SMS_219
,具体为:
料堆距离奖励函数
Figure SMS_220
和安全距离奖励函数/>
Figure SMS_221
,如式(1)所示:
Figure SMS_222
(1)
其中,
Figure SMS_223
、/>
Figure SMS_224
为常数;/>
Figure SMS_225
为粉体能源物料气力传输车吸嘴距离料堆的间距;
Figure SMS_226
为粉体能源物料气力传输车周围车辆、障碍物与粉体能源物料气力传输车的间距,
Figure SMS_227
、/>
Figure SMS_228
均由车辆传感系统计算获取。
避免气力传输管道损坏奖励函数
Figure SMS_229
,如式(2)所示:
Figure SMS_230
(2)
其中,
Figure SMS_231
是常数,过度拉伸指/>
Figure SMS_232
速度奖励函数
Figure SMS_233
,如式(3)所示:
Figure SMS_234
(3)
其中,
Figure SMS_235
是常数,/>
Figure SMS_236
为粉体能源物料气力传输车允许行驶的最高时速,/>
Figure SMS_237
为粉体能源物料气力传输车当前行驶时速,单位均为/>
Figure SMS_238
总奖励函数
Figure SMS_239
,如式(4)所示:
Figure SMS_240
(4)
所述S3中,计算MADDPG模型的损失函数值
Figure SMS_241
和优化MADDPG模型参数/>
Figure SMS_242
的具体过程,如图11所示,包括以下步骤:
S3.1、随机初始化每个粉体能源物料气力传输车的策略网络
Figure SMS_244
和策略网络参数/>
Figure SMS_247
、评估网络/>
Figure SMS_249
和评估网络参数/>
Figure SMS_245
,其中
Figure SMS_250
为每一个粉体能源物料气力传输车在状态/>
Figure SMS_252
时采取的动作;/>
Figure SMS_254
为每个粉体能源物料气力传输车各自的状态;随机初始化每个粉体能源物料气力传输车的目标策略网络
Figure SMS_243
和目标策略网络参数/>
Figure SMS_251
、目标评估网络/>
Figure SMS_255
和目标评估网络参数/>
Figure SMS_256
;初始化每个粉体能源物料气力传输车的经验回放缓存池/>
Figure SMS_246
和动作探索噪声/>
Figure SMS_248
;初始化各个粉体能源物料气力传输车前方粉体能源物料堆场环境和所有粉体能源物料气力传输车状态集合/>
Figure SMS_253
;/>
S3.2、对每一个粉体能源物料气力传输车
Figure SMS_257
执行以下步骤:
S3.2.1根据当前粉体能源物料气力传输车的观察状态、策略网络和噪声探索策略选择动作
Figure SMS_258
,其中/>
Figure SMS_259
为时间步序号;
S3.2.2粉体能源物料气力传输车
Figure SMS_260
执行当前动作/>
Figure SMS_261
得到下一状态/>
Figure SMS_262
和奖励
Figure SMS_263
,并且将经验/>
Figure SMS_264
存入经验回放缓存池/>
Figure SMS_265
,其中/>
Figure SMS_266
为时间步序号;
S3.3、每执行Z步,对每个粉体能源物料气力传输车,按照以下步骤训练神经网络:
S3.3.1根据
Figure SMS_267
计算当前粉体能源物料气力传输车
Figure SMS_268
步经验的策略损失,其中,/>
Figure SMS_269
为采取策略/>
Figure SMS_270
时评估网络的值,/>
Figure SMS_271
为采取策略/>
Figure SMS_272
时目标评估网络的值,/>
Figure SMS_273
是衰减因子;
S3.3.2从经验回放缓存池
Figure SMS_274
中随机抽取小批次的经验,包含/>
Figure SMS_275
个经验;
S3.3.3通过目标评估网络计算每个经验动作期望回报:
Figure SMS_276
S3.3.4最小化损失以更新评估网络参数:
Figure SMS_277
其中,
Figure SMS_278
表示Loss损失函数;
S3.3.5通过以下梯度更新当前智能体的策略网络参数:
Figure SMS_279
其中,
Figure SMS_280
表示在策略网络参数/>
Figure SMS_281
下的策略梯度,/>
Figure SMS_282
和/>
Figure SMS_283
分别表示评估网络状态-动作值函数梯度和策略网络函数的梯度,/>
Figure SMS_284
表示随机抽取小批次的经验样本数量;
S3.4、每执行B步,对每个智能体,按照以下公式更新目标策略网络和目标评估网络参数:
Figure SMS_285
其中,
Figure SMS_286
是软更新比例系数;/>
S3.5:循环运行步骤S3.2-S3.4直至达到最大迭代次数或者算法收敛为止。
所述步骤S4具体如下:
S4.1.1:对用于训练粉体能源物料气力传输车的粉体能源物料堆场环境使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape方式,对反映真实环境中不可移动物体的位置和形状进行三维建模;
S4.1.2:对粉体能源物料气力传输车的轮廓坐标进行界定;
S4.1.3:在训练过程中,根据粉体能源物料气力传输车位置状态和车轮速度、行驶方向等变量计算得出粉体能源物料气力传输车新的位置状态,使得车轮的动作空间、状态空间和自动驾驶奖励函数与在真实粉体能源物料堆场环境中进行训练时相同,车轮运行的介质可以设置为多种材质(泥土、沙地、沥青等),输入图片均是真实粉体能源物料气力传输车车载摄像头捕捉的可根据车轮动作变化的视频帧,与真实训练环境中输入自动驾驶汽车的视频帧相同,其余各部件的运行机理与正常汽车相同,各物理参数完全与真实环境相同,同时此仿真试验台不能移动,从而克服强化学习在真实环境中训练时面临的碰撞损害问题。本发明实施例提供的多Agent协作粉体能源物料传输控制系统中多智能体强化学习仿真试验台组成如图12(a)所示,多智能体强化学习仿真试验台工作方式示意如图12(b)所示。
所述S4中虚拟仿真环境:使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape进行三维建模,其步骤如下:
S4.2.1:用初始化的形状(即椭球)和可微渲染器渲染很多不同视角与光照条件下的粉体能源物料料堆的RGB图像;
S4.2.2:用预训练的生成对抗网络GAN对粉体能源物料料堆的RGB图像进行重建,得到其在GAN图像空间的投影,即投影样本。这些投影样本会继承与粉体能源物料料堆的RGB图像类似的视角与光照,同时GAN的生成特性会将投影样本约束在真实图像空间中,从而消除粉体能源物料料堆的RGB图像中不真实的畸变与光影;
S4.2.3:将投影样本作为渲染步骤的学习目标真实值,从而优化物体三维形状。由于投影样本中包含了GAN学得的物体三维信息,因此物体形状会更加准确。
S4.2.4:用优化后的物体三维形状作为初始形状再重复以上步骤,迭代多次,从而逐步改善物体三维形状直至网络收敛。
一种介质,存储计算机程序,为计算机可读存储介质,该计算机可读存储介质上存储有基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制程序,其中所述多Agent协作粉体能源物料传输控制程序被处理器执行时,实现所述基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制方法的步骤。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。为进一步突出本发明显著的实质性效果,与现有的3D-R2N2网络模型在单视角条件下对交并比评价指标进行对比。
表2改进3D-R2N2网络模型与现有的3D-R2N2网络模型的交并比评价指标比对比表
Figure SMS_287
由表2可知,本发明提出的改进的3D-R2N2网络模型相对于现有的3D-R2N2网络模型在单视角条件下,在交并比评价指标上具有显著提高。

Claims (9)

1.一种多Agent协作粉体能源物料传输控制系统,其特征在于,该多Agent协作粉体能源物料传输控制系统包括探测单元、气力传输系统、总控上位机和车载下位机;
探测单元布置在各个粉体能源物料气力传输车预设的探测位置处,采用车载RGB摄像头采集各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的RGB视频;
气力传输系统的入料口吸嘴布置在各个粉体能源物料气力传输车预设位置处,气力传输系统其余部件布置在物料出料口预设位置处,采用吸送式气力传输装置采集物料并通过柔性可伸缩管道传输到物料出料口;车载下位机安装于粉体能源物料气力传输车上,其嵌入自动行驶粉体能源物料气力传输车控制程序,自动行驶粉体能源物料气力传输车控制程序包括非法闯入人员及违规操作检测模块、粉体能源物料料堆三维重建及质量计算模块、决策控制模块,用于控制多Agent协作粉体能源物料的传输;非法闯入人员及违规操作检测模块采用改进的YOLOv5n网络模型;粉体能源物料料堆三维重建及质量计算模块采用改进的3D-R2N2网络模型;
总控上位机嵌入自动行驶粉体能源物料气力传输车预训练程序,自动行驶粉体能源物料气力传输车预训练程序包括强化学习预训练模块,用于预训练MADDPG算法;总控上位机与多个车载下位机建立联系。
2.根据权利要求1所述的多Agent协作粉体能源物料传输控制系统,其特征在于,所述非法闯入人员及违规操作检测模块中使用自制非法闯入人员及违规操作数据集,对改进的YOLOv5n网络模型进行训练,将划定界限的监控区域范围内各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的RGB视频的原始视频帧输入已训练的改进的YOLOv5n网络模型,对各个粉体能源物料气力传输车前方的环境进行目标检测,将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来得到新的视频帧;
所述自制非法闯入人员及违规操作数据集为利用车载RGB摄像头采集的非法闯入人员或违规操作的原始视频帧以及该原始视频帧进行标签标定后的原始视频帧;
所述改进的YOLOv5n网络模型,包括骨干模块、瓶颈模块、头部模块;
骨干模块包括依次连接的第一卷积层、第一CBS模块、第一C3模块、第二CBS模块、第二C3模块、第三CBS模块、第三C3模块、第四CBS模块和快速金字塔池化模块;瓶颈模块包括依次连接的第四C3模块、第五CBS模块、第一次上采样操作、第一次拼接操作、第五C3模块和第六CBS模块以及第二次上采样操作、第二次拼接操作、第一GTC3模块、接收第一GTC3模块输出语义特征的第七CBS模块、接收第七CBS模块和第六CBS模块输出语义特征的第三次拼接操作、接收第三次拼接操作输出语义特征的第二GTC3模块;第一次拼接操作用于拼接第一次上采样操作和第三C3模块输出的语义特征;头部模块包括接收第一GTC3模块输出语义特征的第一卷积层、接收第二GTC3模块输出语义特征的第二卷积层以及各自对应的目标检测结果;
所述第一CBS模块、第二CBS模块、第三CBS模块、第四CBS模块、第五CBS模块、第六CBS模块包括依次连接的位置卷积层、批归一化层、SiLU激活函数;
所述第一C3模块、第二C3模块、第三C3模块、第四C3模块、第五C3模块包括两个分支,各个C3模块第一分支包括依次连接的CBS模块、残差单元,各个C3模块第二分支包括卷积层,各个C3模块第一分支和各个C3模块第二分支输出的语义特征通过拼接操作生成各个C3模块的输出;所述残差单元包括依次连接的恒等映射、第一个CBS模块、第二个CBS模块和加和操作;
所述快速金字塔池化模块包括依次连接的CBS模块、由恒等映射组成的第一分支、由一个最大池化层组成的第二分支、由两个最大池化层依次相连组成的第三分支、由三个池化层依次相连组成的第四分支、所有分支输出的语义特征通过拼接操作输出到CBS模块后,得到快速金字塔池化模块的输出;
所述第一GTC3模块、第二GTC3模块包括依次连接的第一1×1卷积层分支,第一CBS模块,由依次相连的Ghost module模块、深度可分离卷积层、SEGhost module模块构成的GTC3模块第一分支,恒等映射GTC3模块第二分支,由依次相连的第二CBS模块、多头自注意力模块、卷积层构成的GTC3模块第三分支;GTC3模块第一分支与GTC3模块第二分支在SEGhostmodule模块后进行加和操作后与GTC3模块第三分支输出的语义特征进行拼接操作输出的语义特征经过第二1×1卷积层后与第一1×1卷积层分支输出的语义特征加和后经过第三CBS模块作用后得到各个GTC3模块的输出;
所述Ghost module模块包括依次连接的卷积层模块、由恒等映射组成的Ghost module模块第一分支、由一个深度可分离卷积层组成的Ghost module模块第二分支,Ghostmodule模块第一分支和Ghost module模块第二分支输出的语义特征通过拼接操作得到Ghost module模块的输出;
所述SEGhost module模块包括依次连接的卷积层模块、由恒等映射组成的SEGhostmodule模块第一分支、由一个深度可分离卷积层组成的SEGhost module模块第二分支,SEGhost module模块第一分支和SEGhost module模块第二分支通过拼接操作后经过依次相连的全局池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数,经作用后与SEGhost module模块第一分支和SEGhost module模块第二分支通过拼接操作后输出的语义特征相乘得到SEGhost module模块的输出。
3.根据权利要求1或2所述的多Agent协作粉体能源物料传输控制系统,其特征在于,所述粉体能源物料料堆三维重建及质量计算模块通过自制粉体能源物料料堆三维重建数据集进行训练,用以对粉体能源物料堆场中的粉体能源物料料堆进行三维重建生成料堆RGB图像,计算料堆RGB图像对应的体积元素空间模型,利用辅助参照物得到单个体积元素的实际体积进而得到料堆体积;取料前将每个料堆的时间戳记为tt并存储在总控上位机中;
自制粉体能源物料料堆三维重建数据集为利用车载RGB摄像头采集的粉体能源物料料堆RGB图像、粉体能源物料料堆RGB图像对应的三维CAD模型;
所述辅助参照物为一已知体积的圆锥状物体,放置于各粉体能源物料料堆预设的能被探测单元探测的位置处;
所述改进的3D-R2N2网络模型,包括编码器模块、三维卷积-长短期记忆模块、解码器模块;
编码器模块包括依次连接的快速空间金字塔池化模块、恒等映射、第一残差模块、第一个1×1卷积层、恒等映射、第二残差模块、第一语义特征融合模块、第三残差模块、第二语义特征融合模块、多头自注意力模块、第四残差模块和第五残差模块;三维卷积-长短期记忆模块包括依次相连的全连接层和三维卷积-长短期记忆层;解码器模块包括依次连接的第六残差模块、第七残差模块、第八残差模块、第九残差模块和3×3×3卷积层;解码器模块的输出经三维归一化指数函数作用后生成分割图;
快速空间金字塔池化模块包括四个分支,其中快速空间金字塔池化模块第一分支包括3×3池化操作,快速空间金字塔池化模块第二分支包括两个依次相连的3×3池化操作,快速空间金字塔池化模块第三分支包括三个依次相连的3×3池化操作,快速空间金字塔池化模块第四分支是恒等映射分支,快速空间金字塔池化模块中的四个分支通过拼接操作输出快速空间金字塔池化结果;
所述第一残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、3×3卷积层、加和操作、池化操作;
所述第二残差模块和第三残差模块均包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作;
所述多头自注意力模块包括依次连接的3×3可分离卷积层、多头自注意力结构、1×1卷积层;
所述第四残差模块包括依次连接的池化操作、恒等映射、3×3可分离卷积层、3×3卷积层、加和模块;
所述第五残差模块、第六残差模块和第七残差模块均包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块;
所述第八残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、3×3×3卷积层、加和模块;
第一语义特征融合模块和第二语义特征融合模块均有两个输入分支,分别接收粉体能源物料堆场状态的浅层语义特征和深层语义特征,分别经过平均池化后经拼接操作得到一个语义特征向量、随后依次经过池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数后得到系数η和1-η,分别与浅层语义特征和深层语义特征相乘,与浅层语义特征和一个小于0.5的系数
Figure FDA0004228035560000051
相乘得到的结果拼接后,经1×1卷积操作得到输出结果。
4.根据权利要求3所述的多Agent协作粉体能源物料传输控制系统,其特征在于,所述强化学习预训练模块使用预先采集的粉体能源物料气力传输车规范行驶的经验样本集(sgt,agt,rgt,sgt+1)p作为专家经验数据集,对MADDPG算法进行预训练,将未戴安全帽、反光马甲或行为异常的人体目标标记出来的新的视频帧Io、已传输物料的质量M和料堆堆放时间tl输入经预训练的MADDPG算法,获得MADDPG算法的损失函数值,优化MADDPG算法参数;其中,sgt是各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,agt是行驶动作和气力传输系统启停指令,sgt+1是新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,rgt是本次行驶动作指令的奖励值;
所述决策控制模块根据MADDPG算法获取的损失函数值和优化MADDPG算法参数在多智能体强化学习仿真试验台仿真环境中迭代获得离线决策模型;对离线决策模型在真实环境中进行迭代获得最终决策模型,根据粉体能源物料堆场环境进行推理决策。
5.一种多Agent协作粉体能源物料传输控制方法,其特征在于,包括以下步骤:
S1:将每个料堆开始堆放时的时间戳记为起始时间戳ty,取料前每个料堆的时间戳记为tt,使用公式tl=tt-ty计算出料堆堆放时间tl;使用预先采集的粉体能源物料气力传输车规范行驶动作的经验样本集(sgt,agt,rgt,sgt+1)p作为专家经验数据集,对MADDPG算法进行预训练直至达到设定的最大迭代次数n1或MADDPG算法收敛为止;其中,sgt是各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,agt是行驶动作和气力传输系统启停指令,sgt+1是新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,rgt是本次行驶动作指令的奖励值;利用车载RGB摄像头采集粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧I1,输入到非法闯入人员及违规操作检测模块,该非法闯入人员及违规操作检测模块为使用非法闯入人员及违规操作数据集训练过的改进的YOLOv5n网络模型,输出新的视频帧Io,其包括检测到的未戴安全帽、未着反光马甲和行为异常的人员目标标记;当作业区域内无未戴安全帽、未着反光马甲或行为异常的人员或未戴安全帽、未着反光马甲或行为异常的人员未在作业区域内,进行下一步;当作业区域内有未戴安全帽、未着反光马甲或行为异常的人员,报警;
S2:粉体能源物料料堆三维重建及质量计算;采集不同堆场环境下粉体能源物料料堆RGB图像并利用SolidWorks软件建立粉体能源物料料堆RGB图像对应的三维CAD模型,建立自制粉体能源物料料堆三维重建数据集,采用自制粉体能源物料料堆三维重建数据集对改进的3D-R2N2网络模型进行训练,将利用车载RGB摄像头采集的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧I1输入经过训练的改进的3D-R2N2网络模型得到体积元素空间模型
Figure FDA0004228035560000061
通过测量已知体积为vb的参照物β的体积元素的个数no计算出单个体积元素的体积/>
Figure FDA0004228035560000071
通过体积元素空间模型/>
Figure FDA0004228035560000072
体积元素的个数n计算出粉体能源物料料堆的起始体积V=nvd;在粉体能源物料传输过程中持续测量每个粉体能源物料料堆的当前体积V1,测得已传输物料的体积Vt=V-V1;根据粉体物料的密度ρ计算出已传输物料的质量Mf=ρVt;其中,N为粉体能源物料气力传输车的数目,已传输物料的总质量M=M1+M2+…+MN
S3:设有h个料堆,将已传输物料的总质量M,各个料堆堆放时间tl1、tl2…tlh,检测到的各个粉体能源物料气力传输车的将未戴安全帽、未着反光马甲或行为异常的人体目标标记出来的新的视频帧Io作为各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态st,输入到经过预训练的MADDPG算法中;当已传输物料的总质量M达到期望值Mq时,停止粉体能源物料的传输;经过预训练的MADDPG算法依据状态st从其动作空间中选择对应的行驶动作和气力传输系统启停指令at并输出,经行驶动作和气力传输系统启停指令at后形成新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态st+1,通过奖励函数计算本次驾驶动作指令的奖励值rt,并将st、行驶动作和气力传输系统启停指令at、本次行驶动作指令的奖励值rt和新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态st+1作为转移样本(st,at,rt,st+1)存入经验回放缓存池中;从经验回放缓存池中随机抽取转移样本,计算MADDPG算法的损失函数值L和优化MADDPG算法参数w,料堆取料概率优先级为
Figure FDA0004228035560000073
其中h是料堆总数;
S4:在经过生成对抗网络辅助生成的多智能体强化学习仿真试验台仿真环境中重复步骤S3直至达到设定的最大迭代次数n2或者算法收敛为止,生成离线决策模型π1;在真实环境中重复步骤S3,对离线决策模型π1进行更新直至迭代次数达到n3或者算法收敛为止,生成最终决策模型π2
S5:利用最终决策模型π2进行实车推理决策。
6.根据权利要求5所述的多Agent协作粉体能源物料传输控制方法,其特征在于,所述步骤S2,具体包括以下步骤:
S2.1.1:利用车载RGB摄像头采集各种粉体能源物料料堆环境下粉体能源物料料堆的RGB图像;
S2.1.2:使用SolidWorks软件建立粉体能源物料料堆的RGB图像对应的三维CAD模型;
S2.1.3:将粉体能源物料料堆的RGB图像及其对应的三维CAD模型作为一个样本,按照比例
Figure FDA00042280355600000810
将所有样本随机划分为训练集与测试集;
S2.2.1:使用2D卷积网络结构2D-CNN作为编码器对各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧I1进行特征提取和编码为低维特征向量T(I1)作为编码输入;
S2.2.2:将低维特征向量T(I1)送入作为中间结构的3D-LSTM单元得到三维网格结构;
S2.2.3:将三维网格结构输入解码器3D反卷积网络,并将体积元素转换成三维概率矩阵;通过三维概率矩阵进行像素重建生成体积元素空间模型
Figure FDA0004228035560000081
7.根据权利要求5或6所述的多Agent协作粉体能源物料传输控制方法,其特征在于,所述步骤S3具体为:
S3.1、随机初始化每个粉体能源物料气力传输车的策略网络
Figure FDA0004228035560000082
和策略网络参数/>
Figure FDA0004228035560000083
评估网络/>
Figure FDA0004228035560000084
和评估网络参数/>
Figure FDA0004228035560000085
其中a1,a2,…,aN为每一个粉体能源物料气力传输车在粉体能源物料堆场环境状态对应采取的气力传输系统启停指令动作;o为每个粉体能源物料气力传输车各自的状态;随机初始化每个粉体能源物料气力传输车的目标策略网络/>
Figure FDA0004228035560000086
和目标策略网络参数/>
Figure FDA0004228035560000087
目标评估网络
Figure FDA0004228035560000088
和目标评估网络参数/>
Figure FDA0004228035560000089
初始化每个粉体能源物料气力传输车的经验回放缓存池Ri和动作探索噪声Ωt;初始化各个粉体能源物料气力传输车前方粉体能源物料堆场环境和所有粉体能源物料气力传输车状态集合;
S3.2、对每一个粉体能源物料气力传输车i执行以下步骤:
S3.2.1根据当前粉体能源物料气力传输车的观察状态、策略网络和噪声探索策略选择动作
Figure FDA0004228035560000091
其中j为时间步序号;
S3.2.2粉体能源物料气力传输车i执行当前动作
Figure FDA0004228035560000092
得到下一状态/>
Figure FDA0004228035560000093
和奖励ri j,并且将经验/>
Figure FDA0004228035560000094
存入经验回放缓存池Ri,其中j为时间步序号;
S3.3、每执行Z步,对每个粉体能源物料气力传输车,按照以下步骤训练神经网络:
S3.3.1根据
Loss=(y-Qπ(s,a1,a2,...,aN))2
Figure FDA0004228035560000095
计算当前粉体能源物料气力传输车Z步经验的策略损失,其中,Qπ为采取策略π时评估网络的值,Qπ′为采取策略π时目标评估网络的值,γ是衰减因子;
S3.3.2从经验回放缓存池Ri中随机抽取小批次的经验,包含K个经验;
S3.3.3通过目标评估网络计算每个经验动作期望回报:
yj=rj+γQ′(sj+1,a′1,a′2,...,a′N,θQ′)
S3.3.4最小化损失以更新评估网络参数:
Figure FDA0004228035560000096
其中,L表示Loss损失函数;
S3.3.5通过以下梯度更新当前智能体的策略网络参数:
Figure FDA0004228035560000101
其中,
Figure FDA0004228035560000102
表示在策略网络参数θπ下的策略梯度,/>
Figure FDA0004228035560000103
和/>
Figure FDA0004228035560000104
分别表示评估网络状态-动作值函数梯度和策略网络函数的梯度,K表示随机抽取小批次的经验样本数量;
S3.4、每执行B步,对每个智能体,按照以下公式更新目标策略网络和目标评估网络参数:
Figure FDA0004228035560000105
其中,τ是软更新比例系数;
S3.5:循环运行步骤S3.2-S3.4直至达到最大迭代次数或者算法收敛为止。
8.根据权利要求7所述的多Agent协作粉体能源物料传输控制方法,其特征在于,所述步骤S3中,总奖励函数r包括料堆距离奖励函数r1、安全距离奖励函数r2、避免气力传输管道损坏奖励函数r3、速度奖励函数r4,具体为:
料堆距离奖励函数r1和安全距离奖励函数r2,如式(1)所示:
Figure FDA0004228035560000106
其中,k1、k2为常数;Δs为粉体能源物料气力传输车吸嘴距离料堆的间距;Δd为粉体能源物料气力传输车周围车辆、障碍物与粉体能源物料气力传输车的间距,Δs、Δd均由粉体能源物料气力传输车传感器计算获取;
避免气力传输管道损坏奖励函数r3,如式(2)所示:
Figure FDA0004228035560000107
其中,k3是常数,过度拉伸指:
Figure FDA0004228035560000111
速度奖励函数r4,如式(3)所示:
r4=-k4|Ξ-Ξmax| (3)
其中,k4是常数,Ξmax为粉体能源物料气力传输车允许行驶的最高时速,Ξ为粉体能源物料气力传输车当前行驶时速,单位均为km/h;
总奖励函数r,如式(4)所示:
r=r1+r2+r3+r4 (4)。
9.根据权利要求8所述的多Agent协作粉体能源物料传输控制方法,其特征在于,所述步骤S4中,具体包括步骤如下:
S4.1.1:对用于训练粉体能源物料气力传输车的粉体能源物料堆场环境使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape,对反映真实环境中不可移动物体的位置和形状进行三维建模;
S4.1.2:对粉体能源物料气力传输车的轮廓坐标进行界定;
S4.1.3:在训练过程中,根据粉体能源物料气力传输车位置状态、车轮速度、行驶方向计算得出粉体能源物料气力传输车新的位置状态,使得车轮的动作空间、状态空间和总奖励函数r与在真实粉体能源物料堆场环境中进行训练时相同,车轮运行的介质为真实粉体能源物料堆场环境中车轮运行的介质;输入图片均是真实粉体能源物料气力传输车车载摄像头拍摄的根据车轮动作而变化的视频帧,与真实训练环境中粉体能源物料气力传输车探测单元探测到的视频帧相同,其余各部件的运行机理与正常粉体能源物料气力传输车相同,各项物理参数与真实环境相同;
S4.2:使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape进行三维建模;
S4.2.1:采用椭球形状作为初始形状,并使用各种随机采样的视角和光照条件渲染大量非自然的粉体能源物料堆场环境RGB图像;
S4.2.2:用预训练的生成对抗网络对粉体能源物料堆场环境RGB图像进行重建,得到其在生成对抗网络图像空间的投影,即投影样本;投影样本有与粉粉体能源物料堆场环境RGB图像同种类型的视角与光照,同时生成对抗网络的生成特性将投影样本约束在真实图像空间中,从而消除粉体能源物料堆场环境RGB图像中不真实的畸变与光影;
S4.2.3:将投影样本作为渲染步骤的学习目标真实值,优化三维粉体能源物料堆场环境;
S4.2.4:用优化后的三维粉体能源物料堆场环境作为初始形状再重复步骤S4.2.1-S4.2.3,迭代多次,直至网络收敛。
CN202310109468.3A 2023-02-14 2023-02-14 一种多Agent协作粉体能源物料传输控制系统、方法及介质 Active CN116027670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310109468.3A CN116027670B (zh) 2023-02-14 2023-02-14 一种多Agent协作粉体能源物料传输控制系统、方法及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310109468.3A CN116027670B (zh) 2023-02-14 2023-02-14 一种多Agent协作粉体能源物料传输控制系统、方法及介质

Publications (2)

Publication Number Publication Date
CN116027670A CN116027670A (zh) 2023-04-28
CN116027670B true CN116027670B (zh) 2023-06-16

Family

ID=86073894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310109468.3A Active CN116027670B (zh) 2023-02-14 2023-02-14 一种多Agent协作粉体能源物料传输控制系统、方法及介质

Country Status (1)

Country Link
CN (1) CN116027670B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN215612288U (zh) * 2021-09-18 2022-01-25 广东道氏技术股份有限公司 一种球磨机制粉系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11326008A (ja) * 1998-05-19 1999-11-26 Nippon Steel Corp 流体中の粉体の3次元空間分布の立体像および当該分布の3次元移動速度分布の簡易再構築装置
CN101229525B (zh) * 2008-02-27 2010-06-02 东南大学 雷蒙磨粉碎自动控制方法及其装置
JP6198482B2 (ja) * 2013-06-26 2017-09-20 株式会社カワタ 気力輸送装置および気力輸送方法
CN106429452A (zh) * 2016-12-21 2017-02-22 浙江智的智能装备技术有限公司 一种粉体助剂密相气力输送系统
CN109948642B (zh) * 2019-01-18 2023-03-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN114936783B (zh) * 2022-06-02 2023-01-17 暨南大学 一种基于mmddpg算法的rgv小车调度方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN215612288U (zh) * 2021-09-18 2022-01-25 广东道氏技术股份有限公司 一种球磨机制粉系统

Also Published As

Publication number Publication date
CN116027670A (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN114384920B (zh) 一种基于局部栅格地图实时构建的动态避障方法
CN113033119B (zh) 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN109726627A (zh) 一种神经网络模型训练及通用接地线的检测方法
CN110956154A (zh) 一种基于cnn-lstm的振动信息地形分类识别方法
Zhang et al. Visual SLAM for underwater vehicles: A survey
CN104180818A (zh) 一种单目视觉里程计算装置
CN110281949B (zh) 一种自动驾驶统一分层决策方法
CN110097599B (zh) 一种基于部件模型表达的工件位姿估计方法
CN110969064A (zh) 一种基于单目视觉的图像检测方法、装置及存储设备
CN111028238A (zh) 一种基于机器人视觉的复杂异形曲面三维分割方法及系统
CN113033118A (zh) 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法
CN112258565A (zh) 图像处理方法以及装置
Zobeidi et al. Dense incremental metric-semantic mapping via sparse gaussian process regression
CN114842340A (zh) 一种机器人双目立体视觉障碍物感知方法与系统
CN116027670B (zh) 一种多Agent协作粉体能源物料传输控制系统、方法及介质
Šalanský et al. Pose consistency kkt-loss for weakly supervised learning of robot-terrain interaction model
Lee Deep learning of submerged body images from 2D sonar sensor based on convolutional neural network
Kuan et al. Pothole detection and avoidance via deep learning on edge devices
Chuixin et al. AGV robot based on computer vision and deep learning
CN114620059A (zh) 一种自动驾驶方法及其系统、计算机可读存储介质
Shankar Neural network based hurdle avoidance system for smart vehicles
CN114708568B (zh) 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质
CN116863371A (zh) 一种基于深度学习的agv叉车货物托盘位姿识别方法
CN114594768B (zh) 一种基于视觉特征图重构的移动机器人导航决策方法
Yildiz et al. CNN based sensor fusion method for real-time autonomous robotics systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant