CN116027670B - 一种多Agent协作粉体能源物料传输控制系统、方法及介质 - Google Patents
一种多Agent协作粉体能源物料传输控制系统、方法及介质 Download PDFInfo
- Publication number
- CN116027670B CN116027670B CN202310109468.3A CN202310109468A CN116027670B CN 116027670 B CN116027670 B CN 116027670B CN 202310109468 A CN202310109468 A CN 202310109468A CN 116027670 B CN116027670 B CN 116027670B
- Authority
- CN
- China
- Prior art keywords
- module
- energy material
- powder energy
- powder
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims abstract description 418
- 239000000843 powder Substances 0.000 title claims abstract description 361
- 230000005540 biological transmission Effects 0.000 title claims abstract description 215
- 239000003795 chemical substances by application Substances 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 230000002787 reinforcement Effects 0.000 claims abstract description 32
- 238000004088 simulation Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims description 65
- 230000006870 function Effects 0.000 claims description 61
- 238000003860 storage Methods 0.000 claims description 53
- 230000009471 action Effects 0.000 claims description 43
- 238000013507 mapping Methods 0.000 claims description 42
- 238000011156 evaluation Methods 0.000 claims description 24
- 230000007613 environmental effect Effects 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 20
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 8
- 238000005286 illumination Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000009877 rendering Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008485 antagonism Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000007599 discharging Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 claims 1
- 238000007493 shaping process Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 6
- 239000000428 dust Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000010426 asphalt Substances 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 208000028571 Occupational disease Diseases 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 208000030961 allergic reaction Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000002817 coal dust Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 206010035653 pneumoconiosis Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于粉体能源物料的传输与控制领域,公开了一种多Agent协作粉体能源物料传输控制系统、方法及介质。非法闯入人员及违规操作检测模块采用了使用自制数据集训练和改进的YOLOv5n网络模型,检测到非法闯入人员或违规操作时报警;三维重建及质量计算模块采用了使用自制数据集训练和改进的3D‑R2N2网络模型,实现料堆RGB图像对应的体积元素空间模型的生成,利用辅助参照物得到单个体积元素的体积进而得到料堆体积,并计算出已传输物料的质量,从而提高粉体能源物料传输控制系统的可靠性。通过在多智能体强化学习仿真试验台和真实环境中训练MADDPG算法,使得粉体能源物料传输控制系统逐步达到人类可接受的传输水平。
Description
技术领域
本发明涉及粉体能源物料传输与控制领域,特别是涉及一种多Agent协作粉体能源物料传输控制系统、方法及介质。
背景技术
随着全球粉体能源整体需求的持续增长和现代科学技术的不断进步,粉体能源物料传输控制技术作为战略性新兴产业的一个重要组成部分正在世界范围内迅速发展。多Agent强化学习技术在人民的生产和生活中得到了广泛的普及,多Agent强化学习技术通过编队控制、任务规划、路径规划、感知避障及动态自组织网络通信等关键技术,实现多Agent的智能协作控制,将大而复杂的系统改造成小的、彼此互相通信和协调的、易于管理的系统,进而并行地处理复杂的多个任务,提高算法的执行效率。将多Agent强化学习技术与粉体能源物料传输控制技术结合,能够大大提高粉体能源物料传输控制系统的自动化水平和工作效率,但是,如何更好地实现基于多Agent协作的粉体能源物料传输控制系统和装置仍是粉体能源物料的传输与控制领域的一个热点问题,得到了国内外研究人员十分广泛的关注。
实际生产环境中,在煤粉等粉体能源物料堆场里往往漂浮着大量的粉尘,极易遮挡运输车辆驾驶员的视线从而引起交通事故;容易引起尘肺、变态过敏反应等职业病的发生;对防火防爆、禁火禁烟有着极为严格的管理要求;另外,人力装卸效率较低,劳动强度大,因此粉体能源物料堆场环境的无人化、智能化势在必行。目前大多数粉体能源物料传输控制系统都是在多种昂贵传感器提供的外界环境的相关信息的基础上使用传统控制方法控制的,孙珊珊的“粉体稠密气力输送研究”中使用传统控制方法对单Agent进行单目标决策,这种方法存在运营经济性不高和传输效率较低的问题,无法应用于大批量粉体能源物料的快速分类传输。目前大多数粉体能源物料传输控制系统中粉体能源的传输往往是按需进行的,其需求具有很强的不规律性,时断时续的情况比较普遍,会因系统空转带来大量的电能消耗,效率极其低下。传统粉体能源物料传输控制系统一般是在建立外界环境和物料传输过程的近似数学模型的基础上设计控制器进行控制,对模型的数学建模具有依赖性,由于外界环境和粉体能源物料传输过程中的各种影响因素无法全部地考虑,所以很难精确地建模和控制。传统物料传输控制系统没有考虑到粉体能源物料在长期存放时产生的损耗、自燃等问题;这些问题大大影响了物料传输控制系统的经济性、实用性和可靠性。
发明内容
本发明主要解决的技术问题是传统粉体能源物料传输控制系统在粉体能源物料堆场环境中传输效果不佳的问题,提出了一种多Agent协作粉体能源物料传输控制系统、方法及介质,基于改进的3D-R2N2和改进的YOLOv5n实现。首先,采用RGB相机对外界环境进行感知,其次,采用多Agent深度强化学习方法代替传统的控制方法,提高了物料传输控制系统的经济性、实用性和可靠性。另外,本发明还加入非法闯入人员及违规操作检测功能和优先传输呆滞粉体能源物料的设定,提高了粉体能源物料传输控制系统的安全性。本发明使用深度学习三维重建的方式代替传统称重系统计算粉体能源物料的质量,简化了物料传输控制系统的机械结构,提高了物料传输控制系统的可靠性。本发明使用密闭的气力传输方式代替传统的皮带传输方式从而减少粉体能源物料堆场的粉尘污染,有效传输距离可达500米,完全可以在崎岖复杂的地形下长距离大运力传输粉体能源物料。本发明在粉体能源物料堆场环境中的应用具有极大的实际应用价值与现实意义,大大提高了粉体能源物料传输的自动化程度,节省了人工成本,很大程度上提高了粉体能源物料传输的效率。
本发明为了达到上述目的采用的技术方案是:一种多Agent协作粉体能源物料传输控制系统,包括探测单元、气力传输系统、总控上位机和车载下位机;
探测单元布置在各个粉体能源物料气力传输车预设的探测位置处,采用车载RGB摄像头采集各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的RGB视频;
气力传输系统的入料口吸嘴布置在各个粉体能源物料气力传输车预设位置处,气力传输系统其余部件布置在物料出料口预设位置处,采用吸送式气力传输装置采集物料并通过柔性可伸缩管道传输到物料出料口;吸送式气力传输装置包括吸嘴、分离器、风机、除尘器、消声器等部件;车载下位机安装于粉体能源物料气力传输车上,其嵌入自动行驶粉体能源物料气力传输车控制程序,自动行驶粉体能源物料气力传输车控制程序包括非法闯入人员及违规操作检测模块、粉体能源物料料堆三维重建及质量计算模块、决策控制模块,用于控制多Agent协作粉体能源物料的传输;非法闯入人员及违规操作检测模块采用改进的YOLOv5n网络模型;粉体能源物料料堆三维重建及质量计算模块采用改进的3D-R2N2网络模型;
总控上位机嵌入自动行驶粉体能源物料气力传输车预训练程序,自动行驶粉体能源物料气力传输车预训练程序包括强化学习预训练模块,用于预训练MADDPG算法;总控上位机与多个车载下位机建立联系。
所述非法闯入人员及违规操作检测模块中使用自制非法闯入人员及违规操作数据集,对改进的YOLOv5n网络模型进行训练,将划定界限的监控区域范围内各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的RGB视频的原始视频帧输入已训练的改进的YOLOv5n网络模型,对各个粉体能源物料气力传输车前方的环境进行目标检测,将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来得到新的视频帧;
自制非法闯入人员及违规操作数据集为利用车载RGB摄像头采集的非法闯入人员RGB图像或违规操作的原始视频帧、以及该原始视频帧进行标签标定后的原始视频帧;
所述改进的YOLOv5n网络模型,包括骨干模块、瓶颈模块、头部模块;
骨干模块包括依次连接的第一卷积层、第一CBS模块、第一C3模块、第二CBS模块、第二C3模块、第三CBS模块、第三C3模块、第四CBS模块和快速金字塔池化模块;瓶颈模块包括依次连接的第四C3模块、第五CBS模块、第一次上采样操作、第一次拼接操作、第五C3模块和第六CBS模块以及第二次上采样操作、第二次拼接操作、第一GTC3模块、接收第一GTC3模块输出语义特征的第七CBS模块、接收第七CBS模块和第六CBS模块输出语义特征的第三次拼接操作、接收第三次拼接操作输出语义特征的第二GTC3模块;第一次拼接操作用于拼接第一次上采样操作和第三C3模块输出的语义特征;头部模块包括接收第一GTC3模块输出语义特征的第一卷积层、接收第二GTC3模块输出语义特征的第二卷积层以及各自对应的目标检测结果;
所述每个C3模块包括两个分支,其中第一分支包括依次连接的CBS模块、残差单元,第二分支包括卷积层,第一分支和第二分支输出的语义特征通过拼接操作生成各个C3模块的输出;所述残差单元包括依次连接的恒等映射、第一个CBS模块、第二个CBS模块、加和操作;
所述快速金字塔池化模块包括依次连接的CBS模块、由恒等映射组成的第一分支、由一个最大池化层组成的第二分支、由两个最大池化层依次相连组成的第三分支、由三个池化层依次相连组成的第四分支、所有分支输出的语义特征通过拼接操作输出到CBS模块后,得到快速金字塔池化模块的输出;
所述每个GTC3模块包括依次连接的第一1×1卷积层分支,第一CBS模块,由依次相连的Ghost module模块、深度可分离卷积层、SEGhost module模块构成的第一分支,恒等映射第二分支,由依次相连的第二CBS模块、多头自注意力模块、卷积层构成的第三分支;第一分支与第二分支在SEGhost module模块后进行加和操作后与第三分支输出的语义特征进行拼接操作输出的语义特征经过第二1×1卷积层后与第一1×1卷积层分支输出的语义特征加和后经过第三CBS模块作用后得到各个GTC3模块的输出;
所述Ghost module模块包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积层组成的第二分支、第一分支和第二分支输出的语义特征通过拼接操作得到Ghost module模块的输出;
所述SEGhost module模块包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积层组成的第二分支、第一分支和第二分支通过拼接操作后经过依次相连的全局池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数作用后与第一分支和第二分支通过拼接操作后输出的语义特征相乘得到SEGhost module模块的输出。
所述粉体能源物料料堆三维重建及质量计算模块通过自制粉体能源物料料堆三维重建数据集进行训练,用以对粉体能源物料堆场中的粉体能源物料料堆进行三维重建生成料堆RGB图像,计算料堆RGB图像对应的体积元素空间模型,利用辅助参照物得到单个体积元素的实际体积进而得到料堆体积;取料前将每个料堆的时间戳记为并存储在总控上位机中;
自制粉体能源物料料堆三维重建数据集为利用车载RGB摄像头采集的粉体能源物料料堆RGB图像、粉体能源物料料堆RGB图像对应的三维CAD模型;
所述辅助参照物为一已知体积的圆锥状物体,放置于各粉体能源物料料堆预设的能被探测单元探测的位置处;
所述改进的3D-R2N2网络模型,包括编码器模块、三维卷积-长短期记忆模块、解码器模块;
编码器模块包括依次连接的快速空间金字塔池化模块、恒等映射、第一残差模块、第一个1×1卷积层、恒等映射、第二残差模块、第一语义特征融合模块、第三残差模块、第二语义特征融合模块、多头自注意力模块、第四残差模块和第五残差模块;三维卷积-长短期记忆模块包括依次相连的全连接层和三维卷积-长短期记忆层;解码器模块包括依次连接的第六残差模块、第七残差模块、第八残差模块、第九残差模块和3×3×3卷积层;解码器模块的输出经三维归一化指数函数作用后生成分割图;
快速空间金字塔池化模块包括四个分支,其中第一分支包括3×3池化操作,第二分支包括两个依次相连的3×3池化操作,第三分支包括三个依次相连的3×3池化操作,第四分支是恒等映射分支,快速空间金字塔池化模块中的第一分支、第二分支、第三分支、第四分支通过拼接操作输出快速空间金字塔池化结果;
所述第一残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、3×3卷积层、加和操作、池化操作;
所述第二残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作;
所述第三残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作;
所述多头自注意力模块包括依次连接的3×3可分离卷积层、多头自注意力结构、1×1卷积层;
所述第四残差模块包括依次连接的池化操作、恒等映射、3×3可分离卷积层、3×3卷积层、加和模块;
所述第五残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块;
所述第六残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块;
所述第七残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块;
所述第八残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、3×3×3卷积层、加和模块;
第一语义特征融合模块和第二语义特征融合模块均有两个输入分支,分别接收粉体能源物料堆场状态的浅层语义特征和深层语义特征,分别经过平均池化后经拼接操作得到一个语义特征向量、随后依次经过池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数后得到系数和1-/>,分别与浅层语义特征和深层语义特征相乘,与浅层语义特征和一个小于0.5的系数/>相乘得到的结果拼接后,经1×1卷积操作得到输出结果。
所述强化学习预训练模块使用预先采集的规范行驶的经验样本集作为专家经验数据集,对MADDPG算法进行预训练,将各个粉体能源物料气力传输车前方环境状态的RGB视频输入经预训练的改进的YOLOv5n网络模型后输出的未戴安全帽、反光马甲或行为异常的人体目标标记出来的新的视频帧/>、已传输物料的质量/>和料堆堆放时间/>输入经预训练的MADDPG算法,获得MADDPG算法的损失函数值,优化MADDPG算法参数;其中,/>是各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,/>是行驶动作和气力传输系统启停指令,/>是新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,/>是本次行驶动作指令的奖励值;
所述决策控制模块根据MADDPG算法获取的损失函数值和优化MADDPG算法参数在多智能体强化学习仿真试验台仿真环境中迭代获得离线决策模型;对离线决策模型在真实环境中进行迭代获得最终决策模型,根据粉体能源物料堆场环境进行推理决策。
一种多Agent协作粉体能源物料传输控制方法,包括以下步骤:
S1:将每个料堆开始堆放时的时间戳记为起始时间戳,取料前每个料堆的时间戳记为/>,使用公式/>计算出料堆堆放时间/>;使用预先采集的粉体能源物料气力传输车规范行驶动作的经验样本集/>作为专家经验数据集,对MADDPG算法进行预训练直至达到设定的最大迭代次数/>或MADDPG算法收敛为止;利用车载RGB摄像头采集粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧,输入到非法闯入人员及违规操作检测模块,该非法闯入人员及违规操作检测模块为使用非法闯入人员及违规操作数据集训练过的改进的YOLOv5n网络模型,输出新的视频帧/>,其包括检测到的未戴安全帽、未着反光马甲和行为异常的人员目标标记;当作业区域内无未戴安全帽、未着反光马甲或行为异常的人员或未戴安全帽、未着反光马甲或行为异常的人员未在作业区域内,进行下一步;当作业区域内有未戴安全帽、未着反光马甲或行为异常的人员,报警;
S2:粉体能源物料料堆三维重建及质量计算;采集不同堆场环境下粉体能源物料料堆RGB图像并利用SolidWorks软件建立粉体能源物料料堆RGB图像对应的三维CAD模型,建立自制粉体能源物料料堆三维重建数据集,采用自制粉体能源物料料堆三维重建数据集对改进的3D-R2N2网络模型进行训练,将利用车载RGB摄像头采集的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧输入经过训练的改进的3D-R2N2网络模型得到体积元素空间模型/>,通过测量已知体积为/>的参照物/>的体积元素的个数计算出单个体积元素的体积/>,通过体积元素空间模型/>体积元素的个数计算出粉体能源物料料堆的起始体积/>;在粉体能源物料传输过程中持续测量每个粉体能源物料料堆的当前体积/>,测得已传输物料的体积/>;根据粉体物料的密度/>计算出已传输物料的质量/>;其中,/>为粉体能源物料气力传输车的数目,已传输物料的总质量/>;
S3:设有个料堆,将已传输物料的总质量/>,各个料堆堆放时间/>,检测到的各个粉体能源物料气力传输车的将未戴安全帽、反光马甲或行为异常的人体目标标记出来的新的视频帧/>作为各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>,输入到经过预训练的MADDPG算法中;当已传输物料的总质量/>达到期望值时,停止粉体能源物料的传输;经过预训练的MADDPG算法依据状态/>从其动作空间中选择对应的行驶动作和气力传输系统开关指令/>并输出,经行驶动作和气力传输系统开关指令/>后形成新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,通过奖励函数计算本次驾驶动作指令的奖励值/>,并将状态/>、行驶动作和气力传输系统开关指令/>、本次行驶动作指令的奖励值/>和新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>作为转移样本/>存入经验回放缓存池中;从经验回放缓存池中随机抽取转移样本,计算MADDPG算法的损失函数值/>和优化MADDPG算法参数/>,料堆取料概率优先级为/>,其中/>是料堆总数;
S4:在经过生成对抗网络辅助生成的多智能体强化学习仿真试验台仿真环境中重复步骤S3直至达到设定的最大迭代次数或者算法收敛为止,生成离线决策模型/>;在真实环境中重复步骤S3,对离线决策模型/>进行更新直至迭代次数达到/>或者算法收敛为止,生成最终决策模型/>;
所述步骤S2,具体包括以下步骤:
S2.1.1:利用RGB摄像头采集各种粉体能源物料料堆环境下粉体能源物料料堆的RGB图像;
S2.1.2:使用SolidWorks软件建立粉体能源物料料堆的RGB图像对应的三维CAD模型;
S2.1.3:将粉体能源物料料堆的RGB图像及其对应的三维CAD模型作为一个样本,按照比例φ将所有样本随机划分为训练集与测试集;
S3.1、随机初始化每个粉体能源物料气力传输车的策略网络和策略网络参数/>、评估网络/>和评估网络参数/>,其中为每一个粉体能源物料气力传输车在粉体能源物料堆场环境状态对应采取的气力传输系统启停指令动作;/>为每个粉体能源物料气力传输车各自的状态;随机初始化每个粉体能源物料气力传输车的目标策略网络/>和目标策略网络参数/>、目标评估网络/>和目标评估网络参数/>;初始化每个粉体能源物料气力传输车的经验回放缓存池/>和动作探索噪声/>;初始化各个粉体能源物料气力传输车前方粉体能源物料堆场环境和所有粉体能源物料气力传输车状态集合;
S3.3、每执行Z步,对每个粉体能源物料气力传输车,按照以下步骤训练神经网络:
S3.3.1根据
S3.3.3通过目标评估网络计算每个经验动作期望回报:
S3.3.4最小化损失以更新评估网络参数:
S3.3.5通过以下梯度更新当前智能体的策略网络参数:
S3.4、每执行B步,对每个智能体,按照以下公式更新目标策略网络和目标评估网络参数:
S3.5:循环运行步骤S3.2-S3.4直至达到最大迭代次数或者算法收敛为止。
所述步骤S4中,仿真试验台是一种新型的强化学习训练方式。与目前强化学习多在仿真训练环境中进行强化学习训练完全不同,本申请所述在自动驾驶仿真试验台中进行训练,具体包括步骤如下:
S4.1.1:对用于训练粉体能源物料气力传输车的粉体能源物料堆场环境使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape,对反映真实环境中不可移动物体的位置和形状进行三维建模;
S4.1.2:对粉体能源物料气力传输车的轮廓坐标进行界定;
S4.1.3:在训练过程中,根据粉体能源物料气力传输车位置状态、车轮速度、行驶方向等变量计算得出粉体能源物料气力传输车新的位置状态,使得车轮的动作空间、状态空间和总奖励函数与在真实粉体能源物料堆场环境中进行训练时相同,车轮运行的介质为真实粉体能源物料堆场环境中车轮运行的介质,比如泥土、沙地、沥青等;输入图片均是真实粉体能源物料气力传输车车载摄像头拍摄的根据车轮动作而变化的视频帧,与真实训练环境中粉体能源物料气力传输车探测单元探测到的视频帧相同,其余各部件的运行机理与正常粉体能源物料气力传输车相同,各项物理参数与真实环境相同;同时此仿真试验台不能移动,从而克服强化学习在真实环境中训练时面临的碰撞损害问题;
相对于在仿真训练环境中进行强化学习训练,本发明在一种多智能体强化学习仿真试验台中进行训练具有与真实环境相同的物理环境;相对于在真实环境中进行强化学习训练,本申请所述在多智能体强化学习仿真试验台中进行训练能够避免各个智能体(粉体能源物料气力传输车)与环境中其余物体发生真实碰撞而导致训练成本过高的问题。
S4.2:使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape进行三维建模
S4.2.1:采用椭球形状作为初始形状,并使用各种随机采样的视角和光照条件渲染大量非自然的粉体能源物料堆场环境RGB图像;
S4.2.2:用预训练的生成对抗网络对粉体能源物料堆场环境RGB图像进行重建,得到其在生成对抗网络图像空间的投影,即投影样本;投影样本有与粉粉体能源物料堆场环境RGB图像同种类型的视角与光照,同时生成对抗网络的生成特性将投影样本约束在真实图像空间中,从而消除粉体能源物料堆场环境RGB图像中不真实的畸变与光影;
S4.2.3:将投影样本作为渲染步骤的学习目标真实值,优化三维粉体能源物料堆场环境;由于投影样本中包含了生成对抗网络学得的物体三维信息,因此物体形状会更加准确;
S4.2.4:用优化后的三维粉体能源物料堆场环境作为初始形状再重复步骤S4.2.1- S4.2.3,迭代多次,直至网络收敛。
一种介质,所述介质为计算机可读存储介质,该计算机可读存储介质上存储有基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制程序,其中所述多Agent协作粉体能源物料传输控制程序被处理器执行时,实现所述基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制方法的步骤。
本发明的有益效果:
1、使用多Agent协作粉体能源物料传输控制系统代替传统皮带传输装置对粉体能源物料进行传输,有效克服了皮带传输装置通用性不强、结构复杂、输送线路局限性大、不能够自动取料的缺点,提高了粉体能源的传输效率。
2、为了克服传统控制方法对外界驾驶环境的数学模型依赖性大从而导致控制方法的控制精度低、鲁棒性差的缺点,应用多Agent深度强化学习算法MADDPG,充分利用了真实堆场环境中按照规则在各种状态时行驶的信息来加强自动气力传输车的运动规划和控制。
3、改进YOLOv5n网络模型,从而提高网络模型每秒处理图片数量和检测准确率,减少网络模型的参数数量;使用经过训练的改进YOLOv5n网络模型对RGB摄像头采集的RGB图像中的非法闯入人员进行目标检测,在检测到非法闯入人员及违规操作时报警,提高了系统的安全性。
4、改进3D-R2N2网络模型,从而提高网络模型的交并比指标;为了向总控上位机提供传输粉体能源物料质量的准确信息,将RGB摄像头采集的RGB图像输入改进的3D-R2N2模型进行三维体素建模,再通过参照物体积和体积元素块数量计算出传输粉体能源物料料堆质量,原粉体能源物料料堆质量和现有粉体能源物料料堆质量之差即为传输质量,克服了皮带秤计量不准、零点波动等缺点,采用单视图纯视觉三维重建方法,提高了建模速度和效率,减少了建模成本。
5. 为了避免陈煤自燃、物料受潮等问题造成粉体能源物料的损失,对堆放时间长的料堆赋予较大的优先传输权重,提高了系统的安全性。
6、针对目前没有粉体能源物料料场深度强化学习仿真环境的问题,通过基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape方式生成多种粉体能源物料料场强化学习仿真环境3D模型;
7、设计了一种多智能体强化学习仿真实验台,提出了多层次联合训练方法,分别在试验台和真实环境中训练无人驾驶物料气力传输车。通过无人驾驶物料气力传输车与真实环境直接进行交互,使得误差、延迟和噪声等干扰因素作为环境模型的一部分被MADDPG算法隐式地建模,并在值估计和决策生成过程中被充分地考虑,既能避免强化学习模型对训练数据集的依赖的问题,又提高了算法的训练效率和鲁棒性。
附图说明
图1为本发明实施例提供的多Agent协作粉体能源物料传输控制系统的结构示意图;
图2为本发明实施例提供的多Agent协作粉体能源物料传输控制系统的自制粉体能源物料料堆三维重建数据集中料堆图像的三维重建测试结果;
图3为本发明实施例提供的多Agent协作粉体能源物料传输控制方法的流程示意图;
图4为现有的3D-R2N2网络模型结构图;
图5为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中的改进3D-R2N2网络模型结构图;
图6为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中融合模块示意图;
图7为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中多头自注意力模块示意图;
图8(a)为现有的YOLOv5n网络模型结构图;
图8(b)为图8(a)中CBS模块的具体示意图;
图8(c)为图8(a)中残差单元的具体示意图;
图8(d)为图8(a)中C3模块的具体示意图;
图8(e)为图8(a)中快速金字塔池化的具体示意图;
图9(a)为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络模型结构图;
图9(b)为图9(a)中CBS模块的具体示意图;
图9(c)为图9(a)中残差单元的具体示意图;
图9(d)为图9(a)中C3模块的具体示意图;
图9(e)为图9(a)中快速金字塔池化的具体示意图;
图9(f)为图9(a)中GTC3模块的具体示意图;
图9(g)为图9(a)中SEGhost module的具体示意图;
图9(h)为图9(a)中Ghost module的具体示意图;
图10(a)为本发明实施例提供多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络生成结果图一;
图10(b)为本发明实施例提供多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络生成结果图二;
图10(c)为本发明实施例提供多Agent协作粉体能源物料传输控制系统中改进的YOLOv5n网络生成结果图三;
图11为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中MADDPG算法流程示意图;
图12(a)为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中多智能体强化学习仿真试验台组成示意图;
图12(b)为本发明实施例提供的多Agent协作粉体能源物料传输控制系统中各多智能体强化学习仿真试验台工作方式示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作一步详细描述。
本实施例主要解决的技术问题是传统粉体能源物料传输控制系统在粉体能源物料堆场环境中传输效果不佳的问题,提出了多Agent协作粉体能源物料传输控制系统,基于改进的3D-R2N2和改进的YOLOv5n实现。首先,采用Mobileye 8 摄像头对外界环境进行感知,其次,采用多Agent深度强化学习方法代替传统的控制方法,提高了物料传输控制系统的经济性、实用性和可靠性。另外,本实施例还加入非法闯入人员及违规操作检测装置和优先传输呆滞粉体能源物料的设定,提高了粉体能源物料传输控制系统的安全性。本发明使用深度学习三维重建的方式代替传统称重系统计算粉体能源物料的质量,简化了物料传输控制系统的机械结构,提高了物料传输控制系统的可靠性。本实施例使用密闭的气力传输方式代替传统的皮带传输方式从而减少粉体能源物料堆场的粉尘污染,有效传输距离可达500米,完全可以在崎岖复杂的地形下长距离大运力传输粉体能源物料。本实施例在粉体能源物料堆场环境中的应用具有极大的实际应用价值与现实意义,大大提高了粉体能源物料传输的自动化程度,节省了人工成本,很大程度上提高了粉体能源物料传输的效率。
一种多Agent协作粉体能源物料传输控制系统,如图1所示,包括探测单元、气力输送系统、总控上位机、车载下位机。探测单元布置在各个粉体能源物料气力传输车预设的探测位置处,采用型号为Mobileye 8的车载RGB摄像头采集各个粉体能源物料气力传输车前方环境状态的RGB视频。气力输送系统的入料口吸嘴布置在各个粉体能源物料气力传输车预设的位置处,其余部件布置在物料出料口附近,采用吸送式气力传输装置采集物料并通过柔性可伸缩管道传输到物料出料口。车载下位机安装于粉体能源物料气力传输车上,其嵌入自动行驶粉体能源物料气力传输车控制程序,自动行驶粉体能源物料气力传输车控制程序包括非法闯入人员及违规操作检测模块、粉体能源物料料堆三维重建及质量计算模块、决策控制模块。总控上位机嵌入强化学习模块,实现多Agent协作粉体能源物料传输控制。
非法闯入人员及违规操作检测模块采用改进的YOLOv5n网络模型:使用自制非法闯入人员及违规操作数据集,对改进的YOLOv5n网络模型进行预训练,随后将划定界限的监控区域范围内各个粉体能源物料气力传输车前方环境状态的RGB视频的原始视频帧输入经预训练的改进的YOLOv5n网络模型,对各个粉体能源物料气力传输车的前方环境进行目标检测,将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来得到新的视频帧;如图10(a)、图10(b)、图10(c)分别为改进的YOLOv5n网络模型生成图,分别代表规范操作人员、未戴安全帽或未着反光马甲的人员、行为异常的人员。
由表1可知,本发明提出的改进的YOLOv5n模型相对于现有的YOLOv5n模型在每秒处理图片数量、准确率、mAP@0.5和网络参数数量上均有提高,尤其在准确率和mAP@0.5上具有显著提高,网络参数数量得到了减少;相对于现有的YOLOv5x模型在每秒处理图片数量、准确率、mAP@0.5上均有提高,尤其在每秒处理图片数量上具有显著提高,网络参数数量得到了显著减少。
所述改进的YOLOv5n网络模型基于现有的YOLOv5n网络模型进行改进,现有的YOLOv5n网络模型根据图8(a)所示,图8(b)-图8(e)分别为现有的YOLOv5n网络模型中CBS模块、残差单元、C3模块、快速金字塔池化的具体示意图。
改进的YOLOv5n网络模型如图9(a)所示,其包括骨干模块、瓶颈模块、预测模块;
其中,骨干模块包括依次连接的第一卷积层、第一CBS模块、第一C3模块、第二CBS模块、第二C3模块、第三CBS模块、第三C3模块、第四CBS模块和SPPF模块;瓶颈模块包括依次连接的第四C3模块、第五CBS模块、第一次上采样操作、第一次拼接操作,其中第一次拼接操作拼接第一次上采样操作和第三C3模块输出的语义特征、第五C3模块和第六CBS模块以及第二次上采样操作、第二次拼接操作、第一GTC3模块;接收第一GTC3模块输出特征的第七CBS模块、接收第七CBS模块和第六CBS模块输出语义特征的第三次拼接操作、接收第三次拼接操作输出的第二GTC3模块;头部模块包括接收第一GTC3模块输出特征的第一Conv卷积、接收第二GTC3模块输出语义特征的第二Conv卷积以及各自对应的目标检测结果;CBS模块如图9(b)所示,包括依次连接的位置卷积层CoordConv、批归一化层、SiLU激活函数;C3模块如图9(d)所示,包括两个分支,其中第一分支包括依次连接的CBS模块、残差单元,第二分支包括卷积层,第一分支和第二分支输出的语义特征通过拼接操作生成最终结果;残差单元如图9(c)所示,包括依次连接的恒等映射、第一个CBS模块、第二个CBS模块、加和操作;SPPF模块如图9(d)所示,包括依次连接的CBS模块、由恒等映射组成的第一分支、由一个最大池化层组成的第二分支、由两个最大池化层依次相连组成的第三分支、由三个池化层依次相连组成的第四分支、所有分支输出的语义特征通过拼接操作输出到CBS模块后,得到最终结果;GTC3模块如图9(f)所示,包括依次连接的第一1×1卷积层分支、第一CBS模块、由依次相连的Ghost module模块,深度可分离卷积层,SEGhost module模块构成的第一分支;恒等映射第二分支由依次相连的第二CBS模块,SwinT模块,卷积层构成的第三分支,其中第一分支与第二分支在SEGhost module模块后进行加和操作后与第三分支的输出语义特征进行拼接操作输出的语义特征经过第二1×1卷积层后与第一1×1卷积层分支输出的语义特征加和后经过第三CBS模块作用后输出最终结果;Ghost module模块如图9(h)所示,包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积组成的第二分支、第一分支和第二分支通过拼接操作得到最终结果。
SEGhost module模块如图9(g)所示,包括依次连接的卷积层模块、由恒等映射组成的第一分支、由一个深度可分离卷积组成的第二分支、第一分支和第二分支通过拼接操作后经过依次相连的全局池化操作、全连接层、ReLU激活函数作用、全连接层、Sigmoid激活函数作用后与第一分支和第二分支通过拼接操作后输出的语义特征相乘得到最终结果;
所述自制非法闯入人员及违规操作数据集:利用Mobileye 8 摄像头采集的非法闯入人员或违规操作的原始视频帧、非法闯入人员或违规操作的原始视频帧对应的带有标签的原始视频帧;
所述三维重建及质量计算模块,采用改进的3D-R2N2网络模型:使用自制粉体能源物料料堆三维重建数据集进行训练,用以对粉体能源物料堆场中的料堆RGB图像进行三维重建生成料堆RGB图像对应的体积元素空间模型,本发明实施例提供的多Agent协作粉体能源物料传输控制系统的自制粉体能源物料料堆三维重建数据集中料堆图像的三维重建测试结果如图2所示,利用辅助参照物得到单个体积元素的体积进而得到料堆体积。取料前每个料堆的时间戳记为并存储在总控上位机中。
所述自制粉体能源物料料堆三维重建数据集:利用Mobileye 8 摄像头采集的粉体能源物料料堆RGB图像,粉体能源物料料堆RGB图像对应的三维CAD模型。
所述改进的3D-R2N2网络模型基于现有的3D-R2N2网络模型进行改进,现有的3D-R2N2网络模型如图4所示。改进的3D-R2N2网络模型如图5所示,包括编码器模块、3D-Convolutional LSTM模块、解码器模块;
其中,编码器模块包括依次连接的快速空间金字塔池化模块、恒等映射、第一残差模块、第一个1×1卷积层、恒等映射、第二残差模块、第一语义特征融合模块、第三残差模块、第二语义特征融合模块、MHSA模块、第四残差模块和第五残差模块;3D-Convolutional-LSTM模块包括依次相连的全连接层和3D-LSTM层;解码器模块包括依次连接的第六残差模块、第七残差模块、第八残差模块、第九残差模块和3×3×3卷积层;解码器模块的输出经3DSoftmax层作用后生成分割图;所述快速空间金字塔池化模块SPPF包括四个分支,第一分支包括3×3池化操作,第二分支包括两个依次相连的3×3池化操作,第三分支包括三个依次相连的3×3池化操作,第四分支是恒等映射分支,第一分支、第二分支、第三分支、第四分支通过拼接操作输出快速空间金字塔池化结果。
第一残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、3×3卷积层、加和操作、池化操作;第二残差模块和第二残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作;多头自注意力模块MHSA模块如图7所示,包括依次连接的3×3可分离卷积层、MHSA结构、1×1卷积层;第四残差模块包括依次连接的池化操作、恒等映射、3×3可分离卷积层、3×3卷积层、加和模块;所述第四残差模块包括依次连接的池化操作、恒等映射、3×3可分离卷积层、3×3卷积层、加和模块;所述第五残差模块、第六残差模块和第七残差模块均包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块;所述第八残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、3×3×3卷积层、加和模块;第一语义特征融合模块和第二语义特征融合模块如图6所示,均有两个输入分支,分别接收粉体能源物料堆场状态的浅层语义特征和深层语义特征,分别经过平均池化后经拼接操作得到一个语义特征向量、随后依次经过池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数后得到系数和1-/>,分别与浅层语义特征和深层语义特征相乘,与浅层语义特征和一个小于0.5的系数/>相乘得到的结果拼接后,经1×1卷积操作得到输出结果。
强化学习预训练模块使用预先采集的规范行驶的经验样本集作为专家经验数据集,对MADDPG算法进行预训练,将各个粉体能源物料气力传输车前方环境状态的RGB图像输入经预训练的改进的YOLOv5n网络模型后输出的将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来的新的视频帧、已传输物料的质量/>、取料前每个料堆的时间戳记为/>输入经预训练的MADDPG算法,获得MADDPG算法的损失函数值,优化MADDPG模型参数;
决策模块根据MADDPG算法获取的损失函数值和优化MADDPG算法参数在自动行驶仿真实验台环境中迭代获得离线决策模型;对离线决策模型在真实环境中进行迭代获得最终决策模型,根据粉体能源物料堆场环境进行推理决策。
一种多Agent协作粉体能源物料传输控制方法,如图3所示,包括以下步骤:
S1:将每个料堆堆放时的时间戳记为起始时间戳,取料前每个料堆的时间戳记为/>,使用公式/>计算出料堆堆放时间/>。使用预先采集的规范行驶的经验样本集/>作为专家经验数据集,对MADDPG算法进行预训练直至达到设定的最大迭代次数/>或算法收敛为止;其中,/>是各个粉体能源物料气力传输车前方环境状态,/>是行驶动作指令,/>是新的各个粉体能源物料气力传输车前方环境状态,/>是本次行驶动作指令的奖励值;利用车载RGB摄像头采集粉体能源物料气力传输车前方环境状态的视频帧/>,输入到使用非法闯入人员及违规操作数据集预先训练的改进的YOLOv5n网络模型即用以进行非法闯入人员及违规操作的非法闯入人员及违规操作检测模块,输出将检测到的未戴安全帽、未着反光马甲和行为异常的人员目标标记出来的新的视频帧/>。
S2:采集不同堆场环境下粉体能源物料料堆RGB图像并利用SolidWorks软件建立粉体能源物料料堆RGB图像对应的三维CAD模型,建立自制粉体能源物料料堆三维重建数据集,采用自制粉体能源物料料堆三维重建数据集对改进的3D-R2N2网络模型进行训练,将利用Mobileye 8 摄像头采集的各个粉体能源物料气力传输车前方环境状态的视频帧输入经过训练的改进3D-R2N2网络模型得到三维重建体积元素空间模型/>,并通过测量已知体积为/>的参照物/>的体积元素的个数/>计算出单个体积元素的体积/>,并通过/>体积元素的个数/>计算出粉体能源物料料堆的起始体积/>。同理,在粉体能源物料传输过程中持续测量每个料堆的体积/>,测得已传输物料的体积,根据粉体物料的密度/>计算出已传输物料的质量/>,其中,/>为粉体能源物料气力传输车的数目,已传输物料的总质量/>。
S3:设有个料堆,将已传输物料的总质量/>,各个料堆堆放时间/>,检测到的各个粉体能源物料气力传输车的将未戴安全帽、反光马甲或行为异常的人体目标标记出来的新的视频帧/>作为各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>,输入到经过预训练的MADDPG算法中;当已传输物料的总质量/>达到期望值时,停止粉体能源物料的传输;经过预训练的MADDPG算法依据状态/>从其动作空间中选择对应的行驶动作和气力传输系统开关指令/>并输出,经行驶动作和气力传输系统开关指令/>后形成新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>,通过奖励函数计算本次驾驶动作指令的奖励值/>,并将状态/>、行驶动作和气力传输系统开关指令/>、本次行驶动作指令的奖励值/>和新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态/>作为转移样本/>存入经验回放缓存池中;从经验回放缓存池中随机抽取转移样本,计算MADDPG算法的损失函数值/>和优化MADDPG算法参数/>,料堆取料概率优先级为/>,其中/>是料堆总数;
S4:在经过生成对抗网络辅助生成的多智能体强化学习仿真试验台仿真环境中重复步骤S3直至达到设定的最大迭代次数3000次或者算法收敛为止,生成离线决策模型;在真实环境中重复步骤S3,对离线决策模型/>进行更新直至迭代次数达到1500次或者算法收敛为止,生成最终决策模型/>;
所述步骤S2建立料堆三维重建数据集的具体过程,包括以下步骤:
S2.1.1:利用RGB摄像头采集各种粉体能源物料料堆场环境下粉体能源物料料堆的RGB图像;
S2.1.2:使用SolidWorks软件建立粉体能源物料料堆的RGB图像对应的三维CAD模型。
S2.1.3:将粉体能源物料料堆的RGB图像及其对应的三维CAD模型作为一个样本,按照比例φ将所有样本随机划分为训练集与测试集。
S3.1、随机初始化每个粉体能源物料气力传输车的策略网络和策略网络参数/>、评估网络/>和评估网络参数/>,其中为每一个粉体能源物料气力传输车在状态/>时采取的动作;/>为每个粉体能源物料气力传输车各自的状态;随机初始化每个粉体能源物料气力传输车的目标策略网络和目标策略网络参数/>、目标评估网络/>和目标评估网络参数/>;初始化每个粉体能源物料气力传输车的经验回放缓存池/>和动作探索噪声/>;初始化各个粉体能源物料气力传输车前方粉体能源物料堆场环境和所有粉体能源物料气力传输车状态集合/>;/>
S3.3、每执行Z步,对每个粉体能源物料气力传输车,按照以下步骤训练神经网络:
S3.3.1根据
S3.3.3通过目标评估网络计算每个经验动作期望回报:
S3.3.4最小化损失以更新评估网络参数:
S3.3.5通过以下梯度更新当前智能体的策略网络参数:
S3.4、每执行B步,对每个智能体,按照以下公式更新目标策略网络和目标评估网络参数:
S3.5:循环运行步骤S3.2-S3.4直至达到最大迭代次数或者算法收敛为止。
所述步骤S4具体如下:
S4.1.1:对用于训练粉体能源物料气力传输车的粉体能源物料堆场环境使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape方式,对反映真实环境中不可移动物体的位置和形状进行三维建模;
S4.1.2:对粉体能源物料气力传输车的轮廓坐标进行界定;
S4.1.3:在训练过程中,根据粉体能源物料气力传输车位置状态和车轮速度、行驶方向等变量计算得出粉体能源物料气力传输车新的位置状态,使得车轮的动作空间、状态空间和自动驾驶奖励函数与在真实粉体能源物料堆场环境中进行训练时相同,车轮运行的介质可以设置为多种材质(泥土、沙地、沥青等),输入图片均是真实粉体能源物料气力传输车车载摄像头捕捉的可根据车轮动作变化的视频帧,与真实训练环境中输入自动驾驶汽车的视频帧相同,其余各部件的运行机理与正常汽车相同,各物理参数完全与真实环境相同,同时此仿真试验台不能移动,从而克服强化学习在真实环境中训练时面临的碰撞损害问题。本发明实施例提供的多Agent协作粉体能源物料传输控制系统中多智能体强化学习仿真试验台组成如图12(a)所示,多智能体强化学习仿真试验台工作方式示意如图12(b)所示。
所述S4中虚拟仿真环境:使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape进行三维建模,其步骤如下:
S4.2.1:用初始化的形状(即椭球)和可微渲染器渲染很多不同视角与光照条件下的粉体能源物料料堆的RGB图像;
S4.2.2:用预训练的生成对抗网络GAN对粉体能源物料料堆的RGB图像进行重建,得到其在GAN图像空间的投影,即投影样本。这些投影样本会继承与粉体能源物料料堆的RGB图像类似的视角与光照,同时GAN的生成特性会将投影样本约束在真实图像空间中,从而消除粉体能源物料料堆的RGB图像中不真实的畸变与光影;
S4.2.3:将投影样本作为渲染步骤的学习目标真实值,从而优化物体三维形状。由于投影样本中包含了GAN学得的物体三维信息,因此物体形状会更加准确。
S4.2.4:用优化后的物体三维形状作为初始形状再重复以上步骤,迭代多次,从而逐步改善物体三维形状直至网络收敛。
一种介质,存储计算机程序,为计算机可读存储介质,该计算机可读存储介质上存储有基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制程序,其中所述多Agent协作粉体能源物料传输控制程序被处理器执行时,实现所述基于改进3D-R2N2和YOLOv5n的多Agent协作粉体能源物料传输控制方法的步骤。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。为进一步突出本发明显著的实质性效果,与现有的3D-R2N2网络模型在单视角条件下对交并比评价指标进行对比。
表2改进3D-R2N2网络模型与现有的3D-R2N2网络模型的交并比评价指标比对比表
由表2可知,本发明提出的改进的3D-R2N2网络模型相对于现有的3D-R2N2网络模型在单视角条件下,在交并比评价指标上具有显著提高。
Claims (9)
1.一种多Agent协作粉体能源物料传输控制系统,其特征在于,该多Agent协作粉体能源物料传输控制系统包括探测单元、气力传输系统、总控上位机和车载下位机;
探测单元布置在各个粉体能源物料气力传输车预设的探测位置处,采用车载RGB摄像头采集各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的RGB视频;
气力传输系统的入料口吸嘴布置在各个粉体能源物料气力传输车预设位置处,气力传输系统其余部件布置在物料出料口预设位置处,采用吸送式气力传输装置采集物料并通过柔性可伸缩管道传输到物料出料口;车载下位机安装于粉体能源物料气力传输车上,其嵌入自动行驶粉体能源物料气力传输车控制程序,自动行驶粉体能源物料气力传输车控制程序包括非法闯入人员及违规操作检测模块、粉体能源物料料堆三维重建及质量计算模块、决策控制模块,用于控制多Agent协作粉体能源物料的传输;非法闯入人员及违规操作检测模块采用改进的YOLOv5n网络模型;粉体能源物料料堆三维重建及质量计算模块采用改进的3D-R2N2网络模型;
总控上位机嵌入自动行驶粉体能源物料气力传输车预训练程序,自动行驶粉体能源物料气力传输车预训练程序包括强化学习预训练模块,用于预训练MADDPG算法;总控上位机与多个车载下位机建立联系。
2.根据权利要求1所述的多Agent协作粉体能源物料传输控制系统,其特征在于,所述非法闯入人员及违规操作检测模块中使用自制非法闯入人员及违规操作数据集,对改进的YOLOv5n网络模型进行训练,将划定界限的监控区域范围内各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的RGB视频的原始视频帧输入已训练的改进的YOLOv5n网络模型,对各个粉体能源物料气力传输车前方的环境进行目标检测,将检测到的未戴安全帽、未着反光马甲或行为异常的人员目标标记出来得到新的视频帧;
所述自制非法闯入人员及违规操作数据集为利用车载RGB摄像头采集的非法闯入人员或违规操作的原始视频帧以及该原始视频帧进行标签标定后的原始视频帧;
所述改进的YOLOv5n网络模型,包括骨干模块、瓶颈模块、头部模块;
骨干模块包括依次连接的第一卷积层、第一CBS模块、第一C3模块、第二CBS模块、第二C3模块、第三CBS模块、第三C3模块、第四CBS模块和快速金字塔池化模块;瓶颈模块包括依次连接的第四C3模块、第五CBS模块、第一次上采样操作、第一次拼接操作、第五C3模块和第六CBS模块以及第二次上采样操作、第二次拼接操作、第一GTC3模块、接收第一GTC3模块输出语义特征的第七CBS模块、接收第七CBS模块和第六CBS模块输出语义特征的第三次拼接操作、接收第三次拼接操作输出语义特征的第二GTC3模块;第一次拼接操作用于拼接第一次上采样操作和第三C3模块输出的语义特征;头部模块包括接收第一GTC3模块输出语义特征的第一卷积层、接收第二GTC3模块输出语义特征的第二卷积层以及各自对应的目标检测结果;
所述第一CBS模块、第二CBS模块、第三CBS模块、第四CBS模块、第五CBS模块、第六CBS模块包括依次连接的位置卷积层、批归一化层、SiLU激活函数;
所述第一C3模块、第二C3模块、第三C3模块、第四C3模块、第五C3模块包括两个分支,各个C3模块第一分支包括依次连接的CBS模块、残差单元,各个C3模块第二分支包括卷积层,各个C3模块第一分支和各个C3模块第二分支输出的语义特征通过拼接操作生成各个C3模块的输出;所述残差单元包括依次连接的恒等映射、第一个CBS模块、第二个CBS模块和加和操作;
所述快速金字塔池化模块包括依次连接的CBS模块、由恒等映射组成的第一分支、由一个最大池化层组成的第二分支、由两个最大池化层依次相连组成的第三分支、由三个池化层依次相连组成的第四分支、所有分支输出的语义特征通过拼接操作输出到CBS模块后,得到快速金字塔池化模块的输出;
所述第一GTC3模块、第二GTC3模块包括依次连接的第一1×1卷积层分支,第一CBS模块,由依次相连的Ghost module模块、深度可分离卷积层、SEGhost module模块构成的GTC3模块第一分支,恒等映射GTC3模块第二分支,由依次相连的第二CBS模块、多头自注意力模块、卷积层构成的GTC3模块第三分支;GTC3模块第一分支与GTC3模块第二分支在SEGhostmodule模块后进行加和操作后与GTC3模块第三分支输出的语义特征进行拼接操作输出的语义特征经过第二1×1卷积层后与第一1×1卷积层分支输出的语义特征加和后经过第三CBS模块作用后得到各个GTC3模块的输出;
所述Ghost module模块包括依次连接的卷积层模块、由恒等映射组成的Ghost module模块第一分支、由一个深度可分离卷积层组成的Ghost module模块第二分支,Ghostmodule模块第一分支和Ghost module模块第二分支输出的语义特征通过拼接操作得到Ghost module模块的输出;
所述SEGhost module模块包括依次连接的卷积层模块、由恒等映射组成的SEGhostmodule模块第一分支、由一个深度可分离卷积层组成的SEGhost module模块第二分支,SEGhost module模块第一分支和SEGhost module模块第二分支通过拼接操作后经过依次相连的全局池化操作、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数,经作用后与SEGhost module模块第一分支和SEGhost module模块第二分支通过拼接操作后输出的语义特征相乘得到SEGhost module模块的输出。
3.根据权利要求1或2所述的多Agent协作粉体能源物料传输控制系统,其特征在于,所述粉体能源物料料堆三维重建及质量计算模块通过自制粉体能源物料料堆三维重建数据集进行训练,用以对粉体能源物料堆场中的粉体能源物料料堆进行三维重建生成料堆RGB图像,计算料堆RGB图像对应的体积元素空间模型,利用辅助参照物得到单个体积元素的实际体积进而得到料堆体积;取料前将每个料堆的时间戳记为tt并存储在总控上位机中;
自制粉体能源物料料堆三维重建数据集为利用车载RGB摄像头采集的粉体能源物料料堆RGB图像、粉体能源物料料堆RGB图像对应的三维CAD模型;
所述辅助参照物为一已知体积的圆锥状物体,放置于各粉体能源物料料堆预设的能被探测单元探测的位置处;
所述改进的3D-R2N2网络模型,包括编码器模块、三维卷积-长短期记忆模块、解码器模块;
编码器模块包括依次连接的快速空间金字塔池化模块、恒等映射、第一残差模块、第一个1×1卷积层、恒等映射、第二残差模块、第一语义特征融合模块、第三残差模块、第二语义特征融合模块、多头自注意力模块、第四残差模块和第五残差模块;三维卷积-长短期记忆模块包括依次相连的全连接层和三维卷积-长短期记忆层;解码器模块包括依次连接的第六残差模块、第七残差模块、第八残差模块、第九残差模块和3×3×3卷积层;解码器模块的输出经三维归一化指数函数作用后生成分割图;
快速空间金字塔池化模块包括四个分支,其中快速空间金字塔池化模块第一分支包括3×3池化操作,快速空间金字塔池化模块第二分支包括两个依次相连的3×3池化操作,快速空间金字塔池化模块第三分支包括三个依次相连的3×3池化操作,快速空间金字塔池化模块第四分支是恒等映射分支,快速空间金字塔池化模块中的四个分支通过拼接操作输出快速空间金字塔池化结果;
所述第一残差模块包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、3×3卷积层、加和操作、池化操作;
所述第二残差模块和第三残差模块均包括依次连接的恒等映射、3×3可分离卷积层、3×3卷积层、加和操作;
所述多头自注意力模块包括依次连接的3×3可分离卷积层、多头自注意力结构、1×1卷积层;
所述第四残差模块包括依次连接的池化操作、恒等映射、3×3可分离卷积层、3×3卷积层、加和模块;
所述第五残差模块、第六残差模块和第七残差模块均包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、加和模块;
所述第八残差模块包括依次连接的反池化操作、恒等映射、3×3×3卷积层、3×3×3卷积层、3×3×3卷积层、加和模块;
4.根据权利要求3所述的多Agent协作粉体能源物料传输控制系统,其特征在于,所述强化学习预训练模块使用预先采集的粉体能源物料气力传输车规范行驶的经验样本集(sgt,agt,rgt,sgt+1)p作为专家经验数据集,对MADDPG算法进行预训练,将未戴安全帽、反光马甲或行为异常的人体目标标记出来的新的视频帧Io、已传输物料的质量M和料堆堆放时间tl输入经预训练的MADDPG算法,获得MADDPG算法的损失函数值,优化MADDPG算法参数;其中,sgt是各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,agt是行驶动作和气力传输系统启停指令,sgt+1是新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,rgt是本次行驶动作指令的奖励值;
所述决策控制模块根据MADDPG算法获取的损失函数值和优化MADDPG算法参数在多智能体强化学习仿真试验台仿真环境中迭代获得离线决策模型;对离线决策模型在真实环境中进行迭代获得最终决策模型,根据粉体能源物料堆场环境进行推理决策。
5.一种多Agent协作粉体能源物料传输控制方法,其特征在于,包括以下步骤:
S1:将每个料堆开始堆放时的时间戳记为起始时间戳ty,取料前每个料堆的时间戳记为tt,使用公式tl=tt-ty计算出料堆堆放时间tl;使用预先采集的粉体能源物料气力传输车规范行驶动作的经验样本集(sgt,agt,rgt,sgt+1)p作为专家经验数据集,对MADDPG算法进行预训练直至达到设定的最大迭代次数n1或MADDPG算法收敛为止;其中,sgt是各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,agt是行驶动作和气力传输系统启停指令,sgt+1是新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态,rgt是本次行驶动作指令的奖励值;利用车载RGB摄像头采集粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧I1,输入到非法闯入人员及违规操作检测模块,该非法闯入人员及违规操作检测模块为使用非法闯入人员及违规操作数据集训练过的改进的YOLOv5n网络模型,输出新的视频帧Io,其包括检测到的未戴安全帽、未着反光马甲和行为异常的人员目标标记;当作业区域内无未戴安全帽、未着反光马甲或行为异常的人员或未戴安全帽、未着反光马甲或行为异常的人员未在作业区域内,进行下一步;当作业区域内有未戴安全帽、未着反光马甲或行为异常的人员,报警;
S2:粉体能源物料料堆三维重建及质量计算;采集不同堆场环境下粉体能源物料料堆RGB图像并利用SolidWorks软件建立粉体能源物料料堆RGB图像对应的三维CAD模型,建立自制粉体能源物料料堆三维重建数据集,采用自制粉体能源物料料堆三维重建数据集对改进的3D-R2N2网络模型进行训练,将利用车载RGB摄像头采集的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧I1输入经过训练的改进的3D-R2N2网络模型得到体积元素空间模型通过测量已知体积为vb的参照物β的体积元素的个数no计算出单个体积元素的体积/>通过体积元素空间模型/>体积元素的个数n计算出粉体能源物料料堆的起始体积V=nvd;在粉体能源物料传输过程中持续测量每个粉体能源物料料堆的当前体积V1,测得已传输物料的体积Vt=V-V1;根据粉体物料的密度ρ计算出已传输物料的质量Mf=ρVt;其中,N为粉体能源物料气力传输车的数目,已传输物料的总质量M=M1+M2+…+MN;
S3:设有h个料堆,将已传输物料的总质量M,各个料堆堆放时间tl1、tl2…tlh,检测到的各个粉体能源物料气力传输车的将未戴安全帽、未着反光马甲或行为异常的人体目标标记出来的新的视频帧Io作为各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态st,输入到经过预训练的MADDPG算法中;当已传输物料的总质量M达到期望值Mq时,停止粉体能源物料的传输;经过预训练的MADDPG算法依据状态st从其动作空间中选择对应的行驶动作和气力传输系统启停指令at并输出,经行驶动作和气力传输系统启停指令at后形成新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态st+1,通过奖励函数计算本次驾驶动作指令的奖励值rt,并将st、行驶动作和气力传输系统启停指令at、本次行驶动作指令的奖励值rt和新的各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态st+1作为转移样本(st,at,rt,st+1)存入经验回放缓存池中;从经验回放缓存池中随机抽取转移样本,计算MADDPG算法的损失函数值L和优化MADDPG算法参数w,料堆取料概率优先级为其中h是料堆总数;
S4:在经过生成对抗网络辅助生成的多智能体强化学习仿真试验台仿真环境中重复步骤S3直至达到设定的最大迭代次数n2或者算法收敛为止,生成离线决策模型π1;在真实环境中重复步骤S3,对离线决策模型π1进行更新直至迭代次数达到n3或者算法收敛为止,生成最终决策模型π2;
S5:利用最终决策模型π2进行实车推理决策。
6.根据权利要求5所述的多Agent协作粉体能源物料传输控制方法,其特征在于,所述步骤S2,具体包括以下步骤:
S2.1.1:利用车载RGB摄像头采集各种粉体能源物料料堆环境下粉体能源物料料堆的RGB图像;
S2.1.2:使用SolidWorks软件建立粉体能源物料料堆的RGB图像对应的三维CAD模型;
S2.2.1:使用2D卷积网络结构2D-CNN作为编码器对各个粉体能源物料气力传输车前方粉体能源物料堆场环境状态的视频帧I1进行特征提取和编码为低维特征向量T(I1)作为编码输入;
S2.2.2:将低维特征向量T(I1)送入作为中间结构的3D-LSTM单元得到三维网格结构;
7.根据权利要求5或6所述的多Agent协作粉体能源物料传输控制方法,其特征在于,所述步骤S3具体为:
S3.1、随机初始化每个粉体能源物料气力传输车的策略网络和策略网络参数/>评估网络/>和评估网络参数/>其中a1,a2,…,aN为每一个粉体能源物料气力传输车在粉体能源物料堆场环境状态对应采取的气力传输系统启停指令动作;o为每个粉体能源物料气力传输车各自的状态;随机初始化每个粉体能源物料气力传输车的目标策略网络/>和目标策略网络参数/>目标评估网络和目标评估网络参数/>初始化每个粉体能源物料气力传输车的经验回放缓存池Ri和动作探索噪声Ωt;初始化各个粉体能源物料气力传输车前方粉体能源物料堆场环境和所有粉体能源物料气力传输车状态集合;
S3.2、对每一个粉体能源物料气力传输车i执行以下步骤:
S3.3、每执行Z步,对每个粉体能源物料气力传输车,按照以下步骤训练神经网络:
S3.3.1根据
Loss=(y-Qπ(s,a1,a2,...,aN))2
计算当前粉体能源物料气力传输车Z步经验的策略损失,其中,Qπ为采取策略π时评估网络的值,Qπ′为采取策略π时目标评估网络的值,γ是衰减因子;
S3.3.2从经验回放缓存池Ri中随机抽取小批次的经验,包含K个经验;
S3.3.3通过目标评估网络计算每个经验动作期望回报:
yj=rj+γQ′(sj+1,a′1,a′2,...,a′N,θQ′)
S3.3.4最小化损失以更新评估网络参数:
其中,L表示Loss损失函数;
S3.3.5通过以下梯度更新当前智能体的策略网络参数:
S3.4、每执行B步,对每个智能体,按照以下公式更新目标策略网络和目标评估网络参数:
其中,τ是软更新比例系数;
S3.5:循环运行步骤S3.2-S3.4直至达到最大迭代次数或者算法收敛为止。
8.根据权利要求7所述的多Agent协作粉体能源物料传输控制方法,其特征在于,所述步骤S3中,总奖励函数r包括料堆距离奖励函数r1、安全距离奖励函数r2、避免气力传输管道损坏奖励函数r3、速度奖励函数r4,具体为:
料堆距离奖励函数r1和安全距离奖励函数r2,如式(1)所示:
其中,k1、k2为常数;Δs为粉体能源物料气力传输车吸嘴距离料堆的间距;Δd为粉体能源物料气力传输车周围车辆、障碍物与粉体能源物料气力传输车的间距,Δs、Δd均由粉体能源物料气力传输车传感器计算获取;
避免气力传输管道损坏奖励函数r3,如式(2)所示:
速度奖励函数r4,如式(3)所示:
r4=-k4|Ξ-Ξmax| (3)
其中,k4是常数,Ξmax为粉体能源物料气力传输车允许行驶的最高时速,Ξ为粉体能源物料气力传输车当前行驶时速,单位均为km/h;
总奖励函数r,如式(4)所示:
r=r1+r2+r3+r4 (4)。
9.根据权利要求8所述的多Agent协作粉体能源物料传输控制方法,其特征在于,所述步骤S4中,具体包括步骤如下:
S4.1.1:对用于训练粉体能源物料气力传输车的粉体能源物料堆场环境使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape,对反映真实环境中不可移动物体的位置和形状进行三维建模;
S4.1.2:对粉体能源物料气力传输车的轮廓坐标进行界定;
S4.1.3:在训练过程中,根据粉体能源物料气力传输车位置状态、车轮速度、行驶方向计算得出粉体能源物料气力传输车新的位置状态,使得车轮的动作空间、状态空间和总奖励函数r与在真实粉体能源物料堆场环境中进行训练时相同,车轮运行的介质为真实粉体能源物料堆场环境中车轮运行的介质;输入图片均是真实粉体能源物料气力传输车车载摄像头拍摄的根据车轮动作而变化的视频帧,与真实训练环境中粉体能源物料气力传输车探测单元探测到的视频帧相同,其余各部件的运行机理与正常粉体能源物料气力传输车相同,各项物理参数与真实环境相同;
S4.2:使用基于生成对抗网络的二维图像无监督三维重建算法GAN2Shape进行三维建模;
S4.2.1:采用椭球形状作为初始形状,并使用各种随机采样的视角和光照条件渲染大量非自然的粉体能源物料堆场环境RGB图像;
S4.2.2:用预训练的生成对抗网络对粉体能源物料堆场环境RGB图像进行重建,得到其在生成对抗网络图像空间的投影,即投影样本;投影样本有与粉粉体能源物料堆场环境RGB图像同种类型的视角与光照,同时生成对抗网络的生成特性将投影样本约束在真实图像空间中,从而消除粉体能源物料堆场环境RGB图像中不真实的畸变与光影;
S4.2.3:将投影样本作为渲染步骤的学习目标真实值,优化三维粉体能源物料堆场环境;
S4.2.4:用优化后的三维粉体能源物料堆场环境作为初始形状再重复步骤S4.2.1-S4.2.3,迭代多次,直至网络收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310109468.3A CN116027670B (zh) | 2023-02-14 | 2023-02-14 | 一种多Agent协作粉体能源物料传输控制系统、方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310109468.3A CN116027670B (zh) | 2023-02-14 | 2023-02-14 | 一种多Agent协作粉体能源物料传输控制系统、方法及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116027670A CN116027670A (zh) | 2023-04-28 |
CN116027670B true CN116027670B (zh) | 2023-06-16 |
Family
ID=86073894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310109468.3A Active CN116027670B (zh) | 2023-02-14 | 2023-02-14 | 一种多Agent协作粉体能源物料传输控制系统、方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116027670B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN215612288U (zh) * | 2021-09-18 | 2022-01-25 | 广东道氏技术股份有限公司 | 一种球磨机制粉系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11326008A (ja) * | 1998-05-19 | 1999-11-26 | Nippon Steel Corp | 流体中の粉体の3次元空間分布の立体像および当該分布の3次元移動速度分布の簡易再構築装置 |
CN101229525B (zh) * | 2008-02-27 | 2010-06-02 | 东南大学 | 雷蒙磨粉碎自动控制方法及其装置 |
JP6198482B2 (ja) * | 2013-06-26 | 2017-09-20 | 株式会社カワタ | 気力輸送装置および気力輸送方法 |
CN106429452A (zh) * | 2016-12-21 | 2017-02-22 | 浙江智的智能装备技术有限公司 | 一种粉体助剂密相气力输送系统 |
CN109948642B (zh) * | 2019-01-18 | 2023-03-28 | 中山大学 | 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 |
CN114936783B (zh) * | 2022-06-02 | 2023-01-17 | 暨南大学 | 一种基于mmddpg算法的rgv小车调度方法及系统 |
-
2023
- 2023-02-14 CN CN202310109468.3A patent/CN116027670B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN215612288U (zh) * | 2021-09-18 | 2022-01-25 | 广东道氏技术股份有限公司 | 一种球磨机制粉系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116027670A (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114384920B (zh) | 一种基于局部栅格地图实时构建的动态避障方法 | |
CN113033119B (zh) | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 | |
CN109726627A (zh) | 一种神经网络模型训练及通用接地线的检测方法 | |
CN110956154A (zh) | 一种基于cnn-lstm的振动信息地形分类识别方法 | |
Zhang et al. | Visual SLAM for underwater vehicles: A survey | |
CN104180818A (zh) | 一种单目视觉里程计算装置 | |
CN110281949B (zh) | 一种自动驾驶统一分层决策方法 | |
CN110097599B (zh) | 一种基于部件模型表达的工件位姿估计方法 | |
CN110969064A (zh) | 一种基于单目视觉的图像检测方法、装置及存储设备 | |
CN111028238A (zh) | 一种基于机器人视觉的复杂异形曲面三维分割方法及系统 | |
CN113033118A (zh) | 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法 | |
CN112258565A (zh) | 图像处理方法以及装置 | |
Zobeidi et al. | Dense incremental metric-semantic mapping via sparse gaussian process regression | |
CN114842340A (zh) | 一种机器人双目立体视觉障碍物感知方法与系统 | |
CN116027670B (zh) | 一种多Agent协作粉体能源物料传输控制系统、方法及介质 | |
Šalanský et al. | Pose consistency kkt-loss for weakly supervised learning of robot-terrain interaction model | |
Lee | Deep learning of submerged body images from 2D sonar sensor based on convolutional neural network | |
Kuan et al. | Pothole detection and avoidance via deep learning on edge devices | |
Chuixin et al. | AGV robot based on computer vision and deep learning | |
CN114620059A (zh) | 一种自动驾驶方法及其系统、计算机可读存储介质 | |
Shankar | Neural network based hurdle avoidance system for smart vehicles | |
CN114708568B (zh) | 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质 | |
CN116863371A (zh) | 一种基于深度学习的agv叉车货物托盘位姿识别方法 | |
CN114594768B (zh) | 一种基于视觉特征图重构的移动机器人导航决策方法 | |
Yildiz et al. | CNN based sensor fusion method for real-time autonomous robotics systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |