CN116702635A - 基于深度强化学习的多智能体移动充电调度方法及装置 - Google Patents
基于深度强化学习的多智能体移动充电调度方法及装置 Download PDFInfo
- Publication number
- CN116702635A CN116702635A CN202310998709.4A CN202310998709A CN116702635A CN 116702635 A CN116702635 A CN 116702635A CN 202310998709 A CN202310998709 A CN 202310998709A CN 116702635 A CN116702635 A CN 116702635A
- Authority
- CN
- China
- Prior art keywords
- agent
- charging
- sensor
- scheduling
- charge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000002787 reinforcement Effects 0.000 title claims abstract description 52
- 230000006870 function Effects 0.000 claims abstract description 54
- 230000009471 action Effects 0.000 claims description 54
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 12
- 239000010410 layer Substances 0.000 claims description 10
- 230000033001 locomotion Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 5
- 230000034994 death Effects 0.000 abstract description 5
- 231100000517 death Toxicity 0.000 abstract description 5
- 230000002035 prolonged effect Effects 0.000 abstract 1
- 239000003795 chemical substances by application Substances 0.000 description 157
- 238000005265 energy consumption Methods 0.000 description 17
- 241000196324 Embryophyta Species 0.000 description 16
- 238000013461 design Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 239000002245 particle Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 101100001674 Emericella variicolor andI gene Proteins 0.000 description 2
- 230000006854 communication Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000208422 Rhododendron Species 0.000 description 1
- 235000014548 Rubus moluccanus Nutrition 0.000 description 1
- 101100043977 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sxa1 gene Proteins 0.000 description 1
- 241000339782 Tomares Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/04—Power grid distribution networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/60—Other road transportation technologies with climate change mitigation effect
- Y02T10/70—Energy storage systems for electromobility, e.g. batteries
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Geometry (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
Abstract
本发明公开了一种基于深度强化学习的多智能体移动充电调度方法及装置,涉及充电服务调配技术领域。包括:对待调度的无限可充电传感器网络,构建序列调度和充电比控制的联合调度问题;构建联合调度问题的学习模型;采用基于深度强化学习的注意力共享多智能体演员‑评论家AMADRL‑JSSPRC方法,对学习模型进行求解,得到无限可充电传感器网络的基于深度强化学习的多智能体移动充电调度结果。本发明采用两个具有独立的演员网络和评论家网络的异构智能体,并分别为两个异构智能体设计了考虑巡回长度和死亡传感器数量的奖励函数,能够有效地延长网络寿命并减少死亡传感器的数量。
Description
技术领域
本发明涉及充电服务调配技术领域,尤其涉及一种基于深度强化学习的多智能体移动充电调度方法及装置。
背景技术
WSN(Wireless Sensor Network,无线传感器网络)已广泛应用于目标跟踪、环境监测、智能医疗和军事监测等领域,具有快速构建、自组织、容错性和低成本部署等优点。与此同时,WSN通常由部署在一个区域内的大量传感器组成。然而,WSN中的传感器始终由电池供电,这些电池的容量受限于传感器的体积,这限制了传感器的使用寿命。此外,能量限制问题直接影响WSN的服务质量,极大地阻碍了WSN的发展。近年来, WET(Wireless EnergyTransmission,无线能量传输)技术的突破极大地推动了WRSN(Wireless RechargeableSensor Network,无线可充电传感器网络)的发展,因为它为传感器提供了高度可靠和高效的能量补充。特别是,采用一种或多种高容量MC(Mobile Charger,移动充电器)通过WET对传感器进行充电是克服WRSN能量约束问题的一种有前途的方法。MC可以自主移动到传感器并根据传感器的状态信息(包括剩余能量、能量消耗速率和WRSN中传感器的位置)制定移动充电调度方案来为它们充电。传感器的状态信息是高度可控和可预测的。从理论上讲,WRSN可以在设计良好的充电方案下无限期地工作。因此,WRSN中充电方案的设计至关重要,并引起了研究界的广泛关注。
已经有很多工作被提出来设计WRSN中的移动充电方案。根据MC在从基站出发前是否携带确定的充电方案,现有的方法可以分为两类:(1)离线方法和(2)在线方法。在离线方法中,MC在从基站出发前,将根据传感器的状态制定透明的充电方案,包括准确的位置、固定的能量消耗速率、定期的信息传输速率等等。MC将按照充电方案的安排轨迹对传感器进行充电。离线方法忽略了传感器状态的动态变化。因此,离线方法不适用于处理传感器能量消耗速率实时变化和大规模WRSN等应用场景。例如,严等人首次尝试将粒子群优化引入光学无线传感器网络,可优化节点定位、有效降低节点能量消耗并更快地收敛。舒等人首次尝试处理WRSN中的联合充电能量和设计操作调度。他们提出了一个f-近似算法来解决这个问题,并验证所提出的算法可以在基线方法之外获得平均39.2%的网络寿命改善。冯等人设计了一种称为新生粒子群优化算法的新算法,用于工业可充电传感器网络中的充电调度,通过添加新的粒子来改进粒子多样性。这种改进使算法具有更好的全局优化能力和搜索速度。V.K.Chawra等人提出了一种使用混合元启发式技术调度多个移动充电器的新算法,将杜鹃搜索和遗传算法的最佳特点相结合,优化路径调度问题,以实现更短的充电延迟和更高的能量使用效率。为了提高充电效率,张等人,梁等人和吴等人提出了一些分层充电方法,用于多个MC为传感器和自身充电。
与离线方法不同,在某些应用场景中,传感器的能量消耗速率是时变的,并且网络中存在许多不确定因素,离线方法无法根据网络中的信息获得可接受的充电调度方案,而在线方法可以成功处理这些问题。具体实现是MC在从基站出发前不需要清楚地了解传感器的状态,而只需要建立候选充电队列。当传感器的剩余能量低于设置的阈值时,它会发送充电请求和其能量信息给MC。MC接受充电请求并将其插入所有候选充电队列中。然后,根据传感器的状态更新充电顺序。例如,林等人旨在最大化充电效率,同时最小化死亡传感器数量,以实现延长WRSN寿命的目的。因此,他们为按需充电架构开发了一种时空实时充电调度算法。此外,他们还验证了时空实时充电调度算法可以获得比现有在线算法(包括具有抢占方案的最近工作-下一个和具有双警告阈值的双抢占充电方案)更好的充电吞吐量、充电效率和成功充电率。冯等人提出了一种移动能量充电方案,它可以通过合并在线模式和离线模式的优点来改善WRSN中的充电性能。它包括在线模式中传感器能量消耗的动态性和离线模式中通过优化移动充电器的充电路径来降低充电消耗的好处。Kaswan等人将充电调度问题转化为线性规划问题,并提出了一种引力搜索算法。该方法提出了一种新的代理表示方案和高效的适应度函数。Tomar等人提出了一种新的调度方案,用于按需充电的WRSN,以解决多个移动充电器的联合考虑和节点能量消耗率变化时不适时的充电响应问题。
遗憾的是,尽管在线方法可以解决移动充电动态调度问题,但它们仍然存在一些缺点,如短视、非全局优化和不公平。具体来说,最近的研究假设离移动充电器最近的传感器通常被插入到当前充电队列中,而低能耗的传感器往往被忽略,导致其过早死亡,从而降低了WRSN的服务质量。需要注意的是,WRSN中的移动充电路径规划问题是一个马尔可夫决策过程,已经被证明是一个NP-hard问题。因此,在网络规模逐渐增大的情况下,设计一种有效的调度方案,以更快、更可靠地找到最优或近最优解,是最具挑战性的问题。
RL(Reinforcement Learning,强化学习)被广泛应用于解决马尔可夫决策过程,也是解决WRSN中充电调度问题的有效方法。如前所述,由于WRSN中的充电调度问题是NP-hard问题,无法为监督学习提供可用的最优标签。但是,通过奖励反馈可以评估充电决策的质量。因此,需要根据WRSN的状态设计合理的奖励函数,以适应RL算法。在代理和环境之间的交互中,RL算法学习并优化充电调度方案以最大化奖励。目前,已经有许多学者使用RL算法来解决充电调度问题。例如,Wei等人和Soni和Shrivastava提出了一种基于RL和MC的充电路径规划算法,用于延长网络寿命和提高MC的自主性。然而,充电路径规划方法仅适用于时间不变的离线模式。此外,由于Q-learning算法通常无法处理高维或大状态空间,因此仅适用于解决小规模网络问题。Cao等人提出了一种基于深度强化学习的按需充电算法,旨在最大化移动充电器在WRSN中收集到的奖励总和,同时受到移动充电器能量容量和所有传感器节点的充电次数的限制。Yang等人提出了一种基于演员-评论家强化学习算法的新型动态WRSN充电方案,旨在最大化充电效率,同时最小化死亡传感器数量以延长网络寿命。尽管这些工作在模型和算法创新方面取得了重大进展,但它们都忽略了传感器充电能量对优化性能的影响。Yang等人提出了充电系数来限制充电能量阈值的上限,但假设所有传感器的充电系数在调度过程中都保持不变,不能根据传感器的需要进行调整。因此,如何选择下一个需要充电的传感器以及确定其相应的充电能量,是充电方案设计中的新挑战。需要注意的是,WRSN中的充电调度问题是马尔可夫决策过程,已被证明是NP-hard问题。
发明内容
本发明针对在网络规模逐渐增大的情况下,如何设计合理的奖励函数和算法,以更快、更可靠地找到最优或接近最优解,是当前最具挑战的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种基于深度强化学习的多智能体移动充电调度方法,该方法由电子设备实现,该方法包括:
S1、对待调度的无限可充电传感器网络,构建序列调度和充电比控制的联合调度问题。
S2、构建联合调度问题的学习模型。
S3、采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对学习模型进行求解,得到无限可充电传感器网络的基于深度强化学习的多智能体移动充电调度结果。
可选地,S1中的构建序列调度和充电比控制的联合调度问题,包括:
S11、定义传感器的剩余能量、传感器的充电需求以及移动充电器的剩余能量。
S12、构建序列调度和充电比控制的联合调度问题的终止条件。
S13、根据传感器的剩余能量、传感器的充电需求、移动充电器的剩余能量以及终止条件,构建序列调度和充电比控制的联合调度问题。
其中,联合调度问题满足最大化无限可充电传感器网络的生命周期并最小化失效传感器的数量。
可选地,S12中的序列调度和充电比控制的联合调度问题的终止条件,包括:
失效传感器的数量达到预设阈值。
移动充电器的剩余能量不足以返回到仓库。
传感器达到预设目标寿命或达到预设基本时间。
可选地,S2中的构建联合调度问题的学习模型,包括:
定义环境的状态,包括移动充电器的状态信息和传感器的状态信息。
定义环境的动作,用于表示目标传感器的决策和充电比率的决策。
定义环境的策略,包括最大化充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励;其中,充电序列调度器智能体以及充电比例控制器智能体分别具有独立的演员网络以及评论家网络。
定义环境的奖励,包括充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励。
定义约束条件。
可选地,充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励,如下式(1)-(3)所示:
(1)
(2)
(3)
其中,π是策略,是期望,a1是代理1选择下一个充电的传感器的决策,a2是代理2控制充电比率的决策,S是状态,T是时刻,K是最大时间步长,是时间步k的折扣因子,是奖励,ω是0到1之间的奖励系数,d是距离,是惩罚系数, 表示第k个时间步的动作后新的无效传感器的数量,表示在满足终止条件时执行动作后获得的总移动距离。
可选地,约束条件,包括:
如果移动充电器的残余能量满足下一个选定传感器的充电需求或者足以返回车厂,则移动充电器允许访问无限可充电传感器中的任何位置。
收费大于0的所有传感器都有一定的概率被选为下一个要收费的传感器。
移动充电器不负责充电需求为零的传感器。
如果移动充电器的残余能量不满足下一个选定传感器的充电需求,但足以返回车厂,则移动充电器被允许返回给车厂,而移动充电器的充电时间被忽略。
两个相邻时间步长的传感器充电决策不同。
如果移动充电器的残余能量不满足下一个传感器的充电需求且不足以返回车厂,或者达到预设的网络生命周期,则充电计划结束。
可选地,S3中的采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对学习模型进行求解,包括:
根据具有可微键值记忆模型的注意力机制,计算代理的Q值函数,进而为充电序列调度器智能体以及充电比例控制器智能体选择策略。
其中,代理的Q值函数,如下式(4)所示:
(4)
其中,是代理的Q值函数,,是状态,是动作,o是智能体的观察, 是一个两层多层感知器MLP,是一个单层MLP嵌入函数,是其他代理的贡献。
可选地,S3中的采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对学习模型进行求解,还包括:
引入优势函数和基线,将给定代理的动作从Q值函数边缘化。
其中,优势函数以及基线如下式(5)、(6)所示:
(5)
(6)
其中,是代理的Q值函数,,是用于计算优势函数的多智能体基线,是期望,是状态,是动作,π是策略,o是智能体的观察,是代理≠。
另一方面,本发明提供了一种基于深度强化学习的多智能体移动充电调度装置,该装置应用于实现基于深度强化学习的多智能体移动充电调度方法,该装置包括:
问题构建模块,用于对待调度的无限可充电传感器网络,构建序列调度和充电比控制的联合调度问题。
模型构建模块,用于构建联合调度问题的学习模型。
输出模块,用于采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对学习模型进行求解,得到无限可充电传感器网络的基于深度强化学习的多智能体移动充电调度结果。
可选地,问题构建模块,进一步用于:
S11、定义传感器的剩余能量、传感器的充电需求以及移动充电器的剩余能量。
S12、构建序列调度和充电比控制的联合调度问题的终止条件。
S13、根据传感器的剩余能量、传感器的充电需求、移动充电器的剩余能量以及终止条件,构建序列调度和充电比控制的联合调度问题。
其中,联合调度问题满足最大化无限可充电传感器网络的生命周期并最小化失效传感器的数量。
可选地,序列调度和充电比控制的联合调度问题的终止条件,包括:
失效传感器的数量达到预设阈值。
移动充电器的剩余能量不足以返回到仓库。
传感器达到预设目标寿命或达到预设基本时间。
可选地,模型构建模块,进一步用于:
定义环境的状态,包括移动充电器的状态信息和传感器的状态信息。
定义环境的动作,用于表示目标传感器的决策和充电比率的决策。
定义环境的策略,包括最大化充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励;其中,充电序列调度器智能体以及充电比例控制器智能体分别具有独立的演员网络以及评论家网络。
定义环境的奖励,包括充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励。
定义约束条件。
可选地,充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励,如下式(1)-(3)所示:
(1)
(2)
(3)
其中,π是策略,是期望,a1是代理1选择下一个充电的传感器的决策,a2是代理2控制充电比率的决策,S是状态,T是时刻,K是最大时间步长,是时间步k的折扣因子,是奖励,ω是0到1之间的奖励系数,d是距离,是惩罚系数, 表示第k个时间步的动作后新的无效传感器的数量,表示在满足终止条件时执行动作后获得的总移动距离。
可选地,约束条件,包括:
如果移动充电器的残余能量满足下一个选定传感器的充电需求或者足以返回车厂,则移动充电器允许访问无限可充电传感器中的任何位置。
收费大于0的所有传感器都有一定的概率被选为下一个要收费的传感器。
移动充电器不负责充电需求为零的传感器。
如果移动充电器的残余能量不满足下一个选定传感器的充电需求,但足以返回车厂,则移动充电器被允许返回给车厂,而移动充电器的充电时间被忽略。
两个相邻时间步长的传感器充电决策不同。
如果移动充电器的残余能量不满足下一个传感器的充电需求且不足以返回车厂,或者达到预设的网络生命周期,则充电计划结束。
可选地,输出模块,进一步用于:
根据具有可微键值记忆模型的注意力机制,计算代理的Q值函数,进而为充电序列调度器智能体以及充电比例控制器智能体选择策略。
其中,代理的Q值函数,如下式(4)所示:
(4)
其中,是代理的Q值函数,,是状态,是动作,o是智能体的观察, 是一个两层多层感知器MLP,是一个单层MLP嵌入函数,是其他代理的贡献。
可选地,输出模块,进一步用于:
引入优势函数和基线,将给定代理的动作从Q值函数边缘化。
其中,优势函数以及基线如下式(5)、(6)所示:
(5)
(6)
其中,是代理的Q值函数,,是用于计算优势函数的多智能体基线,是期望,是状态,是动作,π是策略,o是智能体的观察,是代理≠。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于深度强化学习的多智能体移动充电调度方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于深度强化学习的多智能体移动充电调度方法。
上述技术方案,与现有技术相比至少具有如下有益效果:
上述方案,研究了一种新的联合充电序列调度与充电比控制问题,提出了一种基于注意共享的多智能Actor-Critic的深度再增强学习方法AMADRL-JSSPRC,其中充电序列调度器和充电比控制器通过与环境交互来确定目标传感器和充电率。AMADRL-JSSRC在多智能体环境中训练分散策略,使用集中式计算批评网络共享注意力机制,并为每个智能体选择相关策略信息。同时,AMADRL-JSSRC性能显著延长了WRSN的寿命,最小化了死传感器的数量,在处理大规模WRSNs时,其性能更为显著。在未来的工作中,多个MC的多智能体强化学习方法共同完成充电任务是进一步研究的关键点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于深度强化学习的多智能体移动充电调度方法流程示意图;
图2是本发明实施例提供的带移动充电器的WRSN示例图;
图3是本发明实施例提供的JSSRC的调度示例图;
图4是本发明实施例提供的AMADRL-JSSRC的结构图;
图5是本发明实施例提供的基于深度强化学习的多智能体移动充电调度装置框图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于深度强化学习的多智能体移动充电调度方法,该方法可以由电子设备实现。如图1所示的基于深度强化学习的多智能体移动充电调度方法流程图,该方法的处理流程可以包括如下的步骤:
S1、对待调度的无限可充电传感器网络,构建序列调度和充电比控制的联合调度问题。
可选地,S1中的构建序列调度和充电比控制的联合调度问题,包括:
S11、定义传感器的剩余能量、传感器的充电需求以及移动充电器的剩余能量。
S12、构建序列调度和充电比控制的联合调度问题的终止条件。
S13、根据传感器的剩余能量、传感器的充电需求、移动充电器的剩余能量以及终止条件,构建序列调度和充电比控制的联合调度问题。
其中,联合调度问题满足最大化无限可充电传感器网络的生命周期并最小化失效传感器的数量。
一种可行的实施方式中,本发明研究了一种JSSRC(Joint mobile chargingsequence scheduling and charging ratio control problem,联合移动充电序列调度和充电比例控制问题),其中充电比例是一个参数,用于确定传感器的充电能量,并用实时变化的需求替代按需充电请求。JSSRC为WRSN提供了及时、可靠、全局的充电方案,适用于传感器能量动态变化的场景。同时,本发明提出了一种基于多智能体注意力共享的演员-评论家深度强化学习方法来解决JSSRC问题,称为AMADRL-JSSRC(Attention-sharedmulti-agentactor-critic-baseddeepreinforcementlearning,基于多智能体注意力共享的演员-评论家深度强化学习)。本发明假设网络部署场景友好、无障碍、易于访问,能量消耗实时变化信息的传输可靠且确定。当MC(Mobile charger,移动充电器)的剩余能量不足时,允许其返回修复站更换电池。
如图2所示,本发明采用了具有n个异构同构传感器,一个移动充电器,一个基站和一个车库的无线传感器网络。假设由于不同的信息传输任务,所有传感器具有相同的能量容量Esn和感知能力,但具有不同的能量消耗率。它们被部署在一个没有障碍物的2D区域内,所有传感器的位置固定且能够准确地确定,并且它们。因此,本发明使用了一个加权无向图来描述WRSN的网络模型,其中是传感器之间距离的集合,表示为,其中。每个传感器的初始剩余能量和能量消耗率分别用和表示。为车库的位置。
进一步地,假设WRSN中的每个传感器通过自组网通信方式采集数据并与基站通信。基站可以根据数据采样频率和传输流量估计传感器的剩余能量。移动充电器可以获取传感器的状态信息,但不会干扰传感器的工作状态。与此同时,移动充电器在充电巡回期间的总移动距离被定义为Dis。理论上使用单个或多个移动充电器可以无限延长网络的寿命,但由于传感器的能量模块会老化,因此网络最终会关闭。因此,本发明将寿命定义如下:
定义1,生命周期(Life time):WRSNs的生命周期定义为从网络开始到失效传感器数量达到阈值的时间。
生命周期和阈值分别用和来描述。
传感器能耗模型:传感器的能量主要消耗在数据的传输和接收上。因此,采用时隙t的能耗模型如下:
(1)
其中,为从传感器到传感器(或BS)接收或传输1kb数据的能耗,表示每个传感器之间传输1kb数据所消耗的能量,表示与之间的距离,ξ1、ξ2分别为无距离能耗指标和与距离相关能耗指标,r为信号衰减系数。表示接收的数据流,和表示从发送到和BS的数据流。因此,表示接收所有传感器节点信息的能量消耗。是向其他传感器和BS发送信息所消耗的能量。
MC充电模型:本发明采用MC对WRSN中的传感器进行无线充电,经验无线充电模型定义为:
(2)
其中,dms为传感器与移动充电器之间的距离,P0为输出功率,GS为移动充电器上配置的源天线增益,Gr为接收天线增益,dms为移动充电器与传感器之间的距离,Lp和λ分别为整流器效率和调整Friis’自由空间方程的参数,用于近距离传输。
由于MC移动到传感器附近的位置,距离可以看作是一个常数。因此,公式(2)可简化为公式(3):
(3)
其中,。
设置MC的移动速度为,每米消耗的能量为,MC的容量为,只有当MC到达时,才会对目标传感器进行一对一的充电模式。
进一步地,本发明定义了三个标签来描述时隙t处访问点的工作状态,
。他们表示选择分别充电,而不是被选中和低电量,而i=0表示访问点是一个仓库。传感器的剩余能量定义为,传感器的充电需求定义为,MC的剩余能量定义为。
在时隙t,传感器的剩余能量描述为公式(4),充电需求也将用公式(5)更新:
(4)
(5)
其中,是充电率,它可以决定充电能量的上限阈值,其值范围为(0,1]。
为了有效地充电传感器,MC中更多的能量应该用于充电传感器,而浪费在传感器和仓库之间移动的能量应该最小化。因此,在网络生命周期中,具有动态能量变化的WRSN下的JSSRC问题定义如下:
定义2(JSSRC):联合移动充电序列调度和充电比控制问题,旨在延长网络的生命周期并最大限度地减少WRSN中动态能量变化的死传感器数量,定义为JSSRC问题。
相关符号定义如下:在时隙t,如果=1,则传感器i的当前状态定义为公式(6),表明传感器电量充足,=0表示传感器已经电量不足。
(6)
此外,死亡传感器的数量定义为Nd(t),用公式(7)可计算出:
(7)
JSSRC方案有三个终止条件,用公式(8)描述:
(1)死传感器的数量达到总数的,。
(2)MC的剩余能量不足以返回到仓库。
(3)达到目标寿命或基本时间。
(8)
其中,表示与MC当前位置到车厂的距离,t是测试的运行时间,是给定的基础时间。具体来说,当满足公式(8)中的任何终止条件时,充电过程将结束。然后,在网络生命周期内,JSSRC问题可以表示为:
(9)
S2、构建联合调度问题的学习模型。
一种可行的实施方式中,JSSRC是序列调度和充电比控制的联合调度问题;很难与传统的单代理强化学习算法同时调度它们。因此,本发明引入了多智能体强化学习算法来解决这个问题。
进一步地,多智能体强化学习是在强化学习算法基础上发展起来的,通常被描述为马尔可夫博弈(或随机博弈)。多智能体强化学习也是机器学习和深度学习的重要分支,旨在改善多目标控制无法由单个智能体实现的缺点。每个智能体可以是合作、竞争或混合关系,它们通过观察环境执行某些动作后获得的奖励来学习如何在环境中做出决策。具体而言,有m个智能体,每个智能体首先接收自己的观测值。然后,从动作空间中选择一个操作,随后将其发送到环境中。此后,环境状态从S转移至S',每个智能体接收与这些转移相关联的奖励。训练智能体的目的是尽可能多地收集多个智能体的累积奖励。
JSSRC的学习模型构建:本发明采用元组来定义JSSRC方案,其中S是两个代理的状态空间,A1和A2是操作空间,R是两个代理执行操作后获得的奖励总和,S'是执行操作后环境的状态。状态转移函数T被定义为T:S×A1×A2→P(S),其中P(S)是可能的下一个状态的概率分布。此外,JSSRC中有两个代理各自具有一组观察值O1和O2。环境状态被定义为,新的环境状态被定义为。每个代理的奖励也取决于所有代理的全局状态和行动,因此有奖励函数,其中是代理的数量,是所有可能的奖励集合。时间步长被定义为当进行调度决策时的时隙。因此,在第k个时间步长,MC访问位置i并完成充电决策,其中i∈[0,n]。当任何终止条件满足时,K被定义为最大时间步长。第k个时间步所对应的时隙被定义为t(k)。当第k个时间步的动作完成时,相应的时隙被记录为t(k)。JSSRC的调度示例如图3所示。为了表述清楚,本发明省略了传感器之间的信息通信过程,仅留下调度决策和充电路径。图的上部分描述了时隙和时间步之间的关系。在网络寿命内,两个代理根据时间步k中的状态S(k)和它们的观察和确定两个操作和。a1代表代理1选择下一个充电的传感器的决策,a2代表代理2控制充电比率的决策。代理根据不断的探索获取策略,并根据所获得的策略计算奖励R。最后,在结束时,定义环境的状态、操作、策略和奖励如下:
可选地,上述步骤S2可以包括如下步骤S21-S24:
S21、定义环境的状态,包括移动充电器的状态信息和传感器的状态信息。
一种可行的实施方式中,JSAAC中的环境状态空间包括MC和传感器状态信息,分别定义为和。时间步k的信息示例如下:为,为,其中和是MC的位置和剩余能量,是将要充电的传感器的位置,和是传感器的充电需求和能量消耗率,其中,,代表仓库,的值为0,因为仓库不需要充电。状态嵌入是一个5×K维的向量,在时间步k处定义为;只有传感器的位置是静态的元素,其他都是动态的。
S22、定义环境的动作,JSSRC中的行动表示目标传感器和充电比率的决策,由两个智能体确定。
S23、定义环境的策略,单个智能体的策略用描述,其中a是行动,o是智能体的观察,π是策略。在JSSRC中有两个智能体,本发明用θ={θ1,θ2}对两个智能体进行参数化,并且用π={π1,π2}来定义,其中πθ:Oθ→P(Aθ),P(θ)∈[0,1],θ=1,2。JSSRC的主要目标是学习一组最优策略,以最大化两个智能体的预期折扣奖励。
S24、定义环境的奖励,包括充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励。
一种可行的实施方式中,奖励用于评估行动,其值是智能体执行行动后获得的。本发明目标是提高WRSN的充电性能,包括最小化MC的移动距离和减少死亡传感器的数量。由于死亡传感器的总数与奖励成反比,如果执行的行动导致更多传感器死亡,将对此行为进行惩罚。因此,两个智能体的预期折扣奖励定义为公式(10),并且在第k个时间步执行行动后获得的即时奖励定义为公式(11)。
(10)
(11)
(12)
其中,a1的动作空间是,a2的动作空间是。ω是0到1之间的奖励系数,可以确保移动距离越短,得到的奖励就越大。表示第k个时间步的动作后新的死传感器的数量,是惩罚系数。在(12)中,表示在满足终止条件时执行动作后获得的总移动距离。显然,收费序列和收费率的决定对奖励函数有不同的贡献,这给算法的设计带来了困难。
S25、环境的状态空间更新:JSSRC的一集可以形成有限的决策序列、观察、动作和即时奖励。
一种可行的实施方式中,为了显示状态的具体更新过程,假设MC位于时间步0的车厂。在每个时间步,MC决定来自SN的下一个收费传感器,并确定它的相应充电比率。定义充电前后传感器sn的残余能量分别为和。在时间步k执行充电操作后,每个传感器和MC的剩余能量的充电需求将更新。它们如下所示:
(13)
(14)
(15)
(16)
其中,第k个和第k个时间步长之间的MC移动持续时间。
假设在第k-1个时间步,MC位于第k步的snj处,MC位于sni。因此,有d(k,k−1)=dij,tm(k)可以通过以下方式获得:
(17)
如果传感器在第k个时刻还活着,那么充电时间是:
(18)
其中,是第k个时间步长的唯一充电率。
因此,三种关于的工作状态的充电需求为:
(19)
(20)
(21)
执行充电操作前后MC的剩余能量分别定义为和,它们将用公式(22)和公式(23)更新:
(22)
(23)
S26、为了加快训练速度并获得可行的解决方案,本发明给出了以下约束:
(1)只要其残余能量满足下一个选定传感器的充电需求,MC就可以访问网络中的任何位置,或者足以返回车厂。
(2)收费大于0的所有传感器都有一定的概率被选为下一个要收费的传感器。
(3)MC不负责充电需求为零的传感器。
(4)如果MC的残余能量不满足下一个选定传感器的充电需求,但足以返回车厂,MC被允许返回给车厂,而MC的充电时间被忽略。
(5) 两个相邻时间步长的传感器充电决策不同。
(6)如果MC的残余能量不满足下一个传感器的充电需求,不足以返回车厂,或者达到预设的网络生命周期,无论传感器是否仍然活着,充电计划将结束。
S3、采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对学习模型进行求解,得到无限可充电传感器网络的基于深度强化学习的多智能体移动充电调度结果。
如图4所示,AMADRL-JSSRC的实现由环境、经验回放缓冲区(D)、小批量(B)、获得的奖励和不同的神经网络组成。每个代理都可以部分观察到环境,参与者和评论家网络估计充电序列调度器和充电比控制器的最佳控制策略。
可选地,S3中的采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对学习模型进行求解,包括:
根据具有可微键值记忆模型的注意力机制,计算代理的Q值函数,进而为充电序列调度器智能体以及充电比例控制器智能体选择策略。
一种可行的实施方式中,与MADDPG和MAPPO等传统方法不同,每个代理在没有区分的情况下从其他代理接收信息并计算相应的Q值。在JSSRC中,充电序列调度器和充电比控制器对q值的贡献是不同的。与充电比相比,充电序列的决策对奖励的影响更大。为了计算代理的Q值函数,本发明引入了具有可微键值记忆模型的注意力机制。这种机制不需要对输入的时间或空间局部性做出任何假设,这更适合克服每个代理具有不同动作空间的难度,并在本发明中贡献不同的奖励。
进一步地,在每个时间步,每个代理中的评论家网络将接收所有的观察信息和动作信息。本发明将除之外的所有代理的集合定义为,使用作为指针来索引集合。定义为代理的函数,它是通过将观察信息、动作信息和来自其他代理的贡献相结合获得的:
(24)
其中,是一个两层多层感知器MLP,是一个单层MLP嵌入函数,是来自其他代理的贡献,它是每个代理的值的加权和。
(25)
在(25)中,是用嵌入函数编码的代理的嵌入函数。然后,共享矩阵V用于线性变换。h是一个名为“leaky ReLu”的元素非线性激活函数,它可以保留一些负轴值,以防止所有负轴信息丢失。
(26)
其中,φ是一个非常小的常数。
注意力权重使用双线性映射(即查询键系统)将嵌入的与进行比较,并将这两个嵌入之间的相似性值传递给SoftMax函数:
(27)
其中,被转换为的“查询”,被转换为的“钥匙”。
为了防止梯度消失,匹配由这两个矩阵的维度缩放。AMADRL-JSSRC中引入了多种注意力头机制,每个头都有一组单独的参数,这可能导致从另一个代理到代理i的聚合贡献。本发明将所有头部的贡献连接成一个向量。最重要的一点是,每个头都可以专注于代理的不同加权混合。
在AMADRL-JSSRC中,提取选择器、键和值的权重在两个代理之间共享,因为多智能体价值函数本质上是一个多任务回归问题。评论网络中的这种参数共享使本发明的方法能够在个体代理的动作空间和奖励不同但共享共同观察特征的环境中有效地学习。
AMADRL-JSSPRC中的参数更新:根据算法1中的第17行到第24行和第28行到第32行,将分别更新批评网络和策略梯度中使用的参数和。
由于参数在AMADRL-JSSPRC的批评网络中共享,因此所有批评网络一起更新,以最小化联合回归损失函数:
(28)
(29)
值得注意的是,用于通过接收来自所有代理的观察信息和动作信息来估计代理的动作值。D是一个重放缓冲区来存储过去的经验。在公式(29)中,是一个可以权衡最大化熵和奖励的参数。
由于充电序列决策对预期奖励的影响大于充电比决策,为了客观地给出最优策略,需要将特定动作的值与代理平均动作的值进行比较,另一个代理固定。本发明可以确定所述动作是否会导致预期回报的增加,或者奖励的任何增加是否归因于另一个代理的动作。这个问题被称为多智能体信用分配。一个有效的解决方案是引入一个优势函数和一个基线,它只将给定代理的动作从边缘化,这个优势函数的形式如下所示:
(30)
(31)
其中,是用于计算优势函数的多智能体基线,本发明通过输出每个可能的动作的预期回报在单个前向传递中使用AMADRL-JSSPRC算法计算基线。期望可以用公式(32)精确计算:
(32)
进一步地,为了实现这一目标,本发明进行了以下四个调整:
(1)本发明必须从的输入中删除并输出每个动作的值。
(2)本发明需要添加一个观察编码器,以替换上述公式(24)中的。
(3)本发明还修改以输出所有可能动作的Q值,而不是单个输入动作。
(4)为了避免过度泛化,本发明从所有代理的当前策略中采样所有动作,以计算代理的梯度估计,而不是从经验回放缓冲区中采样其他代理的动作。
因此,每个代理的策略将通过以下方式更新:
(33)
与现有的研究不同,本发明同时考虑充电序列和充电比例的优化。引入了两个异构智能体,分别命名为充电序列调度器和充电比例控制器。这两个智能体在动态变化的环境下分别给出充电决策,旨在延长网络寿命并最小化死亡传感器的数量。
本发明设计了一种新颖的奖励函数,采用惩罚系数综合考虑MC的路径长度和死亡传感器数量,以促进智能体做出更好的决策。
本发明在AMADRL-JSSRC中引入了注意力共享机制,以解决充电序列和充电比例对奖励函数的贡献不同的问题。
本发明实施例中,研究了一种新的联合充电序列调度与充电比控制问题,提出了一种基于注意共享的多智能Actor-Critic的深度再增强学习方法AMADRL-JSSPRC,其中充电序列调度器和充电比控制器通过与环境交互来确定目标传感器和充电率。AMADRL-JSSRC在多智能体环境中训练分散策略,使用集中式计算批评网络共享注意力机制,并为每个智能体选择相关策略信息。同时,AMADRL-JSSRC性能显著延长了WRSN的寿命,最小化了死传感器的数量,在处理大规模WRSNs时,其性能更为显著。在未来的工作中,多个MC的多智能体强化学习方法共同完成充电任务是进一步研究的关键点。
如图5所示,本发明实施例提供了一种基于深度强化学习的多智能体移动充电调度装置500,该装置500应用于实现基于深度强化学习的多智能体移动充电调度方法,该装置500包括:
问题构建模块510,用于对待调度的无限可充电传感器网络,构建序列调度和充电比控制的联合调度问题。
模型构建模块520,用于构建联合调度问题的学习模型。
输出模块530,用于采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对学习模型进行求解,得到无限可充电传感器网络的基于深度强化学习的多智能体移动充电调度结果。
可选地,问题构建模块510,进一步用于:
S11、定义传感器的剩余能量、传感器的充电需求以及移动充电器的剩余能量。
S12、构建序列调度和充电比控制的联合调度问题的终止条件。
S13、根据传感器的剩余能量、传感器的充电需求、移动充电器的剩余能量以及终止条件,构建序列调度和充电比控制的联合调度问题。
其中,联合调度问题满足最大化无限可充电传感器网络的生命周期并最小化失效传感器的数量。
可选地,序列调度和充电比控制的联合调度问题的终止条件,包括:
失效传感器的数量达到预设阈值。
移动充电器的剩余能量不足以返回到仓库。
传感器达到预设目标寿命或达到预设基本时间。
可选地,模型构建模块520,进一步用于:
定义环境的状态,包括移动充电器的状态信息和传感器的状态信息。
定义环境的动作,用于表示目标传感器的决策和充电比率的决策。
定义环境的策略,包括最大化充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励;其中,充电序列调度器智能体以及充电比例控制器智能体分别具有独立的演员网络以及评论家网络。
定义环境的奖励,包括充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励。
定义约束条件。
可选地,充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励,如下式(1)-(3)所示:
(1)
(2)
(3)
其中,π是策略,是期望,a1是代理1选择下一个充电的传感器的决策,a2是代理2控制充电比率的决策,S是状态,T是时刻,K是最大时间步长,是时间步k的折扣因子,是奖励,ω是0到1之间的奖励系数,d是距离,是惩罚系数, 表示第k个时间步的动作后新的无效传感器的数量,表示在满足终止条件时执行动作后获得的总移动距离。
可选地,约束条件,包括:
如果移动充电器的残余能量满足下一个选定传感器的充电需求或者足以返回车厂,则移动充电器允许访问无限可充电传感器中的任何位置。
收费大于0的所有传感器都有一定的概率被选为下一个要收费的传感器。
移动充电器不负责充电需求为零的传感器。
如果移动充电器的残余能量不满足下一个选定传感器的充电需求,但足以返回车厂,则移动充电器被允许返回给车厂,而移动充电器的充电时间被忽略。
两个相邻时间步长的传感器充电决策不同。
如果移动充电器的残余能量不满足下一个传感器的充电需求且不足以返回车厂,或者达到预设的网络生命周期,则充电计划结束。
可选地,输出模块530,进一步用于:
根据具有可微键值记忆模型的注意力机制,计算代理的Q值函数,进而为充电序列调度器智能体以及充电比例控制器智能体选择策略。
其中,代理的Q值函数,如下式(4)所示:
(4)
其中,是代理的Q值函数,,是状态,是动作,o是智能体的观察,是一个两层多层感知器MLP,是一个单层MLP嵌入函数,是其他代理的贡献。
可选地,输出模块530,进一步用于:
引入优势函数和基线,将给定代理的动作从Q值函数边缘化。
其中,优势函数以及基线如下式(5)、(6)所示:
(5)
(6)
其中,是代理的Q值函数,,是用于计算优势函数的多智能体基线,是期望,是状态,是动作,π是策略,o是智能体的观察,是代理≠。
本发明实施例中,研究了一种新的联合充电序列调度与充电比控制问题,提出了一种基于注意共享的多智能Actor-Critic的深度再增强学习方法AMADRL-JSSPRC,其中充电序列调度器和充电比控制器通过与环境交互来确定目标传感器和充电率。AMADRL-JSSRC在多智能体环境中训练分散策略,使用集中式计算批评网络共享注意力机制,并为每个智能体选择相关策略信息。同时,AMADRL-JSSRC性能显著延长了WRSN的寿命,最小化了死传感器的数量,在处理大规模WRSNs时,其性能更为显著。在未来的工作中,多个MC的多智能体强化学习方法共同完成充电任务是进一步研究的关键点。
图6是本发明实施例提供的一种电子设备600的结构示意图,该电子设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)601和一个或一个以上的存储器602,其中,存储器602中存储有至少一条指令,至少一条指令由处理器601加载并执行以实现下述基于深度强化学习的多智能体移动充电调度方法:
S1、对待调度的无限可充电传感器网络,构建序列调度和充电比控制的联合调度问题。
S2、构建联合调度问题的学习模型。
S3、采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对学习模型进行求解,得到无限可充电传感器网络的基于深度强化学习的多智能体移动充电调度结果。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于深度强化学习的多智能体移动充电调度方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度强化学习的多智能体移动充电调度方法,其特征在于,所述方法包括:
S1、对待调度的无限可充电传感器网络,构建序列调度和充电比控制的联合调度问题;
S2、构建所述联合调度问题的学习模型;
S3、采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对所述学习模型进行求解,得到无限可充电传感器网络的基于深度强化学习的多智能体移动充电调度结果。
2.根据权利要求1所述的方法,其特征在于,所述S1中的构建序列调度和充电比控制的联合调度问题,包括:
S11、定义传感器的剩余能量、传感器的充电需求以及移动充电器的剩余能量;
S12、构建序列调度和充电比控制的联合调度问题的终止条件;
S13、根据所述传感器的剩余能量、传感器的充电需求、移动充电器的剩余能量以及终止条件,构建序列调度和充电比控制的联合调度问题;
其中,所述联合调度问题满足最大化无限可充电传感器网络的生命周期并最小化失效传感器的数量。
3.根据权利要求2所述的方法,其特征在于,所述S12中的序列调度和充电比控制的联合调度问题的终止条件,包括:
失效传感器的数量达到预设阈值;
移动充电器的剩余能量不足以返回到仓库;
传感器达到预设目标寿命或达到预设基本时间。
4.根据权利要求1所述的方法,其特征在于,所述S2中的构建所述联合调度问题的学习模型,包括:
定义环境的状态,包括移动充电器的状态信息和传感器的状态信息;
定义环境的动作,用于表示目标传感器的决策和充电比率的决策;
定义环境的策略,包括最大化充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励;其中,所述充电序列调度器智能体以及充电比例控制器智能体分别具有独立的演员网络以及评论家网络;
定义环境的奖励,包括充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励;
定义约束条件。
5.根据权利要求4所述的方法,其特征在于,所述充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励,如下式(1)-(3)所示:
(1)
(2)
(3)
其中,π是策略,是期望,a1是代理1选择下一个充电的传感器的决策,a2是代理2控制充电比率的决策,S是状态,T是时刻,K是最大时间步长,是时间步k的折扣因子,是奖励,ω是0到1之间的奖励系数,d是距离,是惩罚系数, 表示第k个时间步的动作后新的无效传感器的数量,表示在满足终止条件时执行动作后获得的总移动距离。
6.根据权利要求4所述的方法,其特征在于,所述约束条件,包括:
如果移动充电器的残余能量满足下一个选定传感器的充电需求或者足以返回车厂,则移动充电器允许访问无限可充电传感器中的任何位置;
收费大于0的所有传感器都有一定的概率被选为下一个要收费的传感器;
移动充电器不负责充电需求为零的传感器;
如果移动充电器的残余能量不满足下一个选定传感器的充电需求,但足以返回车厂,则移动充电器被允许返回给车厂,而移动充电器的充电时间被忽略;
两个相邻时间步长的传感器充电决策不同;
如果移动充电器的残余能量不满足下一个传感器的充电需求且不足以返回车厂,或者达到预设的网络生命周期,则充电计划结束。
7.根据权利要求1所述的方法,其特征在于,所述S3中的采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对所述学习模型进行求解,包括:
根据具有可微键值记忆模型的注意力机制,计算代理的Q值函数,进而为充电序列调度器智能体以及充电比例控制器智能体选择策略;
其中,所述代理的Q值函数,如下式(4)所示:
(4)
其中,是代理的Q值函数,,是状态,是动作,o是智能体的观察,是一个两层多层感知器MLP,是一个单层MLP嵌入函数,是其他代理的贡献。
8.根据权利要求1所述的方法,其特征在于,所述S3中的采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对所述学习模型进行求解,还包括:
引入优势函数和基线,将给定代理的动作从Q值函数边缘化;
其中,所述优势函数以及基线如下式(5)、(6)所示:
(5)
(6)
其中,是代理的Q值函数,,是用于计算优势函数的多智能体基线,是期望,是状态,是动作,π是策略,o是智能体的观察,是代理≠。
9.一种基于深度强化学习的多智能体移动充电调度装置,其特征在于,所述装置包括:
问题构建模块,用于对待调度的无限可充电传感器网络,构建序列调度和充电比控制的联合调度问题;
模型构建模块,用于构建所述联合调度问题的学习模型;
输出模块,用于采用基于深度强化学习的注意力共享多智能体演员-评论家AMADRL-JSSPRC方法,对所述学习模型进行求解,得到无限可充电传感器网络的基于深度强化学习的多智能体移动充电调度结果。
10.根据权利要求9所述的装置,其特征在于,所述模型构建模块,用于:
定义环境的状态,包括移动充电器的状态信息和传感器的状态信息;
定义环境的动作,用于表示目标传感器的决策和充电比率的决策;
定义环境的策略,包括最大化充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励;其中,所述充电序列调度器智能体以及充电比例控制器智能体分别具有独立的演员网络以及评论家网络;
定义环境的奖励,包括充电序列调度器智能体以及充电比例控制器智能体的预期折扣奖励;
定义约束条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310998709.4A CN116702635A (zh) | 2023-08-09 | 2023-08-09 | 基于深度强化学习的多智能体移动充电调度方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310998709.4A CN116702635A (zh) | 2023-08-09 | 2023-08-09 | 基于深度强化学习的多智能体移动充电调度方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116702635A true CN116702635A (zh) | 2023-09-05 |
Family
ID=87831634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310998709.4A Withdrawn CN116702635A (zh) | 2023-08-09 | 2023-08-09 | 基于深度强化学习的多智能体移动充电调度方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116702635A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350515A (zh) * | 2023-11-21 | 2024-01-05 | 安徽大学 | 一种基于多智能体强化学习的远洋海岛群能量流调度方法 |
CN117689096A (zh) * | 2024-01-25 | 2024-03-12 | 武汉科技大学 | 一种具有避障功能的移动充电调度方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112738752A (zh) * | 2020-12-24 | 2021-04-30 | 昆明理工大学 | 一种基于强化学习的wrsn多移动充电器优化调度方法 |
CN115907377A (zh) * | 2022-11-21 | 2023-04-04 | 昆明理工大学 | 一种基于多智能体深度强化学习的协作充电规划方法 |
-
2023
- 2023-08-09 CN CN202310998709.4A patent/CN116702635A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112738752A (zh) * | 2020-12-24 | 2021-04-30 | 昆明理工大学 | 一种基于强化学习的wrsn多移动充电器优化调度方法 |
CN115907377A (zh) * | 2022-11-21 | 2023-04-04 | 昆明理工大学 | 一种基于多智能体深度强化学习的协作充电规划方法 |
Non-Patent Citations (1)
Title |
---|
CHENGPENG JIANG等: "Attention-Shared Multi-Agent Actor–Critic-Based Deep Reinforcement Learning Approach for Mobile Charging Dynamic Scheduling in Wireless Rechargeable Sensor Networks", 《ENTROPY 2022》, pages 1 - 23 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350515A (zh) * | 2023-11-21 | 2024-01-05 | 安徽大学 | 一种基于多智能体强化学习的远洋海岛群能量流调度方法 |
CN117350515B (zh) * | 2023-11-21 | 2024-04-05 | 安徽大学 | 一种基于多智能体强化学习的远洋海岛群能量流调度方法 |
CN117689096A (zh) * | 2024-01-25 | 2024-03-12 | 武汉科技大学 | 一种具有避障功能的移动充电调度方法 |
CN117689096B (zh) * | 2024-01-25 | 2024-04-19 | 武汉科技大学 | 一种具有避障功能的移动充电调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lei et al. | Deep reinforcement learning for autonomous internet of things: Model, applications and challenges | |
Liu et al. | Distributed and energy-efficient mobile crowdsensing with charging stations by deep reinforcement learning | |
Chen et al. | Mean field deep reinforcement learning for fair and efficient UAV control | |
Cao et al. | A deep reinforcement learning-based on-demand charging algorithm for wireless rechargeable sensor networks | |
CN116702635A (zh) | 基于深度强化学习的多智能体移动充电调度方法及装置 | |
CN112738752B (zh) | 一种基于强化学习的wrsn多移动充电器优化调度方法 | |
Zhao et al. | Spatiotemporal charging scheduling in wireless rechargeable sensor networks | |
CN112788560B (zh) | 一种基于深度强化学习的时空充电调度方法 | |
Banoth et al. | Dynamic mobile charger scheduling with partial charging strategy for WSNs using deep-Q-networks | |
Hashesh et al. | AI-enabled UAV communications: Challenges and future directions | |
Priyadarshani et al. | An efficient partial charging scheme using multiple mobile chargers in wireless rechargeable sensor networks | |
CN113887138B (zh) | 一种基于图神经网络和强化学习的wrsn充电调度方法 | |
Masadeh et al. | Reinforcement learning-based security/safety uav system for intrusion detection under dynamic and uncertain target movement | |
Sapre et al. | A differential moth flame optimization algorithm for mobile sink trajectory | |
Soni et al. | Novel wireless charging algorithms to charge mobile wireless sensor network by using reinforcement learning | |
Chen et al. | Efficient data collection in large-scale UAV-aided wireless sensor networks | |
CN115314943A (zh) | 无线传感器网络中基于深度强化学习的一对多能量补充方法 | |
Yu et al. | Charging strategy and scheduling algorithm for directional wireless power transfer in WRSNs | |
Han et al. | Dynamic collaborative charging algorithm for mobile and static nodes in Industrial Internet of Things | |
CN117689096B (zh) | 一种具有避障功能的移动充电调度方法 | |
Cheng et al. | Trace Pheromone-Based Energy-Efficient UAV Dynamic Coverage Using Deep Reinforcement Learning | |
Liu et al. | Learning an effective charging scheme for mobile devices | |
Zhao et al. | Directional charging-based scheduling strategy for multiple mobile chargers in wireless rechargeable sensor networks | |
Wei et al. | A novel on-demand charging strategy based on swarm reinforcement learning in WRSNs | |
Betalo et al. | Multi-agent deep reinforcement learning-based task scheduling and resource sharing for O-RAN-empowered multi-UAV-assisted wireless sensor networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230905 |