CN113848868A - 一种意图驱动的强化学习路径规划方法 - Google Patents

一种意图驱动的强化学习路径规划方法 Download PDF

Info

Publication number
CN113848868A
CN113848868A CN202111208888.4A CN202111208888A CN113848868A CN 113848868 A CN113848868 A CN 113848868A CN 202111208888 A CN202111208888 A CN 202111208888A CN 113848868 A CN113848868 A CN 113848868A
Authority
CN
China
Prior art keywords
data acquisition
acquisition unit
data
sensor node
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111208888.4A
Other languages
English (en)
Other versions
CN113848868B (zh
Inventor
张华�
苏娜
王俊波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202111208888.4A priority Critical patent/CN113848868B/zh
Priority to PCT/CN2021/137549 priority patent/WO2023065494A1/zh
Publication of CN113848868A publication Critical patent/CN113848868A/zh
Application granted granted Critical
Publication of CN113848868B publication Critical patent/CN113848868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种意图驱动的强化学习路径规划方法,主要步骤包括:1、数据采集器获取监测网络的状态;2、根据环境障碍物、传感器节点和数据采集器的位置选择数据采集器的转向角;3、根据ε贪心策略选择数据采集器的速度、目标节点和下一目标节点作为动作;4、数据采集器根据选择的转向角和速度确定下一时隙的位置;5、根据数据采集器和传感器节点的意图得到奖赏和惩罚,并更新Q值;6、重复执行步骤1至步骤5,直至到达终止状态或收敛条件;7、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最佳路径;本发明提出的方法可以以较高的成功概率、更接近意图的性能完成数据采集路径规划。

Description

一种意图驱动的强化学习路径规划方法
技术领域
本发明属于无线通信技术领域,尤其涉及一种意图驱动的强化学习路径规划方法。
背景技术
随着物联网领域的发展,无线传感器网络作为一种监测技术被广泛应用于监测周围环境,例如空气污染、海洋资源探测、灾害预警等。这些物联网传感器通常是能量受限的设备,传输范围有限,需要数据采集器收集传感器的数据并进行进一步的转发或处理。近年来,随着自动控制系统变得越来越智能和可靠,无人机、无人船和无人潜艇等智能设备已经被部署在军事和民用应用中,在危险和难以访问的环境下执行困难或乏味的任务。
尽管无人机、无人船和无人潜艇等作为数据采集器可以更方便地完成监测网络的数据收集,但它们存在能量有限这一关键挑战。从基地出发后,数据采集器需要向传感器节点行进,同时避免与环境障碍物、传感器节点的碰撞,并在规定时间内回到基地,防止能量耗尽。因此,需要根据数据采集器与传感器节点的意图合理地设计数据采集器的运动路径,以提高监测网络的数据采集效率。
在已有的数据采集路径规划方案中,大部分都是单独考虑数据采集器和传感器节点的意图,不能针对数据采集器和传感器节点不同的意图调整数据采集路径。同时,现有路径规划方法没有考虑监测环境中随机出现和随机移动的动态障碍物。因此,现有路径规划方法存在采集效率和可靠性低的问题。
发明内容
为解决上述技术问题,本发明提供一种意图驱动的强化学习路径规划方法,该方法根据实时变化的监测网络环境,将数据采集器和传感器节点的意图表示为奖赏与惩罚,利用Q-learning强化学习方法规划数据采集器的路径,提高数据采集的效率和可靠性。
一种意图驱动的强化学习路径规划方法,包括如下的步骤:
步骤A、数据采集器获取监测网络的状态;
步骤B、根据数据采集器、传感器节点和环境障碍物的位置,确定数据采集器的转向角;
步骤C、根据ε贪心策略选择数据采集器动作,包括数据采集器的速度、目标节点和下一目标节点;
步骤D、数据采集器根据转向角调整行进方向,执行动作至下一时隙位置;
步骤E、根据数据采集器和传感器节点的意图计算奖赏和惩罚,并更新Q值;
步骤F、重复执行步骤A至步骤E,直到监测网络到达终止状态或Q学习满足收敛条件;
步骤G、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最优数据采集路径。
进一步地,所述步骤A中监测网络的状态s包括:数据采集器在时隙n的行进方向
Figure BDA0003308087200000021
数据采集器的坐标qu[n]、传感器节点的可用存储空间{bam[n]}m∈M、传感器节点的数据采集完成情况{wm[n]}m∈M、数据采集器与传感器节点的距离{dum[n]}m∈M、数据采集器与环境障碍物的距离{duk[n]}k∈K,其中M为传感器节点的集合、K为环境障碍物的集合,wm[n]∈{0,1}为传感器节点数据采集指示因子,wm[n]=1表示数据采集器在时隙n完成传感器节点m的数据采集,否则,表示未完成。
进一步地,所述步骤B中数据采集器转向角的计算公式表示为:
Figure BDA0003308087200000022
其中,
Figure BDA0003308087200000023
为数据采集器坐标qu[n]与目标行进位置p[n]之间的相对角度,
Figure BDA0003308087200000024
为数据采集器的最大转向角。
进一步地,所述步骤B中确定目标行进位置的步骤包括:
步骤B1:判断数据采集器是否感知到障碍物,如果感知到障碍物,比较
Figure BDA0003308087200000025
Figure BDA0003308087200000026
的大小。如果
Figure BDA0003308087200000027
则数据采集器的目标行进位置
Figure BDA0003308087200000028
否则数据采集器的目标行进位置
Figure BDA0003308087200000029
其中
Figure BDA00033080872000000210
Figure BDA00033080872000000211
为数据采集器以最大感知角度探测环境障碍物边界上的两点,
Figure BDA00033080872000000212
Figure BDA00033080872000000213
分别为目标传感器节点与点
Figure BDA00033080872000000214
的相对角度。
步骤B2:如果数据采集器没有感知到环境障碍物,判断数据采集器到下一目标节点m2的路径
Figure BDA0003308087200000031
是否穿过目标节点m1的通信区域C1。如果
Figure BDA0003308087200000032
不会穿过C1,则目标行进位置
Figure BDA0003308087200000033
其中,
Figure BDA0003308087200000034
为通信区域C1上使距离
Figure BDA0003308087200000035
最短的点。
步骤B3:如果
Figure BDA0003308087200000036
穿过C1,判断路径
Figure BDA0003308087200000037
是否穿过目标节点m1的安全区域C2。如果
Figure BDA0003308087200000038
不会穿过C2,则目标行进位置
Figure BDA0003308087200000039
否则,目标行进位置
Figure BDA00033080872000000310
其中,
Figure BDA00033080872000000311
为安全区域C2上使距离
Figure BDA00033080872000000312
最短的点。
进一步地,所述步骤C中ε贪心策略选择动作的方法表示为:
Figure BDA00033080872000000313
其中,ε为探索概率、β∈[0,1]为随机产生的数值、Q(s,a)为状态s时执行动作a的Q值。
进一步地,所述步骤D中数据采集器下一时隙位置的计算公式为:
Figure BDA00033080872000000314
其中,xu[n-1]和yu[n-1]为数据采集器的x坐标和y坐标、v[n]为数据采集器的行进速度、τ为每个时隙的时长。
进一步地,所述步骤E中数据采集器和传感器节点意图对应的奖赏和惩罚计算步骤包括:
步骤D1:考虑数据采集器的意图为以最小的能量消耗Etot安全完成所有传感器节点的数据采集,并在规定时间T内返回基地;传感器节点的意图为最小化溢出数据
Figure BDA00033080872000000315
则Q学习的奖赏Ra(s,s')为数据采集器能量消耗和传感器节点数据溢出的加权和
Figure BDA00033080872000000316
其中,s'为在状态s执行动作a后监测网络的下一状态、
Figure BDA00033080872000000317
为权重因子。
步骤D2:根据数据采集器与传感器节点的意图,Q学习的惩罚为Ca(s,s')=θsafeboutimetrater,其中,θsafe为安全惩罚,表示数据采集器与环境障碍物、数据采集器与传感器节点的距离须满足防碰撞距离;θbou为边界惩罚,表示数据采集器不得超过其可行区域;θtime为时间惩罚,表示数据采集器须在时间T内完成数据采集;θtra为遍历采集惩罚,表示所有传感器节点的数据须被采集;θter为终点惩罚,表示数据采集器须在时间T内返回基地。
进一步地,所述步骤E中Q值的更新公式为:
Figure BDA0003308087200000041
其中,α为学习率、γ为奖赏折扣因子。
进一步地,所述步骤F中监测网络的终止状态为数据采集器完成传感器节点的数据采集或数据采集器在时刻T还未完成数据采集;Q学习的收敛条件表示为:
|Qj(s,a)-Qj-1(s,a)|≤ξ (10)
其中,ξ为学习允许误差、j为学习的迭代次数。
进一步地,意图驱动的强化学习路径规划方法适用于无人机协助的地面物联网、无人船协助的海洋监测网络、无人潜艇协助的海床传感器网络。
本发明的一种意图驱动的强化学习路径规划方法具有以下优点:
根据监测环境中的随机动态障碍物和实时感知数据,综合考虑数据采集器和传感器节点的意图,设计了节点全覆盖的数据采集路径规划方法。Q学习模型会根据当前监测网络状态信息,优化数据采集器的实时坐标,最小化意图差异,同时提高数据采集的效率和可靠性。
附图说明
图1为本发明的举例场景图;
图2为本发明的实施流程示意图。
具体实施方式
下面结合附图,对本发明一种意图驱动的强化学习路径规划方法做进一步详细的描述。
图1为本发明的举例场景图。如图1所示,
海洋监测网络中有一个无人船,M个传感器节点,K个诸如海岛、海浪、礁石等的障碍物。无人船从基地出发,避免与障碍物、传感器节点的碰撞,在规定时间T内,完成每个传感器节点的数据采集,并返回到基地。为了满足无人船和传感器节点的意图,将无人船加权能量消耗和传感器节点数据溢出表示为强化学习的奖赏,将安全意图、遍历采集意图、按时返回基地的意图表示为惩罚,利用Q学习方法优化无人船的路径。
图2为本发明的实施流程示意图,具体的实施步骤为:
步骤一、数据采集器获取监测网络的状态信息包括:数据采集器在时隙n的行进方向
Figure BDA0003308087200000051
数据采集器的坐标qu[n]、传感器节点的可用存储空间{bam}n]m∈M、传感器节点的数据采集完成情况{wm[n]}m∈M、数据采集器与传感器节点的距离{dum[n]}m∈M、数据采集器与环境障碍物的距离{duk[n]}k∈K,其中M为传感器节点的集合、K为环境障碍物的集合,wm[n]∈{0,1}为传感器节点数据采集指示因子,wm[n]=1表示数据采集器在时隙n完成传感器节点m的数据采集,否则,表示未完成。
步骤二、根据数据采集器、传感器节点和环境障碍物的位置,确定数据采集器的转向角采用了如下步骤:
(1)判断数据采集器是否感知到障碍物,如果感知到障碍物,比较
Figure BDA0003308087200000052
Figure BDA0003308087200000053
的大小。如果
Figure BDA0003308087200000054
则数据采集器的目标行进位置
Figure BDA0003308087200000055
否则数据采集器的目标行进位置
Figure BDA0003308087200000056
其中
Figure BDA0003308087200000057
Figure BDA0003308087200000058
为数据采集器以最大感知角度探测环境障碍物边界上的两点,
Figure BDA0003308087200000059
Figure BDA00033080872000000510
分别为目标传感器节点与点
Figure BDA00033080872000000511
Figure BDA00033080872000000512
的相对角度。
(2)如果数据采集器没有感知到环境障碍物,判断数据采集器到下一目标节点m2的路径
Figure BDA00033080872000000513
是否穿过目标节点m1的通信区域C1。如果
Figure BDA00033080872000000514
不会穿过C1,则目标行进位置
Figure BDA00033080872000000515
其中,
Figure BDA00033080872000000516
为通信区域C1上使距离
Figure BDA00033080872000000517
最短的点。
(3)如果
Figure BDA00033080872000000518
穿过C1,判断路径
Figure BDA00033080872000000519
是否穿过目标节点m1的安全区域C2。如果
Figure BDA00033080872000000520
不会穿过C2,则目标行进位置
Figure BDA00033080872000000521
否则,目标行进位置
Figure BDA00033080872000000522
其中,
Figure BDA00033080872000000523
为安全区域C2上使距离
Figure BDA00033080872000000524
最短的点。
(4)利用如下公式计算数据采集器的转向角:
Figure BDA0003308087200000061
其中,
Figure BDA0003308087200000062
为数据采集器坐标qu[n]与目标行进位置p[n]之间的相对角度,
Figure BDA0003308087200000063
为数据采集器的最大转向角。
步骤三、根据ε贪心策略选择数据采集器动作,包括数据采集器的速度、目标节点和下一目标节点。其中,ε贪心策略选择动作的方法表示为:
Figure BDA0003308087200000064
其中,ε为探索概率、β∈[0,1]为随机产生的数值、Q(s,a)为状态s时执行动作a的Q值。
步骤四、数据采集器根据转向角调整行进方向,执行动作至下一时隙位置,数据采集器坐标表示为:
Figure BDA0003308087200000065
其中,xu[n-1]和yu[n-1]为数据采集器的x坐标和y坐标、v[n]为数据采集器的行进速度、τ为每个时隙的时长。
步骤五、根据数据采集器和传感器节点的意图计算奖赏和惩罚,并利用如下公式更新Q值:
Figure BDA0003308087200000066
其中α为学习率、γ为奖赏折扣因子。
奖赏和惩罚的计算步骤包括:
(1)考虑数据采集器的意图为以最小的能量消耗Etot安全完成所有传感器节点的数据采集,并在规定时间T内返回基地;传感器节点的意图为最小化溢出数据
Figure BDA0003308087200000067
则Q学习的奖赏Ra(s,s')为数据采集器能量消耗和传感器节点数据溢出的加权和
Figure BDA0003308087200000068
其中,s'为在状态s执行动作a后监测网络的下一状态、
Figure BDA0003308087200000069
为权重因子。
(2)根据数据采集器与传感器节点的意图,Q学习的惩罚为Ca(s,s')=θsafeθboutimetrater,其中,θsafe为安全惩罚,表示数据采集器与环境障碍物、数据采集器与传感器节点的距离须满足防碰撞距离;θbou为边界惩罚,表示数据采集器不得超过其可行区域;θtime为时间惩罚,表示数据采集器须在时间T内完成数据采集;θtra为遍历采集惩罚,表示所有传感器节点的数据须被采集;θter为终点惩罚,表示数据采集器须在时间T内返回基地。
步骤六、重复执行步骤一至步骤五,直到监测网络到达终止状态或Q学习满足收敛条件。其中,终止状态为数据采集器完成传感器节点的数据采集或数据采集器在时刻T还未完成数据采集,Q学习的收敛条件表示为:
|Qj(s,a)-Qj-1(s,a)|≤ξ (15)
其中,ξ为学习允许误差、j为学习的迭代次数。
步骤七、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最优数据采集路径。
本发明意图驱动的强化学习路径规划方法适用于无人机协助的地面物联网、无人船协助的海洋监测网络、无人潜艇协助的海床传感器网络。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (9)

1.一种意图驱动的强化学习路径规划方法,其特征在于,包括以下步骤:
步骤A、数据采集器获取监测网络的状态;
步骤B、根据数据采集器、传感器节点和环境障碍物的位置,确定数据采集器的转向角;
步骤C、根据ε贪心策略选择数据采集器动作,包括数据采集器的速度、目标节点和下一目标节点;
步骤D、数据采集器根据转向角调整行进方向,执行动作至下一时隙位置;
步骤E、根据数据采集器和传感器节点的意图计算奖赏和惩罚,并更新Q值;
步骤F、重复执行步骤A至步骤E,直到监测网络到达终止状态或Q学习满足收敛条件;
步骤G、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最优数据采集路径。
2.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤A中监测网络的状态s包括:数据采集器在时隙n的行进方向
Figure FDA0003308087190000011
数据采集器的坐标qu[n]、传感器节点的可用存储空间{bam[n]}m∈M、传感器节点的数据采集完成情况{wm[n]}m∈M、数据采集器与传感器节点的距离{dum[n]}m∈M、数据采集器与环境障碍物的距离{duk[n]}k∈K,其中M为传感器节点的集合、K为环境障碍物的集合,wm[n]∈{0,1}为传感器节点数据采集指示因子,wm[n]=1表示数据采集器在时隙n完成传感器节点m的数据采集,否则,表示未完成。
3.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤B中数据采集器转向角的计算公式表示为:
Figure FDA0003308087190000012
其中,
Figure FDA0003308087190000013
为数据采集器坐标qu[n]与目标行进位置p[n]之间的相对角度,
Figure FDA0003308087190000014
为数据采集器的最大转向角。
4.根据权利要求3所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤B中确定目标行进位置的步骤包括:
步骤B1:判断数据采集器是否感知到障碍物,如果感知到障碍物,比较
Figure FDA0003308087190000021
Figure FDA0003308087190000022
的大小;如果
Figure FDA0003308087190000023
则数据采集器的目标行进位置
Figure FDA0003308087190000024
否则数据采集器的目标行进位置
Figure FDA0003308087190000025
其中
Figure FDA0003308087190000026
Figure FDA0003308087190000027
为数据采集器以最大感知角度探测环境障碍物边界上的两点,
Figure FDA0003308087190000028
Figure FDA0003308087190000029
分别为目标传感器节点与点
Figure FDA00033080871900000210
的相对角度;
步骤B2:如果数据采集器没有感知到环境障碍物,判断数据采集器到下一目标节点m2的路径
Figure FDA00033080871900000211
是否穿过目标节点m1的通信区域C1;如果
Figure FDA00033080871900000212
不会穿过C1,则目标行进位置
Figure FDA00033080871900000213
其中,
Figure FDA00033080871900000214
为通信区域C1上使距离
Figure FDA00033080871900000215
最短的点;
步骤B3:如果
Figure FDA00033080871900000216
穿过C1,判断路径
Figure FDA00033080871900000217
是否穿过目标节点m1的安全区域C2;如果
Figure FDA00033080871900000218
不会穿过C2,则目标行进位置
Figure FDA00033080871900000219
否则,目标行进位置
Figure FDA00033080871900000220
其中,
Figure FDA00033080871900000221
为安全区域C2上使距离
Figure FDA00033080871900000222
最短的点。
5.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤C中ε贪心策略选择动作的方法表示为:
Figure FDA00033080871900000223
其中,ε为探索概率、β∈[0,1]为随机产生的数值、Q(s,a)为状态s时执行动作a的Q值。
6.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤D中数据采集器下一时隙位置的计算公式为:
Figure FDA00033080871900000224
其中,xu[n-1]和yu[n-1]为数据采集器的x坐标和y坐标、v[n]为数据采集器的行进速度、τ为每个时隙的时长。
7.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤E中数据采集器和传感器节点意图对应的奖赏和惩罚计算步骤包括:
步骤D1:考虑数据采集器的意图为以最小的能量消耗Etot安全完成所有传感器节点的数据采集,并在规定时间T内返回基地;传感器节点的意图为最小化溢出数据
Figure FDA0003308087190000031
则Q学习的奖赏Ra(s,s')为数据采集器能量消耗和传感器节点数据溢出的加权和
Figure FDA0003308087190000032
其中,s'为在状态s执行动作a后监测网络的下一状态、
Figure FDA0003308087190000033
为权重因子;
步骤D2:根据数据采集器与传感器节点的意图,Q学习的惩罚为Ca(s,s')=θsafeboutimetrater,其中,θsafe为安全惩罚,表示数据采集器与环境障碍物、数据采集器与传感器节点的距离须满足防碰撞距离;θbou为边界惩罚,表示数据采集器不得超过其可行区域;θtime为时间惩罚,表示数据采集器须在时间T内完成数据采集;θtra为遍历采集惩罚,表示所有传感器节点的数据须被采集;θter为终点惩罚,表示数据采集器须在时间T内返回基地。
8.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤E中Q值的更新公式为:
Figure FDA0003308087190000034
其中,α为学习率、γ为奖赏折扣因子。
9.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤F中监测网络的终止状态为数据采集器完成传感器节点的数据采集或数据采集器在时刻T还未完成数据采集;Q学习的收敛条件表示为:
|Qj(s,a)-Qj-1(s,a)|≤ξ (5)
其中,ξ为学习允许误差、j为学习的迭代次数。
CN202111208888.4A 2021-10-18 2021-10-18 一种意图驱动的强化学习路径规划方法 Active CN113848868B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111208888.4A CN113848868B (zh) 2021-10-18 2021-10-18 一种意图驱动的强化学习路径规划方法
PCT/CN2021/137549 WO2023065494A1 (zh) 2021-10-18 2021-12-13 一种意图驱动的强化学习路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111208888.4A CN113848868B (zh) 2021-10-18 2021-10-18 一种意图驱动的强化学习路径规划方法

Publications (2)

Publication Number Publication Date
CN113848868A true CN113848868A (zh) 2021-12-28
CN113848868B CN113848868B (zh) 2023-09-22

Family

ID=78978692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111208888.4A Active CN113848868B (zh) 2021-10-18 2021-10-18 一种意图驱动的强化学习路径规划方法

Country Status (2)

Country Link
CN (1) CN113848868B (zh)
WO (1) WO2023065494A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110730486A (zh) * 2019-09-09 2020-01-24 南京理工大学 基于Q-Learning算法获取无线体域网最优路径的方法
CN110856134A (zh) * 2019-10-16 2020-02-28 东南大学 一种基于无人机的大规模无线传感器网络数据收集方法
CN112866911A (zh) * 2021-01-11 2021-05-28 燕山大学 基于q学习的自主水下航行器协助下水下数据收集方法
CN113283169A (zh) * 2021-05-24 2021-08-20 北京理工大学 一种基于多头注意力异步强化学习的三维群体探索方法
CN113342029A (zh) * 2021-04-16 2021-09-03 山东师范大学 基于无人机群的最大传感器数据采集路径规划方法及系统
CN113406965A (zh) * 2021-05-31 2021-09-17 南京邮电大学 一种基于强化学习的无人机能耗优化方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676064B2 (en) * 2006-05-17 2010-03-09 The Boeing Company Sensor scan planner
CN111515932A (zh) * 2020-04-23 2020-08-11 东华大学 一种基于人工势场与强化学习的人机共融流水线实现方法
CN112672307B (zh) * 2021-03-18 2021-06-29 浙江工商大学 一种基于q学习的无人机辅助数据收集系统及方法
CN113190039B (zh) * 2021-04-27 2024-04-16 大连理工大学 一种基于分层深度强化学习的无人机采集路径规划方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110730486A (zh) * 2019-09-09 2020-01-24 南京理工大学 基于Q-Learning算法获取无线体域网最优路径的方法
CN110856134A (zh) * 2019-10-16 2020-02-28 东南大学 一种基于无人机的大规模无线传感器网络数据收集方法
CN112866911A (zh) * 2021-01-11 2021-05-28 燕山大学 基于q学习的自主水下航行器协助下水下数据收集方法
CN113342029A (zh) * 2021-04-16 2021-09-03 山东师范大学 基于无人机群的最大传感器数据采集路径规划方法及系统
CN113283169A (zh) * 2021-05-24 2021-08-20 北京理工大学 一种基于多头注意力异步强化学习的三维群体探索方法
CN113406965A (zh) * 2021-05-31 2021-09-17 南京邮电大学 一种基于强化学习的无人机能耗优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PRAVEEN KUMAR DONTA 等: "Congestion-aware Data Acquisition with Q-learning for Wireless Sensor Networks", 2020 IEEE INTERNATIONAL IOT, ELECTRONICS AND MECHATRONICS CONFERENCE (IEMTRONICS) *
蒋宝庆 等: "基于Q 学习的无人机辅助WSN 数据采集轨迹规划", 计算机工程, vol. 47, no. 4 *

Also Published As

Publication number Publication date
CN113848868B (zh) 2023-09-22
WO2023065494A1 (zh) 2023-04-27

Similar Documents

Publication Publication Date Title
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN111240319B (zh) 室外多机器人协同作业系统及其方法
CN103926925B (zh) 一种基于改进的vfh算法的定位与避障方法及机器人
CN108681321B (zh) 一种无人船协同编队的水下探测方法
CN110333714A (zh) 一种无人驾驶汽车路径规划方法和装置
CN103336526B (zh) 基于协同进化粒子群滚动优化的机器人路径规划方法
CN113449578A (zh) 用于准确标识交通工具的环境中的对象的设备和方法
CN106873599A (zh) 基于蚁群算法和极坐标变换的无人自行车路径规划方法
CN107272680A (zh) 一种基于ros机器人操作系统的机器人自动跟随方法
CN109753068A (zh) 一种考虑通信情况的多usv群体协同避碰规划方法
CN108803313A (zh) 一种基于海流预测模型的路径规划方法
CN106919181A (zh) 一种无人机避障方法
CN110471426A (zh) 基于量子狼群算法的无人驾驶智能车自动避碰方法
Li et al. A satisficing conflict resolution approach for multiple UAVs
Guo et al. An improved a-star algorithm for complete coverage path planning of unmanned ships
CN112817318B (zh) 一种多无人艇协同搜索控制方法及系统
CN111176276A (zh) 一种智能仓储机器人的开发及应用
Yan et al. Reinforcement Learning‐Based Autonomous Navigation and Obstacle Avoidance for USVs under Partially Observable Conditions
Xinchi et al. A research on intelligent obstacle avoidance for unmanned surface vehicles
CN110825112B (zh) 基于多无人机的油田动态侵入目标追踪系统与方法
Lun et al. Target search in dynamic environments with multiple solar-powered UAVs
Li et al. Dynamic trajectory planning for unmanned ship under multi-object environment
Wu et al. Multi-vessels collision avoidance strategy for autonomous surface vehicles based on genetic algorithm in congested port environment
CN114967701A (zh) 一种动态环境下移动机器人自主导航方法
Gao et al. Constrained path-planning control of unmanned surface vessels via ant-colony optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant