CN113848868B - 一种意图驱动的强化学习路径规划方法 - Google Patents

一种意图驱动的强化学习路径规划方法 Download PDF

Info

Publication number
CN113848868B
CN113848868B CN202111208888.4A CN202111208888A CN113848868B CN 113848868 B CN113848868 B CN 113848868B CN 202111208888 A CN202111208888 A CN 202111208888A CN 113848868 B CN113848868 B CN 113848868B
Authority
CN
China
Prior art keywords
data collector
data
intention
sensor node
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111208888.4A
Other languages
English (en)
Other versions
CN113848868A (zh
Inventor
张华�
苏娜
王俊波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202111208888.4A priority Critical patent/CN113848868B/zh
Priority to PCT/CN2021/137549 priority patent/WO2023065494A1/zh
Priority to US17/923,114 priority patent/US12124282B2/en
Publication of CN113848868A publication Critical patent/CN113848868A/zh
Application granted granted Critical
Publication of CN113848868B publication Critical patent/CN113848868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/60Intended control result
    • G05D1/644Optimisation of travel parameters, e.g. of energy consumption, journey time or distance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B63SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
    • B63BSHIPS OR OTHER WATERBORNE VESSELS; EQUIPMENT FOR SHIPPING 
    • B63B79/00Monitoring properties or operating parameters of vessels in operation
    • B63B79/40Monitoring properties or operating parameters of vessels in operation for controlling the operation of vessels, e.g. monitoring their speed, routing or maintenance schedules
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D2101/00Details of software or hardware architectures used for the control of position
    • G05D2101/10Details of software or hardware architectures used for the control of position using artificial intelligence [AI] techniques
    • G05D2101/15Details of software or hardware architectures used for the control of position using artificial intelligence [AI] techniques using machine learning, e.g. neural networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D2109/00Types of controlled vehicles
    • G05D2109/30Water vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Ocean & Marine Engineering (AREA)
  • Chemical & Material Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Combustion & Propulsion (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种意图驱动的强化学习路径规划方法,主要步骤包括:1、数据采集器获取监测网络的状态;2、根据环境障碍物、传感器节点和数据采集器的位置选择数据采集器的转向角;3、根据ε贪心策略选择数据采集器的速度、目标节点和下一目标节点作为动作;4、数据采集器根据选择的转向角和速度确定下一时隙的位置;5、根据数据采集器和传感器节点的意图得到奖赏和惩罚,并更新Q值;6、重复执行步骤1至步骤5,直至到达终止状态或收敛条件;7、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最佳路径;本发明提出的方法可以以较高的成功概率、更接近意图的性能完成数据采集路径规划。

Description

一种意图驱动的强化学习路径规划方法
技术领域
本发明属于无线通信技术领域,尤其涉及一种意图驱动的强化学习路径规划方法。
背景技术
随着物联网领域的发展,无线传感器网络作为一种监测技术被广泛应用于监测周围环境,例如空气污染、海洋资源探测、灾害预警等。这些物联网传感器通常是能量受限的设备,传输范围有限,需要数据采集器收集传感器的数据并进行进一步的转发或处理。近年来,随着自动控制系统变得越来越智能和可靠,无人机、无人船和无人潜艇等智能设备已经被部署在军事和民用应用中,在危险和难以访问的环境下执行困难或乏味的任务。
尽管无人机、无人船和无人潜艇等作为数据采集器可以更方便地完成监测网络的数据收集,但它们存在能量有限这一关键挑战。从基地出发后,数据采集器需要向传感器节点行进,同时避免与环境障碍物、传感器节点的碰撞,并在规定时间内回到基地,防止能量耗尽。因此,需要根据数据采集器与传感器节点的意图合理地设计数据采集器的运动路径,以提高监测网络的数据采集效率。
在已有的数据采集路径规划方案中,大部分都是单独考虑数据采集器和传感器节点的意图,不能针对数据采集器和传感器节点不同的意图调整数据采集路径。同时,现有路径规划方法没有考虑监测环境中随机出现和随机移动的动态障碍物。因此,现有路径规划方法存在采集效率和可靠性低的问题。
发明内容
为解决上述技术问题,本发明提供一种意图驱动的强化学习路径规划方法,该方法根据实时变化的监测网络环境,将数据采集器和传感器节点的意图表示为奖赏与惩罚,利用Q-learning强化学习方法规划数据采集器的路径,提高数据采集的效率和可靠性。
一种意图驱动的强化学习路径规划方法,包括如下的步骤:
步骤A、数据采集器获取监测网络的状态;
步骤B、根据数据采集器、传感器节点和环境障碍物的位置,确定数据采集器的转向角;
步骤C、根据ε贪心策略选择数据采集器动作,包括数据采集器的速度、目标节点和下一目标节点;
步骤D、数据采集器根据转向角调整行进方向,执行动作至下一时隙位置;
步骤E、根据数据采集器和传感器节点的意图计算奖赏和惩罚,并更新Q值;
步骤F、重复执行步骤A至步骤E,直到监测网络到达终止状态或Q学习满足收敛条件;
步骤G、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最优数据采集路径。
进一步地,所述步骤A中监测网络的状态s包括:数据采集器在时隙n的行进方向数据采集器的坐标qu[n]、传感器节点的可用存储空间{bam[n]}m∈M、传感器节点的数据采集完成情况{wm[n]}m∈M、数据采集器与传感器节点的距离{dum[n]}m∈M、数据采集器与环境障碍物的距离{duk[n]}k∈K,其中M为传感器节点的集合、K为环境障碍物的集合,wm[n]∈{0,1}为传感器节点数据采集指示因子,wm[n]=1表示数据采集器在时隙n完成传感器节点m的数据采集,否则,表示未完成。
进一步地,所述步骤B中数据采集器转向角的计算公式表示为:
其中,为数据采集器坐标qu[n]与目标行进位置p[n]之间的相对角度,/>为数据采集器的最大转向角。
进一步地,所述步骤B中确定目标行进位置的步骤包括:
步骤B1:判断数据采集器是否感知到障碍物,如果感知到障碍物,比较的大小。如果/>则数据采集器的目标行进位置/>否则数据采集器的目标行进位置/>其中/>和/>为数据采集器以最大感知角度探测环境障碍物边界上的两点,/>和/>分别为目标传感器节点与点的相对角度。
步骤B2:如果数据采集器没有感知到环境障碍物,判断数据采集器到下一目标节点m2的路径是否穿过目标节点m1的通信区域C1。如果/>不会穿过C1,则目标行进位置/>其中,/>为通信区域C1上使距离/>最短的点。
步骤B3:如果穿过C1,判断路径/>是否穿过目标节点m1的安全区域C2。如果/>不会穿过C2,则目标行进位置/>否则,目标行进位置其中,/>为安全区域C2上使距离/>最短的点。
进一步地,所述步骤C中ε贪心策略选择动作的方法表示为:
其中,ε为探索概率、β∈[0,1]为随机产生的数值、Q(s,a)为状态s时执行动作a的Q值。
进一步地,所述步骤D中数据采集器下一时隙位置的计算公式为:
其中,xu[n-1]和yu[n-1]为数据采集器的x坐标和y坐标、v[n]为数据采集器的行进速度、τ为每个时隙的时长。
进一步地,所述步骤E中数据采集器和传感器节点意图对应的奖赏和惩罚计算步骤包括:
步骤D1:考虑数据采集器的意图为以最小的能量消耗Etot安全完成所有传感器节点的数据采集,并在规定时间T内返回基地;传感器节点的意图为最小化溢出数据则Q学习的奖赏Ra(s,s')为数据采集器能量消耗和传感器节点数据溢出的加权和其中,s'为在状态s执行动作a后监测网络的下一状态、/>为权重因子。
步骤D2:根据数据采集器与传感器节点的意图,Q学习的惩罚为Ca(s,s')=θsafeboutimetrater,其中,θsafe为安全惩罚,表示数据采集器与环境障碍物、数据采集器与传感器节点的距离须满足防碰撞距离;θbou为边界惩罚,表示数据采集器不得超过其可行区域;θtime为时间惩罚,表示数据采集器须在时间T内完成数据采集;θtra为遍历采集惩罚,表示所有传感器节点的数据须被采集;θter为终点惩罚,表示数据采集器须在时间T内返回基地。
进一步地,所述步骤E中Q值的更新公式为:
其中,α为学习率、γ为奖赏折扣因子。
进一步地,所述步骤F中监测网络的终止状态为数据采集器完成传感器节点的数据采集或数据采集器在时刻T还未完成数据采集;Q学习的收敛条件表示为:
|Qj(s,a)-Qj-1(s,a)|≤ξ (10)
其中,ξ为学习允许误差、j为学习的迭代次数。
进一步地,意图驱动的强化学习路径规划方法适用于无人机协助的地面物联网、无人船协助的海洋监测网络、无人潜艇协助的海床传感器网络。
本发明的一种意图驱动的强化学习路径规划方法具有以下优点:
根据监测环境中的随机动态障碍物和实时感知数据,综合考虑数据采集器和传感器节点的意图,设计了节点全覆盖的数据采集路径规划方法。Q学习模型会根据当前监测网络状态信息,优化数据采集器的实时坐标,最小化意图差异,同时提高数据采集的效率和可靠性。
附图说明
图1为本发明的举例场景图;
图2为本发明的实施流程示意图。
具体实施方式
下面结合附图,对本发明一种意图驱动的强化学习路径规划方法做进一步详细的描述。
图1为本发明的举例场景图。如图1所示,
海洋监测网络中有一个无人船,M个传感器节点,K个诸如海岛、海浪、礁石等的障碍物。无人船从基地出发,避免与障碍物、传感器节点的碰撞,在规定时间T内,完成每个传感器节点的数据采集,并返回到基地。为了满足无人船和传感器节点的意图,将无人船加权能量消耗和传感器节点数据溢出表示为强化学习的奖赏,将安全意图、遍历采集意图、按时返回基地的意图表示为惩罚,利用Q学习方法优化无人船的路径。
图2为本发明的实施流程示意图,具体的实施步骤为:
步骤一、数据采集器获取监测网络的状态信息包括:数据采集器在时隙n的行进方向数据采集器的坐标qu[n]、传感器节点的可用存储空间{bam}n]m∈M、传感器节点的数据采集完成情况{wm[n]}m∈M、数据采集器与传感器节点的距离{dum[n]}m∈M、数据采集器与环境障碍物的距离{duk[n]}k∈K,其中M为传感器节点的集合、K为环境障碍物的集合,wm[n]∈{0,1}为传感器节点数据采集指示因子,wm[n]=1表示数据采集器在时隙n完成传感器节点m的数据采集,否则,表示未完成。
步骤二、根据数据采集器、传感器节点和环境障碍物的位置,确定数据采集器的转向角采用了如下步骤:
(1)判断数据采集器是否感知到障碍物,如果感知到障碍物,比较的大小。如果/>则数据采集器的目标行进位置/>否则数据采集器的目标行进位置/>其中/>和/>为数据采集器以最大感知角度探测环境障碍物边界上的两点,/>和/>分别为目标传感器节点与点/> 的相对角度。
(2)如果数据采集器没有感知到环境障碍物,判断数据采集器到下一目标节点m2的路径是否穿过目标节点m1的通信区域C1。如果/>不会穿过C1,则目标行进位置/>其中,/>为通信区域C1上使距离/>最短的点。
(3)如果穿过C1,判断路径/>是否穿过目标节点m1的安全区域C2。如果/>不会穿过C2,则目标行进位置/>否则,目标行进位置/>其中,/>为安全区域C2上使距离/>最短的点。
(4)利用如下公式计算数据采集器的转向角:
其中,为数据采集器坐标qu[n]与目标行进位置p[n]之间的相对角度,/>为数据采集器的最大转向角。
步骤三、根据ε贪心策略选择数据采集器动作,包括数据采集器的速度、目标节点和下一目标节点。其中,ε贪心策略选择动作的方法表示为:
其中,ε为探索概率、β∈[0,1]为随机产生的数值、Q(s,a)为状态s时执行动作a的Q值。
步骤四、数据采集器根据转向角调整行进方向,执行动作至下一时隙位置,数据采集器坐标表示为:
其中,xu[n-1]和yu[n-1]为数据采集器的x坐标和y坐标、v[n]为数据采集器的行进速度、τ为每个时隙的时长。
步骤五、根据数据采集器和传感器节点的意图计算奖赏和惩罚,并利用如下公式更新Q值:
其中α为学习率、γ为奖赏折扣因子。
奖赏和惩罚的计算步骤包括:
(1)考虑数据采集器的意图为以最小的能量消耗Etot安全完成所有传感器节点的数据采集,并在规定时间T内返回基地;传感器节点的意图为最小化溢出数据则Q学习的奖赏Ra(s,s')为数据采集器能量消耗和传感器节点数据溢出的加权和其中,s'为在状态s执行动作a后监测网络的下一状态、/>为权重因子。
(2)根据数据采集器与传感器节点的意图,Q学习的惩罚为Ca(s,s')=θsafeθboutimetrater,其中,θsafe为安全惩罚,表示数据采集器与环境障碍物、数据采集器与传感器节点的距离须满足防碰撞距离;θbou为边界惩罚,表示数据采集器不得超过其可行区域;θtime为时间惩罚,表示数据采集器须在时间T内完成数据采集;θtra为遍历采集惩罚,表示所有传感器节点的数据须被采集;θter为终点惩罚,表示数据采集器须在时间T内返回基地。
步骤六、重复执行步骤一至步骤五,直到监测网络到达终止状态或Q学习满足收敛条件。其中,终止状态为数据采集器完成传感器节点的数据采集或数据采集器在时刻T还未完成数据采集,Q学习的收敛条件表示为:
|Qj(s,a)-Qj-1(s,a)|≤ξ (15)
其中,ξ为学习允许误差、j为学习的迭代次数。
步骤七、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最优数据采集路径。
本发明意图驱动的强化学习路径规划方法适用于无人机协助的地面物联网、无人船协助的海洋监测网络、无人潜艇协助的海床传感器网络。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (8)

1.一种意图驱动的强化学习路径规划方法,其特征在于,包括以下步骤:
步骤A、数据采集器获取监测网络的状态;
步骤B、根据数据采集器、传感器节点和环境障碍物的位置,确定数据采集器的转向角;
步骤C、根据ε贪心策略选择数据采集器动作,包括数据采集器的速度、目标节点和下一目标节点;
步骤D、数据采集器根据转向角调整行进方向,执行动作至下一时隙位置;
步骤E、根据数据采集器和传感器节点的意图计算奖赏和惩罚,并更新Q值;
步骤F、重复执行步骤A至步骤E,直到监测网络到达终止状态或Q学习满足收敛条件;
步骤G、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最优数据采集路径;
所述步骤E中数据采集器和传感器节点意图对应的奖赏和惩罚计算步骤包括:
步骤D1:考虑数据采集器的意图为以最小的能量消耗Etot安全完成所有传感器节点的数据采集,并在规定时间T内返回基地;传感器节点的意图为最小化溢出数据则Q学习的奖赏Ra(s,s')为数据采集器能量消耗和传感器节点数据溢出的加权和/>其中,s'为在状态s执行动作a后监测网络的下一状态、/>为权重因子;
步骤D2:根据数据采集器与传感器节点的意图,Q学习的惩罚为Ca(s,s')=θsafeboutimetrater,其中,θsafe为安全惩罚,表示数据采集器与环境障碍物、数据采集器与传感器节点的距离须满足防碰撞距离;θbou为边界惩罚,表示数据采集器不得超过其可行区域;θtime为时间惩罚,表示数据采集器须在时间T内完成数据采集;θtra为遍历采集惩罚,表示所有传感器节点的数据须被采集;θter为终点惩罚,表示数据采集器须在时间T内返回基地。
2.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤A中监测网络的状态s包括:数据采集器在时隙n的行进方向数据采集器的坐标qu[n]、传感器节点的可用存储空间/>传感器节点的数据采集完成情况数据采集器与传感器节点的距离/>数据采集器与环境障碍物的距离/>其中/>为传感器节点的集合、/>为环境障碍物的集合,wm[n]∈{0,1}为传感器节点数据采集指示因子,wm[n]=1表示数据采集器在时隙n完成传感器节点m的数据采集,否则,表示未完成。
3.根据权利要求2所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤B中数据采集器转向角的计算公式表示为:
其中,为数据采集器坐标qu[n]与目标行进位置p[n]之间的相对角度,/>为数据采集器的最大转向角。
4.根据权利要求3所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤B中确定目标行进位置的步骤包括:
步骤B1:判断数据采集器是否感知到障碍物,如果感知到障碍物,比较的大小;如果/>则数据采集器的目标行进位置/>否则数据采集器的目标行进位置/>其中/>和/>为数据采集器以最大感知角度探测环境障碍物边界上的两点,/>和/>分别为目标传感器节点与点的相对角度;
步骤B2:如果数据采集器没有感知到环境障碍物,判断数据采集器到下一目标节点m2的路径是否穿过目标节点m1的通信区域/>如果/>不会穿过/>则目标行进位置/>其中,/>为通信区域/>上使距离/>最短的点;
步骤B3:如果穿过/>判断路径/>是否穿过目标节点m1的安全区域/>如果/>不会穿过/>则目标行进位置/>否则,目标行进位置/>其中,/>为安全区域/>上使距离/>最短的点。
5.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤C中ε贪心策略选择动作的方法表示为:
其中,ε为探索概率、β∈[0,1]为随机产生的数值、Q(s,a)为状态s时执行动作a的Q值。
6.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤D中数据采集器下一时隙位置的计算公式为:
其中,xu[n-1]和yu[n-1]为数据采集器的x坐标和y坐标、v[n]为数据采集器的行进速度、τ为每个时隙的时长。
7.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤E中Q值的更新公式为:
其中,α为学习率、γ为奖赏折扣因子。
8.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤F中监测网络的终止状态为数据采集器完成传感器节点的数据采集或数据采集器在时刻T还未完成数据采集;Q学习的收敛条件表示为:
|Qj(s,a)-Qj-1(s,a)|≤ξ (5)
其中,ξ为学习允许误差、j为学习的迭代次数。
CN202111208888.4A 2021-10-18 2021-10-18 一种意图驱动的强化学习路径规划方法 Active CN113848868B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111208888.4A CN113848868B (zh) 2021-10-18 2021-10-18 一种意图驱动的强化学习路径规划方法
PCT/CN2021/137549 WO2023065494A1 (zh) 2021-10-18 2021-12-13 一种意图驱动的强化学习路径规划方法
US17/923,114 US12124282B2 (en) 2021-10-18 2021-12-13 Intention-driven reinforcement learning-based path planning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111208888.4A CN113848868B (zh) 2021-10-18 2021-10-18 一种意图驱动的强化学习路径规划方法

Publications (2)

Publication Number Publication Date
CN113848868A CN113848868A (zh) 2021-12-28
CN113848868B true CN113848868B (zh) 2023-09-22

Family

ID=78978692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111208888.4A Active CN113848868B (zh) 2021-10-18 2021-10-18 一种意图驱动的强化学习路径规划方法

Country Status (2)

Country Link
CN (1) CN113848868B (zh)
WO (1) WO2023065494A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110730486A (zh) * 2019-09-09 2020-01-24 南京理工大学 基于Q-Learning算法获取无线体域网最优路径的方法
CN110856134A (zh) * 2019-10-16 2020-02-28 东南大学 一种基于无人机的大规模无线传感器网络数据收集方法
CN112866911A (zh) * 2021-01-11 2021-05-28 燕山大学 基于q学习的自主水下航行器协助下水下数据收集方法
CN113283169A (zh) * 2021-05-24 2021-08-20 北京理工大学 一种基于多头注意力异步强化学习的三维群体探索方法
CN113342029A (zh) * 2021-04-16 2021-09-03 山东师范大学 基于无人机群的最大传感器数据采集路径规划方法及系统
CN113406965A (zh) * 2021-05-31 2021-09-17 南京邮电大学 一种基于强化学习的无人机能耗优化方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676064B2 (en) * 2006-05-17 2010-03-09 The Boeing Company Sensor scan planner
CN111515932A (zh) * 2020-04-23 2020-08-11 东华大学 一种基于人工势场与强化学习的人机共融流水线实现方法
CN112672307B (zh) * 2021-03-18 2021-06-29 浙江工商大学 一种基于q学习的无人机辅助数据收集系统及方法
CN113190039B (zh) * 2021-04-27 2024-04-16 大连理工大学 一种基于分层深度强化学习的无人机采集路径规划方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110730486A (zh) * 2019-09-09 2020-01-24 南京理工大学 基于Q-Learning算法获取无线体域网最优路径的方法
CN110856134A (zh) * 2019-10-16 2020-02-28 东南大学 一种基于无人机的大规模无线传感器网络数据收集方法
CN112866911A (zh) * 2021-01-11 2021-05-28 燕山大学 基于q学习的自主水下航行器协助下水下数据收集方法
CN113342029A (zh) * 2021-04-16 2021-09-03 山东师范大学 基于无人机群的最大传感器数据采集路径规划方法及系统
CN113283169A (zh) * 2021-05-24 2021-08-20 北京理工大学 一种基于多头注意力异步强化学习的三维群体探索方法
CN113406965A (zh) * 2021-05-31 2021-09-17 南京邮电大学 一种基于强化学习的无人机能耗优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Congestion-aware Data Acquisition with Q-learning for Wireless Sensor Networks;Praveen Kumar Donta 等;2020 IEEE International IOT, Electronics and Mechatronics Conference (IEMTRONICS);全文 *
基于Q 学习的无人机辅助WSN 数据采集轨迹规划;蒋宝庆 等;计算机工程;第47卷(第4期);全文 *

Also Published As

Publication number Publication date
WO2023065494A1 (zh) 2023-04-27
US20240219923A1 (en) 2024-07-04
CN113848868A (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN110333714B (zh) 一种无人驾驶汽车路径规划方法和装置
CN112673234B (zh) 路径规划方法和路径规划装置
CN113272830B (zh) 行为预测系统中的轨迹表示
CN110456797B (zh) 一种基于2d激光传感器的agv重定位系统及方法
CN113449578A (zh) 用于准确标识交通工具的环境中的对象的设备和方法
CN109753068A (zh) 一种考虑通信情况的多usv群体协同避碰规划方法
CN114384920A (zh) 一种基于局部栅格地图实时构建的动态避障方法
CN112937603A (zh) 用于预测目标车辆的位置的系统和方法
CN106873599A (zh) 基于蚁群算法和极坐标变换的无人自行车路径规划方法
CN109597417B (zh) 一种基于避碰准则的多usv群体协同避碰规划方法
CN108803313A (zh) 一种基于海流预测模型的路径规划方法
CN105258702A (zh) 一种基于slam导航移动机器人的全局定位方法
Guo et al. An improved a-star algorithm for complete coverage path planning of unmanned ships
CN106568432A (zh) 一种移动机器人初始位姿获取方法和系统
CN116540731B (zh) 融合堆叠lstm与sac算法的路径规划方法及系统
CN111984012A (zh) 一种无人船自主避障及航线规划的方法
CN111508282A (zh) 低空无人机农田作业飞行障碍物冲突检测方法
JP7047576B2 (ja) 地図作成装置
CN114967701A (zh) 一种动态环境下移动机器人自主导航方法
Wu et al. Multi-vessels collision avoidance strategy for autonomous surface vehicles based on genetic algorithm in congested port environment
CN117389305A (zh) 一种无人机巡检路径规划方法、系统、设备及介质
Lun et al. Target search in dynamic environments with multiple solar-powered UAVs
CN113848868B (zh) 一种意图驱动的强化学习路径规划方法
Zhang et al. A robot navigation system in complex terrain based on statistical features of point clouds
Wei et al. Building a local floor map by use of ultrasonic and omni-directional vision sensors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant