CN106959700B - 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法 - Google Patents

一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法 Download PDF

Info

Publication number
CN106959700B
CN106959700B CN201710168405.XA CN201710168405A CN106959700B CN 106959700 B CN106959700 B CN 106959700B CN 201710168405 A CN201710168405 A CN 201710168405A CN 106959700 B CN106959700 B CN 106959700B
Authority
CN
China
Prior art keywords
probability
unmanned plane
grid
teammate
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710168405.XA
Other languages
English (en)
Other versions
CN106959700A (zh
Inventor
王田
秦若溪
陶飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201710168405.XA priority Critical patent/CN106959700B/zh
Publication of CN106959700A publication Critical patent/CN106959700A/zh
Application granted granted Critical
Publication of CN106959700B publication Critical patent/CN106959700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying

Abstract

本发明涉及一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法:输入巡逻区域、无人机数量与加油站位置后,本发明将构建目标概率模型,然后用上限置信区间算法求出无人机下一步运动方向。即先随机选择一个运动方向,根据队友模型预测队友运动方向,获取本步骤奖励并更新目标概率模型。当仿真步数达到最大仿真时长时,选择最值得尝试的下一方向继续仿真,直至达到最大仿真次数后,选择平均奖励最高方向作为无人机实际运动方向。在每次决策后,无人机依据队友实际运动方向及最大概率方向更新队友模型。本发明可根据无人机硬件性能进行调整、鲁棒性好,具有可自主加油、巡逻与追踪等特点,可广泛用于无人机自动化区域巡逻、追踪等领域。

Description

一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规 划方法
技术领域
本发明涉及无人机轨迹规划技术,特别是涉及一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法。
背景技术
随着无人机技术的发展,无人机的应用场景与用途也越来越广泛。由于无人机具有运动自由度高、有一定载荷能力、飞行较为稳定等特性,加上油动无人机续航较电动无人机有很大提升,无人机开始被应用于大区域范围巡逻监控,尤其是大型工业厂区、大农场等人工检查不便的地方。这些地方可能对人具有危险性、或者人工检查容易出现死角、或者范围太广使人工检查费时费力。在这类情况下,无人机群自动巡逻的优势就凸显出来。
无人机群自主巡逻的路径规划一直受到国内外学者的广泛关注,也产生了一些相关的研究与专利,但是它们都有各自的不足,使其难以将无人机巡逻与追踪做到完全自动化。比如在专利“一种通信约束下双无人机协同目标跟踪方法”中,作者虽考虑到了通信条件的约束,但是该方法仅限2架无人机,且有明显的长机僚机之分,当长机燃料耗尽需返航时,僚机也必须一起放弃跟踪任务,这可能导致失去目标位置。专利“多基站无人及连续跟踪系统及方法”中使用的基站—多无人及系统虽能使无人及群协同工作,但其追踪策略更适合于跟踪固定目标或行动较慢的目标,因为当某架无人及发现目标后其它飞机被设定为也赶往目标区域,但若能使得机群从多角度围追该目标,应该能获得更好的追踪效果。国外相关研究“Cooperative Path Planning for Target Tracking in Urban EnvironmentsUsing Unmanned Air and Ground Vehicles”虽然考虑了协同搜索与围追,但是没有加入无人机燃料量这一重要约束,以当前的无人机技术,无人机续航燃料有限导致的续航能力较低仍然是一个不可忽视的现实问题。
这种情况下就体现出基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法在无人机巡逻轨迹规划问题中是非常前沿的。该方法主要基于人工智能技术,不仅同时考虑了无人机群在给定巡逻区域的智能搜索与追踪,使得机群围追目标以减少跟丢的情况,还加入了无人机续航时间的约束,合理地规划每架无人机的飞行与加油,使得整 个团队能够协同完成巡逻与追踪的任务。
近年来,人工智能技术日益成熟,智能轨迹规划即是其中一个研究热点,在这些年的研究过程中,许多学者提出了针对特定环境、特定任务的无人机轨迹规划方法。上限置信区间算法(Upper Confidence Bound Apply to Tree,UCT)是由LeventeKocsis与CsabaSzepesvári在2006年提出的。很多学者应用此算法解决不同领域的决策问题。这一智能算法的优点是运算时间可控且鲁棒性强,可根据当前环境自我学习,进行更好的决策。但该算法要求决策过程完全可观,即无人机群必须使始终知道目标的位置信息,不能跟丢目标。由于这个限制,现有基于上限置信区间算法的无人机轨迹规划方法大多将任务分成两个部分:在未跟丢目标时使用上限置信区间算法进行追踪,而在跟丢目标后使用其它算法进行巡逻。这虽绕过了决策完全可观的限制,但降低了无人机群协同的智能程度,使无人机难以在跟丢目标后展开有效搜索以重新找到目标。
本发明为了充分发挥上限置信区间算法的优势,并没有将无人机群的巡逻与追踪分割成两个部分,而是通过引入目标概率模型,使得无论目标是否处于无人机群视野范围内,其位置信息都可以被有效描述,将决策过程变为完全可观。然后本发明结合目标概率模型与上限置信区间算法,设计了完整的轨迹规划学习算法为无人机决定运动方向,使机群智能协同完成区域巡逻与目标追踪的任务。
发明内容
本发明技术解决问题,克服现有技术的不足,提供一种可实时运行的、鲁棒性强、高效准确的基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法。
本发明提出的技术方案为:一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法,实现步骤如下:
步骤1、在巡逻开始前输入巡逻区域大小、无人机数量、无人机视野范围、无人机最大飞行速度、加油站位置,用于步骤2中目标概率模型的初始化;
步骤2、创建并初始化目标概率模型。依据步骤1输入的参数,将无人机巡逻区域划分为以无人机视野面积的1/9为单位栅格的栅格阵,如图2所示,每个栅格记有目标处于该栅格位置的概率值,记该概率栅格阵为目标概率模型。初始化时将概率模型中的所有栅格的概率值设为相同,且概率之和为1。得到的目标概率模型将与步骤3中的队友模型一同在在步骤4中的轨迹规划学习算法里使用;
步骤3、创建并初始化队友模型。每架无人机都有一个对应的队友模型,每个模型记录该无人机的最大概率方向,最大概率方向考察无人机各方向栅格概率之和的大小,总共有4种,分别是{无人机北方的栅格概率之和最大,无人机南方的栅格概率之和最 大,无人机东方的栅格概率之和最大,无人机西方的栅格概率之和最大}。队友模型记录无人机处于上述4种最大概率方向之一时,无人机分别选择{北,南,东,西,悬停}五个运动方向的频次。初始化时将上述4种最大概率方向中无人机的五个运动方向频次都设置为1。得到的队友模型会在步骤4中的轨迹规划学习算法里使用;
步骤4、根据步骤3与步骤4得到的目标概率模型与队友模型,使用基于上限置信区间算法(Upper Confidence Bound Apply to Tree,UCT)的轨迹规划学习算法决定无人机运动方向,得到无人机的下一步运动方向即{北,南,东,西,悬停}五个运动方向之一。无人机按照该方向飞行;
步骤5、无人机探测其视野区域内是否存在目标,并依据探测结果采用基于量子概率模型的概率更新规则更新目标概率模型,更新后的目标概率模型会变更各个栅格的概率值,并被应用于下一次循环的步骤4中的轨迹规划学习算法;
步骤6、无人机观测队友位置与飞行方向,据此使用基于贝叶斯概率的队友学习方法更新队友模型,更新后的队友模型会更加准确地预测队友的行为,并被应用于下一循环的步骤4中的轨迹规划学习算法;
步骤7、利用步骤5、步骤6的更新结果,转到步骤4执行新的飞行方向决策,以确定无人机的下一步飞行方向。直至收到巡逻终止信号,表明任务完成。
所述步骤4中应用基于上限置信区间算法的轨迹规划学习算法决定无人机运动方向的方法如下:
步骤i)创建并初始化搜索树,用于记录步骤ii)与步骤iii)中无人机运动仿真的效果。搜索树的根结点表示当前无人机真实情况,树中各记录所处状态的目标概率模型、结点访问次数、结点平均奖励。这些数据将在步骤ii)及步骤iv)中使用,并由步骤iii)更新。初始化时搜索树只有根结点,该结点的目标概率模型即为实际的目标概率模型,结点访问次数与结点平均奖励都为0;
步骤ii)判断搜索次数是否达到最大搜索次数,若达到则若达到则停止搜索,并根据选择无人机运动方向式中Q(s0,at)是根结点s0中无人机向at方向运动获取的平均奖励值,该奖励值将在步骤iii)中计算;若搜索次数未达到最大搜索次数则转至步骤iii)继续搜索;
步骤iii)判断当前结点是否达到最大搜索树深度,若达到则更新本次搜索经过的各结点st无人机向at方向运动获取的平均奖励值Q(st,at),更新方法为:
式中N(st,at)为在结点st中无人机选择运动方向为at的频次,q为无人机群在步骤vi)中获取的各结点的机群奖励值。更新完成后转至步骤ii)开始下一次搜索;若当前结点未达到最大搜索树深度,则判断当前结点是否为搜索树的叶子结点,若是,则转到步骤iv),利用结点的平均奖励选择树扩展方向;若不是,则转到步骤v),通过试验得到新结点的平均奖励;
步骤iv)若步骤iii)判断当前结点不是叶子结点,则根据公式:
决定搜索树的扩展方向,式中a为具体运动方向,为{北,南,东,西,悬停}五个方向之一,a*即为实际选择的运动方向;s为当前仿真结点,N(s,a)为在结点s下决策运动方向为a的次数,N(s)为仿真中经过结点s的次数,Cp为UCT算法的调节参数,默认设置为0.5,Q(st,at)为在结点st中无人机向at方向运动获取的平均奖励值。本步骤确定搜索树的扩展方向亦即无人机的运动方向为a*,然后转至步骤vi)预估队友运动方向以计算本步骤获取的机群奖励值;
步骤v)若步骤iii)判断当前结点是叶子结点,则采用随机仿真获取本次搜索的平均奖励值。即等概率地随机从{北,南,东,西,悬停}中决定一个运动方向a*并执行,然后转至步骤vi)预估队友运动方向以计算本步骤获取的机群奖励值;
步骤vi)预估队友的运动方向,具体方法为:根据该结点的目标概率模型,分别计算队友北,南,东,西四个方向的栅格概率之和,求出最大概率方向,然后以队友模型中该最大概率方向下选择{北,南,东,西,悬停}的频率为概率生成队友的运动方向方向;利用步骤iv)或步骤v)中获取的无人机运动方向以及本步骤的预估队友方向,计算无人机群本步获得的机群奖励值q。机群奖励值q即是无人机群在仿真过程中视野范围所覆盖的栅格概率之和减去该无人机因未及时加油而掉落的惩罚,惩罚公式为:
步骤vii)更新目标概率模型。具体方法为:各栅格向其邻接的且不在无人机群视野范围内的栅格均分其概率值。各栅格更新后的概率值即为其邻接栅格分给它的概率值之和,如图3所示,该步骤用于为下一循环中的步骤vi)提供新的目标概率模型。然后转至步骤ii)开始下一次搜索;
所述步骤5中用基于量子概率模型的概率更新规则更新目标概率模型的具体步骤如下:
步骤i)判断无人机群的视野范围内是否发现目标。若未发现目标则转至步骤ii)更新各栅格的概率值;否则转至步骤iii)标示目标所在位置;
步骤ii)更新目标概率模型。各栅格向其邻接的且不在无人机群视野范围内的栅格均分其概率值,各栅格更新后的概率值即为其邻接栅格分给它的概率值之和,如图3所示;
步骤iii)标示所发现目标的位置。将发现的目标所在栅格的概率值设为1,其它所有栅格的概率值设为0,如图4所示。
所述步骤6中用基于贝叶斯概率的队友学习方法更新队友模型的具体步骤如下:
步骤i)求出各无人机此时北、南、东、西四个方向上的栅格概率之和,以找出概率之和最大的方向,记为最大概率方向si,为{无人机北方的栅格概率之和最大,无人机南方的栅格概率之和最大,无人机东方的栅格概率之和最大,无人机西方的栅格概率之和最大}中的一种。该最大概率方向用于更新步骤ii)中对应的频次;
步骤ii)依据队友实际做出的运动方向,更新队友在该最大概率方向下飞向各方向的频次,即根据下式更新:
Nt(si)=Nt-1(si)+1
Nt(a,si)=Nt-1(a,si)+1
式中Nt(si)为无人机处于最大概率方向si的频次,Nt(a,si)即为无人机在最大概率方向为si时选择运动方向为a的频次。
综上所述,本发明所述的基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法,首先输入无人机巡逻区域、无人机数量、加油站位置等基本信息进行初始化,然后根据当前目标概率模型与队友模型,使用基于上限置信区间算法的轨迹规划学习算法决定无人机运动方向。各无人机在其视野范围内探测目标,并依据探测结果更新目标概率模型。之后无人机根据队友运行方向,使用基于贝叶斯概率的队友学习方法更新队友模型。机群各机独立地循环执行上述步骤按照规划的路径飞行与检测,在规定区域内巡逻并追踪可疑目标。
本发明与现有技术相比的优点在于:本发明具有鲁棒性好,计算时间可控、巡逻追踪效率高等特点,可广泛应用于厂区、农场等大区域自动化巡逻与追踪。UCT算法使用蒙特卡洛方法进行决策,能同时考虑到队友位置、目标位置及本机油量等信息并进行综合决策,可以使得机群间相互合作,达到良好的巡逻、追踪效果。且由于UCT算法鲁 棒性强、运算时间可控,可在实际部署时根据机载设备运算能力与飞机速度,调整实际算法运行时间,保证最大程度地利用计算资源的同时进行实时计算,确保系统的稳定性。
附图说明
图1是本发明所述的基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划过程;
图2是本发明所述的初始化之后的巡逻区域、机群、加油站等的示意图;
图3是本发明所述目标概率模型更新方法中未发现目标的概率更新示意图;
图4是本发明所述目标概率模型更新方法中发现目标的概率更新示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
本发明所述的基于UCT算法的无人机群协同巡逻追踪轨迹规划方法,首先输入无人机巡逻区域、无人机数量、加油站位置等基本信息进行初始化,然后根据当前目标概率模型与队友模型,使用基于UCT的强化学习算法决定无人机运动方向。各无人机在其视野范围内探测目标,并依据探测结果更新目标概率模型。之后无人机根据队友运行方向,使用基于贝叶斯概率的队友学习方法更新队友模型。机群各机独立地循环执行上述步骤按照规划的路径飞行与检测,在规定区域内巡逻并追踪可疑目标。
如图所示,本发明具体实现如下步骤:
步骤1)、在巡逻开始前输入巡逻区域大小、无人机数量、无人机视野范围、无人机最大飞行速度、加油站位置,用于步骤2)中目标概率模型的初始化;
步骤2)、创建并初始化目标概率模型。依据步骤1)输入的参数,将无人机巡逻区域划分为以无人机视野面积的1/9为单位栅格的栅格阵,如图2所示,每个栅格记有目标处于该栅格位置的概率值,记该概率栅格阵为目标概率模型。初始化时将概率模型中的所有栅格的概率值设为相同,且概率之和为1。得到的目标概率模型将与步骤3)中的队友模型一同在在步骤4)中的轨迹规划学习算法里使用;
步骤3)、创建并初始化队友模型。每架无人机都有一个对应的队友模型,每个模型记录该无人机的最大概率方向,最大概率方向考察无人机各方向栅格概率之和的大小,总共有4种,分别是{无人机北方的栅格概率之和最大,无人机南方的栅格概率之和最大,无人机东方的栅格概率之和最大,无人机西方的栅格概率之和最大}。队友模型记录无人机处于上述4种最大概率方向之一时,无人机分别选择{北,南,东,西,悬停}五个运动方向的频次。初始化时将上述4种最大概率方向中无人机的五个运动方向频次都设置为1。得到的队友模型会在步骤4)中的轨迹规划学习算法里使用;
步骤4)、根据步骤3)与步骤4)得到的目标概率模型与队友模型,使用基于上限置信区间算法(Upper Confidence Bound Apply to Tree,UCT)的轨迹规划学习算法决定无人机运动方向,得到无人机的下一步运动方向即{北,南,东,西,悬停}五个运动方向之一。无人机按照该方向飞行;
步骤5)、无人机探测其视野区域内是否存在目标,并依据探测结果采用基于量子概率模型的概率更新规则更新目标概率模型,更新后的目标概率模型会变更各个栅格的概率值,并被应用于下一次循环的步骤4)中的轨迹规划学习算法;
步骤6)、无人机观测队友位置与飞行方向,据此使用基于贝叶斯概率的队友学习方法更新队友模型,更新后的队友模型会更加准确地预测队友的行为,并被应用于下一循环的步骤4)中的轨迹规划学习算法;
步骤7)、利用步骤5)、步骤6)的更新结果,转到步骤4)执行新的飞行方向决策,以确定无人机的下一步飞行方向。直至收到巡逻终止信号,表明任务完成。
所述步骤4)中应用基于上限置信区间算法的轨迹规划学习算法决定无人机运动方向的方法如下:
步骤i)创建并初始化搜索树,用于记录步骤ii)与步骤iii)中无人机运动仿真的效果。搜索树的根结点表示当前无人机真实情况,树中各记录所处状态的目标概率模型、结点访问次数、结点平均奖励。这些数据将在步骤ii)及步骤iv)中使用,并由步骤iii)更新。初始化时搜索树只有根结点,该结点的目标概率模型即为实际的目标概率模型,结点访问次数与结点平均奖励都为0;
步骤ii)判断搜索次数是否达到最大搜索次数,若达到则若达到则停止搜索,并根据选择无人机运动方向式中Q(s0,at)是根结点s0中无人机向at方向运动获取的平均奖励值,该奖励值将在步骤iii)中计算;若搜索次数未达到最大搜索次数则转至步骤iii)继续搜索;
步骤iii)判断当前结点是否达到最大搜索树深度,若达到则更新本次搜索经过的各结点st无人机向at方向运动获取的平均奖励值Q(st,at),更新方法为:
式中N(st,at)为在结点st中无人机选择运动方向为at的频次,q为无人机群在步骤vi)中获取的各结点的机群奖励值。更新完成后转至步骤ii)开始下一次搜索;若当前结点未达到最大搜索树深度,则判断当前结点是否为搜索树的叶子结点,若是,则转到步骤iv),利用结点的平均奖励选择树扩展方向;若不是,则转到步骤v),通过试验得到新结点 的平均奖励;
步骤iv)若步骤iii)判断当前结点不是叶子结点,则根据公式:
决定搜索树的扩展方向,式中a为具体运动方向,为{北,南,东,西,悬停}五个方向之一,a*即为实际选择的运动方向;s为当前仿真结点,N(s,a)为在结点s下决策运动方向为a的次数,N(s)为仿真中经过结点s的次数,Cp为UCT算法的调节参数,默认设置为0.5,Q(st,at)为在结点st中无人机向at方向运动获取的平均奖励值。本步骤确定搜索树的扩展方向亦即无人机的运动方向为a*,然后转至步骤vi)预估队友运动方向以计算本步骤获取的机群奖励值;
步骤v)若步骤iii)判断当前结点是叶子结点,则采用随机仿真获取本次搜索的平均奖励值。即等概率地随机从{北,南,东,西,悬停}中决定一个运动方向a*并执行,然后转至步骤vi)预估队友运动方向以计算本步骤获取的机群奖励值;
步骤vi)预估队友的运动方向,具体方法为:根据该结点的目标概率模型,分别计算队友北,南,东,西四个方向的栅格概率之和,求出最大概率方向,然后以队友模型中该最大概率方向下选择{北,南,东,西,悬停}的频率为概率生成队友的运动方向方向;利用步骤iv)或步骤v)中获取的无人机运动方向以及本步骤的预估队友方向,计算无人机群本步获得的机群奖励值q。机群奖励值q即是无人机群在仿真过程中视野范围所覆盖的栅格概率之和减去该无人机因未及时加油而掉落的惩罚,惩罚公式为:
步骤vii)更新目标概率模型。具体方法为:各栅格向其邻接的且不在无人机群视野范围内的栅格均分其概率值。各栅格更新后的概率值即为其邻接栅格分给它的概率值之和,如图3所示,该步骤用于为下一循环中的步骤vi)提供新的目标概率模型。然后转至步骤ii)开始下一次搜索;
所述步骤5)中用基于量子概率模型的概率更新规则更新目标概率模型的具体步骤如下:
步骤i)判断无人机群的视野范围内是否发现目标。若未发现目标则转至步骤ii)更新各栅格的概率值;否则转至步骤iii)标示目标所在位置;
步骤ii)更新目标概率模型。各栅格向其邻接的且不在无人机群视野范围内的栅格均分其概率值,各栅格更新后的概率值即为其邻接栅格分给它的概率值之和,如图3所示;
步骤iii)标示所发现目标的位置。将发现的目标所在栅格的概率值设为1,其它所有栅格的概率值设为0,如图4所示。
所述步骤6)中用基于贝叶斯概率的队友学习方法更新队友模型的具体步骤如下:
步骤i)求出各无人机此时北、南、东、西四个方向上的栅格概率之和,以找出概率之和最大的方向,记为最大概率方向si,为{无人机北方的栅格概率之和最大,无人机南方的栅格概率之和最大,无人机东方的栅格概率之和最大,无人机西方的栅格概率之和最大}中的一种。该最大概率方向用于更新步骤ii)中对应的频次;
步骤ii)依据队友实际做出的运动方向,更新队友在该最大概率方向下飞向各方向的频次,即根据下式更新:
Nt(si)=Nt-1(si)+1
Nt(a,si)=Nt-1(a,si)+1
式中Nt(si)为无人机处于最大概率方向si的频次,Nt(a,si)即为无人机在最大概率方向为si时选择运动方向为a的频次。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法,其特征在于实现步骤如下:
步骤1、在巡逻开始前输入巡逻区域大小、无人机数量、无人机视野范围、无人机最大飞行速度和加油站位置,作为步骤2中目标概率模型的初始化的参数;
步骤2、创建并初始化目标概率模型,依据步骤1中的所述参数,将无人机巡逻区域划分为以无人机视野面积的1/9为单位栅格的概率栅格阵,每个栅格记有目标处于该栅格位置的概率值,该概率栅格阵为目标概率模型;初始化时将目标概率模型中的所有栅格的概率值设为相同,且概率之和为1,得到的目标概率模型将与步骤3中的队友模型一同在步骤4中的轨迹规划学习算法里使用;
步骤3、创建并初始化队友模型,每架无人机都有一个对应的队友模型,每个模型记录该无人机的最大概率方向,最大概率方向考察无人机各方向栅格概率之和的大小,总共有4种分别是:无人机北方的栅格概率之和最大,无人机南方的栅格概率之和最大,无人机东方的栅格概率之和最大,无人机西方的栅格概率之和最大;队友模型记录无人机处于上述4种最大概率方向之一时,无人机分别选择北、南、东、西和悬停五个运动方向的频次,初始化时将上述4种最大概率方向中无人机的五个运动方向频次都设置为1,得到的队友模型会在步骤4中的轨迹规划学习算法时使用;
步骤4、根据步骤1与步骤3得到的目标概率模型和队友模型,采用基于上限置信区间算法(Upper Confidence Bound Apply to Tree,UCT)的轨迹规划学习算法决策无人机运动方向,得到无人机的下一步运动方向即北、南、东、西和悬停五个运动方向之一,无人机按照该方向飞行;
步骤5、无人机探测其视野区域内是否存在目标,并依据探测结果采用基于量子概率模型的概率更新规则更新目标概率模型,更新后的目标概率模型会变更各个栅格的概率值,并被应用于下一次循环的步骤4中的轨迹规划学习算法;
步骤6、无人机观测队友位置与飞行方向,采用基于贝叶斯概率的队友学习方法更新队友模型,更新后的队友模型会更加准确地预测队友的行为,并被应用于下一循环的步骤4中的轨迹规划学习算法;
步骤7、利用步骤5、步骤6的更新结果,转到步骤4执行新的飞行方向决策,以确定无人机的下一步飞行方向,直至收到巡逻终止信号,表明任务完成;
所述步骤4中基于上限置信区间算法的轨迹规划学习算法永生决策无人机运动方向的方法如下:
步骤i)创建并初始化搜索树,用于记录步骤ii)与步骤iii)中无人机运动仿真的效果;搜索树的根结点表示当前无人机真实情况,搜索树中各记录所处状态的目标概率模型、结点访问次数、结点平均奖励,并在步骤ii)及步骤iv)中使用,同时由步骤iii)更新;初始化时搜索树只有根结点,该根结点的目标概率模型即为实际的目标概率模型,其它各结点访问次数与结点平均奖励都为0;
步骤ii)判断搜索次数是否达到最大搜索次数,若达到则停止搜索,并根据 选择无人机运动方向式中Q(s0,at)是根结点s0中无人机向at方向运动获取的平均奖励值,该平均奖励值将在步骤iii)中计算;若搜索次数未达到最大搜索次数则转至步骤iii)继续搜索;
步骤iii)判断当前结点是否达到最大搜索树深度,若达到则更新本次搜索经过的各结点st无人机向at方向运动获取的平均奖励值Q(st,at),更新方法为:
式中Q′(st,at)为更新后平均奖励值,N(st,at)为在结点st中无人机选择运动方向为at的频次,q为无人机群在步骤vi)中获取的各结点的机群奖励值,更新完成后转至步骤ii)开始下一次搜索;若当前结点未达到最大搜索树深度,则判断当前结点是否为搜索树的叶子结点,若是,则转到步骤iv),利用结点的平均奖励选择树扩展方向;若不是,则转到步骤v),通过试验得到新结点的平均奖励;
步骤iv)若步骤iii)判断当前结点不是叶子结点,则根据公式:
决定搜索树的扩展方向,式中a为具体运动方向,为北,南,东,西,悬停五个方向之一,a*即为实际选择的运动方向;s为当前仿真结点,N(s,a)为在结点s下决策运动方向为a的次数,N(s)为仿真中经过结点s的次数,Cp为UCT算法的调节参数,默认设置为0.5,Q(st,at)为在结点st中无人机向at方向运动获取的平均奖励值;本步骤确定搜索树的扩展方向亦即无人机的运动方向为a*,然后转至步骤vi)预估队友运动方向以计算本步骤获取的机群奖励值;
步骤v)若步骤iii)判断当前结点是叶子结点,则采用随机仿真获取本次搜索的平均奖励值,即等概率地随机从北,南,东,西,悬停中决定一个运动方向a*并执行,然后转至步骤vi)预估队友运动方向以计算本步骤获取的机群奖励值;
步骤vi)预估队友的运动方向,具体方法为:根据该结点的目标概率模型,分别计算队友北,南,东,西四个方向的栅格概率之和,求出最大概率方向,然后以队友模型中该最大概率方向下选择北,南,东,西,悬停的频率为概率生成队友的运动方向;利用步骤iv)或步骤v)中获取的无人机运动方向以及本步骤的预估队友方向,计算无人机群本步获得的机群奖励值q,机群奖励值q即是无人机群在仿真过程中视野范围所覆盖的栅格概率之和减去该无人机因未及时加油而掉落的惩罚,惩罚公式为:
步骤vii)更新目标概率模型,具体方法为:各栅格向其邻接的且不在无人机群视野范围内的栅格均分其概率值,各栅格更新后的概率值即为其邻接栅格分给它的概率值之和,该步骤用于为下一循环中的步骤vi)提供新的目标概率模型,然后转至步骤ii)开始下一次搜索。
2.根据权利要求1所述的基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法,其特征在于:所述步骤5中,采用基于量子概率模型的概率更新规则更新目标概率模型的具体步骤如下:
步骤i)判断无人机群的视野范围内是否发现目标,若未发现目标则转至步骤ii)更新各栅格的概率值;否则转至步骤iii)标示目标所在位置;
步骤ii)更新目标概率模型,各栅格向其邻接的且不在无人机群视野范围内的栅格均分其概率值,各栅格更新后的概率值即为其邻接栅格分给它的概率值之和;
步骤iii)标示所发现目标的位置,将发现的目标所在栅格的概率值设为1,其它所有栅格的概率值设为0。
3.根据权利要求1所述的基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法,其特征在于:所述步骤6中,采用基于贝叶斯概率的队友学习方法更新队友模型的具体步骤如下:
步骤i)求出各无人机此时北、南、东、西四个方向上的栅格概率之和,以找出概率之和最大的方向,记为最大概率方向si,即为无人机北方的栅格概率之和最大,无人机南方的栅格概率之和最大,无人机东方的栅格概率之和最大,无人机西方的栅格概率之和最大中的一种,该最大概率方向用于更新步骤ii)中对应的频次;
步骤ii)依据队友实际做出的运动方向,更新队友在该最大概率方向下飞向各方向的频次,即根据下式更新:
Nt(si)=Nt-1(si)+1
Nt(a,si)=Nt-1(a,si)+1
式中Nt(si)为无人机处于最大概率方向si的频次,Nt(a,si)即为无人机在最大概率方向为si时选择运动方向为a的频次。
CN201710168405.XA 2017-03-21 2017-03-21 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法 Active CN106959700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710168405.XA CN106959700B (zh) 2017-03-21 2017-03-21 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710168405.XA CN106959700B (zh) 2017-03-21 2017-03-21 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法

Publications (2)

Publication Number Publication Date
CN106959700A CN106959700A (zh) 2017-07-18
CN106959700B true CN106959700B (zh) 2019-08-27

Family

ID=59470957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710168405.XA Active CN106959700B (zh) 2017-03-21 2017-03-21 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法

Country Status (1)

Country Link
CN (1) CN106959700B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108459616B (zh) * 2018-03-07 2021-08-03 西安电子科技大学 基于人工蜂群算法的无人机群协同覆盖航路规划方法
CN109375645B (zh) * 2018-11-01 2020-05-12 中国科学技术大学 基于群集智能的多无人机协同区域巡视控制方法
CN109523011B (zh) * 2018-11-06 2021-07-27 哈尔滨工业大学(深圳) 一种面向多无人机协同探测的多传感器自适应管理方法
CN109990790B (zh) * 2019-03-29 2021-03-12 北京邮电大学 一种无人机路径规划方法及装置
CN111273691B (zh) * 2020-02-21 2022-09-09 苏州禺疆船艇科技有限公司 一种基于多约束条件的多无人机巡逻任务规划方法
CN112650272B (zh) * 2020-11-24 2022-11-01 太原理工大学 基于5g的煤矿井下无人机巡视信息感知方法及其感知系统
CN112827174A (zh) * 2021-02-05 2021-05-25 清华大学 一种分布式多机器人目标搜索方法
CN114020024B (zh) * 2021-11-05 2023-03-31 南京理工大学 基于蒙特卡洛树搜索的无人机路径规划方法
CN116820121A (zh) * 2023-05-15 2023-09-29 哈尔滨工业大学(深圳) 一种无人机群体联合侦查策略生成方法及终端

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101359225A (zh) * 2008-08-29 2009-02-04 北京大学 一种多水下机器人协作控制系统
CN103472850A (zh) * 2013-09-29 2013-12-25 合肥工业大学 一种基于高斯分布预测的多无人机协同搜索方法
CN105425820A (zh) * 2016-01-05 2016-03-23 合肥工业大学 一种针对具有感知能力的运动目标的多无人机协同搜索方法
CN105700555A (zh) * 2016-03-14 2016-06-22 北京航空航天大学 一种基于势博弈的多无人机协同搜索方法
CN105841702A (zh) * 2016-03-10 2016-08-10 赛度科技(北京)有限责任公司 一种基于粒子群优化算法的多无人机航路规划方法
CN105892480A (zh) * 2016-03-21 2016-08-24 南京航空航天大学 异构多无人机系统协同察打任务自组织方法
CN106325284A (zh) * 2016-11-04 2017-01-11 北京理工大学 面向人机协作搜索识别多目标任务的机器人运动规划方法
CN106325264A (zh) * 2016-11-04 2017-01-11 山东科技大学 一种无人机飞行控制系统的故障可分离性评价方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9869484B2 (en) * 2015-01-14 2018-01-16 Google Inc. Predictively controlling an environmental control system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101359225A (zh) * 2008-08-29 2009-02-04 北京大学 一种多水下机器人协作控制系统
CN103472850A (zh) * 2013-09-29 2013-12-25 合肥工业大学 一种基于高斯分布预测的多无人机协同搜索方法
CN105425820A (zh) * 2016-01-05 2016-03-23 合肥工业大学 一种针对具有感知能力的运动目标的多无人机协同搜索方法
CN105841702A (zh) * 2016-03-10 2016-08-10 赛度科技(北京)有限责任公司 一种基于粒子群优化算法的多无人机航路规划方法
CN105700555A (zh) * 2016-03-14 2016-06-22 北京航空航天大学 一种基于势博弈的多无人机协同搜索方法
CN105892480A (zh) * 2016-03-21 2016-08-24 南京航空航天大学 异构多无人机系统协同察打任务自组织方法
CN106325284A (zh) * 2016-11-04 2017-01-11 北京理工大学 面向人机协作搜索识别多目标任务的机器人运动规划方法
CN106325264A (zh) * 2016-11-04 2017-01-11 山东科技大学 一种无人机飞行控制系统的故障可分离性评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Cooperative target searching and tracking via UCT with probability distribution model;RuoxiQin等;《2016 IEEE International Conference on Digital Signal Processing (DSP)》;20161018;论文第560-563页 *

Also Published As

Publication number Publication date
CN106959700A (zh) 2017-07-18

Similar Documents

Publication Publication Date Title
CN106959700B (zh) 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法
CN109254588B (zh) 一种基于交叉变异鸽群优化的无人机集群协同侦察方法
CN109933086B (zh) 基于深度q学习的无人机环境感知与自主避障方法
CN106970648B (zh) 城市低空环境下无人机多目标路径规划联合搜索方法
CN106969778B (zh) 一种多无人机协同施药的路径规划方法
Tang et al. Dynamic reallocation model of multiple unmanned aerial vehicle tasks in emergent adjustment scenarios
CN110673637A (zh) 一种基于深度强化学习的无人机伪路径规划的方法
CN105700549A (zh) 一种基于序列小生境粒子群算法的无人机多航迹规划方法
CN108897312A (zh) 多无人飞行器对大规模环境的持续监控路径规划方法
CN111813144B (zh) 一种基于改进羊群算法的多无人机协同航路规划方法
CN102901500A (zh) 基于概率a星与智能体混合的飞行器最优路径确定方法
CN106815443A (zh) 面向变化环境的超低空飞行器三维多批多航迹规划方法
CN110262563A (zh) 多无人机协同搜索水上目标的方法
CN107622699B (zh) 基于时序的全时段空域冲突探测与解脱方法
CN111045445A (zh) 一种基于强化学习的飞行器智能避撞方法、设备、介质
Geng et al. A kind of route planning method for UAV based on improved PSO algorithm
CN112698646A (zh) 一种基于强化学习的航行器路径规划方法
CN115185303B (zh) 用于国家公园及自然保护地的无人机巡护路径规划方法
CN116449863A (zh) 一种基于信息素的强化学习的无人机集群多目标搜索方法
CN113342034A (zh) 一种无人机通道巡检与精细化巡检的组合策略算法
Ding et al. Improved GWO algorithm for UAV path planning on crop pest monitoring
Li et al. An improved differential evolution based artificial fish swarm algorithm and its application to AGV path planning problems
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
CN115145315A (zh) 一种改进a*算法的适合杂乱环境的无人机路径规划方法
CN115574826B (zh) 基于强化学习的国家公园无人机巡护路径优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant