CN109990790B - 一种无人机路径规划方法及装置 - Google Patents

一种无人机路径规划方法及装置 Download PDF

Info

Publication number
CN109990790B
CN109990790B CN201910251403.6A CN201910251403A CN109990790B CN 109990790 B CN109990790 B CN 109990790B CN 201910251403 A CN201910251403 A CN 201910251403A CN 109990790 B CN109990790 B CN 109990790B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
information
path planning
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910251403.6A
Other languages
English (en)
Other versions
CN109990790A (zh
Inventor
王莉
费爱国
宋颖祥
李宛苡
宋梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910251403.6A priority Critical patent/CN109990790B/zh
Publication of CN109990790A publication Critical patent/CN109990790A/zh
Application granted granted Critical
Publication of CN109990790B publication Critical patent/CN109990790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations

Abstract

本发明实施例提供一种无人机路径规划方法及装置,该方法包括:获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设无人机路径规划模型是通过最小最大化信息年龄模型和无人机的样本行为选择进行训练得到的。通过最小最大化信息年龄模型来对预设无人机路径规划模型进行训练,充分优化无人机的样本行为选择对于待收集数据信息寿命的影响,训练完毕后的预设无人机路径规划模型可以根据无人机当前位置信息自动规划最优路径,此时的最优路径会使得过期数据包的数量最小化,减少了数据信息因为过期而导致的信息丢失。

Description

一种无人机路径规划方法及装置
技术领域
本发明实施例涉及无人机技术领域,尤其涉及一种无人机路径规划方法及装置。
背景技术
当前,利用低空无人机(unmanned aerial vehicle,UAV)进行辅助的数据信息采集展现出很大吸引力和潜力,UAV具有许多优点,一方面具有按需部署和快速部署的能力,高度灵活性,完全可控的空中移动性;另一方面,无人机具有能与地面终端建立视距通信链路的能力;除此之外,由于无人机机身集成了的众多不同类型的传感器设备,这些硬件设备为感测环境以及采样和收集数据提供了极大的便利。因此,无人机逐渐被开发应用于环境检测、交通管控、救援救灾和军事侦查等场景当中。
而在现有技术中,UAV在进行信息采集以辅助后续数据分析的应用过程中,待采集的数据包通常具有数据信息寿命这一约束条件,若待采集的数据包在其信息年龄超过了数据包寿命的时候仍然未被无人机携带走,那么数据包会过期失效,进而导致数据信息的丢失;因此为了减少数据因为过期而导致的信息丢失,如何对无人机进行数据采集的飞行路线进行有效规划已经成为业界亟待解决的问题。
发明内容
本发明实施例提供一种无人机路径规划方法及装置,用以解决上述背景技术中存在的技术问题,或至少部分解决上述背景技术中存在的技术问题。
第一方面,本发明实施例提供一种无人机路径规划方法,包括:
获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;
将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;
其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。第二方面,本发明实施例提供一种无人机路径规划装置,包括:
定位模块,用于获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;
规划模块,用于将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;
其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面的无人机路径规划方法。
第四方面,一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面所述无人机路径规划方法。
本发明实施例提供的一种无人机路径规划方法及装置,通过将无人机选择下一个传感器的动作作为无人机的行为选择,并将无人机的行为选择为一个训练样本,获取多个训练样本后,通过最小化最大信息年龄模型来对预设无人机路径规划模型进行训练,充分考虑无人机的行为选择对于待收集数据信息寿命的影响这要素来进行优化,训练完毕后的预设无人机路径规划模型可以根据无人机当前位置信息自动规划最优路径,此时的最优路径会使得过期数据信息包的数量最小化,有效减少了数据信息因为过期而导致的信息丢失。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例所提供的无人机路径规划方法流程图;
图2为本发明一实施例所提供的预设无人机路径规划模型训练流程图;
图3为本发明一实施例所提供的无人机路径规划装置结构示意图;
图4为本发明一实施例所提供的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中所描述的无人机路径规划方法的实施是基于被派遣出去的无人机只能一个接一个地访问系统中的所有传感器这一基础,且在本发明实施例的实施场景中无人机每次只能访问一个传感器,而无人机也不会对同一传感器进行重复访问。
图1为本发明一实施例所提供的无人机路径规划方法流程图,如图1所示,包括:
步骤S1,获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;
步骤S2,将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;
其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型对无人机的样本行为选择进行训练得到的。具体的,本发明实施例中所描述的无人机当前位置信息具体是指在任意时刻无人机在信息采集场景中的位置信息。
本发明实施例中所描述的无人机路径规划信息是指对于数据传感器采集的顺序选择,即无人机在当前信息采集场景中确定对于数据传感器采集顺序后,得到对于数据传感器的数据信息采集所需要经过的路径;本发明实施例中所描述的无人机路径规划信息在环境数据采集领域,可以根据无人机处于待采集的具体环境数据中的位置,和传感器的各个位置信息,确定无人机的对于传感器数据信息采集的顺序关系,从而有效避免传感器可能会出现的因数据信息寿命导致的信息丢失,有效提高环境信息数据采集的质量。
本发明实施例中所描述的无人机的行为选择具体是在指无人机对于下个将要访问传感器的选择行为;本发明实施例中所描述的样本行为选择是指将其作为训练样本的行为选择。
本发明实施例中所描述的预设无人机路径规划模型是通过最小化最大信息年龄模型对无人机的样本行为选择进行训练得到,具体为,无人机根据当前环境状态,在每个时刻t进行行为选择,将每个时刻t执行的样本行为选择定义为at;假设
Figure GDA0002711243490000041
是每个时刻t的系统状态,其中
Figure GDA0002711243490000042
表示信息采集场景,由于无人机需要根据当前环境状态选择路径,本发明实施例将环境状态设定为无人机在时刻t所访问的传感器,而由于在信息采集场景中传感器的位置是固定的,因为可以根据无人机当前位置信息确定其当前所访问的传感器,从而可以根据无人机当前位置信息确定当前环境状态。
本发明实施例中所描述的最小化最大信息年龄模型是指用于将当前采集场景下所有传感器数据包的最大信息年龄情况进行最小化的模型,该模型中具体包括当前采集场景下所有传感器的最大化信息年龄函数信息F(X)。
最小化最大信息年龄模型是根据数据包信息年龄这一概念建立的,具体为:数据包年龄信息是指传感器中的数据信息在传感器m生成的时刻开始,到被无人机采集的时刻为止所经过的时间量,可以表示为:
Figure GDA0002711243490000043
如果这个数据包无法在寿命结束之前被无人机收集走,那么这个数据包就会过期,信息将会丢失,那么它的信息年龄也失去了意义。因此,在这里用无人机飞行的总时间Ttotal来定义这些过期的数据包的信息年龄,并将其作为所有数据包的信息年龄的上限。因此,信息年龄可以重新表达为:
Figure GDA0002711243490000044
其中,
Figure GDA0002711243490000045
于此同时,
Figure GDA0002711243490000046
Figure GDA0002711243490000047
的衡量方式可以改写为如下形式:
Figure GDA0002711243490000048
其中,Ttotal为无人机飞行的总时间,
Figure GDA0002711243490000049
传感器m中包j的产生时刻。
以最小化过期数据包数量为目标的无人机飞行路径规划可以转换为最小化最大信息年龄的最优飞行路径规划。
可以注意到,通过带入ζm(X),以及利用零范数的定义,原问题
Figure GDA0002711243490000051
可以松弛为:
Figure GDA0002711243490000052
其中,
Figure GDA0002711243490000053
||·||0表示零范数。由于本发明的目标是最小化过期数据包的数量,因此对于信息年龄的最差情况是
Figure GDA0002711243490000054
为了提高路径规划的性能,这里需要改善这个最差的信息年龄的情况。
同时可以知道,如果信息年龄超过了数据包的寿命,那么在
Figure GDA0002711243490000055
变量会变成1。通过联合
Figure GDA0002711243490000056
Figure GDA0002711243490000057
的定义和
Figure GDA0002711243490000058
可以把原问题改写为一个最小化最大问题:
Figure GDA0002711243490000059
这里,
Figure GDA00027112434900000510
表示传感器m在时刻tn-1的所有数据包的个数。因此,复杂变量
Figure GDA00027112434900000511
Figure GDA00027112434900000512
会被取代完毕。接着,定义f(X)和f2(X):
Figure GDA00027112434900000513
Figure GDA00027112434900000514
以及把问题
Figure GDA00027112434900000515
分解为两个联合问题
Figure GDA00027112434900000516
Figure GDA00027112434900000517
Figure GDA00027112434900000518
Figure GDA00027112434900000519
如上所述,本发明需要在路径规划中改善所有数据包的最大信息年龄的情况。由于Iex
Figure GDA00027112434900000520
和J不会在时刻tn发生变化,上面的问题
Figure GDA00027112434900000521
Figure GDA00027112434900000522
等价于:
Figure GDA00027112434900000523
Figure GDA00027112434900000524
显然,
Figure GDA00027112434900000525
Figure GDA00027112434900000526
不会在时刻tn发生变化。注意到,
Figure GDA00027112434900000527
的取值会被
Figure GDA00027112434900000528
所影响,但是不意味着局部最优值
Figure GDA00027112434900000529
必须在每一步都求解出来,因为本发明的目标是最优化X的全局变量,这一数据会由
Figure GDA00027112434900000530
之间的所有数值共同影响。因此,根据上述分析,可以把原始问题
Figure GDA00027112434900000531
转化为
Figure GDA00027112434900000532
Figure GDA00027112434900000533
Figure GDA0002711243490000061
Figure GDA0002711243490000062
其中,F(X)为最大化信息年龄函数信息。无人机的样本行为选择是根据策略π(at,st)=Pr(at=a|st=s)来实现,策略具体是指当环境状态st=s的情况下,无人机的样本行为选择at=a的概率,Pr表示概率。
在这样的策略下,无人机根据当前环境状态进行样本行为选择,然后得到相应的奖惩值;而由于本发明实施例是为了减少因为过期而导致的数据信息丢失,因此本发明实施例可以将每个时刻t的奖惩值
Figure GDA0002711243490000063
定义为来自高信息年龄的惩罚,即r(st,at)=-F(X),其中F(X)是指最大化信息年龄函数信息,即根据最小化最大信息年龄模型可以确定最大化信息年龄函数信息。通过成败多次反复的试错和学习后,算法收敛,预设无人机路径规划模型训练完成,此时只需要根据无人机当前位置信息即可确定当前环境状态,然后根据当前环境状态来得到所有传感器最小化最大信息年龄的无人机路径规划。
本发明实施例通过将无人机选择下一个传感器的动作作为无人机的样本行为选择,并将无人机的行为选择为一个训练样本,获取多个训练样本后,通过最小化最大信息年龄模型来对预设无人机路径规划模型进行训练,充分针对无人机的行为选择对于待收集数据信息寿命的影响进行优化,训练完毕后的预设无人机路径规划模型可以根据无人机当前位置信息自动规划最优路径,此时的最优路径会使得过期数据信息包的数量最小化,有效减少了数据信息因为过期而导致的信息丢失。
在上述实施例的基础上,在将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息的步骤之前,所述方法还包括:
根据无人机样本位置信息生成随机概率信息;
根据所述随机概率信息和预设概率信息,确定无人机的样本行为选择;
将无人机的每一个样本行为选择作为一个训练样本,获得多个训练样本,根据多个训练样本和所述最小化最大信息年龄模型对预设无人机路径规划模型进行训练。
具体的,本发明实施例中所描述的预设概率信息∈是可以预先设定的,且在模型训练过程中可以对于预设概率信息∈进行调整;本发明实施例中所描述的随机概率信息是根据在获得一个无人机样本位置信息时,将其作为生成随机概率信息的触发条件,生成随机概率编码信息具体是可以预设编码随机得到的;在每获得一个无人机样本位置信息时,则生成一个其对应的随机概率信息,获取多个不同的无人机样本位置信息时,则对应生成与多个不同样本位置信息对应的多个随机概率信息。
将随机概率信息和预设概率信息进行比较,若随机概率信息大于预设概率信息∈,则选取预设路径库中奖惩值最大的路径规划信息,以确定下次要访问的传感器,即确定无人机的样本行为选择;若随机概率信息小于预设概率信息∈,则在预设路径库中随机选取一个路径规划信息,并确定无人机的样本行为选择;本发明实施例中所描述的预设路径库可以是根据信息采集场景中传感器的固定位置,所预先设定的路径规划合集。
本发明实施例中所描述的无人机样本位置信息是指训练过程中作为样本的无人机的位置信息,根据无人机样本位置信息可以确定无人机此时所对应的传感器位置信息,从而可以获取多种不同的随机概率,同时也能获得多种不同的行为选择,因此可以获取多个训练样本,可以根据多个训练样本和最小化最大信息年龄模型,将每一个训练样本输入最小化最大信息年龄模型从而得到每一个训练样本奖惩值及其所对应的Q函数值,最终满足预设条件时,完成对于预设无人机路径规划模型的训练。
本发明实施例通过每获取无人机的样本位置信息时,则将其作为触发条件,生成一个随机概率信息因此不同的无人机样本位置信息会得到其对应的不同随机概率,并且通过与预设概率信息进行比较,帮助模型统计奖惩值最大的路径规划信息,有助于模型在训练过程中实现最大化奖惩值的目的,并有利于后续步骤的进行。
在上述实施例的基础上,所述根据多个训练样本和所述最小化最大信息年龄模型对预设无人机路径规划模型进行训练的步骤,具体包括:
对于任意一个训练样本,根据所述训练样本和和最小化最大信息年龄模型得到所述训练样本所对应的Q函数值;
根据所述Q函数值对预设无人机路径规划模型进行更新;
在满足预设条件时,完成对预设无人机路径规划模型的训练。
具体的,本发明实施例中所描述的预设条件可以是指满足预设的训练次数,例如训练达到500次后,则判定完成训练;预设条件也可以是指满足预设的时间,例如训练达到24小时后,则判定完成训练。
本发明实施例中所描述的Q函数值是指Q学习的算法核心——Q函数的值,而在训练过程中,无人机行为选择目的是为了最大化奖惩值,
Figure GDA0002711243490000081
其中r(·)是奖励函数,γ∈(0,1)是折扣因子,因此可以得到 Q函数为:
Figure GDA0002711243490000082
其中,
Figure GDA0002711243490000083
表示求函数的期望值,st为环境状态,at为行为选择,γ∈(0,1)是折扣因子。
与此同时,Q学习算法是一种典型的异策略学习法,在Q学习算法中,预设无人机路径规划模型一边学习最优的目标政策,同时根据行为政策β(非最优策略)进行不断的探索。在本发明实施例当中,采取了贪心算法
Figure GDA0002711243490000084
作为目标策略π,而行为政策β则选取∈-greedy的方法,其给出如下:
Figure GDA0002711243490000085
这里,本发明实施例使用了一个改善的∈-greedy方法,在这个方法里,∈参数会根据训练过程逐渐进行调整,以加速算法的收敛速度。根据上述策略的定义,Q函数可以重新改写如下:
Figure GDA0002711243490000086
其中,
Figure GDA0002711243490000087
是时间差分项,θ是学习速率。
因此根据无人机的样本行为选择和最小化最大信息年龄模型得到该样本行为选择所对应测惩戒值,并结合上述Q函数,即可得到该样本行为选择所对应的Q函数值,并将该行为选择所对应的Q函数值记录在预设无人机路径规划模型中。
本发明实施例通过Q函数的建立,并根据不同的训练样本从而进一步更新完善预设无人机路径规划模型,在预设无人机路径规划模型训练完成后,可以根据预设无人机路径规划模型迅速判断最优无人机路径规划信息。
在上述实施例的基础上,对任意一个训练样本,将所述训练样本输入最小化最大信息年龄模型的步骤之前,所述方法还包括:
获取数据传输速率信息、无人机行为选择时间信息和数据包丢失数量信息,以建立最小丢失包模型;
获取数据包年龄信息,以根据所述数据包年龄信息对所述最小丢失包模型进行优化,得到最小化最大信息年龄模型,其中所述最小化最大信息年龄模型中包括最大化信息年龄函数信息。
具体的,本发明实施例中所描述的数据传输速率信息是无人机通过低空视距通信链路与传感器通信的速率
Figure GDA0002711243490000091
Figure GDA0002711243490000092
其中,
Figure GDA0002711243490000093
为传感器m在时间tn瞬时发射功率,g为传感器到无人机的视距通信链路的信道功率增益,g=βh-2,σ2为无人机接收器的噪声功率,h为无人机飞行高度,β为参考距离处的无人机的视距通信链路的信道增益;B为系统带宽。
本发明实施例中所描述的无人机行为选择时间信息具体是指无人机从一个传感器起飞的时候到下一个传感器起飞的时刻所经过的时间长度,其中包括无人机的飞行时间和数据传输时间:
Figure GDA0002711243490000094
其中,tn无人机从每个传感器起飞的时刻,
Figure GDA0002711243490000095
是指数据传输速率信息,
Figure GDA0002711243490000096
表示无人机在时刻tn从传感器m带走的包数量,
Figure GDA0002711243490000097
传感器m从时刻tn-1到tn这段时间内所丢失的包数为
Figure GDA0002711243490000098
具体计算如下:
Figure GDA0002711243490000099
其中,(x)+=max{0,x},
Figure GDA00027112434900000910
数字“1”表示包过期;
Figure GDA00027112434900000911
数字“1”表示包非过期;
Figure GDA00027112434900000912
在传感器m中从时刻tn-1到tn这段时间内新到达的包数量,服从泊松分布,均值为λm;表示无人机决定下一个时间节点选择访问哪个传感器,
Figure GDA00027112434900000913
是二进制变量,其值为1时表示在时间tn-1处访问传感器i的无人机在时间tn选择访问传感器m。
因此建立最小丢失包模型为:
Figure GDA00027112434900000914
Figure GDA0002711243490000101
Figure GDA0002711243490000102
其中,
Figure GDA0002711243490000103
m≤M:表示无人机决定下一个时间节点选择访问哪个传感器,其中
Figure GDA0002711243490000104
是二进制变量,其值为1时表示在时间tn-1处访问传感器i的无人机在时间tn选择访问传感器m。
而由于多个离散变量、多维约束以及复杂嵌套函数,导致最小丢失包模型难以解决。因此,在问题求解中,需要把最小丢失包模型转换为最小化最大信息年龄模型。
本发明实施例中所描述的数据包年龄信息是指传感器中的数据信息在传感器m生成的时刻开始,到被无人机采集的时刻为止所经过的时间量,可以表示为:
Figure GDA0002711243490000105
如果这个数据包无法在寿命结束之前被无人机收集走,那么这个数据包就会过期,信息将会丢失,那么它的信息年龄也失去了意义。因此,在这里用无人机飞行的总时间Ttotal来定义这些过期的数据包的信息年龄,并将其作为所有数据包的信息年龄的上限。因此,信息年龄可以重新表达为:
Figure GDA0002711243490000106
其中,
Figure GDA0002711243490000107
于此同时,
Figure GDA0002711243490000108
Figure GDA0002711243490000109
的衡量方式可以改写为如下形式:
Figure GDA00027112434900001010
其中,Ttotal为无人机飞行的总时间,
Figure GDA00027112434900001011
传感器m中包j的产生时刻。本发明实施例可以理解为在路径规划中改善所有数据包年龄的情况,因此可以得到最小化最大信息年龄模型:
Figure GDA00027112434900001012
Figure GDA00027112434900001013
Figure GDA00027112434900001014
其中,F(X)为最大化信息年龄函数信息。
本发明实施例通过建立最小丢失包模型的建立和优化,最后得到最大化信息年龄模型,以及最大化信息年龄函数,通过最大信息年龄函数有利于后续步骤中对于奖惩值得确定,从而有利于后续对于预设无人机路径规划模型的训练。
在上述实施例的基础上,对于任意一个训练样本,将所述训练样本输入最小化最大信息年龄模型,以得到所述训练样本所对应的Q函数值的步骤,具体包括:
根据所述任意一个训练样本和所述最大化信息年龄函数信息,得到所述训练样本的奖惩值;
根据所述训练样本的奖惩值得到所述训练样本对应的Q函数值。
具体的,本发明实施例中所描述的训练样本的奖惩值具体是指在无人机做出一次样本行为选择时,当前信息采集场景中所有传感器的奖惩值的总和。
由于最大化信息年龄函数为F(X),而X又是指无人机下个时间节点选择访问传感器的集合,因此在得知无人机的行为做出行为选择时,很容易此时所有传感器奖惩值的总和,既训练样本的奖惩值;而根据Q函数的公式和该奖惩值则很容易得到该训练样本所对应的Q函数值。
本发明实施例通过训练样本和最大化信息年龄函数信息可以确定Q函数值信息,即此时可以完成一次训练,有利于对于预设无人机路径规划模型的训练。
在上述实施例的基础上,所述最小丢失包模型为:
Figure GDA0002711243490000111
Figure GDA0002711243490000112
Figure GDA0002711243490000113
其中,
Figure GDA0002711243490000114
tn为无人机从每个传感器起飞的时刻,其中 t0表示无人机从数据中心出发的时间节点,M为传感器总个数,X为无人机决定下一个时间节点选择访问传感器的决策矩阵,
Figure GDA0002711243490000115
m≤M,矩阵元素
Figure GDA0002711243490000116
是二元变量,
Figure GDA0002711243490000117
表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m。
具体的,
Figure GDA0002711243490000118
表示无人机决定下一个时间节点选择访问传感器的集合,其中
Figure GDA0002711243490000119
m≤M,其值为1时表示在时间tn-1处访问传感器i的无人机在时间tn选择访问传感器m。
本发明实施例中所描述的最小丢失包模型的建立有利于后续步骤的进行。
在上述实施例的基础上,所述最小化最大信息年龄模型为:
Figure GDA0002711243490000121
Figure GDA0002711243490000122
Figure GDA0002711243490000123
其中,
Figure GDA0002711243490000124
为数据包年龄信息,
Figure GDA0002711243490000125
tn为无人机从每个传感器起飞的时刻,其中t0表示无人机从数据中心出发的时间节点,M 为传感器总个数,X为无人机决定下一个时间节点选择访问传感器的决策矩阵,
Figure GDA0002711243490000126
m≤M,矩阵元素
Figure GDA0002711243490000127
是二元变量,
Figure GDA0002711243490000128
表示在时间tn-1处访问传感器i的无人机在时间tn选择访问传感器m;J为每个传感器最多可存储的数据包数量。
具体的,
Figure GDA0002711243490000129
m≤M:表示无人机决定下一个时间节点选择访问传感器的集合,其中
Figure GDA00027112434900001210
是二进制变量,其值为1时表示在时间tn-1处访问传感器i的无人机在时间tn选择访问传感器 m。
本发明实施例中所描述的最小化最大信息年龄模型的建立有利于后续步骤的进行。
图2为本发明一实施例所提供的预设无人机路径规划模型训练流程图,如图2所示,包括:
步骤210,获取无人机样本位置信息;然后进入步骤220,判断随机概率信息与预设概率信息的大小,若随机概率信息大于预设概率信息则进入步骤 230,将其判断为最大回报行为,这里所描述的最大回报行为是指记录该位置信息所对应的多种不同行为选择所对应的奖惩值,并将其作为有效数据,若随机概率信息小于预设概率信息则进入步骤240,此时将此次预设样本作为一个随机行为,不对其进行记录。
然后进入步骤250,确定行为选择,根据样本的奖惩值,在多种不同行为选择所对应的奖惩值最大值,以确定行为选择,然后进入步骤260,在确定行为选择后,此时即可以确定下一个将要访问的传感器;然后进入步骤270,根据当前样本的当前位置信息和行为选择,即可以得到当前样本所对应的Q 函数值,并对其进行记录,随后进入步骤280,进行预设条件判断,此处所描述的预设条件可以是预先设定好的预设条件,若满足预设条件则进入步骤 290,结束训练,若不满足预设条件,则回到步骤210,继续对预设无人机路径规划模型进行训练,进行下一个循环。
本发明实施通过将无人机选择下一个传感器的动作作为无人机的行为选择,并将无人机的行为选择为一个训练样本,获取多个训练样本后,通过最小化最大信息年龄模型来对预设无人机路径规划模型进行训练,充分考虑无人机的行为选择对于待收集数据信息寿命的影响这要素来进行优化,训练完毕后的预设无人机路径规划模型可以根据无人机当前位置信息自动规划最优路径,此时的最优路径会使得过期数据信息包的数量最小化,有效减少了数据信息因为过期而导致的信息丢失。
图3为本发明一实施例所提供的无人机路径规划装置结构示意图,如图 3所示,包括定位模块310和规划模型320,其中,定位模块310用于获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;其中,规划模块320用于将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。
本发明实施例提供的装置是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
具体的,本发明实施例中所描述的无人机当前位置信息具体是指无人机在开始采集信息数据时刻无人机在信息采集场景中的位置信息。
本发明实施例中所描述的无人机路径规划信息是指无人机在当前信息采集场景中对于数据传感器的数据信息采集所需要经过的路径,即对于数据传感器采集的顺序选择。
本发明实施例中所描述的无人机的行为选择具体是在指无人机对于下个将要访问传感器的选择行为。
本发明实施例通过将无人机选择下一个传感器的动作作为无人机的行为选择,并将无人机的行为选择为一个训练样本,获取多个训练样本后,通过最小化最大信息年龄模型来对预设无人机路径规划模型进行训练,充分针对无人机的行为选择对于待收集数据信息寿命的影响进行优化,训练完毕后的预设无人机路径规划模型可以根据无人机当前位置信息自动规划最优路径,此时的最优路径会使得过期数据信息包的数量最小化,有效减少了数据信息因为过期而导致的信息丢失。
图4为本发明一实施例所提供的电子设备结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器 401可以调用存储器403中的逻辑指令,以执行如下方法:获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务器指令,该计算机指令使计算机执行上述实施例所提供的一种无人机路径规划方法,例如包括:获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种无人机路径规划方法,其特征在于,包括:
获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;
将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;
其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的样本行为选择进行训练得到的;
所述最小化最大信息年龄模型为:
Figure FDA0002799210610000011
Figure FDA0002799210610000012
Figure FDA0002799210610000013
其中,
Figure FDA0002799210610000014
为数据包年龄信息,
Figure FDA0002799210610000015
tn为无人机从每个传感器起飞的时刻,其中t0表示无人机从数据中心出发的时间节点,M为传感器总个数,X为无人机决定下一个时间节点选择访问传感器的决策矩阵,
Figure FDA0002799210610000016
矩阵元素
Figure FDA0002799210610000017
是二元变量,
Figure FDA0002799210610000018
表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m;j为数据包编号,J为每个传感器最多可存储的数据包数量。
2.根据权利要求1所述方法,其特征在于,所述将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息的步骤之前,所述方法还包括:
根据无人机样本位置信息生成随机概率信息;
根据所述随机概率信息和预设概率信息,确定无人机的样本行为选择;
将无人机的每一个样本行为选择作为一个训练样本,获得多个训练样本,根据多个训练样本和所述最小化最大信息年龄模型对预设无人机路径规划模型进行训练。
3.根据权利要求2所述方法,其特征在于,所述根据多个训练样本和所述最小化最大信息年龄模型对预设无人机路径规划模型进行训练的步骤,具体包括:
对于任意一个训练样本,根据所述训练样本和所述最小化最大信息年龄模型得到所述训练样本所对应的Q函数值;
根据所述Q函数值对预设无人机路径规划模型进行更新;
在满足预设条件时,完成对预设无人机路径规划模型的训练。
4.根据权利要求3所述方法,其特征在于,对任意一个训练样本,将所述训练样本输入最小化最大信息年龄模型的步骤之前,所述方法还包括:
获取数据传输速率信息、无人机行为选择时间信息和数据包丢失数量信息,以建立最小丢失包模型;
获取数据包年龄信息,根据所述数据包年龄信息对所述最小丢失包模型进行优化,得到最小化最大信息年龄模型,其中所述最小化最大信息年龄模型中包括最大化信息年龄函数信息。
5.根据权利要求4所述方法,其特征在于,对于任意一个训练样本,根据所述训练样本和所述最小化最大信息年龄模型得到所述训练样本所对应的Q函数值的步骤,具体包括:
根据任意一个训练样本和所述最大化信息年龄函数信息,得到所述训练样本的奖惩值;
根据所述训练样本的奖惩值得到所述训练样本对应的Q函数值。
6.根据权利要求4所述方法,其特征在于,所述最小丢失包模型为:
Figure FDA0002799210610000021
Figure FDA0002799210610000022
Figure FDA0002799210610000023
其中,
Figure FDA0002799210610000024
tn为无人机从每个传感器起飞的时刻,其中t0表示无人机从数据中心出发的时间节点,M为传感器总个数,X为无人机决定下一个时间节点选择访问传感器的决策矩阵,
Figure FDA0002799210610000025
矩阵元素
Figure FDA0002799210610000026
是二元变量,
Figure FDA0002799210610000027
表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m。
7.一种无人机路径规划装置,其特征在于,包括:
定位模块,用于获取无人机当前位置信息,根据所述无人机当前位置信息得到无人机的行为选择;
规划模块,用于将所述无人机的行为选择输入预设无人机路径规划模型,以得到无人机路径规划信息;
其中,所述预设无人机路径规划模型是通过最小化最大信息年龄模型和无人机的行为选择进行训练得到的;
所述最小化最大信息年龄模型为:
Figure FDA0002799210610000031
Figure FDA0002799210610000032
Figure FDA0002799210610000033
其中,
Figure FDA0002799210610000034
为数据包年龄信息,
Figure FDA0002799210610000035
tn为无人机从每个传感器起飞的时刻,其中t0表示无人机从数据中心出发的时间节点,M为传感器总个数,X为无人机决定下一个时间节点选择访问传感器的决策矩阵,
Figure FDA0002799210610000036
矩阵元素
Figure FDA0002799210610000037
是二元变量,
Figure FDA0002799210610000038
表示在时刻tn-1处访问传感器i的无人机在时刻tn选择访问传感器m;j为数据包编号,J为每个传感器最多可存储的数据包数量。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述无人机路径规划方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一项所述无人机路径规划方法。
CN201910251403.6A 2019-03-29 2019-03-29 一种无人机路径规划方法及装置 Active CN109990790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910251403.6A CN109990790B (zh) 2019-03-29 2019-03-29 一种无人机路径规划方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910251403.6A CN109990790B (zh) 2019-03-29 2019-03-29 一种无人机路径规划方法及装置

Publications (2)

Publication Number Publication Date
CN109990790A CN109990790A (zh) 2019-07-09
CN109990790B true CN109990790B (zh) 2021-03-12

Family

ID=67130787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910251403.6A Active CN109990790B (zh) 2019-03-29 2019-03-29 一种无人机路径规划方法及装置

Country Status (1)

Country Link
CN (1) CN109990790B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543185B (zh) * 2019-07-19 2022-05-27 宁波大学 一种基于最小化信息年龄的无人机数据收集方法
CN110645988B (zh) * 2019-10-11 2023-08-29 广州大学 一种基于最优寿命的无人机路径规划方法
CN110989690B (zh) * 2019-12-24 2020-09-11 北京航空航天大学 一种基于诱导信息的多无人机寻路方法
CN113131985B (zh) * 2019-12-31 2022-05-13 丽水青达科技合伙企业(有限合伙) 一种基于信息年龄最优路径规划的多无人机数据收集方法
CN111327355B (zh) * 2020-01-21 2021-03-12 北京大学 无人机边缘感知计算与联合传输方法、装置、介质及设备
CN111277320B (zh) * 2020-01-21 2021-06-11 北京大学 一种蜂窝网联无人机轨迹设计和干扰管理的方法及装置
CN111367315B (zh) * 2020-03-11 2021-06-11 北京邮电大学 一种应用于无人机收集信息的轨迹规划方法及装置
CN111506104B (zh) * 2020-04-03 2021-10-01 北京邮电大学 一种规划无人机位置的方法及装置
CN113759887A (zh) * 2020-06-04 2021-12-07 北京京东乾石科技有限公司 一种路径规划方法、装置、存储介质及电子设备
CN112671451B (zh) * 2020-12-10 2022-11-18 北京邮电大学 一种无人机数据收集方法、设备、电子设备及存储介质
CN112904890B (zh) * 2021-01-15 2023-06-30 北京国网富达科技发展有限责任公司 一种电力线路的无人机自动巡检系统及方法
CN113055078B (zh) * 2021-03-12 2022-02-08 西南科技大学 有效信息年龄确定方法、以及无人机飞行轨迹优化方法
CN113077106A (zh) * 2021-04-16 2021-07-06 北京京东振世信息技术有限公司 一种基于时间窗的物品运输方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10255817B2 (en) * 2014-01-31 2019-04-09 Tata Consultancy Services Limited Computer implemented system and method for providing robust communication links to unmanned aerial vehicles
CN106559757A (zh) * 2016-11-23 2017-04-05 宁波大红鹰学院 一种无人机通信方法
CN106767816A (zh) * 2016-11-30 2017-05-31 浙江大学 一种基于Voronoi图法和GPRS通信的无人机远程路径规划系统
CN106959700B (zh) * 2017-03-21 2019-08-27 北京航空航天大学 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法
CN107094044B (zh) * 2017-03-30 2020-09-22 中国民航大学 一种空时分组编码的无人机中继通信航迹规划方法

Also Published As

Publication number Publication date
CN109990790A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN109990790B (zh) 一种无人机路径规划方法及装置
CN111091200B (zh) 训练模型的更新方法、系统、智能设备、服务器及存储介质
CN111835827A (zh) 物联网边缘计算任务卸载方法及系统
CN111220159B (zh) 多无人机协同巡检任务的路径优化方法
CN112069903B (zh) 基于深度强化学习实现人脸识别端边卸载计算方法及装置
CN111222628A (zh) 循环神经网络训练优化方法、设备、系统及可读存储介质
CN111611351B (zh) 在线客服会话的控制方法、装置和电子设备
US20230367934A1 (en) Method and apparatus for constructing vehicle dynamics model and method and apparatus for predicting vehicle state information
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN113335277A (zh) 智能巡航控制方法、装置、电子设备和存储介质
CN111277320B (zh) 一种蜂窝网联无人机轨迹设计和干扰管理的方法及装置
Liu et al. Task offloading optimization of cruising UAV with fixed trajectory
CN116362359A (zh) 基于ai大数据的用户满意度预测方法、装置、设备及介质
US20230394552A1 (en) Method and internet of things system of charging information recommendation for new energy vehicle in smart city
CN113705402A (zh) 视频行为预测方法、系统、电子设备及存储介质
CN115174419B (zh) 截止时延约束下基于信息年龄的工业物联网调度方法
CN113516163B (zh) 基于网络剪枝的车辆分类模型压缩方法、装置及存储介质
CN114024906B (zh) 优化视频传输用户体验质量的流量控制方法、装置和系统
CN115001937A (zh) 面向智慧城市物联网的故障预测方法及装置
CN115034356A (zh) 一种用于横向联邦学习的模型融合方法及系统
CN114528972A (zh) 移动边缘计算中深度学习模型训练方法及相应系统
CN113052312A (zh) 深度强化学习模型的训练方法、装置、介质及电子设备
CN117557870B (zh) 基于联邦学习客户端选择的分类模型训练方法及系统
CN114817744A (zh) 一种基于多智能体的推荐方法和装置
CN114374608B (zh) 切片实例备份任务调度方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant