CN111431644B

CN111431644B - 面向频谱认知的无人机路径自主规划装置及方法

Info

Publication number: CN111431644B
Application number: CN202010213159.7A
Authority: CN
Inventors: 刘�东; 黄洋; 朱秋明; 吴启晖; 仲伟志; 胡田钰; 吴光宇; 成能; 杜孝夫
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2022-06-10
Anticipated expiration: 2040-03-24
Also published as: CN111431644A

Abstract

本发明公开了一种面向频谱认知的无人机路径自主规划装置及方法，其中装置包括无人机平台单元以及状态信息认知单元，所述无人机平台单元包括状态信息获取模块、飞行路径控制模块和机载数据链收发模块，所述状态信息认知单元包括地面接收模块和中央处理器模块，所述无人机平台单元中的机载数据链收发模块分别和无人机平台单元的状态信息获取模块、飞行路径控制模块相连接通信，状态信息认知单元中地面接收模块和中央处理器模块相连接通信。本发明面向频谱认知的无人机路径自主规划装置及方法，可以实现高动态变化环境下，面向频谱认知的无人机路径自主规划。

Description

面向频谱认知的无人机路径自主规划装置及方法

技术领域：

本发明涉及面向频谱认知的无人机路径自主规划装置及方法，其属于无人机技术领域。

背景技术：

频谱认知是为天地一体频谱资源共享、无线电秩序管理与频谱作战服务，其任务往往是预先无法确定的，其所处环境往往是高动态变化的，例如微弱信号源的探测、方向性信号角度域方向性的描绘、三维立体空间频谱态势测绘等频谱认知任务。如何提高任务完成的效率及精度，如何以最优的方式执行频谱认知的无人机路径自主规划策略，并具有快速而有效地自主规划能力，对于实现频谱认知任务至关重要。

无人机路径自主规划是无人机任务规划的重要组成部分，是实现无人机自主执行任务的重要阶段。当前无人机路径自主规划能力能够适应相对结构化任务环境的要求，但距离解决动态、不确定环境下的路径自主规划问题尚有很大的差距。因此，设计一款可以实现面向频谱认知任务的，其所处环境高动态变化下的无人机飞行路径快速、有效地自主规划的方法及装置是十分必要的。

发明内容：

本发明是为了解决上述现有技术存在的问题而提供一种面向频谱认知的无人机路径自主规划装置及方法，实现了任务预先无法确定的，其所处的是高动态变化的环境下的无人机飞行动作的自主决策选择，进而对其路径自主规划。

本发明采用如下技术方案：一种面向频谱认知的无人机路径自主规划装置，包括无人机平台单元以及状态信息认知单元，所述无人机平台单元包括状态信息获取模块、飞行路径控制模块和机载数据链收发模块，所述状态信息认知单元包括地面接收模块和中央处理器模块，所述无人机平台单元中的机载数据链收发模块分别和无人机平台单元的状态信息获取模块、飞行路径控制模块相连接通信，状态信息认知单元中地面接收模块和中央处理器模块相连接通信；

所述无人机平台单元中的状态信息获取模块获取当前无人机位置每一方向上的频谱认知任务状态信息，所述飞行路径控制模块接收从无人机平台单元的机载数据链收发模块反馈的无人机飞行路径控制信息，控制无人机实时的飞行路径，机载数据链收发模块接收状态信息认知单元发送的无人机飞行动作决策指令信息，机载数据链收发模块向地面接收模块发送无人机平台单元的状态信息获取模块获取的状态信息；

所述地面接收模块接收无人机平台单元的机载数据链收发模块发射的无人机飞行位置每一方向上的频谱认知任务状态信息，并将其传递给状态信息认知单元的中央处理器模块，所述状态信息认知单元的中央处理器模块选择调用算法程序模块，所述中央处理器模块进行路径自主规划决策并向无人机平台单元的机载数据链收发模块发送无人机飞行动作决策指令信息。

2.一种面向频谱认知的无人机路径自主规划方法，步骤如下：

第一步：测量前检查装置同步校准设备，检查各模块之间线缆连接是否正常，初始化系统各模块设置，根据当前执行的频谱认知任务，状态信息认知单元的中央处理器模块选择调用算法程序模块；

第二步：无人机飞行动作记为a_k，其中a_k为定义为多方向的某一方向上飞行一定距离，所有的动作组成了此次频谱认知任务中的无人机飞行动作集合A，控制无人机处于设定的高度，在悬停位置旋转多个方向或者利用天线阵列通过控制接收波束成型测量多个方向的信号，无人机平台单元的状态信息获取模块完成当前无人机飞行位置每一方向上的频谱认知任务状态信息的获取，并将获取的频谱认知任务状态信息传递给无人机平台单元的机载数据链收发模块，机载数据链收发模块发送频谱认知任务状态信息数据给状态信息认知单元的地面接收模块接收，地面接收模块传输频谱认知任务状态信息数据给中央处理器模块；

第三步，在中央处理器模块中，基于从地面接收模块收到的当前无人机飞行位置每一个方向上的频谱认知任务状态信息得到对应方向上的状态和对应方向上的奖励回报值，状态记为s_k，奖励回报值记为r_k，通过相邻时刻获取的微弱信号源强度信息的变化来设置r_k，满足以上要求的r_k以下方式：

r_k为当前无人机在该时刻执行动作获得的微弱信号源强度和上一时刻获得的微弱信号源强度的差值，即r_k＝P_r(k)-P_r(k-1)，记长期累加回报奖励值折扣因子为γ(γ∈[0,1])；

定义每个无人机状态和无人机飞行动作组成一个状态—动作对(s,a)，记Q为状态—动作对所映射的值，状态—动作对与该值构成值函数Q(s,a)，表示指定状态—动作对的累积奖赏回报值，则基于动作集、状态集组成了一张表格记作Q值表，初始化时置零，通过每次执行无人机飞行动作后状态的变化及得到的奖励回报值来不断更新Q值表，然后基于Q值表和当前无人机状态决策出下一时刻的无人机飞行动作；

以上更新Q值表的过程，描述如下：执行当前动作a_k后的奖励回报值r_k加上执行当前动作后的无人机飞行状态s_k+1对应Q值表中的最大值φ的γ倍，γ为长期累加回报奖励值折扣因子减去无人机当前对应的状态记为s_k和无人机当前执行的动作记为a_k对应的Q值表中的Q值Q(s_k,a_k)得到结果的α倍再加上无人机当前对应的状态记为s_k和无人机当前执行的动作记为a_k对应的Q值表中的Q值Q(s_k,a_k)，其结果为在此迭代过程中的新的Q值Q(s_k,a_k)；

则Q值表的更新过程概述以下公式：

Q(s_k,a_k)＝α(r_k+γφ-Q(s_k,a_k))+Q(s_k,a_k)

其中，执行飞行动作a_k后，在k+1时刻无人机飞行状态到达s_k+1状态，φ为s_k+1状态下所有飞行动作里的对应的最大Q值；

第四步，状态信息认知单元的中央处理器模块中的无人机飞行动作决策部分基于ε-greedy动作选择策略，来决策出无人机下一时刻的飞行动作，接着中央处理器模块向无人机平台单元的机载数据链收发模块发出的无人机飞行动作决策指令信息；

第五步，状态信息认知单元的中央处理器模块发出的无人机飞行动作决策指令信息由无人机平台单元的机载数据链收发模块的接收，然后反馈给无人机平台单元的飞行路径控制模块，飞行路径控制模块根据收到的无人机飞行动作决策指令信息执行下一时刻无人机的飞行动作；

第六步，若没有达到预先设定的频谱认知任务完成的条件，则返回第二步继续迭代执行高动态环境下的频谱认知任务。若达到了预先设定的频谱认知任务完成的条件，则结束任务。

本发明具有如下有益效果：

1)本发明面向频谱认知的无人机路径自主规划装置及方法，可以实现高动态变化环境下，面向频谱认知的无人机路径自主规划。

2)本发明面向频谱认知的无人机路径自主规划装置及方法，通过实时的对当前无人机飞行位置每一方向(此方向为无人机自身旋转的方向或天线阵列中接收波束成型的方向)上的频谱认知任务状态信息，进一步对信息的评估与分析，然后根据面向频谱认知的路径自主规划决策机制决策选择下一时刻将要执行的飞行动作，该方法不依赖于环境的模型，也不需要环境的先验信息知识，适用于动态未知环境中面向频谱认知的无人机路径自主规划。

附图说明：

图1是本发明面向频谱认知的无人机路径自主规划装置的结构示意图。

图2是本发明面向频谱认知的无人机路径自主规划方法的流程图。

图3是图2中状态信息认知单元的中央处理器模块的决策机制采用的算法模块流程图。

具体实施方式：

下面结合附图对本发明作进一步的说明。

如图1所示，本发明面向频谱认知的无人机路径自主规划装置包括无人机平台单元1-1以及状态信息认知单元1-2。其中无人机平台单元1-1包括状态信息获取模块1-4、飞行路径控制模块1-3和机载数据链收发模块1-5；状态信息认知单元1-2包括地面接收模块1-6和中央处理器模块1-7。无人机平台单元1-1中的机载数据链收发模块1-5分别和无人机平台单元1-1的状态信息获取模块1-4、飞行路径控制模块1-3相连接通信，状态信息认知单元1-2中地面接收模块1-6和中央处理器模块1-7相连接通信。

其中无人机平台单元1-1控制无人机处于设定的高度，在悬停位置旋转多个方向或者利用天线阵列通过控制接收波束成型测量多个方向的信号(与设定动作集中方向数保持一致)，状态信息获取模块1-4获取当前无人机位置每一方向上的频谱认知任务状态信息；飞行路径控制模块1-3接收从无人机平台单元1-1的机载数据链收发模块1-5反馈的无人机飞行路径控制信息，控制无人机实时的飞行路径；机载数据链收发模块1-5接收状态信息认知单元1-2发送的无人机飞行动作决策指令信息，也承担着向地面接收模块1-6发送无人机平台单元1-1的状态信息获取模块获取的状态信息。

地面接收模块1-6负责接收无人机平台单元1-1的机载数据链收发模块1-5发射的无人机飞行位置每一方向上的频谱认知任务状态信息，并将其传递给状态信息认知单元1-2的中央处理器模块1-7。中央处理器模块1-7具备无人机路径自主规划功能，可根据当前执行的频谱认知任务，状态信息认知单元1-2的中央处理器模块1-7选择调用本发明中的算法程序模块。中央处理器模块1-7具有面向不同的频谱认知任务的无人机路径自主规划决策功能，进行路径自主规划决策并向无人机平台单元1-1的机载数据链收发模块1-5发送无人机飞行动作决策指令信息。

为使本发明的目的、技术方案和优点更加清楚，结合图2、图3及两个具体实施例对本发明的面向频谱认知的无人机路径自主规划方法实施过程作进一步的详细说明。

实施例一

本实施例以无人机执行微弱信号源探测的频谱认知任务为例，其实施的方法步骤如下：

第一步，测量前检查系统同步校准设备，检查各模块之间线缆连接是否正常，初始化系统各模块设置，根据当前执行的频谱认知任务，状态信息认知单元1-2的中央处理器模块1-7选择调用本发明中的算法程序模块。

第二步，无人机飞行动作记为a_k，其中a_k为定义为多方向的某一方向上飞行一定距离(“多方向”：为对应角域上均匀分布的多个方向；“飞行一定距离”：该距离可初始设置不同参数)，所有的动作组成了此次微弱信号源探测的频谱认知任务中的无人机飞行动作集合A。

控制无人机处于设定的高度，在悬停位置旋转多个方向或者利用天线阵列通过控制接收波束成型测量多个方向的信号(与设定动作集中方向数保持一致)，无人机平台单元1-1的状态信息获取模块1-4完成当前无人机飞行位置每一方向上的微弱信号源探测的频谱认知任务状态信息，此处状态信息为每一方向所获取的微弱信号强度得到的平均值记为P_r，基于每一方向所获取的微弱信号强度得到的平均值得到对应的状态s，状态集可根据划分的获取微弱信号强度范围设定，记每一方向所获取的微弱信号强度得到的平均值为P_r(dB)，则无人机状态和P_r对应关系可采用(且不限于)以下方式：

state	P<sub>r</sub>(dB)
		s＝1	P<sub>r</sub>＞-10
s＝2	-20≤P<sub>r</sub>≤-10
		s＝3	-30≤P<sub>r</sub>≤-20
s＝4	-40≤P<sub>r</sub>≤-30
		s＝5	-50≤P<sub>r</sub>≤-40
s＝6	-60≤P<sub>r</sub>≤-50
		s＝7	-70≤P<sub>r</sub>≤-60
s＝8	-80≤P<sub>r</sub>≤-70
		s＝9	-90≤P<sub>r</sub>≤-80
s＝10	P<sub>r</sub>＜-90

即所有无人机状态组成状态集S∈{1,2,3,4,5,6,7,8,9,10}。

状态信息获取模块1-4将其获取的微弱信号强度信息传递给无人机平台单元1-1的机载数据链收发模块1-5。机载数据链收发模块1-5发送获取的微弱信号强度信息认知单元1-2的地面接收模块1-6接收，地面接收模块1-6传输获取的微弱信号强度信息给中央处理器模块1-7。

第三步，在中央处理器模块1-7中，基于从地面接收模块1-6收到的当前无人机飞行位置每一个方向上的微弱信号强度信息得到对应方向上的无人机状态和对应方向上的奖励回报值，状态记为s_k，奖励回报值记为r_k。通过相邻时刻获取的微弱信号源强度信息的变化来设置r_k，满足以上要求的r_k可采用(且不限于)以下方式：

r_k为当前无人机在该时刻执行动作获得的微弱信号源强度和上一时刻获得的微弱信号源强度的差值，即r_k＝P_r(k)-P_r(k-1)。

记长期累加回报奖励值折扣因子为γ(γ∈[0,1])，记智能决策的学习速率为α(α∈[0,1])，用来控制智能决策的学习速率。

我们定义每个无人机状态和无人机飞行动作组成一个状态—动作对(s,a)，记Q为状态—动作对所映射的值，状态—动作对与该值构成值函数Q(s,a)，表示指定状态—动作对的累积奖赏回报值。则基于动作集、状态集组成了一张表格记作Q值表(初始化时置零)。通过每次执行无人机飞行动作后状态的变化及得到的奖励回报值来不断更新Q值表，然后基于Q值表和当前无人机状态决策出下一时刻的无人机飞行动作。

以上所述更新Q值表的过程，描述如下：执行当前动作a_k后的奖励回报值r_k加上执行当前动作后的无人机飞行状态s_k+1对应Q值表中的最大值φ的γ倍(γ为长期累加回报奖励值折扣因子)减去无人机当前对应的状态(记为s_k)和无人机当前执行的动作(记为a_k)对应的Q值表中的Q值Q(s_k,a_k)得到结果的α倍(学习速率)再加上无人机当前对应的状态(记为s_k)和无人机当前执行的动作(记为a_k)对应的Q值表中的Q值Q(s_k,a_k)，其结果为在此迭代过程中的新的Q值Q(s_k,a_k)。

则Q值表的更新过程概述以下公式：

Q(s_k,a_k)＝α(r_k+γφ-Q(s_k,a_k))+Q(s_k,a_k)

其中，执行飞行动作a_k后，在k+1时刻无人机飞行状态到达s_k+1状态。φ为s_k+1状态下所有飞行动作里的对应的最大Q值。

第四步，状态信息认知单元1-2的中央处理器模块1-7中的无人机飞行动作决策部分基于ε-greedy动作选择策略，来决策出无人机下一时刻的飞行动作。接着中央处理器模块1-7向无人机平台单元1-1的机载数据链收发模块1-4发出的无人机飞行动作决策指令信息。

第五步，状态信息认知单元1-2的中央处理器模块1-7发出的无人机飞行动作决策指令信息由无人机平台单元1-1的机载数据链收发模块1-4的接收，然后反馈给无人机平台单元1-1的飞行路径控制模块1-3，飞行路径控制模块1-3根据收到的无人机飞行动作决策指令信息执行下一时刻无人机的飞行动作。

第六步，若没有达到预先设定的探测微弱信号源任务完成的条件，则返回第二步继续执行高动态环境下的探测微弱信号源任务，经过不断地更新迭代的过程，无人机可以通过其自主规划飞行路径来探测微弱信号源。若达到了预先设定的探测微弱信号源任务完成的条件，则结束任务。

实施例二

本实施以无人机执行方向性信号角度域方向性描绘的频谱认知任务为例，其实施的方法步骤如下：

第二步，无人机飞行动作记为a_k，其中a_k为定义为多方向的某一方向上飞行一定距离(“多方向”：为对应角域上均匀分布的多个方向；“飞行一定距离”：该距离可初始设置不同参数)，所有的动作组成了此次方向性信号角度域方向性描绘的频谱认知任务中的无人机飞行动作集合A。

控制无人机处于设定的高度，在悬停位置旋转多个方向或者利用天线阵列通过控制接收波束成型测量多个方向的信号(与设定动作集中方向数保持一致)，无人机平台单元1-1的状态信息获取模块1-4完成当前无人机飞行位置每一方向上的方向性信号角度域方向性描绘的频谱认知任务状态信息，此处状态信息为每一方向所获取的方向性信号强度得到的平均值记为P_r，基于每一方向所获取的方向性信号强度得到的平均值得到对应的状态s，状态集可根据划分的获取方向性信号强度范围设定，记每一方向所获取的方向性信号强度得到的平均值为P_r(dB)，则无人机状态s和P_r对应关系可采用(且不限于)以下方式：

当P_r＞P₁时：s＝1；当P₁≤P_r﹤P₂时：s＝2；当P₂≤P_r﹤P₃时：s＝3；...当P_r＜P_n时：s＝n；(其中，P₁,P₂,P₃,...,P_n为初始设置的、表示信号强度的常量值。)

即所有无人机状态组成状态集s∈{1,2,3,...,n}。

状态信息获取模块1-4将其获取的方向性信号强度信息传递给无人机平台单元1-1的机载数据链收发模块1-5。机载数据链收发模块1-5发送方向性信号强度信息给状态信息认知单元1-2的地面接收模块接收1-6，地面接收模块1-6传输方向性信号强度信息给中央处理器模块1-7。

第三步，在中央处理器模块1-7中，基于从地面接收模块1-6收到的当前无人机飞行位置每一个方向上的方向性信号强度信息得到对应方向上的状态和对应方向上的奖励回报值，状态记为s_k，奖励回报值记为r_k(r_k的设置描述为，给定一个方向性信号强度参考值为P₀，该参考值P₀存在一定的误差范围θ。如果无人机获取的方向性信号强度得到的平均值低于该参考值，回报值r_k降低；如果高于该参考值，回报值r_k也降低。满足以上要求的r_k可采用(且不限于)以下方式：

当获取的方向性信号强度得到的平均值为P_r(k)大于等于P₀+θ或者小于等于P₀+θ时，r_k等于ω₀(ω₀为一系数常量)乘以e的二分之P_r(k)减P₀的平方次幂。

当获取的方向性信号强度得到的平均值为P_r(k)大于等于P₀+θ或者小于等于P₀+θ时，r_k等于ω₀(ω₀为一系数常量)乘以e的二分之P₀平方次幂。

我们定义每个状态和动作组成一个状态—动作对(s,a)，记Q为状态—动作对所映射的值，状态—动作对与该值构成值函数Q(s,a)，表示指定状态—动作对的累积奖赏回报值。则基于动作集、状态集组成了一张表格记作Q值表(初始化时置零)。通过每次执行无人机飞行动作后状态的变化及得到的奖励回报值来不断更新Q值表，然后基于Q值表和当前无人机状态决策出下一时刻的无人机飞行动作。

则Q值表的更新过程概述以下公式：

Q(s_k,a_k)＝α(r_k+γφ-Q(s_k,a_k))+Q(s_k,a_k)

第六步，若没有达到预先设定的方向性信号角度域方向性描绘的频谱认知任务完成的条件，则返回第二步继续执行高动态环境下的方向性信号角度域方向性描绘的频谱认知任务，经过不断地更新迭代的过程，无人机可以通过其自主规划的飞行轨迹来描绘方向性信号角度域方向性。若达到了预先设定的方向性信号角度域方向性描绘的频谱认知任务完成的条件，则结束任务。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种面向频谱认知的无人机路径自主规划方法，其特征在于：步骤如下：

第一步：测量前检查装置同步校准设备，检查各模块之间线缆连接是否正常，初始化系统各模块设置，根据当前执行的频谱认知任务，状态信息认知单元(1-2)的中央处理器模块(1-7)选择调用算法程序模块；

第二步：无人机飞行动作记为a_k，其中a_k为定义为多方向的某一方向上飞行一定距离，所有的动作组成了此次频谱认知任务中的无人机飞行动作集合A，控制无人机处于设定的高度，在悬停位置旋转多个方向或者利用天线阵列通过控制接收波束成型测量多个方向的信号，无人机平台单元(1-1)的状态信息获取模块(1-4)完成当前无人机飞行位置每一方向上的频谱认知任务状态信息的获取，并将获取的频谱认知任务状态信息传递给无人机平台单元的机载数据链收发模块(1-5)，机载数据链收发模块(1-5)发送频谱认知任务状态信息数据给状态信息认知单元(1-2)的地面接收模块接收(1-6)，地面接收模块(1-6)传输频谱认知任务状态信息数据给中央处理器模块(1-7)；

第三步，在中央处理器模块(1-7)中，基于从地面接收模块(1-6)收到的当前无人机飞行位置每一个方向上的频谱认知任务状态信息得到对应方向上的状态和对应方向上的奖励回报值，状态记为s_k，奖励回报值记为r_k，通过相邻时刻获取的微弱信号源强度信息的变化来设置r_k，r_k满足以下要求：

r_k为当前无人机在该时刻执行动作获得的微弱信号源强度和上一时刻获得的微弱信号源强度的差值，即r_k＝P_r(k)-P_r(k-1)，记长期累加回报奖励值折扣因子为γ∈[0，1]；

当执行微弱信号源探测的频谱认知任务时：

无人机状态s和P_r对应关系可采用以下方式：

当P_r＞P₁时：s＝1；当P₁≤P_r﹤P₂时：s＝2；当P₂≤P_r﹤P₃时：s＝3；...当P_r＜P_n时：s＝n；其中，P₁,P₂,P₃,...,P_n为初始设置的、表示信号强度的常量值

即所有无人机状态组成状态集s∈{1,2,3,...,n}；

r_k采用以下方式：

当获取的方向性信号强度得到的平均值为P_r(k)大于等于P₀+θ或者小于等于P₀+θ时，r_k等于ω₀乘以e的二分之P_r(k)减P₀的平方次幂，ω₀为一系数常量；

当获取的方向性信号强度得到的平均值为P_r(k)大于等于P₀+θ或者小于等于P₀+θ时，r_k等于ω₀乘以e的二分之P₀平方次幂；

第四步，状态信息认知单元(1-2)的中央处理器模块(1-7)中的无人机飞行动作决策部分基于ε-greedy动作选择策略，来决策出无人机下一时刻的飞行动作，接着中央处理器模块(1-7)向无人机平台单元(1-1)的机载数据链收发模块(1-4)发出的无人机飞行动作决策指令信息；

第五步，状态信息认知单元(1-2)的中央处理器模块(1-7)发出的无人机飞行动作决策指令信息由无人机平台单元(1-1)的机载数据链收发模块(1-4)的接收，然后反馈给无人机平台单元(1-1)的飞行路径控制模块(1-3)，飞行路径控制模块(1-3)根据收到的无人机飞行动作决策指令信息执行下一时刻无人机的飞行动作；

第六步，若没有达到预先设定的频谱认知任务完成的条件，则返回第二步继续迭代执行高动态环境下的频谱认知任务，若达到了预先设定的频谱认知任务完成的条件，则结束任务。