CN113505431A

CN113505431A - 基于st-dqn的海上无人机目标搜寻方法、装置、设备和介质

Info

Publication number: CN113505431A
Application number: CN202110634237.5A
Authority: CN
Inventors: 杨克巍; 高盈盈; 夏博远; 陈刚; 郭玙; 杨清清; 梁笑天; 毛嘉慧; 王星亮; 王翔汉; 熊伟涛; 姜江; 李博
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-10-15
Anticipated expiration: 2041-06-07
Also published as: CN113505431B

Abstract

本公开提供一种基于ST‑DQN的海上无人机目标搜寻规划方法、装置、设备和介质，其中的方法包括：基于已知的由漂流预测模型得到的目标包含概率的待搜寻区域，构建海上搜寻地图模型，对无人机搜寻环境进行形式化描述，对无人机搜寻能力进行建模，得到单机搜寻模型，根据搜寻理论和无人机搜寻代价构建奖惩函数，并通过训练ST‑DQN网络参数，获得能够尽快覆盖重点区域的高效搜寻路径。本公开能够实现针对已知目标包含概率的海上目标搜寻场景快速得到优化的无人机搜寻路径。

Description

基于ST-DQN的海上无人机目标搜寻方法、装置、设备和介质

技术领域

本公开涉及无人机应用技术领域，尤其涉及一种基于ST-DQN的海上无人机目标搜寻方法、装置、设备和介质。

背景技术

传统的海上搜救决策支持方法大多关于船舶和飞机的协同搜救等问题，现实中的海上搜救目标搜寻策略仍采用平行搜寻等低效模式。随着无人装备技术的逐渐发展，近年来，无人机在搜救领域得到了快速的研究和发展。无人机通过空中成像、地形测绘和紧急交付来协助救援工作，同时减少不必要的人员风险。

然而，传统搜寻规划方法存在很多问题，主要是海上应急处置决策系统的科学决策部分占比较小，在海上遇险目标搜寻规划方面还未有智能高效的解决方案，海上无人机目标搜寻任务的规划方法存在缺陷。

发明内容

有鉴于此，本公开的目的在于提出一种基于ST-DQN的海上无人机目标搜寻方法、装置、设备和介质。

基于上述目的，第一方面，本公开提供了一种基于ST-DQN的海上无人机目标搜寻方法，包括：

一种基于ST-DQN的海上无人机目标搜寻方法，包括：

构建海上搜寻地图维护模型，对无人机搜寻环境进行形式化描述，包括：

以任务区域E划分成L_x×L_y个网格，假设每个网格都是独立的，将每个网格的中心点坐标作为该网格的位置坐标；当初始先验信息已知，每个栅格(m,n) 赋予一定的初始POC值p_mn(k)，(m,n)的取值范围(m∈{1,2,3…L_x},n∈{1,2,3…L_y})；

当初始先验信息已知，且已进行归一化处理即满足：

对无人机搜寻能力进行建模，得到单机搜寻模型，包括：

执行任务的无人机以目标存在概率模型为指导，在待搜寻的任务区域E 内规划搜寻路径，当无人机在栅格内执行搜寻任务，基于搜寻理论则无人机的目标探测概率函数为：

其中，v为无人机i的飞行速度；z为无人机i的飞行时间；l为无人机i 在时间内搜寻航行的总路程；w为无人机i的探测宽度即扫海宽度；A为搜寻栅格单元的面积；j为搜寻单元数(j＝1,2,…,xy)；

根据搜寻理论和无人机搜寻代价构建奖惩函数，基于所述海上搜寻地图维护模型、所述单机搜寻模型和所述奖惩函数，通过预设的算法获得能够尽快搜寻覆盖重点区域的高效最优搜寻路径。

结合上述说明，在本公开实施例另一种可能的实施方式中，所述根据搜寻理论和无人机搜寻代价构建奖惩函数，基于所述海上搜寻地图维护模型、所述单机搜寻模型和所述奖惩函数，通过预设的算法获得能够尽快搜寻覆盖重点区域的高效最优搜寻路径，包括：

基于所述公式3.1，对每一个单元(m,n)都设置一个属性值r，r表示搜寻此单元的搜寻代价值，r_mn(k)表示k时刻无人机的路径信息，若r_mn(k)＝-1则表示此单元已被无人机搜寻过，若r_mn(k)＝1则表示当前无人机正处于此单元， r_mn(k)＝0则表示此海域从未被搜寻过；

对无人机的动作空间进行定义，确定无人机i的动作空间表示为

动作决策变量u_i ^k＝{1,2，…,8}；

获取无人机每一步的即时奖惩和回合奖惩，确定每一个无人机在每一个回合中每步的总奖励，将该种奖励机制应用于模型训练过程；

采用深度值函数网络，通过使用经验回放策略和双神经网络策略使神经网络接受环境状态并输出动作价值，环境状态包括目标包含概率和无人机位置信息；

在深度值函数网络训练过程中，Q估计网络通过训练迭代来调整网络权值θ_i，在第i次迭代中，每一序列的损失函数L_i(θ_i)改变为：

L_i(θ_i)＝E_s,a,r,s'[(y-Q(s,a；θ_i))²]

式中：s为当前时刻状态；s'为下一时刻状态；a为当前时刻动作；a'为下一时刻采取的动作。

结合上述说明，在本公开实施例另一种可能的实施方式中，所述深度值函数网络采用的预设算法还包括：

将无人机每一个时间步的经验e_t＝(s_t,a_t,r_t,s_t+1)以数据集合D＝{e₁,…,e_t}进行存储，以使无人机先前状态的行为分布变得均匀。

结合上述说明，在本公开实施例另一种可能的实施方式中，当无人机匀速搜寻，则无人机规划的搜寻路径满足目标：在有限航程内最大化累积重点子区域AWS:

其中，n₁～n₈分别表示无人机的动作空间中的一个角度。

结合上述说明，在本公开实施例另一种可能的实施方式中，搜寻到目标的成功率POS为：

其中，l_i为无人机i在时间内搜寻航行的总路程；w为无人机i的探测宽度即扫海宽度；A为搜寻栅格单元的面积；j为搜寻单元数(j＝1,2,…,xy)。

结合上述说明，在本公开实施例另一种可能的实施方式中，以{R¹,R²,…R^L} 表示无人机在一个回合L步中每一步的即时奖励集合，设置已搜寻过的海域搜寻效益奖赏为r_punish，且设置越界惩罚为r_punish；

随着搜寻时间的增加，该子海域的p_mn(k)以一定比例g逐渐衰减；

g值在搜寻开始前根据搜救海况设定；即时奖赏函数为：

结合上述说明，在本公开实施例另一种可能的实施方式中，所述根据搜寻理论和无人机搜寻代价构建奖惩函数，基于所述海上搜寻地图维护模型、所述单机搜寻模型和所述奖惩函数，通过预设的算法获得能够尽快搜寻覆盖重点区域的高效最优搜寻路径，其中的算法包括：

所述预设的算法包括有2个全连接神经网络，Q估计网络以具有权重θ的卷积神经网络来评估动作值函数；

在无人机与环境交互获取经验记忆阶段：

输入目标存在概率图和无人机随机搜寻探索路径，通过预测网络预测在当前状态下每一个动作的价值，然后利用贪婪策略，选择动作与环境交互；根据基于最优搜寻理论设计的奖惩机制对当前状态下做出的动作给予奖惩，并产生下一步的状态观测值，以此为一个循环；

经过一定次数的探索动作回合后，将获得的经验存储在记忆库中；

进入训练智能体阶段：

采样记忆库中的经验序列，输入Q估计网络和Q目标网络，用Q估计网络预测当前状态所做出的动作对应的估计价值，与Q目标网络评估价值进行对比得到损失值，将损失值用于训练更新Q估计网络的网络参数；

设置每N步将Q估计网络参数赋予给Q目标网络参数，以此循环，最终获得训练好的Q估计网络和Q目标网络。

第二方面，本公开还提供了一种基于ST-DQN的海上无人机目标搜寻装置，包括：

构建模块，用于构建海上搜寻地图维护模型，对无人机搜寻环境进行形式化描述，并对搜寻概率更新机制进行建模，包括：

以任务区域E划分成L_x×L_y个网格，每个网格都是独立的，将每个网格的中心点坐标作为该网格的位置坐标；当初始先验信息已知，每个栅格(m,n)赋予一定的初始POC值p_mn(k)，(m,n)的取值范围(m∈{1,2,3…L_x},n∈{1,2,3…L_y})；

当初始先验信息已知，且已进行归一化处理即满足：

强化学习模块，用于对无人机搜寻能力进行建模，得到单机搜寻模型，包括：

路径规划模块，用于根据搜寻理论和无人机搜寻代价进行目标函数建模，并通过预设的算法寻找最快搜寻覆盖重点区域的最优路径。

第三方面，本公开还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于ST-DQN的海上无人机目标搜寻方法。

第四方面，本公开还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行上述的基于ST-DQN的海上无人机目标搜寻方法。

从上面所述可以看出，本公开提供的基于ST-DQN的海上无人机目标搜寻方法、装置、设备和介质，设计了海上无人机协同搜寻规划建模框架，贴合搜救应急处置实际，可以用于海上搜救应急处置辅助决策；针对海上遇险目标搜寻场景提出了基于ST-DQN算法的单无人机目标搜寻规划模型。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1(a)和图1(b)为本公开实施例的值函数迭代示意图；

图2为本公开实施例的搜寻地图形式化描述示意图；

图3为本公开实施例的无人机动作空间示意图；

图4为本公开实施例的基于ST-DQN的无人机目标搜寻神经网络结构示意图；

图5为本公开实施例的基于ST-DQN的无人机目标搜寻算法训练流程示意图；

图6为本公开实施例的ST-DQN算法在海上搜救中的应用流程示意图；

图7为本公开实施例的海上失事目标系统预测结果及搜寻仿真环境构建示意图；

图8为本公开实施例的不同折扣因子下ST-DQN算法的奖励值收敛情况示意图；

图9为本公开实施例的不同奖惩机制下的神经网络损失值曲线示意图；

图10为本公开实施例的不同奖惩机制下的奖励值曲线示意图；

图11为本公开实施例的常规搜寻模式与智能搜寻模式对比实验结果示意图；

图12为本公开实施例的常规搜寻模式与智能搜寻模式搜寻过程直观对比示意图；

图13为本公开实施例的装置结构示意图；

图14为本公开实施例的设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。

海上搜救是保障海上生命和财产安全的最后一道防线，搜寻工作是一个非常复杂而又性命攸关的活动。无人机作为未来获取危险环境信息的新兴手段，是海上搜救中的一种重要作业单元。搜寻规划作为搜救任务的主要内容之一，是保证并引导无人机完成自主搜寻任务的技术保障。本公开以海上搜救时效率与覆盖率无法兼顾的问题为背景，以对遇险目标的搜寻规划为内容，重点包括以下三个方面：

第一，构建了海上无人机目标搜寻规划模型。首先，基于已知的由漂流预测模型得到的目标包含概率的待搜寻区域，所述漂流预测模型为已知的根据海上漂浮的漂移特性进行模拟生成的模型，对无人机搜寻地图进行形式化描述；其次，针对无人机的运动能力、避碰能力等方面进行建模。最后，根据搜寻理论和无人机搜寻代价构建奖惩函数。通过构建以上数学模型，量化无人机搜寻过程中的任务进展程度和目标满足程度，为下文算法奠定任务模型基础。

第二，提出了基于搜寻理论和深度值函数网络(Search-Theory-based Deep QNetwork，ST-DQN)算法的单无人机目标搜寻规划模型。首先构建海上搜救场景下的马尔可夫模型，基于强化学习各个要素对环境、状态空间和动作空间进行定义，并基于上文目标函数模型，设计及时奖惩和回合奖惩机制。其次，介绍ST-DQN算法，包括训练与参数更新机制、激活函数选择和算法框架。最后，根据实际事故场景和系统仿真数据进行仿真实验，并与常规平行搜寻模式对比，验证了算法的有效性。

本公开首先阐述了面向海上搜救的目标搜寻任务规划的背景和意义，明确了本公开的方法和装置等对海上搜救工作具有重要推进作用和理论价值。其次，针对本公开内容，对相关的领域进行了现状综述，阐述了海上搜救决策支持方法、无人机在国内外海上搜救中的应用以目标搜寻规划的及在近年来的现状和存在的问题，为后文的方向和方法做铺垫。

海洋环境复杂多变，危险事故多发，其面临的搜救工作形势更加严峻。在一场特大空难事故中，虽然发起了大规模的搜救工作但仍然无人生还，给我们带来了惨痛的教训。在另一场航空事故中，多方力量曾参与搜救工作，但至今仍没有获得有价值的线索，在此事件上的无功而返是很难被社会所接受的。在大规模的搜救行动中如何有效地进行应急响应，科学高效地指挥协调搜救力量，成为了搜救指挥决策人员所面临的重要现实问题。在上述类似海难事件，我国应急保障中仍存在信息离散、态势分析不足、决策主观和应对效率低下的诸多问题。

近年来，随着信息技术的高速发展，使用各类无人智能设备来进行海上遇险目标的搜寻救援工作，己成为了新的热点。智能无人设备因其单位造价成本较低、行动灵敏速度快、功能智能自主化等特点，逐渐被运用于海上搜救的业务工作，在很大程度上壮大了海上搜救资源力量。我国研制出了多种用于海洋业务的无人机。然而，针对海上搜救中的目标搜寻规划算法的相关还相对比较少，大多情况下用于搜救任务的搜寻单元还需要依靠专家经验设定搜寻路径，无法实现搜寻单元的自主化作业，搜寻任务的高效性及成功率还存在一定的局限。

搜寻理论由以下三个方面构成：首先是搜寻目标的相关信息，任何目标搜寻问题均涉及到目标位置和移动路径，且可表示概率分布函数；第二是探测函数，探测函数表示为搜寻资源的数量与搜寻目标位于该区域时成功探测到该目标的可能性大小；第三是最优搜寻计划，在搜寻过程，根据目标的分布函数，对所拥有的有限的搜寻力如何进行资源分配和任务调度才能使发现目标的概率最大。

强化学习通过与环境的交互进行学习，通过不断试错获取经验的方式来最大化累计奖励。强化学习适用于解决序列化决策问题，如使用马尔可夫决策过程(MarkovDecision Process,MDP)简化建模强化学习与环境的交互。也可以解决单步决策问题，如多臂老虎机问题等。强化学习的常见模型是标准的马尔可夫决策过程，其基础和核心是贝尔曼(Bellman)方程，因此本节针对以下两个部分进行简述。

强化学习常使用马尔可夫决策过程来对智能体与环境的交互过程进行建模。马尔可夫决策过程可以使用五元组＜S,A,R,P,γ＞来表示：

S表示环境中所有有限的状态空间集合；

A表示环境中所有动作空间的集合；

R表示获得的回报，函数形式为：R:S×A×S′→R；

P表示状态转移概率，也以函数形式表示为：P:S×A→P(s_t+1∣s_t,a_t)。

γ∈[0,1]为折扣因子，表示随着时间不断累乘，代表以后的奖励对现在状态影响随时间变小。因此，强化学习与环境的交互简化为了在马尔可夫决策过程中不断累积回报的过程。马尔可夫决策的整体过程如图1所示。

马尔可夫决策过程中的累计回报可以使用G来表示，定义为：

G_t＝r_t+r_t+1+…+r_t+n (2.2)

在决策过程中的累计回报可能无穷大，而折扣因子则可以避免回报无限累加，即：

G_t＝r_t+γ·r_t+1+…+γⁿ·r_t+n (2.3)

Bellman方程是强化学习的基础和核心，包括三个主要概念：策略函数、状态价值函数、状态-动作价值函数(简称为动作价值函数)。

策略函数(PolicyFunction)：即π(a_t|s_t)，策略函数的含义就是智能体在t 时刻的状态下选择某个动作a的概率，所有可选动作的概率之和为1。

状态价值函数(StateValueFunction,SVF)：SVF是评价策略函数优劣的标准之一。在每个状态s下，可以有多个动作a选择，每执行一次动作，系统就会转移到另一个状态s'。在马尔可夫决策过程中，若策略π(a_t|s_t)不变，那么从某个状态出发，该状态的值函数v_π(s)具体形式如下：

v_π(s)＝E_π[G_t∣S_t＝s] (2.4)

即值函数为在当前策略下的累计折扣回报的期望值。其迭代关系可表示为：

v_π(s)＝E_π[r_t+γ·r_t+1+…+γ·r_t+n]＝E_π[r_t+γ·v_π(s′)] (2.5)

其迭代过程如图1(a)所示。结合图1(a)所示，状态动作价值函数 (State-ActionValueFunction，SAVF)：SAVF也称为Q函数，相比于值函数是对状态的评估，Q函数则是对(状态-动作)的评估，Q值的定义是，给定一个状态s_t，采取动作a_t后，按照某一策略π_s与环境继续进行交互，得到的累计汇报的期望值。其数学表达形式是：

q_π(s,a)＝E_π[r_t+γ·q_π(s′,a′)] (2.6)

同样的，SAVF也有类似的迭代过程，其迭代过程同样可以由图1(b)动作值函数迭代示意图中的树状图表示。

SAVF是当前状态下的动作已知，求余下状态下的动作集合使动作方程的值最大化，具体数学形式如下：

以上阐述了海上搜救的相关概念。并对本公开所研究的面向海上搜救的目标搜寻问题进行业务上和目标上的描述分析，对涉及到的相关基础理论进行介绍。

本公开中，关于海上无人机目标搜寻规划模型：

首先，构建海上搜寻地图维护模型，对无人机搜寻环境进行形式化描述，并对搜寻概率更新机制进行建模。其次，针对涉及无人机搜寻能力进行建模，包括运动能力和避碰能力等。最后，根据搜寻理论和无人机搜寻代价构建奖惩函数。通过构建以上数学模型，量化无人机搜寻过程中的任务进展程度和目标满足程度。

对海上目标搜寻地图建模－海上搜寻地图的形式化描述：

多无人机协同执行搜寻任务过程中，环境信息主要包括搜寻目标信息、无人机状态信息、禁飞区信息等。其中，搜寻目标信息和其他合作的无人机状态信息是多无人机执行协同搜寻任务的核心，因此本节重点采用搜寻概率图来描述不确定环境搜寻目标信息、环境不确定度和其他无人机信息。由于搜寻态势的动态变化，采用基于搜寻概率地图的方法描述搜寻进展有以下优点：

(1)搜寻概率图能够有效描述区域内目标是否存在的可能性；

(2)搜寻概率图能够适应态势随时间的变化；

(3)搜寻概率图能够有效避免重复对同一位置进行多次搜寻。

如图2所示，将任务区域E划分成L_x×L_y个网格，每个网格都是独立的，将每个网格的中心点坐标作为该网格的位置坐标。假设初始先验信息已知，每个栅格(m,n)赋予一定的初始POC值p_mn(k)，(m,n)的取值范围 (m∈{1,2,3…L_x},n∈{1,2,3…L_y})。在实际的搜救应急处置过程中，待搜寻区域的包含概率在0～1之间，但是本公开假定待搜寻区域100％包含失事目标，因此整个待搜寻区域的包含概率为1。假设初始先验信息已知，且已进行归一化处理即满足：

假设待搜寻目标在海域E内的概率密度函数g为连续分布，若p_mn(0)表示初始情况下目标出现在单元(m,n)的概率，则：

p_mn(0)＝∫∫_mn∈Eg(x,y)dxdy (3.2)

由于目标海域可能存在禁飞区域，则无人机的位置需满足：

在本公开中，禁飞区域的位置约束可描述为：

其中，(x_j,y_j)表示禁飞区域Mence_j的中心，D^*表示禁飞区域的范围半径。

关于基于最优搜寻理论的目标模型－最大化搜寻成功率：

海上遇险目标的搜寻任务类型多样，而常规的搜救方式中，仅确定待搜寻区域，再利用平行线等搜寻模式来规划救援力量的搜寻路径，其所覆盖区域的POC值较低，必然导致了搜寻成功率(Probability ofSuccess,POS)的降低，无法用于无人机搜寻路径的规划。

为此，执行搜寻任务的无人机需以目标存在概率模型为指导，在待搜寻区域E内规划搜寻路径。当遇险目标类型和无人机的搜寻方式固定时，搜寻目标发现概率(Probability ofDetection,POD)函数相对固定。假设无人机在栅格内执行搜寻任务，满足Koopman的3个随机搜寻条件，则可得无人机的目标探测概率函数为：

其中，v为无人机i的飞行速度；z为无人机i的飞行时间；l为无人机i 在时间内搜寻航行的总路程；w为无人机i的探测宽度即扫海宽度；A为搜寻栅格单元的面积；j为搜寻单元数(j＝1,2,…,xy)。式中扫海宽度是经过大量的搜救实验以及通过对历史搜救案例的总结得出的，一般情况下，可以通过查表得出。

定义多台无人机分别在不同网格内搜寻称为分散搜寻。假设将N_i架无人机分派到N个单元格内搜寻，则完成一次探测搜寻后，搜寻到目标的成功率 POS为：

关于单位时间内最大化累积重点子区域：

由于遇险人员在水中存活时间有限，若营救时间过长可能存在生命危险。因此，无人机在规划路径时，不仅要考虑搜寻路径所覆盖的所有子区域的目标存在概率之和，还需要考虑搜寻路径覆盖各个子区域的时间，尽可能在搜寻开始时先搜寻POC值更高的子区域。当遇险目标类型和无人机的搜寻方式固定时，搜寻探测概率函数相对固定。为了提高搜寻成功率，必须尽可能先覆盖目标存在概率值更高的子区域。假设无人机匀速搜寻，基于此，无人机规划的搜寻路径应尽量满足目标：在有限航程内最大化累积重点子区域(Accumulated Weighted Subareas，AWS)。

关于单位时间内最大化覆盖率

区域覆盖率是搜寻过的区域占总数的搜寻区域的百分比，表示为

式中，n是至少被一架无人机搜寻过一次的子区域的总数。

以上针对海上无人机协同搜寻规划问题开展了三个方面的建模。首先，构建了海上搜寻地图维护模型，对无人机搜寻环境进行形式化描述，并对搜寻概率更新机制进行建模。其次，针对涉及无人机搜寻能力的三个方面进行建模，包括运动能力、避碰能力等。最后根据搜寻理论和无人机搜寻代价进行构建奖惩函数。通过构建以上数学模型，量化无人机搜寻过程中的任务进展程度和目标满足程度，为下文规划方法奠定模型基础。

假设海洋监测中心基于蒙特拉罗随机粒子法进行漂流模拟得到海上遇险目标的POC模型，并利用栅格法将待搜寻海域划分为若干子海域，构建二维海洋环境栅格地图。将目标海域E划分成L_x×L_y个栅格，将每个网格的中心点坐标作为该网格的位置坐标。假设初始先验信息已知，每个栅格(m,n)赋予一定的初始POC值p_mn(k)，(m,n)的取值范围(m∈{1,2,3…L_x},n∈{1,2,3…L_y})。在实际的搜救应急处置过程中，待搜寻海域的目标包含概率在0～1之间，但是本公开假定待搜寻海域100％包含失事目标，因此整个待搜寻海域的包含概率为1。假设初始先验信息已知，且已进行归一化处理即满足：

每一个单元(m,n)都有一个属性值r，r表示搜寻此单元的搜寻代价值， r_mn(k)表示k时刻无人机的路径信息，若r_mn(k)＝-1则表示此单元已被无人机搜寻过，若r_mn(k)＝1则表示当前无人机正处于此单元，r_mn(k)＝0则表示此海域从未被搜寻过。

关于动作空间

动作空间的定义会影响到无人机路径规划的效果。如图3所示，将360° 划分n等份，角度间隔α＝360°/n。假设n＝8，则α＝45°，无人机的航向精度为 45°。在每个决策时间点，无人机可以采取以下行动，比如：左偏

直行或右偏

因此为简单起见，无人机i的动作空间可表示为

动作决策变量u_i ^k＝{1,2，...,8}，即动作空间为：上，右上，右，右下，下，左下，左，左上。

关于奖惩函数

在强化学习过程中，无人机系统获取奖赏值的大小不仅取决于学习算法的优劣，也与奖赏函数的定义密切相关。强化学习算法通过设置奖赏函数引导整个无人机的学习过程，定量地对无人机所做动作进行评价。强化学习算法的总体目标是引导无人机获取最大的累计奖赏值，也就是找到一条由起始点至目标点的最优或次优无障碍路径。因此，设计合适的奖赏函数对于无人机在不同环境状态下行为策略的好坏具有重要意义。

本公开针对海上目标搜寻的实际意义，基于最优搜寻理论中目标包含概率和搜寻成功率等重要参数概念设立奖励机制，并与稀疏奖赏函数相结合设计碰撞惩罚机制。且在模型训练过程中奖励分为两个部分，一个是针对每个行动的即时奖励，另一个是针对整个行动回合表现的回合奖励。

(1)即时奖惩机制

{R¹,R²,…R^L}表示无人机在一个回合(L步)中每一步的即时奖励集合。为尽量避免无人机重复往返同一子海域，设置已搜寻过的海域搜寻效益奖赏为 r_punish。同时，为避免无人机绕出目标海域或者进入危险区和障碍区，同样设置越界惩罚为r_punish。随着搜寻时间的增加，该子海域的p_mn(k)以一定比例g逐渐衰减。g值在搜寻开始前根据搜救海况设定。即时奖赏函数设计如下：

(2)回合奖惩机制

由于遇险人员在水中存活时间有限，若营救时间过长可能存在生命危险，导致整个搜救行动的失败。因此，为了提高搜寻成功率，必须尽可能先覆盖目标包含概率值更高的子海域。所以，无人机在规划路径时，不仅要考虑搜寻路径所覆盖的所有子海域的目标包含概率之和，还需要考虑搜寻路径覆盖各个子海域的时间段，尽可能在搜寻开始阶段先搜寻目标包含概率值更高的子海域。假设无人机匀速搜寻，则其搜寻路径应尽量满足目标：在有限航程内最大化累积重点子海域。其中AWS(Accumulated Weighted Subareas)为累积重点子海域权重，当遇险目标类型和无人机的搜寻方式固定时，搜寻探测概率相对固定。则每一个无人机在每一个回合中每步的总奖励为R^L+AWS(L)。

关于基于ST-DQN的单无人机目标搜寻规划算法

参数更新机制：

无人机与环境交互的训练学习目标是选择最优航行动作，即最大化累计奖赏。累计奖赏可以量化地定义为：

γ为折扣系数，γ∈[0,1]。无人机航行的控制策略表示为π，即任意状态s_t下选择动作a_t的概率为π(a_t|s_t)。在策略π下，以任意状态为起点并且选取动作 a的累计奖赏期望值叫做动作价值函数Q^π(st,a)，即：

强化学习的目标等价于找到一个最佳策略，使得其动作价值函数总是所有策略中最大的。记为Q^*(s_t,a)。此时，只要总是选取动作为：

a_t＝π(s_t)＝argmax_a[Q(s_t,a)] (4.6)

则累计奖赏期望总是最大的。

基于Q-learning的方法，使用表或者使用神经网络来近似记录一个映射 Q(s_t,a)，然后通过训练使得Q(s_t,a)逐渐逼近Q^*(s_t,a)，基于贝尔曼公式更新形式为：

Q(s_t,a)←Q(s_t,a)+α[r_t+γmax_aQ(s_t+1,a)-Q(s_t,a)] (4.7)

α为学习率，α∈[0,1]。Q-learning方法的精妙之处在于它使用maxQ(s_t,a)来估计下一个时刻的累积奖赏值和选择下一时刻的动作。但使用神经网络的问题是在复杂场景中网络不易收敛。

为规避上述缺点，深度值函数网络(Deep Q Network，DQN)通过使用经验回放策略和双神经网络策略有效解决了此类问题。神经网络接受环境状态并输出动作价值，环境状态包括目标包含概率和无人机位置信息。

在DQN训练过程中，Q估计网络通过训练迭代来调整网络权值θ_i，在第 i次迭代中，每一序列的损失函数L_i(θ_i)改变为：

L_i(θ_i)＝E_s,a,r,s'[(y-Q(s,a；θ_i))²] (4.8)

在本公开中，ST-DQN算法值网络使用梯角度度下降的方式来更新评价网络。如式(4.9)所示：

此外，DQN还采用“经验回放”技术，把无人机每一个时间步的经验 e_t＝(s_t,a_t,r_t,s_t+1)以数据集合D＝{e₁,…,e_t}存储在“经验池”中。通过采用经验回放技术，无人机先前状态的行为分布变得均匀，避免参数波动或产生分歧。

关于算法流程设计：

对于深度强化学习算法而言，搭建合理的神经网络模型对算法学习效率的提升能够取得事半功倍的效果。ST-DQN模型基于一种典型的DQN深度强化学习算法，由图4基于ST-DQN的无人机目标搜寻神经网络结构中可以看出，ST-DQN算法包括有2个全连接神经网络。Q估计网络以具有权重θ的卷积神经网络来评估动作值函数，以解决Q-learning中状态-动作表格的“维数灾难”问题。

基于ST-DQN的无人机目标搜寻算法训练流程如图5所示。该算法主要包括两个模块，分别是与环境交互获取经验记忆阶段和训练智能体阶段。在阶段一，输入目标存在概率图和无人机随机搜寻探索路径，通过预测网络预测在当前状态下每一个动作的价值，然后利用贪婪策略，选择动作与环境交互。根据基于最优搜寻理论设计的奖惩机制对当前状态下做出的动作给予奖惩，并产生下一步的状态观测值，以此为一个循环。经过一定次数的探索动作回合后，将获得的经验存储在记忆库中。然后进入第二个阶段即训练智能体。通过采样记忆库中的经验序列，输入Q估计网络和Q目标网络中，用Q 估计网络预测当前状态所做出的动作对应的估计价值，与Q目标网络评估价值进行对比得到损失值，将损失值用于训练更新Q估计网络的网络参数。并且设置每N步将Q估计网络参数赋予给Q目标网络参数。以此循环，最终获得训练好的Q估计网络和Q目标网络。

结合图5的基于ST-DQN的无人机目标搜寻算法训练流程：无人机将当前的观测状态、动作和回报以及下一时刻观测状态存储在逐渐训练的记忆库中，在智能体训练阶段每次随机抽取最小经验块D_min对Q估计网络进行训练，使得训练出的Q估计网络可以在当前状态下拟合出最优的动作值。当对Q估计网络进行足够多的训练，其权值会向最佳参数逼近。ST-DQN无人机路径规划算法的训练步骤描述如下：

训练结束后，在执行阶段，无人机每飞行一个时间步长，通过Q估计网络计算出当前状态下的最优动作a^*∈{0,1,…,n-1}，并执行最优动作。以此类推，即可规划出到达目标点的最优路径。

基于ST-DQN算法的无人机目标搜寻实验流程如图6所示。整个方法流程分为模型训练阶段和模型应用阶段。其中，模型训练阶段已经在上一小节中详述。模型应用阶段是指在训练好的模型基础上，首先导入搜救场景数据，包括海上搜救系统预测中的POC地图和无人机初始位置，其次根据任务规模匹配不同的搜寻模型，将场景数据输入到合适的模型中，然后可直接求得优化后的无人机搜寻路径，最后无人机按照模型输出结果实施搜寻任务。

以下为实际场景的应用：2015年10月凌晨，某船在距京唐港约20海里的渤海海域遇险失事，8名失踪人员下落不明。针对失踪船员的搜救工作仍在紧张进行中，沉船位置为东经119度24分145秒，北纬39度07分467 秒。海事部门和水产渔业部门投入了大量飞机和船舶开展了联合搜寻工作，也协调了大型过往商船协助搜救。但是由于失事附近海域的海况开始变得恶劣，成为搜救工作的一大难点。因此，本公开拟采用所提出的算法调用无人机开展遇险目标搜寻工作。

根据国家海上搜救环境保障服务平台的海洋气象数据，获取在渤海海域一支船舶发横侧翻的事故信息，获得搜救信息为预测落水人员可能存在于一个10nmile×15nmile的连续海域内。在该海域内负责搜寻任务的无人机的起始位置随机产生，设置栅格比例为1:1nmile，即一个单位时间段内，无人机可搜寻范围为1nmile²。如下图7所示，(a)为海上搜救平台系统基于蒙特拉罗漂流预测算法获得的失事船舶漂移轨迹、遇险目标可能存在的海域，(b)为无人机仿真的海上搜寻环境。下表4.1为搜救平台预测得到的落水人员初始目标存在概率分布，表4.2表示预处理过后的目标存在概率分布。

表4.1搜救场景中预测得到的初始目标存在概率分布矩阵

表4.2预处理后的目标存在概率分布矩阵

为了获得更多的奖励即搜寻收益，无人机往往不能只看当前动作的奖励，更要看延后动作的奖励。给定一个MDP回合，使用折扣因子γ表示将来的奖励所占的权重要依次递减。为了寻找当前环境状态下最佳的折扣因子，设置在0.1至0.9之间，以0.1为步长的参数对比实验。

其中折扣因子分别为0.1、0.3、0.5、0.7和0.9的结果可视化如下图8所示。当无人机续航能力为30步时，折扣因子γ＝0.5表现最好，奖励值曲线表现最优。

同理，基于以上环境和动作空间状态，ST-DQN算法在训练过程中的各项参数设置如表4.3所示。

表4.3 ST-DQN算法各项实验参数设置

奖惩函数一直是影响强化学习收敛精度和训练速度的关键因素，不同奖赏机制下回报函数和损失函数收敛情况大不相同。针对上文设计的两种奖惩机制，进行对比实验。结果如图8所示，在当前设计的两种奖励机制下，神经网络损失曲线都较为稳定且能尽快收敛。结合图9所示，为本公开示例性实施例的不同奖惩机制下的神经网络损失值曲线示意图，结合图8、图9及图10所示，在即时奖励和回合奖励两种机制作用下，无人机在搜寻路径规划时的奖励曲线能获得较高水平，因此混合奖惩机制作用下的实验结果优于单纯的即时奖励机制。

针对本公开所提出的ST-DQN算法，与当前海上搜救实际业务中常用的基于PL-SPPA的常规搜寻模式对比。在相同的初始位置(1,1)和相同的搜寻环境下，随着搜寻任务的进行，无人机通过不同的搜寻模式所经过的路径如表4.4所示。

表4.4常规平行线搜寻模式与智能搜寻模式的输出结果

两种搜寻模式的累计POC效率如图11所示，基于ST-DQN算法的智能搜寻模式在相同搜寻进展情况下，能够率先覆盖到重点海域，所获得的搜寻收益较大。

将两种模式产生的搜寻路径进行可视化可得图12，其中蓝色箭头(较粗、黑色)和线条(较粗)表示基于PL-SPPA的常规搜寻模式产生的搜寻路径，绿色箭头和线条(较细、灰色)表示基于ST-DQN算法的智能搜寻模式产生的搜寻路径。

可直观看到，基于PL-SPPA的常规搜寻模式的路径较为规则，但要想尽快搜寻到重点海域还需要一定的时间。相比之下，基于ST-DQN算法的智能搜寻模式可在训练结果基础上使无人机快速奔向重点海域进行目标搜寻任务。

以上针对单无人机目标搜寻规划问题提出了ST-DQN算法。首先针对海上遇险目标搜寻问题构建马尔可夫模型，面向强化学习对环境、状态空间和动作空间进行定义，并基于上文多目标函数基础，设计及时奖惩和回合奖惩机制。其次，介绍提出的ST-DQN算法，包括训练与参数更新机制、激活函数选择和算法框架。最后，进行仿真实验验证和对比分析。第一，针对不同奖惩机制进行对比实验，第二，基于多个实验结果优选代表性参数，第三，针对现实情况中应用的基于PL-SPPA的常规搜寻模式进行对比，验证算法的有效性。

本公开的有益效果包括如下：

提供了一种海上无人机协同搜寻规划建模框架；

本公开设计了海上无人机协同搜寻规划建模框架，贴合搜救应急处置实际，可以用于海上搜救应急处置辅助决策。首先构建了海上搜寻地图模型，对无人机搜寻环境进行形式化描述，并对搜寻概率更新机制进行建模。其次，针对涉及无人机搜寻能力的三个方面进行建模，包括运动能力、避碰能力等。最后，根据搜寻理论和无人机搜寻代价构建奖惩函数。通过构建以上数学模型，量化无人机搜寻过程中的任务进展程度和目标满足程度。

提出了基于ST-DQN算法的单无人机目标搜寻规划方法；

本公开针对海上小规模遇险目标搜寻场景提出了基于ST-DQN算法的单无人机目标搜寻规划模型。首先构建海上搜救场景下的马尔可夫模型，面向强化学习对环境、状态空间和动作空间进行定义，并基于上文多目标函数基础，设计及时奖惩和回合奖惩机制。其次，介绍提出的ST-DQN算法，包括训练与参数更新机制、激活函数选择和算法框架。最后，根据实际事故场景和系统仿真数据进行仿真实验，并与常规平行搜寻模型对比，验证了算法的有效性。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种基于ST-DQN的海上无人机目标搜寻装置。参考图13：

一种基于ST-DQN的海上无人机目标搜寻装置，包括：

构建模块1801，用于构建海上搜寻地图维护模型，对无人机搜寻环境进行形式化描述，并对搜寻概率更新机制进行建模，包括：

当初始先验信息已知，且已进行归一化处理即满足：

强化学习模块1802，用于对无人机搜寻能力进行建模，得到单机搜寻模型，包括：

路径规划模块1803，用于根据搜寻理论和无人机搜寻代价进行目标函数建模，并通过预设的算法寻找最快搜寻覆盖重点区域的最优路径。

上述实施例的基于ST-DQN的海上无人机目标搜寻装置用于实现前述任一实施例中相应的基于ST-DQN的海上无人机目标搜寻方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于 ST-DQN的海上无人机目标搜寻方法。

图14示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM (Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器 1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入 /输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于ST-DQN 的海上无人机目标搜寻方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于 ST-DQN的海上无人机目标搜寻方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于ST-DQN的海上无人机目标搜寻方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路) 以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于ST-DQN的海上无人机目标搜寻方法，包括：

以任务区域E划分成L_x×L_y个网格，假设每个网格都是独立的，将每个网格的中心点坐标作为该网格的位置坐标；当初始先验信息已知，每个栅格(m,n)赋予一定的初始POC值p_mn(k)，(m,n)的取值范围(m∈{1,2,3…L_x},n∈{1,2,3…L_y})；

当初始先验信息已知，且已进行归一化处理即满足：

对无人机搜寻能力进行建模，得到单机搜寻模型，包括：

执行任务的无人机以目标存在概率模型为指导，在待搜寻的任务区域E内规划搜寻路径，当无人机在栅格内执行搜寻任务，基于搜寻理论则无人机的目标探测概率函数为：

其中，v为无人机i的飞行速度；z为无人机i的飞行时间；l为无人机i在时间内搜寻航行的总路程；w为无人机i的探测宽度即扫海宽度；A为搜寻栅格单元的面积；j为搜寻单元数(j＝1,2,…,xy)；

2.根据权利要求1所述的基于ST-DQN的海上无人机目标搜寻方法，其中，所述根据搜寻理论和无人机搜寻代价构建奖惩函数，基于所述海上搜寻地图维护模型、所述单机搜寻模型和所述奖惩函数，通过预设的算法获得能够尽快搜寻覆盖重点区域的高效最优搜寻路径，包括：

基于所述公式3.1，对每一个单元(m,n)都设置一个属性值r，r表示搜寻此单元的搜寻代价值，r_mn(k)表示k时刻无人机的路径信息，若r_mn(k)＝-1则表示此单元已被无人机搜寻过，若r_mn(k)＝1则表示当前无人机正处于此单元，r_mn(k)＝0则表示此海域从未被搜寻过；

动作决策变量

L_i(θ_i)＝E_s,a,r,s'[(y-Q(s,a；θ_i))²]

3.根据权利要求2所述的基于ST-DQN的海上无人机目标搜寻方法，其中，

所述深度值函数网络采用的预设算法还包括：

4.根据权利要求2所述的基于ST-DQN的海上无人机目标搜寻方法，其中，当无人机匀速搜寻，则无人机规划的搜寻路径满足目标：在有限航程内最大化累积重点子区域AWS:

其中，n₁～n₈分别表示无人机的动作空间中的一个角度。

5.根据权利要求1所述的基于ST-DQN的海上无人机目标搜寻方法，其中，搜寻到目标的成功率POS为：

6.根据权利要求2所述的基于ST-DQN的海上无人机目标搜寻方法，其中，

以{R¹,R²,…R^L}表示无人机在一个回合L步中每一步的即时奖励集合，设置已搜寻过的海域搜寻效益奖赏为r_punish，且设置越界惩罚为r_punish；

g值在搜寻开始前根据搜救海况设定；即时奖赏函数为：

7.根据权利要求2所述的基于ST-DQN的海上无人机目标搜寻方法，其中，所述根据搜寻理论和无人机搜寻代价构建奖惩函数，基于所述海上搜寻地图维护模型、所述单机搜寻模型和所述奖惩函数，通过预设的算法获得能够尽快搜寻覆盖重点区域的高效最优搜寻路径，其中的算法包括：

在无人机与环境交互获取经验记忆阶段：

进入训练智能体阶段：

8.一种基于ST-DQN的海上无人机目标搜寻装置，包括：

当初始先验信息已知，且已进行归一化处理即满足：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的基于ST-DQN的海上无人机目标搜寻方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至7任一所述的基于ST-DQN的海上无人机目标搜寻方法。