CN111724001B

CN111724001B - 一种基于深度强化学习的飞行器探测传感器资源调度方法

Info

Publication number: CN111724001B
Application number: CN202010609038.4A
Authority: CN
Inventors: 郭茂耘; 梁皓星; 汪梦倩
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2023-08-29
Anticipated expiration: 2040-06-29
Also published as: CN111724001A

Abstract

本发明涉及一种基于深度强化学习的飞行器探测传感器资源调度方法，属于计算机应用技术领域，该方法为调度模型构建、调度策略的离线训练和飞行器探测资源调度的在线决策三个步骤。飞行器探测资源调度模型的构建是在考虑各类调度影响因素的前提下，将飞行器探测资源调度过程抽象为马尔可夫决策过程，明确调度问题中的要素在马尔可夫决策模型中的具体表示；调度策略的离线训练是在深度强化学习理论的基础上建立Critic与Actor网络，将飞行器探测调度环境与其马尔可夫决策模型交互过程中获取的数据作为网络输入进行网络参数的更新与策略的训练。本发明有效提高了探测资源调度的自主决策能力，并解决飞行器探测过程中资源分配不合理的问题。

Description

一种基于深度强化学习的飞行器探测传感器资源调度方法

技术领域

本发明属于计算机应用技术领域，涉及一种基于深度强化学习的飞行器探测传感器资源调度方法。

背景技术

在多传感器组网探测中，需要根据飞行器位置等状态信息分配合适的探测传感器，以完成飞行器进行跟踪监视和测量等工作。其具体可描述为图1所示：

图1中黄色线段代表探测设备与飞行目标建立连接，t1时刻飞行目标按照预计轨迹进行飞行任务，t2时刻考虑探测设备的探测条件，决策者分配探测设备4对飞行目标进行探测，t3时刻探测设备4无法满足探测需求，选择切换探测设备并由探测设备1对飞行目标进行探测，之后根据任务需求，不断地切换探测设备直至飞行任务完成，t4时刻飞行任务完成，探测设备不再需要对飞行目标进行探测。

目前，飞行器探测探测网络已形成具有一定规模的实用网络，已经具备探测资源的自动化调度和设备的自动化运行能力的基础，但在实际传感器的使用过程中普遍存在探测资源综合利用不足、自适应能力差的问题。探测传感器调度问题存在实时性要求高、动态性强的特点，因而如何在满足探测需求的条件下有效协调部署各探测设备，综合利用探测资源，完善自动化运行工作是当前飞行器探测传感器资源调度系统需要解决的主要问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习的飞行器探测传感器资源调度方法。对飞行器探测资源调度过程进行建模，通过深度强化学习方法不断对模型空间进行探索，学习最优的资源调度方案，在满足调度实时性和动态性的条件下，实现飞行器飞行过程中探测传感器的自主分配，达到合理利用探测资源、提升探测性能的目的。

为达到上述目的，本发明提供如下技术方案：

一种基于深度强化学习的飞行器探测传感器资源调度方法，该方法包含以下步骤：

步骤S1：构建飞行器探测传感器资源调度过程模型，对资源调度过程进行关键因素分析，定义能够反映每个时刻探测传感器状态及飞行环境状态的特征向量S，定义每个时刻的资源决策动作A，定义奖励R用于衡量每一个状态下的决策行为；在此基础上飞行器探测资源调度决策问题可以描述为：寻找一个策略π，使得在一次共计T时刻的飞行过程中，执行T次资源决策动作a_t后获得的累计奖励最大；

步骤S2：离线策略训练，针对探测传感器资源调度模型构建Actor-Critic架构，初始阶段在探测资源调度模型中执行随机动作获取经验数据，Critic网络根据每一个状态执行动作获取的奖励对历史状态进行评估，之后取消随机动作行为，由Actor根据环境状态选定动作，由Critic对选定的动作进行评估，并将评估的结果作为Actor网络的反馈更新，在不断的迭代学习中改进Actor网络的决策能力；

步骤S3：在线资源调度决策，根据离线网络训练过程中得到的Actor网络，在仿真环境下获取每一时刻的飞行状态特征及探测设备状态特征，并将其作为网络输入，由网络输出下一个时刻的资源选定方案，统计全时刻输出制定飞行器探测设备全时刻的调度方案，达到自主调度和调度优化的目标。

可选的，所述飞行器探测传感器资源调度过程模型中，系统状态S具有能够表现出部分通视性、探测距离和设备负载情况的飞行设备状态与探测设备状态的特点参数。

可选的，所述飞行器探测传感器资源调度过程模型中，动作空间A中的每一个元素分别对应于采用相应的探测设备进行探测的动作，将资源调度过程定义为每一个时刻下选定动作空间A中合适的元素的过程。

可选的，所述飞行器探测传感器资源调度过程模型中，奖励函数R是根据调度过程中涉及到的探测设备性能指标与探测资源利用效率指标所确定的，包括探测设备的最大测量距离因素、探测设备与飞行器间通视性因素和探测设备的使用时间因素。

可选的，所述离线策略训练，将构建的飞行器探测传感器资源调度过程模型下每一个时刻的状态作为训练网络的输入，将状态下对应的奖励值作为网络更新的考虑因素。

可选的，所述离线策略训练，采用仿真环境模拟实现飞行器探测传感器资源调度过程模型，将仿真环境下每一个时刻的状态作为训练网络的输入，将状态下对应的奖励值作为网络更新的考虑因素；训练网络的输出将直接作用于仿真环境，通过不断交互更新直到一次飞行过程中获取的总奖励值达到阈值，则所述离线策略训练过程结束。

可选的，所述在线资源调度决策包括：

1)将获取的飞行器状态、探测传感器状态作为网络输入；

2)网络输出具体的探测设备序号；

3)选用对应序号的探测设备对飞行器进行探测。

本发明的有益效果在于：综合考虑探测设备的使用效率以及选用探测设备的性能给出合理的资源调度方案。能够实时的根据获取的状态数据给出具体的调度行为，从而解决调度问题的实时性需求。能够及时解决飞行过程中出现的路径偏差、设备故障等动态性问题。能够达到自主调度的目标，便于操作人员的操作。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为多传感器组网探测示意图；

图2为飞行器探测传感器资源调度实现流程；

图3为系统模拟仿真环境；

图4为Actor网络结构；

图5为Critic网络结构；

图6为训练过程的数据流向；

图7为在线调度仿真结果。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

飞行器探测传感器资源调度过程是在飞行器飞行过程中实时分配不同的探测传感器资源从而对飞行器进行探测的过程。本发明提供了一种基于深度强化学习的飞行器探测资源调度方法，主要包括调度模型构建、调度策略的离线训练和飞行器探测资源调度的在线决策三个步骤，具体如图2所示。其中飞行器探测资源调度模型的构建是在考虑各类调度影响因素的前提下，将飞行器探测资源调度过程抽象为马尔可夫决策过程，明确调度问题中的要素在马尔可夫决策模型中的具体表示，具体地，分别对调度系统的马尔可夫决策模型中的状态空间、动作空间、概率转移矩阵、调度动作奖励反馈进行模型化表示；调度策略的离线训练是在深度强化学习理论的基础上建立了Critic网络与Actor网络，将飞行器探测调度环境与其马尔可夫决策模型交互过程中获取的数据作为网络输入进行网络参数的更新与策略的训练；飞行器探测资源调度的在线决策是将完成训练的网络应用于调度环境中完成探测传感器资源调度任务。本发明可以有效提高探测资源调度的自主决策能力，并解决飞行器探测过程中资源分配不合理的问题。

本发明提出的方法具体如下：

(1)飞行器探测传感器资源调度过程模型建立：

假定在一次飞行探测任务中存在n个固定的探测设备和一个位置移动的飞行目标，在每一个飞行时刻都需要选中一个探测设备对飞行目标进行探测。结合马尔可夫决策过程的描述方法，利用{S,A,P_sa,R}四元组对探测传感器资源调度过程进行进行数学描述。

A.其中状态空间S表示能够描述调度过程状态的特征参数，具体为S＝[d₁,oc₁,vis₁,d₂,oc₂,vis₂,...d_n,oc_n,vis_n]，其中d_i表示第i个探测设备与飞行目标间的距离，oc_i表示第i个探测设备的使用情况，vis_i表示第i个探测设备对飞行目标是否可视。

B动作空间A表示具体的探测资源调度行为，具体可为A＝[a₁,a₂,a₃...a_n]，其中a_i表示选定第i个探测设备对飞行目标进行探测。

C.概率转移矩阵T表明在飞行过程中飞行路径出现偏差的概率。

D.奖励反馈R是对探测资源的分配情况以及目标的探测性能的综合评价，R值的计算具体为R＝R_s+R_V+R_T，

其中R_S用于表达探测设备与飞行目标间的距离因素，假定探测设备的最大测量距离为S_max，探测设备距离飞行目标的距离为S，则

R_v用于表达探测设备与飞行目标间的通视关系，若探测设备对飞行目标通视，则R_v＝5，反之不通视，R_v＝-5。

R_T用于表达探测设备的整体使用情况，若调度决策使用的探测设备使用时间大于预期使用时间，则R_T＝-10。

(2)离线策略训练：针对上述探测资源调度模型构建Actor-Critic架构，由Actor网络完成资源调度的行为决策，Critic网络实现对Actor执行动作后的状态评估，指导Actor网络下一阶段的动作，其具体流程如下：

1)根据(1)中设计的资源调度模型确定Actor网络与Critic网络的输入输出结构，其中Actor的输入维度为状态矩阵S的维度，输出维度为决策动作的数量，其每一个输出都代表采用对应动作的概率；Critic网络的输入与Actor网络一致，其输出值表征当前状态下未来的累计收益。

2)假设训练的迭代轮数为T，衰减因子为γ,初始化所有的环境状态以及网络参数，开始网络训练：

a)从当前环境下提取出特征向量s；

b)在Actor网络中使用s作为输入，输出动作a，基于

动作a得到新状态s'以及反馈奖励r；

c)在Critic网络中分别使用s，作为输入，得到s状态

估计输出输出V(s)，V(s')；

d)计算TD-Errorδ＝R+γV(S′)-V(S)；

e)使用均方差损失函数∑(r+γV(s')-V(s,ω))²作为Critic网络参数ω梯度更新；

f)更新Actor网络参数θ：

g)判断当前是否完成任务，若未完成将s＝s'后跳

转a步骤，若完成则将初始化环境状态s＝s₀，并设当

前迭代轮数为t＝t+1后跳转a步骤，循环至t＝T时完

成网络训练。

(3)在线调度决策：在实时飞行过程中，获取当前飞行器的实时地理位置，结合飞行任务下的地面DEM数据以及探测设备的地理位置计算出当前的特征状态s，输入到Actor网络中，由Actor输出当前时刻的探测设备选定方案，结合预估的飞行器飞行路线对后续每一个时刻的探测设备进行分配，从而完成探测设备的资源调度。

1.在模拟仿真环境，其可视化图像如图3所示：

图中的黑色线段代表规划的飞行路径，红色点代表探测设备，黄色区域代表探测设备的合适的探测范围。飞行器在规划好的飞行路径上飞行，决策者根据系统状态实时选定具体的探测设备对飞行器进行探测。

2.离线策略训练，分别设计Actor和Critic网络，其中Actor的结构如图4所示。

1)Actor网络的第一层网络是全连接层，具有100个神经元；第二层网络是全连接层，具有200个神经元；第三层网络是归一化层，具有100个神经元。

2)Actor的输出经过归一化层(softmax)输出的是每一个动作选取的概率，其大小在[0,1]之间。

3)Actor网络采用Adam算法进行优化处理。

其中Critic的结构如图5所示。

1)Critic网络的第一层网络是全连接层，具有100个神经元，第二层网络是全连接层，具有200个神经元。

2)Critic网络采用Adam算法进行优化处理。

其具体的训练过程的数据流向如图6所示。

第一阶段由Actor获取环境状态，由Actor网络输出调度动作，Critic网络同样将获取的状态作为输出，输出状态的评估值；当第一阶段获取了足够多的样本后，第二阶段Critic结合动作的回报以及自身对状态的估计，对自身网络参数进行更新，Actor则是结合自身执行的动作，以及Critic网络的状态估计对自身参数进行更新。往复循环这两个阶段直到环境给予的回报值达到预计目标，方可完成网络训练。

3.在线调度决策

完成网络训练后，将其应用于仿真环境中得到如图7所示效果。

图7中红点代表探测设备，蓝点代表飞行目标，绿点代表当前时刻选中的探测设备。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习的飞行器探测传感器资源调度方法，其特征在于：该方法包含以下步骤：

步骤S1：构建飞行器探测传感器资源调度过程模型，对资源调度过程进行关键因素分析，定义能够反映每个时刻探测传感器状态及飞行环境状态的特征向量S，定义每个时刻的资源决策动作A，定义奖励R用于衡量每一个状态下的决策行为；在此基础上飞行器探测资源调度决策问题描述为：寻找一个策略π，使得在一次共计T时刻的飞行过程中，执行T次资源决策动作a_t后获得的累计奖励最大；

步骤S3：在线资源调度决策，根据离线网络训练过程中得到的Actor网络，在仿真环境下获取每一时刻的飞行状态特征及探测设备状态特征，并将其作为网络输入，由网络输出下一个时刻的资源选定方案，统计全时刻输出制定飞行器探测设备全时刻的调度方案，达到自主调度和调度优化的目标；

构建飞行器探测传感器资源调度过程模型具体为：

假定在一次飞行探测任务中存在n个固定的探测设备和一个位置移动的飞行目标，在每一个飞行时刻都需要选中一个探测设备对飞行目标进行探测；结合马尔可夫决策过程的描述方法，利用{S,A,P_sa,R}四元组对探测传感器资源调度过程进行进行数学描述；

A.其中状态空间S表示能够描述调度过程状态的特征参数，具体为S＝[d₁,oc₁,vis₁,d₂,oc₂,vis₂,...d_n,oc_n,vis_n]，其中d_i表示第i个探测设备与飞行目标间的距离，oc_i表示第i个探测设备的使用情况，vis_i表示第i个探测设备对飞行目标是否可视；

B动作空间A表示具体的探测资源调度行为，具体为A＝[a₁,a₂,a₃...a_n]，其中a_i表示选定第i个探测设备对飞行目标进行探测；

C.概率转移矩阵T表明在飞行过程中飞行路径出现偏差的概率；

R_v用于表达探测设备与飞行目标间的通视关系，若探测设备对飞行目标通视，则R_v＝5，反之不通视，R_v＝-5；

R_T用于表达探测设备的整体使用情况，若调度决策使用的探测设备使用时间大于预期使用时间，则R_T＝-10；

1)根据(1)中设计的资源调度模型确定Actor网络与Critic网络的输入输出结构，其中Actor的输入维度为状态矩阵S的维度，输出维度为决策动作的数量，其每一个输出都代表采用对应动作的概率；Critic网络的输入与Actor网络一致，其输出值表征当前状态下未来的累计收益；

a)从当前环境下提取出特征向量s；

b)在Actor网络中使用s作为输入，输出动作a，基于动作a得到新状态s'以及反馈奖励r；

c)在Critic网络中分别使用s，作为输入，得到s状态估计输出输出V(s)，V(s')；

d)计算TD-Errorδ＝R+γV(S′)-V(S)；

f)更新Actor网络参数θ：

g)判断当前是否完成任务，若未完成将s＝s'后跳转a)步骤，若完成则将初始化环境状态s＝s₀，并设当前迭代轮数为t＝t+1后跳转a)步骤，循环至t＝T时完成网络训练。

2.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法，其特征在于：所述飞行器探测传感器资源调度过程模型中，系统状态S具有能够表现出部分通视性、探测距离和设备负载情况的飞行设备状态与探测设备状态的特点参数。

3.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法，其特征在于：所述飞行器探测传感器资源调度过程模型中，动作空间A中的每一个元素分别对应于采用相应的探测设备进行探测的动作，将资源调度过程定义为每一个时刻下选定动作空间A中合适的元素的过程。

4.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法，其特征在于：所述飞行器探测传感器资源调度过程模型中，奖励函数R是根据调度过程中涉及到的探测设备性能指标与探测资源利用效率指标所确定的，包括探测设备的最大测量距离因素、探测设备与飞行器间通视性因素和探测设备的使用时间因素。

5.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法，其特征在于：所述离线策略训练，将构建的飞行器探测传感器资源调度过程模型下每一个时刻的状态作为训练网络的输入，将状态下对应的奖励值作为网络更新的考虑因素。

6.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法，其特征在于：所述离线策略训练，采用仿真环境模拟实现飞行器探测传感器资源调度过程模型，将仿真环境下每一个时刻的状态作为训练网络的输入，将状态下对应的奖励值作为网络更新的考虑因素；训练网络的输出将直接作用于仿真环境，通过不断交互更新直到一次飞行过程中获取的总奖励值达到阈值，则所述离线策略训练过程结束。

7.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法，其特征在于：所述在线资源调度决策包括：

1)将获取的飞行器状态、探测传感器状态作为网络输入；

2)网络输出具体的探测设备序号；

3)选用对应序号的探测设备对飞行器进行探测。