CN111724001B - 一种基于深度强化学习的飞行器探测传感器资源调度方法 - Google Patents

一种基于深度强化学习的飞行器探测传感器资源调度方法 Download PDF

Info

Publication number
CN111724001B
CN111724001B CN202010609038.4A CN202010609038A CN111724001B CN 111724001 B CN111724001 B CN 111724001B CN 202010609038 A CN202010609038 A CN 202010609038A CN 111724001 B CN111724001 B CN 111724001B
Authority
CN
China
Prior art keywords
network
resource scheduling
detection
state
aircraft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010609038.4A
Other languages
English (en)
Other versions
CN111724001A (zh
Inventor
郭茂耘
梁皓星
汪梦倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010609038.4A priority Critical patent/CN111724001B/zh
Publication of CN111724001A publication Critical patent/CN111724001A/zh
Application granted granted Critical
Publication of CN111724001B publication Critical patent/CN111724001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于深度强化学习的飞行器探测传感器资源调度方法,属于计算机应用技术领域,该方法为调度模型构建、调度策略的离线训练和飞行器探测资源调度的在线决策三个步骤。飞行器探测资源调度模型的构建是在考虑各类调度影响因素的前提下,将飞行器探测资源调度过程抽象为马尔可夫决策过程,明确调度问题中的要素在马尔可夫决策模型中的具体表示;调度策略的离线训练是在深度强化学习理论的基础上建立Critic与Actor网络,将飞行器探测调度环境与其马尔可夫决策模型交互过程中获取的数据作为网络输入进行网络参数的更新与策略的训练。本发明有效提高了探测资源调度的自主决策能力,并解决飞行器探测过程中资源分配不合理的问题。

Description

一种基于深度强化学习的飞行器探测传感器资源调度方法
技术领域
本发明属于计算机应用技术领域,涉及一种基于深度强化学习的飞行器探测传感器资源调度方法。
背景技术
在多传感器组网探测中,需要根据飞行器位置等状态信息分配合适的探测传感器,以完成飞行器进行跟踪监视和测量等工作。其具体可描述为图1所示:
图1中黄色线段代表探测设备与飞行目标建立连接,t1时刻飞行目标按照预计轨迹进行飞行任务,t2时刻考虑探测设备的探测条件,决策者分配探测设备4对飞行目标进行探测,t3时刻探测设备4无法满足探测需求,选择切换探测设备并由探测设备1对飞行目标进行探测,之后根据任务需求,不断地切换探测设备直至飞行任务完成,t4时刻飞行任务完成,探测设备不再需要对飞行目标进行探测。
目前,飞行器探测探测网络已形成具有一定规模的实用网络,已经具备探测资源的自动化调度和设备的自动化运行能力的基础,但在实际传感器的使用过程中普遍存在探测资源综合利用不足、自适应能力差的问题。探测传感器调度问题存在实时性要求高、动态性强的特点,因而如何在满足探测需求的条件下有效协调部署各探测设备,综合利用探测资源,完善自动化运行工作是当前飞行器探测传感器资源调度系统需要解决的主要问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度强化学习的飞行器探测传感器资源调度方法。对飞行器探测资源调度过程进行建模,通过深度强化学习方法不断对模型空间进行探索,学习最优的资源调度方案,在满足调度实时性和动态性的条件下,实现飞行器飞行过程中探测传感器的自主分配,达到合理利用探测资源、提升探测性能的目的。
为达到上述目的,本发明提供如下技术方案:
一种基于深度强化学习的飞行器探测传感器资源调度方法,该方法包含以下步骤:
步骤S1:构建飞行器探测传感器资源调度过程模型,对资源调度过程进行关键因素分析,定义能够反映每个时刻探测传感器状态及飞行环境状态的特征向量S,定义每个时刻的资源决策动作A,定义奖励R用于衡量每一个状态下的决策行为;在此基础上飞行器探测资源调度决策问题可以描述为:寻找一个策略π,使得在一次共计T时刻的飞行过程中,执行T次资源决策动作at后获得的累计奖励最大;
步骤S2:离线策略训练,针对探测传感器资源调度模型构建Actor-Critic架构,初始阶段在探测资源调度模型中执行随机动作获取经验数据,Critic网络根据每一个状态执行动作获取的奖励对历史状态进行评估,之后取消随机动作行为,由Actor根据环境状态选定动作,由Critic对选定的动作进行评估,并将评估的结果作为Actor网络的反馈更新,在不断的迭代学习中改进Actor网络的决策能力;
步骤S3:在线资源调度决策,根据离线网络训练过程中得到的Actor网络,在仿真环境下获取每一时刻的飞行状态特征及探测设备状态特征,并将其作为网络输入,由网络输出下一个时刻的资源选定方案,统计全时刻输出制定飞行器探测设备全时刻的调度方案,达到自主调度和调度优化的目标。
可选的,所述飞行器探测传感器资源调度过程模型中,系统状态S具有能够表现出部分通视性、探测距离和设备负载情况的飞行设备状态与探测设备状态的特点参数。
可选的,所述飞行器探测传感器资源调度过程模型中,动作空间A中的每一个元素分别对应于采用相应的探测设备进行探测的动作,将资源调度过程定义为每一个时刻下选定动作空间A中合适的元素的过程。
可选的,所述飞行器探测传感器资源调度过程模型中,奖励函数R是根据调度过程中涉及到的探测设备性能指标与探测资源利用效率指标所确定的,包括探测设备的最大测量距离因素、探测设备与飞行器间通视性因素和探测设备的使用时间因素。
可选的,所述离线策略训练,将构建的飞行器探测传感器资源调度过程模型下每一个时刻的状态作为训练网络的输入,将状态下对应的奖励值作为网络更新的考虑因素。
可选的,所述离线策略训练,采用仿真环境模拟实现飞行器探测传感器资源调度过程模型,将仿真环境下每一个时刻的状态作为训练网络的输入,将状态下对应的奖励值作为网络更新的考虑因素;训练网络的输出将直接作用于仿真环境,通过不断交互更新直到一次飞行过程中获取的总奖励值达到阈值,则所述离线策略训练过程结束。
可选的,所述在线资源调度决策包括:
1)将获取的飞行器状态、探测传感器状态作为网络输入;
2)网络输出具体的探测设备序号;
3)选用对应序号的探测设备对飞行器进行探测。
本发明的有益效果在于:综合考虑探测设备的使用效率以及选用探测设备的性能给出合理的资源调度方案。能够实时的根据获取的状态数据给出具体的调度行为,从而解决调度问题的实时性需求。能够及时解决飞行过程中出现的路径偏差、设备故障等动态性问题。能够达到自主调度的目标,便于操作人员的操作。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为多传感器组网探测示意图;
图2为飞行器探测传感器资源调度实现流程;
图3为系统模拟仿真环境;
图4为Actor网络结构;
图5为Critic网络结构;
图6为训练过程的数据流向;
图7为在线调度仿真结果。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
飞行器探测传感器资源调度过程是在飞行器飞行过程中实时分配不同的探测传感器资源从而对飞行器进行探测的过程。本发明提供了一种基于深度强化学习的飞行器探测资源调度方法,主要包括调度模型构建、调度策略的离线训练和飞行器探测资源调度的在线决策三个步骤,具体如图2所示。其中飞行器探测资源调度模型的构建是在考虑各类调度影响因素的前提下,将飞行器探测资源调度过程抽象为马尔可夫决策过程,明确调度问题中的要素在马尔可夫决策模型中的具体表示,具体地,分别对调度系统的马尔可夫决策模型中的状态空间、动作空间、概率转移矩阵、调度动作奖励反馈进行模型化表示;调度策略的离线训练是在深度强化学习理论的基础上建立了Critic网络与Actor网络,将飞行器探测调度环境与其马尔可夫决策模型交互过程中获取的数据作为网络输入进行网络参数的更新与策略的训练;飞行器探测资源调度的在线决策是将完成训练的网络应用于调度环境中完成探测传感器资源调度任务。本发明可以有效提高探测资源调度的自主决策能力,并解决飞行器探测过程中资源分配不合理的问题。
本发明提出的方法具体如下:
(1)飞行器探测传感器资源调度过程模型建立:
假定在一次飞行探测任务中存在n个固定的探测设备和一个位置移动的飞行目标,在每一个飞行时刻都需要选中一个探测设备对飞行目标进行探测。结合马尔可夫决策过程的描述方法,利用{S,A,Psa,R}四元组对探测传感器资源调度过程进行进行数学描述。
A.其中状态空间S表示能够描述调度过程状态的特征参数,具体为S=[d1,oc1,vis1,d2,oc2,vis2,...dn,ocn,visn],其中di表示第i个探测设备与飞行目标间的距离,oci表示第i个探测设备的使用情况,visi表示第i个探测设备对飞行目标是否可视。
B动作空间A表示具体的探测资源调度行为,具体可为A=[a1,a2,a3...an],其中ai表示选定第i个探测设备对飞行目标进行探测。
C.概率转移矩阵T表明在飞行过程中飞行路径出现偏差的概率。
D.奖励反馈R是对探测资源的分配情况以及目标的探测性能的综合评价,R值的计算具体为R=Rs+RV+RT
其中RS用于表达探测设备与飞行目标间的距离因素,假定探测设备的最大测量距离为Smax,探测设备距离飞行目标的距离为S,则
Rv用于表达探测设备与飞行目标间的通视关系,若探测设备对飞行目标通视,则Rv=5,反之不通视,Rv=-5。
RT用于表达探测设备的整体使用情况,若调度决策使用的探测设备使用时间大于预期使用时间,则RT=-10。
(2)离线策略训练:针对上述探测资源调度模型构建Actor-Critic架构,由Actor网络完成资源调度的行为决策,Critic网络实现对Actor执行动作后的状态评估,指导Actor网络下一阶段的动作,其具体流程如下:
1)根据(1)中设计的资源调度模型确定Actor网络与Critic网络的输入输出结构,其中Actor的输入维度为状态矩阵S的维度,输出维度为决策动作的数量,其每一个输出都代表采用对应动作的概率;Critic网络的输入与Actor网络一致,其输出值表征当前状态下未来的累计收益。
2)假设训练的迭代轮数为T,衰减因子为γ,初始化所有的环境状态以及网络参数,开始网络训练:
a)从当前环境下提取出特征向量s;
b)在Actor网络中使用s作为输入,输出动作a,基于
动作a得到新状态s'以及反馈奖励r;
c)在Critic网络中分别使用s,作为输入,得到s状态
估计输出输出V(s),V(s');
d)计算TD-Errorδ=R+γV(S′)-V(S);
e)使用均方差损失函数∑(r+γV(s')-V(s,ω))2作为Critic网络参数ω梯度更新;
f)更新Actor网络参数θ:
g)判断当前是否完成任务,若未完成将s=s'后跳
转a步骤,若完成则将初始化环境状态s=s0,并设当
前迭代轮数为t=t+1后跳转a步骤,循环至t=T时完
成网络训练。
(3)在线调度决策:在实时飞行过程中,获取当前飞行器的实时地理位置,结合飞行任务下的地面DEM数据以及探测设备的地理位置计算出当前的特征状态s,输入到Actor网络中,由Actor输出当前时刻的探测设备选定方案,结合预估的飞行器飞行路线对后续每一个时刻的探测设备进行分配,从而完成探测设备的资源调度。
1.在模拟仿真环境,其可视化图像如图3所示:
图中的黑色线段代表规划的飞行路径,红色点代表探测设备,黄色区域代表探测设备的合适的探测范围。飞行器在规划好的飞行路径上飞行,决策者根据系统状态实时选定具体的探测设备对飞行器进行探测。
2.离线策略训练,分别设计Actor和Critic网络,其中Actor的结构如图4所示。
1)Actor网络的第一层网络是全连接层,具有100个神经元;第二层网络是全连接层,具有200个神经元;第三层网络是归一化层,具有100个神经元。
2)Actor的输出经过归一化层(softmax)输出的是每一个动作选取的概率,其大小在[0,1]之间。
3)Actor网络采用Adam算法进行优化处理。
其中Critic的结构如图5所示。
1)Critic网络的第一层网络是全连接层,具有100个神经元,第二层网络是全连接层,具有200个神经元。
2)Critic网络采用Adam算法进行优化处理。
其具体的训练过程的数据流向如图6所示。
第一阶段由Actor获取环境状态,由Actor网络输出调度动作,Critic网络同样将获取的状态作为输出,输出状态的评估值;当第一阶段获取了足够多的样本后,第二阶段Critic结合动作的回报以及自身对状态的估计,对自身网络参数进行更新,Actor则是结合自身执行的动作,以及Critic网络的状态估计对自身参数进行更新。往复循环这两个阶段直到环境给予的回报值达到预计目标,方可完成网络训练。
3.在线调度决策
完成网络训练后,将其应用于仿真环境中得到如图7所示效果。
图7中红点代表探测设备,蓝点代表飞行目标,绿点代表当前时刻选中的探测设备。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于深度强化学习的飞行器探测传感器资源调度方法,其特征在于:该方法包含以下步骤:
步骤S1:构建飞行器探测传感器资源调度过程模型,对资源调度过程进行关键因素分析,定义能够反映每个时刻探测传感器状态及飞行环境状态的特征向量S,定义每个时刻的资源决策动作A,定义奖励R用于衡量每一个状态下的决策行为;在此基础上飞行器探测资源调度决策问题描述为:寻找一个策略π,使得在一次共计T时刻的飞行过程中,执行T次资源决策动作at后获得的累计奖励最大;
步骤S2:离线策略训练,针对探测传感器资源调度模型构建Actor-Critic架构,初始阶段在探测资源调度模型中执行随机动作获取经验数据,Critic网络根据每一个状态执行动作获取的奖励对历史状态进行评估,之后取消随机动作行为,由Actor根据环境状态选定动作,由Critic对选定的动作进行评估,并将评估的结果作为Actor网络的反馈更新,在不断的迭代学习中改进Actor网络的决策能力;
步骤S3:在线资源调度决策,根据离线网络训练过程中得到的Actor网络,在仿真环境下获取每一时刻的飞行状态特征及探测设备状态特征,并将其作为网络输入,由网络输出下一个时刻的资源选定方案,统计全时刻输出制定飞行器探测设备全时刻的调度方案,达到自主调度和调度优化的目标;
构建飞行器探测传感器资源调度过程模型具体为:
假定在一次飞行探测任务中存在n个固定的探测设备和一个位置移动的飞行目标,在每一个飞行时刻都需要选中一个探测设备对飞行目标进行探测;结合马尔可夫决策过程的描述方法,利用{S,A,Psa,R}四元组对探测传感器资源调度过程进行进行数学描述;
A.其中状态空间S表示能够描述调度过程状态的特征参数,具体为S=[d1,oc1,vis1,d2,oc2,vis2,...dn,ocn,visn],其中di表示第i个探测设备与飞行目标间的距离,oci表示第i个探测设备的使用情况,visi表示第i个探测设备对飞行目标是否可视;
B动作空间A表示具体的探测资源调度行为,具体为A=[a1,a2,a3...an],其中ai表示选定第i个探测设备对飞行目标进行探测;
C.概率转移矩阵T表明在飞行过程中飞行路径出现偏差的概率;
D.奖励反馈R是对探测资源的分配情况以及目标的探测性能的综合评价,R值的计算具体为R=Rs+RV+RT
其中RS用于表达探测设备与飞行目标间的距离因素,假定探测设备的最大测量距离为Smax,探测设备距离飞行目标的距离为S,则
Rv用于表达探测设备与飞行目标间的通视关系,若探测设备对飞行目标通视,则Rv=5,反之不通视,Rv=-5;
RT用于表达探测设备的整体使用情况,若调度决策使用的探测设备使用时间大于预期使用时间,则RT=-10;
(2)离线策略训练:针对上述探测资源调度模型构建Actor-Critic架构,由Actor网络完成资源调度的行为决策,Critic网络实现对Actor执行动作后的状态评估,指导Actor网络下一阶段的动作,其具体流程如下:
1)根据(1)中设计的资源调度模型确定Actor网络与Critic网络的输入输出结构,其中Actor的输入维度为状态矩阵S的维度,输出维度为决策动作的数量,其每一个输出都代表采用对应动作的概率;Critic网络的输入与Actor网络一致,其输出值表征当前状态下未来的累计收益;
2)假设训练的迭代轮数为T,衰减因子为γ,初始化所有的环境状态以及网络参数,开始网络训练:
a)从当前环境下提取出特征向量s;
b)在Actor网络中使用s作为输入,输出动作a,基于动作a得到新状态s'以及反馈奖励r;
c)在Critic网络中分别使用s,作为输入,得到s状态估计输出输出V(s),V(s');
d)计算TD-Errorδ=R+γV(S′)-V(S);
e)使用均方差损失函数∑(r+γV(s')-V(s,ω))2作为Critic网络参数ω梯度更新;
f)更新Actor网络参数θ:
g)判断当前是否完成任务,若未完成将s=s'后跳转a)步骤,若完成则将初始化环境状态s=s0,并设当前迭代轮数为t=t+1后跳转a)步骤,循环至t=T时完成网络训练。
2.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法,其特征在于:所述飞行器探测传感器资源调度过程模型中,系统状态S具有能够表现出部分通视性、探测距离和设备负载情况的飞行设备状态与探测设备状态的特点参数。
3.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法,其特征在于:所述飞行器探测传感器资源调度过程模型中,动作空间A中的每一个元素分别对应于采用相应的探测设备进行探测的动作,将资源调度过程定义为每一个时刻下选定动作空间A中合适的元素的过程。
4.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法,其特征在于:所述飞行器探测传感器资源调度过程模型中,奖励函数R是根据调度过程中涉及到的探测设备性能指标与探测资源利用效率指标所确定的,包括探测设备的最大测量距离因素、探测设备与飞行器间通视性因素和探测设备的使用时间因素。
5.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法,其特征在于:所述离线策略训练,将构建的飞行器探测传感器资源调度过程模型下每一个时刻的状态作为训练网络的输入,将状态下对应的奖励值作为网络更新的考虑因素。
6.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法,其特征在于:所述离线策略训练,采用仿真环境模拟实现飞行器探测传感器资源调度过程模型,将仿真环境下每一个时刻的状态作为训练网络的输入,将状态下对应的奖励值作为网络更新的考虑因素;训练网络的输出将直接作用于仿真环境,通过不断交互更新直到一次飞行过程中获取的总奖励值达到阈值,则所述离线策略训练过程结束。
7.根据权利要求1所述的一种基于深度强化学习的飞行器探测传感器资源调度方法,其特征在于:所述在线资源调度决策包括:
1)将获取的飞行器状态、探测传感器状态作为网络输入;
2)网络输出具体的探测设备序号;
3)选用对应序号的探测设备对飞行器进行探测。
CN202010609038.4A 2020-06-29 2020-06-29 一种基于深度强化学习的飞行器探测传感器资源调度方法 Active CN111724001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010609038.4A CN111724001B (zh) 2020-06-29 2020-06-29 一种基于深度强化学习的飞行器探测传感器资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010609038.4A CN111724001B (zh) 2020-06-29 2020-06-29 一种基于深度强化学习的飞行器探测传感器资源调度方法

Publications (2)

Publication Number Publication Date
CN111724001A CN111724001A (zh) 2020-09-29
CN111724001B true CN111724001B (zh) 2023-08-29

Family

ID=72571877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010609038.4A Active CN111724001B (zh) 2020-06-29 2020-06-29 一种基于深度强化学习的飞行器探测传感器资源调度方法

Country Status (1)

Country Link
CN (1) CN111724001B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417771A (zh) * 2020-12-10 2021-02-26 华中科技大学 机床主轴故障诊断模型建立方法及机床主轴故障诊断方法
CN113139747B (zh) * 2021-05-14 2024-08-09 大连理工大学 基于深度强化学习的带返工汽车涂装重排序方法
CN114065898B (zh) * 2021-12-21 2022-05-17 特斯联科技集团有限公司 基于决策技术的空调机能量使用测控方法及系统
CN116738239B (zh) * 2023-08-11 2023-11-24 浙江菜鸟供应链管理有限公司 模型训练方法、资源调度方法及装置、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007057857A1 (en) * 2005-11-16 2007-05-24 Koninklijke Philips Electronics, N.V. Adaptive, distributed solution for enhanced co-existence and qos for multimedia traffic over rlans
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110781614A (zh) * 2019-12-06 2020-02-11 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007057857A1 (en) * 2005-11-16 2007-05-24 Koninklijke Philips Electronics, N.V. Adaptive, distributed solution for enhanced co-existence and qos for multimedia traffic over rlans
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110781614A (zh) * 2019-12-06 2020-02-11 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的飞行器遥测时间序列数据异常检测与预测方法研究;胡姣姣;《中国优秀硕士学位论文全文数据库 工程科技II辑》(第08期);C031-276 *

Also Published As

Publication number Publication date
CN111724001A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111724001B (zh) 一种基于深度强化学习的飞行器探测传感器资源调度方法
Lim et al. Multimodal degradation prognostics based on switching Kalman filter ensemble
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
Lu et al. Generalized radial basis function neural network based on an improved dynamic particle swarm optimization and AdaBoost algorithm
CN103971160B (zh) 基于复杂网络的粒子群优化方法
CN112329948B (zh) 一种多智能体策略预测方法及装置
JP6055058B1 (ja) 機械学習器及び組み立て・試験器を備えた生産設備
CN109990790A (zh) 一种无人机路径规划方法及装置
CN111240350A (zh) 一种无人机飞行员动态行为评估系统
CN114139637B (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
CN114415663A (zh) 基于深度强化学习的路径规划方法及系统
CN115545334B (zh) 土地利用类型预测方法、装置、电子设备及存储介质
CN111586728B (zh) 一种面向小样本特征的异构无线网络故障检测与诊断方法
CN115097861B (zh) 一种基于cel-maddpg的多无人机围捕策略方法
CN111079348B (zh) 一种缓变信号检测方法和装置
CN114169421A (zh) 基于内在动机的多智能体稀疏奖励环境协作探索方法
CN115293022A (zh) 基于OptiGAN和时空注意力的航空兵智能体对抗行为建模方法
CN114740710A (zh) 一种随机非线性多智能体的强化学习优化编队控制方法
CN113379063B (zh) 基于在线增强学习模型的全流程任务时序智能决策方法
CN112465113A (zh) 一种生成式中断航迹接续关联方法
CN115618743B (zh) 一种瞄准镜系统的状态评估方法及状态评估系统
CN112819152A (zh) 一种神经网络训练方法及装置
CN115459982A (zh) 一种电力网络虚假数据注入攻击检测方法
CN114742644A (zh) 训练多场景风控系统、预测业务对象风险的方法和装置
CN116151128B (zh) 一种装备体系贡献率评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant