CN113222468A - 一种基于深度强化学习的成像卫星资源调度方法 - Google Patents
一种基于深度强化学习的成像卫星资源调度方法 Download PDFInfo
- Publication number
- CN113222468A CN113222468A CN202110612071.7A CN202110612071A CN113222468A CN 113222468 A CN113222468 A CN 113222468A CN 202110612071 A CN202110612071 A CN 202110612071A CN 113222468 A CN113222468 A CN 113222468A
- Authority
- CN
- China
- Prior art keywords
- task
- node
- satellite
- tasks
- resource scheduling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06316—Sequencing of tasks or work
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度强化学习的成像卫星资源调度方法,涉及航天地面任务规划领域。本发明利用图神经网络和强化学习方法,提取卫星任务间的内隐分布规律与内在关联,表征数据分布间的隐含关系,自主学习卫星资源调度过程中任务安排的启发式规则,形成无冲突和优化的卫星任务观测和接收方案。本方法可有效降低规则设计对人工的专业技术要求依赖,提高资源调度方法的有效性和准确性。
Description
技术领域
本发明涉及航天地面任务运控技术领域,尤其是指一种基于深度强化学习的成像卫星资源调度方法,可用于对地观测卫星任务规划。
背景技术
成像卫星的资源调度问题作为一个带有时间窗约束的复杂组合优化问题,需要综合考虑卫星和地面站等资源的能力,以最大化发挥星地效能为规划目标,合理安排卫星观测、接收等动作,生成卫星对地观测和接收方案。
传统上解决该类问题常使用基于规则的启发式算法或亚启发式算法,该类算法能在可接受的时间范围内寻较高教质量的解决方案,但是该类算法对启发式规则较为依赖,且启发式规则的设计需要大量的专业知识和丰富的工作经验为基础,具有较高难度。
发明内容
本发明的目的在于提供一种基于深度强化学习的成像卫星资源调度方法。该方法利用图神经网络对资源调度场景进行建模,提取卫星任务间的内隐分布规律与内在关联,表征数据分布间的隐含关系,自动学习卫星任务规划数据间的本质规则,支撑优化卫星任务规划与调度方法,提升卫星资源管控智能化水平。
为了实现上述目的,本发明采用的技术方案为:
一种基于深度强化学习的成像卫星资源调度方法,包括以下步骤:
步骤1,采用有向无环图对资源一体化调度任务过程进行抽象,建立资源调度模型,生成有向无环图集;
步骤2,采用图神经网络的结构表达资源调度过程的任务状态,通过图形嵌入表达任务的相互关系,生成资源调度特征向量,并将资源调度特征向量传递给强化学习网络,图神经网络和强化学习网络共同构成智能体代理网络;
步骤3,在强化学习框架下,采用策略梯度算法对智能体代理网络进行训练,得到智能体代理网络参数表征资源调度策略,生成任务执行序列。
进一步的,步骤1的具体方式为:
步骤1.1,将所有的观测任务分配到卫星,分配任务过程中,卫星观测任务类型与卫星类型相匹配;
步骤1.2,对于一个观测卫星,将所有属于该卫星的任务进行排序;具体方式为,首先根据观测任务的优先级进行排序,任务优先级高的任务放在任务队列前端;然后根据观测卫星经过每个观测区域的时间顺序对观测任务进行时间排序,对于优先级相同的任务,先路过的任务放在前端,后经过的任务放在后端;
步骤1.3,在观测任务的列表中,添加卫星数传任务,得到卫星的总任务序列{ti}i=1:n,n为卫星的任务总数;具体方式为,根据观测卫星与地面站的可见性分析结果,确定每一个可以数传的时间段,然后在此时间段内的每一个观测任务后面添加一个数传任务;
步骤1.4,依据各卫星的总任务序列,为每个卫星建立一个有向无环图;具体方式为,对于任务序列{ti}中的任务ti,按照逆序遍历ti之前的每一个节点tk,如果tk满足以下三个条件,则在tk和ti之间建立连线:
1)tk的结束时间大于ti的开始时间;
2)tk之后,卫星的能量或者存贮空间可以完成ti;
3)tk和当前已找到的任务ti的所有父节点均无间接或直接连接关系;
最终,得到ti的所有父节点的集合P(ti);
步骤1.5,遍历从ti开始到任务起点S的所有路径,计算每一条路径上的能量损耗和存储空间损耗,统计能量损耗和存储空间损耗的最大值;
步骤1.6,将任务的优先级、成像质量、任务占用时间、能量损耗和存储空间损耗最大值组成有向无环图中任务节点的特征向量。
进一步的,步骤2中,采用图神经网络的结构表达资源调度过程的任务状态,具体方式为:
步骤2.1,通过单节点嵌入过程(Gi,xvi)→evi构建有向无环图Gi中每个节点vi的嵌入向量evi;具体方式为,从Gi的叶节点开始,将消息从子节点传递到父节点,在每个消息传递过程中,节点vi的子节点已汇总了所有更深层子孙节点的消息;单节点vi嵌入过程(Gi,xvi)→evi的计算公式如下:
其中,f()和g()是输入向量上的非线性变换,通过神经网络实现,ξ(v)表示节点v的所有子节点集合;
步骤2.2,向每个有向无环图Gi添加一个汇总节点,该汇总节点将有向无环图Gi中的所有节点都作为子节点,并作为全局汇总节点的子节点;汇总节点的嵌入使用与单节点嵌入相同的计算公式,但是每个汇总节点都采用自己的非线性变换f()和g()。
进一步的,步骤3的具体方式为:
步骤3.1,通过回报奖励执行f()和g()的神经网络参数的梯度下降,将图神经网络和强化学习网络一起训练,得到两个网络的参数统称为θ,调度策略记为π_θ(s_t,a_t);π_θ(s_t,a_t)表示在状态s_t的情况下,执行动作a_t的概率值;
步骤3.2,当智能体代理网络得到执行每一个任务节点的概率值之后,在当前时刻选择执行具有最大概率值的任务节点;
步骤3.3,从任务列表中剔除已执行的任务节点,重新绘制所有卫星的有向无环图,并计算新的有向无环图中每一个任务节点被执行的概率值;
步骤3.4,重复步骤3.2和3.3,得到成像卫星的任务执行序列。
本发明相比现有技术具有以下有益效果:
1、本发明利用神经网络和强化学习方法,能自主学习卫星资源调度过程中观测任务隐藏的启发式规则,从而快速匹配资源和任务合适的时间窗。
2、本发明能够有效降低对人工规则的专业设计要求,提高了资源调度方法的有效性和准确性。
附图说明
图1是资源一体化调用任务的DAG有向无环图。
图2是图神经网络嵌入过程的示意图。
图3是智能体代理网络的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明做进一步的详细说明。
一种基于深度强化学习的成像卫星资源调度方法,包括如下步骤:
步骤1、采用有向无环图(DAG)对资源一体化调度任务过程进行抽象,建立资源调度模型,生成有向无环图集。具体包括如下步骤:
步骤1.1将所有的观测任务分配到卫星,分配任务过程中要求卫星观测任务类型与卫星类型相匹配。
步骤1.2对于一个成像卫星,将所有属于该卫星的任务进行排序,首先根据观测任务的优先级进行排序,任务优先级高的任务放在任务队列前端;然后根据成像卫星经过每个观测区域的时间顺序对观测任务进行时间排序,对于优先级相同的任务,先路过的任务放在前端,后经过的任务放在后端。
步骤1.3在观测任务的列表中,添加卫星数传任务。根据成像卫星与地面站的可见性分析结果,确定每一个可以数传的时间段,然后在此时间段内的每一个观测任务后面添加一个数传任务。
步骤1.4成像卫星的任务序列记为{ti}i=1:n,为每个卫星建立一个DAG(如图1所示),其中Si和Ti分别代表第i颗卫星有向无环图Ri的起点和终点。建立该卫星任务DAG的过程相当于根据限制条件找到{ti}各任务之间的连线关系。假设任务tj与ti之间建立了相连关系,那么就认为任务tj是任务ti的父节点,将所有任务ti的父节点集合记为P(ti),那么建立任务DAG的过程也可以看做是寻找任务序列中每一个任务的P(ti)集合的过程。对于任务序列{ti}中的任务ti,按照逆序遍历ti之前的每一个节点tk(k=i-1,i-2,...,1)。如果tk满足以下三条条件,那么就在tk和ti之间建立连线:
1)tk的结束时间(加上卫星调整角度的时间)大于ti的开始时间;
2)tk之后,卫星的能量或者存贮空间可以完成ti;
3)tk和P(ti)中的元素无间接或直接连接关系。
步骤1.5当找到ti的所有父节点P(ti)之后,遍历所有从ti开始到任务起点S的所有路径,计算每一条路径上的能量损耗和存储空间损耗,统计能量损耗和存储空间损耗最大值,从卫星的初始能量和存储空间中减去消耗最大值,作为完成任务ti后剩余资源容量。
步骤1.6在最终生成的资源一体化调度任务DAG集中同时包含了成像卫星的观测任务(即图1中的黑色节点)和数据下传任务(即图1中的白色节点)。DAG的构建过程需要满足观测任务的约束条件,包括可见性条件,能量和资源约束,时间条件约束等。在DAG图中节点包含任务的优先级,成像质量,任务占用时间,资源消耗等属性信息,作为每个任务节点的特征向量。
步骤2、采用图神经网络的结构表达资源调度过程的任务状态,通过图形嵌入表达任务的相互关系,生成资源调度特征向量,并将资源调度特征向量传递给强化学习网络,图神经网络和强化学习网络共同构成智能体代理网络(如图3所示)。具体包括如下步骤:
步骤2.1单节点嵌入:设DAG Gi中节点vi中的属性向量为xvi,单节点嵌入过程(Gi,xvi)→evi将构建每个节点vi的嵌入向量evi。evi捕获了从节点i可以到达的所有节点(即节点vi的子孙节点)的信息。为了计算这些向量,首先从Gi的叶节点开始以一系列消息传递步骤将信息从子节点传播到父节点(如图2中的(a)所示)。在每个消息传递步骤中,节点vi的子节点已汇总了所有更深层子孙节点的消息(即图2(a)中的阴影节点),单节点vi嵌入过程(Gi,xvi)→evi的计算公式如下:
其中f()和g()是输入向量上的非线性变换,实现为(小型)神经网络,代表Gi中节点v的属性向量,为的嵌入向量,而ξ(v)表示节点v的所有子节点集合。节点v嵌入过程中的第一项是一般的非线性聚合运算,第二项又加上了节点v的特征向量以产生v的嵌入。在所有的消息传递步骤中采用了相同的非线性变换f()和g()。
步骤2.2单DAG嵌入和全局嵌入:图神经网络还为每个DAG Gi进行了嵌入以及为所有的DAG{y1,y2,...}进行了全局的嵌入:{y1,y2,...}→z。为了计算这些嵌入工作,向每个DAG Gi添加了一个汇总节点,该汇总节点将DAG Gi中的所有节点都作为子节点(即图2(b)中的正方形)。这些DAG的汇总节点又是全局汇总节点的子节点(即图2(b)中的三角形)。这些汇总节点的嵌入也使用与单节点嵌入相同的等式,但是每个汇总节点都采用自己的非线性变换f()和g(),这样,整个图神经网络总共使用了六个非线性变换,每个汇总节点各使用两个。
步骤3、在强化学习框架下,采用策略梯度算法对智能体代理网络进行训练,得到智能体代理网络参数表征资源调度策略,生成任务执行序列。具体包括如下步骤:
步骤3.1使用策略梯度算法进行训练。通过回报奖励来执行神经网络参数的梯度下降,将智能体代理网络的图神经网络和强化学习网络一起训练,得到两个网络的参数统称为θ,调度策略记为π_θ(s_t,a_t),即在状态s_t的情况下,执行动作a_t(选择一个任务)的概率值;
步骤3.2当智能体代理网络得到执行每一个任务节点的优先度概率值之后,在当前时刻选择执行具有最大优先度概率值的任务节点,该任务节点可以是一个卫星观测任务,也可以是一个成像卫星数据下传任务;
步骤3.3从任务列表中剔除该任务,重新绘制所有卫星的任务DAG,送入智能体网络计算更新DAG之后每一个任务节点的优先度概率值;
步骤3.4不断重复以上步骤,得到成像卫星的任务执行列表。
总之,本发明利用图神经网络和强化学习方法,提取卫星任务间的内隐分布规律与内在关联,表征数据分布间的隐含关系,自主学习卫星资源调度过程中任务安排的启发式规则,形成无冲突和优化的卫星任务观测和接收方案。本方法可有效降低规则设计对人工的专业技术要求依赖,提高资源调度方法的有效性和准确性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于深度强化学习的成像卫星资源调度方法,其特征在于,包括以下步骤:
步骤1,采用有向无环图对资源一体化调度任务过程进行抽象,建立资源调度模型,生成有向无环图集;
步骤2,采用图神经网络的结构表达资源调度过程的任务状态,通过图形嵌入表达任务的相互关系,生成资源调度特征向量,并将资源调度特征向量传递给强化学习网络,图神经网络和强化学习网络共同构成智能体代理网络;
步骤3,在强化学习框架下,采用策略梯度算法对智能体代理网络进行训练,得到智能体代理网络参数表征资源调度策略,生成任务执行序列。
2.根据权利要求1所述的一种基于深度强化学习的成像卫星资源调度方法,其特征在于,步骤1的具体方式为:
步骤1.1,将所有的观测任务分配到卫星,分配任务过程中,卫星观测任务类型与卫星类型相匹配;
步骤1.2,对于一个观测卫星,将所有属于该卫星的任务进行排序;具体方式为,首先根据观测任务的优先级进行排序,任务优先级高的任务放在任务队列前端;然后根据观测卫星经过每个观测区域的时间顺序对观测任务进行时间排序,对于优先级相同的任务,先路过的任务放在前端,后经过的任务放在后端;
步骤1.3,在观测任务的列表中,添加卫星数传任务,得到卫星的总任务序列{ti}i=1:n,n为卫星的任务总数;具体方式为,根据观测卫星与地面站的可见性分析结果,确定每一个可以数传的时间段,然后在此时间段内的每一个观测任务后面添加一个数传任务;
步骤1.4,依据各卫星的总任务序列,为每个卫星建立一个有向无环图;具体方式为,对于任务序列{ti}中的任务ti,按照逆序遍历ti之前的每一个节点tk,如果tk满足以下三个条件,则在tk和ti之间建立连线:
1)tk的结束时间大于ti的开始时间;
2)tk之后,卫星的能量或者存贮空间可以完成ti;
3)tk和当前已找到的任务ti的所有父节点均无间接或直接连接关系;
最终,得到ti的所有父节点的集合P(ti);
步骤1.5,遍历从ti开始到任务起点S的所有路径,计算每一条路径上的能量损耗和存储空间损耗,统计能量损耗和存储空间损耗的最大值;
步骤1.6,将任务的优先级、成像质量、任务占用时间、能量损耗和存储空间损耗最大值组成有向无环图中任务节点的特征向量。
3.根据权利要求2所述的一种基于深度强化学习的成像卫星资源调度方法,其特征在于,步骤2中,采用图神经网络的结构表达资源调度过程的任务状态,具体方式为:
步骤2.1,通过单节点嵌入过程(Gi,xvi)→evi构建有向无环图Gi中每个节点vi的嵌入向量evi;具体方式为,从Gi的叶节点开始,将消息从子节点传递到父节点,在每个消息传递过程中,节点vi的子节点已汇总了所有更深层子孙节点的消息;单节点vi嵌入过程(Gi,xvi)→evi的计算公式如下:
其中,f()和g()是输入向量上的非线性变换,通过神经网络实现,ξ(v)表示节点v的所有子节点集合;
步骤2.2,向每个有向无环图Gi添加一个汇总节点,该汇总节点将有向无环图Gi中的所有节点都作为子节点,并作为全局汇总节点的子节点;汇总节点的嵌入使用与单节点嵌入相同的计算公式,但是每个汇总节点都采用自己的非线性变换f()和g()。
4.根据权利要求3所述的一种基于深度强化学习的成像卫星资源调度方法,其特征在于,步骤3的具体方式为:
步骤3.1,通过回报奖励执行f()和g()的神经网络参数的梯度下降,将图神经网络和强化学习网络一起训练,得到两个网络的参数统称为θ,调度策略记为π_θ(s_t,a_t);π_θ(s_t,a_t)表示在状态s_t的情况下,执行动作a_t的概率值;
步骤3.2,当智能体代理网络得到执行每一个任务节点的概率值之后,在当前时刻选择执行具有最大概率值的任务节点;
步骤3.3,从任务列表中剔除已执行的任务节点,重新绘制所有卫星的有向无环图,并计算新的有向无环图中每一个任务节点被执行的概率值;
步骤3.4,重复步骤3.2和3.3,得到成像卫星的任务执行序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110612071.7A CN113222468B (zh) | 2021-06-02 | 2021-06-02 | 一种基于深度强化学习的成像卫星资源调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110612071.7A CN113222468B (zh) | 2021-06-02 | 2021-06-02 | 一种基于深度强化学习的成像卫星资源调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113222468A true CN113222468A (zh) | 2021-08-06 |
CN113222468B CN113222468B (zh) | 2022-04-08 |
Family
ID=77082302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110612071.7A Active CN113222468B (zh) | 2021-06-02 | 2021-06-02 | 一种基于深度强化学习的成像卫星资源调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113222468B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115173923A (zh) * | 2022-07-04 | 2022-10-11 | 重庆邮电大学 | 一种低轨卫星网络能效感知路由优化方法和系统 |
CN116561386A (zh) * | 2023-07-12 | 2023-08-08 | 北京惠每云科技有限公司 | 一种基于dag图实体上下位关系判别方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400002A (zh) * | 2019-06-21 | 2019-11-01 | 中南大学 | 一种多星成像任务规划方法 |
CN110689262A (zh) * | 2019-09-25 | 2020-01-14 | 中国人民解放军战略支援部队航天工程大学 | 天基信息系统任务调度方法、装置和电子设备 |
CN111756653A (zh) * | 2020-06-04 | 2020-10-09 | 北京理工大学 | 基于图神经网络深度强化学习的多coflow调度方法 |
CN111884703A (zh) * | 2020-06-19 | 2020-11-03 | 中国电子科技集团公司第五十四研究所 | 一种基于通信卫星间协同计算的业务请求分配方法 |
CN112711475A (zh) * | 2021-01-20 | 2021-04-27 | 上海交通大学 | 一种基于图卷积神经网络的工作流调度方法及系统 |
-
2021
- 2021-06-02 CN CN202110612071.7A patent/CN113222468B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400002A (zh) * | 2019-06-21 | 2019-11-01 | 中南大学 | 一种多星成像任务规划方法 |
CN110689262A (zh) * | 2019-09-25 | 2020-01-14 | 中国人民解放军战略支援部队航天工程大学 | 天基信息系统任务调度方法、装置和电子设备 |
CN111756653A (zh) * | 2020-06-04 | 2020-10-09 | 北京理工大学 | 基于图神经网络深度强化学习的多coflow调度方法 |
CN111884703A (zh) * | 2020-06-19 | 2020-11-03 | 中国电子科技集团公司第五十四研究所 | 一种基于通信卫星间协同计算的业务请求分配方法 |
CN112711475A (zh) * | 2021-01-20 | 2021-04-27 | 上海交通大学 | 一种基于图卷积神经网络的工作流调度方法及系统 |
Non-Patent Citations (3)
Title |
---|
CHAO ZHANG等: "Satellite group autonomous operation mechanism and planning algorithm for marine target surveillance", 《CHINESE JOURNAL OF AERONAUTICS》 * |
徐明明、王俊峰: "基于冲突成像概率的多星任务预调度算法", 《四川大学学报(自然科学版)》 * |
王钧等: "基于约束满足的多目标对地观测卫星成像调度", 《国防科技大学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115173923A (zh) * | 2022-07-04 | 2022-10-11 | 重庆邮电大学 | 一种低轨卫星网络能效感知路由优化方法和系统 |
CN115173923B (zh) * | 2022-07-04 | 2023-07-04 | 重庆邮电大学 | 一种低轨卫星网络能效感知路由优化方法和系统 |
CN116561386A (zh) * | 2023-07-12 | 2023-08-08 | 北京惠每云科技有限公司 | 一种基于dag图实体上下位关系判别方法、装置及电子设备 |
CN116561386B (zh) * | 2023-07-12 | 2023-11-21 | 北京惠每云科技有限公司 | 一种基于dag图实体上下位关系判别方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113222468B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113222468B (zh) | 一种基于深度强化学习的成像卫星资源调度方法 | |
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
CN113408209A (zh) | 跨样本联邦分类建模方法及装置、存储介质、电子设备 | |
Kebriaei et al. | Model-based and learning-based decision making in incomplete information cournot games: a state estimation approach | |
WO2021057329A1 (zh) | 一种作战体系架构建模与最优搜索方法 | |
CN113919485A (zh) | 基于动态层级通信网络的多智能体强化学习方法及系统 | |
CN116841317A (zh) | 一种基于图注意力强化学习的无人机集群协同对抗方法 | |
CN111189455B (zh) | 一种无人机航路规划方法、系统及存储介质 | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
Li et al. | CAAS: a novel collective action-based ant system algorithm for solving TSP problem | |
Sun et al. | Deep reinforcement learning-based resilience enhancement strategy of unmanned weapon system-of-systems under inevitable interferences | |
Zheng et al. | Rethinking population-assisted off-policy reinforcement learning | |
Tan et al. | Parameterized indexed value function for efficient exploration in reinforcement learning | |
CN115150335A (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
CN110536266B (zh) | 无人机编队通信能耗的周期性在线均衡方法和装置 | |
Lv et al. | Improve Exploration in Deep Reinforcement Learning for UAV Path Planning using State and Action Entropy | |
Mahootchi et al. | Oppositional extension of reinforcement learning techniques | |
CN103593438B (zh) | 一个预测社交网络演化过程和网络性质的方法 | |
CN110618626B (zh) | 多无人平台协同队形保持的通信能耗均衡方法和装置 | |
CN116684273B (zh) | 一种基于粒子群的机动通信网络结构自动规划方法及系统 | |
CN114488802B (zh) | 组内决策一致多群组博弈的纳什均衡指定时间搜索方法 | |
Li et al. | A hybrid reasoning method of knowledge graph for on-line arts education based on reinforcement learning | |
CN110162400B (zh) | 复杂网络环境下实现mas系统中智能体合作的方法和系统 | |
Lu et al. | Sampling diversity driven exploration with state difference guidance | |
Odili et al. | Comparative implementation of the benchmark Dejong 5 function using flower pollination algorithm and the African buffalo optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |