CN113255893B - 一种多智能体行动策略自演进生成方法 - Google Patents
一种多智能体行动策略自演进生成方法 Download PDFInfo
- Publication number
- CN113255893B CN113255893B CN202110609397.4A CN202110609397A CN113255893B CN 113255893 B CN113255893 B CN 113255893B CN 202110609397 A CN202110609397 A CN 202110609397A CN 113255893 B CN113255893 B CN 113255893B
- Authority
- CN
- China
- Prior art keywords
- strategy
- action
- value
- agent
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000008859 change Effects 0.000 claims abstract description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 77
- 230000007423 decrease Effects 0.000 claims description 7
- 230000006399 behavior Effects 0.000 description 8
- 101000713585 Homo sapiens Tubulin beta-4A chain Proteins 0.000 description 2
- 102100036788 Tubulin beta-4A chain Human genes 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 101000878595 Arabidopsis thaliana Squalene synthase 1 Proteins 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000010391 action planning Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000024703 flight behavior Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种多智能体行动策略自演进生成方法,具有较强的鲁棒性与自适应能力,适应于战场高动态变化态势下的智能体行动策略快速生成。初始化公共神经网络,公共神经网络包含演员网络和评论家网络。进行初始化设置后,计算当前时间节点执行完动作后获得的回报值;更新时间节点t,即t自增1。计算当前时间序列内最后一个时间节点的t的状态奖励值;更新时间节点t+1的状态奖励值,更新当前线程中演员网络参数的梯度值,更新当前线程中评论家网络参数的梯度值;更新公共神经网络的两个全局参数。公共神经网络训练完成后,形成策略生成模型,面对新的空战环境变化,将新的空战环境的状态特征和动作输入至所述策略生成模型,输出行动策略。
Description
技术领域
本发明涉及智能体技术领域,具体涉及一种多智能体行动策略自演进生成方法。
背景技术
无人设备在真实的自然环境中,可以视为具有感知和行动能力的智能体,由于态势信息通常处于不断变化的过程中,在短时间内可能出现周围环境、可分配资源、智能体宏观任务以及智能体自身能力等信息的快速变化。在有限的行动规划时间里,快速生成行动策略,实现多智能体统一部署、协同作战的能力,是目前多智能体复杂系统行动策略研究的重点方向。其在智能调度、工业智能化以及复杂军事作战等领域有着极为广泛的应用。
通常采用的层次分析法、证据融合方法与多属性决策等理论等主要依靠专家知识与经验库进行决策生成,既缺少足够多的案例以供判断,智能体也不具备自我探索能力,同时在真实的战场环境下,没有考虑到整个智能系统中智能体的增减与集群化;基于神经网络的策略生成方法依赖大规模的监督学习,面对小样本的作战案例无法有效给出行动策略。
因此如何在战场高动态变化态势下进行智能体行动策略的快速生成是目前亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种多智能体行动策略自演进生成方法,具有较强的鲁棒性与自适应能力,同时兼顾单智能体与多智能体的多层级策略生成要求,适应于战场高动态变化态势下的智能体行动策略快速生成。
为达到上述目的,本发明的技术方案包括如下步骤:
步骤1:初始化公共神经网络,公共神经网络包含演员网络和评论家网络,设置两个全局参数分别θ和w,其中演员网络参数为θ',评论家网络参数为w'。
设置全局迭代次数T,全局最大迭代次数TMAX。
单次线程的单次迭代中的时间序列最大长度tMAX,公共神经网络的输入为状态特征和动作,输出为行动策略;状态特征隶属于状态特征集S,动作隶属于动作集A,行动策略隶属于策略集π(a/s);其中a代表当前行动策略对应动作,s代表当前的状态;熵系数为c;衰变因子为γ。
步骤2:设置当前线程的单次迭代中的时间节点t,t的初始值为1;设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0。
步骤3:将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数,即θ'=θ,w'=w。
步骤4:初始化状态特征集S。
步骤5:基于部分设定规则以及智能体的当前状态特征st,根据策略集π(a/s),智能体做出当前策略的动作at。
步骤6:计算当前时间节点执行完动作at后获得的回报值rt;更新时间节点t,即t自增1,更新智能体的状态特征为st+1。
步骤7:若t>tMAX,则转向步骤8,否则返回执行步骤5。
步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(st,t)
步骤9:更新时间节点t+1的状态奖励值Q(st,t+1)=W·rt+γQ(st,t)。
其中W为单步动作的回报值的权重系数,W取值为0-1之间;
更新当前线程中演员网络参数的梯度值为
步骤10:更新公共神经网络的两个全局参数:θ减小αdθ',w减小βdw';其中α为演员网络参数步长;β为评论家网络参数步长。
步骤11:T自增1;如果T>TMAX,则公共神经网络训练完成,输出公共神经网络的两个全局参数参数θ,w,否则返回步骤3。
步骤12:公共神经网络训练完成后,形成策略生成模型,面对新的空战环境变化,将新的空战环境的状态特征和动作输入至策略生成模型,输出行动策略。
进一步地,特征状态集S的向量空间包括以下量化后的数据:环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。
进一步地,动作集包含智能体的基本行为动作。
进一步地,步骤8中,Q(st,t)的计算方法如下:
进一步地,单步动作的回报值的权重系数W的取值,将通过设定阈值将时间序列分为前后两段,当t处于前半段时W的取值大于t处于后半段时W的取值。
有益效果:
本发明提供了一种多智能体行动策略自演进生成方法,采用了改进的强化学习算法对智能体的自我决策能力进行训练,使其具备在对抗环境下的行动策略自主生成能力,同时该算法鲁棒性强,可以适用于不同的智能体训练、对抗环境,策略生成率达到100%。本发明中智能体个体决策与群体决策都是基于统一的框架,基于这种框架智能体个数可以自适应地增添或删减,增加了整个系统的鲁棒性,同时有效应对智能体损毁减少,或者随时增加的场景。
附图说明
图1为本发明一个实施例提供的一种多智能体的决策生成训练方法的流程图;
图2为本发明另外一个实施例提供的一种多智能体的决策生成训练方法的原理示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供了一种多智能体行动策略自演进生成方法,适用于多智能体行动策略自主生成。其中智能体是现实实体的抽象概念,范围可以包括具备动态感知能力;能够执行动作并获取反馈;对反馈结果能够获取评价信息。其主要的实体可以包括如下:森林火灾中的灭火无人机;自然灾害求援任务中的求援机器人;军事打击任务中的侦察机、智能打击武器等。
上述的所有场景中,有以下几个特征:
智能体的行动策略是收到一定规则限制的。智能体的策略行为必然不可能超过其能力范围,比如无人车不可能执行飞行命令,无人机无法进行水下探测等,这类智能体的策略规则由先验知识界定,在下文中用“规则”代替。
智能体的策略行为所带来的反馈不同。例如在无人机策略规划中,攻击行为与飞航行为所反馈的态势信息截然不同;有些策略具备极高的正向反馈,但有些策略的反馈可以认为是0值。在下文中,用“策略奖励值”表示策略的执行情况。
由于通常的智能体策略需要多个智能体共同执行完成,多智能体的编队行为也需要额外的智能体进行监督。在下文中,用“演员”来表示执行策略的智能体,用“评论家”来表示进行监督的智能体。
本发明提供的多智能体自主行为策略生成方法,考虑了复杂态势感知的环境下,多智能体根据环境信息与自身状态,生成不超出规则范围的行动策略的任务分配方案。本发明以改进的强化学习算法作为智能体行为策略的探索算法,算法对训练样本要求低,生成策略的回报率高。
如图1所示,本发明的一个实施例提供的一种多智能体行动策略自演进生成方法,包括如下步骤:
步骤1:初始化公共神经网络,所述公共神经网络包含演员网络和评论家网络,设置两个全局参数分别θ和w,其中演员网络参数为θ',评论家网络参数为w';
设置全局迭代次数T,全局最大迭代次数TMAX;
单次线程的单次迭代中的时间序列最大长度tMAX,所述公共神经网络的输入为状态特征和动作,输出为行动策略;状态特征隶属于状态特征集S,动作隶属于动作集A,行动策略隶属于策略集π(a/s);其中a代表当前行动策略对应动作,s代表当前的状态;熵系数为c;衰变因子为γ。
本发明实施例中特征状态集S的向量空间包括以下量化后的数据:环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。动作集包含智能体的基本行为动作。
步骤2:设置当前线程的单次迭代中的时间节点t,t的初始值为1;设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0;
步骤3:将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数,即θ'=θ,w'=w;
步骤4:初始化状态特征集S;
步骤5:基于部分设定规则以及智能体的当前状态特征st,根据策略集π(a/s),智能体做出当前策略的动作at;
步骤6:计算当前时间节点执行完动作at后获得的回报值rt;更新时间节点t,即t自增1,更新智能体的状态特征为st+1;
步骤7:若t>tMAX,则转向步骤8,否则返回执行步骤5;
步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(st,t);Q(st,t)的计算方法如下:
步骤9:更新时间节点t+1的状态奖励值Q(st,t+1)=W·rt+γQ(st,t);
其中W为单步动作的回报值的权重系数,W取值为0-1之间;单步动作的回报值的权重系数W的取值,将通过设定阈值将时间序列分为前后两段,当t处于前半段时W的取值大于t处于后半段时W的取值。
更新当前线程中演员网络参数的梯度值为
步骤10:更新公共神经网络的两个全局参数:θ减小αdθ',w减小βdw';其中α为演员网络参数步长;β为评论家网络参数步长;
步骤11:T自增1;如果T>TMAX,则公共神经网络训练完成,输出公共神经网络的两个全局参数参数θ,w,否则返回步骤3;
步骤12:公共神经网络训练完成后,形成策略生成模型,面对新的空战环境变化,将所述新的空战环境的状态特征和动作输入至所述策略生成模型,输出行动策略。
如图2所示,本发明的另外一个实施例提供的一种多智能体行动策略自演进生成方法,包括如下步骤:
SS1:初始化公共神经网络参数,并设置公共最大迭代轮数T,其上限为TMAX,初始化演员参数,包括环境态势信息、传感器数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态等,这些信息量化后表示为:位置信息、姿态信息、速度信息、航向角、特征数据、实体状态、任务执行机构、任务报告、视觉效果、地形变化、挂载信息、毁伤信息、损失信息。其中任务报告主要为打击报告。
本发明实施例中,演员信息包括智能体编号i、任务状态S,任务规则π,其中状态集S中包含以下信息:当前损毁状态α,α初值为1;演员当前执行任务β,β主要为起飞、侦查、攻击、返航四种状态,以00、01、10、11表示。
SS2:T=T+1;启动单个线程,单个线程中时间序列节点表示为t,其上限为tMAX;演员根据自身规则,选择打击策略执行时,演员根据自身执行情况获得反馈,并对反馈的奖励值进行缓存,当前任务执行完毕后感知环境的整体态势信息,选择下一时刻所要执行的任务,任务结束状态为当前想定达到既定结束指标:我方或地方所有智能体毁伤完毕。
本发明实施例中,智能体i对当前线程时间序列为t的节点,执行策略π后的奖励值为:ri t=(ATT-SUR)*TIME;其中TIME是演员执行当前策略所消耗的时间,ATT是毁伤的地方智能体数量,SUR是我方智能体在执行完指令后的存活数量。
SS3:t=t+1;神经网络根据当前智能体的行为奖励值,梯度上升更新演员网络和评论家网络的参数,随后根据更新后的参数重新执行SS 1,直到该网络参数达到最大值或t>tMAX。
SS 4:在主要任务想定改变后,演员根据自身规则,选择机动策略执行,演员根据路径规划结果情况获得反馈,并对反馈的奖励值进行缓存,当前任务执行完毕后感知环境的整体态势信息,选择下一时刻所要执行的任务,任务结束状态为当前想定达到既定结束指标。
SS 5:启动新的线程,执行路径规划学习,在该线程时间节点为t的节点处,其奖励值计算方式如下:ri t=(s+SUR)/TIME,其中s代表路径规划策略中行进的总路程,SUR代表策略执行完后存活的我方智能体数量,TIME代表当前任务执行的时间;t=t+1。
SS 6:重复执行SS 5至该网络参数达到最大值或t>tMAX。
SS 7:当T>TMAX,当前整体任务执行完毕,将各个线程的参数更新至公共神经网络状态,梯度上升的更新参数,若未达到最大值,转向SS 2。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种多智能体行动策略自演进生成方法,其特征在于,包括如下步骤:
步骤1:初始化公共神经网络,所述公共神经网络包含演员网络和评论家网络,设置两个全局参数分别θ和w,其中演员网络参数为θ',评论家网络参数为w';
设置全局迭代次数T,全局最大迭代次数TMAX;
单次线程的单次迭代中的时间序列最大长度tMAX,所述公共神经网络的输入为状态特征和动作,输出为行动策略;状态特征隶属于状态特征集S,动作隶属于动作集A,行动策略隶属于策略集π(a/s);其中a代表当前行动策略对应动作,s代表当前的状态;熵系数为c;衰变因子为γ;
步骤2:设置当前线程的单次迭代中的时间节点t,t的初始值为1;设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0;
步骤3:将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数,即θ'=θ,w'=w;
步骤4:初始化状态特征集S;
步骤5:基于部分设定规则以及智能体的当前状态特征st,根据策略集π(a/s),智能体做出当前策略的动作at;
步骤6:计算当前时间节点执行完动作at后获得的回报值rt;更新时间节点t,即t自增1,更新智能体的状态特征为st+1;
步骤7:若t>tMAX,则转向步骤8,否则返回执行步骤5;
步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(st,t)
步骤9:更新时间节点t+1的状态奖励值Q(st,t+1)=W·rt+γQ(st,t);
其中W为单步动作的回报值的权重系数,W取值为0-1之间;
更新当前线程中演员网络参数的梯度值为
dθ'+▽θ'logπθ'(st,at)(Q(st,t)-V(st,t))+c▽θ'H(π(st,θ'));
其中,▽θ'为梯度算子,即计算θ'的梯度值;H(π(st,θ'))为策略π(at/st)熵值;V(st,t)为在状态特征st、时间序列t时由评论家网络的价值函数计算得到的评论家价值;
步骤10:更新公共神经网络的两个全局参数:θ减小αdθ',w减小βdw';其中α为演员网络参数步长;β为评论家网络参数步长;
步骤11:T自增1;如果T>TMAX,则公共神经网络训练完成,输出公共神经网络的两个全局参数参数θ,w,否则返回步骤3;
步骤12:公共神经网络训练完成后,形成策略生成模型,面对新的空战环境变化,将所述新的空战环境的状态特征和动作输入至所述策略生成模型,输出行动策略。
2.如权利要求1所述的行动策略自演进生成方法,其特征在于,所述特征状态集S的向量空间包括以下量化后的数据:环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。
3.如权利要求1所述的行动策略自演进生成方法,其特征在于,所述动作集包含智能体的基本行为动作。
5.如权利要求1所述的多智能体行动策略自演进生成方法,其特征在于,所述单步动作的回报值的权重系数W的取值,将通过设定阈值将时间序列分为前后两段,当t处于前半段时W的取值大于t处于后半段时W的取值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609397.4A CN113255893B (zh) | 2021-06-01 | 2021-06-01 | 一种多智能体行动策略自演进生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609397.4A CN113255893B (zh) | 2021-06-01 | 2021-06-01 | 一种多智能体行动策略自演进生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255893A CN113255893A (zh) | 2021-08-13 |
CN113255893B true CN113255893B (zh) | 2022-07-05 |
Family
ID=77185762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110609397.4A Active CN113255893B (zh) | 2021-06-01 | 2021-06-01 | 一种多智能体行动策略自演进生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255893B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282640B (zh) * | 2021-12-31 | 2024-02-06 | 北京瑞莱智慧科技有限公司 | 多样性策略的生成方法、装置、介质和计算设备 |
CN117928568B (zh) * | 2024-03-22 | 2024-06-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的导航方法、模型训练方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190720A (zh) * | 2018-07-28 | 2019-01-11 | 深圳市商汤科技有限公司 | 智能体强化学习方法、装置、设备及介质 |
CN109670270A (zh) * | 2019-01-11 | 2019-04-23 | 山东师范大学 | 基于多智能体深度强化学习的人群疏散仿真方法及系统 |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
CN111555297A (zh) * | 2020-05-21 | 2020-08-18 | 广西大学 | 一种具有三态能源单元的统一时间尺度电压控制方法 |
CN111785045A (zh) * | 2020-06-17 | 2020-10-16 | 南京理工大学 | 基于演员-评论家算法的分布式交通信号灯联合控制方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10225591B2 (en) * | 2014-10-21 | 2019-03-05 | Comcast Cable Communications, Llc | Systems and methods for creating and managing user profiles |
US11132470B2 (en) * | 2019-11-07 | 2021-09-28 | Micron Technology, Inc. | Semiconductor device with secure access key and associated methods and systems |
-
2021
- 2021-06-01 CN CN202110609397.4A patent/CN113255893B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190720A (zh) * | 2018-07-28 | 2019-01-11 | 深圳市商汤科技有限公司 | 智能体强化学习方法、装置、设备及介质 |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
CN109670270A (zh) * | 2019-01-11 | 2019-04-23 | 山东师范大学 | 基于多智能体深度强化学习的人群疏散仿真方法及系统 |
CN111555297A (zh) * | 2020-05-21 | 2020-08-18 | 广西大学 | 一种具有三态能源单元的统一时间尺度电压控制方法 |
CN111785045A (zh) * | 2020-06-17 | 2020-10-16 | 南京理工大学 | 基于演员-评论家算法的分布式交通信号灯联合控制方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
Non-Patent Citations (1)
Title |
---|
"Multi-agent Actor-Critic Reinforcement Learning Based In-network Load Balance";Tianle Mai.etc;《GLOBECOM 2020 - 2020 IEEE Global Communications Conference 》;20201231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113255893A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465151A (zh) | 一种基于深度强化学习的多智能体联邦协作方法 | |
CN110929394B (zh) | 基于超网络理论的联合作战体系建模方法以及存储介质 | |
CN113255893B (zh) | 一种多智能体行动策略自演进生成方法 | |
CN111240353B (zh) | 基于遗传模糊树的无人机协同空战决策方法 | |
CN110554709A (zh) | 一种分布式的仿生的多智能体自主集群控制方法 | |
CN114510078B (zh) | 一种基于深度强化学习的无人机机动规避决策方法 | |
Han et al. | $ H_\infty $ Model-free Reinforcement Learning with Robust Stability Guarantee | |
CN113703483B (zh) | 多uav协同轨迹规划方法及系统、设备、存储介质 | |
CN109597839B (zh) | 一种基于航电作战态势的数据挖掘方法 | |
CN113625569B (zh) | 一种基于混合决策模型的小型无人机防控决策方法及系统 | |
CN114489144B (zh) | 无人机自主机动决策方法、装置及无人机 | |
CN116661503B (zh) | 一种基于多智能体安全强化学习的集群航迹自动规划方法 | |
CN114661069A (zh) | 一种群体智能系统的编队控制方法 | |
CN117150757A (zh) | 一种基于数字孪生的仿真推演系统 | |
CN110619131A (zh) | 一种基于加权模糊Petri网的UUV智能体行为规划方法 | |
Niu et al. | Three-dimensional UCAV path planning using a novel modified artificial ecosystem optimizer | |
CN115097861A (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 | |
Shen | Bionic communication network and binary pigeon-inspired optimization for multiagent cooperative task allocation | |
CN117908565A (zh) | 基于最大熵多智能体强化学习的无人机安全路径规划方法 | |
Zhang et al. | Design of the fruit fly optimization algorithm based path planner for UAV in 3D environments | |
Kong et al. | Multi-UAV simultaneous target assignment and path planning based on deep reinforcement learning in dynamic multiple obstacles environments | |
CN112396298A (zh) | 一种无人直升机多机协同任务规划方法 | |
CN116859989A (zh) | 一种基于群体协同的无人机集群智能对抗策略生成方法 | |
Deng et al. | Research on intelligent decision technology for multi-UAVs prevention and control | |
Selma et al. | Autonomous trajectory tracking of a quadrotor UAV using ANFIS controller based on Gaussian pigeon-inspired optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Wang Yue Inventor after: Zhuang Xing Inventor after: Yin Hao Inventor after: Liu Jintao Inventor after: Li Kexu Inventor before: Zhuang Xing Inventor before: Wang Yue Inventor before: Yin Hao Inventor before: Liu Jintao Inventor before: Li Kexu |
|
GR01 | Patent grant | ||
GR01 | Patent grant |