CN113255893A - 一种多智能体行动策略自演进生成方法 - Google Patents

一种多智能体行动策略自演进生成方法 Download PDF

Info

Publication number
CN113255893A
CN113255893A CN202110609397.4A CN202110609397A CN113255893A CN 113255893 A CN113255893 A CN 113255893A CN 202110609397 A CN202110609397 A CN 202110609397A CN 113255893 A CN113255893 A CN 113255893A
Authority
CN
China
Prior art keywords
strategy
action
value
agent
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110609397.4A
Other languages
English (en)
Other versions
CN113255893B (zh
Inventor
庄星
王玥
尹昊
刘劲涛
李柯绪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110609397.4A priority Critical patent/CN113255893B/zh
Publication of CN113255893A publication Critical patent/CN113255893A/zh
Application granted granted Critical
Publication of CN113255893B publication Critical patent/CN113255893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种多智能体行动策略自演进生成方法,具有较强的鲁棒性与自适应能力,适应于战场高动态变化态势下的智能体行动策略快速生成。初始化公共神经网络,公共神经网络包含演员网络和评论家网络。进行初始化设置后,计算当前时间节点执行完动作后获得的回报值;更新时间节点t,即t自增1。计算当前时间序列内最后一个时间节点的t的状态奖励值;更新时间节点t+1的状态奖励值,更新当前线程中演员网络参数的梯度值,更新当前线程中评论家网络参数的梯度值;更新公共神经网络的两个全局参数。公共神经网络训练完成后,形成策略生成模型,面对新的空战环境变化,将新的空战环境的状态特征和动作输入至所述策略生成模型,输出行动策略。

Description

一种多智能体行动策略自演进生成方法
技术领域
本发明涉及智能体技术领域,具体涉及一种多智能体行动策略自演进生成方法。
背景技术
无人设备在真实的自然环境中,可以视为具有感知和行动能力的智能体,由于态势信息通常处于不断变化的过程中,在短时间内可能出现周围环境、可分配资源、智能体宏观任务以及智能体自身能力等信息的快速变化。在有限的行动规划时间里,快速生成行动策略,实现多智能体统一部署、协同作战的能力,是目前多智能体复杂系统行动策略研究的重点方向。其在智能调度、工业智能化以及复杂军事作战等领域有着极为广泛的应用。
通常采用的层次分析法、证据融合方法与多属性决策等理论等主要依靠专家知识与经验库进行决策生成,既缺少足够多的案例以供判断,智能体也不具备自我探索能力,同时在真实的战场环境下,没有考虑到整个智能系统中智能体的增减与集群化;基于神经网络的策略生成方法依赖大规模的监督学习,面对小样本的作战案例无法有效给出行动策略。
因此如何在战场高动态变化态势下进行智能体行动策略的快速生成是目前亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种多智能体行动策略自演进生成方法,具有较强的鲁棒性与自适应能力,同时兼顾单智能体与多智能体的多层级策略生成要求,适应于战场高动态变化态势下的智能体行动策略快速生成。
为达到上述目的,本发明的技术方案包括如下步骤:
步骤1:初始化公共神经网络,公共神经网络包含演员网络和评论家网络,设置两个全局参数分别θ和w,其中演员网络参数为θ',评论家网络参数为w'。
设置全局迭代次数T,全局最大迭代次数TMAX
单次线程的单次迭代中的时间序列最大长度tMAX,公共神经网络的输入为状态特征和动作,输出为行动策略;状态特征隶属于状态特征集S,动作隶属于动作集A,行动策略隶属于策略集π(a/s);其中a代表当前行动策略对应动作,s代表当前的状态;熵系数为c;衰变因子为γ。
步骤2:设置当前线程的单次迭代中的时间节点t,t的初始值为1;设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0。
步骤3:将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数,即θ'=θ,w'=w。
步骤4:初始化状态特征集S。
步骤5:基于部分设定规则以及智能体的当前状态特征st,根据策略集π(a/s),智能体做出当前策略的动作at
步骤6:计算当前时间节点执行完动作at后获得的回报值rt;更新时间节点t,即t自增1,更新智能体的状态特征为st+1
步骤7:若t>tMAX,则转向步骤8,否则返回执行步骤5。
步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(st,t)
步骤9:更新时间节点t+1的状态奖励值Q(st,t+1)=W·rt+γQ(st,t)。
其中W为单步动作的回报值的权重系数,W取值为0-1之间;
更新当前线程中演员网络参数的梯度值为
Figure BDA0003095009190000021
其中,
Figure BDA0003095009190000031
为梯度算子,即计算θ'的梯度值;H(π(st,θ'))为策略π(at/st)熵值;V(st,t)为在状态特征st、时间序列t时由评论家网络的价值函数计算得到的评论家价值。
更新当前线程中评论家网络参数的梯度值为
Figure BDA0003095009190000032
步骤10:更新公共神经网络的两个全局参数:θ减小αdθ',w减小βdw';其中α为演员网络参数步长;β为评论家网络参数步长。
步骤11:T自增1;如果T>TMAX,则公共神经网络训练完成,输出公共神经网络的两个全局参数参数θ,w,否则返回步骤3。
步骤12:公共神经网络训练完成后,形成策略生成模型,面对新的空战环境变化,将新的空战环境的状态特征和动作输入至策略生成模型,输出行动策略。
进一步地,特征状态集S的向量空间包括以下量化后的数据:环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。
进一步地,动作集包含智能体的基本行为动作。
进一步地,步骤8中,Q(st,t)的计算方法如下:
Figure BDA0003095009190000033
进一步地,单步动作的回报值的权重系数W的取值,将通过设定阈值将时间序列分为前后两段,当t处于前半段时W的取值大于t处于后半段时W的取值。
有益效果:
本发明提供了一种多智能体行动策略自演进生成方法,采用了改进的强化学习算法对智能体的自我决策能力进行训练,使其具备在对抗环境下的行动策略自主生成能力,同时该算法鲁棒性强,可以适用于不同的智能体训练、对抗环境,策略生成率达到100%。本发明中智能体个体决策与群体决策都是基于统一的框架,基于这种框架智能体个数可以自适应地增添或删减,增加了整个系统的鲁棒性,同时有效应对智能体损毁减少,或者随时增加的场景。
附图说明
图1为本发明一个实施例提供的一种多智能体的决策生成训练方法的流程图;
图2为本发明另外一个实施例提供的一种多智能体的决策生成训练方法的原理示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供了一种多智能体行动策略自演进生成方法,适用于多智能体行动策略自主生成。其中智能体是现实实体的抽象概念,范围可以包括具备动态感知能力;能够执行动作并获取反馈;对反馈结果能够获取评价信息。其主要的实体可以包括如下:森林火灾中的灭火无人机;自然灾害求援任务中的求援机器人;军事打击任务中的侦察机、智能打击武器等。
上述的所有场景中,有以下几个特征:
智能体的行动策略是收到一定规则限制的。智能体的策略行为必然不可能超过其能力范围,比如无人车不可能执行飞行命令,无人机无法进行水下探测等,这类智能体的策略规则由先验知识界定,在下文中用“规则”代替。
智能体的策略行为所带来的反馈不同。例如在无人机策略规划中,攻击行为与飞航行为所反馈的态势信息截然不同;有些策略具备极高的正向反馈,但有些策略的反馈可以认为是0值。在下文中,用“策略奖励值”表示策略的执行情况。
由于通常的智能体策略需要多个智能体共同执行完成,多智能体的编队行为也需要额外的智能体进行监督。在下文中,用“演员”来表示执行策略的智能体,用“评论家”来表示进行监督的智能体。
本发明提供的多智能体自主行为策略生成方法,考虑了复杂态势感知的环境下,多智能体根据环境信息与自身状态,生成不超出规则范围的行动策略的任务分配方案。本发明以改进的强化学习算法作为智能体行为策略的探索算法,算法对训练样本要求低,生成策略的回报率高。
如图1所示,本发明的一个实施例提供的一种多智能体行动策略自演进生成方法,包括如下步骤:
步骤1:初始化公共神经网络,所述公共神经网络包含演员网络和评论家网络,设置两个全局参数分别θ和w,其中演员网络参数为θ',评论家网络参数为w';
设置全局迭代次数T,全局最大迭代次数TMAX
单次线程的单次迭代中的时间序列最大长度tMAX,所述公共神经网络的输入为状态特征和动作,输出为行动策略;状态特征隶属于状态特征集S,动作隶属于动作集A,行动策略隶属于策略集π(a/s);其中a代表当前行动策略对应动作,s代表当前的状态;熵系数为c;衰变因子为γ。
本发明实施例中特征状态集S的向量空间包括以下量化后的数据:环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。动作集包含智能体的基本行为动作。
步骤2:设置当前线程的单次迭代中的时间节点t,t的初始值为1;设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0;
步骤3:将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数,即θ'=θ,w'=w;
步骤4:初始化状态特征集S;
步骤5:基于部分设定规则以及智能体的当前状态特征st,根据策略集π(a/s),智能体做出当前策略的动作at
步骤6:计算当前时间节点执行完动作at后获得的回报值rt;更新时间节点t,即t自增1,更新智能体的状态特征为st+1
步骤7:若t>tMAX,则转向步骤8,否则返回执行步骤5;
步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(st,t);Q(st,t)的计算方法如下:
Figure BDA0003095009190000061
步骤9:更新时间节点t+1的状态奖励值Q(st,t+1)=W·rt+γQ(st,t);
其中W为单步动作的回报值的权重系数,W取值为0-1之间;单步动作的回报值的权重系数W的取值,将通过设定阈值将时间序列分为前后两段,当t处于前半段时W的取值大于t处于后半段时W的取值。
更新当前线程中演员网络参数的梯度值为
Figure BDA0003095009190000062
其中,
Figure BDA0003095009190000063
为梯度算子,即计算θ'的梯度值;H(π(st,θ'))为策略π(at/st)熵值;V(st,t)为在状态特征st、时间序列t时由评论家网络的价值函数计算得到的评论家价值;
更新当前线程中评论家网络参数的梯度值为
Figure BDA0003095009190000071
步骤10:更新公共神经网络的两个全局参数:θ减小αdθ',w减小βdw';其中α为演员网络参数步长;β为评论家网络参数步长;
步骤11:T自增1;如果T>TMAX,则公共神经网络训练完成,输出公共神经网络的两个全局参数参数θ,w,否则返回步骤3;
步骤12:公共神经网络训练完成后,形成策略生成模型,面对新的空战环境变化,将所述新的空战环境的状态特征和动作输入至所述策略生成模型,输出行动策略。
如图2所示,本发明的另外一个实施例提供的一种多智能体行动策略自演进生成方法,包括如下步骤:
SS1:初始化公共神经网络参数,并设置公共最大迭代轮数T,其上限为TMAX,初始化演员参数,包括环境态势信息、传感器数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态等,这些信息量化后表示为:位置信息、姿态信息、速度信息、航向角、特征数据、实体状态、任务执行机构、任务报告、视觉效果、地形变化、挂载信息、毁伤信息、损失信息。其中任务报告主要为打击报告。
本发明实施例中,演员信息包括智能体编号i、任务状态S,任务规则π,其中状态集S中包含以下信息:当前损毁状态α,α初值为1;演员当前执行任务β,β主要为起飞、侦查、攻击、返航四种状态,以00、01、10、11表示。
SS2:T=T+1;启动单个线程,单个线程中时间序列节点表示为t,其上限为tMAX;演员根据自身规则,选择打击策略执行时,演员根据自身执行情况获得反馈,并对反馈的奖励值进行缓存,当前任务执行完毕后感知环境的整体态势信息,选择下一时刻所要执行的任务,任务结束状态为当前想定达到既定结束指标:我方或地方所有智能体毁伤完毕。
本发明实施例中,智能体i对当前线程时间序列为t的节点,执行策略π后的奖励值为:ri t=(ATT-SUR)*TIME;其中TIME是演员执行当前策略所消耗的时间,ATT是毁伤的地方智能体数量,SUR是我方智能体在执行完指令后的存活数量。
当前本次线程时间序列终止后,我方智能体所获得的所有奖励值求和得到该次行动策略的序列奖励值
Figure BDA0003095009190000081
SS3:t=t+1;神经网络根据当前智能体的行为奖励值,梯度上升更新演员网络和评论家网络的参数,随后根据更新后的参数重新执行SS 1,直到该网络参数达到最大值或t>tMAX
SS 4:在主要任务想定改变后,演员根据自身规则,选择机动策略执行,演员根据路径规划结果情况获得反馈,并对反馈的奖励值进行缓存,当前任务执行完毕后感知环境的整体态势信息,选择下一时刻所要执行的任务,任务结束状态为当前想定达到既定结束指标。
SS 5:启动新的线程,执行路径规划学习,在该线程时间节点为t的节点处,其奖励值计算方式如下:ri t=(s+SUR)/TIME,其中s代表路径规划策略中行进的总路程,SUR代表策略执行完后存活的我方智能体数量,TIME代表当前任务执行的时间;t=t+1。
SS 6:重复执行SS 5至该网络参数达到最大值或t>tMAX
SS 7:当T>TMAX,当前整体任务执行完毕,将各个线程的参数更新至公共神经网络状态,梯度上升的更新参数,若未达到最大值,转向SS 2。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种多智能体行动策略自演进生成方法,其特征在于,包括如下步骤:
步骤1:初始化公共神经网络,所述公共神经网络包含演员网络和评论家网络,设置两个全局参数分别θ和w,其中演员网络参数为θ',评论家网络参数为w';
设置全局迭代次数T,全局最大迭代次数TMAX
单次线程的单次迭代中的时间序列最大长度tMAX,所述公共神经网络的输入为状态特征和动作,输出为行动策略;状态特征隶属于状态特征集S,动作隶属于动作集A,行动策略隶属于策略集π(a/s);其中a代表当前行动策略对应动作,s代表当前的状态;熵系数为c;衰变因子为γ;
步骤2:设置当前线程的单次迭代中的时间节点t,t的初始值为1;设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0;
步骤3:将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数,即θ'=θ,w'=w;
步骤4:初始化状态特征集S;
步骤5:基于部分设定规则以及智能体的当前状态特征st,根据策略集π(a/s),智能体做出当前策略的动作at
步骤6:计算当前时间节点执行完动作at后获得的回报值rt;更新时间节点t,即t自增1,更新智能体的状态特征为st+1
步骤7:若t>tMAX,则转向步骤8,否则返回执行步骤5;
步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(st,t)
步骤9:更新时间节点t+1的状态奖励值Q(st,t+1)=W·rt+γQ(st,t);
其中W为单步动作的回报值的权重系数,W取值为0-1之间;
更新当前线程中演员网络参数的梯度值为
dθ'+▽θ'logπθ'(st,at)(Q(st,t)-V(st,t))+c▽θ'H(π(st,θ'));
其中,▽θ'为梯度算子,即计算θ'的梯度值;H(π(st,θ'))为策略π(at/st)熵值;V(st,t)为在状态特征st、时间序列t时由评论家网络的价值函数计算得到的评论家价值;
更新当前线程中评论家网络参数的梯度值为
Figure FDA0003095009180000021
步骤10:更新公共神经网络的两个全局参数:θ减小αdθ',w减小βdw';其中α为演员网络参数步长;β为评论家网络参数步长;
步骤11:T自增1;如果T>TMAX,则公共神经网络训练完成,输出公共神经网络的两个全局参数参数θ,w,否则返回步骤3;
步骤12:公共神经网络训练完成后,形成策略生成模型,面对新的空战环境变化,将所述新的空战环境的状态特征和动作输入至所述策略生成模型,输出行动策略。
2.如权利要求1所述的行动策略自演进生成方法,其特征在于,所述特征状态集S的向量空间包括以下量化后的数据:环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。
3.如权利要求1所述的行动策略自演进生成方法,其特征在于,所述动作集包含智能体的基本行为动作。
4.如权利要求1所述的多智能体行动策略自演进生成方法,其特征在于,所述步骤8中,Q(st,t)的计算方法如下:
Figure FDA0003095009180000022
5.如权利要求1所述的多智能体行动策略自演进生成方法,其特征在于,所述单步动作的回报值的权重系数W的取值,将通过设定阈值将时间序列分为前后两段,当t处于前半段时W的取值大于t处于后半段时W的取值。
CN202110609397.4A 2021-06-01 2021-06-01 一种多智能体行动策略自演进生成方法 Active CN113255893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110609397.4A CN113255893B (zh) 2021-06-01 2021-06-01 一种多智能体行动策略自演进生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110609397.4A CN113255893B (zh) 2021-06-01 2021-06-01 一种多智能体行动策略自演进生成方法

Publications (2)

Publication Number Publication Date
CN113255893A true CN113255893A (zh) 2021-08-13
CN113255893B CN113255893B (zh) 2022-07-05

Family

ID=77185762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110609397.4A Active CN113255893B (zh) 2021-06-01 2021-06-01 一种多智能体行动策略自演进生成方法

Country Status (1)

Country Link
CN (1) CN113255893B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282640A (zh) * 2021-12-31 2022-04-05 北京瑞莱智慧科技有限公司 多样性策略的生成方法、装置、介质和计算设备
CN117928568A (zh) * 2024-03-22 2024-04-26 腾讯科技(深圳)有限公司 基于人工智能的导航方法、模型训练方法及装置
CN117928568B (zh) * 2024-03-22 2024-06-04 腾讯科技(深圳)有限公司 基于人工智能的导航方法、模型训练方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160112735A1 (en) * 2014-10-21 2016-04-21 Comcast Cable Communications, Llc Systems and methods for creating and managing user profiles
CN109190720A (zh) * 2018-07-28 2019-01-11 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN109670270A (zh) * 2019-01-11 2019-04-23 山东师范大学 基于多智能体深度强化学习的人群疏散仿真方法及系统
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN111555297A (zh) * 2020-05-21 2020-08-18 广西大学 一种具有三态能源单元的统一时间尺度电压控制方法
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法
US20210141943A1 (en) * 2019-11-07 2021-05-13 Micron Technology, Inc. Semiconductor device with secure access key and associated methods and systems
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160112735A1 (en) * 2014-10-21 2016-04-21 Comcast Cable Communications, Llc Systems and methods for creating and managing user profiles
CN109190720A (zh) * 2018-07-28 2019-01-11 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN109670270A (zh) * 2019-01-11 2019-04-23 山东师范大学 基于多智能体深度强化学习的人群疏散仿真方法及系统
US20210141943A1 (en) * 2019-11-07 2021-05-13 Micron Technology, Inc. Semiconductor device with secure access key and associated methods and systems
CN111555297A (zh) * 2020-05-21 2020-08-18 广西大学 一种具有三态能源单元的统一时间尺度电压控制方法
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TIANLE MAI.ETC: ""Multi-agent Actor-Critic Reinforcement Learning Based In-network Load Balance"", 《GLOBECOM 2020 - 2020 IEEE GLOBAL COMMUNICATIONS CONFERENCE 》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282640A (zh) * 2021-12-31 2022-04-05 北京瑞莱智慧科技有限公司 多样性策略的生成方法、装置、介质和计算设备
CN114282640B (zh) * 2021-12-31 2024-02-06 北京瑞莱智慧科技有限公司 多样性策略的生成方法、装置、介质和计算设备
CN117928568A (zh) * 2024-03-22 2024-04-26 腾讯科技(深圳)有限公司 基于人工智能的导航方法、模型训练方法及装置
CN117928568B (zh) * 2024-03-22 2024-06-04 腾讯科技(深圳)有限公司 基于人工智能的导航方法、模型训练方法及装置

Also Published As

Publication number Publication date
CN113255893B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN110929394B (zh) 基于超网络理论的联合作战体系建模方法以及存储介质
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN111240353B (zh) 基于遗传模糊树的无人机协同空战决策方法
CN114510078B (zh) 一种基于深度强化学习的无人机机动规避决策方法
CN109597839B (zh) 一种基于航电作战态势的数据挖掘方法
Han et al. $ H_\infty $ Model-free Reinforcement Learning with Robust Stability Guarantee
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN114661069A (zh) 一种群体智能系统的编队控制方法
CN110619131A (zh) 一种基于加权模糊Petri网的UUV智能体行为规划方法
CN113255893B (zh) 一种多智能体行动策略自演进生成方法
CN114444201A (zh) 基于贝叶斯网络的对地攻击无人机自主能力评估方法
CN116661503A (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
Niu et al. Three-dimensional UCAV path planning using a novel modified artificial ecosystem optimizer
US20220164636A1 (en) Constraint based inference and machine learning system
Shen Bionic communication network and binary pigeon-inspired optimization for multiagent cooperative task allocation
Chen et al. An improved spherical vector and truncated mean stabilization based bat algorithm for uav path planning
Zhang et al. Design of the fruit fly optimization algorithm based path planner for UAV in 3D environments
CN112396298A (zh) 一种无人直升机多机协同任务规划方法
CN116859989A (zh) 一种基于群体协同的无人机集群智能对抗策略生成方法
Kong et al. Multi-UAV simultaneous target assignment and path planning based on deep reinforcement learning in dynamic multiple obstacles environments
Zhu et al. Formation control of UAV–USV based on distributed event-triggered adaptive MPC with virtual trajectory restriction
CN115390583A (zh) 无人机集群鲁棒分布式固定时间二部包含控制方法
CN115097861A (zh) 一种基于cel-maddpg的多无人机围捕策略方法
Deng et al. Research on intelligent decision technology for Multi-UAVs prevention and control
Selma et al. Autonomous trajectory tracking of a quadrotor UAV using ANFIS controller based on Gaussian pigeon-inspired optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Yue

Inventor after: Zhuang Xing

Inventor after: Yin Hao

Inventor after: Liu Jintao

Inventor after: Li Kexu

Inventor before: Zhuang Xing

Inventor before: Wang Yue

Inventor before: Yin Hao

Inventor before: Liu Jintao

Inventor before: Li Kexu

GR01 Patent grant
GR01 Patent grant