CN108021754A - 一种无人机自主空战决策框架及方法 - Google Patents
一种无人机自主空战决策框架及方法 Download PDFInfo
- Publication number
- CN108021754A CN108021754A CN201711275066.1A CN201711275066A CN108021754A CN 108021754 A CN108021754 A CN 108021754A CN 201711275066 A CN201711275066 A CN 201711275066A CN 108021754 A CN108021754 A CN 108021754A
- Authority
- CN
- China
- Prior art keywords
- air combat
- decision
- depth
- module
- air
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种无人机自主空战决策框架及方法,属于计算机仿真领域。所述框架包括基于领域知识的空战决策模块、深度网络学习模块、强化学习模块和空战仿真环境。空战决策模块生成空战训练数据集输出给深度网络学习模块,学习获得深度网络和Q值拟合函数、动作选择函数,并输出给强化学习模块;空战仿真环境使用学习好的空战决策函数进行自我空战过程,并记录空战过程数据形成强化学习训练集;强化学习模块利用强化学习训练集对Q值拟合函数优化改进,获得性能更好的空战策略。本发明能对本质上复杂的Q函数进行更精确、更快速地拟合,提高了学习效果,最大程度避免了收敛到局部最优值,并且构造了一个空战决策优化的闭环过程,不需外部干预。
Description
技术领域
本发明属于计算机仿真领域,具体涉及一种无人机自主空战决策框架及方法。
背景技术
随着无人机在军事领域的大量应用,如何建立高性能的无人机自主决策方法框架,成为促进无人机进一步承担复杂任务部署、提高应用效率的关键。无人机自主空战决策方法根据自身的任务部署、威胁态势和载荷配置情况,决策自身的机动或战术行动,以实现以最小代价完成作战任务的目标。
基于领域知识的决策技术是实现自主空战决策的主要传统方式,具有易于构建的实用特点。但知识决策系统的主要问题是面对瞬息万变的任务环境难以不断获取新知识并持续提高决策质量。最近几年,机器学习技术的发展对传统的知识决策方法带来了新的机遇。首先,以深度网络为基础的大数据处理技术为知识的自动获取提供了实用路径。从大量数据中学习领域知识成为此类技术的特点。其次,强化技术被广泛用于优化已有的智能决策模型。强化学习通过行为主体与环境的交互获取不同状态下行动决策的反馈,从而使行为主体决策时倾向于选择使自己获益最大的行动。上述技术在汽车无人驾驶、游戏AI、机器人导航、自主规划等多个方面得到了应用。
发明内容
本发明的目的是充分利用机器学习、强化学习等不同方法的优点,为无人机自主决策提供一种更加快捷、通用的无人机自主空战决策框架及方法。
本发明提供的一种无人机自主空战决策框架,包括:基于领域知识的空战决策模块、深度网络学习模块、强化学习模块和空战仿真环境。
所述的空战决策模块用于生成空战训练数据集S输出给深度网络学习模块;所述的空战决策模块包含的子模块有空战态势输入模块、空战决策规则库和决策输出模块。
空战态势输入模块从空战仿真环境中获取当前作战情况数据,将所获取的数据进行设定的归一化处理,得到当前作战态势s,并输出到空战决策规则库。空战决策规则库中针对作战飞机事先建立一组机动动作,每个动作由唯一的序号进行索引。当空战决策规则库接收到当前作战态势s时,进行规则匹配,选择相匹配的机动动作,并将对应的索引序号输出给决策输出模块。决策输出模块将对应的索引序号a输出给空战仿真环境,在空战仿真环境根据a执行对应的机动动作,将所执行a后新的作战态势s′返回给空战决策模块。所述的空战训练数据集S={<s,a,s′>}。
深度网络学习模块包括深度网络输入层、深度网络隐藏层、深度网络输出层和动作选择函数。深度网络输入层将输入的空战训练数据集S进行归一化处理输出到深度网络隐藏层,深度网络输出层输出数据给动作选择函数。深度网络输入层的维度与当前作战态势的维度相同,深度网络输出层的维度与机动动作的个数相同。所述的深度网络学习模块基于空战训练数据集对深度网络进行训练,逐渐学习得到空战决策模块的决策策略,得到Q值拟合函数和动作选择函数π(s)。动作选择函数采用贪婪原则,计算为当前作战态势s选择不同机动动作a的Q值,选择拟合的Q值最大的机动动作序号a。深度网络学习模块将学习好的深度网络和Q值拟合函数动作选择函数π(s)输出给强化学习模块。
空战仿真环境使用深度网络学习模块完成学习的空战决策函数π(s)连续进行自我空战过程,并将空战过程数据记录,形成强化学习训练集X={<s,a,s′,r(s,a),Q(s,a)>},其中,r(s,a)是对s下选择动作a的即时回报,Q(s,a)是(s,a)组合的Q值。
强化学习模块利用空战仿真环境输出的强化学习训练集对Q值拟合函数进行优化改进。强化学习模块利用训练集中每条记录的r(s,a)更新Q值,将其与当前拟合函数的计算结果之差作为反馈,优化深度网络中的网络参数,获得性能更好的空战策略。
对应地,本发明提供了一种无人机自主空战决策方法,包括如下步骤:
步骤1,依据空战决策规则库在空战仿真环境进行空战过程仿真,记录当前作战态势s,选择的机动动作a,执行a后的新作战态势s′,并生成空战训练数据集S={<s,a,s′>};
步骤2,建立深度网络,利用空战训练数据集S进行训练,使深度网络的输入-输出关系与空战训练数据集S中的s→a对应关系趋近,训练过程中根据贝尔曼价值迭代方程计算(s,a)组合的Q值的拟合函数然后得到基于贪婪策略的动作决策函数π(s)。
步骤3,利用步骤2训练好的深度网络在空战仿真环境中进行空战仿真,记录仿真过程中产生的决策过程,并形成强化学习训练集X={<s,a,s′,r(s,a),Q(s,a)>};其中,r(s,a)是对s下选择动作a的即时回报,Q(s,a)是(s,a)组合的Q值。
步骤4,在强化学习训练集X中进行随机采样,利用采样集合每条记录的回报值r(s,a)更新Q值,将其与当前拟合函数的计算结果之差作为反馈,优化深度网络参数;
步骤5:重复步骤2~4,直到满足预设的空战性能指标时,停止,此时输出最后的深度网络以及拟合函数决策函数π(s)。
与现有技术相比,本发明的优点和积极效果在于:
1)本发明利用空战仿真及专家建立的空战决策规则库来获得大批量空战数据,解决了深度网络学习的初始数据来源问题,使学习优化过程不必从头开始;
2)本发明采用深度网络学习模块对价值函数Q进行拟合,具有更好的精确度。深度网络比传统三层神经网络的表达能力更强,能够对本质上复杂的Q函数进行更精确、更快速地拟合,提高了学习效果;
3)深度网络、强化学习模块和空战仿真环境构成了一个空战决策优化的闭环过程。除了初始时通过专家建立的空战决策规则库生成训练数据,在后续学习中可通过自我对战实现决策性能优化的自动过程,不需外部干预;
4)更新深度网络参数时,通过随机采样获取部分记录优化网络参数,避免了训练集X中的记录前后关联问题,从而最大程度避免了收敛到局部最优值。
附图说明
图1是本发明的无人机自主空战决策框架的结构示意图;
图2是本发明的基于领域知识的空战决策模块的结构示意图;
图3是本发明的深度网络学习模块的结构示意图。
图中:
1-基于领域知识的空战决策模块;2-深度网络学习模块;3-强化学习模块;4-空战仿真环境;
101-空战态势输入模块;102-空战决策规则库;103-决策输出模块;201-深度网络输入层;
202-深度网络隐藏层;203-深度网络输出层;204-动作选择函数。
具体实施方式
下面结合附图对本发明的技术方案进行具体说明。
本发明是一种基于领域知识、深度网络和强化学习的混合式无人机自主空战决策框架,整体如图1所示,该框架包括基于领域知识的空战决策模块1、深度网络学习模块2、强化学习模块3和空战仿真环境4。
基于领域知识的空战决策模块1是空战训练数据集的生产者。基于领域知识的空战决策模块1采用产生式规则作为决策主体,产生式规则来源于对空战领域专家的调研。基于领域知识的空战决策模块1以当前的作战态势为输入,输出要执行的机动动作,形成空战训练数据集,表示为S={<s,a,s′>}。<s,a,s′>为数据集中一条具体的决策记录,其中s表示当前作战态势,采用矢量表示,包含了一组作战态势描述数据,包括空战双方的相对位置、相对角度、相对速度以及各自的武器携带情况等。a为输出的机动动作索引序号。s′为执行动作a后新的空战态势。空战决策模块1将空战训练数据集S输出给深度网络学习模块2。
如图2所示,空战决策模块1包含的子模块有:空战态势输入模块101、空战决策规则库102和决策输出模块103。空战态势输入模块101从空战仿真环境4中获取当前作战情况数据,将所获取的数据进行设定的归一化处理,得到当前作战态势s,并输出到空战决策规则库102。空战决策规则库102中针对作战飞机事先建立一组机动动作,每个动作由唯一的序号进行索引。当空战决策规则库102接收到当前作战态势s时,进行规则匹配,选择相匹配的机动动作,并将对应的索引序号输出给决策输出模块103。决策输出模块103将对应的索引序号a输出给空战仿真环境4。一旦选中某个索引序号,则按照事先规定的过程完成对应的机动动作。空战仿真环境4将执行动作a后的作战态势s′返回给空战决策模块1。
深度网络学习模块2对空战训练数据进行归一化处理,输入到深度网络进行学习训练。如图3所示,深度网络学习模块2包括深度网络输入层201、深度网络隐藏层202、深度网络输出层203和动作选择函数204。深度网络输入层201的维度与当前作战态势矢量s的维度相同,深度网络输入层201将输入的空战训练数据集S进行归一化处理输出到深度网络隐藏层202。深度网络隐藏层202中设有3~5层隐藏层,深度网络隐藏层202输出数据给深度网络输出层203。深度网络输出层203的维度与机动动作的个数相同,将输出数据给动作选择函数204。动作选择函数204基于贪婪原则,选择最大的Q(s,a)值对应的机动动作序号a。模块2基于模块1生成的空战决策数据进行训练,逐渐学习得到模块1的决策策略,得到了Q值的拟合函数并基于贪婪策略得到动作决策函数 是求取使得值最大的机动动作序号a。
强化学习模块3利用空战仿真环境4对深度网络学习模块2输出的Q值拟合函数进行优化。空战仿真环境4使用完成学习的空战决策函数π(s)连续进行自我空战过程,并将空战过程数据记录,形成强化学习训练集X={<s,a,s′,r(s,a),Q(s,a)>}。X的每条记录空战都包含5个部分:
●s:当前作战态势矢量;
●a:根据当前态势s选择的机动动作序号;
●s′:执行机动动作a后更新的空战态势;
●r(s,a):对s下选择动作a的即时回报;
●Q(s,a):<s,a>组合的Q值。
对训练集X进行随机采样,每次只选取部分记录(称为采样集合)用于更新Q值。通过贝尔曼价值迭代方程,强化学习模块利用采样集合中记录的r(s,a)对Q(s,a)进行更新,并与深度网络学习模块2输出的求差,作为反馈信号修正深度网络模块2的参数,进而得到性能更好的空战策略。
空战仿真环境4用于提供作战飞机模型和威胁环境,生成空战数据并提供给其他模块。对空战态势输入模块1,空战仿真环境4模拟执行空战态势输入模块1输入的机动动作序号a,得到更新后的空战态势s′输出给空战态势输入模块1。对于深度网络学习模块2,空战仿真环境4提供给空战训练数据。对于强化学习模块3,空战仿真环境4利用深度网络学习模块2完成学习的空战决策函数π(s)连续进行自我空战过程,并记录空战过程数据,形成强化学习训练集X={<s,a,s′,r(s,a),Q(s,a)>},并输出给强化学习模块3。
相应地,本发明提供的无人机自主空战决策方法,实现步骤如下:
步骤1:依据空战决策规则库在空战仿真环境进行空战过程仿真,生成空战训练数据集S。
如上所述,用户使用基于领域知识的空战决策模块1、空战仿真环境4执行空战过程仿真,记录仿真过程中产生的决策过程,包括当前作战态势s、选择的机动动作a、执行a后的新作战态势s′,形成空战训练数据集S={<s,a,s’>}。
步骤2:建立深度网络,利用空战训练数据集S进行训练,使深度网络的输入-输出关系与空战训练数据集S中的s→a对应关系趋近,初步拟合空战状态的价值函数,获得初步空战策略。
本步骤中,使用深度网络学习模块2,用空战训练数据集S进行训练深度网络,使深度网络的输入-输出关系与空战训练数据集S中的s→a对应关系趋近,在训练过程中根据贝尔曼价值迭代方程计算空战决策(s,a)的Q值的拟合函数进而得到的动作决策函数为
步骤3:利用步骤2训练好的深度网络在空战仿真环境中进行空战仿真,记录仿真过程中产生的决策过程,并形成强化学习训练集X={<s,a,s′,r(s,a),Q(s,a)>}。
本步骤使用强化学习模块3,利用完成学习的深度网络在空战仿真环境4中进行空战仿真。记录仿真过程中产生的决策过程,形成强化学习训练集X={<s,a,s′,r(s,a),Q(s,a)>。
步骤4:对强化学习训练集X采样,改进深度网络学习模块2的网络参数,从而改进空战决策的Q值拟合函数达到改进空战决策函数π(s)的目的。
步骤5:返回步骤3,直到两次改进之间的差别小于预设的阈值,停止迭代,输出最后得到的深度网络参数、决策过程的Q值拟合函数以及动作决策函数π(s)。
Claims (5)
1.一种无人机自主空战决策框架,其特征在于,包括:基于领域知识的空战决策模块、深度网络学习模块、强化学习模块和空战仿真环境;
所述的空战决策模块用于生成空战训练数据集S输出给深度网络学习模块;所述的空战决策模块包含的子模块有空战态势输入模块、空战决策规则库和决策输出模块;
空战态势输入模块从空战仿真环境中获取当前作战情况数据,将所获取的数据进行设定的归一化处理,得到当前作战态势s,并输出到空战决策规则库;空战决策规则库中针对作战飞机事先建立一组机动动作,每个动作由唯一的序号进行索引;当空战决策规则库接收到当前作战态势s时,进行规则匹配,选择相匹配的机动动作,并将对应的索引序号输出给决策输出模块;决策输出模块将对应的索引序号a输出给空战仿真环境,在空战仿真环境根据a执行对应的机动动作,将所执行a后新的作战态势s′返回给空战决策模块;
深度网络学习模块包括深度网络输入层、深度网络隐藏层、深度网络输出层和动作选择函数;深度网络输入层将输入的空战训练数据集S进行归一化处理输出到深度网络隐藏层,深度网络输出层输出数据给动作选择函数;深度网络输入层的维度与当前作战态势的维度相同,深度网络输出层的维度与机动动作的个数相同;所述的深度网络学习模块基于空战训练数据集对深度网络进行训练,逐渐学习得到空战决策模块的决策策略,得到Q值拟合函数和动作选择函数π(s);深度网络学习模块将学习好的深度网络和Q值拟合函数动作选择函数π(s)输出给强化学习模块;
空战仿真环境使用深度网络学习模块完成学习的空战决策函数π(s)连续进行自我空战过程,并将空战过程数据记录,形成强化学习训练集X={<s,a,s′,r(s,a),Q(s,a)>},其中,r(s,a)是对s下选择动作a的即时回报,Q(s,a)是(s,a)组合的Q值;
强化学习模块利用空战仿真环境输出的强化学习训练集对Q值拟合函数进行优化改进;强化学习模块利用训练集中每条记录的r(s,a)更新Q值,将其与当前拟合函数的计算结果之差作为反馈,优化深度网络中的网络参数,获得性能更好的空战策略。
2.如权利要求1所述的一种无人机自主空战决策框架,其特征在于,所述的空战训练数据集S={<s,a,s′>}。
3.如权利要求1所述的一种无人机自主空战决策框架,其特征在于,所述的动作选择函数采用贪婪原则,计算为当前作战态势s选择不同机动动作a的Q值,选择拟合的Q值最大的机动动作序号a。
4.如权利要求1所述的一种无人机自主空战决策框架,其特征在于,所述的强化学习模块在强化学习训练集X中进行随机采样,利用采样集合每条记录的r(s,a)更新Q值。
5.应用如权利要求1所述的一种无人机自主空战决策框架的方法,其特征在于,操作步骤如下:
步骤一,依据空战决策规则库在空战仿真环境进行空战过程仿真,记录当前作战态势s,选择的机动动作a,执行a后的新作战态势s′,并生成空战训练数据集S={<s,a,s′>};
步骤二,建立深度网络,利用空战训练数据集S进行训练,使深度网络的输入-输出关系与空战训练数据集S中的s→a对应关系趋近,训练过程中根据贝尔曼价值迭代方程计算(s,a)组合的Q值的拟合函数然后得到基于贪婪策略的动作决策函数π(s);
步骤三,利用步骤2训练好的深度网络在空战仿真环境中进行空战仿真,记录仿真过程中产生的决策过程,并形成强化学习训练集X={<s,a,s′,r(s,a),Q(s,a)>};其中,r(s,a)是对s下选择动作a的即时回报,Q(s,a)是(s,a)组合的Q值;
步骤四,在强化学习训练集X中进行随机采样,利用采样集合每条记录的回报值r(s,a)更新Q值,将其与当前拟合函数的计算结果之差作为反馈,优化深度网络参数;
步骤五:重复步骤2~4,直到满足预设的空战性能指标时,停止,此时输出最后的深度网络以及拟合函数决策函数π(s)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711275066.1A CN108021754A (zh) | 2017-12-06 | 2017-12-06 | 一种无人机自主空战决策框架及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711275066.1A CN108021754A (zh) | 2017-12-06 | 2017-12-06 | 一种无人机自主空战决策框架及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108021754A true CN108021754A (zh) | 2018-05-11 |
Family
ID=62078611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711275066.1A Pending CN108021754A (zh) | 2017-12-06 | 2017-12-06 | 一种无人机自主空战决策框架及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108021754A (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108828948A (zh) * | 2018-07-15 | 2018-11-16 | 大国创新智能科技(东莞)有限公司 | 基于深度学习的人工智能作战方法和机器人系统 |
CN108958030A (zh) * | 2018-07-15 | 2018-12-07 | 大国创新智能科技(东莞)有限公司 | 基于知识库的人工智能作战方法和机器人系统 |
CN108985463A (zh) * | 2018-07-15 | 2018-12-11 | 大国创新智能科技(东莞)有限公司 | 基于知识库和深度学习的人工智能作战方法和机器人系统 |
CN109063845A (zh) * | 2018-07-15 | 2018-12-21 | 大国创新智能科技(东莞)有限公司 | 基于生成样本的深度学习方法和机器人系统 |
CN109214450A (zh) * | 2018-08-28 | 2019-01-15 | 北京航空航天大学 | 一种基于贝叶斯程序学习算法的无人系统资源分配方法 |
CN109255442A (zh) * | 2018-09-27 | 2019-01-22 | 北京百度网讯科技有限公司 | 基于人工智能的控制决策模块的训练方法、设备及可读介质 |
CN109636699A (zh) * | 2018-11-06 | 2019-04-16 | 中国电子科技集团公司第五十二研究所 | 一种基于深度强化学习的无监督智能作战推演系统 |
CN110147883A (zh) * | 2019-05-28 | 2019-08-20 | 航天科工系统仿真科技(北京)有限公司 | 用于作战仿真的模型的训练方法、装置、设备和存储介质 |
CN110631596A (zh) * | 2019-04-23 | 2019-12-31 | 太原理工大学 | 一种基于迁移学习的装备车辆路径规划方法 |
CN110806758A (zh) * | 2019-11-12 | 2020-02-18 | 中国人民解放军国防科技大学 | 一种基于情景模糊认知图的无人机群自主等级自适应调整方法 |
CN111013148A (zh) * | 2019-11-20 | 2020-04-17 | 清华大学 | 空中格斗游戏的博弈决策算法性能的验证方法及系统 |
CN111353606A (zh) * | 2020-02-29 | 2020-06-30 | 中国电子科技集团公司第五十二研究所 | 一种基于模糊决策树的深度强化学习空战博弈解释方法和系统 |
CN111461294A (zh) * | 2020-03-16 | 2020-07-28 | 中国人民解放军空军工程大学 | 面向动态博弈的智能飞行器类脑认知学习方法 |
CN111488992A (zh) * | 2020-03-03 | 2020-08-04 | 中国电子科技集团公司第五十二研究所 | 一种基于人工智能的模拟器对手加强装置 |
CN111523177A (zh) * | 2020-04-17 | 2020-08-11 | 西安科为实业发展有限责任公司 | 一种基于智能学习的空战对抗自主决策方法及系统 |
CN112149715A (zh) * | 2020-08-31 | 2020-12-29 | 南京航空航天大学 | 一种基于深度学习的无人机空战威胁评估方法 |
CN112364500A (zh) * | 2020-11-09 | 2021-02-12 | 中国科学院自动化研究所 | 面向强化学习训练与评估的多并发实时对抗系统 |
CN112507622A (zh) * | 2020-12-16 | 2021-03-16 | 中国人民解放军国防科技大学 | 一种基于强化学习的反无人机任务分配方法 |
CN112560332A (zh) * | 2020-11-30 | 2021-03-26 | 北京航空航天大学 | 一种基于全局态势信息的航空兵体系智能行为建模方法 |
CN112699603A (zh) * | 2020-12-29 | 2021-04-23 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种面向机器学习的超快速空战仿真方法及系统 |
CN112784445A (zh) * | 2021-03-11 | 2021-05-11 | 四川大学 | 一种飞行控制智能体的并行分布式计算系统及方法 |
CN112906888A (zh) * | 2021-03-02 | 2021-06-04 | 中国人民解放军军事科学院国防科技创新研究院 | 一种任务执行方法及装置、电子设备和存储介质 |
CN113093803A (zh) * | 2021-04-03 | 2021-07-09 | 西北工业大学 | 一种基于e-sac算法的无人机空战运动控制方法 |
CN113093802A (zh) * | 2021-04-03 | 2021-07-09 | 西北工业大学 | 一种基于深度强化学习的无人机机动决策方法 |
CN113159266A (zh) * | 2021-05-21 | 2021-07-23 | 大连大学 | 基于麻雀搜索神经网络的空战机动决策方法 |
CN113505538A (zh) * | 2021-07-28 | 2021-10-15 | 哈尔滨工业大学 | 一种基于计算机生成兵力的无人机自主作战系统 |
CN114415737A (zh) * | 2022-04-01 | 2022-04-29 | 天津七一二通信广播股份有限公司 | 一种无人机强化学习训练系统的实现方法 |
CN115017677A (zh) * | 2022-04-27 | 2022-09-06 | 中国人民解放军军事科学院战略评估咨询中心 | 一种面向推演仿真的行动策略预判方法及系统 |
CN116909155A (zh) * | 2023-09-14 | 2023-10-20 | 中国人民解放军国防科技大学 | 基于持续强化学习的无人机自主机动决策方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485980A (zh) * | 2016-12-30 | 2017-03-08 | 陕西凯捷科技发展有限公司 | 一种飞机发动机地面试车练习系统及其控制方法 |
CN106647807A (zh) * | 2016-12-29 | 2017-05-10 | 上海资誉电子科技有限公司 | 无人机的应对策略生成方法和系统 |
CN106781809A (zh) * | 2017-01-22 | 2017-05-31 | 北京航空航天大学 | 一种针对直升机应急救援任务的训练方法和系统 |
-
2017
- 2017-12-06 CN CN201711275066.1A patent/CN108021754A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106647807A (zh) * | 2016-12-29 | 2017-05-10 | 上海资誉电子科技有限公司 | 无人机的应对策略生成方法和系统 |
CN106485980A (zh) * | 2016-12-30 | 2017-03-08 | 陕西凯捷科技发展有限公司 | 一种飞机发动机地面试车练习系统及其控制方法 |
CN106781809A (zh) * | 2017-01-22 | 2017-05-31 | 北京航空航天大学 | 一种针对直升机应急救援任务的训练方法和系统 |
Non-Patent Citations (2)
Title |
---|
吕彭民: "《研究生科技论坛 长安大学研究生学术年会论文集 2006年卷 下》", 31 December 2006, 西安:陕西科学技术出版社 * |
徐安 等: ""基于RBF神经网络的Q学习飞行器隐蔽接敌策略"", 《系统工程与电子技术》 * |
Cited By (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108958030B (zh) * | 2018-07-15 | 2021-05-28 | 大国创新智能科技(东莞)有限公司 | 基于知识库的人工智能作战方法和机器人系统 |
CN108958030A (zh) * | 2018-07-15 | 2018-12-07 | 大国创新智能科技(东莞)有限公司 | 基于知识库的人工智能作战方法和机器人系统 |
CN108985463A (zh) * | 2018-07-15 | 2018-12-11 | 大国创新智能科技(东莞)有限公司 | 基于知识库和深度学习的人工智能作战方法和机器人系统 |
CN109063845A (zh) * | 2018-07-15 | 2018-12-21 | 大国创新智能科技(东莞)有限公司 | 基于生成样本的深度学习方法和机器人系统 |
CN109063845B (zh) * | 2018-07-15 | 2021-12-07 | 大国创新智能科技(东莞)有限公司 | 基于生成样本的深度学习方法和机器人系统 |
CN108985463B (zh) * | 2018-07-15 | 2021-10-26 | 大国创新智能科技(东莞)有限公司 | 基于知识库和深度学习的人工智能作战方法和作战系统 |
CN108828948B (zh) * | 2018-07-15 | 2021-06-18 | 大国创新智能科技(东莞)有限公司 | 基于深度学习的人工智能作战方法和机器人系统 |
CN108828948A (zh) * | 2018-07-15 | 2018-11-16 | 大国创新智能科技(东莞)有限公司 | 基于深度学习的人工智能作战方法和机器人系统 |
CN109214450A (zh) * | 2018-08-28 | 2019-01-15 | 北京航空航天大学 | 一种基于贝叶斯程序学习算法的无人系统资源分配方法 |
CN109214450B (zh) * | 2018-08-28 | 2022-05-10 | 北京航空航天大学 | 一种基于贝叶斯程序学习算法的无人系统资源分配方法 |
CN109255442A (zh) * | 2018-09-27 | 2019-01-22 | 北京百度网讯科技有限公司 | 基于人工智能的控制决策模块的训练方法、设备及可读介质 |
CN109636699A (zh) * | 2018-11-06 | 2019-04-16 | 中国电子科技集团公司第五十二研究所 | 一种基于深度强化学习的无监督智能作战推演系统 |
CN110631596B (zh) * | 2019-04-23 | 2020-06-02 | 太原理工大学 | 一种基于迁移学习的装备车辆路径规划方法 |
CN110631596A (zh) * | 2019-04-23 | 2019-12-31 | 太原理工大学 | 一种基于迁移学习的装备车辆路径规划方法 |
CN110147883B (zh) * | 2019-05-28 | 2022-06-03 | 航天科工系统仿真科技(北京)有限公司 | 用于作战仿真的模型的训练方法、装置、设备和存储介质 |
CN110147883A (zh) * | 2019-05-28 | 2019-08-20 | 航天科工系统仿真科技(北京)有限公司 | 用于作战仿真的模型的训练方法、装置、设备和存储介质 |
CN110806758A (zh) * | 2019-11-12 | 2020-02-18 | 中国人民解放军国防科技大学 | 一种基于情景模糊认知图的无人机群自主等级自适应调整方法 |
CN110806758B (zh) * | 2019-11-12 | 2022-12-30 | 中国人民解放军国防科技大学 | 一种基于情景模糊认知图的无人机群自主等级自适应调整方法 |
CN111013148A (zh) * | 2019-11-20 | 2020-04-17 | 清华大学 | 空中格斗游戏的博弈决策算法性能的验证方法及系统 |
CN111353606B (zh) * | 2020-02-29 | 2022-05-03 | 中国电子科技集团公司第五十二研究所 | 一种基于模糊决策树的深度强化学习空战博弈方法和系统 |
CN111353606A (zh) * | 2020-02-29 | 2020-06-30 | 中国电子科技集团公司第五十二研究所 | 一种基于模糊决策树的深度强化学习空战博弈解释方法和系统 |
CN111488992A (zh) * | 2020-03-03 | 2020-08-04 | 中国电子科技集团公司第五十二研究所 | 一种基于人工智能的模拟器对手加强装置 |
CN111461294B (zh) * | 2020-03-16 | 2022-10-11 | 中国人民解放军空军工程大学 | 面向动态博弈的智能飞行器类脑认知学习方法 |
CN111461294A (zh) * | 2020-03-16 | 2020-07-28 | 中国人民解放军空军工程大学 | 面向动态博弈的智能飞行器类脑认知学习方法 |
CN111523177B (zh) * | 2020-04-17 | 2024-04-09 | 西安科为实业发展有限责任公司 | 一种基于智能学习的空战对抗自主决策方法及系统 |
CN111523177A (zh) * | 2020-04-17 | 2020-08-11 | 西安科为实业发展有限责任公司 | 一种基于智能学习的空战对抗自主决策方法及系统 |
CN112149715B (zh) * | 2020-08-31 | 2024-04-02 | 南京航空航天大学 | 一种基于深度学习的无人机空战威胁评估方法 |
CN112149715A (zh) * | 2020-08-31 | 2020-12-29 | 南京航空航天大学 | 一种基于深度学习的无人机空战威胁评估方法 |
CN112364500B (zh) * | 2020-11-09 | 2021-07-20 | 中国科学院自动化研究所 | 面向强化学习训练与评估的多并发实时对抗系统 |
CN112364500A (zh) * | 2020-11-09 | 2021-02-12 | 中国科学院自动化研究所 | 面向强化学习训练与评估的多并发实时对抗系统 |
CN112560332A (zh) * | 2020-11-30 | 2021-03-26 | 北京航空航天大学 | 一种基于全局态势信息的航空兵体系智能行为建模方法 |
CN112507622A (zh) * | 2020-12-16 | 2021-03-16 | 中国人民解放军国防科技大学 | 一种基于强化学习的反无人机任务分配方法 |
CN112507622B (zh) * | 2020-12-16 | 2022-06-21 | 中国人民解放军国防科技大学 | 一种基于强化学习的反无人机任务分配方法 |
CN112699603A (zh) * | 2020-12-29 | 2021-04-23 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种面向机器学习的超快速空战仿真方法及系统 |
CN112906888A (zh) * | 2021-03-02 | 2021-06-04 | 中国人民解放军军事科学院国防科技创新研究院 | 一种任务执行方法及装置、电子设备和存储介质 |
CN112784445A (zh) * | 2021-03-11 | 2021-05-11 | 四川大学 | 一种飞行控制智能体的并行分布式计算系统及方法 |
CN113093802B (zh) * | 2021-04-03 | 2022-08-02 | 西北工业大学 | 一种基于深度强化学习的无人机机动决策方法 |
CN113093802A (zh) * | 2021-04-03 | 2021-07-09 | 西北工业大学 | 一种基于深度强化学习的无人机机动决策方法 |
CN113093803A (zh) * | 2021-04-03 | 2021-07-09 | 西北工业大学 | 一种基于e-sac算法的无人机空战运动控制方法 |
CN113159266A (zh) * | 2021-05-21 | 2021-07-23 | 大连大学 | 基于麻雀搜索神经网络的空战机动决策方法 |
CN113159266B (zh) * | 2021-05-21 | 2023-07-21 | 大连大学 | 基于麻雀搜索神经网络的空战机动决策方法 |
CN113505538A (zh) * | 2021-07-28 | 2021-10-15 | 哈尔滨工业大学 | 一种基于计算机生成兵力的无人机自主作战系统 |
CN114415737A (zh) * | 2022-04-01 | 2022-04-29 | 天津七一二通信广播股份有限公司 | 一种无人机强化学习训练系统的实现方法 |
CN115017677A (zh) * | 2022-04-27 | 2022-09-06 | 中国人民解放军军事科学院战略评估咨询中心 | 一种面向推演仿真的行动策略预判方法及系统 |
CN116909155A (zh) * | 2023-09-14 | 2023-10-20 | 中国人民解放军国防科技大学 | 基于持续强化学习的无人机自主机动决策方法及装置 |
CN116909155B (zh) * | 2023-09-14 | 2023-11-24 | 中国人民解放军国防科技大学 | 基于持续强化学习的无人机自主机动决策方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108021754A (zh) | 一种无人机自主空战决策框架及方法 | |
CN108919641B (zh) | 一种基于改进樽海鞘算法的无人机航迹规划方法 | |
CN112329348B (zh) | 一种面向非完全信息条件下军事对抗博弈的智能决策方法 | |
CN109631900B (zh) | 一种无人机三维航迹多目标粒子群全局规划方法 | |
CN110443364A (zh) | 一种深度神经网络多任务超参数优化方法及装置 | |
CN110488861A (zh) | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 | |
CN112131786B (zh) | 基于多智能体强化学习的目标探测与分配方法及装置 | |
CN103279793B (zh) | 一种确定环境下的无人飞行器编队任务分配方法 | |
CN113255936B (zh) | 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置 | |
CN113741508B (zh) | 基于改进狼群算法的无人机任务分配方法 | |
CN108803609B (zh) | 基于约束在线规划的部分可观察自动驾驶决策方法 | |
CN112162564A (zh) | 基于模仿学习和强化学习算法的无人机飞行控制方法 | |
CN113298260B (zh) | 一种基于深度强化学习的对抗仿真推演方法 | |
CN105279555A (zh) | 一种基于进化算法的自适应学习神经网络实现方法 | |
CN105978732A (zh) | 一种基于粒子群优化最简回声状态网络参数的方法和系统 | |
CN106647272A (zh) | 基于k均值改进卷积神经网络的机器人路径规划方法 | |
CN105427241A (zh) | 一种大视场显示设备的畸变校正方法 | |
CN109492516A (zh) | 一种基于dgru神经网络的uuv集群行为识别方法 | |
CN113341696A (zh) | 一种运载火箭姿态控制参数智能整定方法 | |
CN116933948A (zh) | 基于改进海鸥算法与反向传播神经网络的预测方法和系统 | |
CN104615679A (zh) | 一种基于人工免疫网络的多智能体数据挖掘方法 | |
CN116663416A (zh) | 一种基于行为树的cgf决策行为仿真方法 | |
CN110378464A (zh) | 人工智能平台的配置参数的管理方法和装置 | |
CN110450164A (zh) | 机器人控制方法、装置、机器人及存储介质 | |
CN116402142A (zh) | 一种基于决策路径图的强化学习策略可解释方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180511 |
|
RJ01 | Rejection of invention patent application after publication |