CN113705777A - 一种无人机自主寻径模型训练方法及装置 - Google Patents
一种无人机自主寻径模型训练方法及装置 Download PDFInfo
- Publication number
- CN113705777A CN113705777A CN202110904669.3A CN202110904669A CN113705777A CN 113705777 A CN113705777 A CN 113705777A CN 202110904669 A CN202110904669 A CN 202110904669A CN 113705777 A CN113705777 A CN 113705777A
- Authority
- CN
- China
- Prior art keywords
- information
- aerial vehicle
- unmanned aerial
- training
- vehicle autonomous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000005284 excitation Effects 0.000 claims abstract description 58
- 238000004590 computer program Methods 0.000 claims description 21
- 239000000126 substance Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 5
- 238000004088 simulation Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 230000002787 reinforcement Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/12—Target-seeking control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开一种无人机自主寻径模型训练方法及装置。所述无人机自主寻径模型训练方法包括:获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;获取无人机自主寻径模型;根据所述训练样本数据对所述无人机自主寻径模型进行训练。本申请的无人机自主寻径模型训练方法通过训练样本数据中的底层机动决策信息、综合激励信息以及云机动决策信息对无人机自主寻径模型进行训练,能够较好地解决激励信息稀疏场景下的路径规划任务,并且在训练过程中可以对仿真环境进行充分的探索,提高无人机任务规划中路径规划策略的鲁棒性。
Description
技术领域
本申请涉及无人机寻径技术领域,具体涉及一种无人机自主寻径模型训练方法以及无人机自主寻径模型训练装置。
背景技术
随着无人机在军事领域的广泛应用,越来越的学者开始专注于与之相关的路径规划的研究。加之我军机械化、信息化、智能化将长期并存并行发展,国防和军队建设整体水平取决于“三化”融合发展水平,人工智能的兴起将不断推动我国航空技术的发展。无人机根据任务需求规划出满足约束条件的飞行路径,是无人机任务规划的核心部分,基于人工智能的无人机自主寻径在无人机执行作战任务的过程中起着至关重要的作用。
在人工智能研究领域,基于强化学习的路径规划是无人机自主寻径的基本方法。传统的基于强化学习的路径规划方法通过无人机与仿真环境的交互,不断更新状态信息并获取环境给予的激励信息,迭代优化路径规划策略。这种方法对环境给予的激励信息依赖很大,但在无人机寻径的场景中,通常情况下该种激励信息较为稀疏,或者需要人为设计,为策略优化带来一定的难度。另外,智能体对环境探索性是强化学习领域一个较为重要的研究点,只有当智能体对环境的探索足够充分,才可以训练出较为鲁棒、灵活的策略,这一点在无人机寻径的任务中也同样重要,而传统方法带来的探索性并不理想。
因此,希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。
发明内容
本发明的目的在于提供一种无人机自主寻径模型训练方法来克服或至少减轻现有技术的至少一个上述缺陷。
本发明的一个方面,提供一种无人机自主寻径模型训练方法,所述无人机自主寻径模型训练方法包括:
获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;
获取无人机自主寻径模型;
根据所述训练样本数据对所述无人机自主寻径模型进行训练。
可选地,所述云机动决策信息采用如下方式获取:
获取无人机综合状态信息;
获取高层决策网络;
将所述无人机综合装填信息输入至所述高层决策网络,从而获取云机动决策信息。
可选地,所述底层机动决策信息采用如下方法获取:
获取无人机自身状态信息以及所述云机动决策信息;
获取底层决策网络;
将所述无人机自身状态信息以及所述云机动决策信息输入至底层决策网络从而获取底层机动决策信息。
可选地,所述综合激励信息采用如下方法获取:
获取外部激励信息;
获取基于互信息理论计算的内部激励信息;
将所述外部激励信息以及所述内部激励信息进行融合从而获取综合激励信息。
可选地,所述将所述外部激励信息以及所述内部激励信息进行融合从而获取综合激励信息采用如下公式:
r=ro+αri;
ri=H(z)-H(z|s);其中,
外部激励信息为ro、内部激励信息为ri、α是权重超参;r为综合激励信息。
可选地,所述内部激励信息采用如下公式获取:
ri=H(z)-H(z|s);其中,
最大化元机动分布的散度为H(z)、最小化条件熵为H(z|s);内部激励信息为ri。
本申请还提供了一种无人机自主寻径模型训练装置,所述无人机自主寻径模型训练装置包括:
训练样本数据获取模块,所述训练样本数据获取模块用于获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;
模型获取模块,所述模型获取模块用于获取无人机自主寻径模型;
训练模块,所述训练模块用于根据所述训练样本数据对所述无人机自主寻径模型进行训练。
本申请还提供了一种电子设备,所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的无人机自主寻径模型训练方法。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的无人机自主寻径模型训练方法。
有益效果
本申请的无人机自主寻径模型训练方法通过训练样本数据中的底层机动决策信息、综合激励信息以及云机动决策信息对无人机自主寻径模型进行训练,能够较好地解决激励信息稀疏场景下的路径规划任务,并且在训练过程中可以对仿真环境进行充分的探索,提高无人机任务规划中路径规划策略的鲁棒性,进一步推动无人机在实际应用中的智能化发展。
附图说明
图1为本申请一实施例的无人机自主寻径模型训练方法的流程示意图。
图2是能够实现根据本申请一个实施例提供的电子设备的示例性结构图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。
需要说明的是,在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
图1为本申请一实施例的无人机自主寻径模型训练方法的流程示意图。
如图1所示的无人机自主寻径模型训练方法包括:
步骤1:获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;
步骤2:获取无人机自主寻径模型;
步骤3:根据训练样本数据对所述无人机自主寻径模型进行训练。
本申请的无人机自主寻径模型训练方法通过训练样本数据中的底层机动决策信息、综合激励信息以及云机动决策信息对无人机自主寻径模型进行训练,能够较好地解决激励信息稀疏场景下的路径规划任务,并且在训练过程中可以对仿真环境进行充分的探索,提高无人机任务规划中路径规划策略的鲁棒性,进一步推动无人机在实际应用中的智能化发展。
在本实施例中,云机动决策信息采用如下方式获取:
获取无人机综合状态信息;
获取高层决策网络;
将无人机综合装填信息输入至所述高层决策网络,从而获取云机动决策信息。
在本实施例中,底层机动决策信息采用如下方法获取:
获取无人机自身状态信息以及云机动决策信息;
获取底层决策网络;
将无人机自身状态信息以及云机动决策信息输入至底层决策网络从而获取底层机动决策信息。
在本实施例中,底层决策网络输入为无人机自身状态信息和高层元机动给予的元机动,输出为底层机动决策分布。从底层机动决策分布中选取机动动作,并与环境进行交互。
在本实施例中,综合激励信息采用如下方法获取:
获取外部激励信息;
获取基于互信息理论计算的内部激励信息;
将外部激励信息以及内部激励信息进行融合从而获取综合激励信息。
在本实施例中,将外部激励信息以及内部激励信息进行融合从而获取综合激励信息采用如下公式:
r=ro+αri;
ri=H(z)-H(z|s);其中,
外部激励信息为ro、内部激励信息为ri、α是权重超参;r为综合激励信息。
在本实施例中,内部激励信息采用如下公式获取:
ri=H(z)-H(z|s);其中,
最大化元机动分布的散度为H(z)、最小化条件熵为H(z|s);内部激励信息为ri。
具体而言,在训练阶段,最大化综合激励,意味着最小化H(z|s)和最大化H(z)。可解释为,最大化元机动分布的散度H(z),是为了增加元机动的多样性,促使无人机尽最大可能对环境进行探索。而最小化条件熵H(z|s)是为了增加无人机对环境的可控性,可根据状态信息推测无人机采取的机动,也就是说保证了不同元机动所采取的底层机动尽可能不同,进一步增加了无人机对环境的探索。
在本实施例中,每个训练样本数据通过无人机的每个决策点获取,在无人机的每一个决策点,可采集相应的样本信息,具体包括当面状态信息s,底层机动决策a,下一时刻状态信息s`,综合激励信息r,云机动决策z。将每条样本定义为{s,a,s`,r,z},并将其作为训练样本放入经验池中。
在本实施例中,根据训练样本数据对无人机自主寻径模型进行训练采用如下方法:
无人机自主巡径过程依赖带有参数θ的无人机自主寻径模型Π,在训练阶段,通过A2C强化学习算法,不断更新更新无人机自主寻径模型Π的参数θ,以获取最优的自主巡径策略。具体步骤如下:
更新策略模型
首先根据样本{s,a,s`,r,z},计算Advantage:
adv(a|s,z)=q(a,s`,z)-v(s`,z)=r+γv(s`,z)-v(s,z)
然后计算策略模型损失函数梯度
最后采用SGD(随机梯度下降)算法对策略网络参数θ进行更新
更新值函数
首先根据值函数计算TD-error:
TD-error=r+r+γv(s`,z)-v(s,z)
本申请的无人机自主寻径模型训练方法通过端到端的方式同时训练高层决策网络和底层决策网络,融合环境给予的外部激励和基于互信息的内在激励,优化无人机寻径策略。
在样本采集阶段,高层决策网络(即高层机动决策模型)根据当前环境状态信息和智能体状态信息,给出元机动决策分布。并从该分布中随机抽取一种元机动,作为当前回合的高层决策,并在整个回合中固定不变。底层决策网络(即底层决策模型)根据智能体状态信息和当面回合的元动作,给出底层机动决策。智能体采取该决策与环境交互,获取环境给予的外部激励信息,同时基于互信息理论计算内部激励信息,将两者融合作为整体的决策的激励。最后搜集该决策点的要素信息,加入导经验池中,为训练阶段提供充足的样本数据。
在模型训练阶段,基于强化学习中的基本算法—A2C算法对决策网络和值网络进行迭代更新。其中,决策网络指机动决策模型中的神经网络,本发明采取端到端的训练方法,其中高层决策模型的神经网络和底层决策模型的神经网络同时进行迭代更新;值网络为策略网络的更新提供某种依据,其输入为当前时刻的状态信息,输出为当前时刻的状态价值,为策略网络的损失计算提供理论基础。
本申请还提供了一种无人机自主寻径模型训练装置,所述无人机自主寻径模型训练装置包括训练样本数据获取模块、模型获取模块以及训练模块,训练样本数据获取模块用于获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;模型获取模块用于获取无人机自主寻径模型;训练模块用于根据训练样本数据对无人机自主寻径模型进行训练。
需要说明的是,前述对方法实施例的解释说明也适用于本实施例的装置,此处不再赘述。
本申请还提供了一种电子设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的无人机自主寻径模型训练方法。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的无人机自主寻径模型训练方法。
图2是能够实现根据本申请一个实施例提供的电子设备的示例性结构图。
如图2所示,电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中,输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接,进而与电子设备的其他组件连接。具体地,输入设备504接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到电子设备的外部供用户使用。
也就是说,图2所示的电子设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及一个或多个处理器,该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的无人机自主寻径模型训练方法。
在一个实施例中,图2所示的电子设备可以被实现为包括:存储器504,被配置为存储可执行程序代码;一个或多个处理器503,被配置为运行存储器504中存储的可执行程序代码,以执行上述实施例中的无人机自主寻径模型训练方法。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动,媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称,而不标识任何特定的顺序。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地标识的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本实施例中所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在本实施例中,装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上,但其实并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此,本申请的保护范围应当以本申请权利要求所界定的范围为准。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (9)
1.一种无人机自主寻径模型训练方法,其特征在于,所述无人机自主寻径模型训练方法包括:
获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;
获取无人机自主寻径模型;
根据所述训练样本数据对所述无人机自主寻径模型进行训练。
2.如权利要求1所述的无人机自主寻径模型训练方法,其特征在于,所述云机动决策信息采用如下方式获取:
获取无人机综合状态信息;
获取高层决策网络;
将所述无人机综合装填信息输入至所述高层决策网络,从而获取云机动决策信息。
3.如权利要求2所述的无人机自主寻径模型训练方法,其特征在于,所述底层机动决策信息采用如下方法获取:
获取无人机自身状态信息以及所述云机动决策信息;
获取底层决策网络;
将所述无人机自身状态信息以及所述云机动决策信息输入至底层决策网络从而获取底层机动决策信息。
4.如权利要求3所述的无人机自主寻径模型训练方法,其特征在于,所述综合激励信息采用如下方法获取:
获取外部激励信息;
获取基于互信息理论计算的内部激励信息;
将所述外部激励信息以及所述内部激励信息进行融合从而获取综合激励信息。
5.如权利要求4所述的无人机自主寻径模型训练方法,其特征在于,所述将所述外部激励信息以及所述内部激励信息进行融合从而获取综合激励信息采用如下公式:
r=ro+αri;
ri=H(z)-H(z|s);其中,
外部激励信息为ro、内部激励信息为ri、α是权重超参;r为综合激励信息。
6.如权利要求5所述的无人机自主寻径模型训练方法,其特征在于,所述内部激励信息采用如下公式获取:
ri=H(z)-H(z|s);其中,
最大化元机动分布的散度为H(z)、最小化条件熵为H(z|s);内部激励信息为ri。
7.一种无人机自主寻径模型训练装置,其特征在于,所述无人机自主寻径模型训练装置包括:
训练样本数据获取模块,所述训练样本数据获取模块用于获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;
模型获取模块,所述模型获取模块用于获取无人机自主寻径模型;
训练模块,所述训练模块用于根据所述训练样本数据对所述无人机自主寻径模型进行训练。
8.一种电子设备,其特征在于,所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如权利要求1至6中任意一项所述的无人机自主寻径模型训练方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如权利要求1至6中任意一项所述的无人机自主寻径模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110904669.3A CN113705777B (zh) | 2021-08-07 | 2021-08-07 | 一种无人机自主寻径模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110904669.3A CN113705777B (zh) | 2021-08-07 | 2021-08-07 | 一种无人机自主寻径模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705777A true CN113705777A (zh) | 2021-11-26 |
CN113705777B CN113705777B (zh) | 2024-04-12 |
Family
ID=78651804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110904669.3A Active CN113705777B (zh) | 2021-08-07 | 2021-08-07 | 一种无人机自主寻径模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705777B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239392A (zh) * | 2021-12-09 | 2022-03-25 | 南通大学 | 无人机决策模型训练方法、使用方法、设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229685A (zh) * | 2016-12-14 | 2018-06-29 | 中国航空工业集团公司西安航空计算技术研究所 | 一种空地一体的无人智能决策方法 |
US20190004518A1 (en) * | 2017-06-30 | 2019-01-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and system for training unmanned aerial vehicle control model based on artificial intelligence |
EP3660745A1 (en) * | 2018-11-30 | 2020-06-03 | Baidu USA LLC | Real time decision making for autonomous driving vehicles |
CN111514585A (zh) * | 2020-03-17 | 2020-08-11 | 清华大学 | 智能体的控制方法及系统、计算机装置以及存储介质 |
US10771122B1 (en) * | 2019-05-04 | 2020-09-08 | Marvell World Trade Ltd. | Methods and apparatus for discovering codeword decoding order in a serial interference cancellation (SIC) receiver using reinforcement learning |
CN111783994A (zh) * | 2020-05-29 | 2020-10-16 | 华为技术有限公司 | 强化学习的训练方法和装置 |
US20200363814A1 (en) * | 2019-05-15 | 2020-11-19 | Baidu Usa Llc | Offline agent using reinforcement learning to speedup trajectory planning for autonomous vehicles |
CN112016678A (zh) * | 2019-09-23 | 2020-12-01 | 南京地平线机器人技术有限公司 | 用于增强学习的策略生成网络的训练方法、装置和电子设备 |
CN112260776A (zh) * | 2020-10-12 | 2021-01-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 地面对通检测机载cni性能的综合联试系统 |
CN112613608A (zh) * | 2020-12-18 | 2021-04-06 | 中国科学技术大学 | 一种强化学习方法及相关装置 |
CN113190039A (zh) * | 2021-04-27 | 2021-07-30 | 大连理工大学 | 一种基于分层深度强化学习的无人机采集路径规划方法 |
-
2021
- 2021-08-07 CN CN202110904669.3A patent/CN113705777B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229685A (zh) * | 2016-12-14 | 2018-06-29 | 中国航空工业集团公司西安航空计算技术研究所 | 一种空地一体的无人智能决策方法 |
US20190004518A1 (en) * | 2017-06-30 | 2019-01-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and system for training unmanned aerial vehicle control model based on artificial intelligence |
EP3660745A1 (en) * | 2018-11-30 | 2020-06-03 | Baidu USA LLC | Real time decision making for autonomous driving vehicles |
US10771122B1 (en) * | 2019-05-04 | 2020-09-08 | Marvell World Trade Ltd. | Methods and apparatus for discovering codeword decoding order in a serial interference cancellation (SIC) receiver using reinforcement learning |
US20200363814A1 (en) * | 2019-05-15 | 2020-11-19 | Baidu Usa Llc | Offline agent using reinforcement learning to speedup trajectory planning for autonomous vehicles |
CN112016678A (zh) * | 2019-09-23 | 2020-12-01 | 南京地平线机器人技术有限公司 | 用于增强学习的策略生成网络的训练方法、装置和电子设备 |
CN111514585A (zh) * | 2020-03-17 | 2020-08-11 | 清华大学 | 智能体的控制方法及系统、计算机装置以及存储介质 |
CN111783994A (zh) * | 2020-05-29 | 2020-10-16 | 华为技术有限公司 | 强化学习的训练方法和装置 |
CN112260776A (zh) * | 2020-10-12 | 2021-01-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 地面对通检测机载cni性能的综合联试系统 |
CN112613608A (zh) * | 2020-12-18 | 2021-04-06 | 中国科学技术大学 | 一种强化学习方法及相关装置 |
CN113190039A (zh) * | 2021-04-27 | 2021-07-30 | 大连理工大学 | 一种基于分层深度强化学习的无人机采集路径规划方法 |
Non-Patent Citations (3)
Title |
---|
HAIYIN PIAO, ET AL.: "Beyond-Visual-Range Air Combat Tactics Auto-Generation by Reinforcement Learning", 2020 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), pages 1 - 8 * |
何金;丁勇;杨勇;黄鑫城;: "未知环境下基于PF-DQN的无人机路径规划", 兵工自动化, no. 09, pages 190 - 199 * |
孟光磊 等: "近距空战训练中的智能虚拟对手决策与导引方法", 北京航空航天大学学报, vol. 48, no. 06, pages 937 - 949 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239392A (zh) * | 2021-12-09 | 2022-03-25 | 南通大学 | 无人机决策模型训练方法、使用方法、设备及介质 |
CN114239392B (zh) * | 2021-12-09 | 2023-03-24 | 南通大学 | 无人机决策模型训练方法、使用方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113705777B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108170667B (zh) | 词向量处理方法、装置以及设备 | |
EP3564866A1 (en) | Computation method | |
DE102020131050A1 (de) | Konfigurierbare prozessorelementarrays zum implementieren von konvolutionellen neuronalen netzwerken | |
CN109034371B (zh) | 一种深度学习模型推理期加速方法、装置及系统 | |
CN111079721A (zh) | 一种障碍物的轨迹预测方法及装置 | |
CN112415558B (zh) | 行进轨迹的处理方法及相关设备 | |
KR102349933B1 (ko) | 스마트폰, 드론, 선박 혹은 군사적 목적에 이용하기 위한, 입력 데이터를 분석하는 뉴럴 네트워크를 온디바이스 연속 학습하는 방법 및 장치, 그리고, 이에 의해 학습된 뉴럴 네트워크를 테스트하는 방법 및 장치 | |
US20200342307A1 (en) | Swarm fair deep reinforcement learning | |
CN112989220A (zh) | 一种运动轨迹处理方法、介质、装置及设备 | |
CN112396180A (zh) | 基于动态示教数据和行为克隆的深度q学习网络优化方法 | |
CN112015896B (zh) | 基于人工智能的情感分类方法、以及装置 | |
CN113705777B (zh) | 一种无人机自主寻径模型训练方法及装置 | |
CN112947591A (zh) | 基于改进蚁群算法的路径规划方法、装置、介质及无人机 | |
CN111522245A (zh) | 用于控制无人设备的方法及装置 | |
CN113721645A (zh) | 一种基于分布式强化学习的无人机连续机动控制方法 | |
CN105868216A (zh) | 一种实现对象过期操作的方法、装置和设备 | |
CN113625753B (zh) | 一种由专家规则引导神经网络学习无人机机动飞行的方法 | |
CN116842060B (zh) | 一种基于代理模型重排技术的推理查询优化方法及装置 | |
CN112200310B (zh) | 智能处理器、数据处理方法及存储介质 | |
CN111694272B (zh) | 基于模糊逻辑系统的非线性多智能体的自适应控制方法及装置 | |
CN111406263A (zh) | 神经网络架构搜索的方法与装置 | |
CN117035070A (zh) | 一种知识图谱嵌入表示方法及装置 | |
WO2023244407A1 (en) | Sampling technique for data clustering | |
CN112580806B (zh) | 基于任务域知识迁移的神经网络持续学习方法及装置 | |
CN115773744A (zh) | 模型训练和路网处理方法、装置、设备、介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |