CN117787384A

CN117787384A - 一种用于无人机空战决策的强化学习模型训练方法

Info

Publication number: CN117787384A
Application number: CN202311723082.8A
Authority: CN
Inventors: 薛健; 向贤财; 赵琳; 吕科; 张宝琳
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-29

Abstract

本发明涉及一种用于无人机空战决策的强化学习模型训练方法，包括若干训练轮次，在每一训练轮次中，包括：(1)设置网络架构和网络参数；(2)获取输入数据，并输入到当前训练轮次的强化学习模型中，得到输出数据；(3)根据强化学习模型输出的决策数据，计算当前训练轮次的奖励函数，奖励函数由基本奖励和预测增益奖励叠加得到，其中，所述预测增益奖励由决策差确定，所述决策差为所述强化学习模型与预先确定的大语言模型针对所述输入数据输出的决策数据之间的差别；(4)根据当前训练轮次的奖励函数，调整强化学习模型的网络参数，得到下下一训练轮次的初始网络参数；(5)返回(1)执行下一训练轮次，直到达到预设的停止条件。

Description

一种用于无人机空战决策的强化学习模型训练方法

技术领域

本发明涉及无人机空战决策技术领域，特别是关于一种用于无人机空战决策的强化学习模型训练方法。

背景技术

近年来，深度强化学习是实现智能体最优决策的重要方法之一，其核心思想是学习智能体与环境互动，并通过试错和积累经验来进行决策。在这个过程中，深度强化学习主要关注如何采取行动来最大化数值奖励。

然而，本申请的发明人在研究中发现，在无人机空战决策领域，强化学习环境具有决策空间大、任务规划期长的特点，依靠奖惩机制进行学习的强化学习模型会产生奖励稀疏、探索过度或探索不足等问题，最终会影响强化学习训练效率。因而，在无人机空战决策领域，存在者构建奖励函数比较困难的问题，容易导致智能体(无人机)学习到次优或错误行为。

发明内容

针对上述问题，本发明的目的是提供一种用于无人机空战决策的强化学习模型训练方法，在模型的训练过程中，利用大语言模型参与奖励函数的设计，解决奖励稀疏问题，减少强化学习模型前期行为的探索空间，提升训练效率，从而得到可以优化空战决策的强化学习模型。

为实现上述目的，本发明采取以下技术方案：

第一方面，本申请提供一种用于无人机空战决策的强化学习模型训练方法，所述训练方法包括若干训练轮次，在每一训练轮次中，包括：

(1)设置当前训练轮次中强化学习模型的网络架构和初始网络参数；

(2)获取输入数据，并输入到当前训练轮次的强化学习模型中，得到输出数据，其中所述输入数据包括战场环境数据和空战类型数据，所述输出数据为强化学习模型输出的决策数据；

(3)根据强化学习模型输出的决策数据，计算当前训练轮次的奖励函数，所述当前训练轮次的奖励函数由基本奖励和预测增益奖励叠加得到，其中，所述基本奖励与空战类型数据和战场环境数据相关；所述预测增益奖励由决策差确定，所述决策差为所述强化学习模型与预先确定的大语言模型针对所述输入数据输出的决策数据之间的差别；

(4)根据当前训练轮次的奖励函数，调整强化学习模型的网络参数，得到下下一训练轮次的初始网络参数；

(5)返回(1)执行下一训练轮次，直到训练达到预设的停止条件。

在本申请的一种实现方式中，所述奖励函数的计算公式为：

R_Total＝(1-α(t))*R_baseline+α(t)*R_LLM

其中，t为时间序列；R_Total为奖励函数；R_baseline为基本奖励；R_LLM为预测增益奖励；α(t)为预设的时间函数关系。

在本申请的一种实现方式中，预测增益奖励与所述决策差成反比例关系；

所述决策差为所述强化学习模型与预先训练的大语言模型针对所述输入数据输出的决策数据之间的向量差。

在本申请的一种实现方式中，所述方法还包括：预先确定所述大语言模型的步骤；

所述预先确定所述大语言模型，包括：

选择设定网络结构和初始网络参数的大语言模型；

从历史数据中获取数据集，包括问答数据集和决策数据集，其中，问答数据集包括设定的空战类型数据下的战场环境数据与决策数据的文本数据对；决策数据集为专家仿真环境下的设定空战类型数据下的战场环境数据与决策数据的时序化数据；

根据所述问答数据集，微调大语言模型的网络参数，使大语言模型的网络结构具有空战决策的预测能力；

根据所述决策数据集，建立结构化的知识库，用于供大语言模型进行调用和查询。

在本申请的一种实现方式中，确定后的大语言模型，获取到输入数据后，优先基于结构化的知识库，根据战场环境数据的向量表达，查询对应的决策数据，输出决策数据的向量表达；

所述确定后的大语言模型，在所述结构化的知识库无相应的战场环境数据的向量表达后，将战场环境数据的向量表达转换为文本数据，再基于自身的网络结构预测对应的决策数据的文本，再将文本转换为决策数据的向量表达输出。

在本申请的一种实现方式中，所述α(t)具有随时间衰减的函数关系。

在本申请的一种实现方式中，所述α(t)为负线性时间衰减、反比例时间衰减或负指数衰减函数关系。

在本申请的一种实现方式中，所述战场环境数据，包括无人机观测到的自身和敌机的运动学参数；

所述决策数据，包括无人机所确定的自身的动作状态空间的指令。

在本申请的一种实现方式中，所述运动学参数，包括位置坐标、运动角度和运动速度；

动作状态空间，包括机翼控制、升降舵控制、方向舵控制以及油门控制。

第二方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在设备执行第一方面所述的用于无人机空战决策的强化学习模型训练方法。

本发明由于采取以上技术方案，其具有以下优点：(1)训练大语言模型作为空战任务的决策专家，并根据空战任务决策数据集构建知识库，能够实现空战任务中的精确预测，以较小的经济及时间成本实现高效的训练效果。(2)大语言模型的预测奖励与深度强化学习奖励相结合，利用大语言模型训练辅助无人机决策，不仅能够加快训练过程，也能提升模型的预测和决策能力。(3)克服大语言模型反馈时间限制难题，用异步更新策略解决语言模型与深度强化学习模型反馈时差问题。

附图说明

图1是采用本发明实施例的强化学习模型训练方法的试验效果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

在本申请的一个实施例中，提供了一种用于无人机空战决策的强化学习模型训练方法。

本申请实施例的训练方法包括若干训练轮次，在每一训练轮次中，包括：

(1)设置当前训练轮次中强化学习模型的网络架构和初始网络参数。

具体的，强化学习模型的网络架构可以是现有的网络架构，或对现有的网络架构进行适应性修正得到的新架构。网络架构的实例包括MAPPO、MADDPG等。网络架构一经选定，在整个训练过程中保持不变。

网络架构中包括有诸如卷积层、连接层等网络单元，网络单元间具有不同权重数值的连接关系，这些不同权重的数值即为网络参数。网络参数通过训练过程得到最终确定。在训练前需要初始化，在每一训练轮次后发生更新。

具体的，空战类型数据为预先设定的空战类型，例如可以包括1对1的空战或者多对多的空战训练，在多对多的场景中以2对2最为典型，例如在空战环境中一般由两架无人机组成主机和僚机，执行协同任务。

战场环境数据，包括无人机观测到的自身和敌机的运动学参数，例如位置坐标、运动角度和运动速度等。

决策数据，包括无人机所确定的自身的动作状态空间的指令。动作状态空间，可以包括机翼控制、升降舵控制、方向舵控制以及油门控制等。

强化学习模型，在设定网络架构，和初始化网络参数后，就可以根据输入计算输出，再将输出进行反馈，以调节网络参数。

具体的，奖励函数的计算公式为：

R_Total＝(1-α(t))*R_baseline+α(t)*R_LLM

更为具体的，在本步骤之前，需要预先确定大语言模型，以用于预测增益奖励的确定。

预先确定所述大语言模型，包括：

A.选择设定网络结构和初始网络参数的大语言模型；

B.从历史数据中获取数据集，包括问答数据集和决策数据集，其中，问答数据集包括设定的空战类型数据下的战场环境数据与决策数据的文本数据对；决策数据集为专家仿真环境下的设定空战类型数据下的战场环境数据与决策数据的时序化数据；

C.根据所述问答数据集，微调大语言模型的网络参数，使大语言模型的网络结构具有空战决策的预测能力；

D.根据所述决策数据集，建立结构化的知识库，用于供大语言模型进行调用和查询。

在大语言模型确定预测增益奖励的过程中，在获取到输入数据后，优先基于结构化的知识库，根据战场环境数据的向量表达，查询对应的决策数据，输出决策数据的向量表达，而在结构化的知识库无相应的战场环境数据的向量表达后，将战场环境数据的向量表达转换为文本数据，再基于自身的网络结构预测对应的决策数据的文本，再将文本转换为决策数据的向量表达输出。

大语言模型输出的决策数据的向量表达，与当前网络参数的强化学习模型输出的决策数据的向量表达之间的向量差，作为确定R_LLM的依据，一般可以为反比例关系。

在本申请实施例中，α(t)具有随时间衰减的函数关系，例如可以是负线性时间衰减、反比例时间衰减或负指数衰减函数关系。

下面在一个实验环境中，说明上述方法可以提高训练的收敛速度。

在本实验中，包括下列步骤：

1)定义无人机空战类型。

所定义的空战类型可以应用于仿真或实战。

本实施案例中基于无人机空战仿真环境构建了1vs.1追踪对抗与2vs.2协同对抗的空战任务。

2)从历史数据中获取数据集。

数据集包括问答数据集和决策数据集。

问答数据集包括设定的空战类型数据下的战场环境数据与决策数据的文本数据。具体的，根据空战类型，从开放领域的公开数据集中提取与空战、位置预测、空战策略等相关的信息，生成标准的问答形式的数据集，训练样本为问题与回答格式，用于大语言模型的微调。使得微调后得大语言模型能够学习到空战决策的知识，能够将模型的角色训练成一个空战任务决策的专家。

决策数据集为专家仿真环境下的设定空战类型数据下的战场环境数据与决策数据的时序化数据。基于专家仿真环境下的对抗，构建不同空战类型下的决策数据集，具体的，可以在仿真环境中获取对局数据，可以使用开源的决策规则库、专家决策或人工决策等方法从仿真环境得到对局数据，把每一份对局数据按照时间进行整理，按照前后关系为每一条数据附上对应的变换逻辑以及计算方法，并将以上两种数据进行整合，得到设定空战类型数据下的战场环境数据与决策数据的时序化数据，再经过结构化处理能够使数据集向量化后仍然保持对应的结构和逻辑关系。在本实施案例中使用了专家决策和人工决策方法在仿真环境获取了对局数据，变换逻辑以及计算方法的如下：确定空战对战空间的中心位置为原点建立三维坐标系统，将仿真环境中的经纬度转换为坐标数据，并将速度单位转换为统一的标准，根据无人机在短时间内的速度和航向角变化以及对应的位置信息，得到计算出无人机在下一时刻的预计位置的区域坐标的公式；然后将两种数据进行整理并进行结构化处理，将数据样本以字典形式进行保存，体现出数据之间的结构和逻辑关系。

3)微调大语言模型。

首先需要选择一个预训练的大语言模型，该模型需要具有轻量化的特点，可以根据空战任务的复杂度和硬件设备来选择模型，不仅需要能够加载进行训练和推理评估，也要保证模型的推理速度能够满足强化学习环境中多线程调用；根据大语言模型的具体参数和网络结构，设置微调的相关参数，然后使用问答数据集对模型进行微调，微调后的模型需要能够准确地理解和生成空战模拟环境的状态描述。经过微调后的模型学习了空战任务的知识，大语言模型能够作为空战任务的决策专家。在本实施案例，例如可以选择ChatGLM2-6B模型进行微调，该模型参数量为60亿，显存要求为8GB，微调后能够准确地理解和生成空战模拟环境的状态描述，能够为追踪和对抗任务的做出正确的决策，推理速度能够满足空战任务训练的要求。

4)构建知识库。

知识库用于大语言模型调用和查询，以提高大语言模型输出决策数据的效率。

根据空战任务决策数据集的文本类型和文本长度选择对应的嵌入模型，选择的嵌入模型需要适配数据集的语言和文本长度，使用嵌入模型将空战任务决策数据集向量化得到知识库。空战任务决策数据集中的对局数据和计算逻辑能够增强大语言模型的预测能力和决策能力，向量化的操作能够对数据进行快速的查询和推理。通过调用知识库，不仅大语言模型对位置的预测和决策的评估更加准确，也能够加快大语言模型的推理速度，保证在训练时能够快速得到结果，不影响训练进程的进行。本实施案例选择了OpenAI的嵌入模型text-embedding-ada-002来对空战任务决策数据集进行向量化处理，该模型能够对中文数据以及长文档进行向量化处理，在加入知识库后，大语言模型的推理速度和准确度得到了进一步提升。

5)构建基于空战类型和战场环境的基本奖励R_baseline。

根据空战任务的规则和目标设置基本的奖励，该奖励主要是对无人机的决策进行评判，主要包括无人机的姿态、高度、生存状态、与敌机距离等基本奖励。

6)设置奖励函数的结构。

奖励函数的计算公式为：

R_Total＝(1-α(t))*R_baseline+α(t)*R_LLM

其中，t为时间序列；R_Total为奖励函数；R_baseline为基本奖励；R_LLM为预测增益奖励；R_LLM衡量无人机强化学习模型的决策与大语言模型的决策之间的差距。α(t)是一个随时间衰减的权重，参数的具体值可以根据空战任务目标和训练情况进行动态设置，该参数用来调整大语言模型预测奖励的权重。在本实施案例中将初始值设为0.4，每一步线性衰减直到降至0.1，这样能够确保在任务的早期，无人机更多地依赖大语言模型提供的预测奖励进行决策，而在后期，则逐渐转向依赖智能体自身的探索和经验进行决策。这种奖励机制的设计，既利用了大语言模型的预测能力，减少了作战前期的探索空间，同时也保证了原有奖励的基础作用，为无人机在复杂的空战场景中的决策提供有效的指引。

7)根据设置的奖励函数对强化学习模型进行训练。

首先，根据空战任务和强化学习算法设置无人机模型参数和训练任务的相关参数；然后设置大语言模型预测参数，引入大语言模型后，需要用异步更新策略解决大语言模型与深度强化学习模型反馈时差问题；大语言模型预测参数是训练时采样线程调用大语言模型的频率，需要根据训练任务的线程数量、硬件条件和训练阶段来确定，该参数的作用是调整大语言模型介入的程度；本实施案例中训练任务设置了64个采样线程，每个线程调用大语言模型的频率设置为每50步(10秒)调用一次。

本申请的训练效果如图1所示，其中以无大语言模型参与奖励函数设计的技术方案为基线(Baseline)。相对于基线，本申请(LLM.RS)明显提升了训练效果。

综上所述，本申请具有以下优点：(1)训练大语言模型作为空战任务的决策专家，并根据空战任务决策数据集构建知识库，能够实现空战任务中的精确预测，以较小的经济及时间成本实现高效的训练效果。(2)大语言模型的预测奖励与深度强化学习奖励相结合，利用大语言模型训练辅助无人机决策，不仅能够加快训练过程，也能提升模型的预测和决策能力。(3)克服大语言模型反馈时间限制难题，用异步更新策略解决语言模型与深度强化学习模型反馈时差问题。

在本申请实施例中，还相应提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，在计算机设备执行该计算机程序时，实现本申请实施例中的所述方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例上述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上上述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用于无人机空战决策的强化学习模型训练方法，其特征在于，所述训练方法包括若干训练轮次，在每一训练轮次中，包括：

2.根据权利要求1所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，所述奖励函数的计算公式为：

R_Total＝(1-α(t))*Rbaseline+α(t)*RLLM

其中，t为时间序列；R_Total为奖励函数；Rbaseline为基本奖励；RLLM为预测增益奖励；α(t)为预设的时间函数关系。

3.根据权利要求2所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，预测增益奖励与所述决策差成反比例关系；

4.根据权利要求3所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，所述方法还包括：预先确定所述大语言模型的步骤；

所述预先确定所述大语言模型，包括：

选择设定网络结构和初始网络参数的大语言模型；

5.根据权利要求4所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，确定后的大语言模型，获取到输入数据后，优先基于结构化的知识库，根据战场环境数据的向量表达，查询对应的决策数据，输出决策数据的向量表达；

6.根据权利要求2所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，所述α(t)具有随时间衰减的函数关系。

7.根据权利要求6所述的用于无人机空战决策的强化学习模型训练方法，其特征在于，所述α(t)为负线性时间衰减、反比例时间衰减或负指数衰减函数关系。

8.根据权利要求1所述的用于无人机空战决策的强化学习模型训练方法，其特征在，所述战场环境数据，包括无人机观测到的自身和敌机的运动学参数；

9.根据权利要求8所述的用于无人机空战决策的强化学习模型训练方法，其特征在，所述运动学参数，包括位置坐标、运动角度和运动速度；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9任一项所述的用于无人机空战决策的强化学习模型训练方法。