CN116339130A

CN116339130A - 基于模糊规则的飞行任务数据获取方法、装置及设备

Info

Publication number: CN116339130A
Application number: CN202310600164.7A
Authority: CN
Inventors: 冯旸赫; 国子婧; 胡星辰; 梁星星; 张龙飞; 杜航; 吴克宇
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-06-27
Anticipated expiration: 2043-05-25
Also published as: CN116339130B

Abstract

本申请涉及一种基于模糊规则的飞行任务数据获取方法、装置及设备，所述方法包括：获取无人机飞行任务的状态观测值，将状态观测值输入处理器的模糊策略网络；通过知识推理模块对状态观测值进行处理，输出执行无人机飞行任务的动作偏好向量，基于动作偏好向量获取第一权重值；将状态观测值与动作偏好向量通过处理器加载并输入策略网络中，输出无人机飞行任务的动作概率向量，基于动作概率向量获取第二权重值；根据第一权重值与第二权重值确定无人机飞行任务的执行动作；通过策略网络与价值网络共同进行模糊策略网络的参数更新，得到真实的飞行任务数据。采用本方法能够获取高精度的无人机飞行任务数据，同时减少硬件消耗。

Description

基于模糊规则的飞行任务数据获取方法、装置及设备

技术领域

本申请涉及无人机飞行任务数据处理技术领域，特别是涉及一种基于模糊规则的飞行任务数据获取方法、装置及设备。

背景技术

随着无人机飞行任务数据处理技术领域的发展，出现了近端优化策略(ProximalPolicy Optimization）PPO算法，无人机通过获取和分析数据采用PPO算法来完成任务目标的执行动作策略分析，随着其在军事、民用、科研等领域的广泛应用，对其性能和效率的要求也越来越高。无人机的飞行控制和路径规划等飞行任务是无人机性能和效率的重要体现，因此需要引入更加先进的数据处理方法来获取无人机的飞行任务数据。目前，无人机飞行任务数据的获取方法主要包括PID控制、模糊控制、神经网络控制、遗传算法等。虽然这些方法在一定程度上可以满足无人机的飞行任务需求，但是也存在一些问题，例如，PID控制方法的参数需要手动调整，难以适应复杂多变的环境，数据获取过程的灵活度较差；模糊控制方法需要建立大量的规则库，难以实现自主学习，获取的飞行任务数据精度较差；神经网络控制方法需要大量的训练数据，训练时间长，飞行任务数据的处理对硬件要求较高；遗传算法方法需要大量的计算资源，计算效率低下。近年来，深度强化学习算法在无人机控制和规划领域得到了广泛应用。其中，PPO算法是一种较为先进的深度强化学习算法，具有训练效率高、收敛速度快等优点，被广泛应用于无人机飞行任务数据获取与飞行状态控制中。

然而，目前PPO算法采用基于采样的策略优化方法，需要大量的采样数据来训练模型，在无人机任务执行中，采样数据的获取需要进行实际飞行测试或者仿真模拟，这需要消耗大量的时间和资源。因此，PPO算法的深度强化学习采样效率低可能会导致训练时间长、计算资源消耗大等问题，限制了PPO算法在无人机任务执行中的应用，其次在无人机任务执行中，需要考虑多种复杂的环境因素，如天气、地形、风力等，这些因素可能会导致无人机的性能和效率发生变化，PPO算法需要进行大量的环境探索来学习适应不同的环境因素，这可能会增加算法的训练难度和时间，并且由于无人机任务执行需要高度精准的控制和规划，这就导致PPO算法在进行大量训练的时候，学习进程相对缓慢，对于无人机任务执行方面，PPO算法存在采样效率低、环境探索量大以及学习进程缓慢等缺陷，导致飞行任务数据的获取精度较差，硬件消耗较大。

发明内容

基于此，有必要针对上述技术问题，提供一种能够改善上述PPO算法处理无人机飞行任务数据时的缺陷的基于模糊规则的飞行任务数据获取方法、装置及设备。

一种基于模糊规则的飞行任务数据获取方法，所述方法包括：

获取无人机飞行任务的状态观测值，将状态观测值输入模糊策略网络。模糊策略网络包括：知识推理模块、策略网络以及价值网络。

通过知识推理模块对状态观测值进行处理，输出执行无人机飞行任务的动作偏好向量，基于动作偏好向量获取第一权重值。

将状态观测值与动作偏好向量通过处理器加载并输入策略网络中，输出无人机飞行任务的动作概率向量，基于动作概率向量获取第二权重值。

根据第一权重值与第二权重值确定无人机飞行任务的执行动作，并将飞行任务决策过程存入存储器。

从存储器中提取飞行任务决策过程，并分别输入至策略网络与价值网络，通过策略网络与价值网络共同进行模糊策略网络的参数更新，得到真实的飞行任务数据。

在其中一个实施例中，还包括：通过无人机传感器获取无人机飞行任务的状态观测值，将状态观测值分别输入处理器的模糊策略网络中的知识推理模块与策略网络。

在其中一个实施例中，知识推理模块包括：隶属度函数网络与模糊规则。隶属度函数网络包括模糊化层、模糊推理层以及去模糊化层。还包括：知识推理模块通过无人机飞行环境获取状态观测值，将状态观测值输入至处理器的隶属度函数网络获取前提条件真值，根据前提条件真值与模糊规则计算连接算子。根据连接算子输出执行无人机飞行任务的动作偏好向量，基于动作偏好向量获取第一权重值。

在其中一个实施例中，还包括：将状态观测值与动作偏好向量通过处理器加载并输入策略网络中，根据模糊策略网络的参数构建动作偏好向量的最大化目标函数。根据最大化目标函数输出无人机飞行任务的动作概率向量，基于动作概率向量获取第二权重值。

在其中一个实施例中，还包括：根据第一权重值与第二权重值确定无人机飞行任务的执行动作：

；

其中，

为无人机飞行任务的执行动作，/>

、/>

分别为第一权重值与第二权重值，

，/>

为动作偏好向量，/>

为动作概率向量，/>

为锐化动作分布的参数。将执行动作与执行动作对应的飞行任务决策过程存入存储器。飞行任务决策过程包括：当前时刻状态观测值、当前时刻状态观测值对应的当前时刻执行动作、当前时刻执行动作的奖励值以及下一时刻的状态观测值。

在其中一个实施例中，还包括：从存储器中提取飞行任务决策过程，并分别输入至处理器的策略网络与价值网络，通过价值网络输出策略网络的优势函数与价值网络的价值函数。根据优势函数计算目标函数更新策略网络，并更新知识推理模块，以及价值函数更新价值网络。根据更新后的知识推理模块、策略网络以及价值网络进行模糊策略网络的参数更新，得到真实的飞行任务数据。

在其中一个实施例中，还包括：策略网络的优化器根据更新后的模糊策略网络与更新前的模糊策略网络重构最大化目标函数，将重构最大化目标函数输入至知识推理模块进行更新。

在其中一个实施例中，还包括：根据当前时刻期望值与下一时刻期望值生成均方误差，通过均方误差更新价值函数，根据更新后的价值函数更新价值网络。

一种基于模糊规则的飞行任务数据获取装置，所述装置包括：

状态获取模块，用于获取无人机飞行任务的状态观测值，将状态观测值输入处理器的模糊策略网络。模糊策略网络包括：知识推理模块、策略网络以及价值网络。

第一权重值获取模块，用于通过知识推理模块对状态观测值进行处理，输出执行无人机飞行任务的动作偏好向量，基于动作偏好向量获取第一权重值。

第二权重值获取模块，用于将状态观测值与动作偏好向量通过处理器加载并输入策略网络中，输出无人机飞行任务的动作概率向量，基于动作概率向量获取第二权重值。

存储模块，用于根据第一权重值与第二权重值确定无人机飞行任务的执行动作，并将飞行任务决策过程存入存储器。

任务数据获取模块，用于用于从存储器中提取飞行任务决策过程，并分别输入至策略网络与价值网络，通过策略网络与价值网络共同进行模糊策略网络的参数更新，得到真实的飞行任务数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取无人机飞行任务的状态观测值，将状态观测值输入处理器的模糊策略网络。模糊策略网络包括：知识推理模块、策略网络以及价值网络。

上述基于模糊规则的飞行任务数据获取方法、装置及设备，通过获取无人机飞行任务的状态观测值，将状态观测值输入处理器的模糊策略网络，通过知识推理模块预处理状态观测值，为模糊策略网络提供先验知识信息，可以提高处理器对环境的理解，从而提高采样率和学习进程，与此同时，基于动作偏好向量获取第一权重值，可以激励处理器更好的学习无人机飞行任务执行策略，加之，策略网络可以自动学习最优动作概率向量，因此通过第二权重值来调整策略，可以提高处理器通过模糊策略网络对无人机飞行任务的探索量，并将历史决策过程和当下决策过程均储存至存储器，使得处理器在模糊策略网络中利用学习到的以前的经验知识，应用到以后的无人机飞行任务动作的决策中，结合策略网络和价值网络进行参数更新，策略网络和价值网络会因参数变化小而变得更加稳定、更好地收敛，可以更好的调整模糊策略网络，从而可以时时获取更高精度、更准确的无人机飞行任务数据。

附图说明

图1为一个实施例中一种基于模糊规则的飞行任务数据获取方法的流程示意图；

图2为一个实施例中知识推理模块的结构框图；

图3为一个实施例中Policy-based Reinforcement Learning with Fuzzy Rules（基于策略的模糊规则强化学习）方法步骤的流程示意图；

图4为一个实施例中一个状态变量的隶属度函数网络的结构框图

图5为一个实施例中一种基于模糊规则的飞行任务数据获取装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于模糊规则的飞行任务数据获取方法，在一个实施例中，如图1所示，提供了一种基于模糊规则的飞行任务数据获取方法，具体包括以下步骤：

步骤102，获取无人机飞行任务的状态观测值，将状态观测值输入处理器的模糊策略网络。

模糊策略网络包括：知识推理模块、策略网络以及价值网络。通过无人机传感器获取无人机飞行任务的状态观测值，将状态观测值输入处理器的模糊策略网络中的知识推理模块和策略网络中，其中无人机飞行任务的状态观测值由多个状态变量组成，每一个状态变量代表一个无人机在执行飞行任务时对应的某一个时刻的飞行状态，可以是无人机姿态、航线偏离状态等。

步骤104，通过知识推理模块对状态观测值进行处理，输出执行无人机飞行任务的动作偏好向量，基于动作偏好向量获取第一权重值。

知识推理模块包括：隶属度函数网络与模糊规则。隶属度函数网络包括模糊化层、模糊推理层以及去模糊化层。具体的，由于无人机飞行任务的状态空间中包括不同的状态变量

，包括/>

分别对应状态观测值

，每一个状态观测值均构建有各自的模糊集，每一个模糊集代表一种逻辑判断，/>

是/>

对应的三个模糊集合，但一条模糊规则中一个状态变量只涉及一个模糊集，因此状态观测值输入模糊化层，将状态观测值按照模糊集为一个神经单元进行逻辑分离处理，输出每个模糊集各自对应的隶属度函数至隶属度函数网络，另外，网络的隐藏层为该状态变量不同模糊集的隶属度函数，即模糊推理层，该层包括的神经元个数和激活函数由隶属度函数的形态和模糊集的数量共同决定，当神经元的数量与模糊集的数量一致时，通过去模糊化层输出当前状态变量观测值隶属于不同模糊集的隶属值，即模糊规则中各前提条件的真值，根据具体的无人机飞行任务类型，定义多条模糊规则，同一模糊规则中的所有前提条件都应满足，对同一条模糊规则中不同前提条件的真值取最小算子作为连接算子；根据具体的无人机飞行任务类型定义的多条模糊规则，对应同一动作的不同规则起到相互补充的作用，因此，对不同规则得出的动作偏好向量取最大算子(并集)作为连接算子，通过对整个模糊规则得到的所有动作选择概率进行/>

运算，输出当前状态变量观测值执行目标任务的动作偏好向量。

进一步的，以Rule

的第一个前提条件为例，针对环境状态空间有k个状态变量，共设计了k个隶属度函数网络，对于/>

对应的/>

模糊集，其隶属度网络输入层输入具体观测值/>

，模糊推理层的初始参数和权重在训练前为人类设计的

函数，随着无人机处理器装载的智能体与环境不断互动，各隶属度函数不断得到优化即改进模糊推理层的权重和偏置，输出层输出m个元素，最终只选取对应的数值即该前提条件的真值。/>

的最终输出为k个前提条件取最小算子的概率值即/>

的偏好向量，针对离散动作空间有/>

个动作，L条规则对同一动作取最大算子最终输出动作偏好向量即/>

，将输出的最大算子对应的动作偏好向量进行奖励函数运算，得到第一权重值/>

。

步骤106，将状态观测值与动作偏好向量通过处理器加载并输入策略网络中，输出无人机飞行任务的动作概率向量，基于动作概率向量获取第二权重值。

离散动作空间下，无人机处理器装载的智能体与执行飞行任务时的环境交互的过程中，策略（actor）网络以当前状态观测值和当前状态观测值下知识推理模块输出的动作偏好向量

为输入，将状态观测值与动作偏好向量输入策略（actor）网络中，具体的，actor网络的输入层以当前状态观测值作为输入，并根据状态观测值为隐藏层网络生成权重和偏置，定义模糊策略网络的参数与梯度更新参数分别计算的概率之比为重要性权重系数/>

，按照重要性权重系数构建actor网络的最大化目标函数：

；

其中，

为超参数，/>

为模糊策略网络的参数，/>

为模糊策略网络的更新参数，

为当前状态观测值下某一动作与时间步长t的平均值相比的优势估计值，/>

为更新参数对应的执行策略，/>

为智能体在actor网络中获取当前动作概率向量的奖励回报。进一步的，通过PPO算法求解得到目标任务的动作概率向量/>

，并基于动作概率向量获取第二权重值/>

。

步骤108，根据第一权重值与第二权重值确定无人机飞行任务的执行动作，并将飞行任务决策过程存入存储器。

根据第一权重值

与第二权重值/>

确定无人机飞行任务的执行动作：

；

其中，

为无人机飞行任务的执行动作，/>

、/>

分别为第一权重值与第二权重值，

，/>

为动作偏好向量，/>

为动作概率向量，/>

为锐化动作分布的参数，将执行动作/>

与执行动作对应的飞行任务决策过程存入存储器，在模糊策略网络内，飞行任务的决策过程包括当前时刻状态观测值、当前时刻状态观测值对应的当前时刻执行动作、当前时刻执行动作的奖励值以及下一时刻的状态观测值，由四个维度的参数组成的存储单元为

，将该存储单元存入无人机装载的存储器中。

步骤110，从存储器中提取飞行任务决策过程，并分别输入至策略网络与价值网络，通过策略网络与价值网络共同进行模糊策略网络的参数更新，得到真实的飞行任务数据。

无人机处理器装载的智能体从存储器中提取飞行任务决策过程，将存储单元输入至价值（critic）网络，得到当前时刻的期望值标量，同时得到最大化目标函数中对应的优势估计值

，采用广义优势估计GAE计算：

；

其中，

为当前时刻状态观测值下根据策略/>

选择某一动作得到的累计奖励的期望值，/>

为/>

的期望值。进一步的，通过critic网络输出的优势估计值更新模糊策略网络的参数/>

，actor网络的优化器根据更新参数/>

更新动作概率向量，根据更新后的动作概率向量梯度更新知识推理模块，同时根据更新参数/>

采用误差运算更新价值网络，其中，误差运算可以是蒙特卡洛误差运算或者时序差分误差运算，进而利用优化更新后的模糊策略网络处理无人机飞行任务中的环境、状态信息，由此训练出无人机飞行任务中的真实动作信息，即真实的无人机飞行任务数据。

在其中一个实施例中，通过无人机传感器获取无人机飞行任务的状态观测值，将状态观测值分别输入处理器的模糊策略网络中的知识推理模块与策略网络。

值得说明的是，如图2所示，知识推理模块是将模糊规则各前提条件的真值进行运算，得到无人机飞行任务中当前时刻状态下的动作偏好向量，无人机通过传感器在执行飞行任务时与环境交互的过程中，向无人机处理器装载的智能体实时发送具体观测值

，通过各自状态变量的隶属度函数网络，得到前提条件的真值。同一模糊规则中的所有前提条件都应满足，因此对同一条模糊规则中不同前提条件的真值取最小算子作为连接算子，根据具体任务定义的多条模糊规则，关于对应同一动作的不同规则起到相互补充的作用，故对不同规则得出的动作偏好向量取最大算子(并集)作为连接算子，知识推理模块通过对整个模糊规则得到的所有动作选择概率进行/>

运算，最终输出当前状态下动作偏好向量。

在其中一个实施例中，以

的第一个前提条件为例，针对环境状态空间有k个状态变量，共设计了k个隶属度函数网络。对于/>

对应的/>

，/>

，…/>

模糊集，其隶属度网络输入层输入具体无人机飞行过程中获取的状态观测值/>

，模糊推理层的初始参数和权重在训练前为人类设计的/>

函数，随着无人机传感器与环境不断互动，状态观测值传送至智能体过程中，各状态观测值对应的隶属度函数不断得到优化，即改进模糊推理层的权重和偏置，输出层输出m个元素，最终只选取对应的数值即该前提条件的真值。/>

的最终输出为k个前提条件取最小算子的概率值即/>

的偏好向量，针对离散动作空间有/>

个动作，L条规则对同一动作取最大算子最终输出动作偏好向量/>

，即

。

在其中一个实施例中，知识推理模块包括：隶属度函数网络与模糊规则。知识推理模块通过无人机飞行环境获取状态观测值，将状态观测值输入至处理器的隶属度函数网络获取前提条件真值，根据前提条件真值与模糊规则计算连接算子。根据连接算子输出执行无人机飞行任务的动作偏好向量，基于动作偏好向量获取第一权重值。

值得说明的是，如图4所示，状态空间的每一个状态变量均有一个隶属度函数网络，网络的输入层以该状态变量的具体观测值为输入，神经元为1，这一层也被称为模糊化层，网络的隐藏层为该状态变量不同模糊集的隶属度函数，神经元的个数和激活函数由隶属度函数的形态和模糊集的数量共同决定，这一层也被称为模糊推理层；输出层也被称为去模糊化层，神经元的数量与模糊集的数量一致，输出当前状态变量观测值隶属于不同模糊集的隶属值，即模糊规则中各前提条件的真值。隶属度函数网络的初始权重和偏置均由先验知识确定，在训练过程中随着actor网络的梯度下降进行优化。

具体的，为状态空间中的状态变量设计模糊集，然后对每一个状态变量的每一个模糊集设计隶属度函数，同时形成模糊规则：

；

；

其中，

是状态空间中的不同状态变量，包括/>

分别对应观测值/>

。/>

的每一个状态变量均有各自的模糊集，每一个模糊集代表一种逻辑判断。/>

是/>

对应的三个模糊集合，但一条模糊规则中一个状态变量只涉及一个模糊集，每个模糊集均有各自对应的隶属度函数，例如，/>

对应/>

的隶属度函数，经过隶属度函数的计算，取得每个前提条件的真值，通过对每一条模糊规则中的多个前提条件进行最小运算符(交集)计算，获得该条模糊规则对应动作/>

的概率，即执行无人机飞行任务的行动偏好。

在其中一个实施例中，将状态观测值与动作偏好向量通过处理器加载并输入策略网络中，根据模糊策略网络的参数构建动作偏好向量的最大化目标函数。根据最大化目标函数输出无人机飞行任务的动作概率向量，基于动作概率向量获取第二权重值。

值得说明的是，如图3所示，将知识推理模块与近端优化策略（Proximal PolicyOptimization，PPO）算法相结合，构建基于模糊规则的策略网络方法（Proximal PolicyOptimization Algorithm with Fuzzy Rules，PPOFR），通过重要性采样的学习方法，采用优势演员-评论员(AC)框架，包括actor网络和critic网络，将无人机传感器捕捉无人机飞行任务的某一个轨迹，用当前时刻的参数

计算的概率与下一时刻的参数/>

计算的概率之比，生成重要性权重系数/>

，使得处理器装载的智能体接收到无人机与环境互动的数据可以提高样本采样的利用率，实现异策略情况下的学习。

在其中一个实施例中，根据第一权重值与第二权重值确定无人机飞行任务的执行动作：

；

其中，

为无人机飞行任务的执行动作，/>

、/>

分别为第一权重值与第二权重值，

，/>

为动作偏好向量，/>

为动作概率向量，/>

值得说明的是，采用消除KL散度的信任域修正方法，通过对重要性权重系数

进行剪裁，使得处理器装载的智能体学习的模糊策略网络在每一次优化后的差距不会过大，同时根据重要性权重系数构建最大化目标函数：

；

其中，

为超参数，超参数可以根据实际需要自行设置数值，/>

为模糊策略网络的参数，/>

为模糊策略网络的更新参数，/>

为更新参数对应的执行策略，/>

，并基于动作概率向量获取第二权重值/>

。

在其中一个实施例中，从存储器中提取飞行任务决策过程，并分别输入至处理器的策略网络与价值网络，通过价值网络输出策略网络的优势函数与价值网络的价值函数。根据优势函数计算目标函数更新策略网络，并更新知识推理模块，以及价值函数更新价值网络。根据更新后的知识推理模块、策略网络以及价值网络进行模糊策略网络的参数更新，得到真实的飞行任务数据。

在其中一个实施例中，策略网络的优化器根据更新后的模糊策略网络与更新前的模糊策略网络重构最大化目标函数，将重构最大化目标函数输入至知识推理模块进行更新。

值得说明的是，如图3所示，虚线表示actor网络、知识推理模块中隶属度函数网络以及critic网络的梯度流，目标任务决策过程作为存储单元存入存储器，可以扩大处理器装载的智能体在学习过程中的环境探索量，在模糊策略网络中通过调取存储器中的存储单元，输入至critic网络进行广义优势估计计算：

；

并输出一个标量

，同时得到目标函数中关于优势函数的优势估计值

，其中，/>

表示当前状态下根据策略/>

选择某一动作得到的累计奖励的期望值。特别的，critic网络中参数/>

的更新可以基于蒙特卡洛误差或时序差分误差，以基于时序差分误差计算为例，首先对/>

与/>

求均方误差，然后以均方误差作为目标函数进行梯度下降完成对critic网络中参数/>

的更新。

在其中一个实施例中，根据当前时刻期望值与下一时刻期望值生成均方误差，通过均方误差更新价值函数，根据更新后的价值函数更新价值网络。

在其中一个实施例中，PPOFR方法的训练过程如下所示：

方法 1: PPOFR

输入：状态观测值

；

输出：优化后的知识推理模块；

动作

；

1：基于先验知识初始化每一个状态变量的隶属度函数网络并设计模糊规则；

2：初始化actor网络和critic网络；

3：初始化

并规范/>

的衰减率；

4：foreach episode in PPOFR:

5：初始化状态

；

6：foreach step in one episode:

7：通过知识推理模块计算得出

；

8：通过PPO计算得出

；

9：根据

选择动作；

10：执行动作并获得奖励

进入下一状态/>

；

11：在memory中存储

；

12：对

进行衰减；

13：在满足更新时间步数后更新actor网络、隶属度函数网络以及critic网络；

14： end if；

15：end for

值得说明的是，PPOFR方法中

基于知识推理模块的隶属度函数网络和actor网络进行计算，同样为获得更多奖励值最大化/>

，actor网络的优化器可同时更新优化知识推理模块和actor网络的参数，并选择软更新作为隶属度函数网络更新方式，即以一定的权值对更新后的模糊策略网络参数和原有的模糊策略网络参数加权求和并复制给当前时刻的隶属度函数网络。模糊策略网络会因参数变化小而变得更加稳定，更好地收敛。隶属度函数网络和actor网络同时进行优化，知识推理模块得到更新使得先验知识更适应当前无人机飞行任务，同时加速了处理器装载的智能体的学习进程。

actor网络和critic网络采用硬更新的方式进行优化，在此过程中

的权重会线性地衰减到一个较小的值，处理器装载的智能体更多依靠自身的探索选择动作，获得更高的奖励。

应该理解的是，虽然图1、图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于模糊规则的飞行任务数据获取装置，包括：状态获取模块502、第一权重值获取模块504、第二权重值获取模块506、存储模块508和任务数据获取模块510，其中：

状态获取模块502，用于获取无人机飞行任务的状态观测值，将状态观测值输入处理器的模糊策略网络。模糊策略网络包括：知识推理模块、策略网络以及价值网络。

第一奖励获取值模块504，用于通过知识推理模块对状态观测值进行处理，输出执行无人机飞行任务的动作偏好向量，基于动作偏好向量获取第一权重值。

第二权重值获取模块506，用于将状态观测值与动作偏好向量通过处理器加载并输入策略网络中，输出无人机飞行任务的动作概率向量，基于动作概率向量获取第二权重值。

存储模块508，用于根据第一权重值与第二权重值确定无人机飞行任务的执行动作，并将飞行任务决策过程存入存储器。

任务数据获取模块510，用于从存储器中提取飞行任务决策过程，并分别输入至策略网络与价值网络，通过策略网络与价值网络共同进行模糊策略网络的参数更新，得到真实的飞行任务数据。

关于一种基于模糊规则的飞行任务数据获取装置的具体限定可以参见上文中对于一种基于模糊规则的飞行任务数据获取方法的限定，在此不再赘述。上述一种基于模糊规则的飞行任务数据获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于模糊规则的飞行任务数据获取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图2和图4-图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过无人机传感器获取无人机飞行任务的状态观测值，将状态观测值分别输入处理器的模糊策略网络中的知识推理模块与策略网络。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：知识推理模块包括：隶属度函数网络与模糊规则。隶属度函数网络包括模糊化层、模糊推理层以及去模糊化层。知识推理模块通过无人机飞行环境获取状态观测值，将状态观测值输入至处理器的隶属度函数网络获取前提条件真值，根据前提条件真值与模糊规则计算连接算子。根据连接算子输出执行无人机飞行任务的动作偏好向量，基于动作偏好向量获取第一权重值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将状态观测值与动作偏好向量通过处理器加载并输入策略网络中，根据模糊策略网络的参数构建动作偏好向量的最大化目标函数。根据最大化目标函数输出无人机飞行任务的动作概率向量，基于动作概率向量获取第二权重值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据第一权重值与第二权重值确定无人机飞行任务的执行动作：

；

其中，

为无人机飞行任务的执行动作，/>

、/>

分别为第一权重值与第二权重值，

，/>

为动作偏好向量，/>

为动作概率向量，/>

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从存储器中提取飞行任务决策过程，并分别输入至处理器的策略网络与价值网络，通过价值网络输出策略网络的优势函数与价值网络的价值函数。根据优势函数计算目标函数更新策略网络，并更新知识推理模块，以及价值函数更新价值网络。根据更新后的知识推理模块、策略网络以及价值网络进行模糊策略网络的参数更新，得到真实的飞行任务数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：策略网络的优化器根据更新后的模糊策略网络与更新前的模糊策略网络重构最大化目标函数，将重构最大化目标函数输入至知识推理模块进行更新。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据当前时刻期望值与下一时刻期望值生成均方误差，通过均方误差更新价值函数，根据更新后的价值函数更新价值网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于模糊规则的飞行任务数据获取方法，其特征在于，所述方法包括：

获取无人机飞行任务的状态观测值，将所述状态观测值输入处理器的模糊策略网络；所述模糊策略网络包括：知识推理模块、策略网络以及价值网络；

通过所述知识推理模块对所述状态观测值进行处理，输出执行所述无人机飞行任务的动作偏好向量，基于所述动作偏好向量获取第一权重值；

将所述状态观测值与所述动作偏好向量通过所述处理器加载并输入所述策略网络中，输出所述无人机飞行任务的动作概率向量，基于所述动作概率向量获取第二权重值；

根据所述第一权重值与所述第二权重值确定所述无人机飞行任务的执行动作，并将飞行任务决策过程存入存储器；

从所述存储器中提取所述飞行任务决策过程，并分别输入至所述策略网络与所述价值网络，通过所述策略网络与所述价值网络共同进行所述模糊策略网络的参数更新，得到真实的飞行任务数据。

2.根据权利要求1所述的方法，其特征在于，获取无人机飞行任务的状态观测值，将所述状态观测值输入处理器的模糊策略网络，包括：

通过无人机传感器获取无人机飞行任务的状态观测值，将所述状态观测值分别输入处理器的所述模糊策略网络中的所述知识推理模块与所述策略网络。

3.根据权利要求2所述的方法，其特征在于，所述知识推理模块包括：隶属度函数网络与模糊规则；所述隶属度函数网络包括模糊化层、模糊推理层以及去模糊化层；

通过所述知识推理模块对所述状态观测值进行处理，输出执行所述无人机飞行任务的动作偏好向量，基于所述动作偏好向量获取第一权重值，包括：

所述知识推理模块通过无人机飞行环境获取所述状态观测值，将所述状态观测值输入至所述处理器的所述隶属度函数网络获取前提条件真值，根据所述前提条件真值与所述模糊规则计算连接算子；

根据所述连接算子输出执行所述无人机飞行任务的动作偏好向量，基于所述动作偏好向量获取第一权重值。

4.根据权利要求3所述的方法，其特征在于，将所述状态观测值与所述动作偏好向量通过所述处理器加载并输入所述策略网络中，输出所述无人机飞行任务的动作概率向量，基于所述动作概率向量获取第二权重值，包括：

将所述状态观测值与所述动作偏好向量通过所述处理器加载并输入所述策略网络中，根据所述模糊策略网络的参数构建所述动作偏好向量的最大化目标函数；

根据所述最大化目标函数输出所述无人机飞行任务的动作概率向量，基于所述动作概率向量获取第二权重值。

5.根据权利要求4所述的方法，其特征在于，根据所述第一权重值与所述第二权重值确定所述无人机飞行任务的执行动作，并将飞行任务决策过程存入存储器，包括：

根据所述第一权重值与所述第二权重值确定所述无人机飞行任务的执行动作：

；

其中，

为所述无人机飞行任务的执行动作，/>

、/>

分别为所述第一权重值与所述第二权重值，/>

，/>

为所述动作偏好向量，/>

为所述动作概率向量，/>

为锐化动作分布的参数；将所述执行动作与所述执行动作对应的飞行任务决策过程存入存储器；

所述飞行任务决策过程包括：当前时刻状态观测值、所述当前时刻状态观测值对应的当前时刻执行动作、所述当前时刻执行动作的奖励值以及下一时刻的状态观测值。

6.根据权利要求5所述的方法，其特征在于，从所述存储器中提取所述飞行任务决策过程，并分别输入至所述策略网络与所述价值网络，通过所述策略网络与所述价值网络共同进行所述模糊策略网络的参数更新，得到真实的飞行任务数据，包括：

从所述存储器中提取所述无人机飞行任务决策过程，并分别输入至所述处理器的所述策略网络与所述价值网络，通过所述价值网络输出所述策略网络的优势函数与所述价值网络的价值函数；

根据所述优势函数计算目标函数更新所述策略网络，并更新所述知识推理模块，以及所述价值函数更新所述价值网络；

根据更新后的所述知识推理模块、所述策略网络以及所述价值网络进行所述模糊策略网络的参数更新，得到真实的飞行任务数据。

7.根据权利要求6所述的方法，其特征在于，更新所述知识推理模块，包括：

所述策略网络的优化器根据更新后的所述模糊策略网络与更新前的所述模糊策略网络重构最大化目标函数，将所述重构最大化目标函数输入至所述知识推理模块进行更新。

8.根据权利要求7所述的方法，其特征在于，根据更新后的参数采用误差运算更新所述价值网络，包括：

根据当前时刻期望值与下一时刻期望值生成均方误差，通过所述均方误差更新所述价值函数，根据更新后的所述价值函数更新所述价值网络。

9.一种基于模糊规则的飞行任务数据获取装置，其特征在于，所述装置包括：

状态获取模块，用于获获取无人机飞行任务的状态观测值，将所述状态观测值输入处理器的模糊策略网络；所述模糊策略网络包括：知识推理模块、策略网络以及价值网络；

第一权重值获取模块，用于通过所述知识推理模块对所述状态观测值进行处理，输出执行所述无人机飞行任务的动作偏好向量，基于所述动作偏好向量获取第一权重值；

第二权重值获取模块，用于将所述状态观测值与所述动作偏好向量通过所述处理器加载并输入所述策略网络中，输出所述无人机飞行任务的动作概率向量，基于所述动作概率向量获取第二权重值；

存储模块，用于根据所述第一权重值与所述第二权重值确定所述无人机飞行任务的执行动作，并将飞行任务决策过程存入存储器；

任务数据获取模块，用于从所述存储器中提取所述飞行任务决策过程，并分别输入至所述策略网络与所述价值网络，通过所述策略网络与所述价值网络共同进行所述模糊策略网络的参数更新，得到真实的飞行任务数据。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。