CN111753464B

CN111753464B - 一种无人直升机模型在线学习方法及系统

Info

Publication number: CN111753464B
Application number: CN202010476465.XA
Authority: CN
Inventors: 康宇; 王雪峰; 张倩倩; 吕文君
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2022-07-15
Anticipated expiration: 2040-05-29
Also published as: CN111753464A

Abstract

本发明公开了一种无人直升机模型在线学习方法及系统，属于无人机技术领域，包括：根据固定世界参考坐标系和以无人直升机质心为原点建立的随体坐标系，构建具有不确定项的无人直升机模型；利用无人直升机历史飞行数据对两个残差卷积子网络进行训练，得到训练好的两个子网络；利用训练好的两个子网络和动态哈达玛积层构建深度持续学习网络模型；利用深度持续学习网络模型学习无人直升机模型中的不确定项，实现在线动态学习无人直升机模型。本发明能利用无人直升机历史数据流在线动态学习模型，实现在线多种特技动作状态多步预测，具有良好的泛化能力，鲁棒性好。

Description

一种无人直升机模型在线学习方法及系统

技术领域

本发明涉及无人机技术领域，特别涉及一种基于深度连续学习网络的无人直升机模型在线学习方法及系统。

背景技术

无人飞行器根据结构可分为固定翼、多旋翼、复合翼及具有尾旋翼桨的单旋翼无人机(也称为无人直升机)。通过调节变距系统，无人直升机可以实现诸如翻转、滚动、定点悬停等特技飞行。由于其具有良好的飞行性能，在军事及民用领域均有广泛的应用场景。无人直升机灵活高机动的特点使其在军事领域适用于复杂地形低空飞行，而民用领域，无人机可用于农业自动化、地理信息检测、特技表演等场景。但是要实现无人直升机的广泛应用，需要其具有能适应复杂多变外界环境的能力。因为无人直升机是一个复杂的非线性动力学系统，自身刚体动力学与外部空气动力学以及内部发动机动力学高度耦合，使得其系统模型学习一直是个具有挑战性的问题。特技直升机模型学习的主要困难是找到一种合理的方法来提取潜变量之间的关系。

为此，国内外在无人直升机模型学习上做出过一些研究：

Ali Punjani考虑使用时滞输入直接学习系统动力学模型，使用具有ReLU型激活函数的前馈神经网络，在人类操作手演示获取到的状态动作轨迹中训练学习直升机加速度模型。Mohajerin等人使用递归神经网络(Recurrent Neural Network，RNN)进行四旋翼与直升机状态多步预测，考虑RNN初始化问题，使用多种形式神经网络生成RNN初始状态值，然后使用长短时记忆网络(Long-Short Term Memory，LSTM)学习无人直升机模型。

康宇等考虑到动力系统状态具有时空相关性，提出深度卷积辨识器，使用深度卷积神经网络提取直升机飞行数据时空特征，并在此基础上设计控制器。

但是上述方法均没有考虑无人直升机系统在实际运行过程中，模型受外界气动作用而具有时变属性，需要在线动态学习。

发明内容

本发明的目的在于克服现有技术存在的缺陷，实现无人直升机模型的在线动态更新。

为实现以上目的，本发明采用一种无人直升机模型在线学习方法，包括：

根据固定世界参考坐标系和以无人直升机质心为原点建立的随体坐标系，构建具有不确定项的无人直升机模型；

利用无人直升机历史飞行数据对两个残差卷积子网络进行训练，得到训练好的两个子网络；

利用训练好的两个子网络和动态哈达玛积层构建深度持续学习网络模型；

利用深度持续学习网络模型学习无人直升机模型中的不确定项，实现在线动态学习无人直升机模型。

进一步地，所述构建的具有不确定项的无人直升机模型为：

其中，r＝[x，y，z]^T为无人直升机的位置，其中右上标T表示向量转置，q＝[q₁，q₂，q₃，q₄]^T为姿态四元数表示，v＝[v_x，v_y，v_z]^T，w＝[w_x，w_y，w_z]^T分别为随体坐标系中直升机线速度与角速度，

为直升机位置r对时间的导数，

为直升机姿态对时间导数，

分别为直升机线加速度与角加速度，将线速度、角速度、线加速度、角加速度组成一个向量

称之为直升机状态变量，u＝[u₁,u₂,u₃,u₄]为控制输入，β表示所述深度持续学习网络模型权重参数，C₁₂为参考系变换矩阵，g为重力加速度，

为位姿导数变换矩阵，f_v(s,u,β)是未知的线加速度，f_ω(s,u,β)是未知的角加速度，两者可表示为直升机状态变量s、控制量u、及深度持续学习网络模型权重参数β的函数形式，所述构建的深度持续学习网络用于学习f的参数化表示。

进一步地，在所述利用无人直升机历史飞行数据对两个残差卷积子网络进行训练，得到训练好的两个子网络之前，还包括：

对所述无人直升机历史飞行数据进行预处理，并将预处理后的数据划分为训练数据集和测试数据集；

相应地，所述利用无人直升机历史飞行数据对两个残差卷积子网络进行训练，得到训练好的两个子网络，具体为：

利用训练数据集对两个残差卷积子网络进行训练，得到训练好的两个子网络。

进一步地，所述对所述无人直升机历史飞行数据进行预处理，并将预处理后的数据划分为训练数据集和测试数据集，包括：

采用zero-score方法对所述历史飞行数据x进行标准化处理，得到归一化后样本x′；

将归一化后的样本中的动作状态数据与控制数据分别按照设定的时长从起始时间逐步滑动生成动作状态数据轨迹片段和控制数据轨迹片段；

将动作状态数据轨迹片段中前m₁个时间步数据和控制数据轨迹片段中前m₁个时间步数据一起作为历史信息数据，将控制数据轨迹片段中后m₂个时间步数据作为未来控制输入数据，将动作状态数据轨迹片段中后m₃个时间步数据作为未来状态真实标签；

将归一化后的样本数据按照设定的比例划分为训练数据集和测试数据集

进一步地，所述利用训练数据集对两个残差卷积子网络进行训练，得到训练好的两个子网络，包括：

从所述训练数据集中分别随机抽取样本构成子训练数据集D_i,i＝1,2；

利用Xavier初始化方法初始化所述两个残差卷积子网络的权值，使权值满足均匀分布；

在两个子训练数据集分别迭代训练所述两个残差卷积子网络N个回合，得到训练好的两个子网络

在训练过过程中损失函数采用均方差函数，所述两个残差卷积子网络的参数更新采用Adam更新方法。

进一步地，所述构建的深度持续学习网络模型，包括：两个子网络分别经全连接与动态哈达玛积层连接；每个所述子网络包括两个卷积网络模块，分别用于对所述历史信息数据和未来控制输入数据进行特征提取。

进一步地，所述利用深度持续学习网络模型学习无人直升机模型中的不确定项，实现在线动态学习无人直升机模型，包括：

固定所述两个子网络的权值不变，并在所述训练数据集上训练所述动态哈达玛积层参数；

在任意时刻，保持所述两个子网络的权值不变，在在线获取的训练数据基础上采用Adam更新方法更新所述动态哈达玛积层参数，所述在线获取的数据包括在线获取的历史信息数据、未来控制输入数据以及未来状态真实标签；

利用更新后的深度持续学习网络模型对未来时间步内的无人直升机系统的动作状态进行预测。

另一方面，提供一种无人直升机模型在线学习系统，包括：直升机模型构建模块、训练模块、网络模型构建模块和动态学习模块；

直升机模型构建模块用于根据固定世界参考坐标系和以无人直升机质心为原点建立的随体坐标系，构建具有不确定项的无人直升机模型；

训练模块用于利用无人直升机历史飞行数据对两个残差卷积子网络进行训练，得到训练好的两个子网络；

网络模型构建模块用于利用训练好的两个子网络和动态哈达玛积层构建深度持续学习网络模型；

动态学习模块用于利用深度持续学习网络模型学习无人直升机模型中的不确定项，实现在线动态学习无人直升机模型。

进一步地，所述构建的具有不确定项的无人直升机模型为：

为直升机位置r对时间的导数，

为直升机姿态对时间导数，

进一步地，还包括预处理模块，用于对所述无人直升机历史飞行数据进行预处理，并将预处理后的数据划分为训练数据集和测试数据集。

与现有技术相比，本发明存在以下技术效果：本发明能利用无人直升机历史数据流在线动态学习模型，在特技动作训练数据集上进行预训练后得到的网络能实现在线多种特技动作状态多步预测，具有良好的泛化能力，鲁棒性好。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种无人直升机模型在线学习方法的流程示意图；

图2是深度持续学习网络模型的结构示意图；

图3是一种无人直升机模型在线学习系统的结构示意图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种无人直升机模型在线学习方法，包括如下步骤S1至S4：

S1、根据固定世界参考坐标系和以无人直升机质心为原点建立的随体坐标系，构建具有不确定项的无人直升机模型；

S2、利用无人直升机历史飞行数据对两个残差卷积子网络进行训练，得到训练好的两个子网络；

S3、利用训练好的两个子网络和动态哈达玛积层构建深度持续学习网络模型；

S4、利用深度持续学习网络模型学习无人直升机模型中的不确定项，实现在线动态学习无人直升机模型。

需要说明的是，本实施例所采用的历史飞行数据可以是复杂飞行动作的数据比如特技飞行数据。

本实施例中对无人直升机运动学及动力学模型进行机理建模，构建具有不确定项的无人直升机模型，利用动态哈达玛积层和预先训练好的两个残差卷积子网络构建深度持续学习网络模型，然后利用构建的深度持续学习网络模型对无人直升机模型中的不确定项进行学习，实现无人直升机模型的在线动态更新，以适应无人直升机系统在实际运行过程中模型受外界气动作用而具有时变属性的特性。

具体来说，在地面建立固定世界参考系，以无人机直升机质心为原点建立随体坐标系，坐标系汇总与主旋翼面垂直方向为z轴方向，尾翼指向机身前端方向为x轴，与x,z轴垂直方向为y轴，所述构建的具有不确定项的无人直升机模型为：

为直升机位置r对时间的导数，

为直升机姿态对时间导数，

其中，C₁₂为参考系变换矩阵，具体形式为：

为位姿导数变换矩阵，具体形式为：

进一步地，在上述步骤S2：利用无人直升机历史飞行数据对两个残差卷积子网络进行训练，得到训练好的两个子网络之前，还包括：

相应地，上述步骤S3：利用无人直升机历史飞行数据对两个残差卷积子网络进行训练，得到训练好的两个子网络，具体为：

具体来说，对所述无人直升机历史飞行数据进行预处理，并将预处理后的数据划分为训练数据集和测试数据集，包括：

采用zero-score方法对所述历史飞行数据x进行标准化处理，得到归一化后样本数据x′；

将动作状态数据轨迹片段中前m₁个时间步数据和控制数据轨迹片段中前m₁个时间步数据一起作为历史信息数据，将控制数据轨迹片段中后m₂个时间步数据作为未来控制输入数据，将动作状态数据轨迹片段中后m₃个时间步数据作为未来状态真实标签，其中未来状态真实数据用于在模型训练环节监督网络模型学习。

将归一化后的样本数据按照设定的比例划分为训练数据集和测试数据集。

以下通过具体事例对无人直升机历史飞行数据进行预处理的过程进行解释：

首先采用zero-score方法对训练数据标准化，首先计算训练数据集均值μ与方差σ，对历史飞行数据样本x，使用如下公式标准化处理，得到归一化后样本x′：

x′＝(x-μ)/σ

需要说明的是，本实施例对训练数据标准化处理是神经网络模型数据预处理过程中常规操作，主要目的为了使模型训练过程稳定，不发散。

将归一化后的飞行数据集中20类特技动作状态数据与控制数据(需要说明的是，动作状态数据与控制数据是一对一的，故每种动作数据对应一种控制数据，也即共有20种动作状态与控制数据对类型)按0.57秒时长或57个时间步长度的窗口大小从起始时间步逐步滑动分别生成动作状态数据轨迹片段和控制数据轨迹片段。将动作状态数据轨迹片段及控制数据轨迹片段中前25个时间步数据作为历史信息数据，将控制数据轨迹片段中后32个时间步数据作为未来控制输入数据，最后将动作状态数据轨迹片段中后32个时间步数据作为未来状态真实标签。

从20种特技动作飞行数据类型中随机选择10种飞行类型所包含的动作状态数据与控制数据对作为训练数据集，余下10种作为测试数据集

进一步地，利用训练数据集对两个残差卷积子网络进行训练，得到训练好的两个子网络，具体包括如下细分步骤：

利用Xavier初始化方法初始化所述两个残差卷积子网络的权值，使权值满足均匀分布，均匀分布：

其中，n_j为神经网络第j层神经元个数，n_j+1为神经网络第j+1层神经元个数，U为均匀分布函数。

需要说明的是，该处的神经网络是统称，本实施例中的残差卷积网络为一种神经网络的具体实现，Xavier初始化方法不局限于本实施例中的残差卷积网络，而是对于神经网络普适的初始化方法。

具体地，损失函数选择均方差函数：

其中，

为多步状态预测结果，S_t+1:t+T为真实未来状态值，

子网络参数更新采用Adam更新方法：

m_t＝a₁·m_t-1+(1-α₁)·g_t

其中，

为以权重β_t为自变量的微分算子，g_t为损失函数对权重β_t的微分，m_t为一阶动量项，V_t为二阶动量项，α₁,a₂为超参，分别控制一阶和二阶动量更新，ε为学习率。

需要说明的是，本实施例中N选择为200，用于实现子网络模型的训练。

进一步地，上述步骤S3中的所构建的深度持续学习网络模型用以学习无人直升机模型中不确定项线加速度与角加速度f＝(f_v,f_ω)，包括：两个子网络分别经全连接与动态哈达玛积层连接；每个所述子网络包括两个卷积网络模块，分别用于对所述历史信息数据和未来控制输入数据进行特征提取。

所构建的深度持续学习网络模型如图2所示，其输入为直升机历史信息数据片段S_t-L:t＝[s_t-L,s_t-L+1,…,s_t]；U_t-L:t＝[u_t-L,u_t-L+1,…,u_/]，及未来控制输入数据片段U_t+1:t+T＝[u_t+1,u_t+2,…,u_t+T]，在本实施例中L＝32。两个残差卷积子网络具有相同的结构，但在不同的数据集上进行训练，子网络

将输入映射变换到特征空间，生成输入对应的特征表示F_１,F₂：

将特征表示使用动态哈达玛积层变换后得到上述的多步状态预测结果

其中，Λ_ｉ,i＝1,2是与F_ｉ,i＝1,2具有相同形状的参数向量，

为哈达玛积运算符。

残差卷积子网络使用两个卷积网络模块分别提取历史信息特征与未来控制输入特征，分别称其为历史信息特征提取器与未来控制输入特征提取器，两个卷积网络模块具体结构参数解释如下：

其中，历史信息特征提取器第一层为卷积层，具有16个卷积核，卷积核形状为[5,3]，填充形状为[0,1]；第二层为卷积层，具有32个卷积核，卷积核形状为[5,3]，填充形状为[0,1]；第三层为平均池化层，形状为[2,1]；第四层为卷积层，具有64个卷积核，卷积核形状为[3,3]，填充形状为[0,1]；第五层为平均池化层，形状为[2,2]。历史信息输入形状为[25,20]，经过历史信息特征提取器处理后变换为形状为[2560,1]的一维特征向量。

未来控制输入特征提取器第一层为卷积层，具有16个卷积核，卷积核形状为[5,5]，填充形状为[2,2]；第二层为卷积层，具有32个卷积核，卷积核形状为[5,5]，填充形状为[2,2]；第三层为平均池化层，形状为[2,2]；第四层为卷积层，具有64个卷积核，无填充；第五层为平均池化层，形状为[2,1]。未来控制输入形状为[32,8]，经过未来控制特征提取器处理后变换为形状为[1280,1]的一维特征向量。

将历史信息特征向量与未来控制特征向量拼接在一起，经过一个具有128个神经元的全连接层，得到降维特征向量，形状为[128,1]。将降维特征向量与历史信息输入及未来控制输入拼接，经过两层神经元数量分别为64,32的全连接层后得到形状为[32,1]的子网络预测特征F_ｉ,i＝1,2。

进一步地，上述步骤S4：利用深度持续学习网络模型学习无人直升机模型中的不确定项，实现在线动态学习无人直升机模型，包括如下细分步骤S41至S43：

S41、固定所述两个子网络的权值不变，并在所述训练数据集上训练所述动态哈达玛积层参数；

具体为：固定子网络权值不变，在训练数据集中预训练动态哈达玛积层参数，动态哈达玛积层参数初始化方法为Xavier初始化，损失函数选择均方差函数，参数更新方法采用Adam更新方法。在训练数据集上迭代训练深度持续学习网络框架10回合。

S42、在任意时刻，保持所述两个子网络的权值不变，在在线获取的训练数据基础上采用Adam更新方法更新所述动态哈达玛积层参数，所述在线获取的数据包括在线获取的历史信息数据、未来控制输入数据以及未来状态真实标签；

具体为：在线学习过程中，在t时刻时保持子网络权值参数固定不变，使用在线数据流中t-L-T时刻到t-T时刻历史状态量S_t-L-T:t-T＝[s_t-L-T,s_t-L-T+1,…,s_t-T]，及历史控制量U_t-L-T:t-T＝[u_t-L-T,u_t-L-T+1,…,u_t-T]作为新历史信息数据样本，U_t-T:t＝[u_t-T,u_t-T+1,…,u_t]作为新未来控制输入数据，S_t-T:t＝[S_t-T,s_t-T+1,…,s_t]作为新未来状态标签，用Adam更新方法动态更新哈达玛积层参数，实现无人机直升机在线动态学习。

S43、利用更新后的深度持续学习网络模型对未来时间步内的无人直升机系统的动作状态进行预测。

具体为：在动态更新后，深度持续学习网络模型对未来t+1到t+T共T个时间步内状态值进行预测，得到预测值

需要说明的是，本实施例中能利用无人直升机历史数据流在线动态学习模型，在10种特技动作训练数据集上进行预训练后得到的网络能实现在线20种特技动作状态多步预测，具有良好的泛化能力，鲁棒性好。

如图3所示，本实施例公开了一种无人直升机模型在线学习系统，包括：直升机模型构建模块10、训练模块20、网络模型构建模块30和动态学习模块40；

直升机模型构建模块10用于根据固定世界参考坐标系和以无人直升机质心为原点建立的随体坐标系，构建具有不确定项的无人直升机模型；

训练模块20用于利用无人直升机历史飞行数据对两个残差卷积子网络进行训练，得到训练好的两个子网络；

网络模型构建模块30用于利用训练好的两个子网络和动态哈达玛积层构建深度持续学习网络模型；

动态学习模块40用于利用深度持续学习网络模型学习无人直升机模型中的不确定项，实现在线动态学习无人直升机模型。

其中，所构建的具有不确定项的无人直升机模型为：

为直升机位置r对时间的导数，

为直升机姿态对时间导数，

其中，该系统还包括预处理模块，用于对所述无人直升机历史飞行数据进行预处理，并将预处理后的数据划分为训练数据集和测试数据集。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。