CN113343592B

CN113343592B - 一种新能源飞机的永磁同步电机dqn智能控制方法

Info

Publication number: CN113343592B
Application number: CN202110854369.9A
Authority: CN
Inventors: 齐义文; 李鑫; 赵铁楠; 刘远强; 项松; 王书礼; 康桂文; 赵为平; 张弛; 侯百乐
Original assignee: Liaoning Ruixiang General Aviation Co ltd; Shenyang Aerospace University
Current assignee: Liaoning Ruixiang General Aviation Co ltd; Shenyang Aerospace University
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2023-11-17
Anticipated expiration: 2041-07-28
Also published as: CN113343592A

Abstract

本发明提供一种新能源飞机的永磁同步电机DQN智能控制方法，通过深度Q网络强化学习方法建立永磁同步电机的值网络与目标网络，将强化学习方法与矢量控制相结合，根据控制指令和反馈参数结合ε‑greedy算法，得到适宜的电机交轴电压；按所述交轴电压对永磁同步电机进行控制，并根据系统的反馈更新动作值网络与目标网络。本发明采用DQN方法构建永磁同步电机控制器，随着训练次数的增加，电机动态、稳态特性逐步提升，进而在空载启动、带载启动和突变负载这三种运行状态分别进行仿真测试，均表现出优异的控制性能。此外，DQN控制器可不断累积经验，对不同的控制指令和转矩要求，可迅速调整交轴电压，实现具有自主学习能力的永磁同步电机快速、稳定控制。

Description

一种新能源飞机的永磁同步电机DQN智能控制方法

技术领域

本发明属于电机控制与仿真技术领域，具体涉及了一种新能源飞机的永磁同步电机DQN智能控制方法。

背景技术

新能源飞机不以传统意义上的化石燃料为能源，利用新型能源如太阳能、电能等，通过电动机带动螺旋桨、涵道风扇或其他装置产生前进动力。电机作为新能源飞机的动力，其性能的优劣直接决定飞行状态的可靠性与稳定性。与传统电机相比，永磁同步电机的转子外围省却了线圈铁芯构成的电励磁装置，以永磁体取而代之，避免了电刷、换向器等不可靠器件的影响，具有体积小、转矩惯性比高、转矩响应快等优点。目前，永磁同步电机已被广泛应用于新能源动力系统，设计快速、准确、稳定和具有一定自主学习能力的控制系统是关键。然而，对永磁同步电机这一具有强非线性、参数时变、多工作模式的复杂系统，采用PID、滑模、模糊等传统控制方法难以使新能源飞机在全包线和变工况下达到自主学习的理想控制效能。传统控制技术也无法使电机在最小转矩脉动和电流波动范围内达到最优化性能。因此，探索新型智能控制方法十分重要。

人工智能是新一轮科技革命和产业变革的重要驱动力量，已经取得重大技术突破，正推动众多行业向智能化、自动化发展，被广泛应用于图像处理、无人驾驶、智能机器人等领域。作为最新成果之一，深度强化学习技术集成了深度学习强大的感知和理解能力，以及强化学习的决策能力，解决了智能体在与环境交互中如何自动获得最优化预期的问题。深度强化学习被认为是复杂系统控制与决策领域最有潜力的方法，是通向强人工智能的核心技术。

然而，深度强化学习方法在永磁同步电机控制领域的应用尚不多见。若将深度强化学习技术与矢量控制相结合，电机控制器可以充分挖掘系统离、在线数据，并在与电机交互过程中不断优化动作输出，可望有效解决传统调速系统电流环响应速度慢导致的转矩动态性能差等问题。同时，可以通过构造奖励机制，使控制器在电机参数失配和强负载扰动情况下，实现转速与转矩的协调控制，快速地达到转速跟踪和转矩平衡。

发明内容

针对现有技术存在的不足，本发明提供一种新能源飞机的永磁同步电机DQN智能控制方法，通过深度Q网络(简称DQN)强化学习方法建立电机控制器，并对空载启动、带载启动、突变负载这三种运行状态进行自适应训练学习，使得电机在不同工况下仍表现出较好的动、稳态特性，实现新能源飞机驱动电机的高效运行。

一种新能源飞机的永磁同步电机DQN智能控制方法，包括：

步骤1：建立新能源飞机的永磁同步电机数学模型；

步骤2：定义永磁同步电机控制Agent、状态空间S、动作空间A和奖励函数Reward；

步骤3：利用深度Q网络强化学习方法对深度神经网络进行训练，得到训练后的深度神经网络；

步骤4：利用训练后的深度神经网络控制永磁同步电机。

所述步骤1包括：

步骤1.1：根据矢量控制原理完成SVPWM算法的建模；

步骤1.2：根据新能源飞机的不同飞行状态及功率确定永磁同步电机的内部参数。

所述步骤2包括：

步骤2.1：永磁同步电机控制智能体Agent使用深度Q网络强化学习方法，构建深度神经网络Q^V为值网络，初始化经验回放记忆池D为空；

步骤2.2：设计状态空间S、动作空间A和奖励函数Reward。

所述步骤3包括：

步骤3.1：构造和值网络Q^V结构相同的目标网络Q^T，初始化动作选择机制ε-greedy算法中的ε，ε取值范围为0～1；

步骤3.2：将当前永磁同步电机状态s输入至值网络Q^V中，输出当前永磁同步电机状态s下所有动作a的Q值Q(s，a；θ^V)，生成一个随机数rand，rand取值范围为0～1，如果rand＜ε，则从动作空间A中随机选择一个动作a作为控制器输出，即a∈U(A)，U(A)为动作空间A的集合；如果rand≥ε，则令a＝argmaxQ(s，a；θ^V)，其中argmaxQ(s，a；θ^V)为取最大Q值所对应动作a的函数；

步骤3.3：永磁同步电机转移到下一个状态s′，通过奖励函数Reward计算奖励值r，并将样本(s，a，r，s′)送至经验回放记忆池D中；

步骤3.4：经验回放记忆池D中存满数据后，随机采样q个数据，通过误差反向传播最小化损失函数r_i为第i个数据所记录奖励值，θ^T为深度神经网络的网络参数，具体包括权值和偏置，γ为折扣因子，采用梯度下降法更新Q^V网络参数θ^V，进而实现深度神经网络的训练；

步骤3.5：每隔ξ个仿真周期将更新后值网络Q^V中的参数θ^V复制到Q^T中，即θ^T＝θ^V；

步骤3.6：重复步骤3.2～步骤3.5直到单轮仿真累计奖励值大于所设定的阈值，得到训练后的深度神经网络。

所述步骤4包括：

步骤4.1：令ε-greedy算法中的ε＝0，使Agent利用训练后的深度神经网络进行永磁同步电机的控制；

步骤4.2：将永磁同步电机模型当前状态s输入至深度值网络Q^V，输出当前永磁同步电机状态s下所有动作a的Q值Q(s，a；θ^V)，使得a＝argmaxQ(s，a；θ^V)，执行动作a，重复步骤4.2实现对永磁同步电机控制。

所述步骤1.1中采用i_d＝0的矢量控制策略，SVPWM算法为七段式SVPWM算法。

所述步骤2.1中深度神经网络分别包括状态网络和动作网络两个子部分，经验回放记忆池D用于记录样本(s，a，r，s′)，其中s表示当前永磁同步电机状态，a表示在当前永磁同步电机状态s下选择并执行的动作，s′表示在当前永磁同步电机状态s下执行a后的下一状态，r表示在当前永磁同步电机状态s下执行a得到的奖励值；

所述步骤2.2中状态空间S为当前时刻的永磁同步电机转速差、实际转速、转矩差、直轴电流i_d、交轴电压u_q和上一时刻的转速差，动作空间A为交轴电压u_q；

所述步骤2.2中奖励函数中的总奖励R_add由转速差、直轴电流i_d、转矩差与上一时刻转速差值决定，其值的大小遵循所述转速差、直轴电流i_d、转矩差与上一时刻转速差值的绝对值越小奖励越高的原则。

所述步骤3.2中Q值Q(s，a；θ^V)的计算公式如下：

其中，和/>均为权重矩阵，/>和b_a2∈R^p为偏置列向量，R表示实数，m_i为第i层神经网络节点个数，n为神经网络输入层维度，p为神经网络输出层节点数，σ(·)为Relu激活函数，s∈Rⁿ，s为永磁同步电机状态列向量，s∈Rⁿ，a∈R^p，a为交轴电压u_q动作列向量。

本发明的有益技术效果：

本发明提出一种新能源飞机的永磁同步电机DQN智能控制方法，将DQN技术应用于永磁同步电机控制，满足新能源飞机各工况飞行所需动力性能要求，解决电机参数发生变化或突变负载运行导致的控制器“失真”现象，控制器可不断累积经验，通过调整最优动作电压u_q，使电机在空载启动、带载启动和突变负载运行状态的转速及转矩具有更快的响应速度和更小的稳态误差。所述一种新能源飞机的永磁同步电机DQN智能控制方法具有自主学习能力，使电机动、稳态性能随着训练次数的增加而不断提高，从而提高电机的整体性能。

附图说明

图1为本发明中新能源飞机的永磁同步电机DQN智能控制方法流程图；

图2为本发明实施例提供的基于传统PI调节的永磁同步电机矢量控制框图；

图3为本发明实施例提供的深度Q网络强化学习方法与矢量控制相结合的控制框图；

图4为本发明实施例提供的深度Q网络中的神经网络结构图；

图5为本发明实施例提供的永磁同步电机空载启动运行的转速仿真对比图；

图6为本发明实施例提供的永磁同步电机带载启动运行的转速仿真对比图；

图7为本发明实施例提供的永磁同步电机带载启动运行的转矩仿真对比图；

图8为本发明实施例提供的永磁同步电机突变负载启动运行的转速仿真对比图；

图9为本发明实施例提供的永磁同步电机突变负载启动运行的转矩仿真对比图。

具体实施方式

针对现有传统控制技术对永磁同步电机这一类复杂非线性系统控制精度不足、鲁棒性较差、响应速度慢、不具备自主学习能力等缺点，本发明的解决思路是将DQN方法应用于永磁同步电机控制，采用DQN方法构建双网络结构，建立了具有自主学习能力的控制器。以转速误差、转矩脉动、电流波动等为约束指标构造奖励机制，在电机状态收敛条件下，最大限度实现智能体对动作电压的“试错”功能。并随训练次数的增加，电机的动、稳态特性不断提高。同时，使得电机在最小转矩脉动和电流波动范围内获得性能最优的网路参数，进一步提高电机整体性能，实现新能源飞机驱动电机的高效运行。

下面结合附图来对本发明的技术方案进行详细说明：

一种新能源飞机的永磁同步电机DQN智能控制方法，如图1所示，包括：

步骤1：建立新能源飞机的永磁同步电机数学模型，包括：

步骤1.1：根据矢量控制原理完成SVPWM算法的建模，采用i_d＝0的矢量控制策略，SVPWM算法的合成方式采用基于软件模式的合成(七段式SVPWM算法)，基于传统PI调节的矢量控制如图2所示。本发明在此基础上，通过深度Q网络强化学习方法与矢量控制相结合，实现永磁同步电机的自学习控制。图3为永磁同步电机强化学习控制框图；

步骤1.2：根据新能源飞机的不同飞行状态及功率确定永磁同步电机的内部参数；

所述步骤1.2中永磁同步电机的部分模型参数参照了A37K154电动机，其定子电压数学模型为：

其中，u_d、u_q分别是定子电压的d-q轴分量；i_d、i_q分别是定子电流的d-q轴分量；R是定子电阻；ω_e是电角速度；L_d、L_q分别是d-q轴电感分量；φ_f是永磁体磁链。本发明所述新能源飞机型号为锐翔RX1E型双座通用飞机，为满足其满载起飞功率P_ld、满载平飞功率P_cm和满载爬升功率P_am的要求，需要电动机的转速达到2000r/min时输出功率为30KW，输出最大功率为50KW，并可在最大功率状态下至少保持30s的运行时间。通过修改永磁同步电机模型的内部参数，使其满足上述电机特性。具体地，采用表贴式三相永磁同步电机，定子电感L_d＝L_g＝L_s＝0.532mH、R_s＝0.3Ω、φ_f＝0.14Wb、J＝0.011kg.m²、B＝0.001889N.m.s和P_n＝10。其中，L_s为相电感、R_s为相电阻、J为转动惯量、B为阻尼系数、P_n为极对数。

步骤2：定义永磁同步电机控制Agent、状态空间S、动作空间A和奖励函数Reward，包括：

步骤2.1：永磁同步电机控制智能体Agent使用深度Q网络强化学习方法，构建深度神经网络Q^V为值网络，初始化经验回放记忆池D为空；本发明构建的深度神经网络结构如图4所示，深度神经网络分别包括状态网络和动作网络两个子部分，状态网络结构为1个输入层、3个隐层和1个输出层，动作网络结构为1个输入层、2个隐层和1个输出层；经验回放记忆池D用于记录样本(s，a，r，s′)，其中s表示当前永磁同步电机状态，a表示在当前永磁同步电机状态s下选择并执行的动作，s′表示在当前永磁同步电机状态s下执行a后的下一状态，r表示在当前永磁同步电机状态s下执行a得到的奖励值；

步骤2.2：设计状态空间S、动作空间A和奖励函数Reward；状态空间S为当前时刻的永磁同步电机转速差、实际转速、转矩差、直轴电流i_d、交轴电压u_q和上一时刻的转速差，动作空间A为交轴电压u_q，动作a范围为0～400V，动作步长为2V，共201个动作；奖励函数中的总奖励R_add由转速差、直轴电流i_d、转矩差与上一时刻转速差值决定，其值的大小遵循所述转速差、直轴电流i_d、转矩差与上一时刻转速差值的绝对值越小奖励越高的原则；

奖励函数设计如下：

rewardN_e＝-10*N_e²

rewardT_e＝-10*T_e²

rewardN_memory＝-10*N_memory²

R_add＝rewardN_e+rewardi_d+rewardT_e+rewardN_memory

其中，rewardN_e为转速差奖励、rewardi_d为直轴电流i_d奖励、rewardT_e为转矩差奖励、rewardN_memory为上一时刻转速差奖励、R_add为总奖励、N_e为转速差、i_d为直轴电流、T_e为转矩差、N_memory为上一时刻转速差。

步骤3：利用深度Q网络强化学习方法对深度神经网络进行训练，得到训练后的深度神经网络，包括：

步骤3.1：构造和值网络Q^V结构相同的目标网络Q^T，初始化动作选择机制ε-greedy算法中的ε，ε取值范围为0～1；本发明取ε初始值为0.8；

ε-greedy算法如下：

其中，Q值Q(s，a；θ^V)的计算公式如下：

其中，和/>均为权重矩阵，/>和b_a2∈R^p为偏置列向量，R表示实数，m_i为第i层神经网络节点个数，n为神经网络输入层维度，p为神经网络输出层节点数，σ(·)为Relu激活函数，s∈Rⁿ，s为永磁同步电机状态列向量，s∈Rⁿ，a∈R^p，a为交轴电压u_q动作列向量，也称动作集合；

步骤3.3：永磁同步电机转移到下一个状态s′，通过步骤2.2中定义的奖励函数Reward计算奖励值r，并将样本(s，a，r，s′)送至经验回放记忆池D中；

步骤3.4：经验回放记忆池D中存满数据后，随机采样q个数据，通过误差反向传播最小化损失函数r_i为第i个数据所记录奖励值，θ^T为深度神经网络的网络参数，具体包括权值和偏置，γ为折扣因子，γ越小，则Agent越重视眼前奖励，本发明中q取值为256，γ取值为0.9，采用梯度下降法更新Q^V网络参数θ^V，进而实现深度神经网络的训练；

梯度下降法公式如下：

其中，α为Q网络更新步长，α＝0.01。鉴于每轮仿真Agent与永磁同步电机模型的交互次数是可获取的，而每次交互获得的奖励值也是可记录的，当网络收敛至最优动作价值函数时，控制器每次交互均可得到最大的奖励值。基于此，将网络更新收敛条件设为单轮仿真累计奖励值最大，即控制器每次交互获得的奖励值均为最大。

步骤3.5：每隔四个仿真周期将更新后值网络Q^V中的参数θ^V复制到Q^T中，即θ^T＝θ^V，其中θ^T、θ^V分别代表目标网络Q^T与值网络Q^V的网络参数；

步骤3.6：重复步骤3.2～步骤3.5直到单轮仿真累计奖励值大于所设定的阈值，得到训练后的深度神经网络；

步骤4：利用训练后的深度神经网络控制永磁同步电机，包括：

步骤4.2：将永磁同步电机模型当前状态s输入至深度值网络Q^V，输出当前永磁同步电机状态s下所有动作a的Q值Q(s，a；θ^V)，使得a＝argmaxQ(s，a；θ^V)，执行动作a，重复步骤4.2实现对永磁同步电机的控制；

所述步骤4.2中永磁同步电机强化学习控制的三种运行状态仿真过程如下：

首先，对永磁同步电机的空载启动运行状态进行仿真测试，并与传统PID控制方法比较，对比结果如图5所示。设置电机给定转速为额定转速，即N_ref＝2000r/min，电机负载转矩为T_L＝0N·m。从仿真结果可见，DQN控制器在满足控制精度的前提下，实现了转速的无超调控制，调节时间为0.005s，比PID方法的耗时更短。

其次，对永磁同步电机的带载启动运行状态进行仿真测试，并与传统PID控制方法比较，转速和转矩结果分别如图6、图7所示。设置电机给定转速为额定转速，电机负载转矩为T_L＝150N·m。从仿真结果可见，DQN控制器在满足控制精度的前提下，转速控制超调更小(0.4％)，调节时间更短(0.003s)，且在额定负载运行状态下，使电磁转矩以更快的速度跟随负载转矩。

最后，对永磁同步电机的突变负载运行状态进行仿真测试，并与传统PID控制方法比较，转速和转矩结果分别如图8、图9所示。设置电机给定转速为额定转速，初始时刻电机负载转矩为T_L＝0N·m，在t＝0.2s时负载转矩调整为T_L＝150N·m。从仿真结果可见，DQN控制器在满足控制精度的前提下，不仅有效减小了超调量(0.2％)、缩短了调节时间(0.001s)、提高了电机实际转速与电磁转矩的响应速度，且在突加负载情况下，使系统快速恢复稳定，具有较强的鲁棒性。

由此可见，强化学习方法应用于永磁同步电机控制可以获得良好的控制性能。上述实验结果均验证了本发明优于传统PID控制方法，实现了电机动、稳态下的快速稳定控制，显著提高了电机转速和转矩的调节速度，有效改善了电机整体性能。

Claims

1.一种新能源飞机的永磁同步电机DQN智能控制方法，其特征在于，包括：

步骤1：建立新能源飞机的永磁同步电机数学模型；

步骤2：定义永磁同步电机控制智能体Agent、状态空间S、动作空间A和奖励函数Reward；

步骤4：利用训练后的深度神经网络控制永磁同步电机；

所述步骤3包括：

步骤3.2：将永磁同步电机数学模型输出的当前状态s输入至值网络Q^V中，输出当前永磁同步电机状态s下所有动作a的Q值Q(s,a；θ^V)，生成一个随机数rand，rand取值范围为0～1，如果rand＜ε，则从动作空间A中随机选择一个动作a作为控制器输出，即a∈U(A)，U(A)为动作空间A的集合；如果rand≥ε，则令a＝arg maxQ(s,a；θ^V)，其中arg maxQ(s,a；θ^V)为取最大Q值所对应动作a的函数；

步骤3.3：永磁同步电机转移到下一个状态s'，通过奖励函数Reward计算奖励值r，并将样本(s,a,r,s')送至经验回放记忆池D中；

步骤3.4：经验回放记忆池D中存满数据后，随机采样q个数据，通过误差反向传播最小化损失函数r_i为第i个数据所记录奖励值，θ^T为深度神经网络的网络参数，γ为折扣因子，采用梯度下降法更新Q^V网络参数θ^V，进而实现深度神经网络的训练；

所述步骤3.2中Q值Q(s,a；θ^V)的计算公式如下：

其中，和/>均为权重矩阵，和b_a2∈R^p为偏置列向量，R表示实数，m_i为第i层神经网络节点个数，n为神经网络输入层维度，p为神经网络输出层节点数，σ·为Relu激活函数，s∈Rⁿ，s为永磁同步电机状态列向量，s∈Rⁿ，a∈R^p，a为交轴电压u_q动作列向量。

2.根据权利要求1所述的一种新能源飞机的永磁同步电机DQN智能控制方法，其特征在于，所述步骤1包括：

步骤1.1：根据矢量控制原理完成SVPWM算法的建模；

步骤1.2：根据新能源飞机的不同飞行状态及功率确定永磁同步电机的内部参数，得到具体的数学模型表达式。

3.根据权利要求1所述的一种新能源飞机的永磁同步电机DQN智能控制方法，其特征在于，所述步骤2包括：

步骤2.2：设计状态空间S、动作空间A和奖励函数Reward。

4.根据权利要求1所述的一种新能源飞机的永磁同步电机DQN智能控制方法，其特征在于，所述步骤4包括：

步骤4.2：将永磁同步电机数学模型输出的当前状态s输入至深度值网络Q^V，输出当前永磁同步电机状态s下所有动作a的Q值Q(s,a；θ^V)，使得a＝arg max Q(s,a；θ^V)，执行动作a，重复步骤4.2实现对永磁同步电机控制。

5.根据权利要求2所述的一种新能源飞机的永磁同步电机DQN智能控制方法，其特征在于：所述步骤1.1中采用i_d＝0的矢量控制策略，SVPWM算法为七段式SVPWM算法。

6.根据权利要求3所述的一种新能源飞机的永磁同步电机DQN智能控制方法，其特征在于：所述步骤2.1中深度神经网络分别包括状态网络和动作网络两个子部分，经验回放记忆池D用于记录样本(s,a,r,s')，其中s表示当前永磁同步电机状态，a表示在当前永磁同步电机状态s下选择并执行的动作，s'表示在当前永磁同步电机状态s下执行a后的下一状态，r表示在当前永磁同步电机状态s下执行a得到的奖励值；