CN115964816B

CN115964816B - 基于深度强化学习的大功率风电磁齿轮箱优化设计方法

Info

Publication number: CN115964816B
Application number: CN202211559678.4A
Authority: CN
Inventors: 秦清海; 蔡彬; 邱雅兰; 褚晓广; 阚斌
Original assignee: Qufu Normal University
Current assignee: Qufu Normal University
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2024-02-09
Anticipated expiration: 2042-12-06
Also published as: CN115964816A

Abstract

本发明涉及一种基于深度强化学习的大功率风电磁齿轮箱优化设计方法，属风电领域。该磁齿轮箱包括低速级磁齿轮、中速级磁齿轮、高速级磁齿轮；以各级磁齿轮的转矩密度、内转子转矩脉动为优化目标，以各级磁齿轮的内转子外半径、铁芯厚度及其永磁体厚度，外转子铁芯厚度及其永磁体厚度，调磁块厚度及其圆心角角度，内外层气隙长度及轴向长度为待优化结构参数；基于拉丁超立方采样实验分别建立优化目标与待优化结构参数的代理模型；采用深度强化学习DQN算法，分别对待优化结构参数进行优化，确定各级磁齿轮待优化结构参数的最优组合。本发明可减少有限元实验次数并获取较多训练数据，可对高维优化问题进行高效求解，极大提高优化设计工作的效率。

Description

基于深度强化学习的大功率风电磁齿轮箱优化设计方法

技术领域

本发明涉及一种风电磁齿轮箱的优化设计方法，特别涉及一种基于深度强化学习的大功率风电磁齿轮箱优化设计方法，属于风力发电技术领域。

背景技术

风电齿轮箱作为双馈型风力发电机组和半直驱型风力发电机组的关键部件之一，在风电系统功率传输过程中扮演着重要角色。但现有齿轮箱采用机械齿轮啮合，需要复杂的注油润滑系统，体积大、笨重、成本高、噪声大、故障率高，需要定期维护；一旦发生故障，则维修费用高昂、停机时间长，带来巨大经济损失。

为此，本申请人发明了一种大功率风力发电机用磁齿轮箱(专利号：ZL2021221865651)，该磁齿轮箱由三级磁齿轮组成，第1级为低速级磁齿轮，第2级为中速级磁齿轮，第3级为高速级磁齿轮组成，具有物理隔离特性，无机械接触，无需润滑，体积小、重量轻、能耗低，传输转矩大，从而可大大降低大型风电机组，尤其是双馈型风电机组的运行维护成本，提高系统运行性能和可靠性。

但对于大功率风电磁齿轮箱这一大型且数据交互丰富的传动系统而言，其磁齿轮结构参数的优化设计，涉及到多维、离散参数类型的优化，本质上是一类复杂的具有多重约束的非线性多目标优化问题。因磁齿轮箱通常由多级磁齿轮构成，而各级磁齿轮的性能往往是相互耦合和矛盾的，故通常不存在同时满足多个性能指标的最优解。近年来基于Pareto理论的多目标优化算法为解决复杂的非线性规划问题提供了新途径。但目前，多目标优化仍存在计算量大、计算速度慢以及优化效率低等缺点。

鉴于深度强化学习DQN算法(Deep Q-learning Network，深度Q—学习网络)能够积累智能体在环境中搜索的经验，训练出有效的价值函数网络，该网络在解决相似的问题时具有更快的收敛速度，而且在解决高维、离散的参数优化问题中深度强化学习表现出显著优势，不仅能够保证数据处理的时效性，同时可以节约存储空间，本发明结合大功率风电磁齿轮箱各级磁齿轮的不同性能要求，采用深度强化学习策略对风电磁齿轮箱各级磁齿轮结构参数进行优化以使其转矩密度最大化、转矩脉动最小化。

发明内容

本发明的主要目的在于：针对现有技术存在的不足，本发明提供一种基于深度强化学习的大功率风电磁齿轮箱优化设计方法，以提高实验效率、节省计算时间，确保各级磁齿轮的输出性能满足设计要求，提高系统的运行性能和可靠性。

为了达到以上目的，本发明所述大功率风电磁齿轮箱，包括：低速级磁齿轮、中速级磁齿轮、高速级磁齿轮；所述低速级磁齿轮、中速级磁齿轮、高速级磁齿轮分别称为第1级磁齿轮、第2级磁齿轮和第3级磁齿轮，它们均为同轴磁齿轮；所述同轴磁齿轮包括：外转子、内转子和调磁环、主动轴、从动轴；所述外转子包括外转子铁芯及外转子永磁体；所述内转子包括内转子铁芯及内转子永磁体；所述调磁环包括调磁铁块和非导磁材料；所述低速级磁齿轮的主动轴与风轮主轴连接，其从动轴与所述中速级磁齿轮的主动轴相连；所述中速级磁齿轮的从动轴与所述高速级磁齿轮的主动轴相连，所述高速级磁齿轮的从动轴与风力发电机的转轴固定。

本发明一种基于深度强化学习的大功率风电磁齿轮箱优化设计方法，包括以下步骤：

步骤1，根据所述风电磁齿轮箱的总体性能要求，选取所述各级磁齿轮的转矩密度D_i和内转子转矩脉动T_ripi为优化目标；确定所述各级磁齿轮的待优化结构参数(即设计变量)为：各级磁齿轮的内转子的外半径R_ini、铁芯厚度b_ini及其永磁体的厚度h_ini，各级磁齿轮的外转子的铁芯厚度b_outi及其永磁体的厚度h_outi，各级磁齿轮的调磁铁块厚度h_si及其圆心角角度θ_si，各级磁齿轮内层气隙长度δ_ini、外层气隙长度δ_outi及轴向长度L_efi；下标i＝1，2，3，分别表示所述磁齿轮箱的第1级磁齿轮、第2级磁齿轮和第3级磁齿轮，下同。

所述内转子转矩脉动T_ripi按下式计算：

式中，T_imax、T_imin分别为所述第i级磁齿轮内转子转矩T_ini的最大值与最小值，T_iAVE为所述第i级磁齿轮内转子转矩T_ini的平均值。

所述转矩密度D_i按下式计算：

式中，ρ_k、V_k分别表示所使用第k种材料的密度及体积，N表示所使用材料的种数，转矩密度D_i表示第i级磁齿轮单位重量磁齿轮的转矩输出能力。

步骤2，基于拉丁超立方采样(LHS)实验分别建立所述优化目标与所述第i级磁齿轮的待优化结构参数(设计变量)R_ini，b_ini，h_ini，b_outi，h_outi，h_si，θ_si，δ_ini，δ_outi，L_efi的二次回归模型，称为代理模型，并根据判定系数对代理模型的拟合精度进行检验；所述代理模型为：

式中，X_1i(x_i)、X_2i(x_i)为优化目标函数，分别表示所述第i级磁齿轮的内转子转矩脉动T_ripi的倒数以及转矩密度D_i的预测值，x_i为由各待优化结构参数(设计变量)组成的向量，即：x_i＝[x_1i，x_2i，…，x_10i]＝[R_ini，b_ini，h_ini，b_outi，h_outi，h_si，θ_si，δ_ini，δ_outi，L_efi]；α_0i、α_mi、α_mni、β_0i、β_mi、β_mni为回归系数，ε_1i、ε_2i为随机误差。

步骤3，确定所述第i级磁齿轮各待优化的结构参数(设计变量)的约束条件，并将所述第i级磁齿轮的优化问题转化为单目标非线性规划问题，该问题的数学表达式为：

max J_i＝max[ξ_1iX_1i(x_i)+ξ_2iX_2i(x_i)]

约束条件：

式中，J_i为所述第i级磁齿轮的复合性能函数；ξ_1i、ξ_2i为所述第i级磁齿轮的作用系数；T_i0表示所述第i级磁齿轮内转子转矩的目标值；为所述第i级磁齿轮的转矩限制系数；约束条件中各待优化结构参数的下标l、u分别表示其变化范围的下界与上界。

步骤4，采用深度强化学习DQN算法，分别对所述各级磁齿轮的待优化结构参数进行优化，确定所述各级磁齿轮的待优化结构参数的最优组合，以使所述风电磁齿轮箱获得最优传动性能。

步骤5，基于步骤4得到的所述各级磁齿轮的待优化结构参数的最优组合进行有限元实验验证，若其各项性能指标均满足设计要求，则结束，否则返回步骤4，重新使用深度强化学习DQN算法进行优化。

所述步骤4的具体方法是：

41)设计多目标优化的奖励函数。针对所述各级磁齿轮的不同性能要求以及转矩密度回归模型的高匹配性，引入作用系数ξ_1i、ξ_2i，以平衡各个优化目标之间量纲与数量级的较大差异性，达到增强多目标优化问题鲁棒性的目的。

其中所述第i级磁齿轮作用系数ξ_1i、ξ_2i分别按下式计算：

式中，w_1i、w_2i为权重系数，且有w_1i+w_2i＝1；D_imax、D_imin分别表示LHS实验中所述第i级磁齿轮转矩密度D_i的最大值、最小值；T_ripimax、T_ripimin分别表示LHS实验中所述第i级磁齿轮转矩脉动T_ripi的最大值、最小值；N表示LHS实验组数。

为使所述风电磁齿轮箱整体获得最优传动性能，在提高其各级磁齿轮转矩密度的同时达到降低转矩脉动的效果，根据步骤2中建立的多目标优化的代理模型式(3)、复合性能函数式(4)及式(5)、式(6)，设计第i级磁齿轮Pareto最优的多目标优化奖励函数R_i为：

R_i＝ξ_1iX_1i(x_i)+ξ_2iX_2i(x_i) (7)

42)定义所述风电磁齿轮箱深度强化学习优化的状态空间、动作空间。所述各级磁齿轮均有10个待优化变量，各待优化参数变量在自身约束条件的上下限之间离散成一定数目的取值点，其不同的取值构成状态空间，所述第i级磁齿轮待优化结构参数的状态空间可表示为S_i＝[s_1i,s_2i,…,s_10i]，其中状态向量s_mi(m＝1,…,10)由各待优化结构参数x_mi(称之为状态变量)在自身约束条件的上下限之间离散成一定数目的取值点构成；对x_mi的取值进行改变，构成动作向量，表示为a＝[a_1i,a_2i,…,a_10i]，动作a_mi是指对x_mi的改变，以此根据离散的状态空间定义动作空间，形成相应的状态-动作对。

43)构建深度卷积神经网络(CNN)。所述深度卷积神经网络包括目标网络和估计网络，其中，估计网络作为主网络拥有最新的权值θ，而目标网络权值θ^—由估计网络定期复制传递更新，以提高强化学习训练算法的稳定性；所述目标网络和估计网络的结构相同，均包括输入层、隐藏层和输出层，输入为10维的状态-动作对；隐藏层包括卷积层和全连接层，由卷积层进行特征提取，在全连接层进行非线性组合；输出为对状态-动作对所对应的一维价值函数Q^*(s,a)的逼近值，Q^*(s,a)表达式为：

式中，E_π表示t时刻，执行策略π时的收益期望，所述策略π为：在状态s，执行动作a；γ∈(0,1)为折扣因子；R_it为所述第i级磁齿轮在t时刻的奖励函数。

44)初始化估计网络、目标网络以及经验记忆库、状态s。

45)更新所述经验记忆库中的样本。在状态s下，根据ε-贪婪策略选择动作a，即在概率ε下等概率地随机选择下一个动作，较大概率选择使所述估计网络输出Q(s,a；θ)最大的动作，则在t时刻，当ε-贪婪策略在状态s_t选择动作a_t，得到奖励R_it和下一个状态s_t+1，从而构成一组新的转移样本(s_t,a_t,R_it,s_t+1)，将之存储至所述经验记忆库；

46)训练所述深度卷积神经网络。利用均匀随机采样的方式从所述经验记忆库中抽取训练样本。然后，通过估计网络与目标网络作用最优化当前状态-动作对下的损失函数L(θ)。采用均方差定义深度强化学习网络中的损失函数L(θ)为：

根据L(θ)，采用梯度下降法反向更新估计网络权值θ，权值更新率为：

式中，α为学习率；Q(s_t+1,a_t+1；θ^—)为目标网络的输出，Q(s_t,a_t；θ)为估计网络的输出。

47)优化所述各级磁齿轮的待优化结构参数。对于所述各级磁性齿轮待优化结构参数对应的某一状态，遍历动作空间，当目标网络和估计网络的输出不再发生变化时，即得到一次待优化结构参数的最优组合；为避免陷入局部最优，设定最大寻优次数，其大小对应待优化结构参数构成的状态空间数组的大小，每一次寻优随机初始化状态变量，当经历最大寻优次数，通过比较选取待优化结构参数的最优组合，完成优化。

本发明的有益效果是：

1)使用拉丁超立方采样实验与深度强化学习算法相结合的优化策略，获得了磁齿轮箱各级磁齿轮复合性能函数的最优解以及各设计参数的最优解集。采用拉丁超立方采样实验建立其代理模型可减少有限元实验次数并获取较多的训练数据，利用深度强化学习可对高维优化问题进行高效求解，两者结合极大地提高了优化设计工作的效率。

2)选取各级磁齿轮的转矩密度为优化目标，减轻了磁齿轮箱的总体重量，提高了传动系统效率；选取各级磁齿轮内转子的转矩脉动为优化目标，降低了由转矩脉动造成的转角误差，提高了传动精度，同时提高了各级磁齿轮的可靠性。

附图说明

图1为本发明采用的双馈型风力发电系统拓扑结构示意图。

图2为本发明磁齿轮箱结构示意图。

图3为本发明中各级磁齿轮示意图。

图4为本发明中各级磁齿轮中的外转子、内转子和调磁环示意图。

图5为本发明优化设计方法的流程示意图。

图6为本发明基于深度强化学习DQN算法的优化设计方法原理示意图。

图7为本发明所构造的深度卷积神经网络(CNN)结构示意图。

其中，1-低速级磁齿轮；2-中速级磁齿轮；3-高速级磁齿轮；4-第一联轴器；5-第二联轴器；6-机座；7-风轮，71-风轮主轴；8-发电机联轴器；9-双馈型风力发电机；11-主动轴；12-主动轴轴承；13-从动轴；14-从动轴轴承；15-左端板；16-右端板；17-支架；21-外转子；22-内转子；23-调磁环，231-调磁铁块。

具体实施方式

下面结合附图，对本发明作进一步详细说明。

如图1所示，本发明所述双馈型风力发电系统拓扑结构包括风轮7及其主轴71、本发明所述磁齿轮箱、发电机联轴器8和双馈型风力发电机9；

如图1、图2所示，本发明所述磁齿轮箱是一种三级增速箱，包括：低速级磁齿轮1、中速级磁齿轮2、高速级磁齿轮3、第一联轴器4、第二联轴器5、机座6等。低速级磁齿轮1、中速级磁齿轮2、高速级磁齿轮3均为同轴磁齿轮。

如图3、图4所示，低速级磁齿轮1、中速级磁齿轮2以及高速级磁齿轮3结构相同，包括：主动轴11、主动轴轴承12、从动轴13、从动轴轴承14、左端板15、右端板16、若干支架17，以及外转子21、内转子22和调磁环23。外转子21包括外转子铁芯及外转子永磁体，外转子永磁体粘贴在外转子铁芯的内侧；内转子22包括内转子铁芯及内转子永磁体，内转子永磁体粘贴在内转子铁芯外侧；调磁环23包括调磁铁块231和非导磁材料。

如图1所示，低速级磁齿轮1的主动轴11与风轮7的主轴71连接；低速级磁齿轮1的从动轴通过第一联轴器4与中速级磁齿轮2的主动轴相连；中速级磁齿轮2的从动轴通过第二联轴器5与高速级磁齿轮3的主动轴相连，高速级磁齿轮3的从动轴通过发电机联轴器8与双馈型风力发电机9的转轴固定。

如图5所示，本发明一种基于深度强化学习的大功率风电磁齿轮箱优化设计方法是：

步骤1，针对风电磁齿轮箱的总体性能要求，即：一方面要降低各级磁齿轮的转矩脉动，以减小传动误差，提高传动精度与可靠性；另一方面是应使磁齿轮重量最小化，提高各级磁齿轮的转矩密度、降低成本，为此，选取低速级磁齿轮1的输出转矩脉动T_rip1和转矩密度D₁，中速级磁齿轮2的输出转矩脉动T_rip2和转矩密度D₂以及高速级磁齿轮3的输出转矩脉动T_rip3和转矩密度D₃作为优化目标；确定各级磁齿轮的待优化结构参数(即设计变量)为：各级磁齿轮的内转子磁齿轮的外半径R_ini、铁心厚度b_ini及其永磁体的厚度h_ini；各级磁齿轮的外转子磁齿轮的铁心厚度b_outi及其永磁体的厚度h_outi；各级磁齿轮的调磁块厚度h_si及其圆心角角度θ_si；各级磁齿轮内层气隙长度δ_ini、外层气隙长度δ_outi以及轴向长度L_efi；下标i＝1，2，3，分别表示低速级磁齿轮1、中速级磁齿轮2以及高速级磁齿轮3。

内转子转矩脉动T_ripi按下式计算：

式中，T_imax、T_imin分别为第i级磁齿轮内转子转矩T_ini的最大值与最小值，T_iAVE为第i级磁齿轮内转子转矩T_ini的平均值。

转矩密度D_i按下式计算：

式中，ρ_k、V_k分别表示所使用第k种材料的密度及体积，N表示所使用材料的种数；此处转矩密度D_i表示第i级磁齿轮单位重量磁齿轮的转矩输出能力，单位为Nm/kg。

步骤2，基于拉丁超立方采样(LHS)实验分别建立优化目标与第i级磁齿轮的待优化结构参数(设计变量)R_ini,b_ini,h_ini,b_outi,h_outi,h_si,θ_si,δ_ini,δ_outi,L_efi的二次回归模型(即代理模型)，并根据判定系数对代理模型的拟合精度进行检验。代理模型为：

式中，X_1i(x_i)、X_2i(x_i)为优化目标函数，分别表示第i级磁齿轮的输出转矩脉动T_ripi的倒数以及转矩密度D_i的预测值，x_i为由各待优化结构参数(设计变量)组成的向量，即：x_i＝[x_1i,x_2i,…,x_10i]＝[R_ini,b_ini,h_ini,b_outi,h_outi,h_si,θ_si,δ_ini,δ_outi,L_efi]；α_0i、α_mi、α_mni、β_0i、β_mi、β_mni为回归系数，其中部分回归系数取0，ε_1i、ε_2i为随机误差。

步骤3，确定第i级磁齿轮各待优化的结构参数的约束条件，并将第i级磁齿轮的优化问题转化为单目标非线性规划问题，该问题的数学表达式为：

max J_i＝max[ξ_1iX_1i(x_i)+ξ_2iX_2i(x_i)]

约束条件：

式中，J_i为第i级磁齿轮的复合性能函数；ξ_1i、ξ_2i为第i级磁齿轮的作用系数；T_i0表示第i级磁齿轮内转子转矩的目标值；为第i级磁齿轮的转矩限制系数；约束条件中各待优化结构参数的下标l、u分别表示其变化范围的下界与上界。

步骤4，如图6所示，采用深度强化学习DQN算法，分别对各级磁齿轮的待优化结构参数进行优化，确定各级磁齿轮的待优化结构参数的最优组合，以使风电磁齿轮箱获得最优传动性能。基于深度学习的感知能力和强化学习的决策能力，深度强化学习通过最大化智能体从环境中获得的奖励，能够更好的完成强化学习的任务，精准高效地学习到实现优化目标的最优策略。具体方法是：

41)设计多目标优化的奖励函数。针对各级磁齿轮的不同性能要求以及转矩密度回归模型的高匹配性，引入作用系数ξ_1i、ξ_2i，以平衡各个优化目标之间量纲与数量级的较大差异性，达到增强多目标优化问题鲁棒性的目的。

其中，第i级磁齿轮的作用系数ξ_1i、ξ_2i分别按下式计算：

式中，w_1i、w_2i为权重系数，且有w_1i+w_2i＝1；D_imax、D_imin分别表示LHS实验中第i级磁齿轮转矩密度D_i的最大值、最小值；T_ripimax、T_ripimin分别表示LHS实验中第i级磁齿轮转矩脉动T_ripi的最大值、最小值；N表示LHS实验组数。

因此，为使磁性风电齿轮箱整体获得最优传动性能，在提高各级磁齿轮转矩密度的同时达到降低转矩脉动的效果，根据多目标优化的代理模型式(3)，复合性能函数式(4)及式(5)、式(6)，设计第i级磁齿轮Pareto最优的多目标优化奖励函数R_i为：

R_i＝ξ_1iX_1i(x_i)+ξ_2iX_2i(x_i) (7)

42)定义风电磁齿轮深度强化学习优化的状态空间、动作空间。各级磁齿轮均有10个待优化结构参数(设计变量)，其不同的取值构成状态空间。在第i级磁齿轮结构参数的优化问题中，状态空间S_i＝[s_1i,s_2i,…,s_10i]，其中状态向量s_mi(m＝1,…,10)由各待优化结构参数x_mi(状态变量)在自身约束条件的上下限之间离散成一定数目的取值点构成。对10个待优化结构参数x_mi的取值进行改变，构成动作向量，可表示为a＝[a_1i,a_2i,…,a_10i]，动作a_mi是指对各待优化结构参数x_mi的改变，即增大或者减小各待优化结构参数的尺寸，以此可根据离散的状态空间定义动作空间，形成相应的状态-动作对。

43)如图7所示，构建深度卷积神经网络(CNN)，包括目标网络和估计网络(二者结构相同)，其中估计网络作为主网络拥有最新的权值θ，而目标网络权值θ^—由估计网络定期复制传递更新，以提高强化学习训练算法的稳定性。目标网络和估计网络均包括输入层、隐藏层和输出层，输入为10维的状态-动作对；隐藏层包括卷积层和全连接层，由卷积层进行特征提取，在全连接层进行非线性组合；输出为对状态-动作对所对应的一维价值函数Q^*(s,a)的逼近，其表达式为：

式中，E_π表示t时刻，执行策略π时的收益期望(策略π：在状态s，执行动作a)；γ∈(0,1)为折扣因子；R_it为所述第i级磁齿轮在t时刻的奖励函数。

44)初始化估计网络、目标网络以及经验记忆库、状态s；

45)更新经验记忆库中的样本。状态随机初始化完成后，为探索到更多的状态以通过对比获得最优结构参数组合，智能体在状态s根据ε-贪婪策略选择动作a，即在概率ε下等概率的随机选择下一个动作，较大概率选择使估计网络输出Q(s,a；θ)最大的动作。在风电磁齿轮箱的深度强化学习优化问题中，智能体指各级磁齿轮优化系统，环境指各级磁齿轮的代理模型。ε-贪婪策略表达式可表示为：

式中，A(s)表示全部可选动作；ε∈(0,1)。

比如，在t时刻，当ε-贪婪策略在状态s_t选择动作a_t，得到奖励R_it和下一个状态s_t+1，从而构成一组新的转移样本(s_t,a_t,R_it,s_t+1)存储至经验记忆库，并定期更新经验记忆库中的样本。

46)训练深度卷积神经网络。首先，为避免样本的相关性，达到更好的学习训练效果，利用均匀随机采样的方式从经验记忆库抽取训练样本。然后，通过估计网络与目标网络作用最优化当前状态-动作对下的损失函数，采用均方差定义深度强化学习网络中的损失函数L(θ)为：

最后，根据L(θ)，采用梯度下降法反向更新估计网络权值θ，权值更新率为：

47)优化各级磁齿轮的待优化结构参数。对于各级磁性齿轮结构参数对应的某一状态，当遍历动作空间而估计网络与目标网络的输出几乎不再发生变化时，即得到一次待优化结构参数的最优组合；为避免陷入局部最优，设定最大寻优次数，其大小对应待优化结构参数(设计变量)构成的状态空间数组的大小，每一次寻优随机初始化状态变量，当经历最大寻优次数，通过比较选取待优化结构参数的最优组合，完成优化。

步骤5，基于步骤4得到的各级磁齿轮的待优化结构参数的最佳组合进行有限元实验验证，若其各项性能指标均满足设计要求，则结束，否则返回步骤4，重新使用深度强化学习DQN算法进行优化。

总之，本发明使用拉丁超立方采样(LHS)实验与深度强化学习算法相结合的优化策略，一方面可减少有限元实验次数并获取较多的训练数据，另一方面可对高维优化问题进行高效求解，极大地提高了优化设计工作效率。同时通过优化各级磁齿轮的转矩密度和转矩脉动，减轻了磁齿轮箱的总体重量，提高了传动效率和传动精度，确保系统可靠运行。

Claims

1.一种基于深度强化学习的大功率风电磁齿轮箱优化设计方法，所述大功率风电磁齿轮箱，包括低速级磁齿轮、中速级磁齿轮、高速级磁齿轮；所述低速级磁齿轮、中速级磁齿轮、高速级磁齿轮分别称为第1级磁齿轮、第2级磁齿轮和第3级磁齿轮，它们均为同轴磁齿轮；所述同轴磁齿轮包括外转子、内转子和调磁环，所述外转子包括外转子铁芯及外转子永磁体，所述内转子包括内转子铁芯及内转子永磁体，所述调磁环包括调磁铁块和非导磁材料；其特征在于，包括以下步骤：

步骤1，根据所述风电磁齿轮箱的总体性能要求，选取所述各级磁齿轮的转矩密度D_i和内转子转矩脉动T_ripi为优化目标，确定所述各级磁齿轮的待优化结构参数为：各级磁齿轮的内转子的外半径R_ini、铁芯厚度b_ini及其永磁体的厚度h_ini，各级磁齿轮的外转子的铁芯厚度b_outi及其永磁体的厚度h_outi，各级磁齿轮的调磁铁块厚度h_si及其圆心角角度θ_si，各级磁齿轮内层气隙长度δ_ini、外层气隙长度δ_outi及轴向长度L_efi；下标i＝1，2，3，分别表示所述磁齿轮箱的第1级磁齿轮、第2级磁齿轮和第3级磁齿轮；

所述内转子转矩脉动T_ripi按下式计算：

式中，T_imax、T_imin分别为所述第i级磁齿轮内转子转矩T_ini的最大值与最小值，T_iAVE为所述第i级磁齿轮内转子转矩T_ini的平均值；

所述转矩密度D_i按下式计算：

式中，ρ_k、V_k分别表示所使用第k种材料的密度及体积，N表示所使用材料的种数，转矩密度D_i表示第i级磁齿轮单位重量磁齿轮的转矩输出能力；

步骤2，基于拉丁超立方采样LHS实验分别建立所述优化目标与所述第i级磁齿轮的待优化结构参数R_ini,b_ini,h_ini,b_outi,h_outi,h_si,θ_si,δ_ini,δ_outi,L_efi的二次回归模型，即代理模型，并根据判定系数对代理模型的拟合精度进行检验；所述代理模型为：

式中，X_1i(x_i)、X_2i(x_i)为优化目标函数，分别表示第i级磁齿轮的内转子转矩脉动T_ripi的倒数以及转矩密度D_i的预测值，x_i为由各待优化结构参数x_mi组成的向量，即：x_i＝[x_1i,x_2i,…,x_10i]＝[R_ini,b_ini,h_ini,b_outi,h_outi,h_si,θ_si,δ_ini,δ_outi,L_efi]；α_0i、α_mi、α_mni、β_0i、β_mi、β_mni为回归系数；ε_1i、ε_2i为随机误差；m＝1,2,…,10；n＝1,2,…,10；

步骤3，确定所述第i级磁齿轮的各待优化结构参数的约束条件，并将所述第i级磁齿轮的优化问题转化为单目标非线性规划问题，该问题的数学表达式为：

max J_i＝max[ξ_1iX_1i(x_i)+ξ_2iX_2i(x_i)]

约束条件：式中，J_i为所述第i级磁齿轮的复合性能函数；ξ_1i、ξ_2i为所述第i级磁齿轮的作用系数；T_i0表示所述第i级磁齿轮内转子转矩的目标值；/>为所述第i级磁齿轮的转矩限制系数；约束条件中各待优化结构参数的下标l、u分别表示其变化范围的下界与上界；

步骤4，采用深度强化学习DQN算法，分别对所述各级磁齿轮的待优化结构参数进行优化，确定所述各级磁齿轮的待优化结构参数的最优组合，以使所述风电磁齿轮箱获得最优传动性能；

2.根据权利要求1所述的一种基于深度强化学习的大功率风电磁齿轮箱优化设计方法，其特征在于，所述步骤4的具体方法是：

41)设计多目标优化的奖励函数：针对所述各级磁齿轮的不同性能要求以及转矩密度回归模型的高匹配性，引入作用系数ξ_1i、ξ_2i，以平衡各个优化目标之间量纲与数量级的较大差异性，达到增强多目标优化问题鲁棒性的目的；

其中所述第i级磁齿轮的作用系数ξ_1i、ξ_2i分别按下式计算：

式中，w_1i、w_2i为权重系数，且有w_1i+w_2i＝1；D_imax、D_imin分别表示LHS实验中所述第i级磁齿轮转矩密度D_i的最大值、最小值；T_ripimax、T_ripimin分别表示LHS实验中所述第i级磁齿轮转矩脉动T_ripi的最大值、最小值；N表示LHS实验组数；D_ij、T_ripij分别表示第j组LHS实验中所述第i级磁齿轮的转矩密度D_i和转矩脉动T_ripi，j＝1,2,…,N；

R_i＝ξ_1iX_1i(x_i)+ξ_2iX_2i(x_i) (7)；

42)定义所述风电磁齿轮箱深度强化学习优化的状态空间、动作空间：所述各级磁齿轮均有10个待优化结构参数，各待优化结构参数在自身约束条件的上下限之间离散成一定数目的取值点，其不同的取值构成状态空间，所述第i级磁齿轮待优化结构参数的状态空间可表示为S_i＝[s_1i,s_2i,…,s_10i]，其中状态向量s_mi由各待优化结构参数x_mi在自身约束条件的上下限之间离散成一定数目的取值点构成，对x_mi的取值进行改变，构成动作向量，表示为a＝[a_1i,a_2i,…,a_10i]，动作a_mi是指对各待优化结构参数x_mi的改变，即增大或者减小x_mi，以此根据离散的状态空间定义动作空间，形成相应的状态-动作对；其中，x_mi又称为状态变量，m＝1,2,…,10；

43)构建深度卷积神经网络：所述深度卷积神经网络包括目标网络和估计网络，其中，估计网络作为主网络拥有最新的权值θ，而目标网络权值θ^—由估计网络定期复制传递更新，以提高强化学习训练算法的稳定性；所述目标网络和估计网络的结构相同，均包括输入层、隐藏层和输出层，输入为10维的状态-动作对；隐藏层包括卷积层和全连接层，由卷积层进行特征提取，在全连接层进行非线性组合；输出为对状态-动作对所对应的一维价值函数Q^*(s,a)的逼近值，Q^*(s,a)表达式为：

式中，E_π表示t时刻，执行策略π时的收益期望，所述策略π为：在状态s下，执行动作a；γ∈(0,1)为折扣因子；R_it为所述第i级磁齿轮在t时刻的奖励函数；

44)初始化所述目标网络、估计网络以及经验记忆库、状态s；

45)更新所述经验记忆库中的样本：在状态s下，根据ε-贪婪策略选择动作a，即在概率ε下等概率地随机选择下一个动作，较大概率选择使估计网络输出Q(s,a；θ)最大的动作，则在t时刻，当ε-贪婪策略在状态s_t选择动作a_t，得到奖励R_it和下一个状态s_t+1，从而构成一组新的转移样本(s_t,a_t,R_it,s_t+1)，将之存储至所述经验记忆库；

46)训练所述深度卷积神经网络：利用均匀随机采样的方式从所述经验记忆库中抽取训练样本，再通过所述估计网络与目标网络作用最优化当前状态-动作对下的损失函数L(θ)，所述损失函数L(θ)为：

式中，α为学习率；Q(s_t+1,a_t+1；θ^—)为目标网络的输出，Q(s_t,a_t；θ)为估计网络的输出；

47)优化所述各级磁齿轮的待优化结构参数：对于所述各级磁性齿轮的待优化结构参数对应的某一状态，遍历动作空间，当所述目标网络和估计网络的输出不再发生变化，则得到一次待优化结构参数的最优组合；为避免陷入局部最优，设定最大寻优次数，其大小对应待优化结构参数构成的状态空间数组的大小，每一次寻优随机初始化状态变量，当经历最大寻优次数，通过比较选取待优化结构参数的最优组合，完成优化。