CN117633936A

CN117633936A - 基于强化学习的分布参数系统在线3d模糊建模方法及应用

Info

Publication number: CN117633936A
Application number: CN202311662735.6A
Authority: CN
Inventors: 张宪霞; 周刚; 闫润斌
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-03-01

Abstract

本发明涉及一种基于强化学习的分布参数系统在线3D模糊建模方法及应用，该方法包括以下步骤：步骤S1，基于分布参数系统中采集的传感数据，构造数据集，并构建马尔可夫决策过程模型；步骤S2，建立基于Actor‑Critic强化学习模型框架的分布参数系统在线3D模糊模型；步骤S3，优化分布参数系统在线3D模糊模型。与现有技术相比，本发明具有建模精度高、动态适应新数据、应用广泛、提升能源效率等优点。

Description

基于强化学习的分布参数系统在线3D模糊建模方法及应用

技术领域

本发明涉及分布参数系统建模技术领域，尤其是涉及一种基于强化学习的分布参数系统在线3D模糊建模方法及应用。

背景技术

近年来，尽管3D模糊系统开始在分布参数系统DPS建模领域探索应用，但其实际应用还相对较少，发展尚处于初步阶段。3D模糊系统是一种基于模糊逻辑理论的系统，它能够处理具有三维空间坐标的数据。这种系统的核心是模糊集合和模糊运算，它们允许处理不确定、不精确或模糊的信息。在3D模糊系统中，数据通常被分为几个模糊集合，这些集合对应于输入空间的特定区域。每个模糊集合都有一个对应的隶属度函数，用于确定输入数据属于该集合的程度。通过将输入数据与这些隶属度函数进行比较，可以得到输入数据属于每个集合的隶属度。

3D模糊系统的另一个重要特点是模糊运算。传统的数学运算通常只关注精确值，而模糊运算则考虑了输入数据的隶属度。例如，两个模糊集合的模糊加法可能产生一个新的模糊集合，其隶属度函数是两个输入集合隶属度函数的最大值。这种运算方式使得系统能够更好地处理不确定性和模糊性。3D模糊系统内部自然而然的实现了时空分离与时空综合，与传统的基于降维的建模方法相比，3D模糊系统避免了降维造成的模型精度损失，而且通过3D模糊规则库使得模型具有语言可解释性，因此在分布参数系统建模中3D模糊系统有着独特的优势。

分布参数系统在线建模技术在实时数据采集与处理、机器学习驱动建模、分布式计算和专用数学建模软件等方面取得了进展，然而，面临着复杂性难以捕捉、数据质量与可用性挑战、巨大的计算资源需求、模型持续更新与维护、解释性下降以及实时性和延迟等问题。这些挑战阻碍了模型的精确性和可靠性，需要进一步的技术创新和综合解决方案，以实现更准确、高效、并且实时响应的分布参数系统在线建模。

强化学习算法具有较强的适应性，能够在不断变化的环境中进行学习和优化，能够通过不断的试错学习，根据不同场景下的数据和反馈，动态调整模型以适应不同的模糊环境。在线学习的特性使得基于强化学习的3D模糊建模能够实时地响应和适应新的数据输入。

基于3D模糊系统的建模方法大多是基于历史数据的离线建模方法。当系统动态特性发生变化时，基于历史数据的离线模型就变得不适应当前系统，精度变得越来越差。鉴于离线建模的局限性，基于实时采集数据驱动的在线更新建模仍然是一个急需解决的问题。因此，研究建立一个基于实时数据的在线建模方法具有重要意义。分布参数系统的特性随时间和环境变化，因此模型需要持续更新和维护以保持准确性。实时更新模型可能需要高效的算法和技术，而强化学习算法的核心思想是智能体通过与环境交互得到奖励，寻求使奖励最大化的策略，本质上这就是一种增量式的学习方式，天然适合在线学习的场景。

如何实现高准确性、基于实时数据的分布参数系统在线3D模糊建模，成为需要解决的技术问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的分布参数系统在线3D模糊建模方法及应用。

本发明的目的可以通过以下技术方案来实现：

根据本发明的一个方面，提供了一种基于强化学习的分布参数系统在线3D模糊建模方法，该方法包括以下步骤：

步骤S1，基于分布参数系统中采集的传感数据，构造数据集，并构建马尔可夫决策过程模型；

步骤S2，建立基于Actor-Critic强化学习模型框架的分布参数系统在线3D模糊模型；

步骤S3，优化分布参数系统在线3D模糊模型。

优选地，所述的步骤S1具体包括：

首先，基于分布参数系统中采集的传感数据，进行数据预处理和构建数据集；

其次，基于分布参数系统在线3D模糊建模需求，确定系统状态、动作和奖励函数；

最后，构建马尔可夫决策过程模型。

优选地，所述的步骤S1中，构造数据集具体为：

一个非线性分布参数系统的输入为u(t)∈R^m，时空输出为y(z,t)∈R，其中t是时间变量，为空间变量，/>是空间域；

有P个传感器位于空间点z₁,z₂,…,z_p，系统输出为

确定3D模糊系统的输入变量{u(t-1),u(t-2),…u(t-K)}和{y(Z,t-1),y(Z,t-2),…,y(Z,t-J)}，则3D模糊系统的3D模糊规则表示如下式：

其中，表示3D模糊集，i＝1,2,…,J，/>表示传统模糊集，j＝1,2,…,m；k＝1,2,…,K，/>表示空间基函数，K为输入变量u(t)的阶次，J为输出变量y(z,t)的阶次，m为传统模糊集的阶次；

通过建立输入和输出/>之间的关系来辨识一个时空3D模糊模型，其数据集D如下式所示：

其中，各参数定义如下：

L是时间长度，K为输入变量u(t)的阶次，J为输出变量y(z,t)的阶次；

令状态S_t＝x^k，由分布参数系统性质可知，状态S_t仅与其前一个状态S_t-1相关，满足马尔可夫性。

优选地，所述的步骤S1中，构建马尔可夫决策过程模型具体为：构建马尔可夫决策过程(MDP)五元组(S,A,R,P,γ)：

其中S为状态空间，A为动作空间，R_t为在状态S_t下采取动作A_t后智能体获得的奖励，P为状态转移概率矩阵，γ为衰减因子。

优选地，所述的步骤S2中，建立基于Actor-Critic强化学习模型框架的分布参数系统在线3D模糊模型，包括确定输入输出、构建Actor网络和Critic网络、选择强化学习算法和参数、收集样本数据并进行训练优化、以及将训练好的3D模糊模型应用于实际系统并验证性能。

更加优选地，所述的Actor网络选择动作，Critic网络评估动作价值，两者相互协作实现系统在线3D模糊建模和动态决策的目标。

更加优选地，所述建立基于Actor-Critic强化学习模型框架的分布参数系统在线模型，具体为：

Actor和Critic分别用两个3D模糊系统表示，其中，Actor作为分布参数系统的在线模型；

在时间步t，Actor将状态S_t作为输入，在时间步t+1输出DPS的预测值Critic将状态S_t和动作A_t作为输入，输出Critic行为值函数Q(s,a)值，由DPS构成的环境输出下一个状态S_t+1和奖励R_t；

采用时间差分目标更新Q(s,a)，并通过链式求导法则沿Q(s,a)正梯度方向更新Actor策略函数；

Actor策略函数μ(s)的结构如下式所示：

其中，为3D模糊集，i＝1,2,…,J，/>为传统模糊集，j＝1,2,…,m；k＝1,2,…K，为空间基函数，K为传统模糊集的阶数，J为3D模糊集的阶数，a_l,b_l,c_l,d_l分别为傅里叶空间基函数的系数；

Critic行为值函数Q(s,a)的结构如下式所示：

其中，是3D模糊集，/>是传统模糊集，Q₁和Q_N都为一个常数。

优选地，所述的步骤S3中，优化分布参数系统在线模型具体为：使用随机梯度法根据模型误差更新Actor策略函数参数，通过最小化损失函数更新Critic行为值函数参数，并将更新后的Actor策略函数作为分布参数系统的模型，最后更新目标模糊系统的参数；

使用3D模糊系统作为非线性函数逼近器，固定3D模糊系统的结构，通过梯度反向传播更新参数，Actor策略函数参数θ^u的更新如下所示：

Critic行为值函数参数θ^Q的更新如下所示：

其中，为策略π_θ的预期收益或期望总回报，/>为策略函数μ的参数，N为样本量，/>为梯度函数，y_t为时间步t的目标值，t_t为时间步t的即时奖励，/>为经验回放中的平均奖励。

优选地，所述的目标模糊系统的参数包括目标Critic参数和目标Actor参数，其更新如下所示：

θ^Q′＝τθ^Q+(1-τ)θ^Q′,θ^u′＝τθ^Q+(1-τ)θ^u′

其中，τ为权重因子，θ^Q为Critic行为值函数参数，θ^Q′为目标Critic行为值函数参数，θ^u′为目标Actor策略函数参数。

根据本发明的另一个方面，提供了一种基于强化学习的分布参数系统在线3D模糊建模方法的应用，将分布参数系统在线3D模糊建模方法应用于时空耦合特性的分布参数系统中，其中的分布参数系统包括转底炉温度模型、化学反应器温度模型或轧钢板材温度跟踪模型，具体应用过程如下：

首先，采集分布参数系统中的传感数据，构造数据集，基于分布参数系统在线建模问题构建马尔可夫决策过程模型；

其次，建立基于Actor-Critic框架的强化学习模型，3D模糊系统根据环境的变动不断优化模型参数；

最后，将优化的在线3D模糊模型嵌入到分布参数系统中，用于更精准地模拟和预测不同位置的温度分布，并根据预测情况进行生产中的实时调整。

与现有技术相比，本发明具有以下有益效果：

1.本发明结合了强化学习算法中增量式的学习方式，和3D模糊系统在处理具有时空耦合特性系统的独特优势，可以从零开始对系统以较高精度进行在线建模，并能够实时地响应和适应新的数据输入。

2.本发明应用范围广泛，可以用于各种需要实时、精确温度建模的领域，例如：转底炉温度建模、化学反应器温度建模以及轧钢板材温度跟踪建模等。

3.本发明有助于优化生产工艺、提升产品质量、提高能源利用效率以及减少能源消耗。

附图说明

图1为本发明中在线3D模糊建模方法的框架示意图；

图2为本发明中快速加热化学气相沉积反应器RTCVD系统结构示意图；

图3为本发明中DPS模型实际输出示意图；

图4为本发明中DPS模型预测输出示意图；

图5为本发明中s5传感器上的真实值和模型预测值示意图；

图6为本发明中s7传感器上的真实值和模型预测值示意图；

附图中，q为混合有10％硅烷的氩气，T为晶圆温度，r为晶圆半径。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本实施例涉及一种基于强化学习的分布参数系统在线3D模糊建模方法，该方法包括以下步骤：

步骤S1：数据集构建和马尔可夫决策过程模型。对分布参数系统中采集到的传感数据构造数据集，基于分布参数系统在线建模问题构建马尔可夫决策过程模型；该过程涵盖了特征提取、状态空间和动作空间定义、奖励函数设计以及模型训练验证等步骤，旨在使用强化学习方法有效建立系统在线建模的框架。

考虑一个非线性分布参数系统，系统的输入为u(t)∈R^m，时空输出为y(z,t)∈R，其中t是时间变量，为空间变量，/>是空间域。假设有P个传感器位于空间点z₁,z₂,…,z_p，令/>系统输出可表示为/>

进一步，所述步骤S1包括：

确定3D模糊系统的输入变量{u(t-1),u(t-2),…u(t-K)}和{y(Z,t-1),y(Z,t-2),…,y(Z,t-J)}，输入变量u(t)和输出变量y(z,t)的阶次设定为K和J，则3D模糊系统的3D模糊规则可以表示为：

其中，表示3D模糊集，/>表示传统模糊集，/>表示空间基函数。

通过建立输入和输出/>之间的关系来辨识一个时空3D模糊模型，L是时间长度，输入变量u(t)和输出变量y(z,t)的阶次设定为K和J，其数据集D如下所示。

其中，各参数定义如下：

令状态S_t＝x^k，由分布参数系统性质可知，状态S_t仅与其前一个状态S_t-1相关，故而满足马尔可夫性。

步骤S2：Actor-Critic强化学习模型框架。建立了一个基于Actor-Critic框架的强化学习模型。Actor-Critic模型是强化学习中的一种重要框架，其中Actor负责生成动作，而Critic评估Actor所采取的动作的价值。这个模型将用于建立关于分布参数系统的在线模型，Actor通过学习与环境交互中的奖励信号来改进动作策略，Critic则负责评估策略的好坏。这一过程通过Actor网络选择动作，Critic网络评估动作价值，相互协作实现系统在线建模和动态决策的目标。

步骤S3：更新模型参数。在S3中，通过最小化损失函数来更新Critic函数，这一步骤主要是为了评估模型的预测性能，并根据误差情况进行调整。同时，根据模型误差采用随机梯度法来更新策略函数(Actor)，以优化策略并提高模型性能。最后，利用更新后的策略函数对目标模糊系统的参数进行调整，将策略函数应用作为分布参数系统的模型，从而实现模型的在线建模和优化。这一过程旨在通过优化Critic和Actor网络，实现对分布参数系统模型的精确度和性能的提升。

Critic行为值函数的更新基于半梯度法，采用TD(0)为更新目标。TD(0)是指在当前时间步t，根据下一个时间步t+1的估计值函数来更新当前时间步t的值函数。TD作为一种估计值函数的方法，通常用于更新Critic中的值函数，以逐步提升值函数的预测准确性。

TD目标是当前时间步的奖励R_t+1加上下一个时间步的值函数估计值Q(S_t+1,A_t+1)，其中A_t+1是根据当前策略在状态S_t+1选择的动作。Critic在当前时间步的值函数估计值为Q(S_t,A_t)。根据半梯度法，使用TD误差计算梯度并更新Critic值函数的参数。损失函数被用来度量TD目标和Critic函数的预测值之间的差异。

本发明提供了一种基于强化学习的分布参数系统在线3D模糊建模方法，将强化学习算法增量式的学习方式和3D模糊系统在处理具有时空耦合特性系统的独特优势相结合，可以从零开始对系统以较高精度进行建模。强化学习算法具有较强的适应性，能够在不断变化的环境中进行学习和优化。其能够通过不断的试错学习，根据不同场景下的数据和反馈，动态调整模型以适应不同的模糊环境。在线学习的特性使得基于强化学习的3D模糊建模能够实时地响应和适应新的数据输入。

如图1所示，在基于Actor-Critic框架上，用两个3D模糊系统分别表示Actor和Critic，其中，Actor作为分布参数系统的在线模型。在时间步t，Actor将状态S_t作为输入，在时间步t+1输出DPS的预测值Critic将状态S_t和动作A_t作为输入，输出Q(s,a)值，由DPS构成的环境输出下一个状态S_t+1和奖励R_t。采用时间差分目标更新行为值函数Q(s,a)，然后，通过链式求导法则沿Q(s,a)正梯度方向更新策略函数。

基于Actor-Critic框架，采用确定性策略梯度理论，将Actor函数作为最终所要建立的模型，将DPS的建模过程纳入马尔可夫决策过程中，通过智能体与环境的交互交替迭代更新Actor函数和Critic函数。在线建模是一个连续的问题，没有终止状态，针对这个问题，提出一种平均回报，将最大化平均回报作为智能体的目标。仿真结果验证了所提方法的有效性。主要步骤如下：

第一步：构建马尔可夫决策过程(MDP)五元组(S,A,R,P,γ)，

S为状态空间，A为动作空间，R_t表示在状态S_t下采取动作A_t后智能体获得的奖励。

第二步：考虑到分布参数系统的时空耦合特性，Actor和Critic都用3D模糊系统表示。Actor的策略函数μ(s)的结构如下所示。

其中，是3D模糊集，/>是传统模糊集，是空间基函数，K，J被定义为模型阶数。

其中，a_l,b_l,c_l,d_l分别是傅里叶空间基函数的系数。

Critic中行为值函数Q(s,a)的结构如下所示：

其中，和/>是3D模糊集，/>是传统模糊集，Q_t和Q_N都是常数。

第三步：当状态空间和动作空间是无限维的时候，通常采用函数逼近的方式表示值函数和策略函数。本发明使用3D模糊系统作为非线性函数逼近器，固定3D模糊系统的结构，通过梯度反向传播更新参数。目标函数和策略函数参数的更新如下所示。

其中，是策略函数μ的参数，N是样本量，α是学习率。

是策略π_θ的预期收益或期望总回报。这个函数测量了在策略π_θ下执行动作的平均价值。在强化学习中，策略优化的目标是最大化预期回报，即最大化J(π_θ)。为了实现这一目标，通常使用梯度下降等优化算法来更新策略参数θ。具体来说，根据策略梯度定理，可以利用J(π_θ)的梯度来更新策略参数，使得策略的性能逐步提高。策略梯度方法通过计算J(π_θ)相对于策略参数θ的梯度，然后按照这个梯度来更新参数，从而使得策略能够朝着更高的预期回报方向迭代。更新参数的目的是找到最优策略π_θ，以实现最大化预期回报。

损失函数被用来度量TD目标和Critic函数的预测值之间的差异，更新Critic函数的过程中，损失函数的梯度通常用来指导参数的更新方向。通过调整Critic函数的参数，使其能够更准确地预测值函数的值。Critic行为值函数的更新如下所示：

目标Critic和Actor模糊系统的参数更新如下所示。

θ^Q′＝τθ^Q+(1-τ)θ^Q′,θ^u′＝τθ^Q+(1-τ)θ^u′ (14)

其中，τ为权重因子。

本实施例还涉及一种基于强化学习的分布参数系统在线3D模糊建模方法的应用，具体实施例如下：

一种典型的分布参数系统三区快速加热化学气相沉积反应器(RTCVD)仿真案例，RTCVD有热处理系统的各种特性，如非线性、时变、时空特性等，其结构如图2所示。RTCVD共有3个加热区块，分别为灯组1、灯组2和灯组3，反应炉的中间是一个半径r＝7.6cm的晶圆。5个大气压的混合10％硅烷的氩气q从炉子的上部注入反应炉，三个输入变量分别为u_a(t)、u_b(t)和u_c(t)。

在加热的条件下，硅烷会发生化学反应生成硅和氢气，在晶圆上沉积一层薄薄的多晶硅薄膜。为了使这层多晶硅薄膜厚度均匀一致，需要控制晶圆温度T处处相等。因为晶圆是旋转的，因此我们只需要要考虑径向温度一致即可。

由于反应炉在反应过程中内压较低，晶圆与气体之间的热传递效应可以忽略不计，反应炉内的化学过程和物理过程放出的热量相较于晶圆的热传递和热辐射的影响很小，所以这部分的影响同样也可以忽略不计。此外，在反应过程中,晶圆上下表面的温差很小且旋转缓慢，因此可以认为晶圆的温度仅沿径向变化。

为了充分获得系统的动态信息，在系统输入信号中添加不超过辐值10％的干扰信号，带有干扰信号的输入变量表达式如下式所示：

u_a(t)＝0.2028+0.1*0.2028*normrnd(0,1) (15)

u_b(t)＝0.2028+0.1*0.2028*normrnd(0,1) (16)

u_c(t)＝0.2028+0.1*0.2028*normrnd(0,1) (17)

其中，0.2028、0.1008和0.2245是RTCVD内部温度为1000K时的稳态输入，normrnd是正态分布的随机数函数。

11个测量传感器沿着晶圆的径向位置放置，为了模拟测量噪声在这11组测量数据中加入独立的幅值为0.2，均值为0的白噪声，采样周期设置为Δt＝0.1s，实验总共持续500s。如图3所示为分布参数系统的实际输出图4所示为分布参数系统的模型预测输出。

实验选取时间为330s到370s的数据，第五个传感器s5的DPS模型实际输出和模型预测输出对比如图5所示，第七个传感器s7的DPS模型实际输出和模型预测输出对比如图6所示。通过上述对比，可看出本发明基于强化学习的在线建模算法在RTCVD有较好的性能。

除此之外，对于转底炉温度建模，3D模糊系统可以在模型运行期间持续学习和改进，从而更准确地预测转底炉在不同位置的温度分布，有助于优化生产工艺、提高能源利用效率以及减少能源消耗。

另外，钢铁行业中的轧钢板材温度跟踪建模也可以受益于这项技术。通过持续的学习和改进，3D模糊系统可以根据实时的生产数据调整模型，以更精确地跟踪钢板在整个轧制过程中的温度分布，有助于确保产品质量，并且可以在生产中进行及时调整以应对变化的条件。

总体而言，这种能够在模型运行过程中持续学习和改进的3D模糊系统技术，对于各种需要实时、精确温度建模的领域都具有广泛的适用性，可以帮助优化生产过程、提高效率并最大程度地符合当前环境的实际情况。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于强化学习的分布参数系统在线3D模糊建模方法，其特征在于，该方法包括以下步骤：

步骤S3，优化分布参数系统在线3D模糊模型。

2.根据权利要求1所述的一种基于强化学习的分布参数系统在线3D模糊建模方法，其特征在于，所述的步骤S1具体包括：

最后，构建马尔可夫决策过程模型。

3.根据权利要求1所述的一种基于强化学习的分布参数系统在线3D模糊建模方法，其特征在于，所述的步骤S1中，构造数据集具体为：

有P个传感器位于空间点z₁,z₂,…,z_p，系统输出为

其中，表示3D模糊集，i＝1,2,…,J，/>表示传统模糊集，j＝1,2,…,m；k＝1,2,…,K，表示空间基函数，K为输入变量u(t)的阶次，J为输出变量y(z,t)的阶次，m为传统模糊集的阶次；

其中，各参数定义如下：

4.根据权利要求1所述的一种基于强化学习的分布参数系统在线3D模糊建模方法，其特征在于，所述的步骤S1中，构建马尔可夫决策过程模型具体为：构建马尔可夫决策过程(MDP)五元组(S,A,R,P,γ)：

5.根据权利要求1所述的一种基于强化学习的分布参数系统在线3D模糊建模方法，其特征在于，所述的步骤S2中，建立基于Actor-Critic强化学习模型框架的分布参数系统在线3D模糊模型，包括确定输入输出、构建Actor网络和Critic网络、选择强化学习算法和参数、收集样本数据并进行训练优化、以及将训练好的3D模糊模型应用于实际系统并验证性能。

6.根据权利要求5所述的一种基于强化学习的分布参数系统在线3D模糊建模方法，其特征在于，所述的Actor网络选择动作，Critic网络评估动作价值，两者相互协作实现系统在线建模和动态决策的目标。

7.根据权利要求5所述的一种基于强化学习的分布参数系统在线3D模糊建模方法，其特征在于，所述建立基于Actor-Critic强化学习模型框架的分布参数系统在线3D模糊模型，具体为：

Actor策略函数μ(s)的结构如下式所示：

其中，为3D模糊集，i＝1,2,…,J，/>为传统模糊集，j＝1,2,…,m；k＝1,2,…K，/>为空间基函数，K为传统模糊集的阶数，J为3D模糊集的阶数，a_l,b_l,c_l,d_l分别为傅里叶空间基函数的系数；

Critic行为值函数Q(s,a)的结构如下式所示：

8.根据权利要求1所述的一种基于强化学习的分布参数系统在线3D模糊建模方法，其特征在于，所述的步骤S3中，优化分布参数系统在线3D模糊模型具体为：使用随机梯度法根据3D模糊模型误差更新Actor策略函数参数，通过最小化损失函数更新Critic行为值函数参数，并将更新后的Actor策略函数作为分布参数系统的3D模糊模型，最后更新目标模糊系统的参数；

Critic行为值函数参数θ^Q的更新如下所示：

其中，为策略π_θ的预期收益或期望总回报，/>为策略函数μ的参数，N为样本量，/>为梯度函数，y_t为时间步t的目标值，r_t为时间步t的即时奖励，/>为经验回放中的平均奖励。

9.根据权利要求8所述的一种基于强化学习的分布参数系统在线3D模糊建模方法，其特征在于，所述的目标模糊系统的参数包括目标Critic参数和目标Actor参数，其更新如下所示：

θ^Q′＝τθ^Q+(1-τ)θ^Q′,θ^u′＝τθ^Q+(1-τ)θ^u′

10.一种采用权利要求1所述的基于强化学习的分布参数系统在线3D模糊建模方法的应用，其特征在于，将分布参数系统在线3D模糊建模方法应用于时空耦合特性的分布参数系统中，其中的分布参数系统包括转底炉温度模型、化学反应器温度模型或轧钢板材温度跟踪模型，具体应用过程如下：