CN116449716A

CN116449716A - 智能伺服稳定控制方法、装置、系统、控制器及存储介质

Info

Publication number: CN116449716A
Application number: CN202310692292.9A
Authority: CN
Inventors: 章双全
Original assignee: Chenji Zhihang Beijing Technology Co ltd
Current assignee: Chenji Zhihang Beijing Technology Co ltd
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-07-18
Anticipated expiration: 2043-06-13
Also published as: CN116449716B

Abstract

本申请公开了一种智能伺服稳定控制方法、装置、系统、控制器及存储介质，涉及伺服控制技术领域。所述方法是在建立目标伺服机构的马尔可夫决策过程模型以及基于双向长短时记忆神经网络层BiLSTM构建包括有六个深度神经网络的TD3强化学习算法框架后，将TD3强化学习算法具体应用在伺服机构的稳定性控制中，实现在伺服控制参数不确定性以及工作环境未知情况下能够进行自主无监督学习的智能优化控制目的，如此不但可提高伺服机构稳定控制的静态与动态性能，还在自主学习过程中不需要人工干预与人工经验，进一步突破了PID控制器的线性特性，使得具有扰动环境的动态适应能力，从而提升伺服控制系统的控制性能以及智能性和鲁棒性。

Description

智能伺服稳定控制方法、装置、系统、控制器及存储介质

技术领域

本发明属于伺服控制技术领域，具体涉及一种智能伺服稳定控制方法、装置、系统、控制器及存储介质。

背景技术

伺服机构（Servomechanism）又称随动系统，是用来精确地跟随或复现某个过程的反馈控制系统。所述伺服机构是使物体的位置、方位和状态等输出被控量能够跟随输入目标（或给定值）的任意变化的自动控制系统。它的主要任务是按控制命令的要求对功率进行放大、变换与调控等处理，使驱动装置输出的力矩、速度和位置控制非常灵活方便。在很多情况下，伺服机构专指被控制量（系统的输出量）是机械位移或位移速度、加速度的反馈控制系统，其作用是使输出的机械位移（或转角）准确地跟踪输入的位移（或转角），其结构组成和其他形式的反馈控制系统没有原则上的区别。

现有精密伺服机构的动力学特性具有非线性以及时滞特性，使得基于传统PID（Proportion Integral Differential）技术的伺服机构控制方案，在存在伺服控制参数不确定性及外部扰动（即工作环境未知）的时候表现出闭环控制低效或者控制性能下降的现象。因此，如何设计一款新型智能控制器来提高伺服机构稳定控制的静态与动态性能，是本领域技术人员亟需研究的课题。

发明内容

本发明的目的是提供一种智能伺服稳定控制方法、装置、系统、控制器及计算机可读存储介质，用以解决现有基于PID技术的伺服机构控制方案在存在伺服控制参数不确定性及外部扰动的时候表现出闭环控制低效或者控制性能下降的问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，提供了一种智能伺服稳定控制方法，由伺服控制器执行，包括：

建立目标伺服机构的马尔可夫决策过程模型，其中，所述马尔可夫决策过程模型包含有所述目标伺服机构的观测信号S_t、动作信号A_t和奖励函数；

基于双向长短时记忆神经网络层BiLSTM和全连接网络层，构建包括有六个深度神经网络的TD3强化学习算法框架，其中，所述六个深度神经网络包括有策略网络Actor、与所述策略网络Actor对应的目标策略网络Actor_T、第一评价网络Critic1、与所述第一评价网络Critic1对应的第一目标评价网络Critic_T1、第二评价网络Critic2和与所述第二评价网络Critic2对应的第二目标评价网络Critic_T2，所述六个深度神经网络中的各个深度神经网络均由所述双向长短时记忆神经网络层BiLSTM和所述全连接网络层组成；

初始化用于存放每一次状态转移元组的经验池R，其中，所述状态转移元组包含有所述观测信号S_t的前一个状态、所述动作信号A_t的前一个状态、所述奖励函数的前一个状态和所述观测信号S_t的当前状态；

从初始化状态开始在所述策略网络Actor和所述目标策略网络Actor_T中应用连续动作空间的确定性算法将所述经验池R中的每个状态转移元组都映射到一个确定的动作上；

在每一次映射确定动作后，使用所述第一目标评价网络Critic_T1和所述第二目标评价网络Critic_T2来分别对由所述目标策略网络Actor_T输出的动作进行Q值评估，得到在两Q值评估结果中的较小Q值，然后基于所述较小Q值和评价网络对由所述策略网络Actor输出的动作所作出的Q值评估结果，利用最小化损失函数更新所述评价网络，最后利用梯度策略算法反向传播延迟更新所述策略网络Actor、所述目标策略网络Actor_T、所述第一目标评价网络Critic_T1和所述第二目标评价网络Critic_T2，其中，所述评价网络包括有所述第一评价网络Critic1和所述第二评价网络Critic2；

根据由所述策略网络Actor输出的动作生成控制器输出量，并将所述控制器输出量传送至所述目标伺服机构，以便得到新的所述状态转移元组。

基于上述发明内容，提供了一种基于深度强化学习的智能伺服稳定控制新方案，即在建立目标伺服机构的马尔可夫决策过程模型以及基于双向长短时记忆神经网络层BiLSTM和全连接网络层构建包括有六个深度神经网络的TD3强化学习算法框架后，将TD3强化学习算法具体应用在伺服机构的稳定性控制中，实现在伺服控制参数不确定性以及工作环境未知情况下能够进行自主无监督学习的智能优化控制目的，如此与传统PID控制方法以及整定PID控制方法相比，本方案不但可提高伺服机构稳定控制的静态与动态性能，还在自主学习过程中不需要人工干预与人工经验，进一步突破了PID控制器的线性特性，使得具有扰动环境的动态适应能力，从而提升伺服控制系统的控制性能以及智能性和鲁棒性。

在一个可能的设计中，所述观测信号S_t包含有所述目标伺服机构的输出测量值y(t)、所述输出测量值与输出目标值的偏差e(t)和所述输出测量值与所述输出目标值的积分偏差Ie(t)；

和/或，所述动作信号A_t包含有所述目标伺服机构的控制输入量Ci(t)。

在一个可能的设计中，所述奖励函数r(t)采用如下公式:r(t)=c₂×r₂(t)-c₁×r₁(t)-c₃×t，其中，t表示时间变量，c₁、c₂和c₃分别表示预设的奖励系数，r₁(t)在0≤y(t)≤y_max时取零值而在其它情况时为负R₁，y(t)表示所述目标伺服机构的输出测量值，y_max表示已知的最大输出测量值，r₂(t) 在|e(t)|≤e_th时为R₂而在其它情况时为负R₃，e(t)表示所述输出测量值与输出目标值的偏差，e_th表示预设的偏差阈值，R₁、R₂和R₃分别表示预设的奖励值。

在一个可能的设计中，所述深度神经网络包括有依次连接的输入层、第一全连接层、双向长短时记忆神经网络层BiLSTM、第二全连接层和输出层，其中，所述第一全连接层和所述第二全连接层的激活函数均采用LeakyReLu函数。

在一个可能的设计中，所述评价网络的最小化损失函数采用如下均方差公式计算得到：

式中，表示评价网络参数，/>表示损失函数，/>表示随机迷你批数量，/>表示正整数，/>表示目标Q值，/>表示状态，/>表示状态特征向量，/>表示输出动作，表示当前网络的Q值。

在一个可能的设计中，所述策略网络Actor的损失梯度采用如下公式计算得到：

式中，表示策略网络参数，/>表示策略网络的损失梯度，/>表示随机迷你批数量，/>表示正整数，/>表示Q值的损失梯度，/>表示动作空间的损失梯度，/>表示状态，/>表示输出动作，/>在策略更新时更新，所述策略网络的损失对评价网络返回的Q值取负进行，以便减少损失函数/>，/>表示Q值的损失。

第二方面，提供了一种智能伺服稳定控制装置，布置在伺服控制器中，包括有依次通信连接的模型建立模块、算法构建模块、初始化模块、动作映射模块、评估更新模块和动作输出模块；

所述模型建立模块，用于建立目标伺服机构的马尔可夫决策过程模型，其中，所述马尔可夫决策过程模型包含有所述目标伺服机构的观测信号S_t、动作信号A_t和奖励函数；

所述算法构建模块，用于基于双向长短时记忆神经网络层BiLSTM和全连接网络层，构建包括有六个深度神经网络的TD3强化学习算法框架，其中，所述六个深度神经网络包括有策略网络Actor、与所述策略网络Actor对应的目标策略网络Actor_T、第一评价网络Critic1、与所述第一评价网络Critic1对应的第一目标评价网络Critic_T1、第二评价网络Critic2和与所述第二评价网络Critic2对应的第二目标评价网络Critic_T2，所述六个深度神经网络中的各个深度神经网络均由所述双向长短时记忆神经网络层BiLSTM和所述全连接网络层组成；

所述初始化模块，用于初始化用于存放每一次状态转移元组的经验池R，其中，所述状态转移元组包含有所述观测信号S_t的前一个状态、所述动作信号A_t的前一个状态、所述奖励函数的前一个状态和所述观测信号S_t的当前状态；

所述动作映射模块，用于从初始化状态开始在所述策略网络Actor和所述目标策略网络Actor_T中应用连续动作空间的确定性算法将所述经验池R中的每个状态转移元组都映射到一个确定的动作上；

所述评估更新模块，用于在每一次映射确定动作后，使用所述第一目标评价网络Critic_T1和所述第二目标评价网络Critic_T2来分别对由所述目标策略网络Actor_T输出的动作进行Q值评估，得到在两Q值评估结果中的较小Q值，然后基于所述较小Q值和评价网络对由所述策略网络Actor输出的动作所作出的Q值评估结果，利用最小化损失函数更新所述评价网络，最后利用梯度策略算法反向传播延迟更新所述策略网络Actor、所述目标策略网络Actor_T、所述第一目标评价网络Critic_T1和所述第二目标评价网络Critic_T2，其中，所述评价网络包括有所述第一评价网络Critic1和所述第二评价网络Critic2；

所述动作输出模块，用于根据由所述策略网络Actor输出的动作生成控制器输出量，并将所述控制器输出量传送至所述目标伺服机构，以便得到新的所述状态转移元组。

第三方面，本发明提供了一种智能伺服稳定控制系统，包括有偏差计算器、伺服控制器和目标伺服机构，其中，所述偏差计算器的输入端通信连接所述目标伺服机构的输出端，所述伺服控制器的输入端分别通信连接所述目标伺服机构的输出端和所述偏差计算器的输出端，所述目标伺服机构的输入端通信连接所述伺服控制器的输出端；

所述偏差计算器，用于计算所述目标伺服机构的输出测量值与输出目标值的偏差以及积分偏差，并将计算结果传送至所述伺服控制器；

所述伺服控制器，用于如第一方面或第一方面中任意可能设计所述的智能伺服稳定控制方法。

第四方面，本发明提供了一种控制器，包括有依次通信连接的存储单元、处理单元和收发单元，其中，所述存储单元用于存储计算机程序，所述收发单元用于收发信号，所述处理单元用于读取所述计算机程序，执行如第一方面或第一方面中任意可能设计所述的智能伺服稳定控制方法。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或第一方面中任意可能设计所述的智能伺服稳定控制方法。

第六方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面或第一方面中任意可能设计所述的智能伺服稳定控制方法。

上述方案的有益效果：

（1）本发明创造性提供了一种基于深度强化学习的智能伺服稳定控制新方案，即在建立目标伺服机构的马尔可夫决策过程模型以及基于双向长短时记忆神经网络层BiLSTM和全连接网络层构建包括有六个深度神经网络的TD3强化学习算法框架后，将TD3强化学习算法具体应用在伺服机构的稳定性控制中，实现在伺服控制参数不确定性以及工作环境未知情况下能够进行自主无监督学习的智能优化控制目的，如此与传统PID控制方法以及整定PID控制方法相比，本方案不但可提高伺服机构稳定控制的静态与动态性能，还在自主学习过程中不需要人工干预与人工经验，进一步突破了PID控制器的线性特性，使得具有扰动环境的动态适应能力，从而提升伺服控制系统的控制性能以及智能性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的智能伺服稳定控制方法的流程示意图。

图2为本申请实施例提供的TD3强化学习算法框架的原理示意图。

图3为本申请实施例提供的深度神经网络的结构示意图。

图4为本申请实施例提供的基于智能伺服稳定控制方法的仿真实验闭环控制结果示意图。

图5为本申请实施例提供的智能伺服稳定控制装置的结构示意图。

图6为本申请实施例提供的智能伺服稳定控制系统的结构示意图。

图7为本申请实施例提供的控制器的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

应当理解，尽管本文可能使用术语第一和第二等等来描述各种对象，但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A、单独存在B或者同时存在A和B等三种情况；又例如，A、B和/或C，可以表示存在A、B和C中的任意一种或他们的任意组合；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A或者同时存在A和B等两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

实施例：

如图1所示，本实施例第一方面提供的所述智能伺服稳定控制方法，可以但不限于由具有一定计算资源的且能够收发信号的控制器执行，例如由伺服控制器等电子器件执行。如图1所示，所述智能伺服稳定控制方法，具体是由伺服控制器执行，可以但不限于包括有如下步骤S1～S6。

S1.建立目标伺服机构的马尔可夫决策过程模型，其中，所述马尔可夫决策过程模型包含但不限于有所述目标伺服机构的观测信号S_t、动作信号A_t和奖励函数等。

在所述步骤S1中，所述目标伺服机构即为伺服控制对象，可以但不限于举例有：某型光电伺服设备的速度回路控制机构，其参数辨识后的等效传递函数模型为：G(s)=(0.06×s+5.55)/(s²+76.78×s+88)，其中，s表示复数变量。所述观测信号S_t可具体为所述目标伺服机构的3个连续状态量，即具体的，所述观测信号S_t包含但不限于有所述目标伺服机构的输出测量值y(t)、所述输出测量值与输出目标值的偏差e(t)和所述输出测量值与所述输出目标值的积分偏差Ie(t)等，从而可形成：S_t={y(t),e(t),Ie(t)}。此外，所述动作信号A_t具体包含但不限于有所述目标伺服机构的控制输入量Ci(t)，也即所述控制输入量Ci(t)为本实施例中强化学习算法的策略输出信号，特别是对于强化学习控制器智能体是将动作区间设置为连续时间，此策略输出信号可作为控制器直接输出，确保控制器作用的连续性和高效性，从而形成：A_t={Ci(t)}。

在所述步骤S1中，所述奖励函数即为闭环伺服控制系统（其包括有所述伺服控制器和所述目标伺服机构）运行优化任务的最终目标，可用r(t)表示并具体采用如下公式:r(t)=c₂×r₂(t)-c₁×r₁(t)-c₃×t，其中，t表示时间变量，c₁、c₂和c₃分别表示预设的奖励系数，r₁(t)在0≤y(t)≤y_max时取零值而在其它情况时为负R₁，y(t)表示所述目标伺服机构的输出测量值，y_max表示已知的最大输出测量值，r₂(t) 在|e(t)|≤e_th时为R₂而在其它情况时为负R₃，e(t)表示所述输出测量值与输出目标值的偏差，e_th表示预设的偏差阈值，R₁、R₂和R₃分别表示预设的奖励值。本实施例继续以所述某型光电伺服设备的速度回路控制机构为例，可具体设置奖励系数分别为：c₁=100、c₂=1和c₃=0.05，以及具体设置奖励值分别为：R₁=1、R₂=16和R₃=1。

S2.基于双向长短时记忆神经网络层BiLSTM和全连接网络层，构建包括有六个深度神经网络的TD3强化学习算法框架，其中，所述六个深度神经网络包括有策略网络Actor、与所述策略网络Actor对应的目标策略网络Actor_T、第一评价网络Critic1、与所述第一评价网络Critic1对应的第一目标评价网络Critic_T1、第二评价网络Critic2和与所述第二评价网络Critic2对应的第二目标评价网络Critic_T2，所述六个深度神经网络中的各个深度神经网络均由所述双向长短时记忆神经网络层BiLSTM和所述全连接网络层组成。

在所述步骤S2中，BiLSTM是Bi-directional Long Short-Term Memory的缩写，是由前向LSTM（Long Short-Term Memory,长短期记忆，是一种特殊的卷积神经网络，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题）与后向LSTM组合而成，因此所述双向长短时记忆神经网络层BiLSTM和所述全连接网络层均为现有网络结构。所述TD3（TwinDelayed Deep Deterministic policy gradient algorithm）强化学习算法是一种基于连续状态空间与连续动作的且适合于高维连续动作空间的现有深度强化学习方法，是DDPG(Deep Deterministic Policy Gradient，一种深度确定性的策略梯度算法,它是为了解决连续动作控制问题而提出的算法)算法的优化版本，可优化DDPG在训练过程中Q值估计过高的问题，进而可以应对智能体需要输出连续动作的问题，其原理架构如图2所示，所述策略网络Actor、所述目标策略网络Actor_T、所述第一评价网络Critic1、所述第一目标评价网络Critic_T1、所述第二评价网络Critic2和所述第二目标评价网络Critic_T2等均为TD3强化学习算法框架中常规配置。此外，由于引入了双向长短时记忆神经网络，可以有效解决强化学习中策略网络Actor与评价网络Critic的梯度消失和梯度爆炸等问题，使得可在环境模型未知的情况下设计出所述目标伺服机构的优化稳定控制方案，构成总体闭环的智能稳定伺服控制方案。

在所述步骤S2中，如图3所示，具体的，所述深度神经网络包括但不限于有依次连接的输入层、第一全连接层、双向长短时记忆神经网络层BiLSTM、第二全连接层和输出层，其中，所述第一全连接层和所述第二全连接层的激活函数均采用LeakyReLu函数。详细的，所述策略网络Actor和所述目标策略网络Actor_T中的BiLSTM可设置单元数为64，以便后接一个全连接层以64维数据为输入数据，进而计算生成动作输出控制信号；而在所述第一评价网络Critic1、所述第一目标评价网络Critic_T1、所述第二评价网络Critic2和所述第二目标评价网络Critic_T2中的设置可与在所述策略网络Actor和所述目标策略网络Actor_T中的BiLSTM部分设置相同，以及对于在前策略网络Actor产生的动作输出，可用一个全连接层进行输入映射，然后将前面两步的输出拼接一个向量传递给下一层的全连接层，由这个全连接层生成对动作输出的整体评价。

S3.初始化用于存放每一次状态转移元组的经验池R，其中，所述状态转移元组包含有所述观测信号S_t的前一个状态、所述动作信号A_t的前一个状态、所述奖励函数的前一个状态和所述观测信号S_t的当前状态。

在所述步骤S3中，具体初始化方式为现有TD3强化学习算法中的常规方式。

S4.从初始化状态开始在所述策略网络Actor和所述目标策略网络Actor_T中应用连续动作空间的确定性算法将所述经验池R中的每个状态转移元组都映射到一个确定的动作上。

在所述步骤S4中，所述连续动作空间的确定性算法为现有TD3强化学习算法中的常规方式。此外，如图2所示，需要在动作空间加上扰动（Noise）实现探索，选择控制器智能体动作。

S5.在每一次映射确定动作后，使用所述第一目标评价网络Critic_T1和所述第二目标评价网络Critic_T2来分别对由所述目标策略网络Actor_T输出的动作进行Q值评估，得到在两Q值评估结果中的较小Q值，然后基于所述较小Q值和评价网络对由所述策略网络Actor输出的动作所作出的Q值评估结果，利用最小化损失函数更新所述评价网络，最后利用梯度策略算法反向传播延迟更新所述策略网络Actor、所述目标策略网络Actor_T、所述第一目标评价网络Critic_T1和所述第二目标评价网络Critic_T2，其中，所述评价网络包括有所述第一评价网络Critic1和所述第二评价网络Critic2。

在所述步骤S5中，所述Q值评估以及网络更新等的具体方式为现有TD3强化学习算法中的常规方式。具体的，所述评价网络的最小化损失函数采用如下均方差公式计算得到：

式中，表示评价网络参数，/>表示损失函数，/>表示随机迷你批数量，/>表示正整数，/>表示目标Q值，/>表示状态，/>表示状态特征向量，/>表示输出动作，表示当前网络的Q值。而所述策略网络Actor的损失梯度采用如下公式计算得到：

式中，表示策略网络参数，/>表示策略网络的损失梯度，/>表示随机迷你批数量，/>表示正整数，/>表示Q值的损失梯度，/>表示动作空间的损失梯度，/>表示状态，/>表示输出动作，/>在策略更新时更新，所述策略网络的损失对评价网络返回的Q值取负进行，以便减少损失函数/>，/>表示Q值的损失。此外，所述目标策略网络Actor_T、所述第一目标评价网络Critic_T1和所述第二目标评价网络Critic_T2的损失梯度可参照所述策略网络Actor的损失梯度常规推导得到，于此不再赘述。

S6.根据由所述策略网络Actor输出的动作生成控制器输出量，并将所述控制器输出量传送至所述目标伺服机构，以便得到新的所述状态转移元组。

通过不断循环前述步骤S4～S6，即可得到优化的策略网络Actor参数，进而可以使得所述目标伺服机构达到满意的控制时域性能指标，包括超调量、稳定时间以及稳态误差等。本实施例继续以所述某型光电伺服设备的速度回路控制机构为例，根据如图4所示的且基于智能伺服稳定控制方法的仿真实验闭环单位阶跃响应控制效果，可知能够满足学习训练与控制使用要求。

由此基于前述步骤S1～S6所描述的智能伺服稳定控制方法，提供了一种基于深度强化学习的智能伺服稳定控制新方案，即在建立目标伺服机构的马尔可夫决策过程模型以及基于双向长短时记忆神经网络层BiLSTM和全连接网络层构建包括有六个深度神经网络的TD3强化学习算法框架后，将TD3强化学习算法具体应用在伺服机构的稳定性控制中，实现在伺服控制参数不确定性以及工作环境未知情况下能够进行自主无监督学习的智能优化控制目的，如此与传统PID控制方法以及整定PID控制方法相比，本方案不但可提高伺服机构稳定控制的静态与动态性能，还在自主学习过程中不需要人工干预与人工经验，进一步突破了PID控制器的线性特性，使得具有扰动环境的动态适应能力，从而提升伺服控制系统的控制性能以及智能性和鲁棒性。

如图5所示，本实施例第二方面提供了一种实现第一方面所述的智能伺服稳定控制方法的虚拟装置，布置在伺服控制器中，包括有依次通信连接的模型建立模块、算法构建模块、初始化模块、动作映射模块、评估更新模块和动作输出模块；

本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果，可以参见第一方面所述的智能伺服稳定控制方法，于此不再赘述。

如图6所示，本实施例第三方面提供了一种应用如第一方面所述的智能伺服稳定控制方法的实体系统，包括有偏差计算器、伺服控制器和目标伺服机构，其中，所述偏差计算器的输入端通信连接所述目标伺服机构的输出端，所述伺服控制器的输入端分别通信连接所述目标伺服机构的输出端和所述偏差计算器的输出端，所述目标伺服机构的输入端通信连接所述伺服控制器的输出端；所述偏差计算器，用于计算所述目标伺服机构的输出测量值与输出目标值的偏差以及积分偏差，并将计算结果传送至所述伺服控制器；所述伺服控制器，用于执行如第一方面所述的智能伺服稳定控制方法。

本实施例第三方面提供的前述系统的工作过程、工作细节和技术效果，可以参见第一方面所述的智能伺服稳定控制方法，于此不再赘述。

如图7所示，本实施例第四方面提供了一种实现如第一方面所述的智能伺服稳定控制方法的实体控制器，包括有依次通信连接的存储单元、处理单元和收发单元，其中，所述存储单元用于存储计算机程序，所述收发单元用于收发信号，所述处理单元用于读取所述计算机程序，执行如第一方面所述的智能伺服稳定控制方法。具体举例的，所述存储单元可以但不限于包括随机存取存储器（Random-Access Memory，RAM）、只读存储器（Read-OnlyMemory，ROM）、闪存（Flash Memory）、先进先出存储器（First Input First Output，FIFO）和/或先进后出存储器（First Input Last Output，FILO）等等。

本实施例第四方面提供的前述控制器的工作过程、工作细节和技术效果，可以参见第一方面所述的智能伺服稳定控制方法，于此不再赘述。

本实施例第五方面提供了一种存储包含如第一方面所述的智能伺服稳定控制方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面所述的智能伺服稳定控制方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等计算机可读存储介质，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

本实施例第五方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果，可以参见如第一方面所述的智能伺服稳定控制方法，于此不再赘述。

本实施例第六方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面所述的智能伺服稳定控制方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能伺服稳定控制方法，其特征在于，由伺服控制器执行，包括：

2.根据权利要求1所述的智能伺服稳定控制方法，其特征在于，所述观测信号S_t包含有所述目标伺服机构的输出测量值y(t)、所述输出测量值与输出目标值的偏差e(t)和所述输出测量值与所述输出目标值的积分偏差Ie(t)；

3.根据权利要求1所述的智能伺服稳定控制方法，其特征在于，所述奖励函数r(t)采用如下公式:r(t)=c₂×r₂(t)-c₁×r₁(t)-c₃×t，其中，t表示时间变量，c₁、c₂和c₃分别表示预设的奖励系数，r₁(t)在0≤y(t)≤y_max时取零值而在其它情况时为负R₁，y(t)表示所述目标伺服机构的输出测量值，y_max表示已知的最大输出测量值，r₂(t) 在|e(t)|≤e_th时为R₂而在其它情况时为负R₃，e(t)表示所述输出测量值与输出目标值的偏差，e_th表示预设的偏差阈值，R₁、R₂和R₃分别表示预设的奖励值。

4.根据权利要求1所述的智能伺服稳定控制方法，其特征在于，所述深度神经网络包括有依次连接的输入层、第一全连接层、双向长短时记忆神经网络层BiLSTM、第二全连接层和输出层，其中，所述第一全连接层和所述第二全连接层的激活函数均采用LeakyReLu函数。

5.根据权利要求1所述的智能伺服稳定控制方法，其特征在于，所述评价网络的最小化损失函数采用如下均方差公式计算得到：

6.根据权利要求1所述的智能伺服稳定控制方法，其特征在于，所述策略网络Actor的损失梯度采用如下公式计算得到：

式中，表示策略网络参数，/>表示策略网络的损失梯度，/>表示随机迷你批数量，表示正整数，/>表示Q值的损失梯度，/>表示动作空间的损失梯度，/>表示状态，/>表示输出动作，/>在策略更新时更新，所述策略网络的损失对评价网络返回的Q值取负进行，以便减少损失函数/>，/>表示Q值的损失。

7.一种智能伺服稳定控制装置，其特征在于，布置在伺服控制器中，包括有依次通信连接的模型建立模块、算法构建模块、初始化模块、动作映射模块、评估更新模块和动作输出模块；

8.一种智能伺服稳定控制系统，其特征在于，包括有偏差计算器、伺服控制器和目标伺服机构，其中，所述偏差计算器的输入端通信连接所述目标伺服机构的输出端，所述伺服控制器的输入端分别通信连接所述目标伺服机构的输出端和所述偏差计算器的输出端，所述目标伺服机构的输入端通信连接所述伺服控制器的输出端；

所述伺服控制器，用于执行如权利要求1～6中任意一项所述的智能伺服稳定控制方法。

9.一种控制器，其特征在于，包括有依次通信连接的存储单元、处理单元和收发单元，其中，所述存储单元用于存储计算机程序，所述收发单元用于收发信号，所述处理单元用于读取所述计算机程序，执行如权利要求1～6中任意一项所述的智能伺服稳定控制方法。

10.一种计算机可读存储介质，其特征在于,所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～6中任意一项所述的智能伺服稳定控制方法。