CN113050418A

CN113050418A - 自适应增益调度人工智能控制方法

Info

Publication number: CN113050418A
Application number: CN202110229912.6A
Authority: CN
Inventors: 周纪念; 王艳艳
Original assignee: Shandong Robinson Logistics Co ltd
Current assignee: Shandong Robinson Logistics Co ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-06-29

Abstract

本发明公开了一种自适应增益调度人工智能控制方法，通过配置PID控制器和机器学习机；PID控制器配置有控制对象，通过PID控制器接收对控制对象的控制参数，机器学习机对控制对象的控制参数进行比例增益、积分增益和微分增益处理，采用机器学习算法根据比例增益、积分增益和微分增益处理结果进行控制对象的控制参数更新优化，根据更新优化后的比例增益、积分增益和微分增益处理结果对控制对象进行自适应增益控制。本发明能够确定对PID控制器的最佳增益，减少用于确定PID控制器设计时的增益所需要的时间和人力，并且可以分别解决无人机、自动汽车其他机器的操作特性。

Description

自适应增益调度人工智能控制方法

技术领域

本发明涉及PID控制技术领域，具体涉及一种自适应增益调度人工智能控制方法。

背景技术

PID控制器又称比例-积分-微分控制器，由比例单元(P)、积分单元(I)和微分单元(D)组成。PID控制器可以用来控制任何可以被测量的并且可以被控制的变量，比如，可以用来控制温度，压强，流量，化学成分，速度等。PID控制器把收集到的数据和一个参考值进行比较，然后把这个差别用于计算新的输入值，这个新的输入值的目的是可以让系统的数据达到或者保持在参考值。PID控制器可以根据历史数据和差别的出现率来调整输入值，这样可以使系统更加准确，更加稳定

目前，人们倾向于使控制对象始终处于最优工作状态，因此产生了一种最优控制的方法自适应控制。在这种控制中要求系统能够根据被测参数等变化而自动对系统进行调节，使系统随时处于最佳状态。自适应控制包括性能估计(辨别)、决策和修改三个环节，是微机控制系统的发展方向。如何实现PID控制器的最佳增益，以减少用于确定PID控制器设计时的增益所需要的时间和人力是一个亟待解决的技术问题。

发明内容

为此，本发明提供一种自适应增益调度人工智能控制方法，实现PID控制器的最佳增益，以减少用于确定PID控制器设计时的增益所需要的时间和人力。

为了实现上述目的，本发明提供如下技术方案：自适应增益调度人工智能控制方法，包括PID控制器和机器学习机；所述PID控制器配置有控制对象，通过所述PID控制器接收对所述控制对象的控制参数，所述机器学习机对所述控制对象的控制参数进行比例增益、积分增益和微分增益处理，采用机器学习算法根据所述比例增益、积分增益和微分增益处理结果进行所述控制对象的控制参数更新优化，根据更新优化后的比例增益、积分增益和微分增益处理结果对控制对象进行自适应增益控制。

作为自适应增益调度人工智能控制方法的优选方案，所述控制对象的控制参数更新优化的方式为：

根据控制对象的动力学特性进行控制对象的状态量和动作量配置，所述PID控制器接所述控制对象状态量并根据预设的策略输出所述控制对象的动作量。

作为自适应增益调度人工智能控制方法的优选方案，当所述控制对象执行输出的所述动作量后进入下一个控制状态，同时回馈给PID控制器的奖励值，PID控制器根据控制对象返回的状态值和奖励值进行执行动作策略更新，根据更新后的执行动作策略输出所述控制对象的下一个控制状态的执行动作。

作为自适应增益调度人工智能控制方法的优选方案，所述机器学习算法配置有神经网络，将所述神经网络作为所述控制对象的控制框架，神经网络包括策略网络和评价网络。

作为自适应增益调度人工智能控制方法的优选方案，所述策略网络用于输出控制对象的动作，策略网络的输入为控制对象的状态参数，根据控制对象所处的状态确定控制对象的待执行动作。

作为自适应增益调度人工智能控制方法的优选方案，所述评价网络用于对控制对象当前状态下所执行动作的优劣，评价网络给出当前状态下控制对象的动作评价指标。

作为自适应增益调度人工智能控制方法的优选方案，所述机器学习机选择一个动作a作用于环境导致控制对象的状态s变化为s+1，同时产生一个强化信号r，机器学习机根据强化信号r选择下一个动作，如果r为正值，加强产生对应行为策略的趋势。

作为自适应增益调度人工智能控制方法的优选方案，每次选择动作的原则是使受到正的奖励的概率增大。

作为自适应增益调度人工智能控制方法的优选方案，所述控制对象为无人机或自动驾驶汽车。

本发明具有如下优点：通过配置PID控制器和机器学习机；PID控制器配置有控制对象，通过PID控制器接收对控制对象的控制参数，机器学习机对控制对象的控制参数进行比例增益、积分增益和微分增益处理，采用机器学习算法根据比例增益、积分增益和微分增益处理结果进行控制对象的控制参数更新优化，根据更新优化后的比例增益、积分增益和微分增益处理结果对控制对象进行自适应增益控制。本发明能够确定对PID控制器的最佳增益，减少用于确定PID控制器设计时的增益所需要的时间和人力，并且可以分别解决无人机、自动汽车其他机器的操作特性。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例中提供的自适应增益调度人工智能控制方法中PID算法原理图；

图2为本发明实施例中提供的自适应增益调度人工智能控制方法示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1和图2，提供一种自适应增益调度人工智能控制方法，包括PID控制器和机器学习机；所述PID控制器配置有控制对象，通过所述PID控制器接收对所述控制对象的控制参数，所述机器学习机对所述控制对象的控制参数进行比例增益、积分增益和微分增益处理，采用机器学习算法根据所述比例增益、积分增益和微分增益处理结果进行所述控制对象的控制参数更新优化，根据更新优化后的比例增益、积分增益和微分增益处理结果对控制对象进行自适应增益控制。

本实施例中，PID控制器既有比例作用的及时迅速，又有积分作用的消除余差能力，还有微分作用的超前控制功能。当偏差阶跃出现时，微分立即大幅度动作，抑制偏差跃变；比例也同时起消除偏差的作用，使偏差幅度减小，由于比例作用是持久和起主要作用的控制规律，因此可使系统比较稳定；而积分作用慢慢把余差克服掉，只要三个作用的控制参数选择得当，便可充分发挥三种控制规律的优点，得到较为理想的控制效果。

具体的，PID控制器的比例环节输出与偏差信号成比例，可理解为一个放大倍数可调的放大器，偏差一旦产生，比例项立即反应，以减小偏差。积分环节输出与偏差信号的积分成正比关系，使用比例+积分控制器，可以消除稳态误差，能够满足一般系统的控制要求，微分环节输出与误差信号的微分(即误差的变化率)成正比关系，反映偏差信号的变化趋势(变化速率)。

本实施例中，所述控制对象的控制参数更新优化的方式为：

根据控制对象的动力学特性进行控制对象的状态量和动作量配置，所述PID控制器接所述控制对象状态量并根据预设的策略输出所述控制对象的动作量。当所述控制对象执行输出的所述动作量后进入下一个控制状态，同时回馈给PID控制器的奖励值，PID控制器根据控制对象返回的状态值和奖励值进行执行动作策略更新，根据更新后的执行动作策略输出所述控制对象的下一个控制状态的执行动作。

本实施例中，所述机器学习算法配置有神经网络，将所述神经网络作为所述控制对象的控制框架，神经网络包括策略网络和评价网络。所述策略网络用于输出控制对象的动作，策略网络的输入为控制对象的状态参数，根据控制对象所处的状态确定控制对象的待执行动作。所述评价网络用于对控制对象当前状态下所执行动作的优劣，评价网络给出当前状态下控制对象的动作评价指标。

具体的，控制对象以无人机为例，策略网络为直接能输出动作的网络，其输入为无人机的状态。根据无人机所处的状态决定无人机下一步动作，例如，无人机应该增还是降，无人机各个电机转速等。评价网络的作用是评价无人机处在状态S时采取动作D的好坏，当无人机处在x轴向加速度较大的状态1s，策略网络就会根据当前状态决定输出动作，而评价网络的作用是给该动作一个评价指标用来评价无人机处在状态S采取动作D的好坏，从而引导策略网络在以后的决策中选择更优的动作。

本实施例中，所述机器学习机选择一个动作a作用于环境导致控制对象的状态s变化为s+1，同时产生一个强化信号r，机器学习机根据强化信号r选择下一个动作，如果r为正值，加强产生对应行为策略的趋势。每次选择动作的原则是使受到正的奖励的概率增大。采用强化学习不需要标记的训练数据，无需从未标记样本中发现隐藏的结构，而是边获得样例边学习，在获得样例之后更新自己的模型，利用当前的模型来指导下一步的行动，下一步的行动获得强化信号之后再更新模型，不断迭代重复直到模型收敛。

本发明通过配置PID控制器和机器学习机；PID控制器配置有控制对象，通过PID控制器接收对控制对象的控制参数，机器学习机对控制对象的控制参数进行比例增益、积分增益和微分增益处理，采用机器学习算法根据比例增益、积分增益和微分增益处理结果进行控制对象的控制参数更新优化，根据更新优化后的比例增益、积分增益和微分增益处理结果对控制对象进行自适应增益控制。本发明根据控制对象的动力学特性进行控制对象的状态量和动作量配置，所述PID控制器接所述控制对象状态量并根据预设的策略输出所述控制对象的动作量。当所述控制对象执行输出的所述动作量后进入下一个控制状态，同时回馈给PID控制器的奖励值，PID控制器根据控制对象返回的状态值和奖励值进行执行动作策略更新，根据更新后的执行动作策略输出所述控制对象的下一个控制状态的执行动作。机器学习机选择一个动作a作用于环境导致控制对象的状态s变化为s+1，同时产生一个强化信号r，机器学习机根据强化信号r选择下一个动作，如果r为正值，加强产生对应行为策略的趋势。每次选择动作的原则是使受到正的奖励的概率增大。采用强化学习不需要标记的训练数据，无需从未标记样本中发现隐藏的结构，而是边获得样例边学习，在获得样例之后更新自己的模型，利用当前的模型来指导下一步的行动，下一步的行动获得强化信号之后再更新模型，不断迭代重复直到模型收敛。本发明能够确定对PID控制器的最佳增益，减少用于确定PID控制器设计时的增益所需要的时间和人力，并且可以分别解决无人机、自动汽车其他机器的操作特性。

显然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.自适应增益调度人工智能控制方法，其特征在于，包括PID控制器和机器学习机；所述PID控制器配置有控制对象，通过所述PID控制器接收对所述控制对象的控制参数，所述机器学习机对所述控制对象的控制参数进行比例增益、积分增益和微分增益处理，采用机器学习算法根据所述比例增益、积分增益和微分增益处理结果进行所述控制对象的控制参数更新优化，根据更新优化后的比例增益、积分增益和微分增益处理结果对控制对象进行自适应增益控制。

2.根据权利要求1所述的自适应增益调度人工智能控制方法，其特征在于，所述控制对象的控制参数更新优化的方式为：

3.根据权利要求2所述的自适应增益调度人工智能控制方法，其特征在于，当所述控制对象执行输出的所述动作量后进入下一个控制状态，同时回馈给PID控制器的奖励值，PID控制器根据控制对象返回的状态值和奖励值进行执行动作策略更新，根据更新后的执行动作策略输出所述控制对象的下一个控制状态的执行动作。

4.根据权利要求1所述的自适应增益调度人工智能控制方法，其特征在于，所述机器学习算法配置有神经网络，将所述神经网络作为所述控制对象的控制框架，神经网络包括策略网络和评价网络。

5.根据权利要求4所述的自适应增益调度人工智能控制方法，其特征在于，所述策略网络用于输出控制对象的动作，策略网络的输入为控制对象的状态参数，根据控制对象所处的状态确定控制对象的待执行动作。

6.根据权利要求4所述的自适应增益调度人工智能控制方法，其特征在于，所述评价网络用于对控制对象当前状态下所执行动作的优劣，评价网络给出当前状态下控制对象的动作评价指标。

7.根据权利要求2所述的自适应增益调度人工智能控制方法，其特征在于，所述机器学习机选择一个动作a作用于环境导致控制对象的状态s变化为s+1，同时产生一个强化信号r，机器学习机根据强化信号r选择下一个动作，如果r为正值，加强产生对应行为策略的趋势。

8.根据权利要求7所述的自适应增益调度人工智能控制方法，其特征在于，每次选择动作的原则是使受到正的奖励的概率增大。

9.根据权利要求1所述的自适应增益调度人工智能控制方法，其特征在于，所述控制对象为无人机或自动驾驶汽车。