CN112631120B

CN112631120B - Pid控制方法、装置和视频编解码系统

Info

Publication number: CN112631120B
Application number: CN201910955024.5A
Authority: CN
Inventors: 周益民; 程学理
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2022-05-17
Anticipated expiration: 2039-10-09
Also published as: CN112631120A; WO2021068748A1

Abstract

本申请提供了一种PID控制方法、装置和视频编解码系统，该PID控制方法包括：根据目标控制系统中的比例积分微分PID控制器的输出值与理论值之间的差值，确定该PID控制器的PID参数对应的本次奖励值，该PID参数包括比例增益、积分增益和微分增益中的至少一种；在该本次奖励值小于0的情况下，根据本次累加奖励值和该本次奖励值对该PID参数进行更新，其中，该本次累加奖励值是根据该本次奖励值与前一次累加奖励值确定的；根据更新后的该PID参数，对该目标控制系统中的PID控制器进行下一次PID控制。本申请实施例的方法、装置和系统，有利于降低PID参数的整定难度，以及提高PID控制器的控制性能及通用性。

Description

PID控制方法、装置和视频编解码系统

技术领域

本申请涉及控制领域，并且更具体地，涉及一种PID控制方法、装置和视频编解码系统。

背景技术

目前，比例积分微分(proportion integral differential，PID)控制由于其算法简单、可靠性好，所以在控制领域有着较为广泛的应用。传统的PID控制器的PID参数可以包括比例增益、积分增益和微分增益。PID参数直接决定了PID控制器的控制性能。因此，PID控制器的参数整定是控制系统设计的核心内容。传统的参数整定过程严重依赖相关从业人员的经验，通过反复调试PID参数，直到满足实际应用需求，这样的调节工作量极大。

发明内容

本申请提供一种PID控制方法、装置和视频编解码系统，有利于降低PID参数的整定难度，以及提高PID控制器的控制性能及通用性。

第一方面，提供了一种PID控制方法，该PID控制方法包括：根据目标控制系统中的PID控制器的输出值与理论值之间的差值，确定该PID控制器的PID参数对应的本次奖励值，该PID参数包括比例增益、积分增益和微分增益中的至少一种；在该本次奖励值小于0情况下，根据本次累加奖励值和该本次奖励值对该PID参数进行更新，其中，该本次累加奖励值是根据该本次奖励值与前一次累加奖励值确定的；根据更新后的该PID参数，对该目标控制系统中的PID控制器进行下一次PID控制。

第二方面，提供了一种PID控制装置，所述PID控制装置包括：确定单元，用于根据目标控制系统中的PID控制器的输出值与理论值之间的差值，确定所述PID控制器的PID参数对应的本次奖励值；更新单元，用于在所述本次奖励值小于0情况下，根据本次累加奖励值和所述本次奖励值对所述PID参数进行更新，所述PID参数包括比例增益、积分增益和微分增益中的至少一种，其中，所述本次累加奖励值是根据所述本次奖励值与前一次累加奖励值确定的；控制单元，用于根据更新后的所述PID参数，对所述目标控制系统中的PID控制器进行下一次PID控制。

第三方面，提供了一种视频编解码系统，包括第二方面或其各实现方式中的PID控制装置。

第四方面，提供了一种PID控制装置，包括处理器和存储器。该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行上述第一方面或其各实现方式中的方法。

第五方面，提供了一种芯片，用于实现上述第一方面或其各实现方式中的方法。

具体地，该芯片包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有该芯片的设备执行如上述第一方面或其各实现方式中的方法。

第六方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序使得计算机执行上述第一方面或其各实现方式中的方法。

第七方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令使得计算机执行上述第一方面或其各实现方式中的方法。

第八方面，提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面或其各实现方式中的方法。

通过上述技术方案，通过PID控制器的输出值与理论值的差值，确定本次奖励值，在本次奖励值小于0的情况下，结合历史奖励值对PID参数进行更新，并根据更新后的PID参数对PID控制器进行下一次PID控制，从而能够自适应调节PID参数，而不需要依据人为经验调节，其大大降低了PID参数的整定难度，并且调节效果显著。

附图说明

图1是PID控制系统的结构性示意图。

图2是本申请实施例提供的PID控制方法的示意性框图。

图3是本申请实施例中本次奖励值与差值的绝对值的一种负相关关系示意图。

图4是本申请实施例中本次奖励值与差值的绝对值的另一种负相关关系示意图。

图5是本申请实施例提供的PID控制装置的示意性框图。

图6是本申请实施例提供的视频编解码系统的示意性框图。

图7是本申请实施例提供的PID控制装置的另一示意性框图。

图8是本申请实施例提供的芯片的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。针对本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前工业自动化水平已成为衡量各行各业现代化水平的一个重要标志。同时，控制理论的发展也经历了古典控制理论、现代控制理论和智能控制理论三个阶段。智能控制的典型实例是模糊全自动洗衣机等。控制系统可分为开环控制系统和闭环控制系统。而PID控制则是一种闭环控制方式，将输入输出偏差的比例(P)、积分(I)和微分(D)通过线性组合构成控制量，对被控制对象进行控制。典型地，一个控制系统包括PID控制器和被控对象，如图1所示。

通常PID控制包括比例、积分和微分这三部分，而在实际中也有其他类型的控制器。比例、积分以及微分这三种控制规律可以单独使用，也可以组合使用。例如，比例P控制器、比例积分PI控制器、比例微分PD控制器等。具体控制器的类型主要根据控制系统的需求来定。

PID控制器的表达式如公式(1)所示：

在实际应用时，也可以将其离散化，其表达式如公式(2)所示：

其中，u(t)表示PID控制器的输出值，e(t)表示输入值(也即理论值)与输出值之间的偏差，k_p、k_i以及k_d分别为比例增益、积分增益以及微分增益，也可以称为是比例系数、积分系数以及微分系数。e(t)表示在t时刻的偏差，而e(t-1)表示在(t-1)时刻的偏差。

通常情况下，这三个参数为PID控制器中重要的参数，直接决定了控制器的控制性能。因此，PID控制器的参数整定是控制系统设计的核心内容。目前的参数整定主要依赖于相关从业人员的经验，通过反复调节这三项参数，直到满足实际应用需求。这样的调节工作量极大。此外，该方法适用范围受限，每次调整只适用于某种特定工程场景，不具备通用性。

因此，本申请实施例提供了一种新的PID控制方法，该PID控制方法通过借鉴强化学习中的奖励惩罚机制，在PID初始参数确定的基础上可以动态调整PID参数。

图2示出了本申请实施例提供的一种PID控制方法100的示意性框图。如图2所示，该PID控制方法100可以包括以下部分或全部内容：

S110，根据目标控制系统中的比例积分微分PID控制器的输出值与理论值之间的差值，确定所述PID控制器的PID参数对应的本次奖励值，所述PID参数包括比例增益、积分增益和微分增益中的至少一种；

S120，在所述本次奖励值小于0的情况下，根据本次累加奖励值和所述本次奖励值对所述PID参数进行更新，其中，所述本次累加奖励值是根据所述本次奖励值与前一次累加奖励值确定的；

S130，根据更新后的所述PID参数，对所述目标控制系统中的PID控制器进行下一次PID控制。

首先，需要说明的是，本申请实施例中的PID控制器是对所有使用PID控制规律的控制器的统称，并不代表控制器的类型。也就是说，该PID控制器可以是使用比例、积分以及微分这三种控制规律的控制器，即该PID控制器的PID参数包括比例增益、积分增益以及微分增益；该PID控制器也可以是使用比例和积分这两种控制规律的控制器，即该PID控制器的PID参数包括比例增益和积分增益。应理解，本申请实施例对PID控制器的类型不作限定。

另外，即便PID控制器的PID参数包括多个参数，本申请实施例所提供的PID控制方法也可以只针对该多个参数中的部分参数。例如，假设PID参数包括比例增益、积分增益以及微分增益，该PID控制方法可以只针对比例增益、积分增益和微分增益中的一个参数或两个参数。这需要根据各个控制规律在控制系统中的需求而定。

在本申请实施例中，PID控制是一个循环控制的过程，而每次更新得到的PID参数可以作为下一次PID控制所使用的参数。具体而言，可以依据一次PID控制中的输出值与理论值的差值，确定是否要对该次PID控制中的PID参数进行奖励，并进一步确定本次奖励值。也就是说，根据输出值与理论值的差值，确定PID控制器的性能是否较好，若PID控制器的性能较好，则需要对当前所使用的PID参数进行奖励，该本次奖励值大于0；若PID控制器的性能不好，则需要对当前所使用的PID参数进行惩罚，该本次奖励值小于0。在本次奖励值小于0时，即该PID控制器的性能不好时，可以根据本次奖励值以及本次累加奖励值对PID参数进行更新。本次累加奖励值就是根据前一次累加奖励值和本次奖励值确定的。例如，对于每一次PID控制，可以将确定的本次奖励值与之前的所有奖励值累加起来形成本次累加奖励值。具体地，假设rwd(t)表示第t次的累加奖励值，rwd(t)可以等于第(t-1)次的累加奖励值与第t次的本次奖励值rwd之和，而第(t-1)次的累加奖励值等于第(t-2)次的累加奖励值与第(t-1)次的本次奖励值rwd之和，依次类推，那么rwd(t)＝rwd_t+rwd_t-1+rwd_t-2+……+rwd₁+rwd₀，其中，rwd_i表示第i次的本次奖励值，i为小于或等于t的整数，并且rwd₀＝0。当对PID参数进行更新之后，可以使用更新后的PID参数对PID控制器进行下一次PID控制。

该PID控制方法可以由控制系统中的PID控制装置执行，例如，该PID控制装置可以是一个独立的装置，其可以置于PID控制器之后，并根据PID控制器的输出值对PID参数进行调节。再例如，该PID控制装置也可以就是PID控制器。本申请实施例对此不构成限定。

另外，本申请实施例中的PID控制方法可以应用于各种控制系统中，例如，恒温恒湿系统、电力系统、视频编解码系统等。具体地，当该PID控制方法应用于视频编解码系统中时，可以应用于视频编解码系统中的码率控制。

因此，本申请实施例的PID控制方法，通过PID控制器的输出值与理论值的差值，确定本次奖励值，在本次奖励值小于0的情况下，结合历史奖励值对PID参数进行更新，并根据更新后的PID参数对PID控制器进行下一次PID控制，从而能够自适应调节PID参数，而不需要依据人为经验调节，其大大降低了PID参数的整定难度，并且调节效果显著，该PID控制方法还具有通用性。

可选地，在本申请实施例中，根据PID控制器的输出值与理论值的差值，确定本次奖励值，可以是，将该差值的绝对值与第一阈值进行比较，若该差值的绝对值小于第一阈值，就认为该PID控制器的性能比较好，可以对所使用的PID参数进行奖励，即本次奖励值大于0；若该差值的绝对值大于第一阈值，就认为该PID控制器的性能不好，那就需要对所使用的PID参数进行惩罚，即本次奖励值小于0；若该差值的绝对值等于第一阈值，可以认为该PID控制器的性能一般，对所使用的PID参数既不奖励也不惩罚，即本次奖励值等于0。

可选地，所述本次奖励值可以与所述差值的绝对值负相关。例如，所述本次奖励值与所述差值的绝对值可以如图3所示线性负相关。即本次奖励值可以通过公式(3)确定：

rwd＝-a*|u(t)-v^*|+b 公式(3)

再例如，所述本次奖励值与所述差值的绝对值可以如图4所示非线性负相关。即本次奖励值可以通过公式(4)确定：

rwd＝-a*ln(|u(t)-v^*|+1)+b 公式(4)

其中，rwd表示本次奖励值，u(t)表示PID控制器的输出值，v*表示理论值，a和b均为大于0的常数。在图3和图4中，δ表示第一阈值。

可替代地，本申请实施例中的非线性模型除了公式(4)中的对数运算，还可以是开方运算、指数运算以及三角函数运算等。

可选地，在本申请实施例中，所述本次累加奖励值可以通过公式(5)确定：

rwd(t)＝max(0,rwd(t-1)+rwd) 公式(5)

其中，rwd(t)表示本次累加奖励值，rwd(t-1)表示前一次累加奖励值，rwd表示本次奖励值。

具体地，当每次PID控制中的rwd(t-1)+rwd均大于0时，该rwd(t)则为包括本次在内的每次PID控制中确定的本次奖励值之和。而当其中某次PID控制中的rwd(t-1)+rwd小于0，那么该次的累加奖励值rwd(t)则为0，即下一次PID控制中的rwd(t)又重新开始。

可选地，在本申请实施例中，当所述本次奖励值大于或等于0时，可以不对当前所使用的PID参数进行更新。也就是说，在下一次PID控制中，仍然使用本次PID控制中的PID参数。当所述本次奖励值大于或等于0时，本次累加奖励值仍然需要通过前一次累加奖励值和本次奖励值确定。也就是说，无论本次奖励值是大于0或者是小于0，都需要确定本次累加奖励值，当本次奖励值大于或等于0，PID参数不作更新；而当本次奖励值小于0，则根据确定的本次累加奖励值和本次奖励值更新PID参数。

在一种可替代的实施例中，当所述本次奖励值大于或等于0时，也可以对PID参数进行微调。例如，K₂＝a*K₁，其中，K₂是更新后的PID参数，K₁是更新前的PID参数，而a则接近于1，如a＝0.99，a＝1.01等。本申请实施例对此不作限定。

可选地，在本申请实施例中，所述在所述本次奖励值小于0情况下，根据本次累加奖励值和所述本次奖励值对所述PID参数进行更新，包括：在所述本次奖励值小于0的情况下，根据所述本次累加奖励值、所述本次奖励值以及更新率，对所述PID参数进行更新，所述更新率用于调节所述本次奖励值在更新PID参数时所占的比例。

可替代地，当更新率为常数时，可以只根据本次累加奖励值和本次奖励值这两个变量对PID参数进行更新。

当本次奖励值小于0时，即需要对当前PID参数惩罚时，该惩罚可以根据输出值与理论值之间的大小关系分为正向惩罚和负向惩罚。若输出值比理论值小，则可以认为是正向惩罚，正向惩罚可以是指当前PID控制器调节力度不够，需要加大PID参数的调节力度，此时可以利用更新率增大所述本次奖励值在更新PID参数时所占的比例；若输出值大于理论值，则可以认为是负向惩罚，负向惩罚可以是指当前PID控制器调节力度过大，需要减小PID参数的调节力度，此时可以利用更新率降低所述本次奖励值在更新PID参数时所占的比例。

可选地，更新率可以根据实际情况进行调节，例如，可以在PID参数更新过程中进行更新。即每更新一次PID参数，就更新一次更新率，以作为下一次更新PID参数时的更新率。在一种可实现的实施例中，当本次累加奖励值大于第二阈值时，则减小更新率。从而可以达到更高精度的更新效果。可选地，当本次累加奖励值小于第二阈值时，则可以增大更新率；当本次累加奖励值等于第二阈值时，则可以不更新更新率。

进一步地，当本次奖励值小于0时，正向惩罚可以利用下述公式(6)更新PID参数：

负向惩罚可以利用下述公式(7)更新PID参数：

其中，k₂表示更新后的PID参数，k₁表示更新前的PID参数，rwd(t)表示本次累加奖励值，psh表示本次奖励值的负数，即psh＝-rwd，ur表示更新率，ur的取值范围在0到1之间。

将PID参数中的k_p、k_i以及k_d分别代入公式(6)和公式(7)中，则公式(6)变为公式(8)：

公式(7)则变为公式(9)：

需要说明的是，上述公式(6)～公式(9)中的更新公式仅仅是用来示意，并不用来限定，对上述公式的简单变化也属于本申请技术方案的保护范围。

应理解，本申请实施例中的第一阈值、第二阈值以及更新率可以根据相关从业人员的经验获取。而本次奖励值与差值的绝对值的负相关关系也可以根据相关从业人员的经验获取，而这些对于相关从业人员来说，是比较容易获得的。

另外，通常k_p、k_i以及k_d三项参数的调节强度不同，例如，k_p最大，k_i和k_d次之，因此，可以针对这三项参数设置不同的更新率ur_p、ur_i以及ur_d。

图5示出了本申请实施例提供的PID控制装置200的示意性框图。如图5所示，该PID控制装置200包括以下部分或全部内容：

确定单元210，用于根据目标控制系统中的比例积分微分PID控制器的输出值与理论值之间的差值，确定所述PID控制器的PID参数对应的本次奖励值；

更新单元220，用于在所述本次奖励值小于0的情况下，根据本次累加奖励值和所述本次奖励值对所述PID参数进行更新，所述PID参数包括比例增益、积分增益和微分增益中的至少一种，其中，所述本次累加奖励值是根据所述本次奖励值与前一次累加奖励值确定的；

控制单元230，用于根据更新后的所述PID参数，对所述目标控制系统中的PID控制器进行下一次PID控制。

因此，本申请实施例的PID控制装置，通过PID控制器的输出值与理论值的差值，确定本次奖励值，在本次奖励值小于0的情况下，结合历史奖励值对PID参数进行更新，并根据更新后的PID参数对PID控制器进行下一次PID控制，从而能够自适应调节PID参数，而不需要依据人为经验调节，其大大降低了PID参数的整定难度，并且调节效果显著，该PID控制方法还具有通用性。

可选地，在本申请实施例中，所述本次奖励值与所述差值的绝对值负相关。

可选地，在本申请实施例中，若所述差值的绝对值小于或等于第一阈值，所述本次奖励值大于或等于0；若所述差值的绝对值大于所述第一阈值，所述本次奖励值小于0。

可选地，在本申请实施例中，所述确定单元具体用于：

根据第一公式，确定所述本次奖励值，其中，所述第一公式为：rwd＝-a*|u(t)-v^*|+b；

或

根据第二公式，确定所述本次奖励值，其中，所述第二公式为：

rwd＝-a*ln(|u(t)-v^*|+1)+b；

其中，rwd表示本次奖励值，u(t)表示PID控制装置的输出值，v*表示理论值，a和b均为大于0的常数。

可选地，在本申请实施例中，所述确定单元还用于：

根据第三公式，确定所述本次累加奖励值，其中，所述第三公式为：

rwd(t)＝max(0,rwd(t-1)+rwd)；

可选地，在本申请实施例中，所述更新单元具体用于：

在所述本次奖励值小于0的情况下，根据所述本次累加奖励值、所述本次奖励值以及更新率，对所述PID参数进行更新，所述更新率用于调节所述本次奖励值在更新所述PID参数时所占的比例。

可选地，在本申请实施例中，在所述本次奖励值小于0且所述输出值小于所述理论值的情况下，所述更新率用于增大所述本次奖励值在更新所述PID参数时所占的比例；在所述本次奖励值小于0且所述输出值大于所述理论值的情况下，所述更新率用于减小所述本次奖励值在更新所述PID参数时所占的比例。

可选地，在本申请实施例中，所述更新单元具体用于：

在所述本次奖励值小于0且所述输出值小于所述理论值的情况下，根据第四公式，对所述PID参数进行更新，其中，所述第四公式为：

在所述本次奖励值小于0且所述输出值大于所述理论值的情况下，根据第五公式，对所述PID参数进行更新，其中，所述第五公式为：

其中，k₂表示更新后的PID参数，k₁表示更新前的PID参数，rwd(t)表示本次累加奖励值，psh表示本次奖励值的负数，ur表示更新率，ur的取值范围在0到1之间。

可选地，在本申请实施例中，所述更新单元还用于：

若所述本次累加奖励值大于第二阈值，减小所述更新率。

可选地，在本申请实施例中，所述控制单元还用于：

在所述本次奖励值大于或等于0的情况下，根据所述PID参数对所述目标控制系统中的PID控制器进行下一次PID控制。

可选地，在本申请实施例中，所述确定单元还用于：

在所述本次奖励值大于或等于0的情况下，根据所述本次奖励值以及所述前一次累加奖励值确定本次累加奖励值，所述本次累加奖励值用于下一次更新所述PID参数所使用的前一次累加奖励值。

可选地，在本申请实施例中，所述目标控制系统为视频编解码系统，所述PID控制装置适用于所述视频编解码系统中的码率控制。

应理解，根据本申请实施例的PID控制装置200可对应于本申请方法实施例中的执行主体，并且PID控制装置200中的各个单元的上述和其它操作和/或功能分别为了实现图2方法中的相应流程，为了简洁，在此不再赘述。

应理解，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

尽管已对本申请及其优点做了详细说明，但应理解，在不脱离如所附权利要求书所界定的本申请的精神和范围的情况下，可以对本申请进行各种变化、替代和更改。

图6是本申请实施例提供的视频编解码系统300的示意性框图，该视频编解码系统300包括PID控制器310、编码参数调节装置320、编码器330、缓冲区340以及上述各种实施例中的PID控制装置350，具体地，缓冲区目标线和缓冲区充盈度的差值作为PID控制器310的比例项，编码参数调节装置320根据PID控制器310的输出，反馈计算编码参数(如量化参数QP，拉格朗日乘子λ等)，再将调节后的编码参数指定给编码器330进行实际编码。编码完成一帧后，需要更新缓冲区，然后进行下一轮PID控制过程。本申请实施例中的PID控制装置350可以用于在更新缓冲区时，根据缓冲区目标线与缓冲区充盈度的差值对PID参数进行调节。如果误差较大，则需要对PID参数进行惩罚，此时，还可以结合编码参数调节情况判断是正向惩罚或是负向惩罚，进而完成对PID参数的更新调节，以用于下一次码率控制过程。

对于判断正向/负向惩罚，一个具体的例子是：当编码器产生的实际比特数较大，导致误差增大，并且QP或λ是在调大，说明调节力度不够，需要加大调节力度，此时为正向惩罚。具体见表1。

表1

图7是本申请实施例提供的一种PID控制装置400示意性结构图。该PID控制装置400包括存储器410和处理器420。其中，该存储器410用于存储指令，该处理器420用于执行该存储器410存储的指令，具体地，该处理器420用于执行以下操作：根据目标控制系统中的比例积分微分PID控制器的输出值与理论值之间的差值，确定所述PID控制器的PID参数对应的本次奖励值，所述PID参数包括比例增益、积分增益和微分增益中的至少一种；在所述本次奖励值小于0情况下，根据本次累加奖励值和所述本次奖励值对所述PID参数进行更新，其中，所述本次累加奖励值是根据所述本次奖励值与前一次累加奖励值确定的；根据更新后的所述PID参数，对所述目标控制系统中的PID控制器进行下一次PID控制。

图8是本申请实施例的芯片的示意性结构图。图8所示的芯片500包括处理器510，处理器510可以从存储器中调用并运行计算机程序，以实现本申请实施例中的方法。

可选地，如图8所示，芯片500还可以包括存储器520。其中，处理器510可以从存储器520中调用并运行计算机程序，以实现本申请实施例中的方法。

其中，存储器520可以是独立于处理器510的一个单独的器件，也可以集成在处理器510中。

可选地，该芯片500还可以包括输入接口530。其中，处理器510可以控制该输入接口530与其他设备或芯片进行通信，具体地，可以获取其他设备或芯片发送的信息或数据。

可选地，该芯片500还可以包括输出接口550。其中，处理器510可以控制该输出接口550与其他设备或芯片进行通信，具体地，可以向其他设备或芯片输出信息或数据。

可选地，该芯片可应用于本申请实施例中的PID控制装置，并且该芯片可以实现本申请实施例的各个方法中的相应流程，为了简洁，在此不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片，系统芯片，芯片系统或片上系统芯片等。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，上述存储器为示例性但不是限制性说明，例如，本申请实施例中的存储器还可以是静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)等等。也就是说，本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本申请实施例还提供了一种计算机可读存储介质，用于存储计算机程序。

可选的，该计算机可读存储介质可应用于本申请实施例中的网络设备，并且该计算机程序使得计算机执行本申请实施例的各个方法中由网络设备实现的相应流程，为了简洁，在此不再赘述。

可选地，该计算机可读存储介质可应用于本申请实施例中的移动终端/终端设备，并且该计算机程序使得计算机执行本申请实施例的各个方法中由移动终端/终端设备实现的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机程序指令。

可选的，该计算机程序产品可应用于本申请实施例中的网络设备，并且该计算机程序指令使得计算机执行本申请实施例的各个方法中由网络设备实现的相应流程，为了简洁，在此不再赘述。

可选地，该计算机程序产品可应用于本申请实施例中的移动终端/终端设备，并且该计算机程序指令使得计算机执行本申请实施例的各个方法中由移动终端/终端设备实现的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种计算机程序。

可选的，该计算机程序可应用于本申请实施例中的网络设备，当该计算机程序在计算机上运行时，使得计算机执行本申请实施例的各个方法中由网络设备实现的相应流程，为了简洁，在此不再赘述。

可选地，该计算机程序可应用于本申请实施例中的移动终端/终端设备，当该计算机程序在计算机上运行时，使得计算机执行本申请实施例的各个方法中由移动终端/终端设备实现的相应流程，为了简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。针对这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，)ROM、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种PID控制方法，其特征在于，包括：

根据目标控制系统中的比例积分微分PID控制器的输出值与理论值之间的差值，确定所述PID控制器的PID参数对应的本次奖励值，所述PID参数包括比例增益、积分增益和微分增益中的至少一种；其中，若所述差值的绝对值小于或等于第一阈值，所述本次奖励值大于或等于0；若所述差值的绝对值大于所述第一阈值，所述本次奖励值小于0

在所述本次奖励值小于0的情况下，根据本次累加奖励值和所述本次奖励值对所述PID参数进行更新，其中，所述本次累加奖励值是根据所述本次奖励值与前一次累加奖励值确定的；

根据更新后的所述PID参数，对所述目标控制系统中的PID控制器进行下一次PID控制；

所述PID控制方法还包括：

其中，

表示本次累加奖励值，

表示前一次累加奖励值，

表示本次奖励值；

所述在所述本次奖励值小于0情况下，根据本次累加奖励值和所述本次奖励值对所述PID参数进行更新，包括：

2.根据权利要求1所述的PID控制方法，其特征在于，所述本次奖励值与所述差值的绝对值负相关。

3.根据权利要求1所述的PID控制方法，其特征在于，所述根据目标控制系统的输出值与理论值之间的差值，确定所述PID控制器的PID参数对应的本次奖励值，包括：

根据第一公式，确定所述本次奖励值，其中，所述第一公式为：

或

；

其中，rwd表示本次奖励值，u(t)表示PID控制器的输出值，v*表示理论值，a和b均为大于0的常数。

4.根据权利要求1所述的PID控制方法，其特征在于，在所述本次奖励值小于0且所述输出值小于所述理论值的情况下，所述更新率用于增大所述本次奖励值在更新所述PID参数时所占的比例；在所述本次奖励值小于0且所述输出值大于所述理论值的情况下，所述更新率用于减小所述本次奖励值在更新所述PID参数时所占的比例。

5.根据权利要求1所述的PID控制方法，其特征在于，所述在所述本次奖励值小于0的情况下，根据所述本次累加奖励值、所述本次奖励值以及更新率，对所述PID参数进行更新，包括：

；

；

6.根据权利要求1所述的PID控制方法，其特征在于，所述PID控制方法还包括：

若所述本次累加奖励值大于第二阈值，减小所述更新率。

7.根据权利要求1所述的PID控制方法，其特征在于，所述PID控制方法还包括：

8.根据权利要求1所述的PID控制方法，其特征在于，所述PID控制方法还包括：

9.根据权利要求1所述的PID控制方法，其特征在于，所述目标控制系统为视频编解码系统，所述PID控制方法适用于所述视频编解码系统中的码率控制。

10.一种PID控制装置，其特征在于，所述PID控制装置包括：

确定单元，用于根据目标控制系统中的比例积分微分PID控制器的输出值与理论值之间的差值，确定所述PID控制器的PID参数对应的本次奖励值；若所述差值的绝对值小于或等于第一阈值，所述本次奖励值大于或等于0；若所述差值的绝对值大于所述第一阈值，所述本次奖励值小于0；

更新单元，用于在所述本次奖励值小于0的情况下，根据本次累加奖励值和所述本次奖励值对所述PID参数进行更新，所述PID参数包括比例增益、积分增益和微分增益中的至少一种，其中，所述本次累加奖励值是根据所述本次奖励值与前一次累加奖励值确定的；

控制单元，用于根据更新后的所述PID参数，对所述目标控制系统中的PID控制器进行下一次PID控制；

所述确定单元还用于：

；

其中，

表示本次累加奖励值，

表示前一次累加奖励值，

表示本次奖励值；

所述更新单元具体用于：

11.根据权利要求10所述的PID控制装置，其特征在于，所述本次奖励值与所述差值的绝对值负相关。

12.根据权利要求10所述的PID控制装置，其特征在于，所述确定单元具体用于：

或

；

13.根据权利要求10所述的PID控制装置，其特征在于，在所述本次奖励值小于0且所述输出值小于所述理论值的情况下，所述更新率用于增大所述本次奖励值在更新所述PID参数时所占的比例；在所述本次奖励值小于0且所述输出值大于所述理论值的情况下，所述更新率用于减小所述本次奖励值在更新所述PID参数时所占的比例。

14.根据权利要求10所述的PID控制装置，其特征在于，所述更新单元具体用于：

；

；

15.根据权利要求10所述的PID控制装置，其特征在于，所述更新单元还用于：

若所述本次累加奖励值大于第二阈值，减小所述更新率。

16.根据权利要求10所述的PID控制装置，其特征在于，所述控制单元还用于：

17.根据权利要求10所述的PID控制装置，其特征在于，所述确定单元还用于：

18.根据权利要求10所述的PID控制装置，其特征在于，所述目标控制系统为视频编解码系统，所述PID控制装置适用于所述视频编解码系统中的码率控制。

19.一种视频编解码系统，其特征在于，包括如权利要求10至18中任一项所述的PID控制装置，所述PID控制装置适用于所述视频编解码系统中的码率控制。

20.一种PID控制装置，其特征在于，包括：处理器和存储器，该存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，执行如权利要求1至9中任一项所述的方法。

21.一种芯片，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如权利要求1至9中任一项所述的方法。

22.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至9中任一项所述的方法。