CN101390024A

CN101390024A - 运转控制方法、运转控制装置和运转控制系统

Info

Publication number: CN101390024A
Application number: CNA2007800061107A
Authority: CN
Inventors: 关合孝朗; 清水悟; 山田昭彦
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-03-31
Filing date: 2007-01-18
Publication date: 2009-03-18
Also published as: WO2007116590A1; JP2007272498A; US20090012632A1; JP4952025B2; US8155763B2

Abstract

本发明的目的在于提供即使模型和实机之间的偏差(模型误差)产生时，也可以运转而不会对控制对象的运转状态产生坏影响的运转控制装置和运转控制方法。一种运转控制方法，导出并控制使基于控制对象的控制量与其目标值之间的偏差即控制偏差的评价值取最大或者最小的操作量，其特征在于，具有模拟上述控制对象的特性的模型，以上述模型为对象，计算使基于模型的控制偏差的评价值取最大或者最小的操作量，根据由上述操作量对上述控制对象进行了控制时的控制偏差来计算评价值，根据上述模型的控制偏差的评价值与上述控制对象的控制偏差的评价值的偏差，确定当前步骤的操作量和由下一步骤确定的操作量之差即操作量的变化幅度。

Description

运转控制方法、运转控制装置和运转控制系统

技术领域

本发明涉及应用无教师学习的运转控制装置和运转控制方法。

背景技术

近年，在无教师学习领域中，盛行研究被称为强化学习的方法。众所周知强化学习，是通过与控制对象等环境的试行错误的相互作用，生成对环境的操作信号的学习控制的框架，以使从环境得到的测量信号是合乎需要的。在强化学习中，使用从环境得到的测量信号而计算的标量的评价值(在强化学习中被称为报酬)需要时间，为了使从现状态到将来得到的评价值的期待值变为最大，具有生成对环境的操作信号的学习功能。作为执行这样的学习功能的方法，例如有Actor—Critic、Q学习、实时DynamicProgramming等算法。

另外，作为发展上述方法的强化学习的框架，有被称为Dyna—体系结构的框架。这是事先学习将模拟控制对象的模型为对象而生成哪种操作信号好，使用该学习结果确定对控制对象施加的操作信号的方法。另外，具有减小控制对象与模型的误差的模型调整功能。

另外，作为应用强化学习的技术，列举专利文献1中所述的技术。这是，具有多个强化学习模块，其为模型和具有学习功能的系统组，求出各强化学习模块中的模型和控制对象的预测误差越小越取大的值的责任信号，与该责任信号成比例，加权由各强化学习模块生成的对控制对象的操作信号，确定对控制对象施加的操作信号的技术。

专利文献1：特开2000—35956号公报

在控制对象的特性复杂，难以使用能够完全模拟该特性的模型时，构成上述Dyna—体系结构的模型与控制对象的特性有可能不同。此时，使用专利文献1的技术，对于模型即使学习有效的操作方法，该操作方法对控制对象而言有可能变得无效。另外，由于将基于学习的操作方法的操作信号施加到控制对象，也有可能使控制对象的运转状态恶化。

发明内容

本发明目的在于提供，即使模型和实机之间产生偏差(模型误差)时，也可以运转而不会对控制对象的运转状态带来坏影响的运转控制装置，和运转控制方法。

一种控制装置的运转控制方法，导出并控制使基于控制对象的控制量与其目标值之间的偏差即控制偏差的评价值取最大或者最小的操作量，其特征在于，具有模拟上述控制对象的特性的模型，以上述模型为对象，计算使基于模型的控制偏差的评价值取最大或者最小的操作量，根据由上述操作量对上述控制对象进行了控制时的控制偏差来计算评价值，根据上述模型的控制偏差的评价值与上述控制对象的控制偏差的评价值的偏差，确定当前步骤的操作量和由下一步骤确定的操作量之差即操作量的变化幅度。

本发明，能够在即使产生模型误差时，也可以运转而不会对控制对象的运转状态带来坏影响。

附图说明

图1是说明将对本发明的控制装置应用为控制对象的例子的图。

图2是说明保存在操作信号生成参数存储部中的数据形式的图。

图3是说明图像显示装置中显示的画面的图。

图4是说明操作信号生成参数更新部的处理的图。

图5是说明模型特性的图。

图6是说明每个步骤的到达点的图。

图7是说明控制对象和模型特性的不同点的图。

图8是说明本发明的操作方法的图。

图9是说明修正后模型特性的图。

图10是说明的图。

图11是说明步骤数和操作量变化幅度关系的图。

图12是评价值计算的一个例子。

图13是用于确定操作量的表格的一个例子。

图14是表示在画面上显示操作量的空间和评价值的关系的例子。

图中：

10—图像显示装置，20—外部输入装置，30—键盘，40—鼠标，100—控制对象，200—控制装置，300—操作信号生成部，400—模型部，500、510—评价值计算部，600—操作信号生成参数存储部，700—操作信号生成参数更新部，800—模型参数存储部，900—模型参数更新部。

具体实施方式

以下，参照附图对用于实施发明的一个例子进行说明。图1是对将本发明中的控制装置200应用于控制对象100的例子进行说明的图。

控制装置200中配备的操作信号生成部300，生成对控制对象施加的操作信号201。另外，在评价值计算部500中，使用来自控制对象的测量信号202计算评价值信号203。操作信号生成部300，接收该评价值信号203。

在操作信号生成部300中，具有以从现状态到将来的评价值信号203的期待值总和变为最大，或者最小的方式，生成操作信号201的功能。以下，对操作信号生成部300中，使评价值信号203的期待值总和变为最大，生成操作信号201的情况进行说明。

在评价值计算部500中，生成与测量信号202及其目标值之间的偏差相对应的评价值信号203。例如，测量信号202与目标值一致时，评价值信号203设为“1”，不一致时设定为“0”。或者，设定评价值信号203，以使测量信号202及其目标值的之间的偏差成反比例。即，如后面所述的图5所述，评价值如+30那样数值越大越接近目标，如—30那样数值越小越远离目标。此时的评价值的计算能够采取多种方法。图12表示评价值计算的一个例子。具有控制量和目标值之差与评价值相对应的表格，能够参照其生成评价值。另外，还能够设定作为控制量和目标值之差的函数并计算评价值。

列举使用强化学习的方法，作为装备操作信号生成部300的方法。在强化学习中，在学习的初始阶段中，试行错误地生成操作信号201。然后，随着学习进行，生成评价值信号203变大这样的操作信号201。

这样的学习算法，能够使用例如Actor—Critic、Q学习等算法。

图1的控制装置，使用被称为Dyna—体系结构的框架。这是，具有模拟控制对象100的模型部400，学习在操作信号生成部300中事先以模型部400为对象生成操作信号1201的生成方法，使用其学习结果生成操作信号201的框架。

操作信号生成部300，具有生成向模型部400输入的操作信号204，接收来自模型部400的测量信号205和评价值信号206的功能。该评价值信号206，在评价值计算部510中，使用测量信号205计算。评价值计算部510，具有与评价值计算部500一样的功能。

操作信号生成部300，参照操作信号生成参数存储部600中保存的数据，确定对控制对象100施加的操作信号201。

图2是说明保存在操作信号生成参数存储部600中的数据形式的图。如图2所示，操作信号生成参数存储部600中保存对控制对象100设置的操作端的名称、其操作量每1周期的变化幅度和与单位相关的数据。操作端，能够在操作量变化幅度范围内增加或者减少操作量。

并且，图2记载了操作端的数量为多个的情况，操作端的数量也可以为1个。另外，图2中对每个操作端记载操作变化幅度，也可以将多个操作端总括为一个，限制其操作端的变化幅度之和。

图2的操作量变化幅度的限制值，在操作信号生成参数更新部700中确定。

参数更新处理中需要的设定值，能够从由键盘30和鼠标40构成的外部输入装置20输入。这些信息，能够在CRT等图像显示装置10上显示。控制对象100的操作员，使用图像显示装置10和外部输入装置20，输入设定值214。

图3是图像显示装置10中显示的画面的例子。通过该画面，操作员能够设定操作端的操作量变化幅度的初始值，上限、下限，和更新率。使用图4对这里设定的设定值的使用方法进行说明。图4是说明操作信号生成参数更新部700中的处理的图。以下，对图4的各种处理内容进行说明。

在处理710中，判断步骤数t是否比0大，为0时(否时)实施处理720，比0大时(是时)实施处理740。这里步骤数是指变更施加到控制对象100的操作信号的次数，是初始值为0，每次操作增加1的值。

在处理720中，获得图3中设定的初始值。

在处理730中，将由处理720获得的初始值，作为数据209发送到操作信号生成参数存储部600。

在处理740中，获得操作信号生成参数存储部600中保存的前次的操作信号生成参数作为数据208。

在处理750中，获得评价值信号203和评价值信号206。

在处理760中，使用式1变更操作量变化幅度。其中，t为步骤数，G(t)为步骤t中的操作量，r₁(t)为评价值信号203的值，r₂(t)为评价值信号206的值，f(r₁(t)，r₂(t))是以r₁(t)和r₂(t)为变量的函数。

(式1)

G(t+1)＝G(t)+f(r₁(t)，r₂(t))

作为式1中的函数f(r₁(t)，r₂(t))的例子，列举式2所示的函数。

(式2)

f(r₁(t)，r₂(t))＝α—β(|(r₁(t)—r₂(t)|)

在处理770中，使用式1和式2计算的G(t+1)，在超过图3中设定的上限时，作为设定G(t+1)的上限值，比下限小时，作为设定G(t+1)的下限值。

最后，在处理780中，将由处理770求出的G(t+1)作为数据209发送到操作信号生成参数存储部600。

并且，也可以以如式2函数的形式计算操作量变化幅度，如图13那样，将评价值信号203、206之差和操作量变化幅度G(t+1)—G(t)相对应并作为表格存储，参照其确定操作量。

这样，由于可以使用基于模型的控制偏差的评价值206和基于控制控制对象时的控制偏差的评价值203之差计算操作量变化幅度，因此可以运转而不会对控制对象的运转状态带来坏影响。另外，能够根据模型和实机的偏差灵活地控制。

另外，由于评价值之差大时，减小变化幅度，评价值之差小时，增大变化幅度，从而模型的偏差大时能够安全地变更操作量，与模型的偏差小时，能够提前变更操作量。

另外，通过设定操作量变化幅度的上限，增大操作量变化幅度时，实机和模型的偏差影响变大，因此如果提前变更操作量，能够取得平衡而不会对控制对象的运转状态产生坏影响。

模型参数存储部800中保存了构成模型部400需要的参数。模型部400为物理模型时，模型参数存储部800中保存构成物理模型需要的物理常数。例如，控制对象100为火力发电设备时，保存热传导率等值。

在模型参数更新部900中，读出模型参数存储部800中存储的参数212并修正参数，发送修正后的参数213，更新模型参数，以使控制对象和模型的特性一致。例如，控制对象100为火力发电设备时，使用日本特开10—214112号公报、日本特开2001—154705号公报等所述的技术，对模型部400设定模型参数211，更新模型的参数。

图5～图7是对考虑将以往的控制装置应用于控制对象100时产生的问题进行说明的图。

图5是操作量的空间和得到的评价值的关系。例如操作量A的值为A₁，操作量B的值为B₁时，将此操作量输入到模型部400时得到的评价值为—30。另外，A₂、B₂时的评价值为+10。

使评价值的期待值的总和变为最大这样的行为，如图5的虚线，变为避开评价值为负的区域，朝向为正的区域的行动。

图6为用箭头表示在一次行动中次可以移动的操作量的变化幅度的图。在该图中，操作量的变化幅度取一定。这样，从开始地点到评价值变为+30的地点，用6步到达。

这里，考虑了模型和控制对象的特性不同的情况。图7为表示模型和控制对象的特性不同的例子的图。如图7，评价值为负的操作量的条件，因模型和控制对象而不同。此时，如果探索用模型学习的操作方法并执行操作，1步后的评价值变为—30，不是想要的状态。

图8～图10是说明将本发明的控制装置应用于设备100时的效果的图。在本发明的控制装置中，操作量变化幅度不固定，通过图3的处理确定操作量的变化幅度。

通过设定初始值为变小，能够减小1步的操作量变化幅度。其结果，如图8所示，1步后的评价值变为—10。这与由以往方法在1步后得到的—30相比是好的值。

这样，通过减小操作的最初阶段中的操作量变化幅度，转移到与初始状态近似的运转状态，因此能够保证控制对象的安全性。

通过这1步骤的操作，控制装置200得到控制对象100和模型部400的特性不同这样的信息。使用来自控制对象100的测量信号202和来自模型部400的输出信号205，更新保存在模型参数存储部800中的参数，以使在模型参数更新部900中模型部400和控制对象100的特性一致。模型和控制对象的特性不同时，为了恢复到初始状态(图8中的Start)，恢复操作信号201。这样，能够在评价值的差比规定值大时，通过修正模型，模型和实机的偏差比规定值小时，按照模型安全地控制。

图9是说明操作量的空间和由修正后的模型得到的评价值的关系的图。以该模型为对象，使评价值的期待值的总和变为最大的行动，是如图9的虚线所示，避开评价值变为负的区域，朝向为正的区域的行动。该操作路径，在使用修正前的模型时和使用修正后的模型时不同。

图10是使用修正后操作途径，控制控制对象100时的路径。

在本发明中，由实施操作得到的评价值，与以模型为对象时得到的评价值一致时，增大操作量变化幅度。其结果，如图10所示，箭头的大小逐渐变大。

图11是说明图10的操作执行时的步骤数和操作量变化幅度关系的图。

由于模型的评价值，和来自控制对象的评价值同时为0，因此式2中的第2项变为0。因此，操作量变化幅度，每1步增大α。

操作信号201被显示在图1的CRT10中。另外，也能够显示作为存储在操作信号生成参数存储部600中的数据210即操作量变化幅度等的数据。也能够显示控制对象100的控制量202。CRT10能够将图5～图10的操作量空间和评价值关系显示在画面上。

图14表示将操作量的空间和评价值的关系显示在画面上时的一个例子。控制装置100，将对控制对象应用的多个操作的操作量分别设定在多个轴，表示对控制对象应用的各操作的始点和到达点，生成连接并显示1步前操作的到达点与下一步骤的操作的始点的图像信息，并由CRT10显示。由此，由与操作全体的对比能够容易掌握各操作的变化量。并且，用箭头表示从始点到到达点。

另外，控制装置100，具有模拟控制对象的特性的模型400、根据以模型为对象控制时的控制偏差计算评价值的模型的评价值计算部510和根据控制控制对象时的控制偏差计算评价值的控制对象的评价值计算部500，计算进行各操作时的模型的评价值和来自控制对象的评价值之差，生成对应各操作的显示而显示的显示数据，向CRT10。这样，由于将进行各操作时的模型的评价值和来自控制对象的评价值之差，对应该各操作显示而显示，从而能够一边进行操作，一边掌握模型误差。

如上所述，通过将本发明的运转控制装置应用于控制对象，来确认在操作开始之后减小操作量的变化幅度并以模型为对象学习的操作方法是否对控制对象也有效。然后，明确控制对象和模型的特性接近，以模型为对象学习的操作方法，对于控制对象也有效后，逐渐增大操作量的变化幅度。

因此，即使模型和控制对象的特性不同时，也能够减轻控制对象的运转恶化的风险。

另外，即使产生模型误差时，也可以运转而不会对控制对象的运转状态带来坏影响。

权利要求书(按照条约第19条的修改)

操作信号更新部，其根据上述模型的控制偏差的评价值和上述控制对象的控制偏差的评价值，确定当前步骤的操作量和由下一步骤确定的操作量之差即操作量的变化幅度。

6、根据权利要求5所述的运转控制装置，其特征在于，

上述操作信号生成部，在上述评价值的偏差大时，减小变化幅度，在上述评价值的偏差小时，增大变化幅度。

7、根据权利要求5所述的运转控制装置，其特征在于，

上述操作信号更新部，具有上述操作量变化幅度的上限。

8、根据权利要求5所述的运转控制装置，其特征在于，具有：

模型参数更新部，其在上述评价值的偏差比规定值大时，修正模型。

9(删除)

10、(修改后)一种运转控制系统，具有对控制对象进行并控制多个操作的控制装置和显示装置，其特征在于，

上述控制装置中具有：模拟上述控制对象的特性的模型；模型的评价值计算部，其根据以上述模型为对象并进行了控制时的控制偏差来计算评价值；和控制对象的评价值计算部，其根据对上述控制对象进行了控制时的控制偏差来计算评价值，

上述控制装置，将对上述控制对象的多个操作的操作量分别设定在多个轴，显示对控制对象应用的各操作的始点和到达点，生成连接并显示1步骤前的操作的到达点和下一步骤的操作的始点的图像信息，并向上述显示装置发送，并且计算进行了上述各操作时的模型的评价值和来自控制对象的评价值之差，生成与上述各操作的显示相对应地显示的显示数据，并向上述显示装置发送。

Claims

1、一种控制装置的运转控制方法，导出并控制使基于控制对象的控制量与其目标值之间的偏差即控制偏差的评价值取最大或者最小的操作量，其特征在于，

具有模拟上述控制对象的特性的模型，

以上述模型为对象，计算使基于模型的控制偏差的评价值取最大或者最小的操作量，

根据由上述操作量对上述控制对象进行了控制时的控制偏差来计算评价值，

根据上述模型的控制偏差的评价值与上述控制对象的控制偏差的评价值的偏差，确定当前步骤的操作量和由下一步骤确定的操作量之差即操作量的变化幅度。

2、根据权利要求1所述的运转控制方法，其特征在于，

确定上述操作量的变化幅度时，上述评价值的偏差大时，减小变化幅度，上述评价值的偏差小时，增大变化幅度。

3、根据权利要求1所述的运转控制方法，其特征在于，

设定上述操作量的变化幅度的上限。

4、根据权利要求1所述的运转控制方法，其特征在于，

上述评价值的偏差比规定值大时，修正上述模型。

5、一种运转控制装置，导出并控制使基于控制对象的控制量与其目标值之间的偏差即控制偏差的评价值取最大或者最小的操作量，其特征在于，

具备模拟上述控制对象的特性的模型，

具有：模型的评价值计算部，其根据以上述模型为对象并进行了控制时的控制偏差来计算评价值；

操作信号生成部，其计算使上述模型的评价值取最大或者最小的操作量；

控制对象的评价值计算部，其根据用上述操作量对上述控制对象进行了控制时的控制偏差来计算评价值；和

6、根据权利要求5所述的运转控制装置，其特征在于，

7、根据权利要求5所述的运转控制装置，其特征在于，

上述操作信号更新部，具有上述操作量变化幅度的上限。

9、一种运转控制系统，具有对控制对象进行并控制多个操作的控制装置和显示装置，其特征在于，

上述控制装置，将对上述控制对象的多个操作的操作量分别设定在多个轴，显示对控制对象应用的各操作的始点和到达点，生成连接并显示1步骤前的操作的到达点和下一步骤的操作的始点的图像信息，并向上述显示装置发送。

10、根据权利要求9所述的运转控制系统，，其特征在于，

上述控制装置，具有模拟上述控制对象的特性的模型，

具备：模型的评价值计算部，其根据以上述模型为对象并进行了控制时的控制偏差来计算评价值；和控制对象的评价值计算部，其根据对上述控制对象进行了控制时的控制偏差来计算评价值，

计算进行了上述各操作时的模型的评价值和来自控制对象的评价值之差，生成与上述各操作的显示相对应地显示的显示数据，并向上述显示装置发送。