CN116490834A - 控制装置以及控制方法 - Google Patents
控制装置以及控制方法 Download PDFInfo
- Publication number
- CN116490834A CN116490834A CN202180073239.XA CN202180073239A CN116490834A CN 116490834 A CN116490834 A CN 116490834A CN 202180073239 A CN202180073239 A CN 202180073239A CN 116490834 A CN116490834 A CN 116490834A
- Authority
- CN
- China
- Prior art keywords
- model
- control
- unit
- state
- control object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 45
- 238000011217 control strategy Methods 0.000 claims abstract description 41
- 238000010276 construction Methods 0.000 claims abstract description 32
- 238000004088 simulation Methods 0.000 claims abstract description 9
- 230000007704 transition Effects 0.000 claims description 72
- 239000011159 matrix material Substances 0.000 claims description 53
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 27
- 238000005259 measurement Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000004069 differentiation Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/048—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B17/00—Systems involving the use of models or simulators of said systems
- G05B17/02—Systems involving the use of models or simulators of said systems electric
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Feedback Control In General (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
控制装置(10)具备:模型构建部(11),其构建模拟控制对象(20)的模型;将由模型构建部(11)构建的模型细分化的问题细分化部(12);控制策略计算部(13),其使用由问题细分化部(12)细分出的模型预测控制对象(20)的将来状态,并基于预测出的将来状态计算控制对象(20)的控制策略;以及操作指令生成部(14),其基于由控制策略计算部(13)计算出的控制策略生成针对控制对象(20)的操作指令。
Description
技术领域
本发明涉及控制装置以及控制方法。
本申请基于在2020年11月16日申请的日本特愿2020-190354号主要优先权,并将其内容援引至此。
背景技术
在发电或工业厂房的领域中,为了实现使厂房的运转状态最优化的运转,而采用了结合机械学习的控制装置。作为其一例,在专利文献1中公开了一种控制装置,该控制装置由在事先定义的有限的状态的空间内能够以概率密度分布的形式高速预测无限时间、或者无限步骤之后的控制对象和其周边环境的状态的将来状态预测装置构成。将来状态预测装置具备:将来状态预测运算部,其使用以概率密度分布的形式模拟控制对象和其周边环境的将来状态的模型,来进行等价于级数的计算;以及控制规则运算部,其使用利用将来状态预测运算部预测出的无限时间或者无限步骤之后的控制对象和其周边环境的状态的结果来计算控制对象的操作量。
现有技术文献
专利文献
专利文献1:JP特开2019-159876号公报
发明内容
在将在专利文献1中公开的控制装置应用于厂房等的控制对象时,需要用于基于将来状态预测运算部对将来状态进行预测的计算。然而,控制对象和其周边环境的状态已经利用概率密度分布的形式来定义,若进一步详细定义控制对象和其周边环境的状态,则用于预测将来状态的计算需要更多的存储器。其结果为,控制装置的存储器不足,可能产生无法预测将来状态的问题。
于是,本发明的目的在于,提供一种能够减少将来状态的预测所使用的存储器的控制装置以及控制方法。
本发明的控制装置的特征在于,具备:模型构建部,其构建模拟控制对象的模型;对由所述模型构建部构建出的模型进行细分化的细分化部;控制策略计算部,其使用由所述细分化部细分出的模型预测所述控制对象的将来状态,并基于预测出的将来状态计算所述控制对象的控制策略;以及操作指令生成部,其基于由所述控制策略计算部计算出的控制策略生成针对所述控制对象的操作指令。
在本发明的控制装置中,由于具备对由模型构建部构建出的模型进行细分化的细分化部,所以在对模型进行了细分化的基础上预测控制对象的将来状态,由此,能够减少将来状态的预测所使用的存储器。
发明效果
根据本发明,能够减少将来状态的预测要使用的存储器。
附图说明
图1是示出实施方式的控制装置以及与其关联的关联装置的概略构成图。
图2是说明控制装置的控制方法的流程图。
图3A是说明保存在测定信号数据库内的数据的形态的图。
图3B是说明保存在测定信号数据库内的数据的形态的图。
图4A是说明模型构建部以及问题细分化部的动作的图。
图4B是说明模型构建部以及问题细分化部的动作的图。
图4C是说明模型构建部以及问题细分化部的动作的图。
图5A是说明状态转移概率矩阵的图。
图5B是说明状态转移概率矩阵的图。
图5C是说明状态转移概率矩阵的图。
图5D是说明状态转移概率矩阵的图。
图6A是说明控制策略计算部的动作的图。
图6B是说明控制策略计算部的动作的图。
图6C是说明控制策略计算部的动作的图。
图6D是说明控制策略计算部的动作的图。
图7是在显示装置中显示的存储器使用状况的一例。
具体实施方式
以下,参照附图说明本发明的控制装置以及控制方法的实施方式。
图1是示出实施方式的控制装置以及与其关联的关联装置的概略构成图。本实施方式的控制装置10为如下的装置:使用对控制对象20的特性整体进行模拟的模型,基于无限时间或者无限步骤之后的将来状态计算控制对象20的控制策略,按照计算出的控制策略生成针对控制对象20的操作指令。如图1所示,控制装置10与控制对象20以及外部装置30分别连接。该控制对象20以及外部装置30与上述的关联装置对应。
控制对象20例如由构成发电厂房等的机器21、以及进行机器21的控制器的机器控制部22来构成。虽未图示,但机器21具备获取机器21的运转数据以及图像数据的传感器类。由传感器类获取的运转数据以及图像数据被输出至机器控制部22。机器控制部22基于这些运转数据以及图像数据生成各操作指令,将生成出的操作指令输出至机器21并进行机器21的各控制。
外部装置30例如为计算机装置(计算机),具备具有键盘311以及鼠标312的外部输入装置31、以及具有能够显示图像或数据的监视器的显示装置32。外部装置30除了计算机以外,也可以为平板电脑、智能手机、笔记本PC等的便携终端。
在本实施方式中,控制装置10和控制对象20、控制装置10和外部装置30构成为能够分别经由网络进行通信。具体来说,外部装置30将经由外部输入装置31输入的指示作为外部输入信号1发送至控制装置10。控制对象20将机器21的运转数据以及图像数据以及由机器控制部22生成的操作指令作为测定信号2发送至控制装置10。然后,控制装置10基于发送来的外部输入信号1和测定信号2进行各处理,进一步生成操作指令6,将生成的操作指令6分别发送至控制对象20的机器控制部22和外部装置30的显示装置32。
控制装置10例如将由执行计算的CPU(Central Processing Unit:中央处理器)、作为保存用于计算的程序的二次存储装置的ROM(Read Only Memory:只读存储器)、作为保存运算进度或保存临时的控制变量的临时存储装置的RAM(Random Access Memory:随机存储器)组合而成的微型计算机来构成,通过执行保存的程序进行计算或判定等各处理。此外,在此的程序可以设为经由网络发送至控制装置10。
控制装置10主要具备模型构建部11、问题细分化部12、控制策略计算部13、操作指令生成部14、测定信号数据库15、以及处理结果数据库16。在图1中,数据库用DB表示。另外,控制装置10作为与外部连接的接口而具备外部输入接口17以及外部输出接口18。控制装置10经由这些接口与控制对象20以及外部装置30之间进行收发。
模型构建部11构建模拟控制对象20的模型。更具体来说,模型构建部11通过生成模拟控制对象20的整体特性的模型数据,来构建控制对象20的模拟模型。另外,模型构建部11将生成出的模型数据输出至问题细分化部12,并保存在处理结果数据库16内。
问题细分化部12相当于权利要求中记载的“细分化部”,对由模型构建部11构建的模型进行细分化。更具体来说,问题细分化部12对由模型构建部11生成的模型数据进行细分化,将细分出的模型数据输出至控制策略计算部13,并且保存在处理结果数据库16内。
控制策略计算部13使用由问题细分化部12细分出的模型预测控制对象20的将来状态,基于预测出的将来状态计算控制对象20的控制策略。更具体来说,控制策略计算部13基于由问题细分化部12细分出的模型数据、以及经由外部输入接口17接收的外部输入信号1,预测无限时间或者无限步骤之后的所有将来状态,从预测出的将来状态计算控制对象20的控制策略。进一步地,控制策略计算部13使计算出的控制策略保存在处理结果数据库16内。此外,在此的控制策略是指生成针对控制对象20的操作指令的处理,在后面详细进行说明。
操作指令生成部14基于由控制策略计算部13计算出的控制策略生成针对控制对象20的操作指令。更具体来说,操作指令生成部14获取由控制策略计算部13计算并保存在处理结果数据库16内的控制策略,按照获取的控制策略生成针对控制对象20的操作指令。进一步地,操作指令生成部14将生成出的操作指令经由外部输出接口18分别发送至控制对象20的机器控制部22和外部装置30的显示装置32。
测定信号数据库15接收并保存经由外部输入接口17从控制对象20发送来的测定信号2。测定信号2包含有控制对象20的运转数据以及图像数据等。与之对应地,测定信号数据库15具备保存控制对象20的运转数据的运转数据库151、以及保存控制对象20的图像数据的图像数据库152等。此外,包含在测定信号2内的数据不限于运转数据以及图像数据。
在运转数据库151以及图像数据库152中保存有电子化的信息,以通常被称为电子文件(电子数据)的方式保存有信息。另外,这些数据库也可以为设于控制装置10的外部且能够经由网络与控制装置10连接的构成。
以下,参照图2~图6D说明控制装置10的控制方法(即,控制装置10的动作)。在以下的说明中,首先,基于图2说明控制装置10的动作的整体流程,此后,基于图3A~图6D详细说明细节。
图2是说明控制装置的控制方法的流程图。如图2所示,首先,在步骤S100中,控制装置10接收经由外部输入接口17从控制对象20发送来的测定信号2,使接收出的测定信号2保存在测定信号数据库15内。测定信号2包含有与控制对象20的机器21有关的时间序列的运转数据以及图像数据等。由此,控制装置10获取与机器21有关的时间序列的运转数据以及图像数据。然后,运转数据保存在运转数据库151,图像数据保存在图像数据库152内。
图3A和图3B是说明保存在测定信号数据库内的数据的形态的图。图3A是示出保存在运转数据库151内的运转数据的一例,图3B是示出保存在图像数据库152内的图像数据的一例。如图3A所示,在运转数据库151例如每隔采样周期按照各个数据项目(项目A、项目B、项目C……)保存有各自的时间序列数据。项目A例如为温度,项目B为流量,项目C为压力。另外,如图3B所示,在图像数据库152例如每隔采样周期保存有在机器21的某一剖面计测出的温度的分布。此外,能够在在显示装置32显示控制对象20的运转数据以及图像数据。
另外,在步骤S100中,控制装置10也接收经由外部输入接口17从外部装置30发送的外部输入信号1,获取包含在接收的外部输入信号1内的数据。经由外部输入接口17接收的外部输入信号1被输出至控制策略计算部13。
在步骤S100之后的步骤S101中,控制装置10基于事先规定的条件,判断是否更新控制策略。在判断为更新控制策略的情况下,处理前进至步骤S102。另一方面,在判断为不更新控制策略的情况下,处理前进至步骤S105。在此,作为事先规定的条件,例如在新积累了一定期间(例如一周)的测常数据时,考虑由模型构建部11创建的模型的特性与控制对象20的特性是否一致。在一致的情况下判断为不更新控制策略,在不一致的情况下判断为更新控制策略。此外,事先规定的条件不限于该内容,也可以任意设定。
在步骤S102中,模型构建部11获取保存在测定信号数据库15内的测定信号2,基于获取的测定信号2生成模型数据3。生成的模型数据3输出至问题细分化部12,并且保存在处理结果数据库16内。
在步骤S102之后的步骤S103中,问题细分化部12对由模型构建部11生成的模型数据3进行细分,生成细分化模型数据4。生成的细分化模型数据4被输出至控制策略计算部13,并且保存在处理结果数据库16内。此外,在后面使用图4A~图5D说明与模型构建有关的步骤S102以及与问题细分化有关的步骤S103的详细内容。
在步骤S103之后的步骤S104中,控制策略计算部13基于包含在经由外部输入接口17接收的外部输入信号1内的报酬函数、以及由问题细分化部12生成的细分化模型数据4来进行控制策略的计算,由此,生成控制策略信号5。生成的控制策略信号5保存在处理结果数据库16内。在后面使用图6A~图6D说明使用与控制策略计算有关的步骤S104的详细内容。
在步骤S105中,模型构建部11基于当前时刻的测定信号2生成状态ID7。生成的状态ID7被输出至操作指令生成部14。
在步骤S105之后的步骤S106中,操作指令生成部14获取在处理结果数据库16内保存的控制策略信号5,使用获取的控制策略信号5、和由模型构建部11生成的状态ID7,生成针对控制对象20的操作指令6。所生成的操作指令6经由外部输出接口18被分别发送至控制对象20的机器控制部22和外部装置30的显示装置32。此外,针对基于控制策略信号和状态ID生成操作指令的方法,也可以使用已经公知的技术,省略其详细内容。
在控制对象20中,机器控制部22按照发送来的操作指令6控制机器21。像这样,通过使用控制装置10,能够将机器21的温度、流量以及压力等的计测值、温度的分布控制为最佳的状态。另一方面,在外部装置30中,显示装置32将发送来的操作指令6的内容、以及趋势图等的图像显示于监视器。通过操作员观看在监视器显示的内容,能够确认操作指令6的内容。
在步骤S106之后的步骤S107中,控制装置10判断是否结束控制。在判断为没有结束控制的情况下(换言之,继续控制的情况),处理返回至步骤S100。另一方面,在判断为结束控制的情况下,结束一连串的处理。
接下来,使用图4A~图5D详细说明与模型构建有关的步骤S102以及与问题细分化有关的步骤S103。
在本实施方式中,举出了模型构建部11相对于具有机器21和机器控制部22的控制对象20构建模型的例子,但作为控制对象20的例子,只要为机械或生物的举动、自然或物理现象、化学反应、金钱或物价的变动、消费者的需要的变化等即可,不限于在此说明的例子。
另外,在本实施方式中,模型的输入为模拟对象(即,控制对象)的状态和时间经过、操作、外乱等的影响因子,模型的输出为在接受了影响因子的影响之后的模拟对象的状态。作为利用模型构建部11构建的模型的形式,考虑表达了神经网络、径向基函数网络、或者神经网络和径向基函数网络的权值的矩阵、或者状态转移概率矩阵,但不限于这些矩阵。
针对在使用状态转移概率矩阵的情况下的模型的构建方法,例如能够使用在上述的专利文献1中公开的内容。即,从模拟对象的测常数据(在本实施方式中,包含在控制对象20的测定信号2内的数据)参照定义状态ID的表将数据离散化,但也可以使用向量量子化、自适应共振理论等的数据聚类手法将数据离散化。由此,通过与控制对象的状况对应地区分使用这些手法,能够适当地构建控制对象20的模拟模型。此外,此时模型构建部11使用参照表、自适应共振理论、或者向量量子化手法将包含在测定信号2内的运转数据以及图像数据的至少一个离散化,由此,只要定义状态转移矩阵的状态即可。另外,在此将数据离散化时,优选落入一个状态ID中的报酬的偏差很小。
以下,说明模型构建部11构建状态转移概率模型的情况(步骤S102)。在图4A中,s1~s8表示状态转移概率模型的状态,利用线将能够以Δt的时间转移的状态彼此结合在一起。例如,能够从状态s1转移至状态s1、s2、s3、s4的某一个。因此,模型构建部11基于从测定信号数据库15获取的信息(在此为测定信号2),定义状态转移矩阵的状态,并且掌握能够在Δt的时间转移的状态彼此的关系并将其模型化。
图4B以及图4C是说明反映问题细分化部12将模型细分(步骤S103)的图。在此,问题细分化部12通过将多个状态汇总成一个综合聚类(cluster),将模型整体划分为多个模型。在本发明中,将划分模型作为将问题细分相同的意思来使用。此外,问题细分化部12能够以使落入综合聚类中的状态数成为规定的范围内的方式将问题细分,或者还能够由操作员任意细分问题。
在图4B的例子中,问题细分化部12通过综合状态s1~s4、s5~s8细分为两个问题(参照图4B中的两个圆)。在图4C的例子中,问题细分化部12通过综合状态s1~s6、s7~s8而细分为两个问题(参照图4C中的两个圆)。在任一例子均将综合聚类划分为两个,即,将问题整体划分为两个问题来进行学习。
在此,问题细分化部12优选以使综合聚类间结合的联合(joint)数尽可能变少的方式将模型细分。例如,在图4B示出的例子中联合数为1,在图4C示出的例子中联合数为3,与图4C相比,图4B的联合数更少,因此,只要像图4B那样将问题细分即可。这是因为,联合数越少,状态转移矩阵的要素越少,因此,能够相应减少存储由问题细分化部12细分出的模型的存储器。由此,能够减少将来状态的预测要使用的存储器。
此外,针对基于问题细分化部12的细分化的手法,只要能够将模型整体划分为多个即可,不限于上述的内容。
图5A~图5D是说明状态转移概率矩阵的图。状态转移概率矩阵通常为模拟控制对象的运动特性或物理现象的模型的一种,为保存所有状态间的转移概率的函数(或者,矩阵)。在图5A~图5D中,在表的行是转移源的状态si(i=1、2…………n(在此,n=8))、表的列是转移目的地的状态sj(j=1、2…………n(在此,n=8))、要素Tij经过了事先设定的增量时间Δt(或者,步骤)时,为从状态si转移至状态sj的状态转移概率P(sj|si)。此外,在状态转移概率P(sj|si)不依赖于时间的情况下,可以取代时间,影响因子使用表示干涉了模拟对象的量或次数的步骤。
图5A示出模拟了控制对象的特性整体的模型,是与图4A对应的状态转移概率矩阵。在图5A中,利用Tij表示从转移源的状态s1~s8转移至转移目的地的状态s1~s8的概率。图5B~图5D表示问题细分化的模型(细分化模型),如图4B所示,为将模型细分后的状态转移概率矩阵。即,图5B~图5D如图4B那样是示出各综合聚类、以及综合聚类间的关系的矩阵。
然后,在图5A的状态转移概率矩阵中具有8×8=64的要素,相对于此,图5B~图5D合计使用了4×4+4×4+2×2=36的要素。像这样,通过将模型细分定义状态转移概率矩阵能够减少矩阵的要素数,因此,能够减少存储矩阵所需的存储器。因此,能够相应减少存储由问题细分化部12细分的模型的存储器,能够减少将来状态的预测所使用的存储器。
此外,在图4A~图5D中说明了状态数为8的事例,但对于状态的数量没有限制。状态的数量变得越多,减少存储矩阵所需的存储器的效果变得越显著,越易于将控制装置10应用于指控制对象20。
接下来,使用图6A~图6D详细说明与控制策略计算有关的步骤S104。像上述这样,控制策略计算部13使用细分化模型数据4预测无限时间或者无限步骤之后的所有将来状态,基于预测出的将来状态计算控制对象20的控制策略信号5。
具体来说,首先,控制策略计算部13通过使用由问题细分化部12细分的状态转移概率的模型计算衰减型状态转移矩阵,进行将来状态的预测。计算衰减型状态转移矩阵的方法例如能够使用下述式(1)。在式(1)中,将模型的保存形式假定为状态转移概率矩阵T。
【数学式1】
D=T+γT2+γT3+…+γ∞-1T∞ (1)
在式(1)中,D为衰减型状态转移矩阵,γ为衰减率,为0以上低于1的常数。另外,Tk为保存在经过了Δt×k的时间时的所有状态间的转移概率的函数(或者,矩阵)。像这样,衰减型状态转移矩阵D为从经过Δt时间后的状态转移概率矩阵T到经过Δt×∞时间后的状态转移概率矩阵T∞之和,也为保存所有状态间的统计接近度的矩阵。另外,由于越是转移至很远的将来的状态权值越降低,因此,与经过时间对应地乘以衰减率γ。此外,在此的k为离散化的正整数。
需要从状态转移概率矩阵T到状态转移概率矩阵T∞为止的计算的式(1)难以进行实时以内的计算。于是,式(1)转换下述式(2)。
【数学式2】
D=T(E-γT)-1 (2)
在式(2)中,E为单位矩阵。式(2)为与式(1)等效的计算式。通过将从式(1)的状态转移概率矩阵T到状态转移概率矩阵T∞之和的计算转换为在式(2)中(E-γT)的逆矩阵,在有限时间以内得到与式(1)相同的计算结果。在此,在状态转移概率矩阵T并非线形独立的情况下,也可以使用伪逆矩阵。另外,也可以取代衰减型状态转移矩阵D,使用在各行将衰减型状态转移矩阵归一化的矩阵。
像这样,通过将模拟模拟对象行为的模型设为状态转移模型,利用Tk的计算计算Δt×k时间后的状态转移概率。另外,获取从经过Δt时间后的状态转移概率矩阵T到经过Δt×∞时间后的状态转移概率矩阵T∞之和,利用经过时间进行基于衰减率γ的加权,在有限时间以内计算考虑了Δt×∞时间经过后的状态转移概率。
接下来,控制策略计算部13基于包含在外部输入信号1内的报酬函数计算控制策略。在此报酬函数为利用函数、表、向量、矩阵等的形式来表达目标位置或目标速度等的控制目标的函数。
图6A示出在报酬函数为向量形式的情况下的一例。在图6A中,针对每个转移源的状态ID用数值表示报酬函数R,状态s为将整体划分为n个范围(在此,n=8)的离散空间,将从初始的状态向状态s3转移设为目标。成为目标的向量的要素值将状态s3设为1,将其他的状态设为0。此外,在本发明中,将向量的要素值或报酬函数R的值称为报酬。
控制策略计算部13通过基于报酬函数R和上述算出的衰减型状态转移矩阵D计算最佳的控制规则(即,最佳的操作量),进行控制对象20的控制策略的计算。图6B示出控制规则的一例。在图6B中,针对每个转移源的状态ID用数值表达操作量ID,状态s为将整体划分为n个范围(在此,n=8)的离散空间,相对于各状态的范围保存有最佳的操作量ac(c=1、2…………m)。在后面说明最佳的操作量ac的计算方法。
以下,示出计算最佳的控制规则的方法的一例。在此,控制策略计算部13为了求出最佳的控制规则而利用以下的三个阶段来计算。
阶段1:首先,计算保存各状态s与利用报酬函数R设为目标的状态sgoal的接近度(或者表示转移容易度的统计指标)的函数。在本发明中将该函数称为状态价值函数V。另外,状态价值函数V在函数以外也可以利用表、向量、矩阵等形式来保存,在本发明中保存形式没有限定。下述式(3)示出状态价值函数V的计算方法的一例。
【数学式3】
V=DRtr (3)
如式(3)所示,状态价值函数V为作为衰减型状态转移矩阵D和报酬函数R的转置矩阵的Rtr的积。例如,状态价值函数V成为图6C这种n维(在此,n=8)的向量。越是易于向成为目标的状态sgoal转移的状态,则状态价值函数V的要素值越高。在本发明中,将该要素值称为价值。另外,本发明的状态价值函数V等价于在强化学习法中的状态价值函数的定义和值。
阶段2:接下来,使用状态价值函数V,在能够从转移源的状态si转移的转移目的地的状态sj中,针对转移源的各状态si计算最易于向成为目标的状态sgoal转移的状态sj*。下述式(4)示出状态sj*的计算方法的一例。
【数学式4】
sj*=argmax(V(sj)T(si,sj)) (4)在此,T(si,sj)是指状态转移概率矩阵T中的si行、sj列的要素值。图6D示出式(4)的计算结果的一例。在图6D中,针对每个转移源的状态ID表达转移目的地的状态ID。
阶段3:在最后的阶段中,计算为了从转移源的各状态si向在阶段2中得到的状态sj*转移所需的操作量a。操作量a的计算能够通过求出逆模型(将转移源的状态si和状态sj*作为输入并输出对应的操作量a的模型)来计算。阶段3的计算结果得到例如图6B示出的这种控制规则。
像这样,通过利用上述式(3)计算价值,能够评价向各状态中的sgoal的转移容易度,利用上述(4)式特定(确定)通过经过Δt时间而能够转移的状态中最容易向sgoal转移的状态sj*,利用逆模型特定用于向状态sj*转移的操作量a。
根据本实施方式的控制装置10,具备将由模型构建部11构建的模型细分的问题细分化部12,因此,在将模型细分的基础上预测将来状态,由此,能够减少将来状态的预测所使用的存储器。更具体来说,就模型构建所使用的存储器(例如存储由模型构建部11构建的模型的存储器、以及存储由问题细分化部12细分的模型的存储器)而言,与构建以往的状态转移概率模型的情况相比,能够通过问题细分化部12的细分来进行减少。其结果为,能够期待减少由控制装置10使用的存储器的效果。
为了易于确认上述存储器减少效果,在本实施方式中,显示装置32优选还显示存储器使用状况。
图7是显示于显示装置的存储器使用状况的一例。如图7所示,在显示装置32中,显示了“使用可能存储器”(即,控制装置10可使用的存储器)、“状态转移概率模型构建所使用的存储器”、“问题细分后的模型构建所使用的存储器”这种项目。作为具体的显示结果,例如可以为各存储器的使用容量,也可以为相对于整体容量的比率。
由此,能够通过显示装置32简单掌握各存储器的使用状况,能够易于确认存储器的减少效果。此外,在此的“状态转移概率模型构建所使用的存储器”为存储由模型构建部11构建的模型的存储器,“问题细分后的模型构建所使用的存储器”为存储由问题细分化部12细分的模型的存储器。
另外,也可以在显示装置32任意显示信息压缩手段的动作结果、聚类数、综合聚类数、压缩效率、联合数、存储器减少幅度等使本实施方式的控制装置10动作而得到的结果。
以上,详细说明了本发明的实施方式,但本发明不限于上述实施方式,在不脱离保护范围所述的本发明的精神的范围内能够进行各种各样的设计变更。
例如,也可以在控制装置10进一步设有显示部。通过在该显示部显示上述的“可使用的存储器”、“状态转移概率模型构建所使用的存储器”、以及“问题细分后的模型构建所使用的存储器”的使用状况、以及由控制装置10的动作得到的中间结果以及最终结果等,在控制装置10侧也能够易于确认这些内容。
而且,在控制装置10的控制方法还可以追加显示步骤,在显示步骤中,显示上述的“使用可能存储器”、“状态转移概率模型构建所使用的存储器”、以及“问题细分后的模型构建所使用的存储器”的使用状况、以及通过控制装置10的动作得到的中间结果以及最终结果等。例如,在与操作指令生成有关的步骤S106和与控制结束判定有关的步骤S107之间追加该显示步骤。由此,能够与掌握各存储器的使用状况或控制装置10的动作结果等。
附图标记说明
1外部输入信号
2测定信号
5控制策略信号
6操作指令
10控制装置
11模型构建部
12问题细分化部
13控制策略计算部
14操作指令生成部
15测定信号数据库
16处理结果数据库
17外部输入接口
18外部输出接口
20控制对象
21机器
22机器控制部
30外部装置
31外部输入装置
32显示装置
151运转数据库
152图像数据库
311键盘
312鼠标。
Claims (10)
1.一种控制装置,其特征在于,具备:
模型构建部,其构建模拟控制对象的模型;
细分化部,其对由所述模型构建部构建出的模型进行细分化;
控制策略计算部,其使用由所述细分化部细分出的模型预测所述控制对象的将来状态,并基于预测出的将来状态计算所述控制对象的控制策略;以及
操作指令生成部,其基于由所述控制策略计算部计算出的控制策略生成针对所述控制对象的操作指令。
2.根据权利要求1所述的控制装置,其特征在于,
所述模型构建部将所述控制对象的特性整体作为状态转移矩阵来构建模型,
所述细分化部对所述状态转移矩阵进行细分化。
3.根据权利要求2所述的控制装置,其特征在于,
所述模型构建部通过使用参照表、自适应共振理论、或者向量量子化手法将所述控制对象的运转数据以及图像数据中的至少一个离散化,来定义所述状态转移矩阵的状态。
4.根据权利要求1~3中任一项所述的控制装置,其特征在于,
所述细分化部以通过将多个状态汇总成一个综合聚类将由所述模型构建部构建出的模型划分为多个、而且使将综合聚类间结合的联合的数量变少的方式,对该模型进行细分化。
5.根据权利要求1~4中任一项所述的控制装置,其特征在于,
还具备显示部,该显示部至少显示存储由所述模型构建部构建出的模型的存储器和存储由所述细分化部细分出的模型的存储器。
6.一种控制方法,其特征在于,包括:
模型构建步骤,构建模拟控制对象的模型;
细分化步骤,对在所述模型构建步骤中构建出的模型进行细分化;
控制策略计算步骤,使用在所述细分化步骤中细分出的模型预测所述控制对象的将来状态,并基于预测出的将来状态计算所述控制对象的控制策略;以及
操作指令生成步骤,基于在所述控制策略计算步骤中计算出的控制策略,生成针对所述控制对象的操作指令。
7.根据权利要求6所述的控制方法,其特征在于,
在所述模型构建步骤中,将所述控制对象的特性整体作为状态转移矩阵来构建模型,
在所述细分化步骤中,对所述状态转移矩阵进行细分化。
8.根据权利要求7所述的控制方法,其特征在于,
在所述模型构建步骤中,通过使用参照表、自适应共振理论、或者向量量子化手法将所述控制对象的运转数据以及图像数据中的至少一个离散化,来定义所述状态转移矩阵的状态。
9.根据权利要求6~8中任一项所述的控制方法,其特征在于,
在所述细分化步骤中,以通过将多个状态汇总成一个综合聚类将在所述模型构建步骤中构建出的模型划分为多个、而且使将综合聚类间结合的联合的数量变少的方式,对该模型进行细分化。
10.根据权利要求6~9中任一项所述的控制方法,其特征在于,
还包括显示步骤,在该显示步骤中,至少显示存储在所述模型构建步骤中构建出的模型的存储器、以及存储在所述细分化步骤中细分出的模型的存储器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020190354A JP7441775B2 (ja) | 2020-11-16 | 2020-11-16 | 制御装置及び制御方法 |
JP2020-190354 | 2020-11-16 | ||
PCT/JP2021/031806 WO2022102213A1 (ja) | 2020-11-16 | 2021-08-30 | 制御装置及び制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116490834A true CN116490834A (zh) | 2023-07-25 |
Family
ID=81601045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180073239.XA Pending CN116490834A (zh) | 2020-11-16 | 2021-08-30 | 控制装置以及控制方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230400821A1 (zh) |
JP (1) | JP7441775B2 (zh) |
CN (1) | CN116490834A (zh) |
WO (1) | WO2022102213A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0695707A (ja) * | 1992-09-11 | 1994-04-08 | Toshiba Corp | モデル予測制御装置 |
JPH11161327A (ja) * | 1997-11-28 | 1999-06-18 | Mitsubishi Chemical Corp | プロセスの異常診断方法及び装置 |
JP5581753B2 (ja) | 2010-03-17 | 2014-09-03 | 富士電機株式会社 | プラント制御装置、そのモデル予測制御装置 |
JP7221584B2 (ja) | 2017-06-30 | 2023-02-14 | 横河電機株式会社 | 水処理施設における運転支援装置 |
-
2020
- 2020-11-16 JP JP2020190354A patent/JP7441775B2/ja active Active
-
2021
- 2021-08-30 US US18/035,771 patent/US20230400821A1/en active Pending
- 2021-08-30 WO PCT/JP2021/031806 patent/WO2022102213A1/ja active Application Filing
- 2021-08-30 CN CN202180073239.XA patent/CN116490834A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2022079264A (ja) | 2022-05-26 |
US20230400821A1 (en) | 2023-12-14 |
JP7441775B2 (ja) | 2024-03-01 |
WO2022102213A1 (ja) | 2022-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11573541B2 (en) | Future state estimation device and future state estimation method | |
US20210278825A1 (en) | Real-Time Production Scheduling with Deep Reinforcement Learning and Monte Carlo Tree Research | |
US9189485B2 (en) | Time-series data diagnosing/compressing method | |
JP2017138881A (ja) | 操作メニューの表示を学習する機械学習器,数値制御装置,工作機械システム,製造システムおよび機械学習方法 | |
Lee et al. | Grey system theory and fuzzy time series forecasting for the growth of green electronic materials | |
Moschen et al. | A ground motion record selection approach based on multiobjective optimization | |
JP5681305B1 (ja) | 効率的な学習時間配分装置及び学習時間配分プログラム | |
CN107480028A (zh) | 磁盘可使用的剩余时长的获取方法及装置 | |
Hsu et al. | Developing a fuzzy proportional–derivative controller optimization engine for engineering design optimization problems | |
Raoofpanah et al. | Solving a new robust green cellular manufacturing problem with environmental issues under uncertainty using Benders decomposition | |
KR102660544B1 (ko) | 제어 장치, 컨트롤러, 제어 시스템, 제어 방법, 및 제어 프로그램 | |
CN113762502B (zh) | 神经网络模型的训练方法及装置 | |
JP2019101490A (ja) | 時系列データ予測装置、時系列データ予測方法およびコンピュータプログラム | |
CN102597988A (zh) | 基于状态方程的伪密度根的热力学过程控制 | |
CN116490834A (zh) | 控制装置以及控制方法 | |
Tang et al. | Model and method based on GA for nonlinear programming problems with fuzzy objective and resources | |
WO2023210665A1 (ja) | 計算グラフの改善 | |
JP7060130B1 (ja) | 運用支援装置、運用支援方法及びプログラム | |
JP7379494B2 (ja) | 多重予測ネットワーク | |
Pattnaik | Linear programming problems in fuzzy environment: the post optimal analyses | |
KR102586532B1 (ko) | 가격 변동성의 예측 기반 농수산 식품 온라인 판매플랫폼 서비스 제공 방법, 장치 및 시스템 | |
WO2022064679A1 (ja) | 予測装置、予測方法、及び、記録媒体 | |
JP2000057118A (ja) | 学習機能付きダイナミックシミュレーションシステム | |
EP4187457A1 (en) | Data processing apparatus, data processing method and data processing program | |
JPH0916553A (ja) | 予測支援装置及び予測支援方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |