JP2022064643A - Model learning device, controller, model learning method and computer program - Google Patents
Model learning device, controller, model learning method and computer program Download PDFInfo
- Publication number
- JP2022064643A JP2022064643A JP2020173380A JP2020173380A JP2022064643A JP 2022064643 A JP2022064643 A JP 2022064643A JP 2020173380 A JP2020173380 A JP 2020173380A JP 2020173380 A JP2020173380 A JP 2020173380A JP 2022064643 A JP2022064643 A JP 2022064643A
- Authority
- JP
- Japan
- Prior art keywords
- input
- model
- output
- variable
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000004590 computer program Methods 0.000 title claims description 13
- 230000006870 function Effects 0.000 claims description 87
- 238000013507 mapping Methods 0.000 claims description 30
- 230000008859 change Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000010365 information processing Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000002485 combustion reaction Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B17/00—Systems involving the use of models or simulators of said systems
- G05B17/02—Systems involving the use of models or simulators of said systems electric
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Automation & Control Theory (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
- Combined Controls Of Internal Combustion Engines (AREA)
Abstract
Description
本発明は、モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラムに関する。 The present invention relates to a model learning device, a control device, a model learning method, and a computer program.
従来から、システムを制御するための入力と、この入力に対するシステムからの出力との関係を表すモデルを学習するモデル学習装置が知られている。例えば、特許文献1には、システムの将来の状態を予測し制御するモデル予測制御に用いられるモデルを、機械学習によって学習するモデル学習装置が記載されている。非特許文献1には、特殊なモデルを用いたモデル予測制御によって、システムの出力を最大化させる技術が記載されている。 Conventionally, a model learning device for learning a model representing a relationship between an input for controlling a system and an output from the system with respect to this input has been known. For example, Patent Document 1 describes a model learning device that learns a model used for model predictive control that predicts and controls a future state of a system by machine learning. Non-Patent Document 1 describes a technique for maximizing the output of a system by model predictive control using a special model.
しかしながら、上述したような先行技術によっても、モデル学習装置において、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習する技術については、なお改善の余地があった。モデルを用いるモデル予測制御では、システムの制御周期ごとに、最適制御問題(OCP)と呼ばれる一種の最適化問題を解く。この最適制御問題では、モデルからシステムの将来の状態やシステムにおける出力変化を予測できることを利用して、システムの状態や出力変化が最も望ましい挙動となるように、最適な入力の時系列を求める。具体的には、設計者が任意に設定する目的関数を最小化するような入力の時系列を求める最適化(最小化)問題として解くことになる。 However, even with the prior art as described above, in the model learning device, a model capable of constructing a control device capable of determining an input that improves the followability to the target value of the output while stably controlling the system is learned. There was still room for improvement in the technology to be used. In model predictive control using a model, a kind of optimization problem called an optimal control problem (OCP) is solved for each control cycle of the system. In this optimal control problem, the time series of the optimum input is obtained so that the system state and the output change become the most desirable behavior by utilizing the fact that the future state of the system and the output change in the system can be predicted from the model. Specifically, it will be solved as an optimization (minimization) problem for finding a time series of inputs that minimizes the objective function arbitrarily set by the designer.
特許文献1の技術では、機械学習を用いて学習されたモデルは、非線形性が強いため、最適制御問題は、非凸最適化問題となりやすい。このため、解の一意性を保証することができない。また、設定される初期条件によっては、入力に不規則なばらつきが発生するおそれがあり、信頼性を担保することが困難である。また、非特許文献1の技術では、特殊なモデルを用いて制御装置を構築することで、ある出力や状態そのものを最大化ないし最小化するための入力を決定することができるものの、出力の目標値を与えて、それに追従させる場合、出力の偏差を最小化することができる入力を一意に決定することは困難である。したがって、出力の目標値に追従させる制御では不安定になりやすい。 In the technique of Patent Document 1, since the model learned by using machine learning has strong non-linearity, the optimum control problem tends to be a non-convex optimization problem. Therefore, the uniqueness of the solution cannot be guaranteed. Further, depending on the initial conditions to be set, irregular variations may occur in the input, and it is difficult to ensure reliability. Further, in the technique of Non-Patent Document 1, by constructing a control device using a special model, it is possible to determine an input for maximizing or minimizing a certain output or state itself, but the output target. Given a value and following it, it is difficult to uniquely determine an input that can minimize output deviations. Therefore, the control that follows the target value of the output tends to be unstable.
本発明は、上述した課題を解決するためになされたものであり、システムにおける入力と出力との関係を表すモデルを学習するモデル学習装置において、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができるモデルを学習する技術を提供することを目的とする。 The present invention has been made to solve the above-mentioned problems, and is a model learning device for learning a model representing a relationship between an input and an output in a system, in which the system is stably controlled with respect to an output target value. It is an object of the present invention to provide a technique for learning a model capable of determining an input that improves followability.
本発明は、上述の課題を解決するためになされたものであり、以下の形態として実現できる。 The present invention has been made to solve the above-mentioned problems, and can be realized as the following forms.
(1)本発明の一形態によれば、システムに入力される入力変数vと、前記システムから出力される出力変数yとの関係を表すモデルを学習するモデル学習装置が提供される。このモデル学習装置は、前記入力変数vを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習部と、を備え、前記モデルは、前記入力変数vを入力とする全単射な写像Ψと、前記出力変数yを入力とする全単射な写像Φと、を含む状態方程式である。 (1) According to one embodiment of the present invention, there is provided a model learning device that learns a model representing the relationship between the input variable v input to the system and the output variable y output from the system. This model learning device includes a model storage unit that stores a model used for learning a nonlinear state equation for predicting the output variable y using the input variable v, the model, and input variable data for the model. The model comprises an input / output data set containing a plurality of sets of output variable data and a learning unit for learning the state equation using the input variable v, and the model is a fully monomorphic mapping Ψ with the input variable v as an input. It is a state equation including a fully monomorphic map Φ with the output variable y as an input.
この構成によれば、モデルは、システムに入力される入力変数vを入力とする全単射な写像Ψと、システムから出力される出力変数yを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システムに入力される入力変数vの最適値を1つに決めることができるため、システムを制御する制御装置にこのモデル学習装置を適用した場合、入力変数vの最適値を用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。 According to this configuration, the model has a bijective map Ψ with the input variable v input to the system as input and a bijective map Φ with the output variable y output from the system as input. It is a state equation including. Since such an equation of state can be linearized by setting each of the maps Ψ and Φ as internal variables, the solution is unique even in a control problem using a model having a non-linear structure. We can guarantee that. As a result, the optimum value of the input variable v input to the system can be determined to be one. Therefore, when this model learning device is applied to the control device that controls the system, the optimum value of the input variable v is used. While stably controlling the system, it is possible to improve the followability of the output from the system to the target value. Therefore, it is possible to learn a model capable of constructing a control device capable of determining an input that improves followability to an output target value while stably controlling the system.
(2)上記形態のモデル学習装置において、前記モデルは、式(1)によって定義されてもよい。
(3)上記形態のモデル学習装置において、前記式(1)において、前記写像Ψを内部変数uと定義し、前記写像Φを内部変数xと定義すると、前記学習部は、式(2)~式(4)によって定義される前記状態方程式を学習してもよい。
(4)上記形態のモデル学習装置において、前記写像Ψは、式(5)~式(8)によって定義されてもよい。
(5)上記形態のモデル学習装置において、前記学習部は、前記モデルに対して、前記入出力データセットのうちの前記入力変数データのセットを与えて出力を推定し、推定された出力と、前記入出力データセットのうちの前記出力変数データのセットと、の一致度を評価し、評価の結果に応じて前記モデルの学習パラメータ、例えば、式(5)~式(12)に含まれる重みWΨ、WΦやバイアスbΨ、bΦを更新することで、前記状態方程式を学習してもよい。この構成によれば、学習部は、入出力データセットのうちの入力変数データセットを用いて推定された出力と、出力変数データセットとの一致度を評価する。学習部は、この一致度の評価に応じて、モデルについての学習パラメータを更新し、状態方程式を学習する。すなわち、学習部は、予め準備された入出力データセットを教師データとした学習手法に沿って、非線形の状態方程式を学習することができる。これにより、実際のシステムに沿ったモデルを学習することができるため、システムをさらに安定的に制御しつつ、システムからの出力の目標値に対する追従性がさらに向上された制御装置を構築可能なモデルを学習することができる。 (5) In the model learning device of the above embodiment, the learning unit gives the model a set of the input variable data in the input / output data set, estimates the output, and obtains the estimated output and the estimated output. The degree of agreement with the set of output variable data in the input / output data set is evaluated, and the training parameters of the model, for example, the weights included in the equations (5) to (12), are evaluated according to the evaluation result. The above state equation may be learned by updating W Ψ , W Φ , bias b Ψ , and b Φ . According to this configuration, the learning unit evaluates the degree of matching between the output estimated using the input variable data set of the input / output data set and the output variable data set. The learning unit updates the learning parameters for the model and learns the equation of state according to the evaluation of the degree of agreement. That is, the learning unit can learn the nonlinear equation of state according to the learning method using the input / output data set prepared in advance as the teacher data. As a result, it is possible to learn a model along with the actual system, so it is possible to construct a control device with further improved followability to the target value of the output from the system while controlling the system more stably. Can be learned.
(6)上記形態のモデル学習装置において、前記学習部は、前記式(2)~式(4)を、離散時刻kの時間ステップで離散化した式(13)~式(15)に示す状態方程式を学習してもよい。
(7)本発明の別の形態によれば、システムを制御する制御装置が提供される。この制御装置は、上記(6)に記載のモデル学習装置と、前記学習部が学習した前記状態方程式を用いて、前記出力変数yの目標値に対応する前記入力変数vの目標値を決定する決定部と、を備え、前記決定部は、前記学習部が学習した式(13)~式(15)に示す状態方程式を用いた最適制御問題を解くことで前記入力変数vの目標値を決定してもよい。この構成によれば、決定部は、学習部が学習した式(13)~式(15)に示す状態方程式を用いて、最適制御問題を解くことで入力変数vの目標値を決定する。このとき、式(15)が線形モデルであることを利用することで、式(13)~式(15)を用いた最適制御問題を凸最適化問題とすることができる。これにより、システムに入力される入力変数vの最適値を1つに決めることができるため、制御装置は、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。 (7) According to another aspect of the present invention, a control device for controlling the system is provided. This control device uses the model learning device described in (6) above and the state equation learned by the learning unit to determine the target value of the input variable v corresponding to the target value of the output variable y. The determination unit includes a determination unit, and the determination unit determines a target value of the input variable v by solving an optimum control problem using the state equations shown in the equations (13) to (15) learned by the learning unit. You may. According to this configuration, the determination unit determines the target value of the input variable v by solving the optimum control problem using the equations of state shown in the equations (13) to (15) learned by the learning unit. At this time, by utilizing the fact that the equation (15) is a linear model, the optimum control problem using the equations (13) to (15) can be made into a convex optimization problem. As a result, the optimum value of the input variable v input to the system can be determined to be one, so that the control device can stably control the system and improve the followability of the output from the system to the target value. be able to.
(8)本発明のさらに別の形態によれば、システムに入力される入力変数vと、前記システムから出力される出力変数yとの関係を表すモデルを学習するモデル学習方法が提供される。このモデル学習方法は、前記入力変数vを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを取得する工程と、前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する工程と、を備え、前記モデルは、前記入力変数vを入力とする全単射な写像Ψと、前記出力変数yを入力とする全単射な写像Φと、を含む状態方程式である。この構成によれば、モデルを取得する工程において取得するモデルは、システムに入力される入力変数vを入力とする全単射な写像Ψと、システムから出力される出力変数yを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システムに入力される入力変数vの最適値を1つに決めることができるため、システムを制御する制御装置にこのモデル学習方法を適用した場合、入力変数vの最適値を用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。 (8) According to still another embodiment of the present invention, there is provided a model learning method for learning a model representing the relationship between the input variable v input to the system and the output variable y output from the system. This model learning method includes a step of acquiring a model used for learning a nonlinear state equation for predicting the output variable y using the input variable v, the model, and input variable data and output for the model. The model comprises an input / output data set including a plurality of sets of variable data and a step of learning the state equation using the input / output data set. It is a state equation including a fully monomorphic map Φ with an output variable y as an input. According to this configuration, the model acquired in the process of acquiring the model is bijective mapping Ψ with the input variable v input to the system as the input and bijection with the output variable y output from the system as the input. It is a state equation including a bijective map Φ. Since such an equation of state can be linearized by setting each of the maps Ψ and Φ as internal variables, the solution is unique even in a control problem using a model having a non-linear structure. We can guarantee that. As a result, the optimum value of the input variable v input to the system can be determined to be one. Therefore, when this model learning method is applied to the control device that controls the system, the optimum value of the input variable v is used. While stably controlling the system, it is possible to improve the followability of the output from the system to the target value. Therefore, it is possible to learn a model capable of constructing a control device capable of determining an input that improves followability to an output target value while stably controlling the system.
(9)本発明のさらに別の形態によれば、システムに入力される入力変数vと、前記システムから出力される出力変数yとの関係を表すモデルの学習を情報処理装置に実行させるコンピュータプログラムが提供される。このコンピュータプログラムは、前記入力変数vを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを取得する機能と、前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する機能と、を前記情報処理装置に実行させ、前記モデルは、前記入力変数vを入力とする全単射な写像Ψと、前記出力変数yを入力とする全単射な写像Φと、を含む状態方程式である。この構成によれば、コンピュータプログラムでは、モデルを取得する機能において取得するモデルは、システムに入力される入力変数vを入力とする全単射な写像Ψと、システムから出力される出力変数yを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システムに入力される入力変数vの最適値を1つに決めることができるため、システムを制御する制御装置の情報処理装置にこのコンピュータプログラムを適用した場合、入力変数vの最適値を用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。したがって、情報処理装置は、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。 (9) According to still another embodiment of the present invention, a computer program that causes an information processing apparatus to learn a model representing the relationship between the input variable v input to the system and the output variable y output from the system. Is provided. This computer program has a function of acquiring a model used for learning a nonlinear state equation for predicting the output variable y using the input variable v, the model, input variable data and output variables for the model. The information processing apparatus is made to execute an input / output data set including a plurality of data sets and a function of learning the state equation using the input / output data set, and the model is a total single-shot with the input variable v as an input. It is a state equation including a map Ψ and a fully monomorphic map Φ with the output variable y as an input. According to this configuration, in the computer program, the model acquired in the function to acquire the model has a bijective mapping Ψ with the input variable v input to the system as an input and the output variable y output from the system. It is a state equation including a bijective map Φ as an input. Since such an equation of state can be linearized by setting each of the maps Ψ and Φ as internal variables, the solution is unique even in a control problem using a model having a non-linear structure. We can guarantee that. As a result, the optimum value of the input variable v input to the system can be determined to be one. Therefore, when this computer program is applied to the information processing device of the control device that controls the system, the optimum value of the input variable v is set. By using it, it is possible to improve the followability of the output from the system to the target value while stably controlling the system. Therefore, the information processing device can learn a model capable of constructing a control device capable of determining an input that improves followability to an output target value while stably controlling the system.
なお、本発明は、種々の態様で実現することが可能であり、例えば、非線形システムのモデルを学習する装置および方法、学習により得られたモデルを用いて状態を推定する装置および方法、これらの装置が含まれるシステム、これらの装置およびシステムにおいて実行されるコンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。 The present invention can be realized in various embodiments, for example, an apparatus and method for learning a model of a nonlinear system, an apparatus and method for estimating a state using a model obtained by learning, and the like. It can be realized in the form of a system including the device, a computer program executed in these devices and the system, a server device for distributing the computer program, a non-temporary storage medium in which the computer program is stored, and the like.
<第1実施形態>
図1は、第1実施形態のモデル学習装置100の構成を示す模式図である。本実施形態のモデル学習装置100は、非線形システムのモデルを学習する装置である。ここで、「非線形システム」とは、任意の制御対象物(システム)に対する入出力パラメータの関係性が一次式では表せない、または、近似できない性質を持つシステムを意味する。また、本実施形態では「モデル」として、非線形の状態方程式を例示する。すなわち、モデル学習装置100は、任意のシステムの状態を、該システムから出力される出力変数yとみなすことで、システムに入力される入力変数vによって制御された結果、システムの出力変数yを予測する非線形の状態方程式を学習する。なお、「状態方程式」とは、「y・(t)=f(y(t)、・・・)」のように、現時刻tにおける出力変数y(t)によって、それ自身の出力変数y・(t)を決定する方程式を意味する。以降、表記の便宜上、任意の変数zの時間微分を「z・」と記載する。
<First Embodiment>
FIG. 1 is a schematic diagram showing the configuration of the
システムは、例えば、内燃機関、ハイブリッド機関、パワートレインなどが含まれる。内燃機関、ハイブリッド機関、パワートレインなどの駆動機関をシステムとした場合、モデル学習装置100により学習されるモデルは、システムの駆動に関する種々のパラメータ、例えば、制御対象部のアクチュエータの操作量、制御対象部に対する外乱、制御対象部の状態、制御対象部の出力、制御対象部の出力目標値などの関係を表す非線形の状態方程式となる。
Systems include, for example, internal combustion engines, hybrid engines, powertrains and the like. When a drive engine such as an internal combustion engine, a hybrid engine, or a power train is used as a system, the model learned by the
モデル学習装置100は、例えば、パーソナルコンピュータ(PC:Personal Computer)であり、CPU110と、記憶部120と、ROM/RAM130と、通信部140と、入出力部150と、を備えている。モデル学習装置100の各部は、バスにより相互に接続されている。
The
CPU110は、制御部111と、学習部112と、を備えている。制御部111は、ROM130に格納されているコンピュータプログラムをRAM130に展開して実行することにより、モデル学習装置100の各部を制御する。学習部112は、任意のシステム(非線形システム)の状態を表す出力変数yを予測するための非線形の状態方程式を学習する。学習部112の機能の詳細は、後述する。
The
記憶部120は、ハードディスク、フラッシュメモリ、メモリカードなどで構成される記憶媒体である。記憶部120は、モデル記憶部121と、データセット記憶部122と、を有している。モデル記憶部121は、学習部112による状態方程式の学習のために用いられるモデルを予め記憶している。本実施形態では、モデル記憶部121に記憶されたモデルは、入力変数vを入力とする全単射な写像Ψと、出力変数yを入力とする全単射な写像Φと、を含む状態方程式であって、式(1)により定義される。ここで、「全単射」とは、集合Aの写像の結果が集合Bであるとした場合に、AとBの各要素が必ず一対一の対応関係を持つことを意味する。これは、例えば、関数fが全単射である場合、一意の逆関数f-1が存在することと同義である。
The
データセット記憶部122は、式(1)で表されるモデルに対する入力変数データと出力変数データの組を複数含んでいる入出力データセットを予め記憶している。この入力変数データと出力変数データの組は、システムに対する実験や計算により予め求められている。入出力データセットは、学習部112による状態方程式の学習のために用いられる教師データとして用いられる。以降、入出力データセットのうち、複数の入力変数データをまとめて「入力変数データセット」とも呼び、複数の出力変数データをまとめて「出力変数データセット」とも呼ぶ。
The data
通信部140は、モデル学習装置100と他の装置との間における、通信インターフェースを介した通信を制御する。他の装置としては、例えば、システムを制御する制御装置や、他の情報処理装置、および、データセット記憶部122から入出力データセットを取得するための計測器などが挙げられる。入出力部150は、モデル学習装置100と、利用者との間の情報の入出力に使用される種々のインターフェースである。入出力部150としては、例えば、入力部としてのタッチパネル、キーボード、マウス、操作ボタン、マイクや、出力部としてのタッチパネル、モニタ、スピーカー、LED(Light Emitting Diode)インジケータなどが挙げられる。
The communication unit 140 controls communication via the communication interface between the
図2は、第1実施形態のモデル学習方法のフローチャートである。モデル学習装置100におけるモデル学習方法は、例えば、所定のアプリケーションの起動などの利用者からの要求などによって実行される。本実施形態では、式(1)に示す状態方程式において、出力変数y、入力変数v、システムにおける外生入力d、出力変数yの時間微分y・、および、外生入力dの時間微分d・を含む既知の入出力データセットを用いて、式(16)に示す関数Fの関数形を学習(推定)する。ここで、出力変数yは、n次元ベクトルであり、入力変数vは、m次元ベクトルであり、外生入力dは、p次元ベクトルである。
最初に、学習部112は、モデル記憶部121に記憶されているモデルを取得する(ステップS11)。具体的には、学習部112は、関数Fを学習するためのモデルを式(1)に示す状態方程式と想定する。学習部112は、式(1)に示す状態方程式において、各変数の値をゼロまたはランダムな値とすることで、各変数を初期化する。
本実施形態では、学習部112は、式(1)に含まれる写像Ψを式(2)で示す内部変数uと定義し、式(1)に含まれる写像Φを式(3)で示す内部変数xと定義する。これにより、学習部112は、式(1)を内部変数u、xで示した式(4)の状態方程式を学習することとなる。式(1)の状態方程式に含まれる写像Φ、Ψのそれぞれを内部変数x、uのそれぞれで定義する効果は、後述する。
さらに、本実施形態では、学習部112は、多層ニューラルネットワークの考え方を用いて、写像Ψについての式(5)~式(8)を定義する。
また、本実施形態では、学習部112は、写像Ψについての式(5)~式(8)と同様に、多層ニューラルネットワークの考え方を用いて、写像Φについての式(9)~式(12)を定義する。
次に、学習部112は、データセット記憶部122から、出力変数y、入力変数v、外生入力d、出力変数yの時間微分y・、外生入力dの時間微分d・についての入出力データセット[y、v、d、y・、d・]を取得する(ステップS12)。本実施形態では、入出力データセット[y、v、d、y・、d・]の各データは、j組(jは自然数、j=1~N)含まれている。取得した入出力データセットのうち、[yj、vj、dj、d・j]は、入力変数データセットに相当し、[y・j]は、出力変数データセットに相当する。
Next, the
次に、学習部112は、モデルに入力データセットを与えて出力を推定する(ステップS13)。具体的には、学習部112は、ステップS11で取得し初期化した式(1)の状態方程式に対して、ステップS12で取得した入力変数データセット[yj、vj、dj、d・j]を与える。これにより、出力変数y・jの推定値(式(17)の左辺)を得ることができる。なお、(∂Φ/∂y)-1は、出力変数yおよび外生入力dの関数であるため、出力変数yjおよび外生入力djを代入することで評価可能である。また、式(17)の右辺の(∂Φ/∂d)は、入力変数vおよび外生入力dの関数であるため、入力変数vjおよび外生入力djを代入することで評価可能である。
次に、学習部112は、推定された出力と出力変数データセットとの一致度を評価する(ステップS14)。具体的には、学習部112は、ステップS13で得られた出力変数y・jの推定値と、ステップS12で取得した出力変数データセット[y・j]との一致度を評価する。学習部112は、例えば、式(18)に示す二乗平均誤差(MSE:Mean Square Error)を一致度の指標として用いることができる。MSEの場合、等号の左辺Jの値が小さければ小さいほど、一致度が高い。なお、学習部112は、二乗平均誤差の代わりに、例えば、絶対平均誤差率や、交差エントロピーなどの指標を用いて、一致度を評価してもよい。
次に、学習部112は、一致度が十分であるか否かを判定する(ステップS15)。例えば、式(18)のMSEを用いる場合、学習部112は、Jの値が所定値以下である場合に、一致度が十分であると判定できる。なお、学習部112は、Jの値の変化率が所定値以下である場合に、一致度が十分であると判定してもよい。所定値は任意に決定できる。
Next, the
一致度が十分でない場合(ステップS15:NO)、学習部112は、ステップS16に進み、ステップS11で定義した式(1)のモデルにおける、例えば、式(1)に含まれる関数A’、関数B’、関数c’、式(5)~式(12)に含まれる重みWΨ、WΦやバイアスbΨ、bΦなどの学習パラメータを更新する。学習部112は、例えば、バックプロパゲーションにより各学習パラメータに対するJの勾配を評価し、各種の勾配法に基づいて、各学習パラメータを更新してもよい。その後、学習部112は、ステップS13に進み、出力の推定および評価を繰り返す。
When the degree of matching is not sufficient (step S15: NO), the
一致度が十分である場合(ステップS15:YES)、学習部112は、処理を終了する。この際、学習部112は、学習した関数Fについて、入出力部150に出力してもよく、記憶部120に記憶してもよく、通信部140を介して他の装置に送信してもよい。
When the degree of matching is sufficient (step S15: YES), the
本実施形態のモデル学習装置100がシステムの操作量を制御する制御装置と組み合わされている場合、モデル学習装置100は、学習部112において学習した関数Fを制御装置に出力する。制御装置では、出力された関数Fを用いて、システムの現在時刻の出力から、将来の出力を制御するための入力を計算する。制御装置は、計算された入力をシステムに出力し、システムを制御する。
When the
次に、図2で説明したモデル学習方法で学習されるモデル(状態方程式)において、解の一意性を保証できる理由について説明する。一般に、過渡的な現象を再現できる動的なモデルをニューラルネットワーク(機械学習)で構築する場合、当該モデルが安定である、言い換えれば、発散しない、保証はない。しかし、上述した式(1)に示した状態方程式を、出力変数yを写像Φによって変換した内部変数xを用いることで等価変換した式(4)は、内部変数xについて線形な微分方程式を含んでいる。このとき、入力変数vを写像Ψを用いて変換した内部変数uも同様に、微分方程式の線形項となる、写像Φ、Ψのそれぞれは、全単射な写像であるため、一意の逆関数が存在する。すなわち、内部変数xと出力変数y、および、入力変数vと内部変数uのそれぞれは、相互に変換が可能であることから、線形化された式(4)を解くことで、非線形の式(1)の解を求めることができる。したがって、モデル学習装置100を備える制御装置は、図2で説明したモデル学習方法で学習されるモデルを用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。
Next, the reason why the uniqueness of the solution can be guaranteed in the model (equation of state) learned by the model learning method described with reference to FIG. 2 will be described. In general, when a dynamic model capable of reproducing a transient phenomenon is constructed by a neural network (machine learning), the model is stable, in other words, it does not diverge, and there is no guarantee. However, the equation (4) obtained by equivalently transforming the state equation shown in the above equation (1) by using the internal variable x obtained by transforming the output variable y by the mapping Φ includes a linear differential equation with respect to the internal variable x. I'm out. At this time, the internal variable u obtained by transforming the input variable v using the map Ψ is also a linear term of the differential equation. Since each of the maps Φ and Ψ is a bijective map, it is a unique inverse function. Exists. That is, since the internal variable x and the output variable y, and the input variable v and the internal variable u can be converted to each other, a non-linear equation (4) can be solved by solving the linearized equation (4). The solution of 1) can be obtained. Therefore, the control device including the
以上説明した、本実施形態のモデル学習装置100によれば、モデルは、システムに入力される入力変数vを入力とする全単射な写像Ψと、システムから出力される出力変数yを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システムに入力される入力変数vの最適値を1つに決めることができるため、システムを制御する制御装置にこのモデル学習装置100を適用した場合、入力変数vの最適値を用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができるモデルを学習することができる。
According to the
また、一般的に、機械学習を用いて学習されたモデルは、比較的非線形性が強いため、このモデルを用いて予測される出力を何らかの目標に適切に追従させる最適制御問題は、非凸最適化問題になりやすい。このため、その問題を解く際の初期条件によって、得られる解が大きく変化してしまう可能性があり、入力のばたつきなどの信頼性問題に繋がるため、最適解を得ることが非常に難しい。本実施形態のモデル学習装置100は、解が一意であることを保証することができるため、システムの出力(状態)の目標値に追従させる制御問題に対応する最適制御問題を、凸最適化問題とすることができる。これにより、解が、初期条件によらず最適な一意となることが保証されるため、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。
Also, in general, a model trained using machine learning has a relatively strong non-linearity, so the optimal control problem that appropriately follows the output predicted using this model to some target is non-convex optimization. It tends to be a problem. For this reason, the obtained solution may change significantly depending on the initial conditions when solving the problem, which leads to reliability problems such as input fluttering, and it is very difficult to obtain the optimum solution. Since the
また、本実施形態のモデル学習装置100によれば、式(1)のモデルに含まれる写像Ψ、Φのそれぞれには、出力変数yの変化に影響を与える制御不可能な入力である外生入力dが含まれている。また、式(1)のモデルでは、外生入力dを入力とする関数A’(d)と関数B’(d)とのそれぞれが写像Ψ、Φのそれぞれの係数となっている。さらに、式(1)のモデルには、外生入力dを入力とする関数c’(d)と、外生入力dの時間微分の項と、が含まれている。これらによって、式(1)のモデルは、出力変数yの変化に影響を与える制御不可能な外生入力dによる影響も考慮した状態方程式となるため、このモデルを用いることで、システムの将来の状態を高精度に予測することができる。したがって、システムを高精度に制御することができる制御装置を構築可能なモデルを学習することができる。
Further, according to the
また、本実施形態のモデル学習装置100によれば、式(1)の状態方程式において、写像Ψを内部変数uと定義し、写像Φを内部変数xと定義することで、式(4)に示すように、状態方程式を線形化することができる。これにより、式(1)に示す状態方程式において、解が一意であることを保証することができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。
Further, according to the
また、本実施形態のモデル学習装置100によれば、写像Ψ、Φのそれぞれは、多層ニューラルネットワークを用いて定義されている(式(5)~式(12))。これにより、多層ニューラルネットワークの各層における重みWΨ、WΦやバイアスbΨ、bΦを調整することで、モデルを用いて計算される入力変数vの入力によるシステムの出力が実際の値に近づけることができる。したがって、出力の目標値に対する追従性をさらに向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。
Further, according to the
また、本実施形態のモデル学習装置100によれば、学習部112は、入出力データセットのうちの入力変数データセットを用いて推定された出力と、出力変数データセットとの一致度を評価する。学習部112は、この一致度の評価に応じて、モデルについての学習パラメータを更新し、状態方程式を学習する。すなわち、学習部112は、予め準備された入出力データセットを教師データとした学習手法に沿って、非線形の状態方程式を学習することができる。これにより、実際のシステムに沿ったモデルを学習することができるため、システムをさらに安定的に制御しつつ、システムからの出力の目標値に対する追従性がさらに向上させる制御装置を構築可能なモデルを学習することができる。
Further, according to the
また、本実施形態のモデル学習方法によれば、モデルを取得するステップS11において取得するモデルは、システムに入力される入力変数vを入力とする全単射な写像Ψと、システムから出力される出力変数yを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数u、xとすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システムに入力される入力変数vの最適値を1つに決めることができるため、システムを制御する制御装置にこのモデル学習方法を適用した場合、入力変数vの最適値を用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。 Further, according to the model learning method of the present embodiment, the model acquired in step S11 of acquiring the model has a bijective mapping Ψ input to the input variable v input to the system and output from the system. It is a state equation including a bijective map Φ with an output variable y as an input. Since such an equation of state can be linearized by setting the maps Ψ and Φ as internal variables u and x, respectively, the solution can be solved even in a control problem using a model having a non-linear structure. It can be guaranteed to be unique. As a result, the optimum value of the input variable v input to the system can be determined to be one. Therefore, when this model learning method is applied to the control device that controls the system, the optimum value of the input variable v is used. While stably controlling the system, it is possible to improve the followability of the output from the system to the target value. Therefore, it is possible to learn a model capable of constructing a control device capable of determining an input that improves followability to an output target value while stably controlling the system.
<第2実施形態>
図3は、第2実施形態の制御装置200の構成を示す模式図である。第2実施形態の制御装置200は、学習部212と決定部213を有するCPU210を備える。
<Second Embodiment>
FIG. 3 is a schematic diagram showing the configuration of the
制御装置200は、車載ECU(Electronic Control Unit)として実現され得る。本実施形態の制御装置200は、制御装置200をシステム300の制御のために用いることができる。システム300とは、第1実施形態と同様に、例えば、内燃機関、ハイブリッド機関、パワートレインなどである。なお、制御装置200は、例えば、パーソナルコンピュータであって、システム300の分析のために用いてもよい。
The
制御装置200は、CPU210と、記憶部120と、ROM/RAM130と、通信部140と、入出力部150と、を備えている。制御装置200の各部は、バスにより相互に接続されている。なお、制御装置200の機能部のうちの少なくとも一部は、ASIC(Application Specification Integrated Circuit)により実現されてもよい。
The
CPU210は、制御部111と、学習部212と、決定部213と、を備えている。制御部111は、第1実施形態の制御部111と同様に、ROM130に格納されているコンピュータプログラムをRAM130に展開して実行することにより、モデル学習装置100の各部を制御する。学習部212は、後述する予測制御方法において、システム300の状態を表す出力変数yを予測するための非線形の状態方程式を学習する。決定部213は、学習部212が学習した状態方程式を用いて、出力変数yの目標値に対応する入力変数vの目標値を決定する。
The
図4は、第2実施形態の予測制御方法のフローチャートである。システム300の予測制御方法は、例えば、所定のアプリケーションの起動などの利用者からの要求などによって実行される。
FIG. 4 is a flowchart of the predictive control method of the second embodiment. The predictive control method of the
最初に、学習部212は、モデル、目的関数、および、制約関数を取得する(ステップS21)。具体的には、学習部212は、モデル記憶部121に記憶されている非線形の状態方程式を読み込むとともに、システム300を最適に制御するための目的関数Jと、制約関数Gとを読み込む。本実施形態では、学習部212は、式(2)~式(4)を、離散時刻kにおいて所定の時間ステップΔtで離散化した式(13)~式(15)に示す状態方程式を読み込む。
次に、学習部212は、現在時刻の最適制御問題のパラメータを決定する(ステップS22)。具体的には、学習部212は、現在時刻を時刻kとして、システム300の各所に事前に設けられているセンサなどから取得された出力変数yk、制御入力vk-1、外生入力dk、および、目標値yktを読み込む。学習部212は、式(13)~式(15)を用いて、内部変数xk、内部変数xkの目標値xkt、および、内部変数uk-1を計算する。
Next, the
次に、決定部213は、最適化の初期入力時系列を読み込む(ステップS23)。具体的には、決定部213は、離散時刻kを起点として、時刻kf=k+N(Nは所定の自然数)までの入力時系列uk、・・・ukfの初期値を決定する。
Next, the
次に、決定部213は、最適制御問題を解く(ステップS24)。具体的には、決定部213は、式(22)、(23)に示す最適制御問題を解く。
式(22)および式(23)に示す最適制御問題では、目的関数Jを最小化するuκ(κ=k、・・・kf)の時系列を求める。このとき、式(22)に含まれる式(24)を小さくするため、目標値に素早く追従するようなuκ(κ=k、・・・kf)でなければならない。そのため、式(24)を含む目的関数Jを最小化するuκ(κ=k、・・・kf)の解は、目標値に素早く追従させる制御を実現するものとなっている。
スカラー関数gは、副次的な機能を持たせるために自由に設定できる。例えば、次のように設定してもよい。
ベクトル関数である制約関数Gには、所望の制約条件を設定できる。例えば、次のように設定してもよい。
図5は、凸関数と非凸関数の一例を説明する模式図である。ここで、凸関数とは、任意の0<t<1、および、任意のx、yに対して、以下の式(30)が成り立つ関数のことを言う。
ステップS24では、ステップS22で決定した条件において、ステップS23の初期値を用いて、式(22)、(23)の最適制御問題を解く。この問題は、たとえば逐次二次計画法などの数理計画法を用いて解くことができる。 In step S24, under the conditions determined in step S22, the optimum control problem of the equations (22) and (23) is solved by using the initial value of step S23. This problem can be solved using a mathematical programming method such as a sequential quadratic programming method.
次に、得られた解をシステム300への入力として反映する(ステップS25)。具体的には、制御部111は、ステップS24で得られるuk、・・・ukfの最適解と、式(13)のΨを用いて、vk、・・・vkfに変換し、このうちのvkを実際の制御入力vkとする。
Next, the obtained solution is reflected as an input to the system 300 (step S25). Specifically, the
次に、制御部111は、制御を終了するか否かを判定する(ステップS26)。具体的には、制御部111は、制御を終了する外部信号の受信の状態に応じて制御を終了するか否かを判定する。制御部111が外部信号を受信している場合、予測した制御入力vkを外部に出力し、今回の制御処理を終了する。出力は、入出力部150に対して行ってもよく、記憶部120に記憶させてもよく、通信部140を介して他の装置、例えば、呼び出し元のECUなどに送信してもよい。制御部111が外部信号を受信しない場合、ステップS27に進む。
Next, the
ステップS26において制御部211が外部信号を受信しない場合、制御部111は、時刻を進める(ステップS27)。制御部111は、時刻を進め、ステップS22に戻る。その後、ステップS22からステップS25を繰り返し、ステップS26において、制御部211が制御を終了する外部信号を受信しているか否かを判定する。
If the control unit 211 does not receive the external signal in step S26, the
図6は、モデル学習装置100における計算結果を説明する第1の模式図である。ここで、第1実施形態のモデル学習装置100を用いて、仮想のシステムの出力から入力の予測処理を行った計算結果を説明する。図6は、今回の計算結果において、仮想のシステムにおける複数の出力の時間変化を示したものである。図6には、4種類の出力(「出力1」、「出力2」、「出力3」、「出力4」)の時間変化が実線OP1、OP2、OP3、OP4で示されている。4種類の出力のうち、出力1、出力2、および、出力3は、異なる種類の出力を示しており、それぞれの出力において、目標値が設定されている(出力1、出力2、および、出力3の点線Do1、Do2、Do3参照)。また、出力4においては、上限制約が点線Do4で示されている。
FIG. 6 is a first schematic diagram illustrating a calculation result in the
図7は、2つのモデル学習装置における計算結果を説明する第2の模式図である。図7には、図6で示す4種類の出力が仮想のシステムから出力されるための入力を計算した結果が示されている。図7には、本実施形態のモデル学習装置を用いて計算された3種類の入力(「入力1」、「入力2」、「入力3」)の時間変化を、一点鎖線で囲んだ内側に示している。また、図7には、比較例のモデル学習装置を用いて計算された3種類の入力の時間変化を、二点鎖線で囲んだ内側に示している。比較例のモデル学習装置では、本実施形態のモデル学習装置のように、モデルとして、入力変数および出力変数を入力とする写像に、全単射な写像が用いられていない。
FIG. 7 is a second schematic diagram illustrating the calculation results of the two model learning devices. FIG. 7 shows the result of calculating the input for outputting the four types of outputs shown in FIG. 6 from the virtual system. In FIG. 7, the time changes of three types of inputs (“input 1”, “
図7に示す入力1~入力3は、図6で示した4種類の出力に対して、複数の異なる初期条件で計算された結果である。比較例のモデル学習装置では、初期条件が異なることで、入力1~入力3の値がそれぞれ変動し、例えば、入力2だけを見ても安定せず、ばらついている。このため、比較例の予測処理では、出力1~出力4を実現するための入力を1つに決定することが難しい。一方、本実施形態のモデル学習装置では、初期条件が異なっていても、入力1~入力3の値がばらつくことがない。すなわち、入力を1つに決定することができるため、入力が安定する。
Inputs 1 to 3 shown in FIG. 7 are the results calculated under a plurality of different initial conditions for the four types of outputs shown in FIG. In the model learning device of the comparative example, the values of input 1 to input 3 fluctuate due to different initial conditions, and for example, even if
以上説明した、本実施形態の制御装置200によれば、学習部212が取得するモデルは、システム300に入力される入力変数vを入力とする全単射な写像Ψと、システム300から出力される出力変数yを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システム300を安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。
According to the
また、本実施形態の制御装置200によれば、学習部212は、式(2)~式(4)に示す状態方程式を、離散時刻kの時間ステップで離散化した式(13)~式(15)として学習する。これにより、内部変数x、uの数を有限とすることができるため、モデルの学習に要する時間を短くすることができる。したがって、システム300を安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを比較的短時間で学習することができる。
Further, according to the
また、本実施形態の制御装置200によれば、決定部213は、学習部212が学習した式(13)~式(15)に示す状態方程式を用いて、式(22)および式(23)に示す最適制御問題を解くことで入力変数vを決定する。これにより、最適制御問題は、線形モデルに対する制御問題となり、式(13)~式(15)を用いた最適制御問題を凸最適化問題とすることができる。したがって、システム300に入力される入力変数vの最適値を1つに決めることができるため、制御装置は、システム300を安定的に制御しつつ、システム300からの出力の目標値に対する追従性を向上することができる。
Further, according to the
<本実施形態の変形例>
本発明は上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲において種々の態様において実施することが可能であり、例えば次のような変形も可能である。また、上記実施形態において、ハードウェアによって実現されるとした構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されるとした構成の一部をハードウェアに置き換えるようにしてもよい。
<Modified example of this embodiment>
The present invention is not limited to the above embodiment, and can be carried out in various embodiments without departing from the gist thereof, and for example, the following modifications are also possible. Further, in the above embodiment, a part of the configuration realized by the hardware may be replaced with software, and conversely, a part of the configuration realized by the software may be replaced with the hardware. You may.
[変形例1]
上記実施形態では、モデル学習装置、または、モデル学習装置を備える制御装置の構成の一例を示した。しかしながら、モデル学習装置および制御装置の構成は、種々の変形が可能であり、これらの構成に限定されない。例えば、モデル学習装置および制御装置の少なくとも一方は、ネットワーク上に配置された複数の情報処理装置(サーバ装置や、車載ECU等を含む)が協働することによって構成されてもよい。
[Modification 1]
In the above embodiment, an example of the configuration of the model learning device or the control device including the model learning device is shown. However, the configurations of the model learning device and the control device can be variously modified and are not limited to these configurations. For example, at least one of the model learning device and the control device may be configured by the cooperation of a plurality of information processing devices (including a server device, an in-vehicle ECU, etc.) arranged on the network.
[変形例2]
上記実施形態では、モデル学習方法(図2参照)、および、予測制御方法(図4参照)の手順の一例を示した。しかしながら、これらの方法は、種々の変形が可能であり、これらの手順に限定されない。例えば、一部のステップを省略してもよく、説明しない他のステップを追加してもよい。また、一部のステップの実行順序を変更してもよい。
[Modification 2]
In the above embodiment, an example of the procedure of the model learning method (see FIG. 2) and the predictive control method (see FIG. 4) is shown. However, these methods are capable of various modifications and are not limited to these procedures. For example, some steps may be omitted or other steps not explained may be added. Further, the execution order of some steps may be changed.
[変形例3]
第1実施形態において、状態方程式を式(1)と定義し、式(1)に含まれる写像Ψ、Φのそれぞれを式(2)、(3)で示す内部変数u、xのそれぞれで定義した。しかしながら、写像Ψ、Φのそれぞれの定義は、あくまで一例であり、これらは、任意の形に定義してよい。このとき、内部変数とともに、出力変数yの変化に影響を与える制御不可能な外生入力dを入力とする写像とすることで、システムの将来の状態を高精度に予測することができるモデルとすることができる。
[Modification 3]
In the first embodiment, the equation of state is defined as the equation (1), and the maps Ψ and Φ included in the equation (1) are defined by the internal variables u and x shown in the equations (2) and (3), respectively. bottom. However, the definitions of maps Ψ and Φ are merely examples, and these may be defined in any form. At this time, by using a mapping that takes an uncontrollable exogenous input d that affects the change of the output variable y as an input together with the internal variable, a model that can predict the future state of the system with high accuracy. can do.
[変形例4]
第1実施形態では、モデル学習方法(図2参照)のステップS14において、学習部112は、一致度を用いてモデルを学習するとした。このとき、学習部112は、一致度に加えて、制約条件を満たしているか否かを判断してもよい。例えば、式(1)の状態方程式に含まれる関数A’(d)、関数B’(d)、関数c’(d)のそれぞれに制約条件を設定してもよい。
[Modification 4]
In the first embodiment, in step S14 of the model learning method (see FIG. 2), the
[変形例5]
第1実施形態では、写像Ψ、写像Φ、関数A’(d)、関数B’(d)、および、関数c’(d)は、外生入力dが入力されることで出力されるとした。しかしながら、写像Ψ、写像Φ、関数A’(d)、関数B’(d)、および、関数c’(d)は、外生入力dに依存して出力が変化しなくてもよい。
[Modification 5]
In the first embodiment, the map Ψ, the map Φ, the function A'(d), the function B'(d), and the function c'(d) are output by inputting the exogenous input d. bottom. However, the output of the map Ψ, the map Φ, the function A'(d), the function B'(d), and the function c'(d) does not have to change depending on the exogenous input d.
[変形例6]
第2実施形態では、学習部212は、式(2)~式(4)を離散化した式(13)~式(15)に変換した状態方程式を用いて、最適制御問題を解くとした。しかしながら、学習部212は、状態方程式を離散化せずに、最適制御問題を解いてもよい。式(13)~式(15)に変換した状態方程式を用いて最適制御問題を解くことで、内部変数x、uの数を有限とすることができるため、モデルの学習に要する時間を比較的短くすることができる。
[Modification 6]
In the second embodiment, the
以上、実施形態、変形例に基づき本態様について説明してきたが、上記した態様の実施の形態は、本態様の理解を容易にするためのものであり、本態様を限定するものではない。本態様は、その趣旨並びに特許請求の範囲を逸脱することなく、変更、改良され得ると共に、本態様にはその等価物が含まれる。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することができる。 Although this embodiment has been described above based on the embodiments and modifications, the embodiments described above are for facilitating the understanding of the present embodiment and do not limit the present embodiment. This aspect may be modified or improved without departing from its spirit and claims, and this aspect includes its equivalent. Further, if the technical feature is not described as essential in the present specification, it may be deleted as appropriate.
100…モデル学習装置
110,210…CPU
111,211…制御部
112,212…学習部
120…記憶部
121…モデル記憶部
122…データセット記憶部
130…ROM/RAM
140…通信部
150…入出力部
200…制御装置
213…決定部
300…システム
100 ...
111, 211 ...
140 ...
Claims (9)
前記入力変数vを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、
前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習部と、
を備え、
前記モデルは、前記入力変数vを入力とする全単射な写像Ψと、前記出力変数yを入力とする全単射な写像Φと、を含む状態方程式である、
モデル学習装置。 A model learning device that learns a model representing the relationship between the input variable v input to the system and the output variable y output from the system.
A model storage unit that stores a model used for learning a non-linear equation of state for predicting the output variable y using the input variable v, and a model storage unit.
A learning unit for learning the state equation using the model and an input / output data set including a plurality of sets of input variable data and output variable data for the model.
Equipped with
The model is a state equation including a bijective map Ψ with the input variable v as an input and a bijective map Φ with the output variable y as an input.
Model learning device.
前記モデルは、式(1)によって定義され、
等号の左辺は、前記出力変数yを表すn(nは整数)次元ベクトルの時間微分であり、
等号の右辺のうち、
前記入力変数vは、m(mは整数)次元ベクトルであり、
外生入力dは、前記出力変数yの変化に影響を与える制御不可能な入力を示すp(pは整数)次元ベクトルであり、
前記写像Ψは、前記入力変数vと前記外生入力dを入力としてm次元のベクトルを返す関数であり、
前記写像Φは、前記出力変数yと前記外生入力dを入力としてn次元のベクトルを返す関数であり、
関数A’、関数B’、関数c’のそれぞれは、前記外生入力dを入力として、n×n行列、n×m行列、n次元ベクトルのそれぞれを返す関数である、
モデル学習装置。 The model learning device according to claim 1.
The model is defined by Eq. (1).
The left side of the equal sign is the time derivative of the n (n is an integer) dimensional vector representing the output variable y.
Of the right side of the equal sign
The input variable v is an m (m is an integer) dimensional vector.
The exogenous input d is a p (p is an integer) dimensional vector indicating an uncontrollable input that affects the change of the output variable y.
The map Ψ is a function that returns an m-dimensional vector with the input variable v and the exogenous input d as inputs.
The map Φ is a function that returns an n-dimensional vector with the output variable y and the exogenous input d as inputs.
Each of the function A', the function B', and the function c'is a function that takes the exogenous input d as an input and returns each of an n × n matrix, an n × m matrix, and an n-dimensional vector.
Model learning device.
前記式(1)において、前記写像Ψを内部変数uと定義し、前記写像Φを内部変数xと定義すると、
前記学習部は、式(2)~式(4)によって定義される前記状態方程式を学習する、
モデル学習装置。
In the above equation (1), if the map Ψ is defined as the internal variable u and the map Φ is defined as the internal variable x,
The learning unit learns the equation of state defined by the equations (2) to (4).
Model learning device.
前記写像Ψは、式(5)~式(8)によって定義され、
モデル学習装置。 The model learning device according to claim 3.
The map Ψ is defined by Eqs. (5) to (8), and is defined by Eqs. (5) to (8).
Model learning device.
前記学習部は、
前記モデルに対して、前記入出力データセットのうちの前記入力変数データのセットを与えて出力を推定し、
推定された出力と、前記入出力データセットのうちの前記出力変数データのセットと、の一致度を評価し、
評価の結果に応じて前記モデルの学習パラメータを更新することで、前記状態方程式を学習する、
モデル学習装置。 The model learning apparatus according to any one of claims 1 to 4.
The learning unit
The output is estimated by giving the model a set of the input variable data in the input / output data set.
Evaluate the degree of agreement between the estimated output and the set of output variable data in the input / output data set.
The equation of state is learned by updating the learning parameters of the model according to the evaluation result.
Model learning device.
前記学習部は、前記式(2)~式(4)を、離散時刻kの時間ステップで離散化した式(13)~式(15)に示す状態方程式を学習する、
モデル学習装置。
The learning unit learns the equations of state shown in the equations (13) to (15), which are discretized from the equations (2) to (4) in the time step of the discrete time k.
Model learning device.
請求項6に記載のモデル学習装置と、
前記学習部が学習した前記状態方程式を用いて、前記出力変数yの目標値に対応する前記入力変数vの目標値を決定する決定部と、を備え、
前記決定部は、前記学習部が学習した式(13)~式(15)に示す状態方程式を用いた最適制御問題を解くことで前記入力変数vの目標値を決定する、
制御装置。 A control device that controls the system
The model learning device according to claim 6 and
A determination unit for determining the target value of the input variable v corresponding to the target value of the output variable y by using the equation of state learned by the learning unit is provided.
The determination unit determines the target value of the input variable v by solving the optimum control problem using the equations of state shown in the equations (13) to (15) learned by the learning unit.
Control device.
前記入力変数vを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを取得する工程と、
前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する工程と、
を備え、
前記モデルは、前記入力変数vを入力とする全単射な写像Ψと、前記出力変数yを入力とする全単射な写像Φと、を含む状態方程式である、モデル学習方法。 It is a model learning method for learning a model representing the relationship between the input variable v input to the system and the output variable y output from the system.
The process of acquiring a model used for learning a nonlinear equation of state for predicting the output variable y using the input variable v, and
A step of learning the state equation using the model and an input / output data set including a plurality of sets of input variable data and output variable data for the model.
Equipped with
The model is a model learning method, which is a state equation including a bijective mapping Ψ with the input variable v as an input and a bijective mapping Φ with the output variable y as an input.
前記入力変数vを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを取得する機能と、
前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する機能と、を前記情報処理装置に実行させ、
前記モデルは、前記入力変数vを入力とする全単射な写像Ψと、前記出力変数yを入力とする全単射な写像Φと、を含む状態方程式である、コンピュータプログラム。 It is a computer program that causes an information processing apparatus to execute learning of a model representing a relationship between an input variable v input to a system and an output variable y output from the system.
A function to acquire a model used for learning a nonlinear equation of state for predicting the output variable y using the input variable v, and
The information processing apparatus is made to execute the function of learning the state equation using the model and an input / output data set including a plurality of sets of input variable data and output variable data for the model.
The model is a computer program, which is a state equation including a bijective map Ψ with the input variable v as an input and a bijective map Φ with the output variable y as an input.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020173380A JP7336425B2 (en) | 2020-10-14 | 2020-10-14 | Model learning device, control device, model learning method, and computer program |
AU2021240175A AU2021240175B2 (en) | 2020-10-14 | 2021-09-29 | Model learning apparatus, control apparatus, model learning method and computer program |
EP21201896.4A EP3985461A1 (en) | 2020-10-14 | 2021-10-11 | Model learning apparatus, control apparatus, model learning method and computer program |
US17/499,546 US20220114461A1 (en) | 2020-10-14 | 2021-10-12 | Model learning apparatus, control apparatus, model learning method and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020173380A JP7336425B2 (en) | 2020-10-14 | 2020-10-14 | Model learning device, control device, model learning method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022064643A true JP2022064643A (en) | 2022-04-26 |
JP7336425B2 JP7336425B2 (en) | 2023-08-31 |
Family
ID=78087158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020173380A Active JP7336425B2 (en) | 2020-10-14 | 2020-10-14 | Model learning device, control device, model learning method, and computer program |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220114461A1 (en) |
EP (1) | EP3985461A1 (en) |
JP (1) | JP7336425B2 (en) |
AU (1) | AU2021240175B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11734157B2 (en) * | 2021-12-23 | 2023-08-22 | Virtualitics, Inc. | Systems with software engines configured for detection of high impact scenarios with machine learning-based simulation and methods of use thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250665A (en) * | 2007-03-30 | 2008-10-16 | Toyota Motor Corp | Linearization converter and linearization conversion program |
DE102018203137A1 (en) * | 2018-03-02 | 2019-09-05 | Robert Bosch Gmbh | Method, device and computer program for operating an at least partially autonomous vehicle |
DE102020108243A1 (en) * | 2019-03-25 | 2020-10-01 | Avl List Gmbh | Method and control unit for controlling a non-linear technical process |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998018063A1 (en) * | 1996-10-18 | 1998-04-30 | Siemens Aktiengesellschaft | Method for modelling and controlling a first order dynamic system with non-linear properties |
JP2018179888A (en) | 2017-04-20 | 2018-11-15 | Jfeスチール株式会社 | Screw tip position detection method |
JP2020051305A (en) | 2018-09-26 | 2020-04-02 | いすゞ自動車株式会社 | On-vehicle control device and management server |
-
2020
- 2020-10-14 JP JP2020173380A patent/JP7336425B2/en active Active
-
2021
- 2021-09-29 AU AU2021240175A patent/AU2021240175B2/en active Active
- 2021-10-11 EP EP21201896.4A patent/EP3985461A1/en active Pending
- 2021-10-12 US US17/499,546 patent/US20220114461A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250665A (en) * | 2007-03-30 | 2008-10-16 | Toyota Motor Corp | Linearization converter and linearization conversion program |
DE102018203137A1 (en) * | 2018-03-02 | 2019-09-05 | Robert Bosch Gmbh | Method, device and computer program for operating an at least partially autonomous vehicle |
DE102020108243A1 (en) * | 2019-03-25 | 2020-10-01 | Avl List Gmbh | Method and control unit for controlling a non-linear technical process |
Also Published As
Publication number | Publication date |
---|---|
EP3985461A1 (en) | 2022-04-20 |
AU2021240175A1 (en) | 2022-04-28 |
US20220114461A1 (en) | 2022-04-14 |
JP7336425B2 (en) | 2023-08-31 |
AU2021240175B2 (en) | 2023-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sokolov et al. | Complete stability analysis of a heuristic approximate dynamic programming control design | |
KR102506122B1 (en) | Reinforcement learning model construction method, device, electronic equipment and medium | |
Rizvi et al. | Output feedback reinforcement Q-learning control for the discrete-time linear quadratic regulator problem | |
JP7090734B2 (en) | Control system, control method and storage medium | |
KR20210118182A (en) | Reinforcement Learning with Dual Actor Critical Algorithm | |
CN111433689B (en) | Generation of control systems for target systems | |
JP2019505889A (en) | Cost function design system, cost function design method, and cost function design program | |
JP7336425B2 (en) | Model learning device, control device, model learning method, and computer program | |
Erenturk | Nonlinear two-mass system control with sliding-mode and optimised proportional–integral derivative controller combined with a grey estimator | |
Hager et al. | Adaptive Neural network control of a helicopter system with optimal observer and actor-critic design | |
JP2019053593A (en) | Policy improvement program, policy improvement method, and policy improvement device | |
KR20210013971A (en) | Automatic learning tuning system of motor controller using PSO | |
US20190384871A1 (en) | Generating hybrid models of physical systems | |
WO2019142728A1 (en) | Control device, control method and program storage medium | |
KR20190099111A (en) | A method for devising an optimum control policy, training system, control system, computer program and machine-readable storage medium | |
JPWO2016203757A1 (en) | Control apparatus, information processing apparatus using the same, control method, and computer program | |
JP7060130B1 (en) | Operation support equipment, operation support methods and programs | |
Kostadinov et al. | Online weight-adaptive nonlinear model predictive control | |
Bendtsen et al. | Robust quasi-LPV control based on neural state-space models | |
JP7227940B2 (en) | MODEL LEARNING DEVICE, MODEL LEARNING METHOD, CONTROL DEVICE, CONTROL METHOD, AND COMPUTER PROGRAM | |
Chen et al. | Neural Based Grey Nonlinear Control for Real-World Example of Mechanical Systems | |
JP7410901B2 (en) | Model learning device, control device, model learning method, and computer program | |
JP2021082014A (en) | Estimation device, training device, estimation method, training method, program, and non-transitory computer readable medium | |
Chen et al. | Optimal tracking control of mechatronic servo system using integral reinforcement learning | |
US11922314B1 (en) | Systems and methods for building dynamic reduced order physical models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230516 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20230628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230628 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230821 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7336425 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |