JP2020098538A - Control device, control method and control program - Google Patents

Control device, control method and control program Download PDF

Info

Publication number
JP2020098538A
JP2020098538A JP2018237254A JP2018237254A JP2020098538A JP 2020098538 A JP2020098538 A JP 2020098538A JP 2018237254 A JP2018237254 A JP 2018237254A JP 2018237254 A JP2018237254 A JP 2018237254A JP 2020098538 A JP2020098538 A JP 2020098538A
Authority
JP
Japan
Prior art keywords
series data
control
learning model
unit
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018237254A
Other languages
Japanese (ja)
Other versions
JP7085140B2 (en
Inventor
火炎 木焦
Kaen Kogashi
火炎 木焦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2018237254A priority Critical patent/JP7085140B2/en
Publication of JP2020098538A publication Critical patent/JP2020098538A/en
Application granted granted Critical
Publication of JP7085140B2 publication Critical patent/JP7085140B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

To provide a control device, a control method, and a control program for controlling a device to operate normally even when an abnormality is detected in the device.SOLUTION: A control device 10 includes: an acquisition unit 11a that acquires time-series data indicating a state of a device 20; a calculation unit 13a that calculates a first degree of abnormality of the device 20 based on the time-series data; a learning unit 15 including a reinforcement learning model 15a that selects the time-series data as a state and a control amount of the device 20 as an action so as to maximize a reward that increases when the first degree of abnormality is low; and a control unit 17a that controls the device 20 based on the output of the reinforcement learning model 15a.SELECTED DRAWING: Figure 1

Description

本発明は、制御装置、制御方法及び制御プログラムに関する。 The present invention relates to a control device, a control method, and a control program.

従来、工作機械やロボット等の装置を制御する場合に、装置に何らかの異常が生じたことを検知して、装置を停止させて点検や修理を行うことがある。 2. Description of the Related Art Conventionally, when controlling an apparatus such as a machine tool or a robot, it is sometimes detected that an abnormality has occurred in the apparatus, the apparatus is stopped, and inspection or repair is performed.

下記特許文献1には、複数のセンサからデータを取得し、データ間の類似度とそのデータの異常の有無に基づいて、学習データへのデータの追加や削除を行うことにより、学習データを生成・更新し、生成・更新した学習データを部分空間法でモデル化し、あらたに取得した観測データと、学習データに含まれる個々のデータを、局所部分空間法を含む部分空間法でモデル化した部分空間との距離関係に基づいて、観測データの異常を検知する異常検知方法が記載されている。 In Patent Document 1 below, data is acquired from a plurality of sensors, and learning data is generated by adding or deleting data to or from the learning data based on the similarity between the data and whether or not there is an abnormality in the data.・Updated, generated and updated learning data is modeled by the subspace method, and newly acquired observation data and individual data included in the learning data are modeled by the subspace method including the local subspace method. An anomaly detection method for detecting anomalies in observation data based on a distance relationship with space is described.

特開2010−191556号公報JP, 2010-191556, A

特許文献1に記載の技術を用いることで、装置の異常を検知することができる。しかしながら、このような技術を用いても、異常を検知した場合に装置を停止させて点検や修理を行わなければならない。そのため、例えば、装置が設置されている生産ラインを停止させる必要が生じてしまう。 By using the technique described in Patent Document 1, it is possible to detect an abnormality in the device. However, even if such a technique is used, it is necessary to stop the device and perform inspection or repair when an abnormality is detected. Therefore, for example, it becomes necessary to stop the production line in which the device is installed.

装置の異常が検知された場合であっても、ただちに修理が必要となる場合ばかりでなく、適切に制御することでしばらくの間使用を続けることができることもある。そのため、装置について異常が検知された場合に、装置を停止させても差し支えないタイミングになるまで装置の使用を継続したいことがある。 Even when an abnormality of the device is detected, not only when the device needs immediate repair, but also when properly controlled, it may be possible to continue the use for a while. Therefore, when an abnormality is detected in the device, it is sometimes desired to continue using the device until the timing when the device can be stopped does not cause any problem.

そこで、本発明は、装置について異常が検知された場合であっても、装置が正常な動作をするように制御する制御装置、制御方法及び制御プログラムを提供する。 Therefore, the present invention provides a control device, a control method, and a control program for controlling the device to operate normally even when an abnormality is detected in the device.

本発明の一態様に係る制御装置は、装置の状態を示す時系列データを取得する取得部と、時系列データに基づいて、装置の第1異常度を算出する算出部と、時系列データを状態として、第1異常度が低い場合に高くなる報酬を最大化するように、装置の制御量を行動として選択する強化学習モデルを含む学習部と、強化学習モデルの出力に基づいて、装置を制御する制御部と、を備える。 A control device according to an aspect of the present invention includes an acquisition unit that acquires time-series data indicating a state of the device, a calculation unit that calculates a first abnormality degree of the device based on the time-series data, and a time-series data. As a state, a learning unit including a reinforcement learning model that selects a control amount of the device as an action so as to maximize a reward that increases when the first abnormality degree is low, and a device based on the output of the reinforcement learning model. And a control unit for controlling.

この態様によれば、異常度が低い場合に高くなる報酬を最大化するように装置を制御することで、装置について異常が検知された場合であっても、装置が正常な動作をするように制御することができる。 According to this aspect, by controlling the device so as to maximize the reward that increases when the abnormality degree is low, the device operates normally even when an abnormality is detected in the device. Can be controlled.

上記態様において、学習部は、第1異常度が閾値以上である場合に、実測された時系列データを用いて、強化学習モデルを学習させ、制御部は、学習部による強化学習モデルの学習と並行して、強化学習モデルの出力に基づいて、装置を制御してもよい。 In the above aspect, the learning unit learns the reinforcement learning model using the measured time series data when the first abnormality degree is equal to or higher than the threshold, and the control unit learns the reinforcement learning model by the learning unit. In parallel, the device may be controlled based on the output of the reinforcement learning model.

この態様によれば、装置の制御を継続しながら強化学習モデルの学習を行って、異常が検知された装置が徐々に正常な動作をするように制御することができる。 According to this aspect, it is possible to perform the learning of the reinforcement learning model while continuing the control of the device and control the device in which the abnormality is detected to gradually operate normally.

上記態様において、学習部は、装置の物理モデルを用いて強化学習モデルの事前学習を行ってもよい。 In the above aspect, the learning unit may perform pre-learning of the reinforcement learning model using the physical model of the device.

この態様によれば、実測された時系列データを用いて強化学習モデルを学習させなくても、制御装置によって装置を制御することができるようになる。 According to this aspect, the control device can control the device without learning the reinforcement learning model using the actually measured time series data.

上記態様において、算出部は、時系列データが分布する空間において、時系列データに含まれる1つのデータを他のデータから隔離するために必要とされる空間分割の回数に基づいて第1異常度を算出してもよい。 In the above aspect, the calculating unit may determine the first abnormality degree based on the number of times of space division required to isolate one data included in the time-series data from other data in the space in which the time-series data is distributed. May be calculated.

この態様によれば、外れ値を効率的に検出することができ、演算負荷を抑えながら装置の異常を検知できる。 According to this aspect, the outlier can be efficiently detected, and the abnormality of the device can be detected while suppressing the calculation load.

上記態様において、算出部は、時系列データ及び制御量に基づいて第2異常度を算出し、強化学習モデルは、時系列データ及び第2異常度を状態として、第1異常度が低い場合に高くなる報酬を最大化するように、制御量を行動として選択してもよい。 In the above aspect, the calculation unit calculates the second abnormality degree based on the time-series data and the control amount, and the reinforcement learning model sets the time-series data and the second abnormality degree as states, and when the first abnormality degree is low. A controlled variable may be selected as an action to maximize the higher reward.

この態様によれば、装置が正常な動作をするように異常を矯正して制御していることを第2異常度の変化として検出することができる。 According to this aspect, it is possible to detect, as a change in the second abnormality degree, that the abnormality is corrected and controlled so that the device operates normally.

上記態様において、第2異常度に基づいて、第1異常度を小さくするように装置を制御していることを示す情報を出力する出力部をさらに備えてもよい。 In the above aspect, an output unit may be further provided that outputs information indicating that the device is controlled so as to reduce the first abnormality degree based on the second abnormality degree.

この態様によれば、装置が正常な動作をするように異常を矯正して制御していることをユーザに知らせることができる。 According to this aspect, it is possible to inform the user that the apparatus is correcting and controlling the abnormality so that the apparatus operates normally.

上記態様において、強化学習モデルは、状態を離散化した値を行又は列の一方とし、行動を離散化した値を行又は列の他方として、状態及び行動に対する評価値をまとめたテーブルを記憶し、状態が測定された場合に、評価値を最大化するように、行動を選択してもよい。 In the above aspect, the reinforcement learning model stores a table in which evaluation values for states and actions are summarized, with the values obtained by discretizing states as one of rows or columns and the values obtained by discretizing actions as the other of rows or columns. The behavior may be selected so that the evaluation value is maximized when the state is measured.

この態様によれば、装置について異常が検知された場合であっても、比較的低い演算負荷で装置が正常な動作をするように制御することができる。 According to this aspect, even when an abnormality is detected in the device, the device can be controlled to operate normally with a relatively low calculation load.

上記態様において、強化学習モデルは、所定の確率でランダムに行動を選択してもよい。 In the above aspect, the reinforcement learning model may randomly select an action with a predetermined probability.

この態様によれば、局所最適な制御にとどまらず、全体最適な装置の制御ができるように、制御量を探索することができる。 According to this aspect, the control amount can be searched so that not only the locally optimal control but also the overall optimal control of the device can be performed.

本発明の他の態様に係る制御方法は、装置の状態を示す時系列データを取得することと、時系列データに基づいて、装置の異常度を算出することと、時系列データを状態として、異常度が低い場合に高くなる報酬を最大化するように、装置の制御量を行動として選択する強化学習モデルを含むことと、強化学習モデルの出力に基づいて、装置を制御することと、を含む。 A control method according to another aspect of the present invention is to obtain time-series data indicating the state of the device, calculate an abnormality degree of the device based on the time-series data, and set the time-series data as a state, Including a reinforcement learning model that selects the control amount of the device as an action so as to maximize the reward that increases when the degree of abnormality is low, and controlling the device based on the output of the reinforcement learning model. Including.

この態様によれば、異常度が低い場合に高くなる報酬を最大化するように装置を制御することで、装置について異常が検知された場合であっても、装置が正常な動作をするように制御することができる。 According to this aspect, by controlling the device so as to maximize the reward that increases when the abnormality degree is low, the device operates normally even when an abnormality is detected in the device. Can be controlled.

本発明の他の態様に係る制御プログラムは、制御装置が備える演算部を、装置の状態を示す時系列データを取得する取得部、時系列データに基づいて、装置の異常度を算出する算出部、時系列データを状態として、異常度が低い場合に高くなる報酬を最大化するように、装置の制御量を行動として選択する強化学習モデルを含む学習部、及び強化学習モデルの出力に基づいて、装置を制御する制御部、として機能させる。 A control program according to another aspect of the present invention includes an arithmetic unit included in a control device, an acquisition unit that acquires time-series data indicating a state of the device, and a calculation unit that calculates an abnormality degree of the device based on the time-series data. , A learning unit including a reinforcement learning model that selects the control amount of the device as an action so as to maximize the reward that becomes high when the degree of abnormality is low, based on the output of the reinforcement learning model. , As a control unit for controlling the device.

この態様によれば、異常度が低い場合に高くなる報酬を最大化するように装置を制御することで、装置について異常が検知された場合であっても、装置が正常な動作をするように制御することができる。 According to this aspect, by controlling the device so as to maximize the reward that increases when the abnormality degree is low, the device operates normally even when an abnormality is detected in the device. Can be controlled.

本発明によれば、装置について異常が検知された場合であっても、装置が正常な動作をするように制御する制御装置、制御方法及び制御プログラムを提供することができる。 According to the present invention, it is possible to provide a control device, a control method, and a control program that control a device so that the device operates normally even when an abnormality is detected in the device.

本発明の実施形態に係る制御装置により制御される装置の概要を示す図である。It is a figure which shows the outline|summary of the apparatus controlled by the control apparatus which concerns on embodiment of this invention. 本実施形態に係る制御装置の構成を示す図である。It is a figure which shows the structure of the control apparatus which concerns on this embodiment. 本実施形態に係る制御装置により参照される評価値テーブルの一例を示す図である。It is a figure which shows an example of the evaluation value table referred by the control apparatus which concerns on this embodiment. 本実施形態に係る制御装置により実行される制御処理のフローチャートである。It is a flow chart of control processing performed by a control device concerning this embodiment. 本実施形態に係る制御装置により実行される学習処理のフローチャートである。6 is a flowchart of a learning process executed by the control device according to the present embodiment.

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。 Embodiments of the present invention will be described with reference to the accompanying drawings. In addition, in each of the drawings, those denoted by the same reference numerals have the same or similar configurations.

図1は、本発明の実施形態に係る制御装置10により制御される装置の概要を示す図である。本実施形態では、制御装置10により制御される装置はボールねじ20である。ボールねじ20は、制御装置10により制御される装置の一例である。制御装置10により制御される装置は、任意の工作機械やロボットであってよい。 FIG. 1 is a diagram showing an outline of a device controlled by a control device 10 according to an embodiment of the present invention. In the present embodiment, the device controlled by the control device 10 is the ball screw 20. The ball screw 20 is an example of a device controlled by the control device 10. The device controlled by the control device 10 may be any machine tool or robot.

制御装置10は、ボールねじ20を駆動させるモータ21のトルクを制御する。ボールねじ20は、モータ21を回転させてテーブル22を直線運動させる装置である。本例では、制御装置10は、ボールねじ20のモータ21のトルクTと、テーブル22の速度vとを測定した時系列データを取得する。トルクT及び速度vは、ボールねじ20の状態を示す時系列データの一例である。 The control device 10 controls the torque of the motor 21 that drives the ball screw 20. The ball screw 20 is a device that rotates a motor 21 to linearly move the table 22. In this example, the control device 10 acquires time series data obtained by measuring the torque T of the motor 21 of the ball screw 20 and the speed v of the table 22. The torque T and the speed v are examples of time series data indicating the state of the ball screw 20.

図2は、本実施形態に係る制御装置10の構成を示す図である。制御装置10は、コントローラ通信部11、時系列データ格納部12、異常監視部13、入出力部14、学習部15、設定情報入力部16、制御プログラム実行部17及び制御プログラム格納部18を備える。 FIG. 2 is a diagram showing a configuration of the control device 10 according to the present embodiment. The control device 10 includes a controller communication unit 11, a time series data storage unit 12, an abnormality monitoring unit 13, an input/output unit 14, a learning unit 15, a setting information input unit 16, a control program execution unit 17, and a control program storage unit 18. ..

コントローラ通信部11は、通信インターフェースにより構成され、制御対象の装置との間でデータの送受信を行う。本実施形態では、コントローラ通信部11は、ボールねじ20との間でデータの送受信を行う。コントローラ通信部11は、取得部11aを含む。取得部11aは、装置の状態を示す時系列データを取得する。本実施形態の場合、取得部11aは、ボールねじ20のモータ21のトルクTを示す時系列データ及びボールねじ20のテーブル22の速度vを示す時系列データを取得する。 The controller communication unit 11 is composed of a communication interface and transmits/receives data to/from a device to be controlled. In the present embodiment, the controller communication unit 11 transmits/receives data to/from the ball screw 20. The controller communication unit 11 includes an acquisition unit 11a. The acquisition unit 11a acquires time series data indicating the state of the device. In the case of the present embodiment, the acquisition unit 11a acquires time series data indicating the torque T of the motor 21 of the ball screw 20 and time series data indicating the speed v of the table 22 of the ball screw 20.

時系列データ格納部12は、記憶部により構成され、装置の状態を示す時系列データを格納する。時系列データ格納部12は、任意の記憶媒体で構成されてよく、例えば半導体記憶素子で構成されてよい。 The time-series data storage unit 12 is composed of a storage unit and stores time-series data indicating the state of the device. The time-series data storage unit 12 may be configured by any storage medium, for example, a semiconductor storage element.

異常監視部13は、演算部により構成され、装置に異常が生じていないか監視する。異常監視部13は、算出部13aを含み、算出部13aは、時系列データに基づいて、制御対象の装置の第1異常度を算出する。本実施形態の場合、算出部13aは、ボールねじ20のテーブル22の速度vを示す時系列データに基づいて、ボールねじ20の第1異常度を算出する。算出部13aは、時系列データが分布する空間において、時系列データに含まれる1つのデータを他のデータから隔離するために必要とされる空間分割の回数に基づいて第1異常度を算出してよい。算出部13aは、Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou, "Isolation Forest", [online], インターネット<URL:https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf>に開示されている技術を用いて、時系列データに含まれる1つのデータを他のデータから隔離するために必要とされる空間分割の回数に基づいて第1異常度を算出してよい。このような手法を用いることで、外れ値を効率的に検出することができ、演算負荷を抑えながら装置の異常を検知できる。 The abnormality monitoring unit 13 is composed of a calculation unit and monitors whether or not an abnormality has occurred in the device. The abnormality monitoring unit 13 includes a calculation unit 13a, and the calculation unit 13a calculates the first abnormality degree of the control target device based on the time-series data. In the case of the present embodiment, the calculation unit 13a calculates the first abnormality degree of the ball screw 20 based on the time series data indicating the speed v of the table 22 of the ball screw 20. The calculation unit 13a calculates the first abnormality degree based on the number of space divisions required to isolate one data included in the time series data from other data in the space where the time series data is distributed. You can The calculation unit 13a uses Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou, "Isolation Forest", [online], Internet <URL:https://cs.nju.edu.cn/zhouzh/zhouzh.files/ Using the technology disclosed in publication/icdm08b.pdf>, the first degree of abnormality is calculated based on the number of spatial divisions required to isolate one data included in time series data from other data. It may be calculated. By using such a method, an outlier can be efficiently detected, and an abnormality of the device can be detected while suppressing the calculation load.

入出力部14は、キーボードやタッチパネル等で構成される入力部と、液晶表示装置やブザー等で構成される出力部とにより構成される。入出力部14は、制御装置10の設定に関する入力を受け付ける。また、入出力部14は、異常監視部13により装置の異常が検知された場合に、警報を出力する。 The input/output unit 14 includes an input unit including a keyboard and a touch panel, and an output unit including a liquid crystal display device and a buzzer. The input/output unit 14 receives an input regarding the setting of the control device 10. The input/output unit 14 also outputs an alarm when the abnormality monitoring unit 13 detects an abnormality in the device.

学習部15は、演算部により構成され、強化学習モデル15aの学習処理を行う。強化学習モデル15aは、時系列データを状態として、第1異常度が低い場合に高くなる報酬を最大化するように、装置の制御量を行動として選択する。本実施形態の場合、強化学習モデル15aは、ボールねじ20のテーブル22が正常な速度vで動作するように、ボールねじ20のトルクTの制御量を選択する。 The learning unit 15 is configured by a calculation unit and performs a learning process of the reinforcement learning model 15a. The reinforcement learning model 15a selects the control amount of the device as the action so as to maximize the reward that increases when the first abnormality degree is low, with the time series data as the state. In the case of the present embodiment, the reinforcement learning model 15a selects the control amount of the torque T of the ball screw 20 so that the table 22 of the ball screw 20 operates at the normal speed v.

設定情報入力部16は、キーボードやタッチパネルにより構成され、学習部15による強化学習モデル15aの学習に関する設定情報や、異常監視部13により警報を出力するための第1異常度に関する閾値の設定情報の入力を受け付ける。 The setting information input unit 16 includes a keyboard and a touch panel, and includes setting information regarding learning of the reinforcement learning model 15a by the learning unit 15 and threshold setting information regarding the first abnormality degree for outputting an alarm by the abnormality monitoring unit 13. Accept input.

制御プログラム実行部17は、演算部により構成され、制御装置10によって装置を制御するためのプログラムを実行する。制御プログラム実行部17は、制御部17aを含み、制御部17aは、強化学習モデル15aの出力に基づいて、装置を制御する。本実施形態の場合、制御部17aは、強化学習モデル15aの出力に基づいて、ボールねじ20のモータ21のトルクTを制御する。 The control program execution unit 17 is composed of a calculation unit and executes a program for controlling the device by the control device 10. The control program execution unit 17 includes a control unit 17a, and the control unit 17a controls the device based on the output of the reinforcement learning model 15a. In the case of the present embodiment, the control unit 17a controls the torque T of the motor 21 of the ball screw 20 based on the output of the reinforcement learning model 15a.

制御プログラム格納部18は、記憶部により構成され、制御装置10によって装置を制御するためのプログラムを格納する。 The control program storage unit 18 is configured by a storage unit and stores a program for controlling the device by the control device 10.

本実施形態に係る制御装置10によれば、異常度が低い場合に高くなる報酬を最大化するように装置を制御することで、装置について異常が検知された場合であっても、装置が正常な動作をするように制御することができる。 According to the control device 10 according to the present embodiment, by controlling the device so as to maximize the reward that increases when the abnormality degree is low, the device operates normally even when an abnormality is detected in the device. Can be controlled to perform various actions.

学習部15は、第1異常度が閾値以上である場合に、実測された時系列データを用いて、強化学習モデル15aを学習させ、制御部17aは、学習部15による強化学習モデル15aの学習と並行して、強化学習モデル15aの出力に基づいて、装置を制御してよい。例えば、第1異常度が0〜1の数値である場合、閾値を0.5として、学習部15は、第1異常度が0.5以上である場合に、実測された時系列データを用いて、強化学習モデル15aを学習させてよい。これにより、装置の制御を継続しながら強化学習モデル15aの学習を行って、異常が検知された装置が徐々に正常な動作をするように制御することができる。 The learning unit 15 learns the reinforcement learning model 15a using the actually measured time series data when the first degree of abnormality is equal to or greater than the threshold, and the control unit 17a causes the learning unit 15 to learn the reinforcement learning model 15a. In parallel with this, the device may be controlled based on the output of the reinforcement learning model 15a. For example, when the first abnormality degree is a numerical value of 0 to 1, the threshold value is set to 0.5, and when the first abnormality degree is 0.5 or more, the learning unit 15 uses the actually measured time series data. Then, the reinforcement learning model 15a may be learned. As a result, the reinforcement learning model 15a is learned while continuing the control of the device, and the device in which the abnormality is detected can be controlled to gradually operate normally.

学習部15は、装置の物理モデルを用いて強化学習モデル15aの事前学習を行ってよい。装置の物理モデルは、設定情報入力部16により入力されてよい。装置の物理モデルを用いて強化学習モデル15aの事前学習を行うことで、実測された時系列データを用いて強化学習モデル15aを学習させなくても、制御装置10によって装置を制御することができるようになる。 The learning unit 15 may perform the pre-learning of the reinforcement learning model 15a using the physical model of the device. The physical model of the device may be input by the setting information input unit 16. By performing the prior learning of the reinforcement learning model 15a using the physical model of the device, the control device 10 can control the device without learning the reinforcement learning model 15a using the actually measured time series data. Like

算出部13aは、時系列データ及び制御量に基づいて第2異常度を算出し、強化学習モデル15aは、時系列データ及び第2異常度を状態として、第1異常度が低い場合に高くなる報酬を最大化するように、制御量を行動として選択してよい。本実施形態の場合、算出部13aは、テーブル22の速度vを示す時系列データ及びモータ21のトルクTの時系列データに基づいて第2異常度を算出し、強化学習モデル15aは、テーブル22の速度vを示す時系列データ及びモータ21のトルクTの時系列データを状態として、第1異常度が低い場合に高くなる報酬を最大化するように、モータ21のトルクTを行動として選択してよい。ここで、第2異常度の算出は、時系列データ及び制御量が分布する空間において、時系列データ及び制御量に含まれる1つのデータを他のデータから隔離するために必要とされる空間分割の回数に基づいて算出してよい。このようにして算出される第2異常度は、テーブル22の速度vが外れ値を含む場合のみならず、モータ21のトルクTが外れ値を含む場合に大きな値となる。そのため、装置が正常な動作をするように異常を矯正して制御していることを第2異常度の変化として検出することができる。 The calculation unit 13a calculates the second abnormality degree based on the time series data and the control amount, and the reinforcement learning model 15a becomes high when the first abnormality degree is low with the time series data and the second abnormality degree as states. The controlled variable may be selected as an action to maximize the reward. In the case of the present embodiment, the calculation unit 13a calculates the second abnormality degree based on the time series data indicating the speed v of the table 22 and the time series data of the torque T of the motor 21, and the reinforcement learning model 15a uses the table 22 , The torque T of the motor 21 is selected as an action so as to maximize the reward that increases when the first abnormality degree is low. You can Here, the calculation of the second abnormality degree is a space division required for separating one data included in the time series data and the control amount from other data in the space where the time series data and the control amount are distributed. It may be calculated based on the number of times. The second abnormality degree calculated in this way becomes a large value not only when the speed v of the table 22 includes an outlier, but also when the torque T of the motor 21 includes an outlier. Therefore, it is possible to detect that the abnormality is corrected and controlled so that the apparatus operates normally as a change in the second abnormality degree.

入出力部14は、第2異常度に基づいて、第1異常度を小さくするように装置を制御していることを示す情報を出力してよい。入出力部14は、例えば、第1異常度を小さくするように装置を制御していることを示すテキストを液晶表示装置に表示したり、第1異常度を小さくするように装置を制御していることを示す音をブザーにより出力したりしてよい。このようにして、装置が正常な動作をするように異常を矯正して制御していることをユーザに知らせることができる。 The input/output unit 14 may output information indicating that the device is controlled so as to reduce the first abnormality degree based on the second abnormality degree. The input/output unit 14 displays, for example, a text on the liquid crystal display device indicating that the device is controlled to reduce the first abnormality degree, or controls the device to reduce the first abnormality degree. A buzzer may output a sound indicating that there is a sound. In this way, the user can be informed that the device is correcting and controlling the abnormality so that the device operates normally.

制御装置10の算出部13aは、テーブル22の速度の絶対値の最大値を時系列データとして、時系列データが分布する空間において、時系列データに含まれる1つのデータを他のデータから隔離するために必要とされる空間分割の回数に基づいて第1異常度を算出してよい。ボールねじ20が正常に動作している場合、テーブル22の速度の絶対値の最大値は、ほとんど同じ値となる。しかし、ボールねじ20の部品が摩耗する等して異常な動作をする場合、テーブル22の速度の絶対値の最大値が、外れ値をとるようになる。第1異常度によって、このような外れ値が検出される。 The calculation unit 13a of the control device 10 separates one data included in the time-series data from other data in the space in which the time-series data is distributed, using the maximum absolute value of the speed in the table 22 as the time-series data. The first degree of abnormality may be calculated based on the number of space divisions required for this purpose. When the ball screw 20 is operating normally, the maximum absolute value of the speed of the table 22 is almost the same. However, when the parts of the ball screw 20 are abnormally operated due to wear or the like, the maximum absolute value of the speed of the table 22 becomes an outlier. Such an outlier is detected by the first degree of abnormality.

制御装置10が正常に動作している場合、テーブル22の速度の絶対値の最大値は、ほとんど一定で推移する。しかし、ボールねじ20の部品が摩耗する等して異常な動作をする場合、テーブル22の速度の絶対値の最大値が徐々に増加することがある。制御装置10は、テーブル22の速度の絶対値の最大値が閾値未満の場合に正常、テーブル22の速度の絶対値の最大値が閾値以上の場合に以上と判定してよい。 When the control device 10 is operating normally, the maximum absolute value of the speed in the table 22 remains almost constant. However, when the parts of the ball screw 20 are abnormally operated due to wear or the like, the maximum absolute value of the speed of the table 22 may gradually increase. The control device 10 may determine normal when the maximum absolute value of the speed of the table 22 is less than the threshold value, and may determine the above when the maximum absolute value of the speed of the table 22 is equal to or more than the threshold value.

図3は、本実施形態に係る制御装置10により参照される評価値テーブルT1の一例を示す図である。評価値テーブルT1は、状態を離散化した値を行又は列の一方とし、行動を離散化した値を行又は列の他方として、状態及び行動に対する評価値をまとめたテーブルの一例である。強化学習モデル15aは、状態が測定された場合に、評価値を最大化するように、行動を選択する。 FIG. 3 is a diagram showing an example of the evaluation value table T1 referred to by the control device 10 according to the present embodiment. The evaluation value table T1 is an example of a table in which evaluation values for states and behaviors are summarized with the values obtained by discretizing states as one of rows and columns and the values obtained by discretizing actions as the other of rows and columns. The reinforcement learning model 15a selects an action so as to maximize the evaluation value when the state is measured.

本例の評価値テーブルT1は、状態を離散化した値を行とし、行動を離散化した値を列として、状態及び行動に対する評価値をまとめたテーブルである。具体的には、評価値テーブルT1の第1行には「Vel[-inf, -10]」及び「Score[0, 0.3]」と記載され、テーブル22の速度(Vel)が−10以下かつ第1異常度(Score)が0〜0.3である状態を表している。同様に、評価値テーブルT1の第2行には「Vel[-10, 0]」及び「Score[0, 0.3]」と記載され、テーブル22の速度(Vel)が−10〜0かつ第1異常度(Score)が0〜0.3である状態を表している。また、評価値テーブルT1の最終行には「Vel[10, inf]」及び「Score[0.6, 1.0]」と記載され、テーブル22の速度(Vel)が10以上かつ第1異常度(Score)が0.6〜1.0である状態を表している。本例では、テーブル22の速度と、第1異常度とをそれぞれ6通りの値をとるように離散化しており、ボールねじ20が合計で36通りの状態をとるものとして取り扱っている。そのため、本例では、最終行は第36行となっている。 The evaluation value table T1 of this example is a table in which the values obtained by discretizing states are set as rows, and the values obtained by discretizing actions are shown as columns, and evaluation values for states and actions are summarized. Specifically, the first row of the evaluation value table T1 describes "Vel[-inf, -10]" and "Score[0, 0.3]", and the speed (Vel) of the table 22 is -10 or less and This indicates a state in which the first degree of abnormality (Score) is 0 to 0.3. Similarly, the second row of the evaluation value table T1 describes "Vel[-10, 0]" and "Score[0, 0.3]", and the speed (Vel) of the table 22 is -10 to 0 and the first value. This indicates a state in which the degree of abnormality (Score) is 0 to 0.3. Further, "Vel[10, inf]" and "Score[0.6, 1.0]" are written in the last line of the evaluation value table T1, and the speed (Vel) of the table 22 is 10 or more and the first abnormality degree (Score). Represents a state of 0.6 to 1.0. In this example, the speed of the table 22 and the first abnormality degree are discretized so as to take 6 different values, and the ball screw 20 is treated as a total of 36 different states. Therefore, in this example, the final row is the 36th row.

一方、評価値テーブルT1の第1列には「Trq[0, 10]」と記載され、モータ21のトルク(Trq)を0〜10とする行動を表している。同様に、評価値テーブルT1の第2列には「Trq[10, 20]」と記載され、モータ21のトルク(Trq)を10〜20とする行動を表している。また、評価値テーブルT1の最終列には「Trq[50, 60]」と記載され、モータ21のトルク(Trq)を50〜60とする行動を表している。本例では、モータ21のトルクを6通りの値をとるように離散化しており、強化学習モデル15aによって6通りの行動のうちいずれかを選択するものとして取り扱っている。そのため、本例では、最終列は第6列となっている。 On the other hand, "Trq[0, 10]" is written in the first column of the evaluation value table T1 and represents the action of setting the torque (Trq) of the motor 21 to 0-10. Similarly, "Trq [10, 20]" is written in the second column of the evaluation value table T1 and represents the action of setting the torque (Trq) of the motor 21 to 10-20. Further, "Trq[50, 60]" is described in the last column of the evaluation value table T1 and represents the action of setting the torque (Trq) of the motor 21 to 50-60. In this example, the torque of the motor 21 is discretized so as to take six different values, and is treated as selecting any one of the six actions by the reinforcement learning model 15a. Therefore, in this example, the final row is the sixth row.

強化学習モデル15aは、状態が測定された場合に、評価値を最大化するように、行動を選択する。例えば、状態として「Vel[-inf, -10]」及び「Score[0, 0.3]」が測定された場合、評価値テーブルT1の第1行のうち、評価値が最大となる行動を選択する。評価値テーブルT1の第1行の評価値は、行動として「Trq[0, 10]」を選択する場合0.62であり、行動として「Trq[10, 20]」を選択する場合0.83であり、行動として「Trq[50, 60]」を選択する場合0.4である。そのため、評価値が0.83より大きい行動が無い場合、強化学習モデル15aは、行動として「Trq[10, 20]」を選択する。この場合、制御装置10は、10〜20の平均値を採用し、モータ21のトルクを15とするように、ボールねじ20を制御してよい。 The reinforcement learning model 15a selects an action so as to maximize the evaluation value when the state is measured. For example, when "Vel[-inf, -10]" and "Score[0, 0.3]" are measured as the states, the action having the maximum evaluation value is selected from the first row of the evaluation value table T1. .. The evaluation value in the first row of the evaluation value table T1 is 0.62 when “Trq[0, 10]” is selected as the action, and 0.83 when “Trq[10, 20]” is selected as the action. And 0.4 when selecting "Trq [50, 60]" as the action. Therefore, when there is no action whose evaluation value is larger than 0.83, the reinforcement learning model 15a selects "Trq[10, 20]" as the action. In this case, the control device 10 may control the ball screw 20 so that the average value of 10 to 20 is adopted and the torque of the motor 21 is set to 15.

制御装置10の学習部15は、Q(st,atnew←Q(st,atold+α[(rt+1+γ maxaQ(st+1,at+1))−Q(st,atold]により評価値テーブルT1を更新してよい。ここで、Qは評価値であり、stは時間tにおける状態であり、atは時間tにおける行動であり、αは学習率であり、rtは時間tにおける報酬であり、γは割引率である。 The learning unit 15 of the control device 10 uses Q(s t , a t ) new ←Q(s t , a t ) old +α[(r t+1 +γ max a Q(s t+1 , a t+1 )). )-Q(s t , a t ) old ], the evaluation value table T1 may be updated. Here, Q is an evaluation value, s t is the state at time t, a t is the behavior in time t, α is the learning rate, r t is the reward at time t, γ is discount Is the rate.

また、学習部15は、第1異常度が閾値以下となる場合の報酬を正とし、第1異常度が閾値より大きい場合の報酬を負として、報酬を更新してよい。より具体的には、学習部15は、第1異常度が閾値以下となる場合の報酬を1とし、第1異常度が閾値より大きい場合の報酬を−1×([第1異常度]−0.5)×100として、報酬を更新してよい。ここで、第1異常度は0〜1の値をとるものとする。 The learning unit 15 may update the reward by setting the reward when the first abnormality degree is equal to or less than the threshold value to be positive and the reward when the first abnormality degree is greater than the threshold value to be negative. More specifically, the learning unit 15 sets the reward when the first abnormality degree is equal to or less than the threshold value to 1, and the reward when the first abnormality degree is higher than the threshold value, -1×([first abnormality degree]- The reward may be updated as 0.5)×100. Here, the first degree of abnormality has a value of 0 to 1.

このように、本実施形態に係る制御装置10によれば、装置について異常が検知された場合であっても、比較的低い演算負荷で装置が正常な動作をするように制御することができる。 As described above, according to the control device 10 of the present embodiment, even when an abnormality is detected in the device, it is possible to control the device to operate normally with a relatively low calculation load.

また、強化学習モデル15aは、所定の確率でランダムに行動を選択してもよい。所定の確率をεと表すとき、強化学習モデル15aは、1−εの確率で評価値テーブルT1に従った行動選択を行い、εの確率でランダムに行動を選択してよい。これにより、局所最適な制御にとどまらず、全体最適な装置の制御ができるように、制御量を探索することができる。 Further, the reinforcement learning model 15a may randomly select an action with a predetermined probability. When the predetermined probability is represented by ε, the reinforcement learning model 15a may select an action according to the evaluation value table T1 with a probability of 1-ε and randomly select an action with a probability of ε. As a result, the control amount can be searched so that not only the locally optimal control but also the overall optimal control of the device can be performed.

図4は、本実施形態に係る制御装置10により実行される制御処理のフローチャートである。はじめに、制御装置10は、装置の物理モデルを作成する(S10)。なお、制御装置10は、外部から装置の物理モデルの入力を受け付けてもよい。 FIG. 4 is a flowchart of control processing executed by the control device 10 according to the present embodiment. First, the control device 10 creates a physical model of the device (S10). The control device 10 may accept an input of a physical model of the device from the outside.

制御装置10は、物理モデルにより強化学習モデルの事前学習を実行する(S11)。その後、制御装置10は、事前学習された強化学習モデル15aを制御装置10に設定する(S12)。 The control device 10 executes the pre-learning of the reinforcement learning model by the physical model (S11). After that, the control device 10 sets the pre-learned reinforcement learning model 15a in the control device 10 (S12).

制御装置10は、装置の状態を示す時系列データを取得し(S13)、測定した時系列データの第1異常度が閾値以上であるか判定する(S14)。第1異常度が閾値以上である場合(S14:YES)、制御装置10は、事前学習した強化学習モデル15aで出力を算出しながら、強化学習モデル15aをオンライン学習して更新する(S15)。また、制御装置10は、第1異常度を小さくするように装置を制御していることを示す情報を出力する(S16)。 The control device 10 acquires time-series data indicating the state of the device (S13), and determines whether the first abnormality degree of the measured time-series data is greater than or equal to a threshold value (S14). When the first abnormality degree is equal to or higher than the threshold value (S14: YES), the control device 10 online-learns and updates the reinforcement learning model 15a while calculating the output with the reinforcement learning model 15a learned in advance (S15). Further, the control device 10 outputs information indicating that the device is controlled so as to reduce the first abnormality degree (S16).

一方、第1異常度が閾値以上でない場合(S14:NO)、制御装置10は、事前学習した強化学習モデル15aで出力を算出する(S17)。 On the other hand, when the first degree of abnormality is not equal to or more than the threshold value (S14: NO), the control device 10 calculates the output by the reinforcement learning model 15a learned in advance (S17).

その後、制御装置10は、強化学習モデル15aの出力に基づき、装置を制御する(S18)。制御装置10は、制御を終了しない場合(S19:NO)、新たな時系列データを取得し(S13)、強化学習モデル15aの出力に基づいた装置の制御を継続する。一方、制御を終了する場合(S19:YES)、装置の制御を終了する適切な処置を行った後、動作を終了する。 After that, the control device 10 controls the device based on the output of the reinforcement learning model 15a (S18). When the control is not ended (S19: NO), the control device 10 acquires new time series data (S13) and continues the control of the device based on the output of the reinforcement learning model 15a. On the other hand, when the control is to be ended (S19: YES), an appropriate action for ending the control of the device is performed, and then the operation is ended.

図5は、本実施形態に係る制御装置10により実行される学習処理のフローチャートである。同図では、図4の強化学習モデルの事前学習の処理(S11)の詳細を示している。 FIG. 5 is a flowchart of the learning process executed by the control device 10 according to this embodiment. In the figure, details of the pre-learning process (S11) of the reinforcement learning model of FIG. 4 are shown.

はじめに、制御装置10は、評価値テーブルを初期化する(S111)。その後、制御装置10は、物理モデルにてシミュレーションした状態を表す時系列データを取得する(S112)。 First, the control device 10 initializes the evaluation value table (S111). After that, the control device 10 acquires time-series data representing the state simulated by the physical model (S112).

制御装置10は、時系列データに基づいて第1異常度及び第2異常度を算出し(S113)、評価値を用いるか否かを判定する(S114)。評価値を用いるか否かは、所定の確率でランダムに選択されてよい。 The control device 10 calculates the first abnormality degree and the second abnormality degree based on the time-series data (S113), and determines whether to use the evaluation value (S114). Whether or not to use the evaluation value may be randomly selected with a predetermined probability.

評価値を用いる場合(S114:YES)、制御装置10は、時系列データ及び第2異常度を状態として、評価値が最大となる制御量を行動として選択する(S115)。一方、評価値を用いない場合(S114:NO)、制御装置10は、ランダムに制御量を選択する(S116)。 When the evaluation value is used (S114: YES), the control device 10 sets the time series data and the second abnormality degree as the state, and selects the control amount having the maximum evaluation value as the action (S115). On the other hand, when the evaluation value is not used (S114: NO), the control device 10 randomly selects the control amount (S116).

その後、制御装置10は、第1異常度が低い場合に高くなるように報酬を設定する(S117)。 After that, the control device 10 sets the reward to be high when the first abnormality degree is low (S117).

データ取得を終了しない場合(S118:NO)、物理モデルにてシミュレーションした状態を表す時系列データを取得し(S112)、制御量を選択する処理を継続する。一方、データ取得を終了する場合(S118:YES)、制御装置10は、強化学習の全エピソードが終了したか否かを判断する(S119)。全エピソードが終了していない場合(S119:NO)、制御装置10は、物理モデルにてシミュレーションした状態を表す時系列データを取得し(S112)、制御量を選択する処理を継続する。一方、全エピソードが終了した場合(S119:YES)、学習処理が終了する。 When the data acquisition is not completed (S118: NO), the time series data representing the state simulated by the physical model is acquired (S112), and the process of selecting the control amount is continued. On the other hand, when the data acquisition is to be ended (S118: YES), the control device 10 determines whether or not all the episodes of reinforcement learning have ended (S119). When all episodes have not ended (S119: NO), the control device 10 acquires time-series data representing the state simulated by the physical model (S112) and continues the process of selecting the control amount. On the other hand, when all the episodes have ended (S119: YES), the learning process ends.

以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。 The embodiments described above are for facilitating the understanding of the present invention and are not for limiting the interpretation of the present invention. Each element included in the embodiment and its arrangement, material, condition, shape, size and the like are not limited to the exemplified ones but can be changed as appropriate. Further, the configurations shown in different embodiments can be partially replaced or combined.

[付記]
装置(20)の状態を示す時系列データを取得する取得部(11a)と、
前記時系列データに基づいて、前記装置(20)の第1異常度を算出する算出部(13a)と、
前記時系列データを状態として、前記第1異常度が低い場合に高くなる報酬を最大化するように、前記装置(20)の制御量を行動として選択する強化学習モデル(15a)を含む学習部(15)と、
前記強化学習モデル(15a)の出力に基づいて、前記装置(20)を制御する制御部(17a)と、
を備える制御装置(10)。
[Appendix]
An acquisition unit (11a) for acquiring time-series data indicating the state of the device (20),
A calculation unit (13a) for calculating a first abnormality degree of the device (20) based on the time-series data;
A learning unit including a reinforcement learning model (15a) that selects the control amount of the device (20) as an action so as to maximize the reward that increases when the first abnormality degree is low with the time series data as a state. (15),
A controller (17a) for controlling the device (20) based on the output of the reinforcement learning model (15a);
A control device (10) provided with.

10…制御装置、11…コントローラ通信部、11a…取得部、12…時系列データ格納部、13…異常監視部、13a…算出部、14…入出力部、15…学習部、15a…強化学習モデル、16…設定情報入力部、17…制御プログラム実行部、17a…制御部、18…制御プログラム格納部、20…ボールねじ、21…モータ、22…テーブル 10... Control device, 11... Controller communication part, 11a... Acquisition part, 12... Time series data storage part, 13... Abnormality monitoring part, 13a... Calculation part, 14... Input/output part, 15... Learning part, 15a... Reinforcement learning Model, 16... Setting information input section, 17... Control program execution section, 17a... Control section, 18... Control program storage section, 20... Ball screw, 21... Motor, 22... Table

Claims (10)

装置の状態を示す時系列データを取得する取得部と、
前記時系列データに基づいて、前記装置の第1異常度を算出する算出部と、
前記時系列データを状態として、前記第1異常度が低い場合に高くなる報酬を最大化するように、前記装置の制御量を行動として選択する強化学習モデルを含む学習部と、
前記強化学習モデルの出力に基づいて、前記装置を制御する制御部と、
を備える制御装置。
An acquisition unit that acquires time series data indicating the state of the device,
A calculating unit that calculates a first abnormality degree of the device based on the time-series data;
A learning unit including a reinforcement learning model that selects the control amount of the device as an action so as to maximize a reward that increases when the first abnormality degree is low, with the time series data as a state,
A control unit for controlling the device based on the output of the reinforcement learning model;
A control device including.
前記学習部は、前記第1異常度が閾値以上である場合に、実測された前記時系列データを用いて、前記強化学習モデルを学習させ、
前記制御部は、前記学習部による前記強化学習モデルの学習と並行して、前記強化学習モデルの出力に基づいて、前記装置を制御する、
請求項1に記載の制御装置。
The learning unit uses the actually measured time series data to learn the reinforcement learning model when the first abnormality degree is equal to or higher than a threshold value,
The control unit controls the device based on the output of the reinforcement learning model in parallel with the learning of the reinforcement learning model by the learning unit,
The control device according to claim 1.
前記学習部は、前記装置の物理モデルを用いて前記強化学習モデルの事前学習を行う、
請求項1又は2に記載の制御装置。
The learning unit performs pre-learning of the reinforcement learning model using a physical model of the device,
The control device according to claim 1.
前記算出部は、前記時系列データが分布する空間において、前記時系列データに含まれる1つのデータを他のデータから隔離するために必要とされる空間分割の回数に基づいて前記第1異常度を算出する、
請求項1から3のいずれか一項に記載の制御装置。
The calculator calculates the first abnormality degree based on the number of times of space division required to isolate one data included in the time-series data from other data in a space in which the time-series data is distributed. To calculate,
The control device according to any one of claims 1 to 3.
前記算出部は、前記時系列データ及び前記制御量に基づいて第2異常度を算出し、
前記強化学習モデルは、前記時系列データ及び前記第2異常度を状態として、前記第1異常度が低い場合に高くなる報酬を最大化するように、前記制御量を行動として選択する、
請求項1から4のいずれか一項に記載の制御装置。
The calculation unit calculates a second abnormality degree based on the time series data and the control amount,
The reinforcement learning model selects the control amount as an action so that the time series data and the second abnormality degree are in a state, and a reward that becomes high when the first abnormality degree is low is maximized.
The control device according to any one of claims 1 to 4.
前記第2異常度に基づいて、前記第1異常度を小さくするように前記装置を制御していることを示す情報を出力する出力部をさらに備える、
請求項5に記載の制御装置。
And an output unit configured to output information indicating that the device is controlled to reduce the first abnormality degree based on the second abnormality degree.
The control device according to claim 5.
前記強化学習モデルは、
前記状態を離散化した値を行又は列の一方とし、前記行動を離散化した値を前記行又は前記列の他方として、前記状態及び前記行動に対する評価値をまとめたテーブルを記憶し、
前記状態が測定された場合に、前記評価値を最大化するように、前記行動を選択する、
請求項1から6のいずれか一項に記載の制御装置。
The reinforcement learning model is
A value obtained by discretizing the state is one of a row and a column, a value obtained by discretizing the action is the other of the row or the column, and a table summarizing evaluation values for the state and the action is stored,
Selecting the behavior to maximize the evaluation value when the condition is measured,
The control device according to any one of claims 1 to 6.
前記強化学習モデルは、
所定の確率でランダムに前記行動を選択する、
請求項7に記載の制御装置。
The reinforcement learning model is
Randomly select the action with a predetermined probability,
The control device according to claim 7.
装置の状態を示す時系列データを取得することと、
前記時系列データに基づいて、前記装置の異常度を算出することと、
前記時系列データを状態として、前記異常度が低い場合に高くなる報酬を最大化するように、前記装置の制御量を行動として選択する強化学習モデルを含むことと、
前記強化学習モデルの出力に基づいて、前記装置を制御することと、
を含む制御方法。
Acquiring time series data indicating the state of the device,
Calculating an abnormality degree of the device based on the time-series data,
Including the reinforcement learning model that selects the control amount of the device as an action so as to maximize the reward that increases when the abnormality degree is low, with the time series data as a state,
Controlling the device based on the output of the reinforcement learning model;
Control method including.
制御装置が備える演算部を、
装置の状態を示す時系列データを取得する取得部、
前記時系列データに基づいて、前記装置の異常度を算出する算出部、
前記時系列データを状態として、前記異常度が低い場合に高くなる報酬を最大化するように、前記装置の制御量を行動として選択する強化学習モデルを含む学習部、及び
前記強化学習モデルの出力に基づいて、前記装置を制御する制御部、
として機能させる制御プログラム。
The arithmetic unit included in the control device,
An acquisition unit that acquires time series data indicating the state of the device,
A calculation unit that calculates an abnormality degree of the device based on the time-series data,
With the time-series data as a state, a learning unit including a reinforcement learning model that selects a control amount of the device as an action so as to maximize a reward that increases when the degree of abnormality is low, and an output of the reinforcement learning model. A control unit for controlling the device based on
Control program to function as.
JP2018237254A 2018-12-19 2018-12-19 Control device, control method and control program Active JP7085140B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018237254A JP7085140B2 (en) 2018-12-19 2018-12-19 Control device, control method and control program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018237254A JP7085140B2 (en) 2018-12-19 2018-12-19 Control device, control method and control program

Publications (2)

Publication Number Publication Date
JP2020098538A true JP2020098538A (en) 2020-06-25
JP7085140B2 JP7085140B2 (en) 2022-06-16

Family

ID=71106860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018237254A Active JP7085140B2 (en) 2018-12-19 2018-12-19 Control device, control method and control program

Country Status (1)

Country Link
JP (1) JP7085140B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230019022A (en) 2021-07-30 2023-02-07 캐논 가부시끼가이샤 Control device, lithography apparatus, and article manufacturing method
JP2023023455A (en) * 2021-08-05 2023-02-16 横河電機株式会社 Learning device, learning method, learning program, and control device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017068325A (en) * 2015-09-28 2017-04-06 ファナック株式会社 Machine tool for generating optimal acceleration and deceleration

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017068325A (en) * 2015-09-28 2017-04-06 ファナック株式会社 Machine tool for generating optimal acceleration and deceleration

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230019022A (en) 2021-07-30 2023-02-07 캐논 가부시끼가이샤 Control device, lithography apparatus, and article manufacturing method
JP2023023455A (en) * 2021-08-05 2023-02-16 横河電機株式会社 Learning device, learning method, learning program, and control device

Also Published As

Publication number Publication date
JP7085140B2 (en) 2022-06-16

Similar Documents

Publication Publication Date Title
JP7504163B2 (en) Anomaly prediction device, anomaly prediction system, anomaly prediction method, and anomaly prediction program
JP6810097B2 (en) Anomaly detector
JP6451662B2 (en) Abnormality determination device, abnormality determination program, abnormality determination system, and motor control device
JP6733164B2 (en) Process monitoring device, process monitoring method and program
JP2018160093A5 (en)
JPWO2019142331A1 (en) Failure prediction system and failure prediction method
Lin et al. Economic design of autoregressive moving average control chart using genetic algorithms
JP6647473B1 (en) Abnormality detection device and abnormality detection method
JP2021015573A (en) Abnormality determination device and abnormality determination system
JP2018010608A (en) Methods and systems for context based operator assistance for control systems
AU2018426458B2 (en) Assistance device, learning device, and plant operation condition setting assistance system
JP6492555B2 (en) Abnormality diagnosis method, abnormality diagnosis device, and abnormality diagnosis program
JP2020098538A (en) Control device, control method and control program
JP2020201871A (en) Examining device
JP2009282804A (en) Comparison/determination apparatus and comparison/determination method
JP2019012473A (en) Data filtering device and method
JP5948998B2 (en) Abnormality diagnosis device
JP4825482B2 (en) Failure occurrence prediction device and failure occurrence prediction method
JP7290484B2 (en) Anomaly detection device, anomaly detection system, and anomaly detection method
JP6847318B2 (en) Signal display controller and signal display control program
JP2020197944A (en) Model prediction control system, information processing device, program, and model prediction control method
JP2020025461A (en) Motor control system
JPWO2020235061A5 (en) Operation rule determination device, operation rule determination method and program
US20240177064A1 (en) Information processing apparatus, storage medium, and optimal solution search method
US20230152759A1 (en) Information processing apparatus, information processing method, and computer program product

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220506

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220519

R150 Certificate of patent or registration of utility model

Ref document number: 7085140

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150