JP2017033040A - Plcプログラムの最適化機能を備えた制御装置及び機械学習器 - Google Patents

Plcプログラムの最適化機能を備えた制御装置及び機械学習器 Download PDF

Info

Publication number
JP2017033040A
JP2017033040A JP2015148933A JP2015148933A JP2017033040A JP 2017033040 A JP2017033040 A JP 2017033040A JP 2015148933 A JP2015148933 A JP 2015148933A JP 2015148933 A JP2015148933 A JP 2015148933A JP 2017033040 A JP2017033040 A JP 2017033040A
Authority
JP
Japan
Prior art keywords
machine
time
learning
waiting
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015148933A
Other languages
English (en)
Other versions
JP6659260B2 (ja
Inventor
靖司 野本
Yasushi Nomoto
靖司 野本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Priority to JP2015148933A priority Critical patent/JP6659260B2/ja
Publication of JP2017033040A publication Critical patent/JP2017033040A/ja
Application granted granted Critical
Publication of JP6659260B2 publication Critical patent/JP6659260B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Programmable Controllers (AREA)

Abstract

【課題】プログラマブルコントローラにおいて発生する待ち合わせ処理の最適化をする機能を備えた制御装置を提供すること。【解決手段】本発明の制御装置は、シーケンスプログラムにより機械を制御するプログラマブルコントローラと、加工のサイクルタイムを入力としてシーケンスプログラムに含まれる時間待ち処理における待ち時間の調整を機械学習する機械学習器を備え、機械学習器は、機械による加工の状態を状態データとして取得する状態観測部と、状態データに基づいて報酬を計算する報酬計算部と、機械学習結果および状態データに基づいて待ち時間の調整を行う待ち時間調整学習部と、待ち時間調整学習部が調整した待ち時間を出力する待ち時間出力部と、を有し、待ち時間調整学習部は、調整された待ち時間と、状態観測部により取得された状態データと、報酬計算部が計算した前記報酬と、に基づいて待ち時間の調整を機械学習する。【選択図】図4

Description

本発明は、制御装置に関し、特にPLCプログラムの最適化する機能を備えた制御装置に関する。
機械の動作には、指令に対する各動作の完了を待ってから、次の動作を行う工程が多くあり、そのような工程を実現するための一手法として、プログラマブルコントローラ(PLC)における信号の状態により、動作の実行中や動作の完了などの判断を行い、次の動作へと移行する待ち合わせ処理が多くの場合において用いられている。
プログラマブルコントローラは、シーケンスプログラムに従って制御対象の制御を行っている。シーケンスプログラムは、一例として図5に例示されるようにラダー図の形式で表され、接点で信号状態の待ち合わせ示し、コイルにより負荷の駆動や信号の出力などを示すことができ、また、タイマ回路などによる時間待ち処理をすることも可能である。特許文献1には、このようなシーケンスプログラムにおける処理を高速化する従来技術が開示されている。
特開平11−202913号公報
プログラマブルコントローラ上では、信号が実際に発生してからプログラマブルコントローラ上で検出されるまでに少なからずの遅れが発生する。このような遅れにより、上記した待ち合わせ処理における待ち合わせ解除や、時間待ち処理における待ち時間に遅延が発生している。そのため、この遅れをなくすことにより、加工のサイクルタイムの短縮を行うことが期待できる。しかしながら、遅れを無くすことを目的としてプログラマブルコントローラやプログラマブルコントローラを備えた制御装置の処理能力を向上させるにはコストがかかるという問題がある。また、特許文献1に開示される技術では無駄な処理自体を省くことは可能ではあるが、待ち合わせ処理における信号の遅れに対応できる技術ではない。
そこで本発明の目的は、プログラマブルコントローラにおいて発生する待ち合わせ処理の最適化をする機能を備えた制御装置を提供することである。
本願の請求項1に係る発明は、プログラマブルコントローラを備え、該プログラマブルコントローラに読み込まれたシーケンスプログラムに基づいて機械をシーケンス制御する制御装置において、少なくとも前記機械による加工のサイクルタイムを入力として前記シーケンスプログラムに含まれる時間待ち処理における待ち時間の調整を機械学習する機械学習器を備え、該機械学習器は機械学習の結果に基づいて、前記加工のサイクルタイムが短くなるように前記時間待ち処理における待ち時間を変更する、ことを特徴とする制御装置である。
本願の請求項2に係る発明は、前記シーケンスプログラム内を解析し、信号による待ち合わせ処理を検出して、該待ち合わせ処理を時間待ち処理へと変換するプログラム解析部を更に備える、ことを特徴とする請求項1に記載の制御装置である。
本願の請求項3に係る発明は、前記機械学習器は、前記機械における加工のサイクルタイムが短縮された場合をプラスの報酬とし、前記機械における加工のサイクルタイムが伸びた場合をマイナスの報酬として機械学習する、ことを特徴とする請求項1または2に記載の制御装置である。
本願の請求項4に係る発明は、前記機械学習器は、更に前記時間待ち処理の待ち時間の変更による前記シーケンスプログラムの論理の不一致、または前記時間待ち処理の待ち時間の変更による前記機械の誤動作を入力として機械学習を行い、前記シーケンスプログラムの論理の不一致、または前記機械の誤動作が検出された場合をマイナスの報酬として機械学習する、ことを特徴とする請求項1または2に記載の制御装置である。
本願の請求項5に係る発明は、機械のシーケンス制御に用いられるシーケンスプログラムにおける時間待ち処理の待ち時間の調整を機械学習した機械学習器であって、前記待ち時間の調整の機械学習結果を記憶する学習結果記憶部と、少なくとも前記機械による加工のサイクルタイムを含む状態データを取得する状態観測部と、前記待ち時間の調整の機械学習結果と、前記状態観測部が取得した前記状態データと、に基づいて前記待ち時間の調整を行う待ち時間調整学習部と、前記待ち時間調整学習部が調整した前記時間待ち処理の前記待ち時間を出力する待ち時間出力部と、を備えたことを特徴とする機械学習器である。
本発明において、制御装置に対して機械学習器を導入してプログラマブルコントローラにおいて発生する待ち合わせ時間を機械学習し、待ち合わせ処理を最適化することにより、加工のサイクルタイムを短縮することが可能となる。
強化学習アルゴリズムの基本的な概念を説明する図である。 本発明の実施形態における機械学習器の学習に関するイメージ図である。 本発明の実施形態において扱う各データについて説明する図である。 本発明の実施形態における機械の機能ブロック図である。 シーケンスプログラムの例を示す図である。
以下、本発明の実施形態を図面と共に説明する。
本発明では、プログラマブルコントローラを備えた制御装置に人工知能となる機械学習器を導入し、プログラマブルコントローラで実行されるシーケンスプログラム(ラダープログラム)に含まれる時間待ち処理の待ち時間を調整しながら加工動作を繰返すことで時間待ち処理の待ち時間を機械学習することにより、最適な待ち時間を設定できるようにする。また、機械動作のタイミングを合わせるための信号の待ち合わせ処理については、該待合せ処理を時間待ちの処理へと変更した上で時間待ち処理の待ち時間を機械学習することにより、最適な待ち時間を設定できるようにする。これにより、レスポンスの良い機械動作を達成する。
<1.機械学習>
一般に、機械学習には教師あり学習や教師なし学習など、その目的や条件によって様々なアルゴリズムに分類されている。本発明ではプログラマブルコントローラにおける時間待ち処理の待ち時間の学習を目的としており、制御装置から取得される加工のサイクルタイムやシーケンス処理の論理異常データ、制御対象となる機械の誤動作などに基づいて各時間待ち処理の待ち時間に対してどのような行動(待ち時間の調整)をすることが正しいのかを明示的に示すことが困難であることを考慮して、報酬を与えるだけで機械学習器が目標到達のための行動を自動的に学習する強化学習のアルゴリズムを採用する。
図1は、強化学習アルゴリズムの基本的な概念を説明する図である。強化学習においては、学習する主体となるエージェント(機械学習器)と、制御対象となる環境(制御対象システム)とのやりとりにより、エージェント学習と行動が進められる。より具体的には、(1)エージェントはある時点における環境の状態stを観測し、(2)観測結果と過去の学習に基づいて自分が取れる行動atを選択して行動aを実行し、(3)行動atが実行されることで環境の状態stが次の状態st+1へと変化し、(4)行動atの結果としての状態の変化に基づいてエージェントが報酬rt+1を受け取り、(5)エージェントが状態st、行動at、報酬rt+1および過去の学習の結果に基づいて学習を進める、といったやりとりがエージェントと環境の間で行われる。
上記した(5)における学習では、エ−ジェントは例えば報酬rtの合計の最大化を目的として、観測された状態stから行動atの出力へのマッピングを獲得する。例えば、各時刻において取り得る状態の個数がm、取り得る行動の個数がnとすると、行動を繰り返すことによって状態stと行動atの組に対する報酬rt+1を記憶するm×nの2次元配列が得られる。
そして、上記得られたマッピングに基づいて現在の状態や行動がどのくらい良いのかを示す関数である価値関数(評価関数)を用い、行動を繰り返す中で価値関数(評価関数)を更新していくことにより状態に対する最適な行動を学習していく。
状態価値関数は、ある状態stがどのくらい良い状態であるのかを示す価値関数である。状態価値関数は、状態を引数とする関数として表現され、行動を繰り返す中での学習において、ある状態における行動に対して得られた報酬や、該行動により移行する未来の状態の価値などに基づいて更新される。状態価値関数の更新式は強化学習のアルゴリズムに応じて定義されており、例えば、強化学習アルゴリズムの1つであるTD学習においては、状態価値関数は以下の数1式で定義される。なお、数1式においてαは学習係数、γは割引率と呼ばれ、0<α≦1、0<γ≦1の範囲で定義される。
Figure 2017033040
また、行動価値関数は、ある状態stにおいて行動atがどのくらい良い行動であるのかを示す価値関数である。行動価値関数は、状態と行動を引数とする関数として表現され、行動を繰り返す中での学習において、ある状態における行動に対して得られた報酬や、該行動により移行する未来の状態における行動の価値などに基づいて更新される。行動価値関数の更新式は強化学習のアルゴリズムに応じて定義されており、例えば、代表的な強化学習アルゴリズムの1つであるQ学習においては、状態価値関数は以下の数2式で定義される。なお、数2式においてαは学習係数、γは割引率と呼ばれ、0<α≦1、0<γ≦1の範囲で定義される。
Figure 2017033040
なお、この価値関数(評価関数)を学習して記憶する方法としては、近似関数を用いる方法や、配列を用いる方法以外にも、例えば状態sが多くの状態を取るような場合には状態st、行動atを入力として価値(評価)を出力する多値出力のSVMやニューラルネットワーク等の教師あり学習器を用いる方法などがある。
そして、上記した(2)における行動の選択においては、過去の学習によって作成された価値関数(評価関数)を用いて現在の状態stにおいて将来にわたって最大の報酬Rが得られる行動at(状態価値関数を用いている場合には、もっとも価値の高い状態へ移るための行動、行動価値関数を用いている場合には該状態において最も価値の高い行動)を選択する。なお、エージェントの学習中には学習の進展を目的として(2)における行動の選択において一定の確率でランダムな行動を選択することも有効ある(εグリーディ法)。
このように、(1)〜(5)を繰り返すことで学習が進められる。ある環境において学習が終了した後に、新たな環境におかれた場合でも追加の学習を行うことでその環境に適応するように学習を進めることができる。したがって、本発明のようにシーケンスプログラムに含まれる時間待ち処理の待ち時間の調整に適用することで、新しいシーケンスプログラムを作成した際にも、過去の時間待ち処理の待ち時間の学習に、新しいシーケンスプログラムを新たな環境とした追加の学習をすることで、時間待ち処理の待ち時間調整の学習を短時間で行うことが可能となる。
また、強化学習においては、複数のエージェントをネットワークなどを介して接続したシステムとし、エージェント間で状態s、行動a、報酬rなどの情報を共有してそれぞれの学習に利用することで、それぞれのエージェントが他のエージェントの環境も考慮して学習をする分散強化学習を行うことで効率的な学習を行うことができる。本発明においても、複数の環境(制御対象となる機械)を制御する複数のエージェント(機械学習器)がネットワークなどを介して接続された状態で分散機械学習を行うことで、プログラマブルコントローラでの時間待ち処理の待ち時間の調整の学習を効率的に行わせることができるようになる。
なお、強化学習のアルゴリズムとしては、Q学習、SARSA法、TD学習、AC法など様々な手法が周知となっているが、本発明に適用する方法としていずれの強化学習アルゴリズムを採用してもよい。なお、それぞれの強化学習アルゴリズムは周知なので、本明細書における各アルゴリズムの詳細な説明は省略する。
以下では、機械学習器を導入した本発明の機械の制御装置について、具体的な実施形態に基づいて説明する。
<2.実施形態>
図2は、本発明の一実施形態における人工知能となる機械学習器を導入した制御装置におけるシーケンスプログラムに含まれる時間待ち処理の待ち時間調整の機械学習に関するイメージを示す図である。なお、図2には本実施形態における機械学習の説明に必要な構成のみを示している。
本実施形態において、機械学習器20が環境(<1.機械学習>で説明した状態st)を特定するための情報として、シーケンスプログラムに含まれる各時間待ち処理の待ち時間、機械1による加工におけるサイクルタイム、機械1による加工において発生したシーケンスの論理異常、機械1による加工において発生した機械1の誤動作を機械学習器に対して入力している。これら各値は、機械1の各部から取得されたデータおよび制御装置2から取得されたデータである。
図3は、本実施形態における環境を特定するための情報について説明する図である。本実施形態における制御装置2は、シーケンスプログラムが入力されるとプログラム解析部3が該シーケンスプログラムを解析して信号の待ち合わせ処理をしている接点(図3(a))を検出し、該検出された待ち合わせ処理をしている接点を時間待ち処理をするタイマ(図3(b))に変換する。そして、シーケンスプログラムに含まれる時間待ち処理の接点の待ち時間を環境を特定する状態データの1つとして用いる。
本実施形態では、機械学習器20が環境に対して出力するもの(<1.機械学習>で説明した行動at)として、シーケンスプログラム中の時間待ち処理の待ち時間の調整を出力データとしている。
また本実施形態では、機械学習器20に対して与えられる報酬(<1.機械学習>で説明した報酬rt)として、シーケンスプログラムに含まれる待ち時間動作の待ち時間の短縮(プラス報酬、マイナス報酬)、機械1による加工のサイクルタイム(プラス報酬、マイナス報酬)、機械1による加工において発生したシーケンスの論理異常(マイナス報酬)、機械1による加工において発生した機械1の誤動作(マイナス報酬)などを採用する。なお、いずれのデータに基づいて報酬を決定するのかについては、オペレータが適宜設定するようにしてもよい。
更に、本実施形態では、機械学習器20は上記した入力データ、出力データ、報酬に基づいて機械学習を行う。機械学習においては、ある時刻tにおいて、入力データの組み合わせにより状態stが定義され、定義された状態stに対して行われる待ち時間の調整が行動atとなり、そして、行動atにより移待ち時間の調整が行われた結果として新たに得られた入力データに基づいて評価計算された値が報酬rt+1となり、これを<1.機械学習>で説明したように、機械学習のアルゴリズムに応じた価値関数(評価関数)の更新式に当てはめることにより学習を進める。
以下では、機械1の機能ブロック図に基づいて説明する。
図4は、本実施形態の機械の機能ブロック図である。本実施形態の機械1は、ワークの加工において各軸を駆動するためのサーボモータなどの駆動部(図示せず)、該サーボモータを制御するサーボ制御部(図示せず)などの機械が標準的に備える構成と、該駆動部を制御する制御装置2、および機械学習を行う人工知能となる機械学習器20を備える。図4に示した構成を、図1に示した強化学習における要素と対比すると、機械学習器20がエージェントに対応し、機械1が備える駆動部や制御装置2などを含む全体が環境に対応する。
制御装置2は、図示しないメモリから読み出された、または図示しない入力機器などを介して入力されたプログラムを解析して機械1の各部を制御する。制御装置2が機械の制御に用いるプログラムにはシーケンスプログラムが含まれており、該シーケンスプログラムはプログラム解析部3により解析されて信号待ち動作をしている接点が検出され、該検出された信号待ち動作をしている接点が時間待ち処理をするタイマに変換された上でプログラマブルコントローラ4に読み込まれる。
プログラマブルコントローラ4は、読み込んだシーケンスプログラムに基づいて機械1に対するシーケンス制御を行なう。また、プログラマブルコントローラ4に読み込まれたシーケンスプログラムにおける時間待ち処理をする接点に関する情報は、プログラマブルコントローラ4の外部から確認、および待ち時間の調整ができるようになっている。
機械学習を行う機械学習器20は、状態観測部21、状態データ記憶部22、報酬条件設定部23、報酬計算部24、待ち時間調整学習部25、学習結果記憶部26、待ち時間出力部27を備える。前記機械学習器20は、機械1内や制御装置2内に備えるように構成してもよいし、機械1外のパソコン等に備えるようにしてもよい。
状態観測部21は、制御装置2を介して機械1に関する状態データを観測して機械学習器20内に取得する機能手段である。状態データとしては上記したシーケンスプログラムに含まれる各時間待ち処理の待ち時間、機械1による加工におけるサイクルタイム、機械1による加工において発生したシーケンスの論理異常、機械1による加工において発生した機械1の誤動作などがある。
状態データ記憶部22は状態データを入力して記憶し、記憶した該状態データを報酬計算部24や待ち時間調整学習部25に対して出力する機能手段である。入力される状態データは、最新の加工運転で取得したデータでも、過去の加工運転で取得したデータでも構わない。また、他の機械学習器20や集中管理システム30に記憶された状態データを入力して記憶したり、出力したりすることも可能である。
報酬条件設定部23は、機械学習において報酬を与える条件を設定するための機能手段である。報酬にはプラスの報酬とマイナスの報酬があり、適宜設定が可能である。さらに、報酬条件設定部23への入力は集中管理システム30で使用しているパソコンやタブレット端末等からでも構わないが、機械1が備える図示しないMDI機器を介して入力できるようにすることで、より簡便に設定することが可能となる。
報酬計算部24は、報酬条件設定部23で設定された条件に基づいて状態観測部21または状態データ記憶部22から入力された状態データを分析し、計算された報酬を待ち時間調整学習部25に出力する。
以下に、本実施形態における報酬条件設定部23で設定する報酬条件の例を示す。
●[報酬1:シーケンスプログラムに含まれる待ち時間動作の待ち時間の短縮(プラス報酬,マイナス報酬)]
シーケンスプログラムに含まれる待ち時間動作の待ち時間が短縮された場合に、その度合いに応じてプラスの報酬を与える。報酬の算出においては、待ち時間が所定の基準値から見て短ければ短いほどプラス値が大きくなる報酬となるようにし、長ければ長いほどマイナス値が大きくなる報酬となるようにする。待ち時間の所定の基準値については、プログラム解析部3がシーケンスプログラムを変換する際に時間待ち処理の待ち時間として設定した初期待ち時間を基準とすればよい。
●[報酬2:機械1による加工のサイクルタイムの短縮(プラス報酬,マイナス報酬)]
機械1による加工のサイクルタイムが短縮された場合に、その度合いに応じてプラスの報酬を与える。報酬の算出においてはサイクルタイムが所定の基準値から見て短ければ短いほどプラス値が大きくなる報酬となるようにし、長ければ長いほどマイナス値が大きくなる報酬となるようにする。サイクルタイムの所定の基準値については、機械1による加工が最初に開始された際の1回の加工に掛かった加工時間を基準とすればよい。
●[報酬3:加工において発生したシーケンスの論理異常(マイナス報酬)]
機械1による加工において、プログラマブルコントローラ4によりシーケンスプログラムの論理異常が検出された場合、その論理異常の重要度に応じてマイナス報酬を与える。論理異常の重要度は、予め報酬条件設定部23により設定するようにしておく。
●[報酬4:加工において発生した機械1の誤動作(マイナス報酬)]
機械1による加工において誤動作が検出された場合、その誤動作の重要度に応じてマイナス報酬を与える。誤動作の重要度は、予め報酬条件設定部23により設定するようにしておく。
図2に戻って、待ち時間調整学習部25は、機械1による1サイクルの加工が完了する度に、状態データと、自身が行ったシーケンスプログラムの待ち時間の調整、および報酬計算部24で計算された報酬とに基づいて機械学習(強化学習)を行うと共に、過去の学習結果に基づいて現在の状態データに基づいてシーケンスプログラムにおける時間待ち処理の待ち時間を調整する。ここでいう待ち時間を調整が、機械学習に用いられる行動aに相当する。
ここで、待ち時間調整学習部25が行う機械学習においては、ある時刻tにおける状態データの組み合わせにより状態stが定義され、定義された状態stに応じて待ち時間を調整して後述する待ち時間出力部27により該調整結果を出力することが行動atとなり、そして、調整結果に基づいて機械1による加工が行われた結果として得られた状態データに基づいて前記報酬計算部24で計算された値が報酬rt+1となる。学習に用いられる価値関数については、適用する学習アルゴリズムに応じて決定する。例えば、Q学習を用いる場合には、上記した数2式に従って行動価値関数Q(st,at)を更新することにより学習を進めるようにすれば良い。
待ち時間の調整の際には、各時間待ち処理の待ち時間をあらかじめ初期値に定めた上で、繰り返し加工していく中で少なくとも1つの時間待ち処理の待ち時間を所定の範囲内で変動させるようにする調整方法が考えられる。その後、該時間待ち処理の待ち時間をある程度変動させた後に、変動対象とする時間待ち処理を他のものに変更するなどして、待ち時間の変更を学習するようにすれば良い。
更に、上記したεグリーディ法を採用し、所定の確率でランダムな行動を選択することで学習の進展を図るようにしてもよい。
学習結果記憶部26は、前記待ち時間調整学習部25が学習した結果を記憶する。また、待ち時間調整学習部25が学習結果を再使用する際には、記憶している学習結果を待ち時間調整学習部25に出力する。学習結果の記憶には、上述したように、利用する機械学習アルゴリズムに応じた価値関数を、近似関数や、配列、又は多値出力のSVMやニューラルネットワーク等の教師あり学習器などにより記憶するようにすれば良い。
なお、学習結果記憶部26に、他の機械学習器20や集中管理システム30が記憶している学習結果を入力して記憶させたり、学習結果記憶部26が記憶している学習結果を他の機械学習器20や集中管理システム30に対して出力したりすることも可能である。
待ち時間出力部27は、前記待ち時間調整学習部25による待ち時間の調整結果を制御装置2のプログラマブルコントローラ4に対して出力する。プログラマブルコントローラ4は待ち時間出力部27から出力された各時間待ち処理の待ち時間に基づいてシーケンスプログラム内の各時間待ち処理の待ち時間を調整し、調整されたシーケンスプログラムに基づいて機械1のシーケンス制御を行なう。
そして、加工が完了したら再び状態データの取得が機械学習器20により行われ、入力された状態データを使用して学習を繰り返すことにより、より優れた学習結果を得ることができる。
上記学習が完了した学習データを用いて実際に機械1で加工する際には、機械学習器20は新たな学習を行なわないようにして学習完了時の学習データをそのまま使用して繰り返し運転をするようにしてもよい。
また、学習が完了した機械学習器20(または、他の機械学習器20の完了した学習データを学習結果記憶部26に複写した機械学習器20)を他の機械1に取付けて、学習完了時の学習データをそのまま使用して繰り返し運転をするようにしてもよい。
更に、学習が完了した機械学習器20の学習機能を有効にしたままで他の機械1に取付けて、ワークの加工を続けることで、機械1毎に異なる個体差や経年変化などを更に学習させ、当該機械1にとってより良い時間待ち処理の待ち時間を学習しながら運転することも可能である。
なお、上記したように機械1の制御装置2を用いて学習動作をする場合、制御装置2は実際に機械1を動作させずに仮想的な部品加工処理に基づいて学習するようにしてもよい。また、別途機械の動作をシミュレーションするシミュレーション部を設け、該シミュレーション部を用いて学習動作を行わせるようにしてもよい。
機械学習器20は単独で機械学習をするようにしてもよいが、複数の機械学習器20がそれぞれ外部との通信手段を更に備えると、それぞれの前記状態データ記憶部22が記憶した状態データや学習結果記憶部26が記憶した学習結果を送受信して共有することが可能となり、より効率良く機械学習を行うことができる。例えば、所定の範囲内でシーケンスプログラムの各時間待ち処理の待ち時間を変動させて学習する際に、複数の機械学習器20において異なる時間待ち処理を待ち時間を所定の範囲内でそれぞれ変動させて加工を行いながら、それぞれの機械学習器20の間で状態データや学習データをやり取りすることにより並列して学習を進めるようにすることで効率的に学習させることができる。
このように複数の機械学習器20間でやり取りする際には、通信は集中管理システム30等のホストコンピュータを経由しても、直接機械学習器20同士が通信しても構わないし、クラウドを使用しても構わないが、大量のデータを取り扱う場合があるため、なるべく通信速度が速い通信手段が好ましい。
以上、本発明の実施の形態について説明したが、本発明は上述した実施の形態の例のみに限定されることなく、適宜の変更を加えることにより様々な態様で実施することができる。
例えば、上記で説明した実施形態においては、シーケンス制御に用いるシーケンスプログラムをプログラム解析部3により解析し、信号待ち処理をしている接点を時間待ち処理をするタイマに変換した上で、該シーケンスプログラムの時間待ち処理の待ち時間の調整を機械学習器20が機械学習する例を示したが、例えばプログラム解析部3によるシーケンスプログラムの変換を行うことなく、元々シーケンスプログラムに含まれている時間待ち処理の待ち時間の調整を機械学習器20が機械学習するように構成してもよく、これにより元々シーケンスプログラムに含まれている時間待ち処理についてのみ待ち時間の最適化を行うようにすることができる。
1 機械
2 制御装置
3 プログラム解析部
4 プログラマブルコントローラ
20 機械学習器
21 状態観測部
22 状態データ記憶部
23 報酬条件設定部
24 報酬計算部
25 待ち時間調整学習部
26 学習結果記憶部
27 待ち時間出力部
30 集中管理システム

Claims (5)

  1. プログラマブルコントローラを備え、該プログラマブルコントローラに読み込まれたシーケンスプログラムに基づいて機械をシーケンス制御する制御装置において、
    少なくとも前記機械による加工のサイクルタイムを入力として前記シーケンスプログラムに含まれる時間待ち処理における待ち時間の調整を機械学習する機械学習器を備え、
    該機械学習器は機械学習の結果に基づいて、前記加工のサイクルタイムが短くなるように前記時間待ち処理における待ち時間を変更する、
    ことを特徴とする制御装置。
  2. 前記シーケンスプログラム内を解析し、信号による待ち合わせ処理を検出して、該待ち合わせ処理を時間待ち処理へと変換するプログラム解析部を更に備える、
    ことを特徴とする請求項1に記載の制御装置。
  3. 前記機械学習器は、前記機械における加工のサイクルタイムが短縮された場合をプラスの報酬とし、前記機械における加工のサイクルタイムが伸びた場合をマイナスの報酬として機械学習する、
    ことを特徴とする請求項1または2に記載の制御装置。
  4. 前記機械学習器は、更に前記時間待ち処理の待ち時間の変更による前記シーケンスプログラムの論理の不一致、または前記時間待ち処理の待ち時間の変更による前記機械の誤動作を入力として機械学習を行い、
    前記シーケンスプログラムの論理の不一致、または前記機械の誤動作が検出された場合をマイナスの報酬として機械学習する、
    ことを特徴とする請求項1または2に記載の制御装置。
  5. 機械のシーケンス制御に用いられるシーケンスプログラムにおける時間待ち処理の待ち時間の調整を機械学習した機械学習器であって、
    前記待ち時間の調整の機械学習結果を記憶する学習結果記憶部と、
    少なくとも前記機械による加工のサイクルタイムを含む状態データを取得する状態観測部と、
    前記待ち時間の調整の機械学習結果と、前記状態観測部が取得した前記状態データと、に基づいて前記待ち時間の調整を行う待ち時間調整学習部と、
    前記待ち時間調整学習部が調整した前記時間待ち処理の前記待ち時間を出力する待ち時間出力部と、
    を備えたことを特徴とする機械学習器。
JP2015148933A 2015-07-28 2015-07-28 Plcプログラムの最適化機能を備えた制御装置及び機械学習器 Active JP6659260B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015148933A JP6659260B2 (ja) 2015-07-28 2015-07-28 Plcプログラムの最適化機能を備えた制御装置及び機械学習器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015148933A JP6659260B2 (ja) 2015-07-28 2015-07-28 Plcプログラムの最適化機能を備えた制御装置及び機械学習器

Publications (2)

Publication Number Publication Date
JP2017033040A true JP2017033040A (ja) 2017-02-09
JP6659260B2 JP6659260B2 (ja) 2020-03-04

Family

ID=57988826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015148933A Active JP6659260B2 (ja) 2015-07-28 2015-07-28 Plcプログラムの最適化機能を備えた制御装置及び機械学習器

Country Status (1)

Country Link
JP (1) JP6659260B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018151959A (ja) * 2017-03-14 2018-09-27 オムロン株式会社 判定装置、判定プログラムおよび学習方法
KR20210043672A (ko) * 2018-08-20 2021-04-21 지멘스 악티엔게젤샤프트 인공 지능을 위한 프로그래밍가능 로직 제어기-기반 모듈식 가속 모듈

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH117326A (ja) * 1997-06-13 1999-01-12 Omron Corp 温度調節装置
JP2001216006A (ja) * 2000-02-04 2001-08-10 Meidensha Corp プログラミング支援方式
JP2001341001A (ja) * 2000-06-02 2001-12-11 Murata Mach Ltd 旋 盤

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH117326A (ja) * 1997-06-13 1999-01-12 Omron Corp 温度調節装置
JP2001216006A (ja) * 2000-02-04 2001-08-10 Meidensha Corp プログラミング支援方式
JP2001341001A (ja) * 2000-06-02 2001-12-11 Murata Mach Ltd 旋 盤

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018151959A (ja) * 2017-03-14 2018-09-27 オムロン株式会社 判定装置、判定プログラムおよび学習方法
KR20210043672A (ko) * 2018-08-20 2021-04-21 지멘스 악티엔게젤샤프트 인공 지능을 위한 프로그래밍가능 로직 제어기-기반 모듈식 가속 모듈
JP2021534506A (ja) * 2018-08-20 2021-12-09 シーメンス アクチエンゲゼルシヤフトSiemens Aktiengesellschaft プログラマブルロジックコントローラベースの人工知能用モジュール式アクセラレーションモジュール
KR102536763B1 (ko) * 2018-08-20 2023-05-26 지멘스 악티엔게젤샤프트 인공 지능을 위한 프로그래밍가능 로직 제어기-기반 모듈식 가속 모듈
US12013676B2 (en) 2018-08-20 2024-06-18 Siemens Aktiengesellschaft Programmable logic controller-based modular acceleration module for artificial intelligence

Also Published As

Publication number Publication date
JP6659260B2 (ja) 2020-03-04

Similar Documents

Publication Publication Date Title
JP6063013B1 (ja) びびり或いは工具摩耗/破損の発生を抑制する加工条件調整機能を有する数値制御装置
JP6219897B2 (ja) 最適な加減速を生成する工作機械
JP6169655B2 (ja) 工作機械、シミュレーション装置、及び機械学習器
US10289075B2 (en) Machine learning apparatus for optimizing cycle processing time of processing machine, motor control apparatus, processing machine, and machine learning method
US10180667B2 (en) Controller-equipped machining apparatus having machining time measurement function and on-machine measurement function
JP6077617B1 (ja) 最適な速度分布を生成する工作機械
JP6457563B2 (ja) 数値制御装置及び機械学習装置
US10112247B2 (en) Wire electric discharge machine having movable axis abnormal load warning function
JP2017042882A (ja) 加工条件を調整しながら加工を行うワイヤ放電加工機
JP6453919B2 (ja) 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム
JP2016100009A (ja) 機械の動作を制御する方法、および機械の動作を反復的に制御する制御システム
CN106485992A (zh) 机械学习方法、机械学习装置、控制装置以及电动机装置
JP6718500B2 (ja) 生産システムにおける出力効率の最適化
US10459424B2 (en) Numerical controller for controlling tapping
CN108736881B (zh) 电路结构最优化装置以及机器学习装置
US10493625B2 (en) System for generating sets of control data for robots
JP2017033979A (ja) 実装タクトおよび消費電力を低減する部品マウンタ及び機械学習器
JP6659260B2 (ja) Plcプログラムの最適化機能を備えた制御装置及び機械学習器
WO2022210472A1 (ja) 加工条件調整装置
WO2020121494A1 (ja) 演算装置、アクション決定方法、及び制御プログラムを格納する非一時的なコンピュータ可読媒体
JP2023002489A (ja) 機械学習アルゴリズムをトレーニングするための方法
JP7179672B2 (ja) 計算機システム及び機械学習方法
JP7060546B2 (ja) 歯当たり位置調整量推定装置、機械学習装置、ロボットシステム及び歯当たり位置調整量推定システム
CN115485630A (zh) 用于控制器的方法和系统
US20230393540A1 (en) Model management system, model management method, and model management program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191111

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200206

R150 Certificate of patent or registration of utility model

Ref document number: 6659260

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150