JP2023163444A

JP2023163444A - 学習装置、学習装置の制御方法、プログラム

Info

Publication number: JP2023163444A
Application number: JP2022074366A
Authority: JP
Inventors: 航平江口; Kohei Eguchi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2023-11-10

Abstract

【課題】状況に応じて変化する制御目標に対応した制御を行うことが難しい場合があった。【解決手段】観測周期ごとに制御の対象の状態を観測する観測手段と、前記観測手段で観測したデータに応じた操作量を制御の対象へ出力する推論手段と、前記推論手段が制御の対象へ出力する操作量を強化学習する学習手段と、前記観測手段が出力する状態の少なくとも１つに対応する制御目標を設定する設定手段と、を備え、前記学習手段が強化学習しているあいだに、前記設定手段が前記制御目標を変更し、報酬は前記制御目標と前記対象の状態に基づいて算出することを特徴とする学習装置。【選択図】図１

Description

本発明は、制御について学習する際の制御目標を設定する学習装置に関する。

従来より、制御目標によって制御パラメータを変更する技術が開示されている。例えば、特許文献１では自動制御を稼働させている状態で、制御目標の変化に対して制御出力が大きく変化することなく、調整パラメータを変更する技術が開示されている。特許文献２ではフィードフォワード補償信号を発生するニューラルネットワーク補償器を学習する際に、目標値の顕著な変化が発生した際には学習が適切に行えないため学習を中止する技術が開示されている。

特開２０２０－３０５６７号公報特開平４―３２６１０１号公報

強化学習においてエージェントと呼ばれる学習主体は、環境と呼ばれる学習対象の状態を観測し、その状態に応じた行動を環境に指示する。そして、その指示の結果観測周期後の環境の状態がどう変化したかを観測し報酬という指標を基に初めの状態で指示した行動が良かったか判断する。強化学習は初めの状態を観測してから次の状態を観測するまでを１観測周期間で行う。

強化学習を制御に応用する場合、エージェントは制御器、環境は制御対象となるが、強化学習制御器を実用するためには変化する制御目標が入力された際に制御量が追従できるように制御できなければならない。これは制御対象であるモータを状況に応じて異なる速度で駆動することがあるためで、例えば、速度について制御を行う場合は複数の速度目標を状況に応じて使い分けることがある。しかし、速度目標を可変にしたい場合に、一つの速度目標で学習するとその速度目標に特化してしまう。その結果、推論時つまり実際に速度制御動作を行う際に学習時に用いていない他の速度目標を設定した場合に適切な制御ができずに速度目標と実速度の間に偏差が出てしまうことがある。

上述の特許文献１に開示された従来技術では、制御目標の変化に対して調整パラメータを変更しているが、強化学習で変化する制御目標に対応するための学習はできない。

また上述の特許文献２に開示された従来技術では、目標値の顕著な変化に対して学習を止めることで学習を適切に行っているが、変化する制御目標に対応するという課題に対しては効果的ではない。

そこで、本発明は、状況に応じて変化する制御目標に対応した制御を行うことを可能にした強化学習方法を提供することを目的とする。

上記目的を達成するために本発明における学習装置は、観測周期ごとに制御の対象の状態を観測する観測手段と、前記観測手段で観測したデータに応じた操作量を制御の対象へ出力する推論手段と、前記推論手段が制御の対象へ出力する操作量を強化学習する学習手段と、前記観測手段が出力する状態の少なくとも１つに対応する制御目標を設定する設定手段と、を備え、前記学習手段が強化学習しているあいだに、前記設定手段が前記制御目標を変更し、報酬は前記制御目標と前記対象の状態に基づいて算出することを特徴とする。

本発明によれば状況に応じて変化する制御目標に対応した制御を行うことを可能にした強化学習方法を提供することができる。

本発明の実施形態１における強化学習の概念を示す図である。本発明の実施形態１における学習に使用するディープニューラルネットワークを示す図である。本発明の実施形態１における強化学習方法の構成を示すブロック図である。本発明の実施形態１における複数の目標速度の一例を示す図である。本発明の実施形態１における複数の目標速度についての学習のための報酬を示す図である。本発明の実施形態１におけるモータの初期状態を変化させた場合の応答例を示す図である。本発明の実施形態１における処理の流れを示すフローチャートである。本発明の実施形態２における処理の流れを示すフローチャートである。

以下に、本発明の好ましい実施の形態を、添付の図面に基づいて詳細に説明する。

［第一の実施形態］
図１は、本発明の実施形態に関わる強化学習の概念図である。強化学習は学習主体をエージェント、学習対象と学習対象が影響を及ぼす系をまとめて環境と定義する。エージェントは実際に学習を行うディープニューラルネットワーク（ＤＮＮ）と、学習中の経験を蓄積する経験データ記憶部で構成される。ＤＮＮへの入力は状態Ｓ、ＤＮＮの出力は行動Ａで、状態Ｓは学習対象である環境の状態を十分に表現できる情報を設定する。強化学習は状態Ｓを観測し、ＤＮＮに入力することで行動Ａを出力する。次に環境はＤＮＮが出力した行動Ａを実行し、状態Ｓが次の状態である状態Ｓａに遷移する。環境はあらかじめ定められた報酬算出方法を参照し、状態Ｓａを基に報酬Ｒを算出してエージェントへ渡す。強化学習では１観測周期で上記の処理を行い、得られた１観測周期での状態Ｓ、行動Ａ、報酬Ｒ、次の状態Ｓａを経験データ記憶部に蓄積し、あらかじめ定めた学習タイミングで蓄積した経験データを呼び出しＤＮＮの学習を行う。

図２は、図１のディープニューラルネットワーク（ＤＮＮ）の構造の一例を示したものである。丸はノードを、ノード間を繋ぐ矢印は重みを表し、各ノードでは重みと前層の出力の積と固定の値であるバイアスの総和を活性化関数と呼ばれる非線形関数に入力し、関数出力を次の層に出力する。図１の説明で示したように入力は状態Ｓである。出力はＱ値と呼ばれる各行動の価値を表す値であり、図２中のＱａ～Ｑｆが各行動のＱ値を表す。ＤＮＮは入力された各状態Ｓにおける各行動の価値を予測し、最もＱ値が大きい行動を選択する。学習時にはＤＮＮの重みを更新し、より正しく各行動の価値を予測できるようにしていく。

図３は、本実施形態の強化学習装置３００のハードウェア構成をブロック図で示したものである。通信部３０１は外部との通信を行い他のブロックに対してのやり取りを行う。入出力インターフェース３０２はユーザーが機械学習装置３００に対しての入力を行うためのインターフェースである。ＤＮＮ処理部３０３は強化学習に使用するディープニューラルネットワーク演算を行う。ＣＰＵ３０４は通信部３０１を通したユーザーの指示の実施などを行う。ＲＯＭ３０５にはＣＰＵ３０４が実施すべき処理内容が格納されているものとする。メモリ３０６は機械学習装置３００の処理で必要なパラメータを格納するためのもので、行列演算の重み行列の値を格納する役割などを担う。

図４は、本実施形態において３つの制御目標がある場合を表す図である。本実施形態では、強化学習対象をモータとし、その一定速制御を学習する。図４では目標速度が３つ設定されている例を表しており、速度応答４０１、４０２、４０３のようにそれぞれの目標速度に追従する制御を一つの学習器で実現することを目標とする。

図５は、本実施形態において環境からエージェントに与える報酬を表現する関数、図６は初期状態を変化させた場合の速度応答の例であり、図７は制御目標を切り替えながら強化学習する際のフローチャートである。以後、図７のフローチャートの流れに沿って、本発明の第１の実施形態による、強化学習によるＤＣモータの速度制御動作の獲得について説明する。本実施形態では図１のエージェント１０１が強化学習器で、環境１０４がＤＣモータとなる。

図７のＳ７０１では環境の状態Ｓを観測する。本実施形態では状態Ｓは目標速度と現時刻の回転速度との差分である速度偏差とする。一番初めの状態Ｓはモータの回転速度を０とするため速度偏差＝目標速度となる。目標速度は学習開始前にあらかじめ複数定めておき、目標速度番号を連番で与える。学習開始直後の初めてのＳ７０１の処理では目標速度番号１の目標速度を使用し、それ以降はＳ７０１の処理を行う際の目標速度番号を参照して目標速度を使用する。

Ｓ７０２ではＳ７０１で観測した状態Ｓを図１のＤＮＮ１０３に入力し、ＤＮＮ１０３は各行動のＱ値を出力し、最もＱ値が大きい行動Ａを操作量としてＤＣモータに入力する推論を行う。図２の出力Ｑａ～Ｑｆが各行動のＱ値を示す。本実施形態での行動Ａ（操作量）は、ＤＣモータに入力する電圧であり、０Ｖから最大印可電圧までをあらかじめ定めた分解能で分割する。例えば、最大印可電圧が５．５Ｖで分解能を０．５Ｖとする場合、行動は０Ｖ、０．５Ｖ、１．０Ｖ、…、５．５Ｖで１２パターンある。

Ｓ７０３では、環境１０４であるＤＣモータがＳ７０２でＤＮＮ１０３が出力した電圧を印可され、制御量である回転速度が変化する。Ｓ７０２で出力された操作量を印可される時間は観測周期Ｔで定められ、時間Ｔ後の回転速度が新たな状態Ｓａとなる。

Ｓ７０４では、新たな状態Ｓａに応じてあらかじめ定められた報酬算出方法に則り報酬Ｒを算出し、エージェント１０１に送る。

本実施形態では、ＤＣモータの速度制御を学習により獲得するために、報酬算出方法は速度偏差が小さいほど高い報酬Ｒを与えるように設定し、図５の報酬関数を用いた。図５の報酬関数はＳ７０３で遷移した新たなＤＣモータの回転速度を目標速度で割って算出した偏差率が、１００％に近いほど高報酬となるように設定している。偏差率ではなく目標速度と現在速度の差分で算出する速度偏差に応じて報酬を算出する場合、複数の目標速度に対して同じ速度偏差となった時に同じ報酬を算出するが実際には同じ価値を持たない可能性があるため正しく学習することができない。

例えば、図４において目標速度２が１００ｒｐｓ、目標速度３が５０ｒｐｓであり速度偏差が５０であったとする。この時、目標速度２の場合は現在速度が５０ｒｐｓであり加速途中であと少しの加速で良いという状態だが、目標速度３の場合は現在速度０ｒｐｓであり全く加速できておらず加速が必要である。しかし、報酬としては同じ値を与えてしまうためどちらの目標速度の場合でも行動Ａを同じ価値だと評価しまい、結果正しく学習を行うことができない。そのため、目標速度を切り替えながら強化学習を行う場合は速度偏差ではなく偏差率を用いた方がより正しく学習を行うことができる。

Ｓ７０５では、１観測周期Ｔでの状態Ｓ、行動Ａ、新たな状態Ｓａ、報酬Ｒを同じ観測周期Ｔでのデータとしてまとめて、エージェント１０１の経験データ記憶部１０２に保存する。ここまでの１観測周期間を強化学習ではステップという単位で表す。

Ｓ７０６では規定ステップ数に到達しているかを判定する。規定ステップ数は環境の特性を鑑みて、定常的に目標速度を出力するのに十分なステップ数をあらかじめ定めておく。到達していた場合は、Ｓ７０８に移行し経験データ記憶部１０２に蓄積されているデータからランダムな複数のステップの状態Ｓ、行動Ａ、新たな状態Ｓａ、報酬Ｒを読み出し、ＤＮＮ１０３の重みの更新を行う。

Ｓ７０８での重みの更新方法を説明する。強化学習は観測した状態Ｓに対して、その状態Ｓでの各行動の価値を表すＱ値を出力する。そして最もＱ値が大きい行動を環境に対して行うため、様々な状態における各行動のＱ値を正しく出力するように重みを更新する。Ｑ値は報酬を用いて（式１）で更新する。

γは将来の行動価値をどれぐらい考慮するかを制御する割引率と呼ばれるパラメータである。（式１）は状態Ｓの時に行動Ａを行った結果貰った報酬Ｒ（Ｓ，Ａ）と、行動Ａにより遷移した新たな状態Ｓａにおいて最も大きいＱ値の和と、状態Ｓにおける行動Ａの現在のＱ値（Ｑ（Ｓ，Ａ））との差分で重みを更新することを表している。

Ｓ７０６で規定ステップ数に到達していなかった場合、Ｓ７０７でステップ数を１増やし、Ｓ７０２に戻りＳ７０３で遷移した新たな状態ＳａをＤＮＮ１０３に入力し、次の行動Ａを出力する。

Ｓ７０９ではエピソード数が所定の数（規定エピソード数）に達しているか否かを判定する。エピソードとは、規定ステップ数到達回数を表す単位で、規定ステップ数到達後は状態Ｓとステップ数を初期状態に戻す。Ｓ７０９で規定エピソード数に到達していなかった場合、Ｓ７１０の処理を行う。規定エピソード数に到達していた場合は、学習処理を終了する。

Ｓ７１０の処理内容を（ｂ）のフローチャートを用いて説明する。Ｓ７１１では現在の目標速度番号を確認する。Ｓ７１２ではＳ７１１で確認した目標速度番号を使用してその後の処理を選択する。目標速度番号が目標速度番号の最大値と一致していなかった場合、現在の目標速度番号に１を加算しその値を新たな目標速度番号に設定する。一致していた場合はそれ以上大きい目標速度番号を持つ目標速度は存在しないため、目標速度番号に１を設定する。Ｓ７１５ではエピソード数を１増やす。

これらのＳ７１０の処理により、例えば学習前に目標速度を３つ定めた場合、目標速度番号はエピソードが切り替わる度に１、２、３、１、２、３、１、・・・と切り替わり、それに伴い目標速度が切り替わる。

以上の処理により、強化学習によってＤＣモータの速度制御の獲得を学習する場合に任意の目標速度に対して追従する制御を行うことができる。

本実施形態では初期状態におけるモータの回転速度を０としたが、任意の回転速度として図６のような目標速度１を初期状態として目標速度２に追従する減速に関する制御として実施してもよい。

また本実施形態では環境をＤＣモータとしたが、他のモータを使用してもよい。

また本実施形態では制御方式を速度制御としたが例えば位置制御のような他の制御方式としてもよい。

また本実施形態では図７（ｂ）のＳ７１２、Ｓ７１３、Ｓ７１４で目標速度番号に１を加算し新たな目標速度番号に設定し、目標速度番号の最大値に到達した場合は１に戻るという処理とした。これについては、目標速度番号の最大値までの中からランダムに一つ選択した値を目標速度番号に設定してもよい。

［第二の実施形態］
以下、図を参照しながら、本発明の第二の実施形態における処理について説明する。

第一の実施形態においては制御器の設計段階での学習時の制御目標の変更とその時の報酬について説明した。これについては、製品に搭載する制御器である場合ユーザーの元に渡ってから制御について強化学習を行うことで、モータの劣化やグリスの硬化等の経年劣化に合わせた制御を行うことができる。本実施形態では、実装置内で稼働中のＤＣモータを例にして説明する。

図８（ａ）はユーザーの元で学習を行う際のフローチャートである。図８（ｂ）はユーザーの元で学習を行う際の制御目標の変更に関わる部分のフローチャートである。以後、図８（ａ）のフローチャートの流れに沿って、本発明の第２の実施形態によるユーザーの元での実装置内で稼働中のＤＣモータ制御の強化学習による獲得について説明する。

図８（ａ）のＳ８０１では最新日時の取得を行う。

Ｓ８０２では規定日数が経過しているかをＳ８０１で取得した日時を用いて判定する。本実施形態でユーザーの元で学習を行う目的は、経年劣化による制御性の変化に対応するためであるため規定日数ごとに強化学習を行い、最新の駆動系の状態に対応する。規定日数は出荷前にあらかじめ定めておく。

Ｓ８０３では規定日数が経過していた場合に、学習を行ってよいかの確認をユーザーに行う。学習時はＣＰＵ負荷がかかるため他の操作ができなくなる。そのためユーザーにすぐに他の操作を行う予定がある場合は学習を行わない。Ｓ８０３でユーザーが「学習を開始して良い」を選択した場合、Ｓ８０４の学習処理を開始する。Ｓ８０４の処理内容は図７（ａ）のフローチャートと同様の処理内容であるため、詳細な説明は省略する。実施形態１と異なる点は、出荷前に新品状態に合わせた学習は行われておりすでに重みがある程度最適化されている点である。

第一の実施形態と同様に、図７のＳ７１０では目標速度の変更を行う。Ｓ７１０の処理内容を図８（ｂ）のフローチャートを用いて説明する。Ｓ８０５では１からＳ７０１で与えた目標速度番号の最大値、つまり学習前にあらかじめ定めた目標速度の個数の中からランダムな整数を一つ選択する。Ｓ８０６ではＳ８０５で取得した整数を目標速度番号に設定する。これらの図８（ｂ）の処理により、エピソードが切り替わる度に学習前に定めた複数の目標速度の中からランダムな一つの目標速度を設定する。

以上の処理により、ユーザーが実装置を使用していく中での経年劣化によるＤＣモータの制御性の低下を防ぐための学習を任意の目標速度に追従するように行うことができる。

本実施形態ではＳ８０１で最新日時を取得し、Ｓ８０２の判定に規定日数を使用したが、これらは経時したことが分かればどのような値を用いてもよい。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

観測周期ごとに制御の対象の状態を観測する観測手段と、
前記観測手段で観測したデータに応じた操作量を制御の対象へ出力する推論手段と、
前記推論手段が制御の対象へ出力する操作量を強化学習する学習手段と、
前記観測手段が出力する状態の少なくとも１つに対応する制御目標を設定する設定手段と、
を備え、
前記学習手段が強化学習しているあいだに、前記設定手段が前記制御目標を変更し、
報酬は前記制御目標と前記対象の状態に基づいて算出すること
を特徴とする学習装置。
前記観測手段により観測が行われた回数を観測の周期の数とし、
前記学習手段は前記観測手段があらかじめ定められた所定の観測の周期の数を経るまで学習を行わず、
前記所定の観測の周期の数が終了した時に学習を行い、
制御の対象が初期状態から前記所定の観測の周期の数を経るまでの処理であるエピソードが終了した後は、制御の対象の状態をあらかじめ定められた初期状態にし、
前記観測の周期の数を０にしたのち次のエピソードを始めることを特徴とする請求項１に記載の学習装置。
前記設定手段が前記制御目標を変更するタイミングは、前記エピソードが終了した時とすることを特徴とする請求項１または２に記載の学習装置。
前記報酬は、前記観測手段で観測した前記状態を制御目標で割って算出する偏差率に応じて与えることを特徴とする請求項１～３のいずれか１項に記載の学習装置。
前記エピソードを開始する時の初期状態は、エピソードが開始するたびに変化させることを特徴とする請求項１～４のいずれか１項に記載の学習装置。
前記制御目標は、所定のタイミングにあらかじめ定められた複数の制御目標の中から一つずつ選択することを特徴とする請求項１～５のいずれか１項に記載の学習装置。
前記設定手段が前記制御目標を所定のタイミングで変更する際に、あらかじめ定められた全ての制御目標に変更が終わった場合は、再びあらかじめ定められた複数の制御目標の中から一つずつ選択することを特徴とする請求項１～６のいずれか１項に記載の学習装置。
前記制御目標は、所定のタイミングであらかじめ定められた複数の制御目標の中からランダムに一つ選択することを特徴とする請求項１～７のいずれか１項に記載の学習装置。
観測周期ごとに制御の対象の状態を観測する観測ステップと、
前記観測したデータに応じた操作量を制御の対象へ出力する推論ステップと、
前記推論ステップで制御の対象へ出力する操作量を強化学習する学習ステップと、
前記観測ステップで出力する状態の少なくとも１つに対応する制御目標を設定する設定ステップと、
を備え、
前記学習ステップで強化学習しているあいだに、前記設定ステップで前記制御目標を変更し、
報酬は前記制御目標と前記状態に基づいて算出すること
を特徴とする学習装置の制御方法。
コンピュータを、請求項１乃至８のいずれか１項に記載の学習装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。